CVPR 2021 |“上下文建?!笨蚣芟碌?D人體姿態估計
CVPR 2021 |“上下文建模”框架下的3D人體姿態估計
該論文由北京大學王亦洲課題組與北京電影學院等單位合作,通過從一個宏觀視角審視現有的利用肢體關節“上下文”信息輔助進行3D人體姿態估計的諸多方法,從而針對性的提出改進,使得可以很好地結合深度神經網絡與人體肢體先驗知識,實現對3D人體姿態更精準的估計。
實驗證明,該方法顯著提升了未見過場景中的泛化性能。
論文鏈接:https://arxiv.org/abs/2103.15507
1 背景介紹
利用計算機視覺技術對場景中的人進行3D姿態估計是當前重要的研究問題之一,該任務比2D姿態估計的難度更大,因為估計過程存在嚴重的歧義——關節點之間的相對深度未知(多個3D姿態可能對應相似的2D投影)。心理學實驗表明“上下文信息”在人類視覺系統為解決歧義起著重要作用。遵循這個想法,人體關節點可以在人體姿態估計中相互充當對方的“上下文”,即估計出一個關節點的位置有助于另一個關節點的定位。例如,在距離肩膀一定的上臂長度范圍內,極有可能定位到肘關節。已有諸多工作依賴于“上下文建模”方法進行人體3D姿態估計,例如圖形結構模型(PSM)或圖神經網絡(GNN),不僅如此,也有工作探索了利用周圍環境作為關節點的“上下文”,以進一步縮小搜索空間。
但是,目前沒有研究對這些方法進行嚴格的比較。因此,本文從一個宏觀視角審視現有的利用肢體關節作為“上下文”信息輔助進行3D人體姿態估計的諸多方法,推導了一個通用的基于“上下文”建模的3D人體姿態估計公式(公式1、圖1),其中 PSM 和 GNN 都是其特例。
公式1. 基于“上下文”建模的通用公式
圖1. 3D人體姿態估計任務中的“上下文建模”公式
在估計某一關節點的時候,首先從其“上下文”關節點(由輸入的人體圖結構定義)中收集特征,接著整合收集到的特征,最后利用這些特征來更新該關節點。
2 回顧PSM和GNN
一方面,PSM 是深度學習時代蓬勃發展前的用于多視角下估計人體姿態的通用模型,該方法可以被表述如下:
通俗地說,PSM 將人體關節點構成的骨架看做一棵樹結構,通過最小化所有關節點上定義的能量函數,找到離散化三維空間中每個關節點最可能存在的體素位置。當人體結構圖是無環圖時,“上下文信息”從子節點流向父節點,從而利用動態規劃進行優化。
另一方面,隨著深度學習的發展,基于深度學習方法的全連接網絡(Fully Connected Networks)和 GNN 可以通過擬合大量數據完成該任務,但是均無法利用人體所提供的豐富的先驗知識,如人體肢體長度等。前期茲海等人提出的局部連接網絡(Locally Connected Networks)(參見:Locally Connected Network for Monocular 3D Human Pose Estimation)統一表述了 GNN 類的方法,本文對其進行了進一步重新設計,使其具有與 PSM 類似的形式:
可以很容易地驗證本文提出的“上下文建模”公式(公式1、圖1)可以表述 PSM 和 GNN。并且通過公式可以看出 PSM 的優勢在于,它可以顯式地利用肢體長度約束,而 GNN 可以從大量數據中學習到隱式先驗。受此啟發,基于該通用公式,本文提出了 ContextPose,使得可以很好的結合 PSM 和 GNN 的優點。
3 模型概覽
圖2. 嵌入了ContextPose的3D人體姿態估計網絡示意
其中著重顯示了ContextPose為右膝蓋關節收集其上下文關節信息的過程。
圖2顯示了嵌入了 ContextPose 的3D人體姿態估計模型流程。給定一個輸入圖像,它首先通過已有的2D網絡(CNN)得到豐富的2D特征。接著利用相機參數將2D特征反投影回3D空間,構成3D特征。然后利用3D的編解碼網絡估計每個體素包含每個關節點的可能性(即3D關節熱度圖)。ContextPose 可以方便地嵌入到3D網絡中,以更好地融合來自不同位置的不同關節點的特征。具體來說,它通過所有體素的“上下文關節”特征的線性組合來更新當前體素內的關節點特征。其中線性組合的權重由它們的上下文的空間關系(成對注意力)和外觀(全局注意力)聯合確定。圖2的底部顯示了 ContextPose 如何為右膝蓋關節計算全局注意力和成對注意力以收集其上下文關節信息。
4 實驗結論
本文在兩個基準數據集上評估了本文的方法,觀察到 ContextPose 達到最好水平并且具有強大的跨數據集泛化能力。表1為在 H36M,即目前最大的三維人體姿態估計基準數據集之一上的表現,評價指標是預測姿態與真實姿態的平均關節誤差值,單位毫米。特別地,本文的方法比 PSM,FCN,GNN 和 LCN 的性能都要高得多,這證明了 ContextPose 上下文建模策略的有效性。
表1. 現有工作與本文的模型在H36M數據集上的定量誤差結果(越小越好)
表2顯示了 3DHP 數據集上不同方法的結果。在幾乎所有場景中,本文的方法(未使用 3DHP 數據集進行訓練)都比其他方法(包括 FCN,LCN 和 PSM)獲得了更好的 PCK 和 AUC 分數,表明 ContextPose 具有很強的泛化性能,證實了結合深度網絡和肢體長度先驗的重要性。
表2. 現有工作與本文的模型在3DHP數據集上的定量誤差結果(越大越好)
圖3為本文的模型在 H36M 和 3DHP 數據集上估計的3D姿態以及學習到的注意力(后四列隨機展示了不同關節點的注意力值)??梢钥吹?,該模型可成功泛化至背景豐富且動作較復雜的未曾見過的場景中。
圖3. 本文的模型應用在不同場景中的可視化結果
最后一行為失敗案例。
5 總結
本文首先在3D人體姿態估計任務中引入用于“上下文建模”的通用公式,該公式允許并排比較 PSM 和 GNN?;谠摴?,本文提出了可以結合二者優點的 ContextPose,在深度網絡中施加肢體長度的約束,并對其進行端到端的訓練。該方法在兩個基準上達到最優,更重要的是,它在未見過的數據集上表現出更好的泛化性能。
500元卡時GPU資源「限時」免費領!
并行AI云面向AI深度學習和高性能計算,提供A100、V100、T4等豐富的云算力資源;預置TensorFlow、PyTorch等環境,開箱即用;三線專家團隊7x24小時在線提供多元化服務,助開發者提升科研效率,降低科研成本。
歡迎掃碼免費體驗~
由于微信公眾號試行亂序推送,您可能不再能準時收到AI科技評論的推送。為了第一時間收到AI科技評論的報道, 請將“AI科技評論”設為 星標賬號在看”。
收藏
舉報
上錯花轎嫁對郎吻戲 http://www.cityruyi.com/lm-4/lm-3/842.html
- 標簽:國家開發銀行生源地
- 編輯:孫世力
- 相關文章
-
小米筆記本pro屏幕比例
小米最近發布一款高性能輕薄本,我已經上手有一段時間,今天來說一說這筆記本的優缺點有哪些。最先說的優點當然是屏幕,OLED,E4材質,真3.…
-
阿貝爾獎得主Lovász:我提出了四色猜想的進階版,它很簡單,50年后就被證明了......
阿貝爾獎得主Lov%uE1sz:我提出了四色猜想的進階版,它很簡單,50年后就被證明了...... 作者 | 貝爽、青暮 繼四色猜想之后,超圖著色猜…
- MIUI 12.5穩定版月底全量發布;滴滴正式啟動造車
- 發布會前全參數曝光,聯想拯救者2Pro設計太硬核,光污染來了
- CVPR 2021 |“上下文建?!笨蚣芟碌?D人體姿態估計
- 比亞迪秦Plus EV龍顏純電轎跑發布,旗下全系標配刀片電池
- 最小13歲就能保送清華,看完這套考試題目后:我上我也「行」