該論文發(fā)表于 The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2025(CCF A類),題目為《Bridging Gait Recognition and Large Language Models Sequence Modeling》。
北京師范大學的ShaoPeng Yang為論文的第一作者,北京師范大學的Saihui Hou為本文通訊作者。
論文鏈接:
https://ieeexplore.ieee.org/document/11094335
當前基于序列的步態(tài)識別方法在建模時序依賴方面取得了進展,但它們通常依賴復雜的網(wǎng)絡結(jié)構(gòu)設計,且容易受限于特定數(shù)據(jù)集,難以充分捕捉長時序和全局的動態(tài)特征。此外,步態(tài)序列是連續(xù)的非語言信號,與自然語言模型的輸入形式存在差異,直接利用大語言模型(LLMs)進行建模存在挑戰(zhàn)。
為了解決這些問題,本文提出了一種新的步態(tài)識別方法GaitLLM,核心在于通過兩個關(guān)鍵模塊實現(xiàn)步態(tài)序列與LLMs的有效結(jié)合。步態(tài)到語言模塊(G2L)將步態(tài)特征轉(zhuǎn)換為“步態(tài)句子”,利用空間與時間雙重Tokenizer去除冗余并提取關(guān)鍵動作片段,使步態(tài)數(shù)據(jù)能夠以語法形式輸入LLMs;語言到步態(tài)模塊(L2G)則將LLMs處理后的高層語義特征映射回步態(tài)特征空間,并與原始步態(tài)特征融合,實現(xiàn)身份判別特征的增強。通過凍結(jié)預訓練步態(tài)編碼器和LLMs,僅需訓練少量參數(shù)即可完成適配。GaitLLM在SUSTech1K、CCPG、Gait3D和GREW四個主流步態(tài)數(shù)據(jù)集上均取得了優(yōu)于現(xiàn)有方法的性能,驗證了將語言模型引入步態(tài)識別的有效性與潛力。
步態(tài)識別作為一種重要的生物特征識別技術(shù),能夠通過人體獨特的行走模式實現(xiàn)遠距離的身份識別,相較于人臉和虹膜等靜態(tài)生物特征,步態(tài)在衣物變化、光照和視角變化等條件下具有更強的魯棒性,因此在安防和監(jiān)控等 領(lǐng)域具有廣泛的應用價值。
近年來,序列建模方法在步態(tài)識別中取得了顯著進展,研究者們通過引入多尺度時間卷積、自注意力機制和時序變換器等方式,增強了對動態(tài)動作序列的建模能力。然而,這些方法往往依賴復雜的網(wǎng)絡結(jié)構(gòu)設計,并且高度依賴特定數(shù)據(jù)集,限制了模型的泛化能力。同時,步態(tài)序列作為一種連續(xù)的動態(tài)信號,難以直接與大語言模型的離散化輸入形式對齊,因此如何充分利用大語言模型在序列建模方面的優(yōu)勢來提升步態(tài)識別性能,成為亟需解決的研究問題。
本文提出了一種新的步態(tài)識別方法 GaitLLM,它利用大語言模型(LLM)的強大序列建模能力來增強步態(tài)識別性能。整體框架包括 步態(tài)到語言模塊(G2L)、語言到步態(tài)模塊(L2G)和 步態(tài)識別頭部,其中預訓練的 步態(tài)編碼器與 LLM 參數(shù)凍結(jié),僅需訓練少量適配模塊即可完成步態(tài)特征與語言特征空間的映射。網(wǎng)絡整體結(jié)構(gòu)如圖1所示。
圖1 GaitLLM整體框架 (a) G2L-L2G總體結(jié)構(gòu) (b) 空間Tokenizer (c) 時間Tokenizer
G2L模塊的目標是將步態(tài)特征轉(zhuǎn)化為“步態(tài)句子”,使其能夠輸入LLM進行序列建模。該模塊主要包含兩個部分:空間Tokenizer 與 時間Tokenizer。
空間Tokenizer:作用是壓縮局部空間特征并減少冗余。輸入為步態(tài)編碼器提取的特征圖,將其劃分為patch,并通過Transformer Block和絕對位置編碼得到優(yōu)化后的空間token為t’:
其中,t為可學習初試token,Pos表示位置編碼。
時間Tokenizer:用于去除時序冗余并提取關(guān)鍵動作片段。它包括 峰值Token檢測器(PTF) 和 動作片段組裝器(MCA)。PTF通過與全局token的相似度檢測序列中最具判別性的關(guān)鍵幀:
MCA則利用交叉注意力機制將冗余token的信息壓縮到保留token中,最終形成精簡的“步態(tài)句子”。
圖2 時間Tokenizer的結(jié)構(gòu),包括峰值Token檢測器(PTF)與動作片段組裝器(MCA)
LLM在接收到“步態(tài)句子”后,會建模復雜的時序依賴關(guān)系并輸出高層語義特征。為了使這些特征能夠用于步態(tài)識別,需要通過L2G模塊將其映射回步態(tài)特征空間。
L2G投影器:利用全連接層將LLM輸出的語義特征重新映射到與步態(tài)編碼器相匹配的特征維度。
表示聚合器(RA):通過全局最大池化操作,將序列token聚合為判別性強的步態(tài)特征表示:
該步驟保證了LLM提取的全局時序依賴能夠轉(zhuǎn)化為身份判別特征。
L2G模塊輸出的特征與步態(tài)編碼器原始特征進行融合,沿著水平維度拼接后輸入至步態(tài)識別頭部(全連接層),以獲得最終的步態(tài)嵌入表示:
其中F為步態(tài)編碼器的輸出,TP表示時序池化,HP表示水平池化,h(·)為分類頭部。
GaitLLM采用兩階段訓練:
階段一:使用OpenGait框架預訓練步態(tài)編碼器(如DeepGaitV2或GaitBase)。
階段二:凍結(jié)步態(tài)編碼器與LLM,僅訓練G2L、L2G和識別頭部,優(yōu)化目標為三元組損失和交叉熵損失:
作者主要在 Gait3D、GREW、CCPG 和 SUSTech1K 四個主流步態(tài)識別數(shù)據(jù)集上對所提出的GaitLLM進行了全面評估。如表2、表3和表4所示,GaitLLM在多個測試條件下均取得了優(yōu)于現(xiàn)有方法的結(jié)果。在 Gait3D 數(shù)據(jù)集上,基于10層DeepGaitV2-P3D的基線模型Rank-1準確率為67.4%,而GaitLLM提升至74.1%,mAP達到60.1%,均顯著優(yōu)于基線。在 GREW 數(shù)據(jù)集上,GaitLLM的Rank-1準確率為71.2%,比基線提升2.2%,進一步驗證了其在真實場景下的泛化能力。
在 CCPG 數(shù)據(jù)集的衣物變化場景中,GaitLLM-10在四種測試協(xié)議(CL、UP、DN、BG)下均取得最佳結(jié)果,平均Rank-1準確率達到85.4%,超過了基線的83.3%。在 SUSTech1K 數(shù)據(jù)集的多種復雜場景下,GaitLLM-10也展現(xiàn)出顯著優(yōu)勢,總體Rank-1準確率達到84.5%,在衣物變化、背包和打傘場景下分別提升了6.3%、2.2%和2.7%。
此外,通過消融實驗進一步分析了所有模塊的有效性??臻gTokenizer與時間Tokenizer在G2L模塊中缺一不可,而在聚合策略對比中,全局最大池化(GMP)明顯優(yōu)于全局平均池化(GAP)和Last Token方法。
在圖2的t-SNE可視化結(jié)果中也可以直觀地看到,GaitLLM-10能夠有效減小類內(nèi)差異,提高類間可分性,驗證了模型在表征學習方面的優(yōu)勢。
圖2 消融實驗結(jié)果對比 (a) 不同Tokenizer組合 (b) 不同聚合策略 (c) t-SNE可視化對比基線與GaitLLM-10
本文提出了GaitLLM,一種利用大語言模型(LLMs)強大序列建模能力的步態(tài)識別方法。通過設計步態(tài)到語言模塊(G2L)和語言到步態(tài)模塊(L2G),GaitLLM能夠?qū)⑦B續(xù)的步態(tài)序列轉(zhuǎn)化為“步態(tài)句子”,并借助LLMs建模復雜的時序依賴,再映射回步態(tài)特征空間以增強身份判別能力。實驗結(jié)果表明,GaitLLM在Gait3D、GREW、CCPG和SUSTech1K等多個主流數(shù)據(jù)集上均取得了優(yōu)于現(xiàn)有方法的性能,尤其在衣物變化和復雜環(huán)境條件下展現(xiàn)出顯著優(yōu)勢。該方法為步態(tài)識別引入了新的視角,展示了語言模型在時序視覺任務中的潛力,并為未來結(jié)合大語言模型與步態(tài)識別的研究提供了新的方向。
撰稿人:徐昱濤
審稿人:周成菊