1010

2025-09-25

該論文發(fā)表于 The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2025（CCF A類），題目為《Bridging Gait Recognition and Large Language Models Sequence Modeling》。

北京師范大學(xué)的ShaoPeng Yang為論文的第一作者，北京師范大學(xué)的Saihui Hou為本文通訊作者。

論文鏈接：

https://ieeexplore.ieee.org/document/11094335

論文概要

當(dāng)前基于序列的步態(tài)識(shí)別方法在建模時(shí)序依賴方面取得了進(jìn)展，但它們通常依賴復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)，且容易受限于特定數(shù)據(jù)集，難以充分捕捉長時(shí)序和全局的動(dòng)態(tài)特征。此外，步態(tài)序列是連續(xù)的非語言信號(hào)，與自然語言模型的輸入形式存在差異，直接利用大語言模型（LLMs）進(jìn)行建模存在挑戰(zhàn)。

為了解決這些問題，本文提出了一種新的步態(tài)識(shí)別方法GaitLLM，核心在于通過兩個(gè)關(guān)鍵模塊實(shí)現(xiàn)步態(tài)序列與LLMs的有效結(jié)合。步態(tài)到語言模塊（G2L）將步態(tài)特征轉(zhuǎn)換為“步態(tài)句子”，利用空間與時(shí)間雙重Tokenizer去除冗余并提取關(guān)鍵動(dòng)作片段，使步態(tài)數(shù)據(jù)能夠以語法形式輸入LLMs；語言到步態(tài)模塊（L2G）則將LLMs處理后的高層語義特征映射回步態(tài)特征空間，并與原始步態(tài)特征融合，實(shí)現(xiàn)身份判別特征的增強(qiáng)。通過凍結(jié)預(yù)訓(xùn)練步態(tài)編碼器和LLMs，僅需訓(xùn)練少量參數(shù)即可完成適配。GaitLLM在SUSTech1K、CCPG、Gait3D和GREW四個(gè)主流步態(tài)數(shù)據(jù)集上均取得了優(yōu)于現(xiàn)有方法的性能，驗(yàn)證了將語言模型引入步態(tài)識(shí)別的有效性與潛力。

研究背景

步態(tài)識(shí)別作為一種重要的生物特征識(shí)別技術(shù)，能夠通過人體獨(dú)特的行走模式實(shí)現(xiàn)遠(yuǎn)距離的身份識(shí)別，相較于人臉和虹膜等靜態(tài)生物特征，步態(tài)在衣物變化、光照和視角變化等條件下具有更強(qiáng)的魯棒性，因此在安防和監(jiān)控等領(lǐng)域具有廣泛的應(yīng)用價(jià)值。

近年來，序列建模方法在步態(tài)識(shí)別中取得了顯著進(jìn)展，研究者們通過引入多尺度時(shí)間卷積、自注意力機(jī)制和時(shí)序變換器等方式，增強(qiáng)了對(duì)動(dòng)態(tài)動(dòng)作序列的建模能力。然而，這些方法往往依賴復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)，并且高度依賴特定數(shù)據(jù)集，限制了模型的泛化能力。同時(shí)，步態(tài)序列作為一種連續(xù)的動(dòng)態(tài)信號(hào)，難以直接與大語言模型的離散化輸入形式對(duì)齊，因此如何充分利用大語言模型在序列建模方面的優(yōu)勢來提升步態(tài)識(shí)別性能，成為亟需解決的研究問題。

研究方法

本文提出了一種新的步態(tài)識(shí)別方法 GaitLLM，它利用大語言模型（LLM）的強(qiáng)大序列建模能力來增強(qiáng)步態(tài)識(shí)別性能。整體框架包括 步態(tài)到語言模塊（G2L）、語言到步態(tài)模塊（L2G）和 步態(tài)識(shí)別頭部，其中預(yù)訓(xùn)練的 步態(tài)編碼器與 LLM 參數(shù)凍結(jié)，僅需訓(xùn)練少量適配模塊即可完成步態(tài)特征與語言特征空間的映射。網(wǎng)絡(luò)整體結(jié)構(gòu)如圖1所示。

圖1 GaitLLM整體框架 (a) G2L-L2G總體結(jié)構(gòu) (b) 空間Tokenizer (c) 時(shí)間Tokenizer

（1）步態(tài)到語言模塊（G2L）

G2L模塊的目標(biāo)是將步態(tài)特征轉(zhuǎn)化為“步態(tài)句子”，使其能夠輸入LLM進(jìn)行序列建模。該模塊主要包含兩個(gè)部分：空間Tokenizer 與 時(shí)間Tokenizer。

空間Tokenizer：作用是壓縮局部空間特征并減少冗余。輸入為步態(tài)編碼器提取的特征圖，將其劃分為patch，并通過Transformer Block和絕對(duì)位置編碼得到優(yōu)化后的空間token為t’：

其中，t為可學(xué)習(xí)初試token，Pos表示位置編碼。

時(shí)間Tokenizer：用于去除時(shí)序冗余并提取關(guān)鍵動(dòng)作片段。它包括 峰值Token檢測器（PTF） 和 動(dòng)作片段組裝器（MCA）。PTF通過與全局token的相似度檢測序列中最具判別性的關(guān)鍵幀：

MCA則利用交叉注意力機(jī)制將冗余token的信息壓縮到保留token中，最終形成精簡的“步態(tài)句子”。

圖2 時(shí)間Tokenizer的結(jié)構(gòu)，包括峰值Token檢測器（PTF）與動(dòng)作片段組裝器（MCA）

（2）語言到步態(tài)模塊（L2G）

LLM在接收到“步態(tài)句子”后，會(huì)建模復(fù)雜的時(shí)序依賴關(guān)系并輸出高層語義特征。為了使這些特征能夠用于步態(tài)識(shí)別，需要通過L2G模塊將其映射回步態(tài)特征空間。

L2G投影器：利用全連接層將LLM輸出的語義特征重新映射到與步態(tài)編碼器相匹配的特征維度。

表示聚合器（RA）：通過全局最大池化操作，將序列token聚合為判別性強(qiáng)的步態(tài)特征表示：

該步驟保證了LLM提取的全局時(shí)序依賴能夠轉(zhuǎn)化為身份判別特征。

（3）步態(tài)識(shí)別頭部

L2G模塊輸出的特征與步態(tài)編碼器原始特征進(jìn)行融合，沿著水平維度拼接后輸入至步態(tài)識(shí)別頭部（全連接層），以獲得最終的步態(tài)嵌入表示：

其中F為步態(tài)編碼器的輸出，TP表示時(shí)序池化，HP表示水平池化，h(·)為分類頭部。

（4）訓(xùn)練策略

GaitLLM采用兩階段訓(xùn)練：

階段一：使用OpenGait框架預(yù)訓(xùn)練步態(tài)編碼器（如DeepGaitV2或GaitBase）。

階段二：凍結(jié)步態(tài)編碼器與LLM，僅訓(xùn)練G2L、L2G和識(shí)別頭部，優(yōu)化目標(biāo)為三元組損失和交叉熵?fù)p失：

研究結(jié)果

作者主要在 Gait3D、GREW、CCPG 和 SUSTech1K 四個(gè)主流步態(tài)識(shí)別數(shù)據(jù)集上對(duì)所提出的GaitLLM進(jìn)行了全面評(píng)估。如表2、表3和表4所示，GaitLLM在多個(gè)測試條件下均取得了優(yōu)于現(xiàn)有方法的結(jié)果。在 Gait3D 數(shù)據(jù)集上，基于10層DeepGaitV2-P3D的基線模型Rank-1準(zhǔn)確率為67.4%，而GaitLLM提升至74.1%，mAP達(dá)到60.1%，均顯著優(yōu)于基線。在 GREW 數(shù)據(jù)集上，GaitLLM的Rank-1準(zhǔn)確率為71.2%，比基線提升2.2%，進(jìn)一步驗(yàn)證了其在真實(shí)場景下的泛化能力。

在 CCPG 數(shù)據(jù)集的衣物變化場景中，GaitLLM-10在四種測試協(xié)議（CL、UP、DN、BG）下均取得最佳結(jié)果，平均Rank-1準(zhǔn)確率達(dá)到85.4%，超過了基線的83.3%。在 SUSTech1K 數(shù)據(jù)集的多種復(fù)雜場景下，GaitLLM-10也展現(xiàn)出顯著優(yōu)勢，總體Rank-1準(zhǔn)確率達(dá)到84.5%，在衣物變化、背包和打傘場景下分別提升了6.3%、2.2%和2.7%。

此外，通過消融實(shí)驗(yàn)進(jìn)一步分析了所有模塊的有效性。空間Tokenizer與時(shí)間Tokenizer在G2L模塊中缺一不可，而在聚合策略對(duì)比中，全局最大池化（GMP）明顯優(yōu)于全局平均池化（GAP）和Last Token方法。

在圖2的t-SNE可視化結(jié)果中也可以直觀地看到，GaitLLM-10能夠有效減小類內(nèi)差異，提高類間可分性，驗(yàn)證了模型在表征學(xué)習(xí)方面的優(yōu)勢。

圖2 消融實(shí)驗(yàn)結(jié)果對(duì)比 (a) 不同Tokenizer組合 (b) 不同聚合策略 (c) t-SNE可視化對(duì)比基線與GaitLLM-10

結(jié)論

本文提出了GaitLLM，一種利用大語言模型（LLMs）強(qiáng)大序列建模能力的步態(tài)識(shí)別方法。通過設(shè)計(jì)步態(tài)到語言模塊（G2L）和語言到步態(tài)模塊（L2G），GaitLLM能夠?qū)⑦B續(xù)的步態(tài)序列轉(zhuǎn)化為“步態(tài)句子”，并借助LLMs建模復(fù)雜的時(shí)序依賴，再映射回步態(tài)特征空間以增強(qiáng)身份判別能力。實(shí)驗(yàn)結(jié)果表明，GaitLLM在Gait3D、GREW、CCPG和SUSTech1K等多個(gè)主流數(shù)據(jù)集上均取得了優(yōu)于現(xiàn)有方法的性能，尤其在衣物變化和復(fù)雜環(huán)境條件下展現(xiàn)出顯著優(yōu)勢。該方法為步態(tài)識(shí)別引入了新的視角，展示了語言模型在時(shí)序視覺任務(wù)中的潛力，并為未來結(jié)合大語言模型與步態(tài)識(shí)別的研究提供了新的方向。

撰稿人：徐昱濤

審稿人：周成菊

登錄用戶可以查看和發(fā)表評(píng)論，請(qǐng)前往登錄或注冊(cè)。

91一级特黄大片|婷婷中文字幕在线|av成人无码国产|日韩无码一二三区|久久不射强奸视频|九九九久久久精品|国产免费浮力限制