91一级特黄大片|婷婷中文字幕在线|av成人无码国产|日韩无码一二三区|久久不射强奸视频|九九九久久久精品|国产免费浮力限制

CVPR 2025 | 步態(tài)識(shí)別與大語言模型序列建模的融合研究

該論文發(fā)表于 The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2025(CCF A類),題目為《Bridging Gait Recognition and Large Language Models Sequence Modeling》。

北京師范大學(xué)的ShaoPeng Yang為論文的第一作者,北京師范大學(xué)的Saihui Hou為本文通訊作者。

論文鏈接:

https://ieeexplore.ieee.org/document/11094335

論文概要

當(dāng)前基于序列的步態(tài)識(shí)別方法在建模時(shí)序依賴方面取得了進(jìn)展,但它們通常依賴復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì),且容易受限于特定數(shù)據(jù)集,難以充分捕捉長時(shí)序和全局的動(dòng)態(tài)特征。此外,步態(tài)序列是連續(xù)的非語言信號(hào),與自然語言模型的輸入形式存在差異,直接利用大語言模型(LLMs)進(jìn)行建模存在挑戰(zhàn)。

為了解決這些問題,本文提出了一種新的步態(tài)識(shí)別方法GaitLLM,核心在于通過兩個(gè)關(guān)鍵模塊實(shí)現(xiàn)步態(tài)序列與LLMs的有效結(jié)合。步態(tài)到語言模塊(G2L)將步態(tài)特征轉(zhuǎn)換為“步態(tài)句子”,利用空間與時(shí)間雙重Tokenizer去除冗余并提取關(guān)鍵動(dòng)作片段,使步態(tài)數(shù)據(jù)能夠以語法形式輸入LLMs;語言到步態(tài)模塊(L2G)則將LLMs處理后的高層語義特征映射回步態(tài)特征空間,并與原始步態(tài)特征融合,實(shí)現(xiàn)身份判別特征的增強(qiáng)。通過凍結(jié)預(yù)訓(xùn)練步態(tài)編碼器和LLMs,僅需訓(xùn)練少量參數(shù)即可完成適配。GaitLLM在SUSTech1K、CCPG、Gait3D和GREW四個(gè)主流步態(tài)數(shù)據(jù)集上均取得了優(yōu)于現(xiàn)有方法的性能,驗(yàn)證了將語言模型引入步態(tài)識(shí)別的有效性與潛力。

研究背景

步態(tài)識(shí)別作為一種重要的生物特征識(shí)別技術(shù),能夠通過人體獨(dú)特的行走模式實(shí)現(xiàn)遠(yuǎn)距離的身份識(shí)別,相較于人臉和虹膜等靜態(tài)生物特征,步態(tài)在衣物變化、光照和視角變化等條件下具有更強(qiáng)的魯棒性,因此在安防和監(jiān)控等 領(lǐng)域具有廣泛的應(yīng)用價(jià)值。

近年來,序列建模方法在步態(tài)識(shí)別中取得了顯著進(jìn)展,研究者們通過引入多尺度時(shí)間卷積、自注意力機(jī)制和時(shí)序變換器等方式,增強(qiáng)了對(duì)動(dòng)態(tài)動(dòng)作序列的建模能力。然而,這些方法往往依賴復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì),并且高度依賴特定數(shù)據(jù)集,限制了模型的泛化能力。同時(shí),步態(tài)序列作為一種連續(xù)的動(dòng)態(tài)信號(hào),難以直接與大語言模型的離散化輸入形式對(duì)齊,因此如何充分利用大語言模型在序列建模方面的優(yōu)勢來提升步態(tài)識(shí)別性能,成為亟需解決的研究問題。

研究方法

本文提出了一種新的步態(tài)識(shí)別方法 GaitLLM,它利用大語言模型(LLM)的強(qiáng)大序列建模能力來增強(qiáng)步態(tài)識(shí)別性能。整體框架包括 步態(tài)到語言模塊(G2L)、語言到步態(tài)模塊(L2G)步態(tài)識(shí)別頭部,其中預(yù)訓(xùn)練的 步態(tài)編碼器LLM 參數(shù)凍結(jié),僅需訓(xùn)練少量適配模塊即可完成步態(tài)特征與語言特征空間的映射。網(wǎng)絡(luò)整體結(jié)構(gòu)如圖1所示。

圖1 GaitLLM整體框架 (a) G2L-L2G總體結(jié)構(gòu) (b) 空間Tokenizer (c) 時(shí)間Tokenizer

(1)步態(tài)到語言模塊(G2L)

G2L模塊的目標(biāo)是將步態(tài)特征轉(zhuǎn)化為“步態(tài)句子”,使其能夠輸入LLM進(jìn)行序列建模。該模塊主要包含兩個(gè)部分:空間Tokenizer時(shí)間Tokenizer。

空間Tokenizer:作用是壓縮局部空間特征并減少冗余。輸入為步態(tài)編碼器提取的特征圖,將其劃分為patch,并通過Transformer Block和絕對(duì)位置編碼得到優(yōu)化后的空間token為t’:

其中,t為可學(xué)習(xí)初試token,Pos表示位置編碼。

時(shí)間Tokenizer:用于去除時(shí)序冗余并提取關(guān)鍵動(dòng)作片段。它包括 峰值Token檢測器(PTF)動(dòng)作片段組裝器(MCA)。PTF通過與全局token的相似度檢測序列中最具判別性的關(guān)鍵幀:

MCA則利用交叉注意力機(jī)制將冗余token的信息壓縮到保留token中,最終形成精簡的“步態(tài)句子”。

圖2 時(shí)間Tokenizer的結(jié)構(gòu),包括峰值Token檢測器(PTF)與動(dòng)作片段組裝器(MCA)

(2)語言到步態(tài)模塊(L2G)

LLM在接收到“步態(tài)句子”后,會(huì)建模復(fù)雜的時(shí)序依賴關(guān)系并輸出高層語義特征。為了使這些特征能夠用于步態(tài)識(shí)別,需要通過L2G模塊將其映射回步態(tài)特征空間。

L2G投影器:利用全連接層將LLM輸出的語義特征重新映射到與步態(tài)編碼器相匹配的特征維度。

表示聚合器(RA):通過全局最大池化操作,將序列token聚合為判別性強(qiáng)的步態(tài)特征表示:

該步驟保證了LLM提取的全局時(shí)序依賴能夠轉(zhuǎn)化為身份判別特征。

(3)步態(tài)識(shí)別頭部

L2G模塊輸出的特征與步態(tài)編碼器原始特征進(jìn)行融合,沿著水平維度拼接后輸入至步態(tài)識(shí)別頭部(全連接層),以獲得最終的步態(tài)嵌入表示:

其中F為步態(tài)編碼器的輸出,TP表示時(shí)序池化,HP表示水平池化,h(·)為分類頭部。

(4)訓(xùn)練策略

GaitLLM采用兩階段訓(xùn)練:

階段一:使用OpenGait框架預(yù)訓(xùn)練步態(tài)編碼器(如DeepGaitV2或GaitBase)。

階段二:凍結(jié)步態(tài)編碼器與LLM,僅訓(xùn)練G2L、L2G和識(shí)別頭部,優(yōu)化目標(biāo)為三元組損失和交叉熵?fù)p失:

研究結(jié)果

作者主要在 Gait3D、GREW、CCPGSUSTech1K 四個(gè)主流步態(tài)識(shí)別數(shù)據(jù)集上對(duì)所提出的GaitLLM進(jìn)行了全面評(píng)估。如表2、表3和表4所示,GaitLLM在多個(gè)測試條件下均取得了優(yōu)于現(xiàn)有方法的結(jié)果。在 Gait3D 數(shù)據(jù)集上,基于10層DeepGaitV2-P3D的基線模型Rank-1準(zhǔn)確率為67.4%,而GaitLLM提升至74.1%,mAP達(dá)到60.1%,均顯著優(yōu)于基線。在 GREW 數(shù)據(jù)集上,GaitLLM的Rank-1準(zhǔn)確率為71.2%,比基線提升2.2%,進(jìn)一步驗(yàn)證了其在真實(shí)場景下的泛化能力。

CCPG 數(shù)據(jù)集的衣物變化場景中,GaitLLM-10在四種測試協(xié)議(CL、UP、DN、BG)下均取得最佳結(jié)果,平均Rank-1準(zhǔn)確率達(dá)到85.4%,超過了基線的83.3%。在 SUSTech1K 數(shù)據(jù)集的多種復(fù)雜場景下,GaitLLM-10也展現(xiàn)出顯著優(yōu)勢,總體Rank-1準(zhǔn)確率達(dá)到84.5%,在衣物變化、背包和打傘場景下分別提升了6.3%、2.2%和2.7%。

此外,通過消融實(shí)驗(yàn)進(jìn)一步分析了所有模塊的有效性。空間Tokenizer與時(shí)間Tokenizer在G2L模塊中缺一不可,而在聚合策略對(duì)比中,全局最大池化(GMP)明顯優(yōu)于全局平均池化(GAP)和Last Token方法。

在圖2的t-SNE可視化結(jié)果中也可以直觀地看到,GaitLLM-10能夠有效減小類內(nèi)差異,提高類間可分性,驗(yàn)證了模型在表征學(xué)習(xí)方面的優(yōu)勢。

圖2 消融實(shí)驗(yàn)結(jié)果對(duì)比 (a) 不同Tokenizer組合 (b) 不同聚合策略 (c) t-SNE可視化對(duì)比基線與GaitLLM-10

結(jié)論

本文提出了GaitLLM,一種利用大語言模型(LLMs)強(qiáng)大序列建模能力的步態(tài)識(shí)別方法。通過設(shè)計(jì)步態(tài)到語言模塊(G2L)和語言到步態(tài)模塊(L2G),GaitLLM能夠?qū)⑦B續(xù)的步態(tài)序列轉(zhuǎn)化為“步態(tài)句子”,并借助LLMs建模復(fù)雜的時(shí)序依賴,再映射回步態(tài)特征空間以增強(qiáng)身份判別能力。實(shí)驗(yàn)結(jié)果表明,GaitLLM在Gait3D、GREW、CCPG和SUSTech1K等多個(gè)主流數(shù)據(jù)集上均取得了優(yōu)于現(xiàn)有方法的性能,尤其在衣物變化和復(fù)雜環(huán)境條件下展現(xiàn)出顯著優(yōu)勢。該方法為步態(tài)識(shí)別引入了新的視角,展示了語言模型在時(shí)序視覺任務(wù)中的潛力,并為未來結(jié)合大語言模型與步態(tài)識(shí)別的研究提供了新的方向。

撰稿人:徐昱濤

審稿人:周成菊


登錄用戶可以查看和發(fā)表評(píng)論, 請(qǐng)前往  登錄 或  注冊(cè)
SCHOLAT.com 學(xué)者網(wǎng)
免責(zé)聲明 | 關(guān)于我們 | 用戶反饋
聯(lián)系我們: