近日,團(tuán)隊(duì)2023級(jí)研究生陳泉霖、陸德華、馮偉森等在李景聰副教授、的悉心指導(dǎo)下,在中科院二區(qū)期刊《IEEE Transactions on Instrumentation and Measurement》成功錄用學(xué)術(shù)論文“HARFormer: A Masked Self-supervised Transformer-base Model for Human Activity Recognition with Predicting Somatosensory Tokens”。該論文自2025年3月提交,于2025年6月18日被正式接收。
人類活動(dòng)識(shí)別是一種常見的任務(wù),與物聯(lián)網(wǎng)緊密結(jié)合,傳統(tǒng)方法通過攝像頭、雷達(dá)或者3d骨架進(jìn)行獲取。隨著智能手機(jī)和手表等穿戴設(shè)備的普及,通過傳感器獲取的加速度和角速度來判斷人類活動(dòng)是一個(gè)更輕便的選擇。這種數(shù)據(jù)可以很廉價(jià)地獲得,但標(biāo)注成本較高,這導(dǎo)致難以利用。為了更好的利用無標(biāo)簽數(shù)據(jù),我們提出了一種自監(jiān)督框架。
該論文的主要亮點(diǎn)包括:
HARFormer的主要架構(gòu)以及自監(jiān)督預(yù)訓(xùn)練的實(shí)現(xiàn)方法:
HARFormer由四部分組成:空間編碼器、時(shí)間編碼器、離散化切片與嵌入模塊以及Transformer全局建模器。
空間編碼器通過注意力機(jī)制為不同傳感器通道分配權(quán)重,時(shí)間編碼器使用深度卷積提取時(shí)間特征。
輸入的多通道時(shí)間序列被劃分為多個(gè)“感知補(bǔ)丁”,再通過位置嵌入加入時(shí)間和空間信息。
圖1 主要架構(gòu)圖
2. 自監(jiān)督預(yù)訓(xùn)練
首先,通過向量量化技術(shù)構(gòu)建“感知詞典”,通過vq-vae的方法將連續(xù)信號(hào)離散化為有限數(shù)量的“感知詞”,以獲得穩(wěn)健、緊湊的特征。重建任務(wù)在頻譜域中完成,以便忽略低級(jí)的信息,防止模型過于擬合低級(jí)細(xì)節(jié),提高了對(duì)噪聲和個(gè)體差異的魯棒性。
然后,采用掩碼預(yù)測任務(wù):在無監(jiān)督條件下遮蔽部分“token”,訓(xùn)練模型預(yù)測被遮蔽內(nèi)容,從而學(xué)習(xí)穩(wěn)健的表示。為了更好地利用每個(gè)樣本,我們采取對(duì)稱掩碼的方式,將每個(gè)樣本利用兩次。我們方法的偽代碼如下:
圖2 預(yù)訓(xùn)練架構(gòu)圖
我們?cè)谌齻€(gè)數(shù)據(jù)集上和多種baseline進(jìn)行對(duì)比,并提供了三種參數(shù)量的模型,結(jié)果表明我們的方法在少標(biāo)簽的環(huán)境下不是第一就是第二,這證明了我們方法的有效性
表1 在三個(gè)數(shù)據(jù)集上與baseline相比
結(jié)論
該方法提出了一個(gè)統(tǒng)一、高效的HAR建模框架。通過patch統(tǒng)一建模,使得我們的框架能適應(yīng)多種數(shù)據(jù)類型。我們通過預(yù)測重構(gòu)任務(wù)來學(xué)習(xí)穩(wěn)健的特征。我們的方法在少標(biāo)簽的場景下表現(xiàn)良好。我們期望該方法能推進(jìn)人類活動(dòng)識(shí)別以及物聯(lián)網(wǎng)的發(fā)展。
撰稿人:陳泉霖
審稿人:李景聰