本研究發(fā)表于《Scientific Data》(中科院二區(qū),IF=5.8),題目為《A multi-day and high-quality EEG dataset for motor imagery brain-computer interface》。
該論文由上海大學楊幫華教授擔任第一作者及通訊作者,同時,天津大學張佳楊助理研究員也為通訊作者。本研究是上海大學與天津大學攜手清華大學、西安電子科技大學等多家機構聯(lián)合完成的。
論文鏈接:https://www.nature.com/articles/s41597-025-04826-y
數據集鏈接:https://doi.org/10.25452/figshare.plus.22671172
在腦機接口領域,實現腦電信號在多日、跨被試條件下的穩(wěn)定解碼是一個核心挑戰(zhàn)。為了突破現有數據集在樣本數量、任務類型和信號質量方面的限制,研究團隊構建了一個包含62名健康受試者、三天記錄、雙范式設計的高質量EEG數據集。該數據集不僅涵蓋左右手抓握(2類任務)和雙腳勾拉(3類任務),還提供原始數據、預處理數據及標準分析代碼。通過深度學習模型EEGNet和deepConvNet驗證,該數據集在運動想象任務分類中表現出色,2類任務準確率達85.32%,3類任務達76.90%。這項工作填補了公開MI-BCI數據集在跨會話魯棒性方面的空白。
研究背景
近年來,BCI系統(tǒng)作為神經工程與智能交互技術的重要分支,在醫(yī)療康復、智能控制等領域展現出廣闊的應用前景。尤其是基于EEG的運動想象(MI)BCI技術,憑借其非侵入性、低成本和操作便捷等優(yōu)勢,成為研究熱點。MI任務強調用戶主動進行“無動作”的想象,其腦電模式具有可訓練性與康復促進潛力,已被證實在中風患者康復中具有顯著療效。然而,BCI系統(tǒng)在實際應用中面臨信號不穩(wěn)定、跨天/跨人波動大等問題?,F有的主流數據集如BCI IV-2a/2b、OpenBMI雖然已支持MI-BCI算法的驗證與開發(fā),但受限于受試者數量不足、通道數有限、任務單一、無跨日設計等問題,難以滿足深度學習算法對大規(guī)模、高質量數據的需求。特別是在跨會話魯棒性建模、遷移學習等任務中,亟需一個具備多日記錄、多人參與、多類任務和多通道采集的數據資源。為此,研究團隊依托2019年世界機器人大會BCI比賽,在標準實驗范式下,構建并發(fā)布了本研究所用的數據集,旨在推動MI-BCI算法在實用性與穩(wěn)健性上的突破。
方法
實驗范式設計
本研究的數據集采集于2019年世界機器人大會腦機接口比賽,采用兩個經典的運動想象范式(Motor Imagery Paradigm)進行腦電信號(EEG)采集,以研究多日、多任務條件下的MI-BCI性能表現。實驗包括兩個任務設置:2類任務(2C)為左手抓握、右手抓握,3類任務(3C)為左手抓握、右手抓握和雙腳勾拉,如圖1所示。雙腳勾拉是指保持腳跟貼地、緩慢抬起腳尖,使腳背與地面形成約45度角,這一動作被證明可以激活Cz通道對應的中線運動皮層區(qū)域,增加任務多樣性和空間分布廣度。實驗過程如圖2所示,所有提示均通過視覺與聽覺雙重方式給出。每次錄制包含五個MI塊,每個塊含40個試次(2C)或60個試次(3C),共200(2C)或300(3C)個試次/記錄日。被試在三個不連續(xù)的日子完成三次實驗記錄,設置了靈活的中間休息時間,以避免疲勞和保持注意力。每個試次持續(xù)7.5秒,包括提示階段(1.5秒)、運動想象階段(4秒)和休息階段(2秒)。
圖1. 視覺提示根據每個任務的表示形式。(a)左手抓緊(b)右手抓握(c)腳鉤(d)休息
圖2. MI的實驗范式。(a)實驗范式包括一個靜息相和一個MI相,其中MI相包含五個MI塊(b)一次試驗中的實驗范式
實驗環(huán)境與參與者
本研究共招募62名健康、右利手的大學生,年齡范圍為17–30歲(其中18名女性),均為BCI新手,且無神經、精神或肌肉系統(tǒng)疾病史。其中51名參與了2C任務,11名參與了3C任務。實驗在封閉、低干擾的腦電采集環(huán)境中完成,所有被試在實驗前均接受了MI任務訓練。
數據采集設備
實驗使用Neuracle自主研發(fā)的64通道無線EEG設備,采樣頻率為1000Hz,電極布局遵循國際10-20系統(tǒng)。
數據預處理流程
所有原始數據以.bdf格式保存,并在MATLAB R2021b環(huán)境中使用EEGLAB (v2023.0)進行預處理。具體步驟包括:1) 通道選擇,剔除不相關的ECG與EOG通道,保留59個EEG通道;2) 重參考,以Pz通道為參考,提升時空一致性(最終保留58個通道);3) 使用FIR濾波器進行0.5–40 Hz帶通濾波與50 Hz電源噪聲抑制;4) 根據任務事件標記提取每個試次的4秒運動想象段落;5) 消除低頻漂移;6) 將數據從1000 Hz下采樣至250 Hz,以減少計算量。
實驗和結果
為全面驗證所構建EEG數據集在運動想象腦機接口(MI-BCI)任務中的可解碼性,研究團隊采用傳統(tǒng)機器學習方法與多種深度神經網絡模型在2類(2C)與3類(3C)任務上進行了系統(tǒng)分類性能評估。通過統(tǒng)一的預處理流程和十折交叉驗證策略,圖3的結果顯示深度學習模型在兩個任務中均顯著優(yōu)于傳統(tǒng)方法。其中,EEGNet在2C任務上取得最高準確率85.31%,deepConvNet在3C任務中略勝一籌,準確率為76.90%。相比之下,傳統(tǒng)方法CSP+SVM和FBCSP+SVM在2C任務中的準確率分別為61.12%和67.46%,在3C任務中FBCSP+SVM僅為58.40%,遠低于深度模型表現,進一步凸顯該數據集對現代神經網絡架構的良好適應性。
圖3. 2 C和3 C數據集的分類精度。紅色破折號線指示p = 0.0138的機會水平。(a)2 C數據集的分類精度。(b)3 C數據集的分類精度。
更進一步,研究者分析了被試在三天獨立實驗中的表現變化。結果如表1和圖4顯示,2C任務中EEGNet在第一、二、三次實驗中的平均準確率分別為81.77%、86.63%和88.90%,3C任務中則為71.91%、75.52%和83.27%。這一趨勢清晰反映出被試在多次實驗后對MI任務的熟練度逐步提升,表現出明顯的BCI訓練效應和可塑性,也體現該數據集可用于研究BCI學習曲線和個體差異。
表1. EEGNet在2 C數據集和3 C數據集上的三個記錄會話中的平均分類精度。
圖4. EEGNet在2 C數據集和3 C數據集的三個記錄會話的分類精度的散點圖(a)2 C數據集的分類精度(b)3 C數據集的分類精度
為了評估數據集的整體價值,作者將其與當前廣泛使用的BCI IV-2a與OpenBMI數據集進行對比分析。結果如表2和表3顯示,本研究數據集在受試者數量、會話次數、采集通道數以及分類準確率上均處于領先地位。例如,在兩類任務中,EEGNet模型在該數據集上實現了85.31%的分類準確率,顯著高于OpenBMI數據集的70.89%和BCI IV-2a數據集的73.13%。綜上,該數據集不僅為MI-BCI分類建模提供了堅實基礎,也為探索跨會話、跨個體魯棒性、遷移學習與BCI適應性研究提供了稀缺資源。
表2. 從文獻中選出的數據集特征的比較摘要。
表3. 通過使用選定數據集中的數據計算出的所有主題和會話的平均解碼準確度。
結論
本研究發(fā)布的多日高質量MI-EEG數據集涵蓋了三次獨立記錄、多位健康受試者參與、兩類與三類運動想象任務的完整實驗流程。這一數據集不僅克服了現有MI-BCI公開數據集中樣本數量少、通道設置有限、任務類型單一等瓶頸,還為跨被試、跨會話模型構建和BCI系統(tǒng)穩(wěn)健性研究提供了基礎平臺。與BCI IV-2a與OpenBMI等主流數據集對比,本數據集在分類準確率與數據完整性方面均具領先性??傮w而言,該數據集是面向傳統(tǒng)算法與深度學習研究者的高質量、多功能研究資源,預計將在MI-BCI系統(tǒng)的研究與實際應用推進中發(fā)揮長期價值。
撰稿人:馮智勇
審稿人:潘家輝