該論文發(fā)表于The Thirty-Eighth AAAI Conference on Artificial Intelligence(AAAI-24,人工智能領(lǐng)域頂級會議,CCF-A),題目為《Language-Guided Transformer for Federated Multi-Label Classification》。
此文的作者是 I-Jieh Liu、Ci-Siang Lin、Fu-En Yang 和 Yu-Chiang Frank Wang,他們分別來自臺灣大學(xué)通信工程研究所和 NVIDIA 公司。
論文代碼鏈接: https://github.com/Jack24658735/FedLGT
論文鏈接: https://ojs.aaai.org/index.php/AAAI/article/view/29295
聯(lián)邦學(xué)習(xí)(Federated Learning, FL)作為一種隱私保護(hù)的分布式學(xué)習(xí)范式,允許多個客戶端在不共享私有數(shù)據(jù)的情況下協(xié)同訓(xùn)練模型,已在醫(yī)療、金融等領(lǐng)域展現(xiàn)出巨大潛力。然而,現(xiàn)有聯(lián)邦學(xué)習(xí)方法多聚焦于單標(biāo)簽圖像分類,在更貼近實際場景的多標(biāo)簽分類任務(wù)中面臨嚴(yán)峻挑戰(zhàn):客戶端數(shù)據(jù)分布的異質(zhì)性(如標(biāo)簽分布偏移、領(lǐng)域差異)會導(dǎo)致局部模型對標(biāo)簽相關(guān)性的學(xué)習(xí)存在偏差,直接聚合局部模型會引發(fā)全局性能退化。
針對這一問題,本文提出了一種全新的聯(lián)邦多標(biāo)簽分類框架 —— 聯(lián)邦語言引導(dǎo) Transformer(FedLGT)。該框架基于 Transformer 架構(gòu),通過兩大核心技術(shù)突破現(xiàn)有瓶頸:一是客戶端感知掩碼標(biāo)簽嵌入(Client-Aware Masked Label Embedding, CA-MLE),引導(dǎo)局部模型聚焦全局模型尚未掌握的標(biāo)簽知識;二是通用標(biāo)簽嵌入(Universal Label Embedding, ULE),利用預(yù)訓(xùn)練視覺 - 語言模型(如 CLIP)的文本編碼器生成統(tǒng)一標(biāo)簽嵌入,實現(xiàn)跨客戶端標(biāo)簽語義對齊。
實驗結(jié)果表明,F(xiàn)edLGT在FLAIR、MS-COCO、PASCAL VOC等多標(biāo)簽數(shù)據(jù)集上全面超越現(xiàn)有聯(lián)邦學(xué)習(xí)方法(如 FedAvg、FedC-Tran),在復(fù)雜數(shù)據(jù)異質(zhì)性場景下仍能保持優(yōu)異的泛化性能,為聯(lián)邦多標(biāo)簽分類任務(wù)提供了全新解決方案。
多標(biāo)簽圖像分類需識別圖像中所有目標(biāo)類別(如“液體”“玻璃”“植物” 可共存于一張圖像),其核心挑戰(zhàn)在于建模標(biāo)簽間的相關(guān)性(如“液體” 與 “玻璃” 常共現(xiàn))。在聯(lián)邦學(xué)習(xí)場景中,這一挑戰(zhàn)被數(shù)據(jù)異質(zhì)性進(jìn)一步放大。
現(xiàn)有聯(lián)邦學(xué)習(xí)方法(如 FedProx、FedBN)主要針對單標(biāo)簽任務(wù)設(shè)計,無法處理多標(biāo)簽特有的標(biāo)簽相關(guān)性問題;而集中式多標(biāo)簽?zāi)P停ㄈ?C-Tran)依賴全局?jǐn)?shù)據(jù)學(xué)習(xí)標(biāo)簽關(guān)聯(lián),難以直接遷移到聯(lián)邦場景。因此,如何在保護(hù)隱私的前提下,跨客戶端協(xié)同學(xué)習(xí)魯棒的標(biāo)簽相關(guān)性,成為聯(lián)邦多標(biāo)簽分類的關(guān)鍵難題
FedLGT 的整體框架如圖 1 所示,通過融合 Transformer 的全局建模能力與語言引導(dǎo)的標(biāo)簽語義對齊機(jī)制,實現(xiàn)跨客戶端知識聚合。其核心包括三大模塊:多標(biāo)簽 Transformer 基礎(chǔ)架構(gòu)、客戶端感知掩碼標(biāo)簽嵌入(CA-MLE)、通用標(biāo)簽嵌入(ULE)。
圖 1 聯(lián)邦語言引導(dǎo) Transformer(FedLGT)框架示意圖
FedLGT 以 Transformer 為核心構(gòu)建模型骨架,將圖像特征與標(biāo)簽嵌入作為輸入序列,通過自注意力機(jī)制捕捉視覺特征與標(biāo)簽間的關(guān)聯(lián)。
客戶端感知掩碼標(biāo)簽嵌入(CA-MLE)是解決局部與全局目標(biāo)不一致的關(guān)鍵設(shè)計。其核心思路是讓局部模型在訓(xùn)練時重點關(guān)注全局模型尚未掌握的標(biāo)簽知識:客戶端接收當(dāng)前全局模型后,先用其對本地數(shù)據(jù)進(jìn)行預(yù)測,得到各標(biāo)簽的置信度;若某標(biāo)簽的置信度處于閾值區(qū)間(如 0.48~0.52,即全局模型對該標(biāo)簽“不確定”),則將其標(biāo)記為“未知”狀態(tài),強(qiáng)制局部模型重點學(xué)習(xí);且僅“未知”狀態(tài)的標(biāo)簽參與損失計算,確保局部訓(xùn)練聚焦全局模型的薄弱環(huán)節(jié),實現(xiàn)知識互補(bǔ)。這一過程可表示為:當(dāng)全局模型對標(biāo)簽 c 的預(yù)測概率 ρc處于 τ-ε 到 τ+ε 之間(其中 τ=0.5 為判斷閾值,ε=0.02 為不確定性邊際),則將該標(biāo)簽的狀態(tài)設(shè)為 “未知”,否則保持原狀態(tài)。
計算公式如下:
其中,τ= 0.5為判斷閾值,ε= 0.02為不確定性邊際,ρc為全局模型對標(biāo)簽c的預(yù)測概率。
通用標(biāo)簽嵌入(ULE)則用于統(tǒng)一跨客戶端的標(biāo)簽語義空間。其借助 CLIP 的預(yù)訓(xùn)練文本編碼器生成固定的標(biāo)簽嵌入:為每個標(biāo)簽設(shè)計提示文本 “The photo contains [CLASS]”(如 “ The photo contains liquid”),通過 CLIP 的文本編碼器生成對應(yīng)嵌入,確保不同客戶端對同一標(biāo)簽的語義理解一致;這些嵌入?yún)?shù)固定不參與訓(xùn)練,作為全局共享的 “語義錨點”,大幅減少模型聚合時的標(biāo)簽語義沖突。對于 FLAIR 粗粒度任務(wù)(類別較抽象),還結(jié)合細(xì)粒度標(biāo)簽信息優(yōu)化嵌入 —— 或直接用細(xì)粒度標(biāo)簽填充提示文本,或?qū)Υ至6阮悇e對應(yīng)的細(xì)粒度嵌入取平均,進(jìn)一步提升語義一致性。
FedLGT 的總損失包括兩部分:
訓(xùn)練流程遵循聯(lián)邦學(xué)習(xí)范式:服務(wù)器廣播全局模型→客戶端通過 CA-MLE 和 ULE 進(jìn)行局部訓(xùn)練→上傳局部模型→服務(wù)器聚合更新全局模型,迭代至收斂。
實驗所用數(shù)據(jù)集包括 FLAIR、MS-COCO 和 PASCAL VOC。其中 FLAIR 是首個聯(lián)邦多標(biāo)簽專用數(shù)據(jù)集,包含真實用戶在 Flickr 上的圖像,尺寸為 256×256 像素,天然具有非 IID 特性(數(shù)量傾斜、標(biāo)簽分布偏移、領(lǐng)域差異),分為粗粒度(17 個類別)和細(xì)粒度(1628 個類別)任務(wù),后者因類別更多、分布更稀疏,對模型泛化能力要求更高;MS-COCO 含 122,218 張圖像、80 個常見目標(biāo)類別,實驗中通過人工劃分模擬聯(lián)邦場景;PASCAL VOC 則含 21,503 張圖像、20 個類別,作為輕量級場景的驗證集。
實驗的實現(xiàn)細(xì)節(jié)與參數(shù)設(shè)置嚴(yán)格統(tǒng)一:所有模型均采用 ResNet-18 作為視覺特征提取器,確保對比公平;ULE 基于 CLIP 文本編碼器生成,狀態(tài)嵌入中 “positive”“negative” 通過 CLIP 生成,“unknown” 固定為全零向量;CA-MLE 的閾值 τ=0.5,不確定性邊際 ε=0.02;局部訓(xùn)練每輪 5 個 epoch,采用 Adam 優(yōu)化器(學(xué)習(xí)率 0.0001),批處理大小 16;聯(lián)邦通信輪次設(shè)為 50,每輪激活客戶端數(shù)量等效于 50 個(通過采樣率控制);針對 FLAIR 的數(shù)量傾斜問題,采用非均勻客戶端采樣策略(按數(shù)據(jù)量占比分配采樣概率),避免小數(shù)據(jù)集客戶端被忽視。實驗基于 PyTorch 框架實現(xiàn),訓(xùn)練硬件為單臺 NVIDIA RTX 3090Ti GPU(24GB 顯存),確保計算資源一致。
評估指標(biāo)采用多標(biāo)簽分類領(lǐng)域的標(biāo)準(zhǔn)指標(biāo),包括 per-class(C)和 overall(O)的平均精度(AP)、精確率(P)、召回率(R)、F1 分?jǐn)?shù),其中 per-class 指標(biāo)反映模型對稀有類別的識別能力,overall 指標(biāo)則體現(xiàn)整體性能。
如下表1所示,在 FLAIR 粗粒度任務(wù)中,F(xiàn)edLGT 的性能全面領(lǐng)先現(xiàn)有方法:其 C-AP 達(dá)到 60.90,較 FedC-Tran(56.00)提升 4.9 個百分點,C-F1 為 55.10,較 FedC-Tran(43.10)提升 12 個百分點;與 FedAvg 相比,優(yōu)勢更為顯著,C-AP 提升近 20 個百分點。即使與集中式模型相比,F(xiàn)edLGT 的性能衰減幅度也最小,例如 C-AP 僅比集中式 C-Tran 低 10.7%,而 FedC-Tran 則低 15.6%,充分證明其對標(biāo)簽關(guān)聯(lián)的建模能力更優(yōu)。
表1 FLAIR 粗粒度任務(wù)
如下表2所示,在更具挑戰(zhàn)性的 FLAIR 細(xì)粒度任務(wù)中,F(xiàn)edLGT 的優(yōu)勢進(jìn)一步放大:其 C-AP 達(dá) 10.60,是 FedC-Tran(3.30)的 3.2 倍,O-F1 為 33.40,較 FedC-Tran(31.70)提升 1.7 個百分點。這一結(jié)果驗證了 FedLGT 在大規(guī)模標(biāo)簽空間中處理稀疏分布標(biāo)簽的能力,尤其在類別數(shù)量龐大、數(shù)據(jù)異質(zhì)性更強(qiáng)的場景中,其優(yōu)勢更為突出。
表2 FLAIR 細(xì)粒度任務(wù)
如下表3所示,在 MS-COCO 與 PASCAL VOC 數(shù)據(jù)集上,F(xiàn)edLGT 同樣表現(xiàn)優(yōu)異。MS-COCO 上,其 O-F1 達(dá) 76.80,較 FedC-Tran(75.30)提升 1.5 個百分點;PASCAL VOC 上,C-F1 為 85.50,超越 FedC-Tran(83.60)1.9 個百分點,證明其泛化能力不受數(shù)據(jù)集特性限制,在傳統(tǒng)多標(biāo)簽場景中依然有效。
表3 FedLGT 與聯(lián)邦學(xué)習(xí)基線在 MS-COCO 和 PASCAL VOC 上的比較
如下表4所示,消融實驗進(jìn)一步驗證了各核心組件的有效性:僅添加 ULE 時,F(xiàn)edC-Tran 的 C-AP 從 56.00 提升至 59.70(+3.7 個百分點),證明統(tǒng)一標(biāo)簽語義空間的重要性;僅添加 CA-MLE 時,C-AP 僅提升 0.1 個百分點,但與 ULE 結(jié)合后,C-AP 可進(jìn)一步提升至 60.90(+1.2 個百分點),體現(xiàn)了組件間的協(xié)同價值。
表4消融實驗
該論文提出的 FedLGT 框架首次系統(tǒng)解決了聯(lián)邦多標(biāo)簽分類中的數(shù)據(jù)異質(zhì)性與標(biāo)簽關(guān)聯(lián)建模難題,通過 CA-MLE 引導(dǎo)局部模型聚焦全局知識缺口,借助 ULE 實現(xiàn)跨客戶端標(biāo)簽語義對齊,在多個數(shù)據(jù)集上的實驗充分驗證了其優(yōu)越性。該方法不僅為聯(lián)邦學(xué)習(xí)在多標(biāo)簽場景的應(yīng)用提供了關(guān)鍵技術(shù)支撐,更開創(chuàng)了利用預(yù)訓(xùn)練視覺 - 語言模型解決聯(lián)邦學(xué)習(xí)中語義對齊問題的新思路。
未來研究將進(jìn)一步探索標(biāo)簽依賴關(guān)系的顯式建模(如引入標(biāo)簽圖結(jié)構(gòu)),并擴(kuò)展至更復(fù)雜的聯(lián)邦場景(如動態(tài)客戶端加入、非獨立同分布文本數(shù)據(jù)),以期在更廣泛的實際場景中發(fā)揮作用。
撰稿人:劉世港
審稿人:周成菊