該論文發(fā)表于The Thirty-Eighth AAAI Conference on Artificial Intelligence(AAAI-24,人工智能領(lǐng)域頂級會議,CCF-A),題目為《Language-Guided Transformer for Federated Multi-Label Classification》。
此文的作者是 I-Jieh Liu、Ci-Siang Lin、Fu-En Yang 和 Yu-Chiang Frank Wang,他們分別來自臺灣大學通信工程研究所和 NVIDIA 公司。
論文代碼鏈接: https://github.com/Jack24658735/FedLGT
論文鏈接: https://ojs.aaai.org/index.php/AAAI/article/view/29295
聯(lián)邦學習(Federated Learning, FL)作為一種隱私保護的分布式學習范式,允許多個客戶端在不共享私有數(shù)據(jù)的情況下協(xié)同訓練模型,已在醫(yī)療、金融等領(lǐng)域展現(xiàn)出巨大潛力。然而,現(xiàn)有聯(lián)邦學習方法多聚焦于單標簽圖像分類,在更貼近實際場景的多標簽分類任務中面臨嚴峻挑戰(zhàn):客戶端數(shù)據(jù)分布的異質(zhì)性(如標簽分布偏移、領(lǐng)域差異)會導致局部模型對標簽相關(guān)性的學習存在偏差,直接聚合局部模型會引發(fā)全局性能退化。
針對這一問題,本文提出了一種全新的聯(lián)邦多標簽分類框架 —— 聯(lián)邦語言引導 Transformer(FedLGT)。該框架基于 Transformer 架構(gòu),通過兩大核心技術(shù)突破現(xiàn)有瓶頸:一是客戶端感知掩碼標簽嵌入(Client-Aware Masked Label Embedding, CA-MLE),引導局部模型聚焦全局模型尚未掌握的標簽知識;二是通用標簽嵌入(Universal Label Embedding, ULE),利用預訓練視覺 - 語言模型(如 CLIP)的文本編碼器生成統(tǒng)一標簽嵌入,實現(xiàn)跨客戶端標簽語義對齊。
實驗結(jié)果表明,F(xiàn)edLGT在FLAIR、MS-COCO、PASCAL VOC等多標簽數(shù)據(jù)集上全面超越現(xiàn)有聯(lián)邦學習方法(如 FedAvg、FedC-Tran),在復雜數(shù)據(jù)異質(zhì)性場景下仍能保持優(yōu)異的泛化性能,為聯(lián)邦多標簽分類任務提供了全新解決方案。
多標簽圖像分類需識別圖像中所有目標類別(如“液體”“玻璃”“植物” 可共存于一張圖像),其核心挑戰(zhàn)在于建模標簽間的相關(guān)性(如“液體” 與 “玻璃” 常共現(xiàn))。在聯(lián)邦學習場景中,這一挑戰(zhàn)被數(shù)據(jù)異質(zhì)性進一步放大。
現(xiàn)有聯(lián)邦學習方法(如 FedProx、FedBN)主要針對單標簽任務設計,無法處理多標簽特有的標簽相關(guān)性問題;而集中式多標簽模型(如 C-Tran)依賴全局數(shù)據(jù)學習標簽關(guān)聯(lián),難以直接遷移到聯(lián)邦場景。因此,如何在保護隱私的前提下,跨客戶端協(xié)同學習魯棒的標簽相關(guān)性,成為聯(lián)邦多標簽分類的關(guān)鍵難題
FedLGT 的整體框架如圖 1 所示,通過融合 Transformer 的全局建模能力與語言引導的標簽語義對齊機制,實現(xiàn)跨客戶端知識聚合。其核心包括三大模塊:多標簽 Transformer 基礎架構(gòu)、客戶端感知掩碼標簽嵌入(CA-MLE)、通用標簽嵌入(ULE)。
圖 1 聯(lián)邦語言引導 Transformer(FedLGT)框架示意圖
FedLGT 以 Transformer 為核心構(gòu)建模型骨架,將圖像特征與標簽嵌入作為輸入序列,通過自注意力機制捕捉視覺特征與標簽間的關(guān)聯(lián)。
客戶端感知掩碼標簽嵌入(CA-MLE)是解決局部與全局目標不一致的關(guān)鍵設計。其核心思路是讓局部模型在訓練時重點關(guān)注全局模型尚未掌握的標簽知識:客戶端接收當前全局模型后,先用其對本地數(shù)據(jù)進行預測,得到各標簽的置信度;若某標簽的置信度處于閾值區(qū)間(如 0.48~0.52,即全局模型對該標簽“不確定”),則將其標記為“未知”狀態(tài),強制局部模型重點學習;且僅“未知”狀態(tài)的標簽參與損失計算,確保局部訓練聚焦全局模型的薄弱環(huán)節(jié),實現(xiàn)知識互補。這一過程可表示為:當全局模型對標簽 c 的預測概率 ρc處于 τ-ε 到 τ+ε 之間(其中 τ=0.5 為判斷閾值,ε=0.02 為不確定性邊際),則將該標簽的狀態(tài)設為 “未知”,否則保持原狀態(tài)。
計算公式如下:
其中,τ= 0.5為判斷閾值,ε= 0.02為不確定性邊際,ρc為全局模型對標簽c的預測概率。
通用標簽嵌入(ULE)則用于統(tǒng)一跨客戶端的標簽語義空間。其借助 CLIP 的預訓練文本編碼器生成固定的標簽嵌入:為每個標簽設計提示文本 “The photo contains [CLASS]”(如 “ The photo contains liquid”),通過 CLIP 的文本編碼器生成對應嵌入,確保不同客戶端對同一標簽的語義理解一致;這些嵌入?yún)?shù)固定不參與訓練,作為全局共享的 “語義錨點”,大幅減少模型聚合時的標簽語義沖突。對于 FLAIR 粗粒度任務(類別較抽象),還結(jié)合細粒度標簽信息優(yōu)化嵌入 —— 或直接用細粒度標簽填充提示文本,或?qū)Υ至6阮悇e對應的細粒度嵌入取平均,進一步提升語義一致性。
FedLGT 的總損失包括兩部分:
訓練流程遵循聯(lián)邦學習范式:服務器廣播全局模型→客戶端通過 CA-MLE 和 ULE 進行局部訓練→上傳局部模型→服務器聚合更新全局模型,迭代至收斂。
實驗所用數(shù)據(jù)集包括 FLAIR、MS-COCO 和 PASCAL VOC。其中 FLAIR 是首個聯(lián)邦多標簽專用數(shù)據(jù)集,包含真實用戶在 Flickr 上的圖像,尺寸為 256×256 像素,天然具有非 IID 特性(數(shù)量傾斜、標簽分布偏移、領(lǐng)域差異),分為粗粒度(17 個類別)和細粒度(1628 個類別)任務,后者因類別更多、分布更稀疏,對模型泛化能力要求更高;MS-COCO 含 122,218 張圖像、80 個常見目標類別,實驗中通過人工劃分模擬聯(lián)邦場景;PASCAL VOC 則含 21,503 張圖像、20 個類別,作為輕量級場景的驗證集。
實驗的實現(xiàn)細節(jié)與參數(shù)設置嚴格統(tǒng)一:所有模型均采用 ResNet-18 作為視覺特征提取器,確保對比公平;ULE 基于 CLIP 文本編碼器生成,狀態(tài)嵌入中 “positive”“negative” 通過 CLIP 生成,“unknown” 固定為全零向量;CA-MLE 的閾值 τ=0.5,不確定性邊際 ε=0.02;局部訓練每輪 5 個 epoch,采用 Adam 優(yōu)化器(學習率 0.0001),批處理大小 16;聯(lián)邦通信輪次設為 50,每輪激活客戶端數(shù)量等效于 50 個(通過采樣率控制);針對 FLAIR 的數(shù)量傾斜問題,采用非均勻客戶端采樣策略(按數(shù)據(jù)量占比分配采樣概率),避免小數(shù)據(jù)集客戶端被忽視。實驗基于 PyTorch 框架實現(xiàn),訓練硬件為單臺 NVIDIA RTX 3090Ti GPU(24GB 顯存),確保計算資源一致。
評估指標采用多標簽分類領(lǐng)域的標準指標,包括 per-class(C)和 overall(O)的平均精度(AP)、精確率(P)、召回率(R)、F1 分數(shù),其中 per-class 指標反映模型對稀有類別的識別能力,overall 指標則體現(xiàn)整體性能。
如下表1所示,在 FLAIR 粗粒度任務中,F(xiàn)edLGT 的性能全面領(lǐng)先現(xiàn)有方法:其 C-AP 達到 60.90,較 FedC-Tran(56.00)提升 4.9 個百分點,C-F1 為 55.10,較 FedC-Tran(43.10)提升 12 個百分點;與 FedAvg 相比,優(yōu)勢更為顯著,C-AP 提升近 20 個百分點。即使與集中式模型相比,F(xiàn)edLGT 的性能衰減幅度也最小,例如 C-AP 僅比集中式 C-Tran 低 10.7%,而 FedC-Tran 則低 15.6%,充分證明其對標簽關(guān)聯(lián)的建模能力更優(yōu)。
表1 FLAIR 粗粒度任務
如下表2所示,在更具挑戰(zhàn)性的 FLAIR 細粒度任務中,F(xiàn)edLGT 的優(yōu)勢進一步放大:其 C-AP 達 10.60,是 FedC-Tran(3.30)的 3.2 倍,O-F1 為 33.40,較 FedC-Tran(31.70)提升 1.7 個百分點。這一結(jié)果驗證了 FedLGT 在大規(guī)模標簽空間中處理稀疏分布標簽的能力,尤其在類別數(shù)量龐大、數(shù)據(jù)異質(zhì)性更強的場景中,其優(yōu)勢更為突出。
表2 FLAIR 細粒度任務
如下表3所示,在 MS-COCO 與 PASCAL VOC 數(shù)據(jù)集上,F(xiàn)edLGT 同樣表現(xiàn)優(yōu)異。MS-COCO 上,其 O-F1 達 76.80,較 FedC-Tran(75.30)提升 1.5 個百分點;PASCAL VOC 上,C-F1 為 85.50,超越 FedC-Tran(83.60)1.9 個百分點,證明其泛化能力不受數(shù)據(jù)集特性限制,在傳統(tǒng)多標簽場景中依然有效。
表3 FedLGT 與聯(lián)邦學習基線在 MS-COCO 和 PASCAL VOC 上的比較
如下表4所示,消融實驗進一步驗證了各核心組件的有效性:僅添加 ULE 時,F(xiàn)edC-Tran 的 C-AP 從 56.00 提升至 59.70(+3.7 個百分點),證明統(tǒng)一標簽語義空間的重要性;僅添加 CA-MLE 時,C-AP 僅提升 0.1 個百分點,但與 ULE 結(jié)合后,C-AP 可進一步提升至 60.90(+1.2 個百分點),體現(xiàn)了組件間的協(xié)同價值。
表4消融實驗
該論文提出的 FedLGT 框架首次系統(tǒng)解決了聯(lián)邦多標簽分類中的數(shù)據(jù)異質(zhì)性與標簽關(guān)聯(lián)建模難題,通過 CA-MLE 引導局部模型聚焦全局知識缺口,借助 ULE 實現(xiàn)跨客戶端標簽語義對齊,在多個數(shù)據(jù)集上的實驗充分驗證了其優(yōu)越性。該方法不僅為聯(lián)邦學習在多標簽場景的應用提供了關(guān)鍵技術(shù)支撐,更開創(chuàng)了利用預訓練視覺 - 語言模型解決聯(lián)邦學習中語義對齊問題的新思路。
未來研究將進一步探索標簽依賴關(guān)系的顯式建模(如引入標簽圖結(jié)構(gòu)),并擴展至更復雜的聯(lián)邦場景(如動態(tài)客戶端加入、非獨立同分布文本數(shù)據(jù)),以期在更廣泛的實際場景中發(fā)揮作用。
撰稿人:劉世港
審稿人:周成菊