91一级特黄大片|婷婷中文字幕在线|av成人无码国产|日韩无码一二三区|久久不射强奸视频|九九九久久久精品|国产免费浮力限制

AAAI 2024 | 用于聯(lián)邦多標簽分類的語言引導Transformer

該論文發(fā)表于The Thirty-Eighth AAAI Conference on Artificial Intelligence(AAAI-24,人工智能領(lǐng)域頂級會議,CCF-A),題目為《Language-Guided Transformer for Federated Multi-Label Classification》。

此文的作者是 I-Jieh Liu、Ci-Siang Lin、Fu-En Yang 和 Yu-Chiang Frank Wang,他們分別來自臺灣大學通信工程研究所和 NVIDIA 公司。

論文代碼鏈接: https://github.com/Jack24658735/FedLGT

論文鏈接: https://ojs.aaai.org/index.php/AAAI/article/view/29295

論文概要

   聯(lián)邦學習(Federated Learning, FL)作為一種隱私保護的分布式學習范式,允許多個客戶端在不共享私有數(shù)據(jù)的情況下協(xié)同訓練模型,已在醫(yī)療、金融等領(lǐng)域展現(xiàn)出巨大潛力。然而,現(xiàn)有聯(lián)邦學習方法多聚焦于單標簽圖像分類,在更貼近實際場景的多標簽分類任務中面臨嚴峻挑戰(zhàn):客戶端數(shù)據(jù)分布的異質(zhì)性(如標簽分布偏移、領(lǐng)域差異)會導致局部模型對標簽相關(guān)性的學習存在偏差,直接聚合局部模型會引發(fā)全局性能退化。

針對這一問題,本文提出了一種全新的聯(lián)邦多標簽分類框架 —— 聯(lián)邦語言引導 Transformer(FedLGT)。該框架基于 Transformer 架構(gòu),通過兩大核心技術(shù)突破現(xiàn)有瓶頸:一是客戶端感知掩碼標簽嵌入(Client-Aware Masked Label Embedding, CA-MLE),引導局部模型聚焦全局模型尚未掌握的標簽知識;二是通用標簽嵌入(Universal Label Embedding, ULE),利用預訓練視覺 - 語言模型(如 CLIP)的文本編碼器生成統(tǒng)一標簽嵌入,實現(xiàn)跨客戶端標簽語義對齊。  

實驗結(jié)果表明,F(xiàn)edLGT在FLAIR、MS-COCO、PASCAL VOC等多標簽數(shù)據(jù)集上全面超越現(xiàn)有聯(lián)邦學習方法(如 FedAvg、FedC-Tran),在復雜數(shù)據(jù)異質(zhì)性場景下仍能保持優(yōu)異的泛化性能,為聯(lián)邦多標簽分類任務提供了全新解決方案。

研究背景

多標簽圖像分類需識別圖像中所有目標類別(如“液體”“玻璃”“植物” 可共存于一張圖像),其核心挑戰(zhàn)在于建模標簽間的相關(guān)性(如“液體” 與 “玻璃” 常共現(xiàn))。在聯(lián)邦學習場景中,這一挑戰(zhàn)被數(shù)據(jù)異質(zhì)性進一步放大。

  • 標簽分布偏移:不同客戶端的標簽空間可能重疊有限(如客戶端 1 側(cè)重 “液體 + 玻璃”,客戶端 2 側(cè)重 “液體 + 植物”),導致局部模型學習的標簽相關(guān)性存在偏差。
  • 領(lǐng)域差異:即使標簽相同,不同客戶端的圖像特征可能因采集環(huán)境(如光照、設備)不同而存在顯著差異。
  • 聚合沖突:直接聚合局部模型會混淆不同客戶端學到的標簽關(guān)聯(lián)模式(如 “液體” 與 “玻璃”“植物” 的關(guān)聯(lián)被強行融合),導致全局模型性能下降。

現(xiàn)有聯(lián)邦學習方法(如 FedProx、FedBN)主要針對單標簽任務設計,無法處理多標簽特有的標簽相關(guān)性問題;而集中式多標簽模型(如 C-Tran)依賴全局數(shù)據(jù)學習標簽關(guān)聯(lián),難以直接遷移到聯(lián)邦場景。因此,如何在保護隱私的前提下,跨客戶端協(xié)同學習魯棒的標簽相關(guān)性,成為聯(lián)邦多標簽分類的關(guān)鍵難題

方法

FedLGT 的整體框架如圖 1 所示,通過融合 Transformer 的全局建模能力與語言引導的標簽語義對齊機制,實現(xiàn)跨客戶端知識聚合。其核心包括三大模塊:多標簽 Transformer 基礎架構(gòu)、客戶端感知掩碼標簽嵌入(CA-MLE)、通用標簽嵌入(ULE)。

圖 1 聯(lián)邦語言引導 Transformer(FedLGT)框架示意圖

(1) 多標簽 Transformer 基礎架構(gòu)

FedLGT 以 Transformer 為核心構(gòu)建模型骨架,將圖像特征與標簽嵌入作為輸入序列,通過自注意力機制捕捉視覺特征與標簽間的關(guān)聯(lián)。

  • 圖像特征由 ResNet-18 骨干網(wǎng)絡提取,轉(zhuǎn)化為序列形式。
  • 標簽嵌入與狀態(tài)嵌入(表示標簽的 “已知”“未知”“負例” 狀態(tài))融合為掩碼標簽嵌入,作為 Transformer 的另一輸入序列。
  • 輸出通過 MLP 頭預測各標簽的存在概率,實現(xiàn)多標簽分類。

(2) 客戶端感知掩碼標簽嵌入(CA-MLE)

客戶端感知掩碼標簽嵌入(CA-MLE)是解決局部與全局目標不一致的關(guān)鍵設計。其核心思路是讓局部模型在訓練時重點關(guān)注全局模型尚未掌握的標簽知識:客戶端接收當前全局模型后,先用其對本地數(shù)據(jù)進行預測,得到各標簽的置信度;若某標簽的置信度處于閾值區(qū)間(如 0.48~0.52,即全局模型對該標簽“不確定”),則將其標記為“未知”狀態(tài),強制局部模型重點學習;且僅“未知”狀態(tài)的標簽參與損失計算,確保局部訓練聚焦全局模型的薄弱環(huán)節(jié),實現(xiàn)知識互補。這一過程可表示為:當全局模型對標簽 c 的預測概率 ρc處于 τ-ε 到 τ+ε 之間(其中 τ=0.5 為判斷閾值,ε=0.02 為不確定性邊際),則將該標簽的狀態(tài)設為 “未知”,否則保持原狀態(tài)。

計算公式如下:

其中,τ= 0.5為判斷閾值,ε= 0.02為不確定性邊際,ρc為全局模型對標簽c的預測概率。

通用標簽嵌入(ULE)

通用標簽嵌入(ULE)則用于統(tǒng)一跨客戶端的標簽語義空間。其借助 CLIP 的預訓練文本編碼器生成固定的標簽嵌入:為每個標簽設計提示文本 “The photo contains [CLASS]”(如 “ The photo contains liquid”),通過 CLIP 的文本編碼器生成對應嵌入,確保不同客戶端對同一標簽的語義理解一致;這些嵌入?yún)?shù)固定不參與訓練,作為全局共享的 “語義錨點”,大幅減少模型聚合時的標簽語義沖突。對于 FLAIR 粗粒度任務(類別較抽象),還結(jié)合細粒度標簽信息優(yōu)化嵌入 —— 或直接用細粒度標簽填充提示文本,或?qū)Υ至6阮悇e對應的細粒度嵌入取平均,進一步提升語義一致性。

(4) 損失函數(shù)與訓練流程

  FedLGT 的總損失包括兩部分:

  • 帶屬性加權(quán)的二元交叉熵損失,僅對 CA-MLE 標記的 “未知” 標簽計算,強化小樣本標簽學習。

  • 全局模型采用 FedAvg 聚合策略,按客戶端數(shù)據(jù)量加權(quán)融合局部模型參數(shù)。

訓練流程遵循聯(lián)邦學習范式:服務器廣播全局模型→客戶端通過 CA-MLE 和 ULE 進行局部訓練→上傳局部模型→服務器聚合更新全局模型,迭代至收斂。

實驗結(jié)果

實驗所用數(shù)據(jù)集包括 FLAIR、MS-COCO 和 PASCAL VOC。其中 FLAIR 是首個聯(lián)邦多標簽專用數(shù)據(jù)集,包含真實用戶在 Flickr 上的圖像,尺寸為 256×256 像素,天然具有非 IID 特性(數(shù)量傾斜、標簽分布偏移、領(lǐng)域差異),分為粗粒度(17 個類別)和細粒度(1628 個類別)任務,后者因類別更多、分布更稀疏,對模型泛化能力要求更高;MS-COCO 含 122,218 張圖像、80 個常見目標類別,實驗中通過人工劃分模擬聯(lián)邦場景;PASCAL VOC 則含 21,503 張圖像、20 個類別,作為輕量級場景的驗證集。

實驗的實現(xiàn)細節(jié)與參數(shù)設置嚴格統(tǒng)一:所有模型均采用 ResNet-18 作為視覺特征提取器,確保對比公平;ULE 基于 CLIP 文本編碼器生成,狀態(tài)嵌入中 “positive”“negative” 通過 CLIP 生成,“unknown” 固定為全零向量;CA-MLE 的閾值 τ=0.5,不確定性邊際 ε=0.02;局部訓練每輪 5 個 epoch,采用 Adam 優(yōu)化器(學習率 0.0001),批處理大小 16;聯(lián)邦通信輪次設為 50,每輪激活客戶端數(shù)量等效于 50 個(通過采樣率控制);針對 FLAIR 的數(shù)量傾斜問題,采用非均勻客戶端采樣策略(按數(shù)據(jù)量占比分配采樣概率),避免小數(shù)據(jù)集客戶端被忽視。實驗基于 PyTorch 框架實現(xiàn),訓練硬件為單臺 NVIDIA RTX 3090Ti GPU(24GB 顯存),確保計算資源一致。

評估指標采用多標簽分類領(lǐng)域的標準指標,包括 per-class(C)和 overall(O)的平均精度(AP)、精確率(P)、召回率(R)、F1 分數(shù),其中 per-class 指標反映模型對稀有類別的識別能力,overall 指標則體現(xiàn)整體性能。

如下表1所示,在 FLAIR 粗粒度任務中,F(xiàn)edLGT 的性能全面領(lǐng)先現(xiàn)有方法:其 C-AP 達到 60.90,較 FedC-Tran(56.00)提升 4.9 個百分點,C-F1 為 55.10,較 FedC-Tran(43.10)提升 12 個百分點;與 FedAvg 相比,優(yōu)勢更為顯著,C-AP 提升近 20 個百分點。即使與集中式模型相比,F(xiàn)edLGT 的性能衰減幅度也最小,例如 C-AP 僅比集中式 C-Tran 低 10.7%,而 FedC-Tran 則低 15.6%,充分證明其對標簽關(guān)聯(lián)的建模能力更優(yōu)。

表1 FLAIR 粗粒度任務

如下表2所示,在更具挑戰(zhàn)性的 FLAIR 細粒度任務中,F(xiàn)edLGT 的優(yōu)勢進一步放大:其 C-AP 達 10.60,是 FedC-Tran(3.30)的 3.2 倍,O-F1 為 33.40,較 FedC-Tran(31.70)提升 1.7 個百分點。這一結(jié)果驗證了 FedLGT 在大規(guī)模標簽空間中處理稀疏分布標簽的能力,尤其在類別數(shù)量龐大、數(shù)據(jù)異質(zhì)性更強的場景中,其優(yōu)勢更為突出。

表2 FLAIR 細粒度任務

如下表3所示,在 MS-COCO 與 PASCAL VOC 數(shù)據(jù)集上,F(xiàn)edLGT 同樣表現(xiàn)優(yōu)異。MS-COCO 上,其 O-F1 達 76.80,較 FedC-Tran(75.30)提升 1.5 個百分點;PASCAL VOC 上,C-F1 為 85.50,超越 FedC-Tran(83.60)1.9 個百分點,證明其泛化能力不受數(shù)據(jù)集特性限制,在傳統(tǒng)多標簽場景中依然有效。

表3 FedLGT 與聯(lián)邦學習基線在 MS-COCO 和 PASCAL VOC 上的比較

如下表4所示,消融實驗進一步驗證了各核心組件的有效性:僅添加 ULE 時,F(xiàn)edC-Tran 的 C-AP 從 56.00 提升至 59.70(+3.7 個百分點),證明統(tǒng)一標簽語義空間的重要性;僅添加 CA-MLE 時,C-AP 僅提升 0.1 個百分點,但與 ULE 結(jié)合后,C-AP 可進一步提升至 60.90(+1.2 個百分點),體現(xiàn)了組件間的協(xié)同價值。

表4消融實驗

研究結(jié)論

該論文提出的 FedLGT 框架首次系統(tǒng)解決了聯(lián)邦多標簽分類中的數(shù)據(jù)異質(zhì)性與標簽關(guān)聯(lián)建模難題,通過 CA-MLE 引導局部模型聚焦全局知識缺口,借助 ULE 實現(xiàn)跨客戶端標簽語義對齊,在多個數(shù)據(jù)集上的實驗充分驗證了其優(yōu)越性。該方法不僅為聯(lián)邦學習在多標簽場景的應用提供了關(guān)鍵技術(shù)支撐,更開創(chuàng)了利用預訓練視覺 - 語言模型解決聯(lián)邦學習中語義對齊問題的新思路。

未來研究將進一步探索標簽依賴關(guān)系的顯式建模(如引入標簽圖結(jié)構(gòu)),并擴展至更復雜的聯(lián)邦場景(如動態(tài)客戶端加入、非獨立同分布文本數(shù)據(jù)),以期在更廣泛的實際場景中發(fā)揮作用。

撰稿人:劉世港

審稿人:周成菊


登錄用戶可以查看和發(fā)表評論, 請前往  登錄 或  注冊
SCHOLAT.com 學者網(wǎng)
免責聲明 | 關(guān)于我們 | 用戶反饋
聯(lián)系我們: