91一级特黄大片|婷婷中文字幕在线|av成人无码国产|日韩无码一二三区|久久不射强奸视频|九九九久久久精品|国产免费浮力限制

AAAI 2024 | 用于聯(lián)邦多標(biāo)簽分類的語言引導(dǎo)Transformer

該論文發(fā)表于The Thirty-Eighth AAAI Conference on Artificial Intelligence(AAAI-24,人工智能領(lǐng)域頂級會議,CCF-A),題目為《Language-Guided Transformer for Federated Multi-Label Classification》。

此文的作者是 I-Jieh Liu、Ci-Siang Lin、Fu-En Yang 和 Yu-Chiang Frank Wang,他們分別來自臺灣大學(xué)通信工程研究所和 NVIDIA 公司。

論文代碼鏈接: https://github.com/Jack24658735/FedLGT

論文鏈接: https://ojs.aaai.org/index.php/AAAI/article/view/29295

論文概要

   聯(lián)邦學(xué)習(xí)(Federated Learning, FL)作為一種隱私保護(hù)的分布式學(xué)習(xí)范式,允許多個客戶端在不共享私有數(shù)據(jù)的情況下協(xié)同訓(xùn)練模型,已在醫(yī)療、金融等領(lǐng)域展現(xiàn)出巨大潛力。然而,現(xiàn)有聯(lián)邦學(xué)習(xí)方法多聚焦于單標(biāo)簽圖像分類,在更貼近實際場景的多標(biāo)簽分類任務(wù)中面臨嚴(yán)峻挑戰(zhàn):客戶端數(shù)據(jù)分布的異質(zhì)性(如標(biāo)簽分布偏移、領(lǐng)域差異)會導(dǎo)致局部模型對標(biāo)簽相關(guān)性的學(xué)習(xí)存在偏差,直接聚合局部模型會引發(fā)全局性能退化。

針對這一問題,本文提出了一種全新的聯(lián)邦多標(biāo)簽分類框架 —— 聯(lián)邦語言引導(dǎo) Transformer(FedLGT)。該框架基于 Transformer 架構(gòu),通過兩大核心技術(shù)突破現(xiàn)有瓶頸:一是客戶端感知掩碼標(biāo)簽嵌入(Client-Aware Masked Label Embedding, CA-MLE),引導(dǎo)局部模型聚焦全局模型尚未掌握的標(biāo)簽知識;二是通用標(biāo)簽嵌入(Universal Label Embedding, ULE),利用預(yù)訓(xùn)練視覺 - 語言模型(如 CLIP)的文本編碼器生成統(tǒng)一標(biāo)簽嵌入,實現(xiàn)跨客戶端標(biāo)簽語義對齊。  

實驗結(jié)果表明,F(xiàn)edLGT在FLAIR、MS-COCO、PASCAL VOC等多標(biāo)簽數(shù)據(jù)集上全面超越現(xiàn)有聯(lián)邦學(xué)習(xí)方法(如 FedAvg、FedC-Tran),在復(fù)雜數(shù)據(jù)異質(zhì)性場景下仍能保持優(yōu)異的泛化性能,為聯(lián)邦多標(biāo)簽分類任務(wù)提供了全新解決方案。

研究背景

多標(biāo)簽圖像分類需識別圖像中所有目標(biāo)類別(如“液體”“玻璃”“植物” 可共存于一張圖像),其核心挑戰(zhàn)在于建模標(biāo)簽間的相關(guān)性(如“液體” 與 “玻璃” 常共現(xiàn))。在聯(lián)邦學(xué)習(xí)場景中,這一挑戰(zhàn)被數(shù)據(jù)異質(zhì)性進(jìn)一步放大。

  • 標(biāo)簽分布偏移:不同客戶端的標(biāo)簽空間可能重疊有限(如客戶端 1 側(cè)重 “液體 + 玻璃”,客戶端 2 側(cè)重 “液體 + 植物”),導(dǎo)致局部模型學(xué)習(xí)的標(biāo)簽相關(guān)性存在偏差。
  • 領(lǐng)域差異:即使標(biāo)簽相同,不同客戶端的圖像特征可能因采集環(huán)境(如光照、設(shè)備)不同而存在顯著差異。
  • 聚合沖突:直接聚合局部模型會混淆不同客戶端學(xué)到的標(biāo)簽關(guān)聯(lián)模式(如 “液體” 與 “玻璃”“植物” 的關(guān)聯(lián)被強(qiáng)行融合),導(dǎo)致全局模型性能下降。

現(xiàn)有聯(lián)邦學(xué)習(xí)方法(如 FedProx、FedBN)主要針對單標(biāo)簽任務(wù)設(shè)計,無法處理多標(biāo)簽特有的標(biāo)簽相關(guān)性問題;而集中式多標(biāo)簽?zāi)P停ㄈ?C-Tran)依賴全局?jǐn)?shù)據(jù)學(xué)習(xí)標(biāo)簽關(guān)聯(lián),難以直接遷移到聯(lián)邦場景。因此,如何在保護(hù)隱私的前提下,跨客戶端協(xié)同學(xué)習(xí)魯棒的標(biāo)簽相關(guān)性,成為聯(lián)邦多標(biāo)簽分類的關(guān)鍵難題

方法

FedLGT 的整體框架如圖 1 所示,通過融合 Transformer 的全局建模能力與語言引導(dǎo)的標(biāo)簽語義對齊機(jī)制,實現(xiàn)跨客戶端知識聚合。其核心包括三大模塊:多標(biāo)簽 Transformer 基礎(chǔ)架構(gòu)、客戶端感知掩碼標(biāo)簽嵌入(CA-MLE)、通用標(biāo)簽嵌入(ULE)。

圖 1 聯(lián)邦語言引導(dǎo) Transformer(FedLGT)框架示意圖

(1) 多標(biāo)簽 Transformer 基礎(chǔ)架構(gòu)

FedLGT 以 Transformer 為核心構(gòu)建模型骨架,將圖像特征與標(biāo)簽嵌入作為輸入序列,通過自注意力機(jī)制捕捉視覺特征與標(biāo)簽間的關(guān)聯(lián)。

  • 圖像特征由 ResNet-18 骨干網(wǎng)絡(luò)提取,轉(zhuǎn)化為序列形式。
  • 標(biāo)簽嵌入與狀態(tài)嵌入(表示標(biāo)簽的 “已知”“未知”“負(fù)例” 狀態(tài))融合為掩碼標(biāo)簽嵌入,作為 Transformer 的另一輸入序列。
  • 輸出通過 MLP 頭預(yù)測各標(biāo)簽的存在概率,實現(xiàn)多標(biāo)簽分類。

(2) 客戶端感知掩碼標(biāo)簽嵌入(CA-MLE)

客戶端感知掩碼標(biāo)簽嵌入(CA-MLE)是解決局部與全局目標(biāo)不一致的關(guān)鍵設(shè)計。其核心思路是讓局部模型在訓(xùn)練時重點關(guān)注全局模型尚未掌握的標(biāo)簽知識:客戶端接收當(dāng)前全局模型后,先用其對本地數(shù)據(jù)進(jìn)行預(yù)測,得到各標(biāo)簽的置信度;若某標(biāo)簽的置信度處于閾值區(qū)間(如 0.48~0.52,即全局模型對該標(biāo)簽“不確定”),則將其標(biāo)記為“未知”狀態(tài),強(qiáng)制局部模型重點學(xué)習(xí);且僅“未知”狀態(tài)的標(biāo)簽參與損失計算,確保局部訓(xùn)練聚焦全局模型的薄弱環(huán)節(jié),實現(xiàn)知識互補(bǔ)。這一過程可表示為:當(dāng)全局模型對標(biāo)簽 c 的預(yù)測概率 ρc處于 τ-ε 到 τ+ε 之間(其中 τ=0.5 為判斷閾值,ε=0.02 為不確定性邊際),則將該標(biāo)簽的狀態(tài)設(shè)為 “未知”,否則保持原狀態(tài)。

計算公式如下:

其中,τ= 0.5為判斷閾值,ε= 0.02為不確定性邊際,ρc為全局模型對標(biāo)簽c的預(yù)測概率。

通用標(biāo)簽嵌入(ULE)

通用標(biāo)簽嵌入(ULE)則用于統(tǒng)一跨客戶端的標(biāo)簽語義空間。其借助 CLIP 的預(yù)訓(xùn)練文本編碼器生成固定的標(biāo)簽嵌入:為每個標(biāo)簽設(shè)計提示文本 “The photo contains [CLASS]”(如 “ The photo contains liquid”),通過 CLIP 的文本編碼器生成對應(yīng)嵌入,確保不同客戶端對同一標(biāo)簽的語義理解一致;這些嵌入?yún)?shù)固定不參與訓(xùn)練,作為全局共享的 “語義錨點”,大幅減少模型聚合時的標(biāo)簽語義沖突。對于 FLAIR 粗粒度任務(wù)(類別較抽象),還結(jié)合細(xì)粒度標(biāo)簽信息優(yōu)化嵌入 —— 或直接用細(xì)粒度標(biāo)簽填充提示文本,或?qū)Υ至6阮悇e對應(yīng)的細(xì)粒度嵌入取平均,進(jìn)一步提升語義一致性。

(4) 損失函數(shù)與訓(xùn)練流程

  FedLGT 的總損失包括兩部分:

  • 帶屬性加權(quán)的二元交叉熵?fù)p失,僅對 CA-MLE 標(biāo)記的 “未知” 標(biāo)簽計算,強(qiáng)化小樣本標(biāo)簽學(xué)習(xí)。

  • 全局模型采用 FedAvg 聚合策略,按客戶端數(shù)據(jù)量加權(quán)融合局部模型參數(shù)。

訓(xùn)練流程遵循聯(lián)邦學(xué)習(xí)范式:服務(wù)器廣播全局模型→客戶端通過 CA-MLE 和 ULE 進(jìn)行局部訓(xùn)練→上傳局部模型→服務(wù)器聚合更新全局模型,迭代至收斂。

實驗結(jié)果

實驗所用數(shù)據(jù)集包括 FLAIR、MS-COCO 和 PASCAL VOC。其中 FLAIR 是首個聯(lián)邦多標(biāo)簽專用數(shù)據(jù)集,包含真實用戶在 Flickr 上的圖像,尺寸為 256×256 像素,天然具有非 IID 特性(數(shù)量傾斜、標(biāo)簽分布偏移、領(lǐng)域差異),分為粗粒度(17 個類別)和細(xì)粒度(1628 個類別)任務(wù),后者因類別更多、分布更稀疏,對模型泛化能力要求更高;MS-COCO 含 122,218 張圖像、80 個常見目標(biāo)類別,實驗中通過人工劃分模擬聯(lián)邦場景;PASCAL VOC 則含 21,503 張圖像、20 個類別,作為輕量級場景的驗證集。

實驗的實現(xiàn)細(xì)節(jié)與參數(shù)設(shè)置嚴(yán)格統(tǒng)一:所有模型均采用 ResNet-18 作為視覺特征提取器,確保對比公平;ULE 基于 CLIP 文本編碼器生成,狀態(tài)嵌入中 “positive”“negative” 通過 CLIP 生成,“unknown” 固定為全零向量;CA-MLE 的閾值 τ=0.5,不確定性邊際 ε=0.02;局部訓(xùn)練每輪 5 個 epoch,采用 Adam 優(yōu)化器(學(xué)習(xí)率 0.0001),批處理大小 16;聯(lián)邦通信輪次設(shè)為 50,每輪激活客戶端數(shù)量等效于 50 個(通過采樣率控制);針對 FLAIR 的數(shù)量傾斜問題,采用非均勻客戶端采樣策略(按數(shù)據(jù)量占比分配采樣概率),避免小數(shù)據(jù)集客戶端被忽視。實驗基于 PyTorch 框架實現(xiàn),訓(xùn)練硬件為單臺 NVIDIA RTX 3090Ti GPU(24GB 顯存),確保計算資源一致。

評估指標(biāo)采用多標(biāo)簽分類領(lǐng)域的標(biāo)準(zhǔn)指標(biāo),包括 per-class(C)和 overall(O)的平均精度(AP)、精確率(P)、召回率(R)、F1 分?jǐn)?shù),其中 per-class 指標(biāo)反映模型對稀有類別的識別能力,overall 指標(biāo)則體現(xiàn)整體性能。

如下表1所示,在 FLAIR 粗粒度任務(wù)中,F(xiàn)edLGT 的性能全面領(lǐng)先現(xiàn)有方法:其 C-AP 達(dá)到 60.90,較 FedC-Tran(56.00)提升 4.9 個百分點,C-F1 為 55.10,較 FedC-Tran(43.10)提升 12 個百分點;與 FedAvg 相比,優(yōu)勢更為顯著,C-AP 提升近 20 個百分點。即使與集中式模型相比,F(xiàn)edLGT 的性能衰減幅度也最小,例如 C-AP 僅比集中式 C-Tran 低 10.7%,而 FedC-Tran 則低 15.6%,充分證明其對標(biāo)簽關(guān)聯(lián)的建模能力更優(yōu)。

表1 FLAIR 粗粒度任務(wù)

如下表2所示,在更具挑戰(zhàn)性的 FLAIR 細(xì)粒度任務(wù)中,F(xiàn)edLGT 的優(yōu)勢進(jìn)一步放大:其 C-AP 達(dá) 10.60,是 FedC-Tran(3.30)的 3.2 倍,O-F1 為 33.40,較 FedC-Tran(31.70)提升 1.7 個百分點。這一結(jié)果驗證了 FedLGT 在大規(guī)模標(biāo)簽空間中處理稀疏分布標(biāo)簽的能力,尤其在類別數(shù)量龐大、數(shù)據(jù)異質(zhì)性更強(qiáng)的場景中,其優(yōu)勢更為突出。

表2 FLAIR 細(xì)粒度任務(wù)

如下表3所示,在 MS-COCO 與 PASCAL VOC 數(shù)據(jù)集上,F(xiàn)edLGT 同樣表現(xiàn)優(yōu)異。MS-COCO 上,其 O-F1 達(dá) 76.80,較 FedC-Tran(75.30)提升 1.5 個百分點;PASCAL VOC 上,C-F1 為 85.50,超越 FedC-Tran(83.60)1.9 個百分點,證明其泛化能力不受數(shù)據(jù)集特性限制,在傳統(tǒng)多標(biāo)簽場景中依然有效。

表3 FedLGT 與聯(lián)邦學(xué)習(xí)基線在 MS-COCO 和 PASCAL VOC 上的比較

如下表4所示,消融實驗進(jìn)一步驗證了各核心組件的有效性:僅添加 ULE 時,F(xiàn)edC-Tran 的 C-AP 從 56.00 提升至 59.70(+3.7 個百分點),證明統(tǒng)一標(biāo)簽語義空間的重要性;僅添加 CA-MLE 時,C-AP 僅提升 0.1 個百分點,但與 ULE 結(jié)合后,C-AP 可進(jìn)一步提升至 60.90(+1.2 個百分點),體現(xiàn)了組件間的協(xié)同價值。

表4消融實驗

研究結(jié)論

該論文提出的 FedLGT 框架首次系統(tǒng)解決了聯(lián)邦多標(biāo)簽分類中的數(shù)據(jù)異質(zhì)性與標(biāo)簽關(guān)聯(lián)建模難題,通過 CA-MLE 引導(dǎo)局部模型聚焦全局知識缺口,借助 ULE 實現(xiàn)跨客戶端標(biāo)簽語義對齊,在多個數(shù)據(jù)集上的實驗充分驗證了其優(yōu)越性。該方法不僅為聯(lián)邦學(xué)習(xí)在多標(biāo)簽場景的應(yīng)用提供了關(guān)鍵技術(shù)支撐,更開創(chuàng)了利用預(yù)訓(xùn)練視覺 - 語言模型解決聯(lián)邦學(xué)習(xí)中語義對齊問題的新思路。

未來研究將進(jìn)一步探索標(biāo)簽依賴關(guān)系的顯式建模(如引入標(biāo)簽圖結(jié)構(gòu)),并擴(kuò)展至更復(fù)雜的聯(lián)邦場景(如動態(tài)客戶端加入、非獨立同分布文本數(shù)據(jù)),以期在更廣泛的實際場景中發(fā)揮作用。

撰稿人:劉世港

審稿人:周成菊


登錄用戶可以查看和發(fā)表評論, 請前往  登錄 或  注冊
SCHOLAT.com 學(xué)者網(wǎng)
免責(zé)聲明 | 關(guān)于我們 | 用戶反饋
聯(lián)系我們: