强奸午夜福利av电影,亚洲丝袜熟女91

腦機(jī)接口與混合智能研究小組

更多動態(tài)

490

2025-09-25

該論文發(fā)表于The Thirty-Eighth AAAI Conference on Artificial Intelligence（AAAI-24，人工智能領(lǐng)域頂級會議，CCF-A），題目為《Language-Guided Transformer for Federated Multi-Label Classification》。

此文的作者是 I-Jieh Liu、Ci-Siang Lin、Fu-En Yang 和 Yu-Chiang Frank Wang，他們分別來自臺灣大學(xué)通信工程研究所和 NVIDIA 公司。

論文代碼鏈接： https://github.com/Jack24658735/FedLGT

論文鏈接： https://ojs.aaai.org/index.php/AAAI/article/view/29295

論文概要

聯(lián)邦學(xué)習(xí)（Federated Learning, FL）作為一種隱私保護(hù)的分布式學(xué)習(xí)范式，允許多個客戶端在不共享私有數(shù)據(jù)的情況下協(xié)同訓(xùn)練模型，已在醫(yī)療、金融等領(lǐng)域展現(xiàn)出巨大潛力。然而，現(xiàn)有聯(lián)邦學(xué)習(xí)方法多聚焦于單標(biāo)簽圖像分類，在更貼近實際場景的多標(biāo)簽分類任務(wù)中面臨嚴(yán)峻挑戰(zhàn)：客戶端數(shù)據(jù)分布的異質(zhì)性（如標(biāo)簽分布偏移、領(lǐng)域差異）會導(dǎo)致局部模型對標(biāo)簽相關(guān)性的學(xué)習(xí)存在偏差，直接聚合局部模型會引發(fā)全局性能退化。

針對這一問題，本文提出了一種全新的聯(lián)邦多標(biāo)簽分類框架 —— 聯(lián)邦語言引導(dǎo) Transformer（FedLGT）。該框架基于 Transformer 架構(gòu)，通過兩大核心技術(shù)突破現(xiàn)有瓶頸：一是客戶端感知掩碼標(biāo)簽嵌入（Client-Aware Masked Label Embedding, CA-MLE），引導(dǎo)局部模型聚焦全局模型尚未掌握的標(biāo)簽知識；二是通用標(biāo)簽嵌入（Universal Label Embedding, ULE），利用預(yù)訓(xùn)練視覺 - 語言模型（如 CLIP）的文本編碼器生成統(tǒng)一標(biāo)簽嵌入，實現(xiàn)跨客戶端標(biāo)簽語義對齊。

實驗結(jié)果表明，F(xiàn)edLGT在FLAIR、MS-COCO、PASCAL VOC等多標(biāo)簽數(shù)據(jù)集上全面超越現(xiàn)有聯(lián)邦學(xué)習(xí)方法（如 FedAvg、FedC-Tran），在復(fù)雜數(shù)據(jù)異質(zhì)性場景下仍能保持優(yōu)異的泛化性能，為聯(lián)邦多標(biāo)簽分類任務(wù)提供了全新解決方案。

研究背景

多標(biāo)簽圖像分類需識別圖像中所有目標(biāo)類別（如“液體”“玻璃”“植物” 可共存于一張圖像），其核心挑戰(zhàn)在于建模標(biāo)簽間的相關(guān)性（如“液體” 與 “玻璃” 常共現(xiàn)）。在聯(lián)邦學(xué)習(xí)場景中，這一挑戰(zhàn)被數(shù)據(jù)異質(zhì)性進(jìn)一步放大。

標(biāo)簽分布偏移：不同客戶端的標(biāo)簽空間可能重疊有限（如客戶端 1 側(cè)重 “液體 + 玻璃”，客戶端 2 側(cè)重 “液體 + 植物”），導(dǎo)致局部模型學(xué)習(xí)的標(biāo)簽相關(guān)性存在偏差。
領(lǐng)域差異：即使標(biāo)簽相同，不同客戶端的圖像特征可能因采集環(huán)境（如光照、設(shè)備）不同而存在顯著差異。
聚合沖突：直接聚合局部模型會混淆不同客戶端學(xué)到的標(biāo)簽關(guān)聯(lián)模式（如 “液體” 與 “玻璃”“植物” 的關(guān)聯(lián)被強(qiáng)行融合），導(dǎo)致全局模型性能下降。

現(xiàn)有聯(lián)邦學(xué)習(xí)方法（如 FedProx、FedBN）主要針對單標(biāo)簽任務(wù)設(shè)計，無法處理多標(biāo)簽特有的標(biāo)簽相關(guān)性問題；而集中式多標(biāo)簽?zāi)Ｐ停ㄈ?C-Tran）依賴全局?jǐn)?shù)據(jù)學(xué)習(xí)標(biāo)簽關(guān)聯(lián)，難以直接遷移到聯(lián)邦場景。因此，如何在保護(hù)隱私的前提下，跨客戶端協(xié)同學(xué)習(xí)魯棒的標(biāo)簽相關(guān)性，成為聯(lián)邦多標(biāo)簽分類的關(guān)鍵難題

方法

FedLGT 的整體框架如圖 1 所示，通過融合 Transformer 的全局建模能力與語言引導(dǎo)的標(biāo)簽語義對齊機(jī)制，實現(xiàn)跨客戶端知識聚合。其核心包括三大模塊：多標(biāo)簽 Transformer 基礎(chǔ)架構(gòu)、客戶端感知掩碼標(biāo)簽嵌入（CA-MLE）、通用標(biāo)簽嵌入（ULE）。

圖 1 聯(lián)邦語言引導(dǎo) Transformer（FedLGT）框架示意圖

(1) 多標(biāo)簽 Transformer 基礎(chǔ)架構(gòu)

FedLGT 以 Transformer 為核心構(gòu)建模型骨架，將圖像特征與標(biāo)簽嵌入作為輸入序列，通過自注意力機(jī)制捕捉視覺特征與標(biāo)簽間的關(guān)聯(lián)。

圖像特征由 ResNet-18 骨干網(wǎng)絡(luò)提取，轉(zhuǎn)化為序列形式。
標(biāo)簽嵌入與狀態(tài)嵌入（表示標(biāo)簽的 “已知”“未知”“負(fù)例” 狀態(tài)）融合為掩碼標(biāo)簽嵌入，作為 Transformer 的另一輸入序列。
輸出通過 MLP 頭預(yù)測各標(biāo)簽的存在概率，實現(xiàn)多標(biāo)簽分類。

（2）客戶端感知掩碼標(biāo)簽嵌入（CA-MLE）

客戶端感知掩碼標(biāo)簽嵌入（CA-MLE）是解決局部與全局目標(biāo)不一致的關(guān)鍵設(shè)計。其核心思路是讓局部模型在訓(xùn)練時重點關(guān)注全局模型尚未掌握的標(biāo)簽知識：客戶端接收當(dāng)前全局模型后，先用其對本地數(shù)據(jù)進(jìn)行預(yù)測，得到各標(biāo)簽的置信度；若某標(biāo)簽的置信度處于閾值區(qū)間（如 0.48~0.52，即全局模型對該標(biāo)簽“不確定”），則將其標(biāo)記為“未知”狀態(tài)，強(qiáng)制局部模型重點學(xué)習(xí)；且僅“未知”狀態(tài)的標(biāo)簽參與損失計算，確保局部訓(xùn)練聚焦全局模型的薄弱環(huán)節(jié)，實現(xiàn)知識互補(bǔ)。這一過程可表示為：當(dāng)全局模型對標(biāo)簽 c 的預(yù)測概率 ρ_c處于 τ-ε 到 τ+ε 之間（其中 τ=0.5 為判斷閾值，ε=0.02 為不確定性邊際），則將該標(biāo)簽的狀態(tài)設(shè)為 “未知”，否則保持原狀態(tài)。

計算公式如下：

其中，τ= 0.5為判斷閾值，ε= 0.02為不確定性邊際，ρ_c為全局模型對標(biāo)簽c的預(yù)測概率。

通用標(biāo)簽嵌入（ULE）

通用標(biāo)簽嵌入（ULE）則用于統(tǒng)一跨客戶端的標(biāo)簽語義空間。其借助 CLIP 的預(yù)訓(xùn)練文本編碼器生成固定的標(biāo)簽嵌入：為每個標(biāo)簽設(shè)計提示文本 “The photo contains [CLASS]”（如 “ The photo contains liquid”），通過 CLIP 的文本編碼器生成對應(yīng)嵌入，確保不同客戶端對同一標(biāo)簽的語義理解一致；這些嵌入?yún)?shù)固定不參與訓(xùn)練，作為全局共享的 “語義錨點”，大幅減少模型聚合時的標(biāo)簽語義沖突。對于 FLAIR 粗粒度任務(wù)（類別較抽象），還結(jié)合細(xì)粒度標(biāo)簽信息優(yōu)化嵌入 —— 或直接用細(xì)粒度標(biāo)簽填充提示文本，或?qū)Υ至６阮悇e對應(yīng)的細(xì)粒度嵌入取平均，進(jìn)一步提升語義一致性。

（4）損失函數(shù)與訓(xùn)練流程

FedLGT 的總損失包括兩部分：

帶屬性加權(quán)的二元交叉熵?fù)p失，僅對 CA-MLE 標(biāo)記的 “未知” 標(biāo)簽計算，強(qiáng)化小樣本標(biāo)簽學(xué)習(xí)。

全局模型采用 FedAvg 聚合策略，按客戶端數(shù)據(jù)量加權(quán)融合局部模型參數(shù)。

訓(xùn)練流程遵循聯(lián)邦學(xué)習(xí)范式：服務(wù)器廣播全局模型→客戶端通過 CA-MLE 和 ULE 進(jìn)行局部訓(xùn)練→上傳局部模型→服務(wù)器聚合更新全局模型，迭代至收斂。

實驗結(jié)果

實驗所用數(shù)據(jù)集包括 FLAIR、MS-COCO 和 PASCAL VOC。其中 FLAIR 是首個聯(lián)邦多標(biāo)簽專用數(shù)據(jù)集，包含真實用戶在 Flickr 上的圖像，尺寸為 256×256 像素，天然具有非 IID 特性（數(shù)量傾斜、標(biāo)簽分布偏移、領(lǐng)域差異），分為粗粒度（17 個類別）和細(xì)粒度（1628 個類別）任務(wù)，后者因類別更多、分布更稀疏，對模型泛化能力要求更高；MS-COCO 含 122,218 張圖像、80 個常見目標(biāo)類別，實驗中通過人工劃分模擬聯(lián)邦場景；PASCAL VOC 則含 21,503 張圖像、20 個類別，作為輕量級場景的驗證集。

實驗的實現(xiàn)細(xì)節(jié)與參數(shù)設(shè)置嚴(yán)格統(tǒng)一：所有模型均采用 ResNet-18 作為視覺特征提取器，確保對比公平；ULE 基于 CLIP 文本編碼器生成，狀態(tài)嵌入中 “positive”“negative” 通過 CLIP 生成，“unknown” 固定為全零向量；CA-MLE 的閾值 τ=0.5，不確定性邊際 ε=0.02；局部訓(xùn)練每輪 5 個 epoch，采用 Adam 優(yōu)化器（學(xué)習(xí)率 0.0001），批處理大小 16；聯(lián)邦通信輪次設(shè)為 50，每輪激活客戶端數(shù)量等效于 50 個（通過采樣率控制）；針對 FLAIR 的數(shù)量傾斜問題，采用非均勻客戶端采樣策略（按數(shù)據(jù)量占比分配采樣概率），避免小數(shù)據(jù)集客戶端被忽視。實驗基于 PyTorch 框架實現(xiàn)，訓(xùn)練硬件為單臺 NVIDIA RTX 3090Ti GPU（24GB 顯存），確保計算資源一致。

評估指標(biāo)采用多標(biāo)簽分類領(lǐng)域的標(biāo)準(zhǔn)指標(biāo)，包括 per-class（C）和 overall（O）的平均精度（AP）、精確率（P）、召回率（R）、F1 分?jǐn)?shù)，其中 per-class 指標(biāo)反映模型對稀有類別的識別能力，overall 指標(biāo)則體現(xiàn)整體性能。

如下表1所示，在 FLAIR 粗粒度任務(wù)中，F(xiàn)edLGT 的性能全面領(lǐng)先現(xiàn)有方法：其 C-AP 達(dá)到 60.90，較 FedC-Tran（56.00）提升 4.9 個百分點，C-F1 為 55.10，較 FedC-Tran（43.10）提升 12 個百分點；與 FedAvg 相比，優(yōu)勢更為顯著，C-AP 提升近 20 個百分點。即使與集中式模型相比，F(xiàn)edLGT 的性能衰減幅度也最小，例如 C-AP 僅比集中式 C-Tran 低 10.7%，而 FedC-Tran 則低 15.6%，充分證明其對標(biāo)簽關(guān)聯(lián)的建模能力更優(yōu)。

表1 FLAIR 粗粒度任務(wù)

如下表2所示，在更具挑戰(zhàn)性的 FLAIR 細(xì)粒度任務(wù)中，F(xiàn)edLGT 的優(yōu)勢進(jìn)一步放大：其 C-AP 達(dá) 10.60，是 FedC-Tran（3.30）的 3.2 倍，O-F1 為 33.40，較 FedC-Tran（31.70）提升 1.7 個百分點。這一結(jié)果驗證了 FedLGT 在大規(guī)模標(biāo)簽空間中處理稀疏分布標(biāo)簽的能力，尤其在類別數(shù)量龐大、數(shù)據(jù)異質(zhì)性更強(qiáng)的場景中，其優(yōu)勢更為突出。

表2 FLAIR 細(xì)粒度任務(wù)

如下表3所示，在 MS-COCO 與 PASCAL VOC 數(shù)據(jù)集上，F(xiàn)edLGT 同樣表現(xiàn)優(yōu)異。MS-COCO 上，其 O-F1 達(dá) 76.80，較 FedC-Tran（75.30）提升 1.5 個百分點；PASCAL VOC 上，C-F1 為 85.50，超越 FedC-Tran（83.60）1.9 個百分點，證明其泛化能力不受數(shù)據(jù)集特性限制，在傳統(tǒng)多標(biāo)簽場景中依然有效。

表3 FedLGT 與聯(lián)邦學(xué)習(xí)基線在 MS-COCO 和 PASCAL VOC 上的比較

如下表4所示，消融實驗進(jìn)一步驗證了各核心組件的有效性：僅添加 ULE 時，F(xiàn)edC-Tran 的 C-AP 從 56.00 提升至 59.70（+3.7 個百分點），證明統(tǒng)一標(biāo)簽語義空間的重要性；僅添加 CA-MLE 時，C-AP 僅提升 0.1 個百分點，但與 ULE 結(jié)合后，C-AP 可進(jìn)一步提升至 60.90（+1.2 個百分點），體現(xiàn)了組件間的協(xié)同價值。

表4消融實驗

研究結(jié)論

該論文提出的 FedLGT 框架首次系統(tǒng)解決了聯(lián)邦多標(biāo)簽分類中的數(shù)據(jù)異質(zhì)性與標(biāo)簽關(guān)聯(lián)建模難題，通過 CA-MLE 引導(dǎo)局部模型聚焦全局知識缺口，借助 ULE 實現(xiàn)跨客戶端標(biāo)簽語義對齊，在多個數(shù)據(jù)集上的實驗充分驗證了其優(yōu)越性。該方法不僅為聯(lián)邦學(xué)習(xí)在多標(biāo)簽場景的應(yīng)用提供了關(guān)鍵技術(shù)支撐，更開創(chuàng)了利用預(yù)訓(xùn)練視覺 - 語言模型解決聯(lián)邦學(xué)習(xí)中語義對齊問題的新思路。

未來研究將進(jìn)一步探索標(biāo)簽依賴關(guān)系的顯式建模（如引入標(biāo)簽圖結(jié)構(gòu)），并擴(kuò)展至更復(fù)雜的聯(lián)邦場景（如動態(tài)客戶端加入、非獨立同分布文本數(shù)據(jù)），以期在更廣泛的實際場景中發(fā)揮作用。

撰稿人：劉世港

審稿人：周成菊