91一级特黄大片|婷婷中文字幕在线|av成人无码国产|日韩无码一二三区|久久不射强奸视频|九九九久久久精品|国产免费浮力限制

CVPR 2025 | UNEM:用于直推式小樣本學(xué)習(xí)的展開式廣義期望最大化算法

該論文發(fā)表于CVPR 2025,題目為《UNEM: UNrolled Generalized EM for Transductive Few-Shot Learning》。

米蘭理工大學(xué)的Long Zhou為此文第一作者。

論文鏈接:https://openaccess.thecvf.com/content/CVPR2025/html/Zhou_UNEM_UNrolled_Generalized_EM_for_Transductive_Few-Shot_Learning_CVPR_2025_paper.html

論文概要

本文針對(duì)當(dāng)前直推式小樣本學(xué)習(xí)(Transductive Few-Shot Learning)中嚴(yán)重依賴驗(yàn)證集進(jìn)行網(wǎng)格搜索以確定關(guān)鍵超參數(shù)(如類別平衡水平)的現(xiàn)狀,提出了一種基于“學(xué)習(xí)優(yōu)化”(Learning to Optimize)范式的解決方案。作者將泛化的期望最大化(EM)優(yōu)化器展開為一個(gè)可學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)架構(gòu),通過將每次迭代映射到網(wǎng)絡(luò)層,從而能夠直接從驗(yàn)證數(shù)據(jù)中高效地學(xué)習(xí)出一組最優(yōu)超參數(shù)。該方法兼容多種視覺特征分布與預(yù)訓(xùn)練模型(包括視覺語言基礎(chǔ)模型與純視覺分類器)。在大量細(xì)粒度圖像分類任務(wù)上的實(shí)驗(yàn)表明,所提出的展開式EM算法相比其迭代變體帶來了顯著性能提升,在純視覺和視覺-語言基準(zhǔn)上的準(zhǔn)確率最高分別提升了10%和7.5%。

研究背景

深度學(xué)習(xí)顯著推動(dòng)了計(jì)算機(jī)視覺領(lǐng)域的進(jìn)步,但在圖像分類、目標(biāo)檢測(cè)等任務(wù)上的成功嚴(yán)重依賴于大量標(biāo)注數(shù)據(jù),且模型在面對(duì)預(yù)訓(xùn)練未見類別或分布變化時(shí)泛化能力受限。為應(yīng)對(duì)這一挑戰(zhàn),小樣本學(xué)習(xí)近年來受到廣泛關(guān)注。其中,直推式學(xué)習(xí)方法通過聯(lián)合推斷整個(gè)查詢集中的樣本,利用未標(biāo)注數(shù)據(jù)的整體統(tǒng)計(jì)特性,性能顯著優(yōu)于獨(dú)立預(yù)測(cè)的歸納式方法。然而,現(xiàn)有直推方法通常假設(shè)查詢集具有完美的類別平衡性,該假設(shè)在實(shí)際中往往不成立,導(dǎo)致模型在類別不平衡場(chǎng)景中性能顯著下降。雖已有研究嘗試通過引入超參數(shù)(如控制類別平衡水平的參數(shù))以適應(yīng)更真實(shí)的場(chǎng)景,但這些超參數(shù)嚴(yán)重依賴于人工網(wǎng)格搜索,其最優(yōu)值隨數(shù)據(jù)集和預(yù)訓(xùn)練模型的不同差異巨大,使得調(diào)優(yōu)過程計(jì)算成本高昂。因此,亟需一種能夠自動(dòng)、高效學(xué)習(xí)這些關(guān)鍵超參數(shù)的方法,以推動(dòng)直推式小樣本學(xué)習(xí)在更廣泛場(chǎng)景中的應(yīng)用。

方法

本研究提出了一種名為的新方法,旨在解決直推式小樣本學(xué)習(xí)中對(duì)超參數(shù)(特別是控制類別平衡的參數(shù)λ和溫度參數(shù)T)手工調(diào)優(yōu)的依賴問題。其核心思想是將廣義期望最大化(GEM)算法展開為一個(gè)可學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),從而自動(dòng)、高效地從驗(yàn)證數(shù)據(jù)中學(xué)習(xí)最優(yōu)的超參數(shù)配置。

其整體框架圖如圖1所示。該方法主要包含以下幾個(gè)關(guān)鍵部分:

圖1 UNEM框架圖

1. 廣義EM算法框架

首先,作者構(gòu)建了一個(gè)統(tǒng)一的概率聚類目標(biāo)函數(shù)。對(duì)于一個(gè)包含少量標(biāo)注樣本(支持集)和大量未標(biāo)注樣本(查詢集)的小樣本任務(wù),該模型旨在同時(shí)優(yōu)化兩組變量:

軟分配向量 (u):表示每個(gè)查詢樣本屬于各個(gè)類別的概率分布。

特征分布參數(shù) (θ):描述每個(gè)類別的特征分布(如高斯分布的均值)。

對(duì)于一般的概率聚類問題有:

該目標(biāo)函數(shù)由三部分組成:

對(duì)數(shù)似然項(xiàng)

該項(xiàng)鼓勵(lì)模型更好地?cái)M合數(shù)據(jù),傾向于將數(shù)據(jù)劃分為類別平衡的簇。

邊際熵項(xiàng)

引入一個(gè)由超參數(shù)λ加權(quán)的熵正則項(xiàng),用于抵消上述平衡偏好,從而控制模型對(duì)類別平衡或不平衡的傾向性。

熵屏障項(xiàng) (H):

由一個(gè)溫度超參數(shù)T控制,用于調(diào)節(jié)軟分配的“軟硬”程度。

該廣義框架是一個(gè)數(shù)學(xué)上的統(tǒng)一,許多現(xiàn)有的直推式方法(如標(biāo)準(zhǔn)EM算法)均可被視為該框架在特定超參數(shù)設(shè)置下的特例。其結(jié)構(gòu)圖如圖2所示。

圖2 GEM算法結(jié)構(gòu)圖

2. 展開式EM架構(gòu)

為了解決超參數(shù)難以調(diào)優(yōu)的問題,作者采用了 “學(xué)習(xí)優(yōu)化”(Learning to Optimize) 的范式,具體策略為:

將GEM算法的每一次迭代映射為神經(jīng)網(wǎng)絡(luò)中的一個(gè)層。一個(gè)完整的、包含L次迭代的優(yōu)化過程便對(duì)應(yīng)一個(gè)L層的神經(jīng)網(wǎng)絡(luò)(UNEM)。其迭代規(guī)則為:

在每一層中,關(guān)鍵的超參數(shù)λ和T不再是固定值,而是作為該層的可學(xué)習(xí)參數(shù)。這使得模型能夠根據(jù)不同的數(shù)據(jù)分布,自適應(yīng)地調(diào)整每一層的超參數(shù)值,靈活性遠(yuǎn)超手工調(diào)優(yōu)。為保證λ的非負(fù)性,本文將其表示為Softplus函數(shù):

而對(duì)于溫度參數(shù)T,僅僅約束為非負(fù)可能會(huì)導(dǎo)致梯度消失,因此設(shè)置了一個(gè)下界確保其值恒不小于1:

3. 訓(xùn)練方法

整個(gè)UNEM網(wǎng)絡(luò)通過最小化在驗(yàn)證集上的標(biāo)準(zhǔn)交叉熵?fù)p失來進(jìn)行訓(xùn)練:

這使得學(xué)習(xí)到的超參數(shù)能夠直接優(yōu)化模型在未知數(shù)據(jù)上的分類性能。

結(jié)果分析

為驗(yàn)證所提出UNEM方法的有效性,本文在純視覺和視覺-語言兩種小樣本學(xué)習(xí)設(shè)定下進(jìn)行了廣泛的實(shí)驗(yàn),分別命名為UNEM-Gaussian和UNEM-Dirichlet。

UNEM-Gaussian的實(shí)驗(yàn)結(jié)果如表1和表2所示:

UNEM-Dirichlet的實(shí)驗(yàn)結(jié)果如表3所示:

實(shí)驗(yàn)表明所提出的展開學(xué)習(xí)范式在不同模型架構(gòu)與數(shù)據(jù)分布上均表現(xiàn)出強(qiáng)大的適應(yīng)性和有效性,能自動(dòng)且高效地優(yōu)化關(guān)鍵超參數(shù),徹底避免了繁瑣的手動(dòng)網(wǎng)格搜索。

結(jié)論

本研究將廣義EM算法展開為一個(gè)可學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)(UNEM),實(shí)現(xiàn)了對(duì)直推式小樣本學(xué)習(xí)中關(guān)鍵超參數(shù)(如類別平衡與溫度系數(shù))的自動(dòng)優(yōu)化。實(shí)驗(yàn)表明,該方法在純視覺與視覺-語言模型上均能顯著提升性能,為自動(dòng)化機(jī)器學(xué)習(xí)提供了新思路。

撰稿人:馬一鳴

審稿人:李景聰


登錄用戶可以查看和發(fā)表評(píng)論, 請(qǐng)前往  登錄 或  注冊(cè)。
SCHOLAT.com 學(xué)者網(wǎng)
免責(zé)聲明 | 關(guān)于我們 | 用戶反饋
聯(lián)系我們: