近日,課題組的論文“Enhancing Cross-domain Correspondence for Unsupervised Image-to-Image Translation”被中科院一區(qū)TOP期刊《IEEE Transactions on Multimedia》接收。
無(wú)監(jiān)督圖像翻譯(UNIT)旨在在沒(méi)有成對(duì)訓(xùn)練數(shù)據(jù)的情況下實(shí)現(xiàn)不同視覺(jué)域之間的圖像轉(zhuǎn)換,該技術(shù)已被廣泛應(yīng)用于風(fēng)格遷移、圖像處理、游戲設(shè)計(jì)等領(lǐng)域。然而,如何確保生成圖像與輸入圖像之間的對(duì)應(yīng)(如目標(biāo)類別、姿態(tài)、頭部方向等),仍是一個(gè)巨大挑戰(zhàn)。
為此,文章提出了一種跨域?qū)?yīng)增強(qiáng)的無(wú)監(jiān)督圖像翻譯(EC-UNIT)新方案,該方案由三項(xiàng)創(chuàng)新設(shè)計(jì)組成,旨在增強(qiáng) UNIT 的跨域?qū)?yīng)。具體而言:1.提出多級(jí)風(fēng)格嵌入(MSE)來(lái)提取多級(jí)風(fēng)格特征以進(jìn)行融合,同時(shí)在內(nèi)容和風(fēng)格特征上施加我們新設(shè)計(jì)的分級(jí)一致性約束(HCC),以保留更多的風(fēng)格表示并促進(jìn)特征解耦;2.開(kāi)發(fā)語(yǔ)義感知匹配(SPM),通過(guò)利用多模態(tài)模型 CLIP 來(lái)最小化生成圖像與輸入圖像之間的語(yǔ)義分布差異,從而增強(qiáng)語(yǔ)義一致性;3.考慮到以往方法難以通過(guò)像素級(jí)視覺(jué)一致性約束來(lái)很好地控制圖像轉(zhuǎn)換,EC-UNIT設(shè)計(jì)了視覺(jué)感知引導(dǎo)(VPG),通過(guò)在 VGG 特征空間中縮小生成圖像與風(fēng)格輸入之間的感知距離來(lái)增強(qiáng)生成圖像的視覺(jué)感知對(duì)應(yīng)性,從而防止生成不真實(shí)的圖像細(xì)節(jié)。
該工作得到了國(guó)家自然科學(xué)基金(62202507、62272116和62302110)、廣東省自然科學(xué)基金(2025A1515012830, 2024A1515012536, 2024A1515011996和2025A1515012807)、廣州大學(xué)市校聯(lián)合項(xiàng)目(2025A03J3123)等的支持。
論文信息:
本工作已被IEEE Transactions on Multimedia期刊接收,作者是廣州大學(xué)的賴彬鑫(研三),蘇文康(通訊作者) ,梁鈺瀅,王員根(通訊作者) ,李明杰,以及澳門大學(xué)的周建濤。