論文4:Image Harmonization with Transformer.
Zonghui Guo, Dongsheng Guo, Haiyong Zheng, Zhaorui Gu, Bing Zheng, Junyu Dong
圖像協(xié)調(diào)(Image Harmonization),旨在使合成圖像看起來(lái)更真實(shí),是一項(xiàng)重要的、具有挑戰(zhàn)性的任務(wù)。我們?cè)噲D用Transformer來(lái)解決圖像協(xié)調(diào)問(wèn)題,利用其強(qiáng)大的長(zhǎng)距離上下文關(guān)系建模能力,用于調(diào)整前景光,使其與背景光兼容,同時(shí)保持結(jié)構(gòu)和語(yǔ)義不變。通過(guò)設(shè)計(jì)協(xié)調(diào)Transformer框架,以及綜合實(shí)驗(yàn)和消融實(shí)驗(yàn),說(shuō)明了Transformer在圖像協(xié)調(diào)方面的作用。我們的方法在圖像協(xié)調(diào)和圖像修復(fù)/增強(qiáng)方面都取得了最先進(jìn)的性能。
論文5: Multi-Modal Multi-Action Video Recognition
Zhensheng Shi, Ju Liang, Qianqian Li, Haiyong Zheng, Zhaorui Gu, Junyu Dong, Bing Zheng
由于需要識(shí)別同時(shí)出現(xiàn)的多個(gè)動(dòng)作,多動(dòng)作視頻識(shí)別具有極大的挑戰(zhàn)性。建立多動(dòng)作關(guān)系模型對(duì)于理解具有多個(gè)動(dòng)作的視頻是有益的和關(guān)鍵的,我們通過(guò)利用關(guān)系圖卷積網(wǎng)絡(luò)(GCN)和視頻的多模態(tài)性,提出了一個(gè)新穎的視頻多動(dòng)作關(guān)系模型。我們首先建立了多模態(tài)的GCNs來(lái)探索模態(tài)感知的多動(dòng)作關(guān)系,將特定模態(tài)的動(dòng)作表示作為節(jié)點(diǎn)特征,然后將多模態(tài)的CNN-GCN模型和多模態(tài)的特征表示聯(lián)合起來(lái),學(xué)習(xí)更好的關(guān)系動(dòng)作預(yù)測(cè)。消減實(shí)驗(yàn)和多行動(dòng)關(guān)系可視化分析,都顯示了我們的多模態(tài)多行動(dòng)關(guān)系建模的強(qiáng)大能力。同時(shí),我們方法在大規(guī)模多動(dòng)作數(shù)據(jù)集M-MiT上取得了最當(dāng)前最好的性能。