論文4:Image Harmonization with Transformer.
Zonghui Guo, Dongsheng Guo, Haiyong Zheng, Zhaorui Gu, Bing Zheng, Junyu Dong
圖像協(xié)調(diào)(Image Harmonization),旨在使合成圖像看起來更真實,是一項重要的、具有挑戰(zhàn)性的任務(wù)。我們試圖用Transformer來解決圖像協(xié)調(diào)問題,利用其強大的長距離上下文關(guān)系建模能力,用于調(diào)整前景光,使其與背景光兼容,同時保持結(jié)構(gòu)和語義不變。通過設(shè)計協(xié)調(diào)Transformer框架,以及綜合實驗和消融實驗,說明了Transformer在圖像協(xié)調(diào)方面的作用。我們的方法在圖像協(xié)調(diào)和圖像修復(fù)/增強方面都取得了最先進(jìn)的性能。
論文5: Multi-Modal Multi-Action Video Recognition
Zhensheng Shi, Ju Liang, Qianqian Li, Haiyong Zheng, Zhaorui Gu, Junyu Dong, Bing Zheng
由于需要識別同時出現(xiàn)的多個動作,多動作視頻識別具有極大的挑戰(zhàn)性。建立多動作關(guān)系模型對于理解具有多個動作的視頻是有益的和關(guān)鍵的,我們通過利用關(guān)系圖卷積網(wǎng)絡(luò)(GCN)和視頻的多模態(tài)性,提出了一個新穎的視頻多動作關(guān)系模型。我們首先建立了多模態(tài)的GCNs來探索模態(tài)感知的多動作關(guān)系,將特定模態(tài)的動作表示作為節(jié)點特征,然后將多模態(tài)的CNN-GCN模型和多模態(tài)的特征表示聯(lián)合起來,學(xué)習(xí)更好的關(guān)系動作預(yù)測。消減實驗和多行動關(guān)系可視化分析,都顯示了我們的多模態(tài)多行動關(guān)系建模的強大能力。同時,我們方法在大規(guī)模多動作數(shù)據(jù)集M-MiT上取得了最當(dāng)前最好的性能。