近期,實驗室與MSRA合作的論文“DENEVIL: TOWARDS DECIPHERING AND NAVIGATING THE ETHICAL VALUES OF LARGE LANGUAGE MODELS VIA INSTRUCTION LEARNING”被國際學(xué)術(shù)會議ICLR’24錄用。該文提出了一個可以動態(tài)評估大語言模型價值觀的評估框架DeNEVIL。DeNEVIL通過迭代式的生成,誘導(dǎo)大語言模型生成違反特定價值觀的提示?;诘赖禄A(chǔ)理論(Moral Foundation Theory),論文利用DeNEVIL算法構(gòu)建了Moral Prompt價值觀評估數(shù)據(jù)集,然后測試了27個主流的大語言模型,發(fā)現(xiàn)了語言模型與人類價值觀的不一致性。而后探索了基于上下文對齊的方式,嘗試對大語言模型進行了對齊。
ICLR是全球機器學(xué)習領(lǐng)域的頂級學(xué)術(shù)會議之一,享有很高的學(xué)術(shù)聲譽。本屆ICLR一共投稿7304篇,錄用論文2250篇,錄用率為31%。
評論 0