近期,實(shí)驗(yàn)室博士生李亞瓊作為第一作者的論文“‘Harmless to You, Hurtful to Me!’: Investigating the Detection of Toxic Languages Grounded in the Perspective of Youth”被The 20th International AAAI Conference on Web and Social Media (ICWSM 2026) 會(huì)議錄用。
該文章聚焦青少年如何感知社交媒體毒性內(nèi)容的研究問題,盡管先前的研究對(duì)社交媒體中的毒性檢測(cè)進(jìn)行了廣泛研究,但風(fēng)險(xiǎn)感知是主觀的,與成年人判斷毒性相比,當(dāng)前研究對(duì)青少年是否具有不同的毒性感知被忽視了,即那些被成年人認(rèn)為無毒但青少年認(rèn)為有毒的語言(統(tǒng)一稱為“Youth-toxicity”)。我們以中國(guó)青少年為研究對(duì)象,構(gòu)建了第一個(gè)中國(guó)““Youth-toxicity”數(shù)據(jù)集,并進(jìn)行了廣泛分析。結(jié)果表明,青少年對(duì)毒性內(nèi)容的感知與多種因素有關(guān),包括內(nèi)容來源以及與文本相關(guān)的元屬性等。將這些元信息納入主流毒性檢測(cè)方法可顯著提高針對(duì)青少年毒性檢測(cè)的準(zhǔn)確性。
會(huì)議簡(jiǎn)介
ICWSM (The International AAAI Conference on Web and Social Media) 是由AAAI于2007年創(chuàng)立,人機(jī)交互領(lǐng)域具有重要影響力的國(guó)際學(xué)術(shù)會(huì)議。會(huì)議強(qiáng)調(diào)結(jié)合社會(huì)科學(xué)和計(jì)算科學(xué)方法來研究社會(huì)媒體中的個(gè)體與群體行為,研究主題涵蓋社會(huì)媒體心理學(xué)、人格和人種學(xué)研究,社會(huì)交互行為的定性定量分析,社交工具、導(dǎo)航和可視化,社會(huì)媒體應(yīng)用、接口與交互技術(shù)等。
ICWSM每年投稿量逾300篇,約有20%被接收發(fā)表(長(zhǎng)文),投稿者來自斯坦福大學(xué)、密歇根大學(xué)、普林斯頓大學(xué)、康奈爾大學(xué)、牛津大學(xué)等高校,Google、Microsoft、IBM等著名研究機(jī)構(gòu)。
論文簡(jiǎn)介
論文鏈接:https://arxiv.org/pdf/2508.02094
青少年作為數(shù)字時(shí)代的原住民,一直是在線平臺(tái)的狂熱群體。然而,社交媒體中產(chǎn)生了大量的毒性內(nèi)容(即“粗魯?shù)?、不尊重他人的、或者是不合理的?nèi)容,可能會(huì)導(dǎo)致某人離開討論”),如仇恨語言、冒犯語言、欺凌侮辱等,對(duì)于處于認(rèn)知發(fā)展敏感時(shí)期的青少年而言,這些毒性內(nèi)容具有極大的風(fēng)險(xiǎn)[7],容易造成青少年心理抑郁、飲食失調(diào)、自殘等健康問題。
風(fēng)險(xiǎn)認(rèn)知是一個(gè)高度主觀的概念,青少年對(duì)于毒性內(nèi)容的理解與非青少年用戶的理解存在較大差異[。正如Marwick等人提出,那些成年人被稱之為"欺凌"的語言,青少年更傾向于將其引發(fā)的小沖突或者數(shù)字痕跡稱之為“戲謔”;成年人認(rèn)為是“無害”的語言,可能對(duì)青少年造成的傷害更大。盡管之前的研究已經(jīng)針對(duì)毒性數(shù)據(jù)和行為開展了大量的實(shí)證研究和模型設(shè)計(jì),但并沒有從青少年的特殊視角進(jìn)行深入探究,尤其是非青少年認(rèn)為是無毒而青少年視為有毒的內(nèi)容(“youth-toxicity”)??紤]青少年與其他非青少年用戶對(duì)毒性內(nèi)容的理解差異至關(guān)重要,因?yàn)楝F(xiàn)有的毒性檢測(cè)模型或應(yīng)用設(shè)計(jì)的原則普遍來源于成年人或第三方等非青少年視角的毒性標(biāo)準(zhǔn),而不是青少年。為了彌補(bǔ)這一空白,本文試圖探究如下兩個(gè)研究問題:
-
1) RQ1:社交媒體中的“youth-toxicity”內(nèi)容具有什么特點(diǎn)?
-
2) RQ2:現(xiàn)在的毒性檢測(cè)技術(shù)能否精準(zhǔn)識(shí)別出“youth-toxicity”內(nèi)容?
對(duì)上述問題的探究面臨多方面的挑戰(zhàn)。首先,目前已有公開的毒性數(shù)據(jù)并非從青少年視角標(biāo)注,這些數(shù)據(jù)集難以充分代表青少年的認(rèn)知,這就要求本研究要以青少年的視角標(biāo)注大量的數(shù)據(jù),費(fèi)時(shí)費(fèi)力;其次,HCI和AI領(lǐng)域關(guān)于毒性的研究涉及廣泛的毒性類別,包括仇恨語言、冒犯語言、欺凌侮辱等,這些語言中可能包含一些“youth-toxicity”語言,尚不清楚哪些類別對(duì)青少年來說是重要的,加劇了數(shù)據(jù)標(biāo)注的工作量和難度。
針對(duì)上述挑戰(zhàn),本文開展了兩階段的研究。針對(duì)RQ1,我們?cè)O(shè)計(jì)了一個(gè)面向青少年的毒性標(biāo)注項(xiàng)目YouthLens,招募了66名13~21歲的青少年參與了為期15日的標(biāo)注過程(未成年人需征得家長(zhǎng)同意方能參與標(biāo)注),最終獲得了5092條“youth-toxicity”語言,包括毒性標(biāo)簽、話語來源、毒性類型(類型來自文獻(xiàn)系統(tǒng)綜述)和毒性風(fēng)險(xiǎn)等內(nèi)容。為了回答RQ2,我們采用了三種具有代表性的毒性檢測(cè)方法,包括Perspective API、預(yù)訓(xùn)練模型(MeteHateBERT、RoBERTa等)、大語言模型(GPT-4o、Llama-3.1、GLM-4、Qwen2.5)。這些方法涉及發(fā)布模式(開源和閉源)、模型大小、不同的語言。
通過上述詳細(xì)的分析,我們獲得了幾項(xiàng)發(fā)現(xiàn)。在RQ1中,諸如青少年屬性(年齡和性別)和文本相關(guān)特征(話語來源、文本長(zhǎng)度和LIWC語義)等元信息是影響青少年對(duì)“youth-toxicity”語言感知的關(guān)鍵因素。研究發(fā)現(xiàn),青少年對(duì)來自家人、另一半或朋友的語言比來自陌生人的語言更寬容,而當(dāng)“youth-toxicity”話語真的來自這些熟人,尤其是家庭成員時(shí),他們往往會(huì)認(rèn)為這些話語風(fēng)險(xiǎn)更高。研究還表明,年齡較大的青少年和女性青少年更有可能將話語視為“youth-toxicity”,對(duì)不同的毒性類型更敏感,更傾向于將其視為更高的風(fēng)險(xiǎn)水平。此外,一些語義特征,如與自我認(rèn)同和生理行為相關(guān)的特定詞語,增加了話語被認(rèn)為是“youth-toxicity”的可能性。對(duì)于RQ2,與傳統(tǒng)方法相比,大語言模型在不同的“youth-toxicity”檢測(cè)任務(wù)中顯示出其潛力,特別是在向其提供相關(guān)元信息時(shí)。然而,引入它們也會(huì)帶來負(fù)面影響,比如在“youth-toxicity”判斷中夸大風(fēng)險(xiǎn)。此外,微調(diào)可以進(jìn)一步提高大語言的檢測(cè)性能,而few-shot學(xué)習(xí)技術(shù)帶來的收益有限。
數(shù)據(jù)收集和實(shí)驗(yàn)方法
Youth-toxicity”數(shù)據(jù)收集流程如下:
圖表1 “Youth-toxicity”語言收集流程
本文設(shè)計(jì)開發(fā)了一個(gè)基于網(wǎng)絡(luò)的安全程序YouthLens,旨在收集青少年視為有毒而非青少年認(rèn)為是無毒的內(nèi)容。YouthLens主要包含兩項(xiàng)流程:青少年貢獻(xiàn)在線經(jīng)歷中認(rèn)為的Toxic數(shù)據(jù)以及青少年標(biāo)注公開數(shù)據(jù)集中的無毒數(shù)據(jù),如圖所示。對(duì)于第一項(xiàng)流程,我們鼓勵(lì)青少年能夠主動(dòng)貢獻(xiàn)自己曾經(jīng)看到或者經(jīng)歷過的網(wǎng)絡(luò)毒性內(nèi)容,并對(duì)其進(jìn)行標(biāo)注;然而,在有限時(shí)間內(nèi),青少年標(biāo)注者可能難以準(zhǔn)確回憶起所有的毒性語言經(jīng)歷,導(dǎo)致貢獻(xiàn)毒性數(shù)據(jù)類型不完整。為此增加了第二項(xiàng)流程,青少年被要求標(biāo)注社交媒體的公開無毒數(shù)據(jù)。其次,我們對(duì)“youth-toxicity”數(shù)據(jù)進(jìn)行了詳細(xì)分析。首先,采用邏輯回歸方法對(duì)數(shù)據(jù)進(jìn)行特征分析,以探索青少年感知毒性內(nèi)容的相關(guān)因素。然后,使用現(xiàn)有毒性檢測(cè)技術(shù)對(duì)這些“youth-toxicity”內(nèi)容進(jìn)行檢測(cè),包括Perspective API、預(yù)訓(xùn)練模型、大語言模型。此外,設(shè)計(jì)了三種提示輔助大語言模型檢測(cè),分別是直接提示(通過給出檢測(cè)角色、話語、任務(wù)描述和輸出格式,要求提供檢測(cè)結(jié)果)、目標(biāo)提示(除上述信息外,提供目標(biāo)人群信息以獲得檢測(cè)結(jié)果)、基于元信息的提升(告訴大語言模型與毒性因素相關(guān)的元信息,如目標(biāo)屬性和文本相關(guān)的特征,要求提供檢測(cè)結(jié)果)
“Youth-toxicity”語言特征分析
就青少年屬性而言,如下表所示,年齡較大的青少年和女性青少年更有可能將這些語言視為“youth-toxicity”,對(duì)其類型更敏感,并將其視為具有更高的風(fēng)險(xiǎn)。相反,年齡較小的男性青少年則傾向于將“youth-toxicity”視為低風(fēng)險(xiǎn)的“冒犯語言”。在語言來源方面,青少年對(duì)家人、另一半和朋友等非陌生人的語言表現(xiàn)出更高容忍度,即這些語言不太可能被視為毒性。然而,當(dāng)來自這些來源的話語已經(jīng)被青少年認(rèn)為是“youth-toxicity”時(shí),風(fēng)險(xiǎn)性更高,而且來自家庭成員的語言更有可能被視為“高風(fēng)險(xiǎn)”威脅。此外,較短的文本更容易被視為“youth-toxicity”,青少年對(duì)個(gè)人代詞(“你”和“她/他”)、社會(huì)關(guān)系(“家庭”、“朋友”和“人類”)、生理行為(“性”和“身體”)以及特殊術(shù)語(“否定”和“填充”)等特定詞匯更為敏感。涉及性話題的討論更容易被視為高風(fēng)險(xiǎn)。
圖表2 邏輯回歸結(jié)果
“Youth-toxicity”語言檢測(cè)結(jié)果分析
傳統(tǒng)毒性檢測(cè)方法在“youth-toxicity”語言檢測(cè)中表現(xiàn)不佳,相比之下,大語言模型在檢測(cè)“youth-toxicity”方面表現(xiàn)出不同的顯著改善,尤其是向大語言模型提供“youth-toxicity”語言涉及的目標(biāo)信息和元信息能夠顯著提升毒性標(biāo)簽預(yù)測(cè)和毒性類型分類的性能。其次,與基于目標(biāo)的提示方法相比,基于元信息的提示方法能夠?yàn)榇笳Z言模型檢測(cè)帶來更高的效益。然而,它也帶來了一些負(fù)面影響,體現(xiàn)在對(duì)低風(fēng)險(xiǎn)毒性樣例的誤判上。與此同事,微調(diào)技術(shù)可以進(jìn)一步提高大語言模型在毒性檢測(cè)各個(gè)任務(wù)上的性能,但是Few-shot技術(shù)帶來的收益有限,具體參考如下圖表內(nèi)容。
圖表3 基線模型性能
圖表4 大語言模型在毒性標(biāo)簽預(yù)測(cè)任務(wù)上的性能表現(xiàn)(其中DP代表使用直接提示,TP代表使用目標(biāo)提示,MP代表使用基于元信息的提示)
圖表5 大語言模型在毒性類型分類任務(wù)上的性能表現(xiàn)
圖表6 大語言模型在毒性風(fēng)險(xiǎn)分類任務(wù)上的性能表現(xiàn)
圖表7 基于元信息的提示條件下,是否對(duì)大語言模型進(jìn)行微調(diào)的性能表現(xiàn)
圖表8 基于元信息的提示條件下,大語言模型是否采用Few-shot技術(shù)的性能表現(xiàn)
小結(jié)
本研究中,我們深入研究了“youth-toxicity”語言并分析相關(guān)特征,并且評(píng)估了當(dāng)前主流的毒性檢測(cè)方法在識(shí)別“youth-toxicity”語言的有效性。我們發(fā)現(xiàn)元信息,如用戶屬性(年齡和性別)和文本相關(guān)的特征(語言來源、文本長(zhǎng)度和LIWC語義),是青少年感知“youth-toxicity”語言的關(guān)鍵因素。此外,GPT-4o和GLM-4等先進(jìn)的大語言模型在“youth-toxicity”語言的毒性標(biāo)簽預(yù)測(cè)、毒性類型分類、毒性風(fēng)險(xiǎn)分類等多個(gè)任務(wù)中表現(xiàn)出了它們的潛力,尤其是告知大語言模型相關(guān)的元信息時(shí)。這些發(fā)現(xiàn)為未來針對(duì)以青少年為中心的毒性檢測(cè)設(shè)計(jì)提供了一些新的見解。
如果您對(duì)本文內(nèi)容感興趣,可與通訊作者聯(lián)系: zhangpeng_@fudan.edu.cn
實(shí)驗(yàn)室相關(guān)論文
[1] Yaqiong Li, Peng Zhang, Hansu Gu, Tun Lu, Siyuan Qiao, Yubo Shu, Yiyang Shao, and Ning Gu. 2025. DeMod: A Holistic Tool with Explainable Detection and Personalized Modification for Toxicity Censorship. Proc. ACM Hum.-Comput. Interact. 9, 2, Article CSCW061 (May 2025), 24 pages.
[2] Wenxin Zhao, Fangyu Yu, Peng Zhang, Hansu Gu, Lin Wang, Siyuan Qiao, Tun Lu, and Ning Gu. 2025. YouthCare: Building a Personalized Collaborative Video Censorship Tool to Support Parent-Child Joint Media Engagement. In Proceedings of the 2025 CHI Conference on Human Factors in Computing Systems (CHI '25). Association for Computing Machinery, New York, NY, USA, Article 1042, 1–20.
[3] Jiahao Liu, Yiyang Shao, Peng Zhang, Dongsheng Li, Hansu Gu, Chao Chen, Longzhi Du, Tun Lu, and Ning Gu. 2025. Filtering Discomforting Recommendations with Large Language Models. In Proceedings of the ACM on Web Conference 2025 (WWW '25). Association for Computing Machinery, New York, NY, USA, 3639–3650.
[4] Baoxi Liu, Peng Zhang, Yubo Shu, Zhengqing Guan, Tun Lu, Hansu Gu, and Ning Gu. 2022. Building a Personalized Model for Social Media Textual Content Censorship. Proceedings of the ACM on Human-Computer Interaction 6, CSCW2, Article 499 (2022), 31 pages.
如果您對(duì)我們實(shí)驗(yàn)室的相關(guān)工作感興趣,歡迎訪問我們的網(wǎng)站:
協(xié)同信息與系統(tǒng)(CISL)實(shí)驗(yàn)室
實(shí)驗(yàn)室網(wǎng)站主頁:https://cscw.fudan.edu.cn/
實(shí)驗(yàn)室Github主頁:https://github.com/FudanCISL
評(píng)論 0