91一级特黄大片|婷婷中文字幕在线|av成人无码国产|日韩无码一二三区|久久不射强奸视频|九九九久久久精品|国产免费浮力限制

2
點贊
0
評論
0
轉(zhuǎn)載
我要入駐

AI4SS論文聚焦 | ICWSM'26 |“無害”之言,少年之傷:揭開成年人視野外的毒性語言檢測盲區(qū)

收錄于合集: # 快訊

近期,實驗室博士生李亞瓊作為第一作者的論文“‘Harmless to You, Hurtful to Me!’: Investigating the Detection of Toxic Languages Grounded in the Perspective of Youth”被The 20th International AAAI Conference on Web and Social Media (ICWSM 2026) 會議錄用。

該文章聚焦青少年如何感知社交媒體毒性內(nèi)容的研究問題,盡管先前的研究對社交媒體中的毒性檢測進行了廣泛研究,但風(fēng)險感知是主觀的,與成年人判斷毒性相比,當前研究對青少年是否具有不同的毒性感知被忽視了,即那些被成年人認為無毒但青少年認為有毒的語言(統(tǒng)一稱為“Youth-toxicity”)。我們以中國青少年為研究對象,構(gòu)建了第一個中國““Youth-toxicity”數(shù)據(jù)集,并進行了廣泛分析。結(jié)果表明,青少年對毒性內(nèi)容的感知與多種因素有關(guān),包括內(nèi)容來源以及與文本相關(guān)的元屬性等。將這些元信息納入主流毒性檢測方法可顯著提高針對青少年毒性檢測的準確性。

 

會議簡介

ICWSM (The International AAAI Conference on Web and Social Media) 是由AAAI于2007年創(chuàng)立,人機交互領(lǐng)域具有重要影響力的國際學(xué)術(shù)會議。會議強調(diào)結(jié)合社會科學(xué)和計算科學(xué)方法來研究社會媒體中的個體與群體行為,研究主題涵蓋社會媒體心理學(xué)、人格和人種學(xué)研究,社會交互行為的定性定量分析,社交工具、導(dǎo)航和可視化,社會媒體應(yīng)用、接口與交互技術(shù)等。

ICWSM每年投稿量逾300篇,約有20%被接收發(fā)表(長文),投稿者來自斯坦福大學(xué)、密歇根大學(xué)、普林斯頓大學(xué)、康奈爾大學(xué)、牛津大學(xué)等高校,Google、Microsoft、IBM等著名研究機構(gòu)。

 

論文簡介

論文鏈接:https://arxiv.org/pdf/2508.02094 

青少年作為數(shù)字時代的原住民,一直是在線平臺的狂熱群體。然而,社交媒體中產(chǎn)生了大量的毒性內(nèi)容(即“粗魯?shù)摹⒉蛔鹬厮说?、或者是不合理的?nèi)容,可能會導(dǎo)致某人離開討論”),如仇恨語言、冒犯語言、欺凌侮辱等,對于處于認知發(fā)展敏感時期的青少年而言,這些毒性內(nèi)容具有極大的風(fēng)險[7],容易造成青少年心理抑郁、飲食失調(diào)、自殘等健康問題。

風(fēng)險認知是一個高度主觀的概念,青少年對于毒性內(nèi)容的理解與非青少年用戶的理解存在較大差異[。正如Marwick等人提出,那些成年人被稱之為"欺凌"的語言,青少年更傾向于將其引發(fā)的小沖突或者數(shù)字痕跡稱之為“戲謔”;成年人認為是“無害”的語言,可能對青少年造成的傷害更大。盡管之前的研究已經(jīng)針對毒性數(shù)據(jù)和行為開展了大量的實證研究和模型設(shè)計,但并沒有從青少年的特殊視角進行深入探究,尤其是非青少年認為是無毒而青少年視為有毒的內(nèi)容(“youth-toxicity”)??紤]青少年與其他非青少年用戶對毒性內(nèi)容的理解差異至關(guān)重要,因為現(xiàn)有的毒性檢測模型或應(yīng)用設(shè)計的原則普遍來源于成年人或第三方等非青少年視角的毒性標準,而不是青少年。為了彌補這一空白,本文試圖探究如下兩個研究問題:

  • 1) RQ1:社交媒體中的“youth-toxicity”內(nèi)容具有什么特點?

  • 2) RQ2:現(xiàn)在的毒性檢測技術(shù)能否精準識別出“youth-toxicity”內(nèi)容?

對上述問題的探究面臨多方面的挑戰(zhàn)。首先,目前已有公開的毒性數(shù)據(jù)并非從青少年視角標注,這些數(shù)據(jù)集難以充分代表青少年的認知,這就要求本研究要以青少年的視角標注大量的數(shù)據(jù),費時費力;其次,HCI和AI領(lǐng)域關(guān)于毒性的研究涉及廣泛的毒性類別,包括仇恨語言、冒犯語言、欺凌侮辱等,這些語言中可能包含一些“youth-toxicity”語言,尚不清楚哪些類別對青少年來說是重要的,加劇了數(shù)據(jù)標注的工作量和難度。

針對上述挑戰(zhàn),本文開展了兩階段的研究。針對RQ1,我們設(shè)計了一個面向青少年的毒性標注項目YouthLens,招募了66名13~21歲的青少年參與了為期15日的標注過程(未成年人需征得家長同意方能參與標注),最終獲得了5092條“youth-toxicity”語言,包括毒性標簽、話語來源、毒性類型(類型來自文獻系統(tǒng)綜述)和毒性風(fēng)險等內(nèi)容。為了回答RQ2,我們采用了三種具有代表性的毒性檢測方法,包括Perspective API、預(yù)訓(xùn)練模型(MeteHateBERT、RoBERTa等)、大語言模型(GPT-4o、Llama-3.1、GLM-4、Qwen2.5)。這些方法涉及發(fā)布模式(開源和閉源)、模型大小、不同的語言。

通過上述詳細的分析,我們獲得了幾項發(fā)現(xiàn)。在RQ1中,諸如青少年屬性(年齡和性別)和文本相關(guān)特征(話語來源、文本長度和LIWC語義)等元信息是影響青少年對“youth-toxicity”語言感知的關(guān)鍵因素。研究發(fā)現(xiàn),青少年對來自家人、另一半或朋友的語言比來自陌生人的語言更寬容,而當“youth-toxicity”話語真的來自這些熟人,尤其是家庭成員時,他們往往會認為這些話語風(fēng)險更高。研究還表明,年齡較大的青少年和女性青少年更有可能將話語視為“youth-toxicity”,對不同的毒性類型更敏感,更傾向于將其視為更高的風(fēng)險水平。此外,一些語義特征,如與自我認同和生理行為相關(guān)的特定詞語,增加了話語被認為是“youth-toxicity”的可能性。對于RQ2,與傳統(tǒng)方法相比,大語言模型在不同的“youth-toxicity”檢測任務(wù)中顯示出其潛力,特別是在向其提供相關(guān)元信息時。然而,引入它們也會帶來負面影響,比如在“youth-toxicity”判斷中夸大風(fēng)險。此外,微調(diào)可以進一步提高大語言的檢測性能,而few-shot學(xué)習(xí)技術(shù)帶來的收益有限。

 

數(shù)據(jù)收集和實驗方法  

Youth-toxicity”數(shù)據(jù)收集流程如下:

圖表1 “Youth-toxicity”語言收集流程  

本文設(shè)計開發(fā)了一個基于網(wǎng)絡(luò)的安全程序YouthLens,旨在收集青少年視為有毒而非青少年認為是無毒的內(nèi)容。YouthLens主要包含兩項流程:青少年貢獻在線經(jīng)歷中認為的Toxic數(shù)據(jù)以及青少年標注公開數(shù)據(jù)集中的無毒數(shù)據(jù),如圖所示。對于第一項流程,我們鼓勵青少年能夠主動貢獻自己曾經(jīng)看到或者經(jīng)歷過的網(wǎng)絡(luò)毒性內(nèi)容,并對其進行標注;然而,在有限時間內(nèi),青少年標注者可能難以準確回憶起所有的毒性語言經(jīng)歷,導(dǎo)致貢獻毒性數(shù)據(jù)類型不完整。為此增加了第二項流程,青少年被要求標注社交媒體的公開無毒數(shù)據(jù)。其次,我們對“youth-toxicity”數(shù)據(jù)進行了詳細分析。首先,采用邏輯回歸方法對數(shù)據(jù)進行特征分析,以探索青少年感知毒性內(nèi)容的相關(guān)因素。然后,使用現(xiàn)有毒性檢測技術(shù)對這些“youth-toxicity”內(nèi)容進行檢測,包括Perspective API、預(yù)訓(xùn)練模型、大語言模型。此外,設(shè)計了三種提示輔助大語言模型檢測,分別是直接提示(通過給出檢測角色、話語、任務(wù)描述和輸出格式,要求提供檢測結(jié)果)、目標提示(除上述信息外,提供目標人群信息以獲得檢測結(jié)果)、基于元信息的提升(告訴大語言模型與毒性因素相關(guān)的元信息,如目標屬性和文本相關(guān)的特征,要求提供檢測結(jié)果)

 

“Youth-toxicity”語言特征分析 

就青少年屬性而言,如下表所示,年齡較大的青少年和女性青少年更有可能將這些語言視為“youth-toxicity”,對其類型更敏感,并將其視為具有更高的風(fēng)險。相反,年齡較小的男性青少年則傾向于將“youth-toxicity”視為低風(fēng)險的“冒犯語言”。在語言來源方面,青少年對家人、另一半和朋友等非陌生人的語言表現(xiàn)出更高容忍度,即這些語言不太可能被視為毒性。然而,當來自這些來源的話語已經(jīng)被青少年認為是“youth-toxicity”時,風(fēng)險性更高,而且來自家庭成員的語言更有可能被視為“高風(fēng)險”威脅。此外,較短的文本更容易被視為“youth-toxicity”,青少年對個人代詞(“你”和“她/他”)、社會關(guān)系(“家庭”、“朋友”和“人類”)、生理行為(“性”和“身體”)以及特殊術(shù)語(“否定”和“填充”)等特定詞匯更為敏感。涉及性話題的討論更容易被視為高風(fēng)險。 

圖表2 邏輯回歸結(jié)果 

 

“Youth-toxicity”語言檢測結(jié)果分析 

傳統(tǒng)毒性檢測方法在“youth-toxicity”語言檢測中表現(xiàn)不佳,相比之下,大語言模型在檢測“youth-toxicity”方面表現(xiàn)出不同的顯著改善,尤其是向大語言模型提供“youth-toxicity”語言涉及的目標信息和元信息能夠顯著提升毒性標簽預(yù)測和毒性類型分類的性能。其次,與基于目標的提示方法相比,基于元信息的提示方法能夠為大語言模型檢測帶來更高的效益。然而,它也帶來了一些負面影響,體現(xiàn)在對低風(fēng)險毒性樣例的誤判上。與此同事,微調(diào)技術(shù)可以進一步提高大語言模型在毒性檢測各個任務(wù)上的性能,但是Few-shot技術(shù)帶來的收益有限,具體參考如下圖表內(nèi)容。

圖表3 基線模型性能

圖表4 大語言模型在毒性標簽預(yù)測任務(wù)上的性能表現(xiàn)(其中DP代表使用直接提示,TP代表使用目標提示,MP代表使用基于元信息的提示) 

 

圖表5 大語言模型在毒性類型分類任務(wù)上的性能表現(xiàn)

圖表6 大語言模型在毒性風(fēng)險分類任務(wù)上的性能表現(xiàn)

圖表7 基于元信息的提示條件下,是否對大語言模型進行微調(diào)的性能表現(xiàn) 

圖表8 基于元信息的提示條件下,大語言模型是否采用Few-shot技術(shù)的性能表現(xiàn)

 

小結(jié) 

本研究中,我們深入研究了“youth-toxicity”語言并分析相關(guān)特征,并且評估了當前主流的毒性檢測方法在識別“youth-toxicity”語言的有效性。我們發(fā)現(xiàn)元信息,如用戶屬性(年齡和性別)和文本相關(guān)的特征(語言來源、文本長度和LIWC語義),是青少年感知“youth-toxicity”語言的關(guān)鍵因素。此外,GPT-4o和GLM-4等先進的大語言模型在“youth-toxicity”語言的毒性標簽預(yù)測、毒性類型分類、毒性風(fēng)險分類等多個任務(wù)中表現(xiàn)出了它們的潛力,尤其是告知大語言模型相關(guān)的元信息時。這些發(fā)現(xiàn)為未來針對以青少年為中心的毒性檢測設(shè)計提供了一些新的見解。

 

如果您對本文內(nèi)容感興趣,可與通訊作者聯(lián)系: zhangpeng_@fudan.edu.cn

 

實驗室相關(guān)論文

[1] Yaqiong Li, Peng Zhang, Hansu Gu, Tun Lu, Siyuan Qiao, Yubo Shu, Yiyang Shao, and Ning Gu. 2025. DeMod: A Holistic Tool with Explainable Detection and Personalized Modification for Toxicity Censorship. Proc. ACM Hum.-Comput. Interact. 9, 2, Article CSCW061 (May 2025), 24 pages. 

[2] Wenxin Zhao, Fangyu Yu, Peng Zhang, Hansu Gu, Lin Wang, Siyuan Qiao, Tun Lu, and Ning Gu. 2025. YouthCare: Building a Personalized Collaborative Video Censorship Tool to Support Parent-Child Joint Media Engagement. In Proceedings of the 2025 CHI Conference on Human Factors in Computing Systems (CHI '25). Association for Computing Machinery, New York, NY, USA, Article 1042, 1–20.

[3] Jiahao Liu, Yiyang Shao, Peng Zhang, Dongsheng Li, Hansu Gu, Chao Chen, Longzhi Du, Tun Lu, and Ning Gu. 2025. Filtering Discomforting Recommendations with Large Language Models. In Proceedings of the ACM on Web Conference 2025 (WWW '25). Association for Computing Machinery, New York, NY, USA, 3639–3650.

[4] Baoxi Liu, Peng Zhang, Yubo Shu, Zhengqing Guan, Tun Lu, Hansu Gu, and Ning Gu. 2022. Building a Personalized Model for Social Media Textual Content Censorship. Proceedings of the ACM on Human-Computer Interaction 6, CSCW2, Article 499 (2022), 31 pages.

 

如果您對我們實驗室的相關(guān)工作感興趣,歡迎訪問我們的網(wǎng)站:

協(xié)同信息與系統(tǒng)(CISL)實驗室

實驗室網(wǎng)站主頁:https://cscw.fudan.edu.cn/

實驗室Github主頁:https://github.com/FudanCISL


復(fù)旦大學(xué)計算與智能創(chuàng)新學(xué)院協(xié)同信息與系統(tǒng)(CISL)實驗室;復(fù)旦大學(xué)社會計算研究中心
返回頂部