去中心化在線(xiàn)社交網(wǎng)絡(luò)(Decentralized? Online Social Networks)為研究社交網(wǎng)絡(luò)用戶(hù)交互、治理、隱私保護(hù)與跨社區(qū)內(nèi)容傳播提供了全新的研究對(duì)象。然而,服務(wù)器分散、接口異構(gòu)與嚴(yán)格限速使得“一次性抓取全平臺(tái)快照”成為研究去中心化在線(xiàn)社交網(wǎng)絡(luò)的一大挑戰(zhàn)。復(fù)旦大學(xué)網(wǎng)絡(luò)大數(shù)據(jù)實(shí)驗(yàn)室聚焦去中心化在線(xiàn)社交網(wǎng)絡(luò)大規(guī)模數(shù)據(jù)快速采集問(wèn)題,設(shè)計(jì)實(shí)現(xiàn)了面向去中心化社交網(wǎng)絡(luò)的實(shí)時(shí)數(shù)據(jù)采集與預(yù)處理框架 FediLive。該框架?chē)@“全量、實(shí)時(shí)、合規(guī)”三大目標(biāo),構(gòu)建了高并發(fā)、高容錯(cuò)、易擴(kuò)展的跨實(shí)例爬取與數(shù)據(jù)預(yù)處理框架。通過(guò)動(dòng)態(tài)限速、輪詢(xún)?nèi)ブ?、ID?沖突解決及多線(xiàn)程調(diào)度等技術(shù),能夠在有限計(jì)算資源下高效完成超過(guò)9000個(gè)Mastodon?實(shí)例的全平臺(tái)采集。
目前 FediLive 發(fā)布了 1.0.0 版本,對(duì)應(yīng)論文發(fā)表于WWW'25會(huì)議的resource track。我們針對(duì)大規(guī)模、周期性數(shù)據(jù)采集需求,重點(diǎn)強(qiáng)化了以下功能:
歡迎各位研究者與開(kāi)發(fā)者試用并提出寶貴意見(jiàn)!?
FediLive 相關(guān)網(wǎng)址如下:?
論文鏈接:https://dl.acm.org/doi/10.1145/3701716.3715298?
項(xiàng)目源代碼:https://github.com/FDUDataNET/FediLive