去中心化在線社交網(wǎng)絡(luò)(Decentralized? Online Social Networks)為研究社交網(wǎng)絡(luò)用戶交互、治理、隱私保護與跨社區(qū)內(nèi)容傳播提供了全新的研究對象。然而,服務(wù)器分散、接口異構(gòu)與嚴格限速使得“一次性抓取全平臺快照”成為研究去中心化在線社交網(wǎng)絡(luò)的一大挑戰(zhàn)。復(fù)旦大學(xué)網(wǎng)絡(luò)大數(shù)據(jù)實驗室聚焦去中心化在線社交網(wǎng)絡(luò)大規(guī)模數(shù)據(jù)快速采集問題,設(shè)計實現(xiàn)了面向去中心化社交網(wǎng)絡(luò)的實時數(shù)據(jù)采集與預(yù)處理框架 FediLive。該框架圍繞“全量、實時、合規(guī)”三大目標,構(gòu)建了高并發(fā)、高容錯、易擴展的跨實例爬取與數(shù)據(jù)預(yù)處理框架。通過動態(tài)限速、輪詢?nèi)ブ亍D?沖突解決及多線程調(diào)度等技術(shù),能夠在有限計算資源下高效完成超過9000個Mastodon?實例的全平臺采集。
目前 FediLive 發(fā)布了 1.0.0 版本,對應(yīng)論文發(fā)表于WWW'25會議的resource track。我們針對大規(guī)模、周期性數(shù)據(jù)采集需求,重點強化了以下功能:
歡迎各位研究者與開發(fā)者試用并提出寶貴意見!?
FediLive 相關(guān)網(wǎng)址如下:?