隨著互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、社交網(wǎng)絡、物聯(lián)網(wǎng)、云計算等新一代信息技術的應用和推廣,人類產(chǎn)生的數(shù)據(jù)成倍增長,數(shù)據(jù)種類繁多,數(shù)據(jù)在寬帶網(wǎng)絡中高速流動,數(shù)據(jù)的待開發(fā)價值越來越大,毫無疑問,我們已經(jīng)進入了大數(shù)據(jù)(Massive Datasets)時代。
大數(shù)據(jù)分析是指對規(guī)模巨大的數(shù)據(jù)進行分析,通常被理解為將網(wǎng)絡中現(xiàn)有的數(shù)據(jù)轉化為知識,幫助用戶做出明智的業(yè)務決策的工具。實時大數(shù)據(jù)分析是指對大數(shù)據(jù)高效、快速地完成分析,達到近似實時的效果,更及時的反映數(shù)據(jù)的價值和意義。
本課程詳細介紹了支持大規(guī)模數(shù)據(jù)挖掘的分布式文件系統(tǒng)及MapReduce分布式計算框架,以及大數(shù)據(jù)分析的基本概念、方法、理論體系。實時大數(shù)據(jù)分析的經(jīng)典算法、應用技術、工具及目前面臨的挑戰(zhàn)會被重點講述。