本案例庫課程目標(biāo)是基于開源Hadoop生態(tài)系統(tǒng)構(gòu)建面向大數(shù)據(jù)時代人才培養(yǎng)的數(shù)據(jù)科學(xué)分析實(shí)踐平臺,以真實(shí)場景為示范實(shí)現(xiàn)企業(yè)數(shù)據(jù)開發(fā)與管理能力培養(yǎng),專注培養(yǎng)專業(yè)學(xué)位學(xué)生數(shù)據(jù)抽取、數(shù)據(jù)集成、數(shù)據(jù)分析、數(shù)據(jù)展示綜合能力,從大數(shù)據(jù)存儲、大數(shù)據(jù)并行處理算法、大數(shù)據(jù)分析應(yīng)用三個維度,讓學(xué)生掌握實(shí)現(xiàn)大數(shù)據(jù)分析應(yīng)用的基本工具、開發(fā)語言、實(shí)現(xiàn)算法與應(yīng)用集成,培養(yǎng)學(xué)生實(shí)現(xiàn)單機(jī)數(shù)據(jù)處理到多機(jī)數(shù)據(jù)處理的跨越,實(shí)現(xiàn)從數(shù)據(jù)處理到知識處理的提升。
1.大數(shù)據(jù)4V特征分析與處理流程
2.HDFS文件系統(tǒng)原理與存儲實(shí)踐
3.MapReduce編程模型與實(shí)踐
4.HBASE數(shù)據(jù)模型與數(shù)據(jù)管理實(shí)踐
5.垂直搜索引擎原理與實(shí)踐
6.Hive數(shù)據(jù)倉庫原理與實(shí)踐
7.多維數(shù)據(jù)倉庫構(gòu)建與主題分析
8.圖計算與內(nèi)存計算引擎與實(shí)踐
9.基于大數(shù)據(jù)的個性化推薦算法實(shí)現(xiàn)
10.基于大數(shù)據(jù)的主題事件檢測與演化分析
參考書目:
1.利用Python進(jìn)行數(shù)據(jù)分析 O’REILLY,機(jī)械工業(yè)出版社,唐學(xué)韜等譯
2.Hadoop大數(shù)據(jù)分析與挖掘?qū)崙?zhàn) 張良均等,機(jī)械工業(yè)出版社
3.Spark大數(shù)據(jù)處理 技術(shù)、應(yīng)用與性能優(yōu)化 高彥杰著,機(jī)械工業(yè)出版社