本案例庫(kù)課程目標(biāo)是基于開(kāi)源Hadoop生態(tài)系統(tǒng)構(gòu)建面向大數(shù)據(jù)時(shí)代人才培養(yǎng)的數(shù)據(jù)科學(xué)分析實(shí)踐平臺(tái),以真實(shí)場(chǎng)景為示范實(shí)現(xiàn)企業(yè)數(shù)據(jù)開(kāi)發(fā)與管理能力培養(yǎng),專注培養(yǎng)專業(yè)學(xué)位學(xué)生數(shù)據(jù)抽取、數(shù)據(jù)集成、數(shù)據(jù)分析、數(shù)據(jù)展示綜合能力,從大數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)并行處理算法、大數(shù)據(jù)分析應(yīng)用三個(gè)維度,讓學(xué)生掌握實(shí)現(xiàn)大數(shù)據(jù)分析應(yīng)用的基本工具、開(kāi)發(fā)語(yǔ)言、實(shí)現(xiàn)算法與應(yīng)用集成,培養(yǎng)學(xué)生實(shí)現(xiàn)單機(jī)數(shù)據(jù)處理到多機(jī)數(shù)據(jù)處理的跨越,實(shí)現(xiàn)從數(shù)據(jù)處理到知識(shí)處理的提升。
1.大數(shù)據(jù)4V特征分析與處理流程
2.HDFS文件系統(tǒng)原理與存儲(chǔ)實(shí)踐
3.MapReduce編程模型與實(shí)踐
4.HBASE數(shù)據(jù)模型與數(shù)據(jù)管理實(shí)踐
5.垂直搜索引擎原理與實(shí)踐
6.Hive數(shù)據(jù)倉(cāng)庫(kù)原理與實(shí)踐
7.多維數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建與主題分析
8.圖計(jì)算與內(nèi)存計(jì)算引擎與實(shí)踐
9.基于大數(shù)據(jù)的個(gè)性化推薦算法實(shí)現(xiàn)
10.基于大數(shù)據(jù)的主題事件檢測(cè)與演化分析
參考書(shū)目:
1.利用Python進(jìn)行數(shù)據(jù)分析 O’REILLY,機(jī)械工業(yè)出版社,唐學(xué)韜等譯
2.Hadoop大數(shù)據(jù)分析與挖掘?qū)崙?zhàn) 張良均等,機(jī)械工業(yè)出版社
3.Spark大數(shù)據(jù)處理 技術(shù)、應(yīng)用與性能優(yōu)化 高彥杰著,機(jī)械工業(yè)出版社