Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。
用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力進行高速運算和存儲。
[1] Hadoop實現(xiàn)了一個分布式文件系統(tǒng)(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯性的特點,并且設(shè)計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(large data set)的應(yīng)用程序。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streaming access)文件系統(tǒng)中的數(shù)據(jù)。
本課程培養(yǎng)學(xué)生基本的大數(shù)據(jù)理論和實踐知識,能夠通過大數(shù)據(jù)基礎(chǔ)理論和實踐課完成對大數(shù)據(jù)體系的學(xué)習(xí),達到大數(shù)據(jù)工程師的目的。
要求根據(jù)項目的需求,重點掌握以下的技能:
1、掌握大數(shù)據(jù)理論基礎(chǔ)
2、掌握各個框架之間的關(guān)系及用途。
3、掌握Hadoop和其他框架之間調(diào)用。
4、會用Hive進行數(shù)據(jù)倉庫的操作
5、會用Hbase進行Nosql數(shù)據(jù)庫的操作