發布時間: 2021-08-26 16:42:07
hadoop是什么?Hadoop是一種分析和處理大數據的軟件平臺,是Appach的一個用Java語言所實現的開源軟件的加框,在大量計算機組成的集群當中實現了對于海量的數據進行的分布式計算。

Hadoop的優點:
1.高可靠性,Hadoop按位存儲和處理數據的能力值得人們信賴。
2.高擴展性,Hadoop是在可用的計算機集簇間分配數據并完成計算任務的,這些集簇可以方便地擴展到數以千計的節點中。
3.高效性,Hadoop能夠在節點之間動態地移動數據,并保證各個節點的動態平衡,因此處理速度非常快。
4,高容錯性,Hadoop能夠自動保存數據的多個副本,并且能夠自動將失敗的任務重新分配。
5,低成本,hadoop是開源的,項目的軟件成本因此會大大降低。
Hadoop的模塊組成:
1.Hadoop 分布式文件系統 (HDFS)—一個在標準或低端硬件上運行的分布式文件系統。
2.Yet Another Resource Negotiator (YARN)—管理與監控集群節點和資源使用情況。
3.MapReduce—一個幫助計劃對數據運行并行計算的框架。該 Map 任務會提取輸入數據,轉換成能采用鍵值對形式對其進行計算的數據集。
4.Hadoop Common—提供可在所有模塊上使用的常見 Java 庫。
Hadoop能干什么?
1.大數據存儲:分布式存儲
2.日志處理:擅長日志分析
3.ETL:數據抽取到oracle、mysql、DB2、mongdb及主流數據庫
4.機器學習: 比如Apache Mahout項目
5.搜索引擎:Hadoop + lucene實現
6.數據挖掘:目前比較流行的廣告推薦,個性化廣告推薦
Hadoop是專為離線和大規模數據分析而設計的,并不適合那種對幾個記錄隨機讀寫的在線事務處理模式。
上一篇: hadoop有什么用
下一篇: cloudera認證有什么用