本片博客介紹大數(shù)據(jù)相關的開源系統(tǒng)以及他們對應的一句話簡介, 對于各位想大概了解大數(shù)據(jù)都有哪些開源系統(tǒng)的同學有幫助。
本片博客介紹大數(shù)據(jù)相關的開源系統(tǒng)以及他們對應的一句話簡介, 對于各位想大概了解大數(shù)據(jù)都有哪些開源系統(tǒng)的同學有幫助。各種相關開源系統(tǒng)簡介:

如下是Apache基金支持的開源軟件
- hdfs
跟GFS類似, 一個分布式文件系統(tǒng)。
- mapreduce
跟Google的MapReduce類似, 一個典型的簡單的分布式計算框架。
- yarn
資源管理系統(tǒng), 跟Mesos類比。
- Avro
跟PB類似, 用于將數(shù)據(jù)結構序列化成字節(jié)碼, 在不同的語言之間切換。
官方舉例是將C轉換給Pig。
- BigTop
一個給Hadoop打包和測試的軟件。其本來是cloudera公司自己給自己寫的一個方便OP部署和搭建環(huán)境的工具, 不過因為寫得不錯, 已經(jīng)成為了Apache***項目。目前支持系列Hadoop生態(tài)鏈中的軟件: Zookeeper, Flume, HBase, Pig, Hive, Sqoop, Oozie, Whirr, Mahout, SolrCloud, Crunch, DataFu and Hue
- Chukwa
收集各種實時監(jiān)控數(shù)據(jù)(比如日志)并固化到HDFS上的事情。
- Drill
Google的Dremel的開源版本。PB以上數(shù)據(jù)實時秒級查詢。
- Flume
用來做數(shù)據(jù)遷移的工具。支持數(shù)據(jù)包括Avro, files, 系統(tǒng)日志, 落地的系統(tǒng)包括HDFS, HBase。
- HBase
Google的BigTable的開源版本。寬列存儲, 底層基于HDFS。
- HCatalog
為HDFS做的一個管理metadata的系統(tǒng)。基于Hive, 提供服務給MapReduce, Pig, 將來會支持HBase。
- Hive
支持HSQL, 將SQL轉換成MapReduce任務。
- Mahout
一個數(shù)據(jù)挖掘, 機器分析的算法庫。
- Oozie
用來管理Hadoop中的多輪任務的工具, 類似DAG管理工具。
- Tez
也是多個任務的DAG管理工具, 但是其做得更底層,直接替代了MR的調度程序,多個任務之間的數(shù)據(jù)傳遞不用再落地到hdfs上了。
- Pig
跟Hive類似, 提供比裸寫MR更友好的界面, 然后翻譯成MapReduce。只是Hive提供的是SQL, Pig提供的是更高級別的語言Pig-Latin, 供用戶做數(shù)據(jù)挖掘和分析。
- Sqoop
Sql-to-Hadoop。將關系型數(shù)據(jù)庫中的數(shù)據(jù)導入到Hadoop當中。
- ZooKeeper
提供高可用的存儲服務。內部采用paxos一致性協(xié)議。
- Whirr
用于將Hadoop放到各種IaaS里面去運行的環(huán)境部署類項目。
- Crunch
用來管理Hadoop/Spark上面的Pipeline的軟件。應該是比Pig/Hive更低一個級別的抽象, 提供數(shù)據(jù)的join/aggregation的Java API。
- DataFu
為Pig而準備的系列數(shù)據(jù)挖掘算法軟件包。
- Hue
Hadoop的漂亮平臺化界面。
如下是非Apache組織的一些項目
- Spark
支持迭代式計算。將MapReduce的一輪一輪計算的概念轉換成同一批數(shù)據(jù)不停處理的概念, 并提供高級語言。
- Shark
Hive On Spark。即支持HSQL。
- Impala(Cloudera)
另一個Google的Dremel的開源版本, 界面跟Hive類似(事實上就是使用的Hive-SQL的子集), 只是不是翻譯成MapReduce而是直接查詢。
- Sentry(Cloudera)
在Hive/Impala之上獨立的一層專門做認證授權的系統(tǒng)。
- SolrCloud
Solr+Hadoop, Big Data Search。