MongoDB出新招,增加對Hive的支持
MongoDB的所有者10gen宣布其Hadoop連接器將會在本周二進行更新升級。新版本中將包括一些非常重要的新功能并且加入了對Hive(類似SQL框架和Hadoop的查詢語言)的支持,它能夠把本地MongoDB文件存儲到Hadoop上,還能在MongoDB的同一的數據集合中運行增量的MapReduce作業。
公司的產品營銷總監Kelly Stirman表示,MongoDB的Hadoop連接器已經上市了一段時間,而且被許多企業機構廣泛的運用。不過周二的更新將會是MongoDB自2012年4月發布以來最為重要的一次升級。
也許大多數人并沒有注意到,MongoDB和Hadoop在過去的幾年已經變得非常的流行。Stirman表示,由于支持JSON類型文件,在很多Web和手機應用中,MongoDB都是被作為操作數據庫,而Hadoop也是被很多公司選作大數據處理和分析平臺。特別是在大型網絡公司和世界500強企業,通常都并排部署了MongoDB和Hadoop。
MongoDB連接器現在已經非常的流行,因為它允許用戶可以在數據庫中預先處理MongoDB數據,而無需把數據發送到Hadoop中處理。在現有支持MapReduce 和Pig的基礎上增加對Hive的支持,由于Hive中類似SQL的特性,使用MongoDB連接器來連接Hadoop數據,已經被很多企業廣泛使用。
在Hadoop分布式文件系統上支持MongoDB本地BSON文件意味著用戶可以備份他們的數據庫資料到Hadoop中,同時用戶也可以處理這些數據資料,這樣就避免了在MongoDB集群上添加撤銷負載。
Stirman把在MongoDB集合上運行增量MapReduce作業的能力稱為近似 “濃縮進程”。 用戶以前只能在數據庫中一個新的集合上才可以運行MapReduce作業,但是MongoUpdateWriteable這種新的技術特性可以讓用戶在現有的集合上運行MapReduce作業。
數據庫行業觀察人士可能會質疑MongoDB的新特性,它是不是僅僅會改善MongoDB-Hadoop開發環境的現有功能,或者它是否能以某種方式來影響市場份額,這似乎是Stirman未來需要考慮的問題,至少目前已經考慮到那些使用Hadoop的公司了。Stirman指出10gen在營銷上可能會遇到像Cassandra和HBase這樣有競爭力的對手,不過目前而言, “從本質上來說,這三者(Cassandra、HBase以及MongoDB)相對于Hadoop,都是對等的。”
對等?也許吧——至少在某種程度上用戶還是愿意擴展Hadoopde 的規模來彌補數據庫擴展性的欠缺。當然,也有很多用戶選擇其他的NoSQL數據庫產品而非MongoDB,這是源于所選的應用程序不同。