聽Cloudera首席架構師Doug Cutting談Hadoop與人工智能
原創【51CTO.com原創稿件】Doug Cutting是開源界的技術大神,無論是2000年的Lucene,還是后來基于Lucene衍生的企業級搜索項目Solr以及ElasticSearch,當然還包括后來風靡全球的Hadoop,他經手的每一個開源項目都影響甚廣并在其中表現出色,盡管筆者不是長期奮戰在技術一線的程序員,但也久聞大名,這次采訪讓筆者期待已久。
關于Hadoop
談及Hadoop的誕生,Doug Cutting在大家面前露出了驚喜的神色。他表示,當初僅僅是為了完成手上的項目,確實沒有想到一旦創建出這個技術后,會有如此之廣的用途。例如當時沒有預見能夠在制造、銀行、電信這么多的行業廣泛應用,最初僅僅認為也就是主要用于搜索引擎和網站創建上,算是意外之喜了。“最讓我驚喜的是,圍繞Hadoop以及基于Hadoop的所有項目以及技術并不是單獨存在的,而是以多種技術為基礎所組成的系列家族,并且整個技術體系還在不斷發展和演進中,換句話說圍繞著Hadoop現在已經形成了非常強大的生態系統,這種生態系統的演進和發展并不受制于其中任何一種技術。”Doug Cutting補充道。
談到Hadoop在我國的發展壯大,確實可以看到我國市場和Hadoop之間有一個非常自然的契合和匹配。從數據的角度來說,我國可能是世界上最大的單一市場,擁有數據的數量和規模超過了世界上大部分其他國家,這也是Hadoop在我國有著非常成功的發展的原因之一,這種特殊的發展環境或許催生了我國Hadoop生態圈與其他國家的一些差別。
Doug Cutting說:“在中國,很多Hadoop用戶習慣使用Hadoop的開源版本,而不需要去得到哪一家具體公司的支持和幫助。中國市場和美國相比,需要花更多時間對市場進行教育和培育,也就是說從更加長遠的角度出發,需要讓人們了解在使用這些軟件的過程中如果能夠得到有關方面的支持和幫助會有更佳的使用體驗。這樣的市場教育在中國可能要花很長時間,但對于Hadoop在中國的發展前景我滿懷信心。”
任何技術的完善都要在不斷的發展中萌生創新的活力,Hadoop也是如此。今年又是云計算市場風起云涌的一年,探討云計算對Hadoop的影響,Doug Cutting有自己的想法。“我認為云計算或云模式使客戶在使用Hadoop的方式上具有了更大的靈活性,例如可以在云環境中使用Hadoop。如果用本地安裝運行的形式使用Hadoop,往往要創建一個單一的大集群來支持各種不同的應用,并且需要擁有一個統一的數據拷貝;如果在云環境中運行Hadoop,數據會在亞馬遜存儲之類的系統中,云環境供應商已經幫助管理了數據拷貝。此外,在云環境中使用Hadoop,客戶可以針對不同的應用創建不同的集群,這樣的集群開關或者規模伸縮等都可以按需進行,對于客戶來說,應用更好被控制,同時也增加了靈活性。
如果從整個IT長遠的發展趨勢看,過去一個企業中的IT往往是集中在一個部門,但現在很多企業的數據和數字技術是在整個企業中擴散并被使用,各個非IT部門具有越來越大的能力在IT方面進行自我管理、自我服務,越來越多的工具能夠幫助做到這一點,不得不說云計算促進和推動了這一趨勢的發展。
由于云計算的出現使一個公司中非IT部門,例如運營、制造、市場營銷部門能夠自行采購一些服務并且加以運行,控制能力和靈活性都比以往大大增強,所以云計算本身也是促進了IT和數據的分散化、自助化,一改過去那種集中化的模式。采訪中,筆者也針對數據倉庫架構以及Hadoop針對小數據量應用的問題請教了Doug Cutting。
51CTO記者:如今,有的數據專家趨向于將Hadoop作為數據倉庫架構的補充,這個問題您怎么看待?
Doug Cutting:就數據倉庫的架構而言,實際上我們可以把整個數據倉庫都建立在Hadoop上。五年前,我們與Ralph Kimball博士,他是數據倉庫架構主要的創建人,一起弄明白也證實了可以完全基于Hadoop來建立數據倉庫,而且也有很多用戶確實是把自己的數據倉庫完全建立在Hadoop基礎上。
當然,就建立數據倉庫的技術而言,有其他的一些技術或者工具與Hadoop相比,存在的時間更長,事實上對于這些時間更加長久的技術,Hadoop并沒有能完全具備其中所有的功能與性能。但即便如此,很多用戶還是選擇將他們的數據倉庫構建在Hadoop架構上,為了能夠實現更加優越的可擴展性、更高的性價比以及更好的靈活性。
對于一些初創企業來說,他們會用Cloudera Hadoop來構建整個數據倉庫;對于一些其他類型的公司,如果他們已經具備傳統技術架構的數據倉庫,他們也會采用Cloudera Hadoop,也就是將他們傳統數據倉庫中的一部分工作負載遷移到Cloudera Hadoop的平臺上。對于這樣的公司來說,實際上他們擁有了一個更大的數據倉庫,擁有了更好的伸縮擴展性并且能夠降低成本。當然,對于已有基于傳統技術的數據倉庫的公司來說,如果要把所有的工作負載都遷移到Cloudera上是有困難的,因為合適性與兼容性的問題,部分遷移還是可以完成的。
51CTO記者:對于一些數據量極小的應用,有的人認為用Hadoop是“殺雞用牛刀”,您對此如何理解?
Doug Cutting:是不是“殺雞用牛刀”,主要看用戶完成任務的過程中需要使用怎樣的工具,有時候也許在規模上、擴展性上超出了需求,但仍然能夠帶來靈活性的優勢。例如使用基于Spark的機器學習工具,有些時候用戶仍然發現Hadoop平臺對于他們完成任務非常有用,雖然規模可能過大;實際應用中也發現在很多應用當中即使是規模很小的集群,比方說5個節點的集群,客戶也發現使用Hadoop與其他技術選項相比能夠產生更好的產出,帶來更多的價值與競爭,當然我們并不認為Hadoop是一種通用的工具,能夠解決所有問題。
除了Hadoop和spark之外,在開源領域Doug Cutting還比較關注Kudu。Kudu是表現強大的存儲引擎,既具備了像Hbase隨機訪問的很強的知識能力,同時又具備HDFS的快速查詢能力,兼而有之;另外就是Kafka,Kafka有很強的實時應用支持能力和流處理能力,據了解,Cloudera已經把這兩大技術采納到平臺中更好地滿足我們客戶的需求。“我們也在構建一些更多的Spark機器學習的工具,與之相關的一個項目是Apache Spot,它表現了網絡安全的能力,幫助我們的客戶免遭黑客的攻擊,這是我們在Hadoop和Spark基礎上進一步的推進。”Doug Cutting說。
關于人工智能
如今人工智能的火熱程度已經很難用語言來形容了,對于人工智能、大數據以及Hadoop,Doug Cutting強調:“我覺得Hadoop和AI之間是非常適合、非常匹配的一項技術,因為AI本身就是一種大數據的應用,特別是在對于AI系統進行訓練的時候,使用的數據越多,AI系統就越先進。上周Google發表了一篇文章,主要講的是AI的圖象識別,也就是說在用數以十億計的圖象識別的深度智能系統進行培訓的基礎上,仍然是使用的數據越多、圖片越多,這種深度學習圖象識別的能力就越強,也就是說對于人工智能系統進行訓練使用的數據量越大,人工智能系統的質量就越高,從這個意義上來說AI本身也是一種大數據應用。”筆者最近接觸了很多有關AI的言論以及產品,就知識圖譜以及深度學習請Doug Cutting談了談自己的看法。
51CTO記者:因為2012年谷歌推出了知識圖譜,現在越來越得到行業的認可。以知識圖譜為代表的知識工程也越來越得到關注,請問這種以知識圖譜作為推動人工智能發展和落地的重要工具、技術手段的看法,您是怎么理解?
Doug Cutting:首先就知識圖譜、知識工程而言,在推動人工智能的過程中,在我看來這種知識圖譜、知識工程的方法沒有統計學方法那么成功。早在八十年代,知識工程就已經非常流行了,那時我還是學生。如今深度學習取得的成功主要依靠的是統計學的方法,也就是基于巨量數據的各種模型的訓練,而不是通過知識工程的方式,在圖像識別、語音識別以及分類任務的完成上取得了很大進展。當然我也不是說像知識圖譜、知識工程的方式在人工智能發展過程中永遠不會成功,只是目前的現狀不如統計學的方法更加有效。
51CTO記者:您認為深度學習還存在什么樣的缺陷?
Doug Cutting:對于深度學習進一步發展的挑戰,我認為最大的一個挑戰就是深度學習的有用性、適用性、廣度到底有多大。目前在一些認識、識別任務的完成中,深度學習非常有效,例如在大量的噪音或者是干擾的因素中進行清晰的識別、分類、標簽,深度學習做得非常好;但有很多其他類型的任務,對形勢進行分析并做出決策,并不是完全依靠這種能力。雖然目前人們對于深度學習能夠完成很多其他任務這個定位是非常樂觀的,但我希望這樣的樂觀不會是一種過度的樂觀。
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】