閱讀474 返回首頁    go 阿裏雲 go 技術社區[雲棲]


大數據應用還處於早期——專訪Hadoop之父Doug Cutting

至頂網軟件頻道消息: 談到大數據,對技術有點了解的人很容易想到Hadoop。的確,盡管Hadoop隻是一個對數據進行存儲和分析處理的平台,但仍有不少人把Hadoop和大數據對等起來。實際上,Hadoop的確在很大程度上扮演著大數據代言人的角色,它應用的廣度和深度也基本反映了大數據市場的繁榮程度。

從有Hadoop之父之稱的Doug Cutting推出Hadoop算起,這個分布式大規模數據處理平台麵市已經超過10年曆史。這些年來,Hadoop自身在不斷進步,市場上也誕生了一批像Cloudera、MapR、Hortonworks這樣專門提供Hadoop相關服務的廠商,對大數據市場的繁榮起到了重要作用。不過,在日前接受至頂網記者采訪時,Doug Cutting表示,無論是Hadoop的使用還是大數據的應用目前仍處於早期,這個市場還大有潛力。

大數據應用還處於早期專訪Hadoop之父Doug Cutting

Hadoop的創始人、Cloudera首席架構師Doug Cutting

沒有想到Hadoop會這麼火

今天的Hadoop可謂大名鼎鼎,但和眾多開源軟件開發人員一樣,Doug Cutting開發Hadoop的目的非常簡單,隻是為了完成當時的一個項目。今天的“火”是Hadoop的創始人、Cloudera首席架構師Doug Cutting當初未曾預料到的。

“當時,我正在做一個名為Nutch的項目。希望采用開源的方式去創建出一種網絡搜索的引擎,要求具有可擴展性、可收縮性的數據存儲和處理能力。由於之前,我們看到了來自於Google的幾篇論文,其中的想法和我的想法是完全一致的,所以我就把Google論文中的想法放到了Nutch項目當中來實施了,這就是今天的Hadoop。”Doug Cutting在接受記者采訪時表示。

Doug Cutting說,他根本沒有想到Hadoop今天會有如此之廣的用途,當初想到的也僅僅就是用於搜索引擎和網站的創建上,看到Hadoop有今天如此廣泛應用,他感覺到非常驚喜。

當然,其中最讓Doug Cutting興奮的還是Hadoop的生態。嚴格說來,今天的Hadoop已經不是一個開源項目,而是一個圍繞著Hadoop形成的一組項目以及基於各個項目之上的大生態係統。比如,Hadoop項目就從最初的HDFS、HBase、MapReduce等不多的項目擴展到包括Spark在內的眾多開源項目的集合,展示出強大的包容能力。而在生態上,圍繞Hadoop已經形成了由Cloudera等Hadoop服務商、各種相關工具提供商、IaaS雲平台供應商等眾多合作夥伴組成的大生態。

毫無疑問,繁榮的Hadoop生態也正是Hadoop能走進今天的並且繼續發展的主要原因。以Spark為例,曾經不少人認為Spark可能替換Hadoop,而實際上我們看到Hadoop的大生態讓Spark很快融入起來,相互成為補充而不是對手。除了Spark之外,還有一些開源軟件也與Hadoop社區有互動。比如kudu和Kafka。前者是一個非常強大的存儲引擎,它既具備了類似Hbase的隨機訪問能力,同時又有HDFS快速查詢能力;而Kafka有很強的實時應用支持能力和流處理能力。目前,Cloudera已經把這兩個技術集成到Hadoop平台當中了。

Doug Cutting特別強調,在開源世界競爭的邏輯是不一樣的,開源軟件之間不是完全的競爭關係。因為沒有哪個公司完全擁有開源技術,每當開源技術有了新的進展,開源群體的每一分子都會受益於其中。

“如果在有一些領域出現了新的技術,在某些方麵會優於Hadoop,那Cloudera也會毫無猶豫地去接納這樣的技術,把它放到我們的解決方案當中去交付給客戶。”他說。

雲和AI對Hadoop是利好

AI是當今市場的一個熱門話題,其今天的熱度甚至超過了大數據。對此,Doug Cutting認為,AI對Hadoop是非常有利的,AI市場的繁榮也有利於Hadoop的普及。

“我覺得Hadoop和AI之間是非常適合、非常匹配的。因為AI本身就是一種大數據的應用。特別是在對於AI係統進行訓練的時候,使用的數據越多,AI係統就越可能成功。”Doug Cutting介紹說,Google不久前發表了一篇關於應用AI進行圖象識別的論文,最終結論也是對數十億級的圖片的人工智能係統還是進行訓練使用的數據量越大,人工智能係統的質量就越高。

當然,Doug Cutting認為,推動Hadoop普及的不僅是AI,包括IoT、雲等都對Hadoop的未來發展具有非常重要的作用,特別是雲計算,將很大程度上影響Hadoop的交付。

目前,受限於網絡條件和數據保密、合規等方麵的原因,私有的、基於物理機的Hadoop模式依然是主流,雲模式還是小眾。比如,Cloudera的客戶中雲交付的不超過15%,但是Doug Cutting認為,這個數據肯定還會增長,預計會到40%-60%。

“本地安裝運行Hadoop的形式來使用,往往要建一個很大的集群來支持各種不同的應用,並且擁有一個統一的數據拷貝,數據集中可控,但成本高;而雲模式使得客戶在使用Hadoop的方式上具有了更大的靈活性和可伸縮性,而且雲供應商已經幫助他們管理了數據的拷貝。”Doug Cutting說。

Doug Cutting表示,從整個IT長遠的發展趨勢來看,IT的控製正在從在企業的某個部門擴散到各個不同的部門,因為非IT部門具有越來越大的能力,在IT方麵進行自我管理、自我服務,也有越來越多的工具能夠幫助他們做到這一點。而雲計算是促進和推動了這一趨勢的發展,也推動了數據的分散化、自助化。這是一個大趨勢,也是雲模式Hadoop增長的原因。

針對目前大數據應用的現狀,這個Hadoop的創始人認為,大數據應用的普及是一個長期的過程,讓每一家公司、每一個組織機構都能夠用正確的方式來用好數據,這需要花很長的時間。因為這其中,需要組織結構本身發生很大的變化,還需要很多的教育工作和人才的培養工作,好在這一切都是在穩步推進當中。 

原文發布時間為:2017年7月25日

本文作者:鄒大斌

本文來自雲棲社區合作夥伴至頂網,了解相關信息可以關注至頂網。

最後更新:2017-09-07 10:32:37

  上一篇:go  李傑:人工智能與工業4.0在智能製造的應用
  下一篇:go  我們是如何做數據庫運維和優化