人認為 Hadoop 正在失敗,但硅谷數(shù)據(jù)管理公司 Hortonworks 的總經(jīng)理 Vamsi K. Chemitiganti 并不這么看,為了反駁此前一篇文章《為什么 Hadoop 正在消亡?(Why Hadoop is Failing)》的觀點,他在自己的博客上寫了一篇論述自己看法的文章,他認為達爾文式的開源生態(tài)系統(tǒng)正在確保 Hadoop 成為穩(wěn)固和成熟的技術平臺。
成都創(chuàng)新互聯(lián)于2013年開始,先為青龍等服務建站,青龍等地企業(yè),進行企業(yè)商務咨詢服務。為青龍企業(yè)網(wǎng)站制作PC+手機+微官網(wǎng)三網(wǎng)同步一站式服務解決您的所有建站問題。「女士,那么剛出生的孩子能干什么?」——邁克爾·法拉第,在 18 世紀被問及新發(fā)明的電有什么用的時候。
為什么 Hadoop 正在發(fā)展壯大
過去兩年來,我一直致力于大數(shù)據(jù)方面的研究,并在這段時間里經(jīng)歷了令人感到震撼的變革,因為我一直在全球各地為銀行業(yè)的領導者們提供咨詢服務。
這也是為什么當近期 KDnuggets 出現(xiàn)了一篇挑釁性質的《為什么 Hadoop 正在消亡》時,我必須站出來反對了。在那篇文章中,作者的討論具有建設性,但問題在于其討論基于一些毫無根據(jù)的假設。在深入研究之前,我們要考慮其中的背景。
公司業(yè)務中數(shù)字架構的出現(xiàn)意味著公司能夠與全球客戶/消費者/病人持續(xù)地在線互動。其目的并不僅僅是為了提供友好的可視化內容,而是為了提供跨渠道,多類型的個性化服務。移動應用首先迫使企業(yè)將服務形式升級為與消費者在多渠道中展開溝通。例如銀行業(yè),所有銀行現(xiàn)在都涵蓋了四到五種服務方式:移動 app、電子銀行、呼叫中心、快捷銀行等。醫(yī)療保健業(yè)有希望成為下一個改變面貌的行業(yè),護理人員已經(jīng)開始采用 iPad 來協(xié)助診斷,存儲和處理患者的藥物和疾病數(shù)據(jù)。大數(shù)據(jù)技術的發(fā)展是為了克服以往方法(RDBMS 和 EDW)的局限性,解決在數(shù)字應用堆棧中數(shù)據(jù)架構和分析的挑戰(zhàn)。
這些挑戰(zhàn)包括:
數(shù)據(jù)體量擴大的挑戰(zhàn)。公司數(shù)據(jù)種類的飛速膨脹。Hadoop 顯然也有自己的限制——例如支持低延遲 BI(Business Intelligence,商業(yè)智能)查詢的能力。但是 Hadoop 之前的方法顯然有更多的缺陷,它們無法處理和管理大量數(shù)據(jù),從而為數(shù)字架構的業(yè)務帶來了兩大挑戰(zhàn)。第一個挑戰(zhàn)是在企業(yè)數(shù)據(jù)流架構中實時提供洞見;第二個挑戰(zhàn)是進行進一步分析的能力:快速進行預測分析和深度學習(經(jīng)常需要每秒處理百萬條信息),從而能夠跨領域解決復雜問題。Hadoop 是唯一能讓這些挑戰(zhàn)化為有效商業(yè)機會的方式。
達爾文式的開源生態(tài)系統(tǒng)正在確保 Hadoop 成為穩(wěn)固和成熟的技術平臺。
目前的絕大多數(shù) Hadoop 大數(shù)據(jù)項目(超過 25 個)都依靠開源社區(qū)在 Apache 生態(tài)系統(tǒng)中孵化、開發(fā)和維護。開源社區(qū)本質上是達爾文式的。它專注于代碼質量和行業(yè)應用,依賴于路線圖和提交者的正確性,如果一個項目缺乏這些,那它會很快走進墳墓。換句話說,生態(tài)系統(tǒng)中沒有落后者的位置。
讓我們看看那篇文章中作者的主要假設吧。
假設 1:Hadoop 采用不再增長,最多持平
我日常工作中的最重要的部分是與多個客戶合作探討他們的業(yè)務計劃以及尋找應用技術來解決這些復雜難題的方法。我可以證明大企業(yè)對 Hadoop 的采用絕對沒有停滯不前。盡管我的觀點肯定是道聽途說,而且不是來自于企業(yè)內部的內幕,但在銀行業(yè)、電信業(yè)、制造業(yè)和保險業(yè),Hadoop 的采用卻實實在在地在飛漲。在早期就與領先的供應商合作的企業(yè)已經(jīng)或多或少找到了將這項技術應用于它們的業(yè)務難題的好方法。采用 Hadoop 的模式正在成熟,而且它們也正在意識到其中巨大的商業(yè)價值。一家領先的供應商 Hortonworks 在實現(xiàn) 1 億美元年收入的道路上比其它任何科技創(chuàng)業(yè)公司都跑得快——這是該領域潛力的有力證明。Cloudera 剛剛已經(jīng)上市。在見證著這樣的增長的同時,我們也看到領先的 EDW 供應商的收入和股價卻略有下跌。我預計,未來 5-7 年內就會出現(xiàn)第一家年收入達到 10 億美元的大數(shù)據(jù)「創(chuàng)業(yè)公司」,與備受尊敬的開源先驅 Red Hat 相比還多少快一點。至少,Hadoop 項目能幫助企業(yè)從昂貴和不靈活的企業(yè)數(shù)據(jù)倉庫項目上節(jié)省成百上千萬美元。幾乎所有組織都已經(jīng)開始部署 Hadoop,以作為它們的企業(yè)登陸區(qū)(ELZ:Enterprise Landing Zone),從而增強它們的 EDW。
假設 2:使用 Hadoop 創(chuàng)造的項目的商業(yè)價值不明顯
該作者在這方面還有點道理,但讓我解釋一下為什么這是組織機構所面臨的難題,而實際上并不是任何技術堆棧(中間件或云或大數(shù)據(jù))的過錯。這個難題在于:尋找大數(shù)據(jù)項目的商業(yè)價值往往是一個精細活,涉及到整個復雜的組織結構。IT 部分當然可以將 POC(概念驗證)作為一門科學或一項「一次性簡歷構建」項目而開始,但其業(yè)務線需要從一開始就參與進來,比其它任務技術類別都早。大數(shù)據(jù)并不是關于存儲大量數(shù)據(jù)的基礎設施的施工,而是關于如何在收集和策劃的數(shù)據(jù)上創(chuàng)造業(yè)務分析。不管這些分析是簡單而老套的商業(yè)智能(BI),還是數(shù)據(jù)科學導向的,它們都依賴于一個組織本身的文化和創(chuàng)新。
組織機構不僅在使用大數(shù)據(jù)來解決已有的業(yè)務難題(銷售更多商品、檢測欺詐、報告風險等),而且也在使用大數(shù)據(jù)分析得到的見解來快速實驗新的業(yè)務模型。聰明的 CDO(首席數(shù)據(jù)官)應該知道如何擁有這種技術、創(chuàng)造合適的內部成本核算模型并將已有的業(yè)務線(LOB)項目納入到數(shù)據(jù)湖(data lake)。
每個 CDO 在一開始時就要提出以下兩個問題:
整個組織將要具備怎樣的業(yè)務能力?哪方面的數(shù)字轉換可以通過大數(shù)據(jù)達到最優(yōu)?
假設 3:對于 PB 級的大規(guī)模數(shù)據(jù),大數(shù)據(jù)是唯一可行的技術解決方案
該作者寫道:「如果你的企業(yè)沒有巨量數(shù)據(jù)的問題,你真的用不著 Hadoop,所以數(shù)以百計的企業(yè)都對他們無用的 2 到 10 TB 的 Hadoop 集群感到非常失望——在這種規(guī)模上,Hadoop 技術沒有任何優(yōu)勢?!?/p>
這并不能從實際情況上觀察到,因為以下三個原因:
首先,大多數(shù) TB 級的項目都是租用的更大規(guī)模的集群。數(shù)據(jù)湖的真正價值是在跨組織的數(shù)據(jù)庫上構建,而在此之前,這么做需要高昂的成本,或者難度太大。一旦你將所有數(shù)據(jù)都集中到了一處,那么你就可以將它們混合起來,以一種前所未有的方式對其進行分析。
其次,正如我將在下面說的那樣,許多玩家正在使用大數(shù)據(jù)來在操作 TB 級的數(shù)據(jù)的同時獲得關鍵的「速度」優(yōu)勢。
第三,我推薦每一個客戶從「小」開始,并將數(shù)據(jù)湖用作企業(yè)登陸區(qū)——用于企業(yè)常規(guī)業(yè)務運營所產(chǎn)生的數(shù)據(jù)。Hadoop 集群不僅可被用作廉價的存儲,但也可用于執(zhí)行一些重復但計算密集型的數(shù)據(jù)處理任務(數(shù)據(jù)連接、排序、分割、binning 等等),這能將企業(yè)數(shù)據(jù)倉庫(EDW)從一系列繁重的工作中解脫出來。
假設 4:很難找到 Hadoop 人才
作者的話——「盡管 57% 的人認為,技術鴻溝是主要原因,這個比例也不會一夜之間發(fā)生改變。這正好與 Indeed 的發(fā)現(xiàn)吻合:他們追蹤了『Hadoop 測試』崗位情況,2014 年中期,招聘廣告百分比最高為 0.061%,但是,2016 年增至 0.087%,18 個月里增加了 43%。這些情況可能預示著,采用 Hadoop 并沒有下降到那些傳聞臆想所暗示的程度,不過,公司也很容易發(fā)現(xiàn)他們很難從公司當前團隊的 Hadoop 那里實現(xiàn)價值,他們需要更好的專業(yè)技術人才?!?/p>
這個技術鴻溝是確實存在的且主要存在這三個領域——數(shù)據(jù)科學家、數(shù)據(jù)工程師以及 Hadoop 管理員。不過,這并不是 Hadoop 獨有的難題,實際上每種新技術都會有這種煩惱。公司要通過增強內部員工的的技能、與全球系統(tǒng)集成商(GSI)、與學術界合作來彌合這個鴻溝。實際上,從事大數(shù)據(jù)項目的前景會吸引人才加入組織。
大型組織該如何啟動自己的大數(shù)據(jù)之旅?
避免跌進「大數(shù)據(jù)并不帶來價值」這個坑的最佳措施是什么?
以最高級別推進大數(shù)據(jù)以及大數(shù)據(jù)商業(yè)和技術應用的討論。大數(shù)據(jù)需要在最高級別上成為組織 DNA 的一部分,需要和其他驅動產(chǎn)業(yè)的主要技術一起加以討論——比如云技術、移動技術、開發(fā)運營以及社交、API 等。打造或者組建一支首席數(shù)據(jù)官領導下的團隊。團隊可以是現(xiàn)實的,也可是虛擬的,但都需要將組織策略納入考慮。建立一個卓越中心(COE:Center of Excellence)或者類似這樣的聯(lián)合渠道,在這里,中心團隊可以就這些項目與不同的業(yè)務線合作。作為 COE 的一部分,還要制定一個采納最新技術的流程。合適的監(jiān)管和項目監(jiān)督找出那些能驅動大數(shù)據(jù)項目的關鍵業(yè)務標準,包括對期望增長加速、成本削減、風險管理以及實現(xiàn)競爭優(yōu)勢的詳細分析。讓業(yè)務線參與進來,以迭代的方式發(fā)展這些能力。幾乎所有成功的大數(shù)據(jù)項目都是以一種開發(fā)運營的方式得以推進的。
總結
大數(shù)據(jù)生態(tài)系統(tǒng)和 Hadoop 技術為全球垂直領域的組織提供了一個成熟、穩(wěn)定和功能豐富的平臺來實施復雜的數(shù)字化項目。不過,技術的成熟度僅僅是一個必要因素。就旨在創(chuàng)新的思維模式而言,組織能力才是驅動內部變革的關鍵力量。因此,在商業(yè)領導、IT 團隊以及內部領域專家和管理各個方面,孕育學習的思維模式也很關鍵。對于大數(shù)據(jù)來說,普世座右銘「一分耕耘一分收獲」更加真實。盡管很容易將某個項目的失敗歸咎給一項技術、某個公司或者某個技術不佳的人員,但是,你應該與安于現(xiàn)狀的思維模式作斗爭。確認競爭沒有停下來時,你才能安心。
(原標題:Hadoop沒有消亡,它是大數(shù)據(jù)的未來)
本文標題:Hadoop沒有消亡,它是大數(shù)據(jù)的未來
網(wǎng)站鏈接:http://m.rwnh.cn/article30/soiepo.html
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供電子商務、外貿建站、品牌網(wǎng)站建設、微信公眾號、企業(yè)建站、定制網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)