互聯(lián)網(wǎng)IDC圈4月27日?qǐng)?bào)道,互聯(lián)網(wǎng)的發(fā)展使得大數(shù)據(jù)引起人們廣泛關(guān)注?,F(xiàn)如今大數(shù)據(jù)技術(shù)早已滲透到金融、通訊等行業(yè)以及生物學(xué)、物理學(xué)等領(lǐng)域。大數(shù)據(jù)在容量、多樣性和高增速方面的爆炸式增長(zhǎng)全面考驗(yàn)著現(xiàn)代企業(yè)的數(shù)據(jù)處理和分析能力,與此同時(shí)也為各個(gè)行業(yè)帶來(lái)了準(zhǔn)確洞察市場(chǎng)行為的機(jī)會(huì)。迄今為止大數(shù)據(jù)技術(shù)與產(chǎn)品有哪些創(chuàng)新,工業(yè)大數(shù)據(jù)應(yīng)用面臨哪些挑戰(zhàn),金融行業(yè)大數(shù)據(jù)應(yīng)用現(xiàn)狀如何等。圍繞這一系列問(wèn)題,4月27日至28日,由工業(yè)和信息化部指導(dǎo)、中國(guó)信息通信研究院主辦的"2016大數(shù)據(jù)產(chǎn)業(yè)峰會(huì)"在北京國(guó)際會(huì)議中心盛大召開(kāi)。在27日大數(shù)據(jù)技術(shù)與產(chǎn)品創(chuàng)新分論壇中星環(huán)信息科技的創(chuàng)始人&CTO孫元浩分享了在互聯(lián)網(wǎng)+時(shí)代,Hadoop推動(dòng)現(xiàn)代數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的深刻變革。
成都創(chuàng)新互聯(lián)公司成立于2013年,先為烏翠等服務(wù)建站,烏翠等地企業(yè),進(jìn)行企業(yè)商務(wù)咨詢服務(wù)。為烏翠企業(yè)網(wǎng)站制作PC+手機(jī)+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問(wèn)題。星環(huán)信息科技的創(chuàng)始人&CTO孫元浩
以下是孫元浩演講實(shí)錄:
孫元浩:Hadoop已經(jīng)經(jīng)過(guò)了10年的發(fā)展,從2006年到今天剛好是10年時(shí)間。這10年當(dāng)中,Hadoop從雅虎一家開(kāi)源的技術(shù)平臺(tái),逐漸的被更多的互聯(lián)網(wǎng)公司使用,到今天在很多的企業(yè)當(dāng)中在使用這個(gè)新的技術(shù),我們也見(jiàn)證了這個(gè)技術(shù)的飛速發(fā)展。它的應(yīng)用的廣度也超出了原來(lái)Hadoop設(shè)計(jì)的想像,早期的Hadoop是為了仿造Google的搜索引擎建造的,今天我們看到Hadoop的應(yīng)用已經(jīng)開(kāi)始深入到企業(yè)的各個(gè)應(yīng)用領(lǐng)用當(dāng)中。當(dāng)時(shí)我估計(jì)在2016年、2017年是新技術(shù)戰(zhàn)略的轉(zhuǎn)折點(diǎn),意味著這個(gè)技術(shù)已經(jīng)到達(dá)了一定程度,在各個(gè)領(lǐng)域當(dāng)中可能會(huì)有飛速的應(yīng)用,可能會(huì)比去年和前年有一個(gè)數(shù)量級(jí)的提升。
我今天首先會(huì)介紹一下我們公司,技術(shù)人員可能對(duì)我們公司很了解,很多其他行業(yè)的朋友不一定了解我們公司。我們是一家專門(mén)做Hadoop技術(shù)的公司,我們從2013年成立到現(xiàn)在有3年時(shí)間,發(fā)展還是比較快的。我們專注在底層開(kāi)發(fā)下面,我們開(kāi)發(fā)的代碼量接近1千萬(wàn)行,我們的產(chǎn)品加起來(lái)將近3千萬(wàn)行。在去年下半年被Gartner提到我們公司,我們也是全球四大Hadoop廠商之一,我們今天也有幸成為Gartner數(shù)據(jù)倉(cāng)模擬象限的一家中國(guó)公司。描述了哪些產(chǎn)品具有哪些特點(diǎn)?,F(xiàn)在大家可以看到,這邊大部分都是一些大型公司,我們被放在了最右邊的位置,表示國(guó)外媒體對(duì)于我們技術(shù)的領(lǐng)先性和完備性還是有高度認(rèn)可的,但是我們的規(guī)模會(huì)比他們低。目前來(lái)講,我們客戶的數(shù)量還是比較多的。
下面我們來(lái)介紹一下Hadoop的應(yīng)用。剛才講到,我們認(rèn)為Hadoop未來(lái)一段時(shí)間會(huì)進(jìn)入戰(zhàn)略整合點(diǎn),被客戶接受的速度會(huì)迅速提升。最左邊是一個(gè)報(bào)告,是收費(fèi)報(bào)告,統(tǒng)計(jì)了美國(guó)市場(chǎng)上面Hadoop應(yīng)用的分類(lèi),大部分Hadoop用戶主要是60%的客戶,20%的客戶是交互式BI的,用于報(bào)表式工具跟Hadoop對(duì)接,還有國(guó)內(nèi)的可視化公司也在跟Hadoop對(duì)接。在美國(guó)有幾十家這樣的公司專注做數(shù)據(jù)分析和可視化,所以這個(gè)應(yīng)用場(chǎng)景大概有25%。還有6%的客戶是做輕量級(jí)的應(yīng)用,主要是使用了Hbase分布式系統(tǒng)來(lái)做數(shù)據(jù)的查詢,這個(gè)比例不是太高,有6%。還有4%的客戶是用來(lái)做文檔數(shù)據(jù)庫(kù),5%的客戶是用來(lái)做流處理。
右邊這場(chǎng)圖是我們星環(huán)從幾百個(gè)客戶當(dāng)中統(tǒng)計(jì)出來(lái)的分類(lèi),有一定的代表性,但是不是全部的數(shù)據(jù)。從中可以看到中國(guó)市場(chǎng)和美國(guó)市場(chǎng)有比較大的不同,這個(gè)數(shù)據(jù)我們提交上去,他們已經(jīng)把我們的數(shù)據(jù)放到他們的報(bào)告當(dāng)中去了。我們看到有56%的客戶做數(shù)據(jù)倉(cāng)庫(kù),我們做數(shù)據(jù)倉(cāng)庫(kù)有一定的優(yōu)勢(shì),我們非常完整,支持分布式處理,支持這個(gè)存儲(chǔ)過(guò)程,所以有一部分客戶已經(jīng)從數(shù)據(jù)庫(kù)直接牽引到我們的上面來(lái)。這種新的業(yè)務(wù)模式在用到國(guó)內(nèi)的時(shí)候還不是這么快,有一類(lèi)是比較特殊的,就是我們做OITP用的,做簡(jiǎn)單快速查詢的應(yīng)用比較多,這其實(shí)反應(yīng)了我們國(guó)家的數(shù)據(jù)量比美國(guó)的客戶大很多,我們中國(guó)一個(gè)省的用戶就是美國(guó)AT&T全國(guó)的用戶,這一塊反而有一批客戶在用這種簡(jiǎn)單的數(shù)據(jù)庫(kù),2%的客戶在做文檔數(shù)據(jù)庫(kù),這也反映了在美國(guó)NoSQL有4%的使用率。有一個(gè)不同的地方,流處理這一塊在中國(guó)的應(yīng)用場(chǎng)景比較多,有10%的客戶,解決我們有10%在做流處理,主要是分布在實(shí)時(shí)的金融交易、傳感器網(wǎng)絡(luò)和工業(yè)4.0里面,2008年、2009年我們國(guó)家建立了大量的傳感器,包括物聯(lián)網(wǎng),這一塊使得我們?cè)诳蛻舢?dāng)中有比較多的在用這種做數(shù)據(jù)處理,這也反映了我們國(guó)家的工業(yè)4.0其實(shí)已經(jīng)具備一定的條件了,可能比美國(guó)還要更領(lǐng)先一些。
大家可以看到,大部分的Hadoop用戶都在用這個(gè)技術(shù)來(lái)做數(shù)據(jù)倉(cāng)庫(kù),我們后面講一下為什么是這種場(chǎng)景。數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)比較全的概念,通常不是指一類(lèi)技術(shù),是所有數(shù)據(jù)的組合,會(huì)是所有數(shù)據(jù)的集散地,企業(yè)會(huì)把所有的數(shù)據(jù)放在數(shù)據(jù)倉(cāng)庫(kù)里面對(duì)外提供服務(wù)。過(guò)去這么多年數(shù)據(jù)庫(kù)面臨一些挑戰(zhàn),數(shù)據(jù)增加比較快,傳統(tǒng)的數(shù)據(jù)庫(kù)已經(jīng)不能處理,效率提升得比較慢,我們碰到一個(gè)很大的客戶,是一個(gè)著名的廠商,這是一個(gè)顯著的瓶頸。原來(lái)的關(guān)鍵數(shù)據(jù)庫(kù)只處理結(jié)構(gòu)化處理,現(xiàn)在需要一些新的技術(shù)處理半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)。隨著數(shù)據(jù)倉(cāng)庫(kù)越來(lái)越多,用戶也越來(lái)越多,通常用戶有上百個(gè)數(shù)據(jù)源,上面支撐幾十個(gè)業(yè)務(wù)部門(mén),甚至是幾十個(gè)分支機(jī)構(gòu),一個(gè)銀行可能有30幾家分行,這些分支機(jī)構(gòu)訪問(wèn)數(shù)據(jù)的時(shí)候都通過(guò)這個(gè)數(shù)據(jù)倉(cāng)庫(kù),對(duì)數(shù)據(jù)的隔離、訪問(wèn)資源的管理就變成了一個(gè)迫切要解決的問(wèn)題。
傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)是T+1的,在當(dāng)天分析前一天的數(shù)據(jù),但是更多的企業(yè)希望能夠?qū)?shù)據(jù)進(jìn)行實(shí)時(shí)分析,希望能夠做到T+0,這一塊也是對(duì)數(shù)據(jù)倉(cāng)庫(kù)構(gòu)成的一個(gè)挑戰(zhàn)。這一塊就是有一些國(guó)外的咨詢機(jī)構(gòu)和公司提出的,希望能夠做實(shí)時(shí)的數(shù)據(jù)處理。剛才我們看到有一個(gè)概念是幾年前提出來(lái)的邏輯數(shù)據(jù)倉(cāng)庫(kù),能夠處理多種數(shù)據(jù)源,做數(shù)據(jù)管理。還有一個(gè)特點(diǎn)也是現(xiàn)在大家在使用新技術(shù)的時(shí)候一個(gè)驅(qū)動(dòng)力,原來(lái)是對(duì)于過(guò)去歷史的統(tǒng)計(jì)。今天大家發(fā)現(xiàn),以前做數(shù)據(jù)模型,比如說(shuō)像銀行里的十大主題模型,或者八大主題模型,他們有幾千張表,中間的表可能有上萬(wàn)張,關(guān)系相對(duì)來(lái)說(shuō)是固定的。一旦你的業(yè)務(wù)發(fā)生變化,你可能要對(duì)整個(gè)層面做修改。今天大家希望有一個(gè)自助的方法,能夠用機(jī)器學(xué)習(xí)的方法發(fā)現(xiàn)數(shù)據(jù)的管理,而不是發(fā)現(xiàn)統(tǒng)計(jì)的結(jié)果,甚至是統(tǒng)計(jì)報(bào)告對(duì)于他們不夠。所以這一塊現(xiàn)在有的提出來(lái)一個(gè)設(shè)計(jì)模式,就是我不需要知道這些數(shù)據(jù)它們之間的關(guān)聯(lián)關(guān)系,我是通過(guò)機(jī)器學(xué)習(xí)的方法,機(jī)器自動(dòng)來(lái)學(xué)習(xí)發(fā)現(xiàn)他們的規(guī)律。這實(shí)際上也對(duì)應(yīng)了大數(shù)據(jù)的4V,數(shù)據(jù)量、數(shù)據(jù)變化、數(shù)據(jù)實(shí)時(shí)性以及數(shù)據(jù)挖掘,剛好是4V。其實(shí)在數(shù)據(jù)倉(cāng)庫(kù)里面,其實(shí)也是沿著這個(gè)方向演變出來(lái)的四個(gè)不同的設(shè)計(jì)模式。
在解決數(shù)量大的問(wèn)題上面大家已經(jīng)形成了共識(shí),需要用分布式的方法,用橫向的方式。從早期的單機(jī)到90年代的并行數(shù)據(jù)庫(kù),是把數(shù)據(jù)庫(kù)的引擎并行化了,把計(jì)算并行化了,但是存儲(chǔ)仍然是集中化的,集中化的存儲(chǔ)仍然是一個(gè)瓶頸。后來(lái)把計(jì)算分離了,但是計(jì)算的引擎不具有可擴(kuò)展性,容錯(cuò)性比較差。到了Hadoop的時(shí)候,大家發(fā)現(xiàn)可以有一種因的模式,同時(shí)對(duì)數(shù)據(jù)和計(jì)算進(jìn)行分布式計(jì)算,對(duì)于數(shù)據(jù)進(jìn)行分布式存儲(chǔ),同時(shí)兼顧擴(kuò)展性和容錯(cuò)性。這一塊基本上大家發(fā)現(xiàn),這個(gè)計(jì)算模式是處理大規(guī)模數(shù)據(jù)的一個(gè)最佳模式,這個(gè)擴(kuò)展性和容錯(cuò)性都有很大的問(wèn)題。所以很多的Hadoop引擎都回歸到這個(gè)計(jì)算模式上來(lái)。我們?cè)赟QL這一塊做的比較突出,能夠跑完整個(gè)過(guò)程?,F(xiàn)在我們最新發(fā)布的4.0版本性能又比這個(gè)有兩倍的提升,所以現(xiàn)在除了100TB的用三臺(tái)機(jī)器,其他的都可以用兩臺(tái)機(jī)器完成。
分布式計(jì)算是解決了性能的問(wèn)題,那么怎么解決數(shù)據(jù)源的問(wèn)題,怎么解決這個(gè)問(wèn)題,我們提出了邏輯數(shù)據(jù)倉(cāng)庫(kù)的概念。邏輯數(shù)據(jù)倉(cāng)庫(kù)要滿足三個(gè)特性,首先需要有一個(gè)集中化的存儲(chǔ),把所有的數(shù)據(jù)全部集中起來(lái),而不是分散在不同的地方。另外需要有一個(gè)數(shù)據(jù)聯(lián)邦的概念,能夠跨多種數(shù)據(jù)源,能夠有統(tǒng)一的接口。通過(guò)統(tǒng)一的SQL層,或者是一個(gè)界面能夠來(lái)訪問(wèn)到所有的數(shù)據(jù)源,中間有結(jié)構(gòu)化數(shù)據(jù),還有非結(jié)構(gòu)化數(shù)據(jù)。另外必然是需要一個(gè)分布式計(jì)算,同時(shí)上面有多租戶管理,還有原數(shù)據(jù)管理,整個(gè)形成了一個(gè)邏輯數(shù)據(jù)倉(cāng)庫(kù)的概念。邏輯數(shù)據(jù)倉(cāng)庫(kù)其中一個(gè)非常重要的特性就是要做數(shù)據(jù)聯(lián)邦,能夠訪問(wèn)多種不同的數(shù)據(jù)源。這一塊我們有一個(gè)比較好的產(chǎn)品,可以跨多種數(shù)據(jù)源進(jìn)行交叉。
在邏輯數(shù)據(jù)倉(cāng)庫(kù)當(dāng)中需要用資源管理,要實(shí)現(xiàn)兩層,數(shù)據(jù)保護(hù)通過(guò)不同的訪問(wèn)規(guī)則來(lái)控制對(duì)數(shù)據(jù)的不同訪問(wèn),其次我們需要對(duì)資源進(jìn)行一個(gè)比較好的隔離。這一塊我們現(xiàn)在也采用了一些嘗試,我們現(xiàn)在發(fā)布了一個(gè)產(chǎn)品是TOS,我們的調(diào)動(dòng)引擎是完全自己開(kāi)發(fā)的。另外一個(gè)題外話,我們?cè)诿髂甑漠a(chǎn)品當(dāng)中有自己的存儲(chǔ)引擎,所以在未來(lái)的一段時(shí)間之內(nèi),大家看不到Hadoop的影子了,我們已經(jīng)幾乎把這個(gè)東西全部實(shí)現(xiàn)了。
在這一塊,上層我們會(huì)借助這個(gè)容器把這個(gè)東西所有的標(biāo)準(zhǔn)化容器放在一個(gè)里面,所有的服務(wù)都可以自動(dòng)通過(guò)組裝方式來(lái)構(gòu)建這個(gè)應(yīng)用。整個(gè)實(shí)現(xiàn)了兩個(gè)特點(diǎn),一個(gè)是解決了應(yīng)用標(biāo)準(zhǔn)化的問(wèn)題,通過(guò)容器來(lái)實(shí)現(xiàn),另外是實(shí)現(xiàn)了運(yùn)維自動(dòng)化的問(wèn)題,整個(gè)平臺(tái)我們通過(guò)調(diào)度器來(lái)進(jìn)行管理,自動(dòng)擴(kuò)容、自動(dòng)收縮,出故障會(huì)自動(dòng)修復(fù),在運(yùn)維上極大的減輕了IT部門(mén)的壓力。這一塊因?yàn)椴捎萌萜?,隔離性非常好,可以使得不同部門(mén)之間共享一套平臺(tái)。
這個(gè)設(shè)計(jì)模式是借助流處理,我們?cè)谶@里不詳細(xì)講了?,F(xiàn)在隨著工業(yè)4.0的發(fā)展,物聯(lián)網(wǎng)越來(lái)越多,大家需要通過(guò)新的技術(shù)對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)處理。過(guò)去能夠完成數(shù)據(jù)的實(shí)時(shí)存儲(chǔ),但是不能做實(shí)時(shí)分析。應(yīng)用的需求總是希望越來(lái)越復(fù)雜,需要對(duì)這個(gè)計(jì)算平臺(tái)的能力越來(lái)越高,這一塊我們需要在流上面支持復(fù)雜的SQL,比如說(shuō)存儲(chǔ)過(guò)程,甚至是機(jī)器學(xué)習(xí)。目前這一款產(chǎn)品也是我們比較有特色的,要遠(yuǎn)遠(yuǎn)超過(guò)國(guó)外友商的產(chǎn)品,我們可以在流的產(chǎn)品上面支持非常復(fù)雜的SQL,也能夠在流上做機(jī)器學(xué)習(xí)。這也是我們用流數(shù)據(jù)來(lái)實(shí)現(xiàn)的一個(gè)重要手段。
這個(gè)設(shè)計(jì)架構(gòu)基本上要從原來(lái)對(duì)于歷史數(shù)據(jù)的分析轉(zhuǎn)變成對(duì)于數(shù)據(jù)規(guī)律的探索以及未來(lái)的預(yù)測(cè)上面。這一塊我們采用的方式,其實(shí)是分成幾個(gè)階段,首先是數(shù)據(jù)清洗,選取特征,再就是建模,還有就是把一個(gè)計(jì)算模型能夠應(yīng)用或者是展現(xiàn),作為決策支持。我們?cè)谶@一塊我們是通過(guò)SQL引擎來(lái)做加工,對(duì)外完整的提供接口,所有的對(duì)表的措施都是用原生操作來(lái)實(shí)現(xiàn)的,內(nèi)部我們會(huì)自動(dòng)的定義。另外我們也是現(xiàn)在的算法,分類(lèi)、聚類(lèi)、反樣回歸的神經(jīng)網(wǎng)絡(luò),做時(shí)序的關(guān)聯(lián)分析,都已經(jīng)整個(gè)用分布式方法重新實(shí)現(xiàn)了一遍,也提供了二元的接口,用戶可以直接來(lái)做這個(gè)數(shù)據(jù)建模。這一塊我們現(xiàn)在看到在國(guó)內(nèi)應(yīng)用不是特別多,大概只有8%的客戶在用機(jī)器學(xué)習(xí)。當(dāng)然趨勢(shì)是非??斓?,有一些客戶建好這個(gè)Hadoop平臺(tái)以后,在想怎么從數(shù)據(jù)當(dāng)中發(fā)掘價(jià)值,就需要這種產(chǎn)品。其實(shí)有很多咨詢機(jī)構(gòu),包括大數(shù)據(jù)應(yīng)用的第一個(gè)難點(diǎn)是沒(méi)有一個(gè)好的工具來(lái)做數(shù)據(jù)挖掘,不能從數(shù)據(jù)當(dāng)中發(fā)揮價(jià)值,妨礙大家去應(yīng)用這種新的技術(shù)。我們的目標(biāo)是希望提供一個(gè)非常易用的,但是非常強(qiáng)大的一個(gè)工具,讓大家能夠非常容易的發(fā)掘數(shù)據(jù)的價(jià)值。
綜合起來(lái)我們看到,在整個(gè)數(shù)據(jù)倉(cāng)庫(kù)建設(shè)當(dāng)中,我們可以借助新的平臺(tái),就可以把原來(lái)的架構(gòu)重新設(shè)計(jì)一下,整個(gè)數(shù)據(jù)源通過(guò)實(shí)時(shí)和半實(shí)時(shí)的方式,可以進(jìn)入一個(gè)邏輯數(shù)據(jù)倉(cāng)庫(kù),甚至可以跨多個(gè)數(shù)據(jù)源進(jìn)行訪問(wèn)。同時(shí)底下是容器化的平臺(tái)來(lái)對(duì)外提供數(shù)據(jù)的隔離和訪問(wèn)控制。
我再介紹一下工信部電信研究院最近在做的性能測(cè)試,這個(gè)其實(shí)是結(jié)合了國(guó)內(nèi)20多家大數(shù)據(jù)的企業(yè)共同制定的一個(gè)標(biāo)準(zhǔn),是比較公平客觀的標(biāo)準(zhǔn),也是能反映大數(shù)據(jù)的行業(yè)應(yīng)用的一些需求的特點(diǎn),同時(shí)包括今天上午我們也給其他大數(shù)據(jù)廠商做了一個(gè)證書(shū)的頒發(fā),我們希望有更多的廠商能夠參與到這個(gè)測(cè)試當(dāng)中,也給客戶提供一個(gè)客觀公正的標(biāo)準(zhǔn)。
我今天的演講就到這里,謝謝大家!
網(wǎng)站題目:星環(huán)信息孫元浩:Hadoop推動(dòng)現(xiàn)代數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的深刻變革
網(wǎng)頁(yè)網(wǎng)址:http://m.rwnh.cn/article42/soephc.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供移動(dòng)網(wǎng)站建設(shè)、微信公眾號(hào)、商城網(wǎng)站、網(wǎng)頁(yè)設(shè)計(jì)公司、Google、動(dòng)態(tài)網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)