互聯(lián)網(wǎng)IDC圈4月27日報道,互聯(lián)網(wǎng)的發(fā)展使得大數(shù)據(jù)引起人們廣泛關(guān)注?,F(xiàn)如今大數(shù)據(jù)技術(shù)早已滲透到金融、通訊等行業(yè)以及生物學(xué)、物理學(xué)等領(lǐng)域。大數(shù)據(jù)在容量、多樣性和高增速方面的爆炸式增長全面考驗著現(xiàn)代企業(yè)的數(shù)據(jù)處理和分析能力,與此同時也為各個行業(yè)帶來了準確洞察市場行為的機會。迄今為止大數(shù)據(jù)技術(shù)與產(chǎn)品有哪些創(chuàng)新,工業(yè)大數(shù)據(jù)應(yīng)用面臨哪些挑戰(zhàn),金融行業(yè)大數(shù)據(jù)應(yīng)用現(xiàn)狀如何等。圍繞這一系列問題,4月27日至28日,由工業(yè)和信息化部指導(dǎo)、中國信息通信研究院主辦的"2016大數(shù)據(jù)產(chǎn)業(yè)峰會"在北京國際會議中心盛大召開。
成都創(chuàng)新互聯(lián)從2013年創(chuàng)立,先為紫云等服務(wù)建站,紫云等地企業(yè),進行企業(yè)商務(wù)咨詢服務(wù)。為紫云企業(yè)網(wǎng)站制作PC+手機+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問題。在27日下午的“大數(shù)據(jù)技術(shù)與產(chǎn)品創(chuàng)新”論壇中,北京明略軟件系統(tǒng)有限公司聯(lián)合創(chuàng)始人兼CTO馮是聰博士分享了明略大數(shù)據(jù)安全平臺核心技術(shù)。
明略數(shù)據(jù)聯(lián)合創(chuàng)始人兼CTO 馮是聰
以下是馮是聰博士演講實錄:
馮是聰:
首先感謝數(shù)據(jù)中心聯(lián)盟給我們提供這個機會,讓我們分享我們的大數(shù)據(jù)平臺。我們與數(shù)據(jù)中心聯(lián)盟合作可以說是十分密切,就在今日上午我們在數(shù)據(jù)中心聯(lián)盟也通過了評測并一同簽署了數(shù)據(jù)聲明。
作為明略數(shù)據(jù)CTO我分享的內(nèi)容更偏技術(shù)一些,首先向各位嘉賓介紹一下明略:我們公司是一家專注于關(guān)系挖掘的大數(shù)據(jù)解決方案提供商。其中有兩個關(guān)鍵詞,一個是關(guān)系挖掘。大家知道,自然界的關(guān)系都是由點和邊組成的,在座的每一個人都是一個點,人與人之間的關(guān)系就是一個邊,在任何領(lǐng)域都有關(guān)系挖掘。另外,我們提供解決方案,我們不僅提供產(chǎn)品,我們還會根據(jù)客戶業(yè)務(wù)問題,有針對性的提供解決方案,在這過程中,明略也會派我們的駐場數(shù)據(jù)科學(xué)家為客戶現(xiàn)場答疑解惑,我們在提供解決方案的同時,也提供駐場數(shù)據(jù)科學(xué)家服務(wù),這也是我們跟很多廠商大的區(qū)別。
明略成立于2014年初,在這兩年的發(fā)展中,我們不斷的積累大數(shù)據(jù)方面的經(jīng)驗,并先后自主研發(fā)了4款產(chǎn)品,分別是大數(shù)據(jù)安全平臺MDP,圍繞數(shù)據(jù)關(guān)聯(lián)關(guān)系挖掘產(chǎn)品SCOPA和分布式數(shù)據(jù)挖掘系統(tǒng)DataInsight,以及面向大數(shù)據(jù)的BI產(chǎn)品Discovery.很多客戶找到我們,我們會根據(jù)客戶的業(yè)務(wù)特點,給他定制化地提供一個解決方案。這個解決方案可能會涉及到我們這4款產(chǎn)品,我們這里跟很多廠商大的區(qū)別是,我們是深入業(yè)務(wù),幫助客戶解決實際業(yè)務(wù)問題,而不僅僅是把產(chǎn)品售賣給客戶。
因時間關(guān)系,我就先簡單介紹一下我們大數(shù)據(jù)安全平臺MDP最核心的五個特性。
首先是關(guān)于MDP平臺架構(gòu)的概述,MDP平臺架構(gòu)共分為四層,淺藍色的是開源社區(qū)的部分。深顏色的是我們自己開發(fā)的,在自己開發(fā)的過程當(dāng)中可以看到我們有幾個特點,我們這里有一個可視化運維。如果您有機群是幾萬臺或者是幾百臺機器搭成的,假如沒有一個很強的運維平臺,那么您將會面臨很大問題,嚴重的話很有可能導(dǎo)致無法繼續(xù)運營。其次,MDP做到了很好的安全性,我們這幾年服務(wù)的客戶基本上都是中大型客戶,每一個大型的客戶數(shù)據(jù)安全是非常重要的,我后面會詳細介紹。我們做了全員控制,還有數(shù)據(jù)運維,這里面有各種各樣的特點,因為時間的關(guān)系我就不一一介紹了。
明略MDP特性之安全性
我們認為做大數(shù)據(jù)首先一定要解決安全問題,因為大數(shù)據(jù)不像別的數(shù)據(jù),它大的一個特點是把分散在各個信息孤島的數(shù)據(jù)聚集起來,統(tǒng)一管理。在過去數(shù)據(jù)丟失的時候,可能僅會影響公司的一個部門,但是當(dāng)我們把數(shù)據(jù)全部集成在一起時,一旦丟失,所有的數(shù)據(jù)都可能丟失。尤其是公安等特殊領(lǐng)域,對數(shù)據(jù)的安全性要求是第一位的,如果安全性不過關(guān),肯定是不能用的,我們這邊毫不謙虛的說,我們達到了軍工級的要求。我們的MDP產(chǎn)品有一個完整的安全架構(gòu)體系,比如身份認證,加密解密,數(shù)據(jù)訪問和審計,等等。這個體系有很多的特點,因為時間的關(guān)系我只介紹三個特點。
大家都知道大數(shù)據(jù)平臺基本上都來源于開源社區(qū)。在開源社區(qū)版中,系統(tǒng)管理員和上層應(yīng)用之間的權(quán)限管理沒有分開,是合在一起的。如果是運維管理員的話,完全可以看到平臺上各種應(yīng)用的數(shù)據(jù),這其實在很多條件下是非常不安全的。舉一個簡單的例子,假設(shè)我是一個公安局局長,公安局的所有數(shù)據(jù)都放在大數(shù)據(jù)平臺上,那么運維管理員就可以知道局長、甚至部長的所有數(shù)據(jù),其實這是非常不安全的。我們第一個做的事情就是把這個權(quán)限分離了,運維人員只能運維這個機器,不能看到上層應(yīng)用的數(shù)據(jù)。我們因為這個數(shù)據(jù)分開了,即使我們的開發(fā)人員,他也不能看到不該看的數(shù)據(jù),這樣也能保證開發(fā)人員在現(xiàn)場實施的過程中看不到所有的數(shù)據(jù),從而保障了數(shù)據(jù)的安全性。
我們在做查詢引擎時,遇到的問題就是客戶需要進行行與列同時的訪問控制,但目前很多引擎也只能做到按列訪問。為更好地解決客戶的這個問題,我們研究出了行和列同時訪問的引擎,并申請了三個專利,我們這也是全球第一家可以做出來的行和列同時訪問的大數(shù)據(jù)企業(yè)。就是你如果在訪問一個數(shù)據(jù)的時候,我們自動地加上行訪問的控制,我們把查詢引擎改掉了。在開發(fā)人員,不知道需要知道背后的權(quán)限管理是什么樣的。比如說一個機構(gòu)很大,幾萬人,可以自動通過LDAP加入權(quán)限管理。這樣,不管是銀行普通的辦事人員還是行長,還是總行的人,每一次數(shù)據(jù)訪問,都可以做到行和列的同時控制。
對于大數(shù)據(jù)我們做了一個安全的審計,對于任何一個數(shù)據(jù),只要做了增加、刪除、修改操作,甚至是訪問,我們都可以記住日志。數(shù)據(jù)一旦出現(xiàn)問題,我們可以做非常方便地審計。這里面可以看到,我們在數(shù)據(jù)審計,包括文件系統(tǒng),包括所有的部署運維,比如啟動一個服務(wù),停掉一個服務(wù),增加一條信息,刪除一條信息,上面跑的硬件、軟件、數(shù)據(jù)、服務(wù),這四個方面我們?nèi)慷甲隽巳罩?,都可以隨時審計。就是你只要做了任何一個操作,一旦做過,一定會留下痕跡,很多要求苛刻的客戶都非常愿意購買這個特性。
明略MDP特性之高可用性
軟件現(xiàn)在分為兩類,一類是運營商級別的軟件,一類是非運營商級別。運營商對于高可用性是非??量痰模驗樗竽?×24小時,我任何時候訪問這個系統(tǒng)不會有任何問題。比如一個1集群有100個節(jié)點,其中有一個節(jié)點因為故障斷掉了,過一段時間把那個節(jié)點的故障排除了,重新啟動,上面跑的服務(wù)都可以自動恢復(fù),數(shù)據(jù)也都可以保持一致,這個要求是非常苛刻的。大家知道,在開源社區(qū)里面有比較常見的一些服務(wù),比如說Hbase、Hive等等都已經(jīng)做了高可用性。但是對于右邊的這些服務(wù)基本上都沒有,比如Impala、Kerberos、LDAP、Flume等等,這個里面就面臨一個很常見的場景,就是如果發(fā)現(xiàn)100個節(jié)點的集群里面,其中2個節(jié)點停掉了,不能因為2個節(jié)點影響到整個機群的服務(wù)。還有,比如把這個機器下面的網(wǎng)線拔掉,過一會兒再插上去,能保證插上去之后,數(shù)據(jù)能夠自動恢復(fù)。還有一個就是對于硬盤,如果這個硬盤壞掉了,操作系統(tǒng)一定會收到這個故障信號。但是運營商測我們系統(tǒng)的時候是怎么測的呢?他就在硬盤正常運轉(zhuǎn)的時候把硬盤拔掉,這個時候操作系統(tǒng)是沒有收到故障信號的,過一會兒再插上去。還要求硬盤上的數(shù)據(jù)還是一致的,這些非常嚴苛的要求都是高可用性。除了常見的Hive、Hbase,我們把自己做的各種服務(wù),全部都做了高可用性,從而保證我們的服務(wù)是高可用的。
我們在做服務(wù)調(diào)度的時候,我們用了一個Everything On Yarn的特性,任何一個用戶使用一個服務(wù)的時候,他可能調(diào)動了很多的服務(wù),可能把所有的資源都消耗掉,這個時候就非常危險,會導(dǎo)致后起的服務(wù)因為分配不到資源而被餓死。我們這樣做了以后,就可以保證其中任何一個服務(wù)都可以通過這個來調(diào)度資源,就會保證一個太重服務(wù)不把其他的服務(wù)給餓死了。
明略MDP特性之易用性
我們所有的運維都是不需要任何腳本,也不需要任何代碼。還有我們有一個模塊是Dataone,這個跟我們剛才講的那個運維平臺NoahArk差不多,非常類似,都是可視化的。我們所有的數(shù)據(jù)遷移都是模板化、向?qū)Щ?,你只需不停地點下一步就可以了,所有的數(shù)據(jù)遷移就可以完成了。
明略MDP特性之開放性
我們所有的組件都可以修改,所有的開源組件都是來自于開源社區(qū),這就保證了客戶不會被某一個廠家綁定,隨時可以自主地升級系統(tǒng),自主地添加組件,這樣就是一個開放性,我們不是一個閉環(huán)的產(chǎn)品。
明略MDP特性之高性能
高性能是我們非常自豪的,我們當(dāng)時有一個客戶,他當(dāng)時說有5千億的話單,要求在秒級查出來,他考察了很多廠商,最后是我們給他解決掉了。大家可以隨便估算一下,這5千億條的記錄,秒級響應(yīng)得,需要什么樣的技術(shù),當(dāng)然只有懂技術(shù)的才知道這個難度。
因為時間的關(guān)系,大概給大家簡單介紹了一下我們MDP高性能、高可用、高安全、易用性、開放性等特性,謝謝大家!
當(dāng)前題目:明略數(shù)據(jù)馮是聰:明略大數(shù)據(jù)安全平臺核心技術(shù)分享
文章網(wǎng)址:http://m.rwnh.cn/article32/sosssc.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供自適應(yīng)網(wǎng)站、網(wǎng)站排名、App開發(fā)、動態(tài)網(wǎng)站、關(guān)鍵詞優(yōu)化、云服務(wù)器
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)