2021-02-03 分類: 網(wǎng)站建設(shè)
數(shù)據(jù)科學(xué)是一種將業(yè)務(wù)數(shù)據(jù)轉(zhuǎn)換為資產(chǎn)的方法,可幫助組織提高收入、降低成本、抓住商機(jī)、改善客戶體驗等。
數(shù)據(jù)科學(xué)定義
數(shù)據(jù)科學(xué)是一種使用從統(tǒng)計分析到機(jī)器學(xué)習(xí)的方法從結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中收集洞察力的方法。對于大多數(shù)組織而言,數(shù)據(jù)科學(xué)被用于將數(shù)據(jù)轉(zhuǎn)化為價值,其形式是改善收入,降低成本,提高業(yè)務(wù)靈活性,改善客戶體驗,開發(fā)新產(chǎn)品等。
RiskIQ公司首席數(shù)據(jù)科學(xué)家Adam Hunt說,“如果愿意,企業(yè)可以獲取的數(shù)據(jù)量是巨大的,但是如果沒有做任何事情,把它變成有趣的東西,它有什么用呢?數(shù)據(jù)科學(xué)是關(guān)于提供這些數(shù)據(jù)的目的。”
數(shù)據(jù)科學(xué)與分析
雖然數(shù)據(jù)分析是緊密相關(guān)的,但它是數(shù)據(jù)科學(xué)的一個組成部分,用于了解組織的數(shù)據(jù)是什么樣子的。數(shù)據(jù)科學(xué)利用分析的輸出來解決問題。
Hunt說,“數(shù)據(jù)科學(xué)正在得出推動數(shù)據(jù)向前發(fā)展的結(jié)論。如果不是采用數(shù)據(jù)解決問題,如果只是在做調(diào)查,那就是分析。如果真的要用結(jié)果來解釋某些事情,就要從分析到科學(xué)。數(shù)據(jù)科學(xué)與實際解決問題的關(guān)系比觀察、檢查、繪制數(shù)據(jù)更大?!?/p>
對于Looker公司首席數(shù)據(jù)科學(xué)家Hillary Green-Lerman來說,數(shù)據(jù)分析和數(shù)據(jù)科學(xué)之間的區(qū)別在于時間尺度。她表示,數(shù)據(jù)分析描述了當(dāng)前的現(xiàn)實狀況。數(shù)據(jù)科學(xué)使用該數(shù)據(jù)來預(yù)測或了解未來。
Green-Lerman說,“許多人認(rèn)為數(shù)據(jù)分析師只是初級數(shù)據(jù)科學(xué)家;有人希望在他們長大后成為數(shù)據(jù)科學(xué)家。有時這是真的,但實際上我發(fā)現(xiàn)一個非常優(yōu)秀的分析師擁有與數(shù)據(jù)科學(xué)家不同的技能?!?/p>
數(shù)據(jù)科學(xué)與大數(shù)據(jù)
數(shù)據(jù)科學(xué)和大數(shù)據(jù)通常是一致的,但數(shù)據(jù)科學(xué)可以用來從各種規(guī)模的數(shù)據(jù)中提取價值,無論是結(jié)構(gòu)化的、非結(jié)構(gòu)化的還是半結(jié)構(gòu)化的。當(dāng)然,在許多情況下,大數(shù)據(jù)對數(shù)據(jù)科學(xué)家很有用,因為企業(yè)擁有的數(shù)據(jù)越多,在給定模型中可以包含的參數(shù)就越多。
Hunt說,“有了大數(shù)據(jù),企業(yè)就不必受制于小數(shù)據(jù)的維數(shù)限制。大數(shù)據(jù)在某些方面確實有幫助,但更多并不總是更好。如果把股票市場放在合適的位置,它就不會起作用?!?/p>
數(shù)據(jù)科學(xué)的商業(yè)價值
數(shù)據(jù)科學(xué)的商業(yè)價值取決于組織需求。數(shù)據(jù)科學(xué)可以幫助組織構(gòu)建工具來預(yù)測硬件故障,允許組織執(zhí)行維護(hù),并防止意外停機(jī)。它可以幫助預(yù)測超市貨架上的內(nèi)容,或者根據(jù)產(chǎn)品的屬性預(yù)測產(chǎn)品的流行程度。
MapR科技公司首席應(yīng)用架構(gòu)師Ted Dunning說,“數(shù)據(jù)科學(xué)團(tuán)隊可以擁有的大價值在于他們與業(yè)務(wù)團(tuán)隊融為一體。幾乎按照定義,尋求新奇的人員,真正創(chuàng)新的人員,將會發(fā)現(xiàn)價值或泄漏的價值,而不是人們所預(yù)期的。通常他們會讓業(yè)務(wù)人員帶來驚喜。價值并不是人們最初認(rèn)為的那樣?!?/p>
數(shù)據(jù)科學(xué)團(tuán)隊
數(shù)據(jù)科學(xué)通常是一門團(tuán)隊科學(xué)。數(shù)據(jù)科學(xué)家是大多數(shù)數(shù)據(jù)科學(xué)團(tuán)隊的前瞻性核心,但從數(shù)據(jù)轉(zhuǎn)向分析,然后將分析轉(zhuǎn)化為生產(chǎn)價值需要一系列技能和角色。例如,數(shù)據(jù)分析師應(yīng)該在將數(shù)據(jù)呈現(xiàn)給團(tuán)隊,并在維護(hù)數(shù)據(jù)模型之前對其進(jìn)行調(diào)查。數(shù)據(jù)工程師必須構(gòu)建數(shù)據(jù)管道以豐富數(shù)據(jù)集,并使數(shù)據(jù)可供公司其他人使用。
eBates公司分析副總裁Mark Stange-Tregear警告不要尋求數(shù)據(jù)科學(xué)“獨角獸”,也就是將非線性思維與高級數(shù)學(xué)和統(tǒng)計知識以及編碼能力相結(jié)合的人員。
Stange-Tregear解釋說,“我不認(rèn)為數(shù)據(jù)工程是關(guān)鍵的數(shù)據(jù)科學(xué)家特征,我希望有人真正添加其他內(nèi)容。如果我可以讓某人建立模型,能夠評估統(tǒng)計數(shù)據(jù),并將該模型的好處傳達(dá)給業(yè)務(wù)部門,那么我就可以雇傭足夠成熟的數(shù)據(jù)工程師來采用該模型并實現(xiàn)它?!?/p>
數(shù)據(jù)科學(xué)的嵌入式方法
一些組織選擇將數(shù)據(jù)科學(xué)家與其他功能混合在一起。例如,Mapr公司的Dunning建議遵循數(shù)據(jù)操作方法,將數(shù)據(jù)科學(xué)家嵌入到具有業(yè)務(wù)線職責(zé)的DevOps團(tuán)隊中。這些數(shù)據(jù)運(yùn)營團(tuán)隊往往是跨職能的和技能的,如運(yùn)營、軟件工程、架構(gòu)和產(chǎn)品管理,并且可以從頭到尾協(xié)調(diào)數(shù)據(jù)、工具、代碼和環(huán)境。數(shù)據(jù)運(yùn)營團(tuán)隊傾向于將分析管道視為類似于生產(chǎn)線。
Dunning說,“孤立的數(shù)據(jù)科學(xué)團(tuán)隊可能希望部署最復(fù)雜的模型,嵌入式數(shù)據(jù)科學(xué)家將尋找可維護(hù)的廉價勝利。他們對于選擇的解決方案是務(wù)實的。”
數(shù)據(jù)科學(xué)目標(biāo)和可交付成果
數(shù)據(jù)科學(xué)的目標(biāo)是構(gòu)建從數(shù)據(jù)中提取以業(yè)務(wù)為中心的見解的方法。這需要理解價值和信息在企業(yè)中是如何流動的,并能夠利用這種理解來識別業(yè)務(wù)機(jī)會。雖然這可能涉及一次性項目,但更典型的是,數(shù)據(jù)科學(xué)團(tuán)隊尋求識別關(guān)鍵數(shù)據(jù)資產(chǎn),這些資產(chǎn)可以轉(zhuǎn)化為數(shù)據(jù)管道,為可維護(hù)工具和解決方案提供支持。例如,銀行使用的信用卡欺詐監(jiān)控解決方案,或用于優(yōu)化風(fēng)電場中風(fēng)力發(fā)電機(jī)布置的工具。
逐漸地,傳達(dá)團(tuán)隊所做工作的演示文稿也是重要的可交付成果。Riskq公司的Hunt說,“確保他們將結(jié)果傳達(dá)給公司的其他人是非常重要的,當(dāng)數(shù)據(jù)科學(xué)團(tuán)隊長時間陷入困境時,它開始陷入困境。產(chǎn)品經(jīng)理認(rèn)為工作是理所當(dāng)然的,除非我們一直在談?wù)摵完P(guān)注它?!?/p>
數(shù)據(jù)科學(xué)過程和方法
生產(chǎn)工程團(tuán)隊在Sprint周期中工作,并且有計劃的時間表。Hunt表示,數(shù)據(jù)科學(xué)團(tuán)隊通常很難做到這一點,因為可以提前花很多時間來確定一個項目是否可行。
Hunt說,“很多時候,第一周甚至第一個月都是研究、收集、清理數(shù)據(jù)。我們能回答這個問題嗎?我們能有效地做到嗎?我們花費(fèi)了大量的時間進(jìn)行設(shè)計和調(diào)查,遠(yuǎn)遠(yuǎn)超過了標(biāo)準(zhǔn)工程團(tuán)隊的表現(xiàn)?!?/p>
對于Hunt來說,數(shù)據(jù)科學(xué)應(yīng)該遵循科學(xué)方法,盡管他指出并非總是如此,甚至不可行。
Hunt說,“企業(yè)試圖從數(shù)據(jù)中提取一些洞察力。為了反復(fù)和自信地做到這一點,必須使用科學(xué)方法準(zhǔn)確地證明其假設(shè)。但我不認(rèn)為許多數(shù)據(jù)科學(xué)家真正使用任何科學(xué)。”
Hunt說,真正的科學(xué)需要時間。企業(yè)花費(fèi)時間確認(rèn)其假設(shè),然后花費(fèi)很多時間試圖反駁自己。
Hunt說,“通過數(shù)據(jù)科學(xué),企業(yè)需要深入研究數(shù)據(jù)來驗證這些假設(shè)。我們試圖回答的很多問題都是短暫的。例如,在安全方面試圖找到解決威脅的辦法?!?/p>
他表示,因此,數(shù)據(jù)科學(xué)通常意味著采用“足夠好”的答案,而不是好答案。然而,危險是結(jié)果可能成為確認(rèn)偏見或過度擬合的犧牲品。
他說,“如果這不是真正的科學(xué),也就是說企業(yè)用科學(xué)的方法來證實一個假設(shè),那么所做的就是向一些算法采用數(shù)據(jù)來證實自己的假設(shè)?!?/p>
數(shù)據(jù)科學(xué)工具
數(shù)據(jù)科學(xué)團(tuán)隊使用各種工具,包括SQL、Python、R、Java以及Hive、oozie和TensorFlow等開源項目。這些工具用于各種與數(shù)據(jù)相關(guān)的任務(wù),從提取和清理數(shù)據(jù)到通過統(tǒng)計方法或機(jī)器學(xué)習(xí)對數(shù)據(jù)進(jìn)行算法分析。
通過統(tǒng)計方法或機(jī)器學(xué)習(xí)進(jìn)行算法分析。
“企業(yè)需要良好的可視化工具。在這一點上,編程工具Python是最受歡迎的。企業(yè)需要能夠構(gòu)建有趣模型的工具?!盡apR公司Dunning說。
Dunning說,當(dāng)MapR公司調(diào)查其客戶數(shù)據(jù)團(tuán)隊時,團(tuán)隊使用的最少數(shù)量的建模工具是5個,而且甚至沒有進(jìn)入可視化工具。
“事情變得越來越多,因為人們更加懷疑。這種其他建模技術(shù)會產(chǎn)生更好的模型嗎?”Dunning說。
數(shù)據(jù)科學(xué)家的薪酬
根據(jù)PayScale公司的數(shù)據(jù),以下是一些與數(shù)據(jù)科學(xué)相關(guān)的最受歡迎的職位和每個職位的平均薪酬:
數(shù)據(jù)科學(xué)技能
雖然數(shù)據(jù)科學(xué)學(xué)位課程的數(shù)量正在迅速增加,但它們并不一定是組織在尋找數(shù)據(jù)科學(xué)家時所尋求的。eBates公司Stange-Tregear表示,他尋找具有統(tǒng)計背景的候選人,因此他們知道是否在看實際結(jié)果,將結(jié)果置于場景中的領(lǐng)域知識;以及使他們能夠向業(yè)務(wù)用戶傳達(dá)結(jié)果的溝通技巧。
“如果我有一位可以完成所有這些工作的數(shù)據(jù)科學(xué)家,那么我會擔(dān)心通過數(shù)據(jù)工程團(tuán)隊實現(xiàn)這一點?!彼f。
RiskIQ公司的Hunt表示,對擁有博士學(xué)位的應(yīng)聘者很感興趣。Hunt說,“我偏向招聘于擁有博士學(xué)位的人,但我不會放棄那些具有豐富經(jīng)驗的人才。博士能夠?qū)σ粋€主題進(jìn)行非常深入的研究,并且能夠?qū)⑦@些信息傳播給其他人。但是,擁有扎實的背景或個人項目是非常有趣的?!?/p>
Hunt說,他特別尋找物理、數(shù)學(xué)、計算機(jī)科學(xué)、經(jīng)濟(jì)學(xué)甚至社會科學(xué)的博士學(xué)位的人才。他不會對擁有數(shù)據(jù)科學(xué)或分析學(xué)位的應(yīng)聘者另眼相看,但他確實對招聘這些人有所保留。他說,“我的個人經(jīng)歷是,我發(fā)現(xiàn)它們非常有用,但他們過于關(guān)注模型的操作,而不是思維方式?!?/p>
MapR公司的Dunning更關(guān)心申請人的個人能力,而不是展示新事物的能力。他說,“我在招聘數(shù)據(jù)科學(xué)家時首先想到的內(nèi)容是:受訪者是否能教會我一些東西?我不想找到指導(dǎo)我怎么做的人,我非常想找到那些可以做我不能做的事情的人才,或者可以教會團(tuán)隊的人才?!?/p>
Dunning指出,一些優(yōu)秀的數(shù)據(jù)科學(xué)家或數(shù)據(jù)科學(xué)領(lǐng)域的領(lǐng)導(dǎo)者都具有非傳統(tǒng)背景,并指出,他與之合作過的最好的人員包括曾經(jīng)做了6年園丁的人,具有美術(shù)背景的人,有的甚至擁有法國文學(xué)學(xué)位,還有一位沒有接受計算機(jī)培訓(xùn)的新聞系學(xué)生。
Dunning說:“想用數(shù)據(jù)感知來測試人們,而不是用公式。希望有能力看到事物并理解它們?!?/p>
數(shù)據(jù)科學(xué)培訓(xùn)
鑒于目前缺乏數(shù)據(jù)科學(xué)人才,許多組織正在制定計劃,以培養(yǎng)內(nèi)部數(shù)據(jù)科學(xué)人才。而培訓(xùn)是另一條快速增長的途徑,培訓(xùn)工作人員承擔(dān)數(shù)據(jù)科學(xué)家的角色。
數(shù)據(jù)科學(xué)學(xué)位
根據(jù)美國新聞和世界報道,這些是數(shù)據(jù)科學(xué)領(lǐng)域的頂級研究生學(xué)位課程:
數(shù)據(jù)科學(xué)認(rèn)證
組織需要在數(shù)據(jù)分析技術(shù)方面有專長的數(shù)據(jù)科學(xué)家和分析師。他們還需要大數(shù)據(jù)架構(gòu)師將需求轉(zhuǎn)化為系統(tǒng),需要數(shù)據(jù)工程師構(gòu)建和維護(hù)數(shù)據(jù)管道,需要了解Hadoop集群和其他技術(shù)的開發(fā)人員,還需要系統(tǒng)管理員和管理人員將一切聯(lián)系在一起。認(rèn)證是候選人展示他們擁有正確技能的一種方式。
一些頂級大數(shù)據(jù)和數(shù)據(jù)分析認(rèn)證包括:
本文名稱:什么是數(shù)據(jù)科學(xué)?將數(shù)據(jù)轉(zhuǎn)化為價值
分享地址:http://m.rwnh.cn/news4/98854.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供Google、網(wǎng)頁設(shè)計公司、網(wǎng)站導(dǎo)航、全網(wǎng)營銷推廣、App開發(fā)、建站公司
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容