2021-02-01 分類: 網(wǎng)站建設(shè)
大數(shù)據(jù)作為2019年比較熱門的技術(shù),受到越來越多的關(guān)注,那么對于一個想進入大數(shù)據(jù)的朋友來說,最想知道的是:大數(shù)據(jù)學(xué)什么?今天科多大數(shù)據(jù)就和你們一起來分享一篇關(guān)于大數(shù)據(jù)學(xué)習(xí)內(nèi)容體系介紹的文章。(資料在尾部)
大數(shù)據(jù)技術(shù)體系太龐雜了,基礎(chǔ)技術(shù)覆蓋數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、分布式存儲、NOSQL數(shù)據(jù)庫、多模式計算(批處理、在線處理、實時流處理、內(nèi)存處理)、多模態(tài)計算(圖像、文本、視頻、音頻)、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、機器學(xué)習(xí)、人工智能、深度學(xué)習(xí)、并行計算、可視化等各種技術(shù)范疇和不同的層面。另外大數(shù)據(jù)應(yīng)用領(lǐng)域廣泛,各領(lǐng)域采用技術(shù)的差異性還是比較大的。短時間很難掌握多個領(lǐng)域的大數(shù)據(jù)理論和技術(shù),建議從應(yīng)用切入、以點帶面,先從一個實際的應(yīng)用領(lǐng)域需求,搞定一個一個技術(shù)點,有一定功底之后,再舉一反三橫向擴展,這樣學(xué)習(xí)效果就會好很多。大數(shù)據(jù)技術(shù)初探
從前幾年到現(xiàn)在所謂的大數(shù)據(jù)時代,移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算、人工智能、機器人、大數(shù)據(jù)等前沿信息技術(shù)領(lǐng)域,逐個火了一遍,什么是大數(shù)據(jù),大數(shù)據(jù)的技術(shù)范疇包括那些,估計很多人都是根據(jù)自己所熟悉的領(lǐng)域在盲人摸象。
下文從DT(Data technology,數(shù)據(jù)技術(shù))技術(shù)泛型角度來系統(tǒng)地介紹什么是大數(shù)據(jù),包括那些核心技術(shù),各領(lǐng)域之間的關(guān)系等等:
首先我們說機器學(xué)習(xí),機器學(xué)習(xí)(machine learning),是計算機科學(xué)和統(tǒng)計學(xué)的交叉學(xué)科,核心目標(biāo)是通過函數(shù)映射、數(shù)據(jù)訓(xùn)練、最優(yōu)化求解、模型評估等一系列算法實現(xiàn),讓計算機擁有對數(shù)據(jù)進行自動分類和預(yù)測的功能;機器學(xué)習(xí)領(lǐng)域包括很多智能處理算法,分類、聚類、回歸、相關(guān)分析等每類下面都有很多算法進行支撐,如SVM,神經(jīng)網(wǎng)絡(luò),Logistic回歸,決策樹、EM、HMM、貝葉斯網(wǎng)絡(luò)、隨機森林、LDA等,無論是網(wǎng)絡(luò)排名的十大算法還是二十大算法,都只能說是冰山一角;總之計算機要智能化,機器學(xué)習(xí)是核心的核心,深度學(xué)習(xí)、數(shù)據(jù)挖掘、商業(yè)智能、人工智能,大數(shù)據(jù)等概念的核心技術(shù)就是機器學(xué)習(xí),機器學(xué)習(xí)用于圖像處理和識別就是機器視覺,機器學(xué)習(xí)用于模擬人類語言就是自然語言處理,機器視覺和自然語言處理也是支撐人工智能的核心技術(shù),機器學(xué)習(xí)用于通用的數(shù)據(jù)分析就是數(shù)據(jù)挖掘,數(shù)據(jù)挖掘也是商業(yè)智能的核心技術(shù)。
深度學(xué)習(xí)(deep learning),機器學(xué)習(xí)里面現(xiàn)在比較火的一個子領(lǐng)域,深度學(xué)習(xí)是已經(jīng)被研究過幾十年的神經(jīng)網(wǎng)絡(luò)算法的變種,由于在大數(shù)據(jù)條件下圖像,語音識別等領(lǐng)域的分類和識別上取得了非常好的效果,有望成為人工智能取得突破的核心技術(shù),所以各大研究機構(gòu)和IT巨頭們都投入了大量的人力物力做相關(guān)的研究和開發(fā)工作。
數(shù)據(jù)挖掘(data mining),是一個很寬泛的概念,類似于采礦,要從大量石頭里面挖出很少的寶石,從海量數(shù)據(jù)里面挖掘有價值有規(guī)律的信息同理。數(shù)據(jù)挖掘核心技術(shù)來自于機器學(xué)習(xí)領(lǐng)域,如深度學(xué)習(xí)是機器學(xué)習(xí)一種比較火的算法,當(dāng)然也可以用于數(shù)據(jù)挖掘。還有傳統(tǒng)的商業(yè)智能(BI)領(lǐng)域也包括數(shù)據(jù)挖掘,OLAP多維數(shù)據(jù)分析可以做挖掘分析,甚至Excel基本的統(tǒng)計分析也可以做挖掘。關(guān)鍵是你的技術(shù)能否真正挖掘出有用的信息,然后這些信息可以提升指導(dǎo)你的決策,如果是那就算入了數(shù)據(jù)挖掘的門。
人工智能(artifical intelligence),也是一個很大的概念,終極目標(biāo)是機器智能化擬人化,機器能完成和人一樣的工作,人腦僅憑幾十瓦的功率,能夠處理種種復(fù)雜的問題,怎樣看都是很神奇的事情。雖然機器的計算能力比人類強很多,但人類的理解能力,感性的推斷,記憶和幻想,心理學(xué)等方面的功能,機器是難以比肩的,所以機器要擬人化很難單從技術(shù)角度把人工智能講清楚。人工智能與機器學(xué)習(xí)的關(guān)系,兩者的相當(dāng)一部分技術(shù)、算法都是重合的,深度學(xué)習(xí)在計算機視覺和qipai走步等領(lǐng)域取得了巨大的成功,比如谷歌自動識別一只貓,最近谷歌的AlpaGo還擊敗了人類頂級的專業(yè)圍棋手等。但深度學(xué)習(xí)在現(xiàn)階段還不能實現(xiàn)類腦計算,最多達到仿生層面,情感,記憶,認知,經(jīng)驗等人類獨有能力機器在短期難以達到。
最后我們才說大數(shù)據(jù)(big data),大數(shù)據(jù)本質(zhì)是一種方法論,一句話概括,就是通過分析和挖掘全量海量的非抽樣數(shù)據(jù)進行輔助決策。上述技術(shù)原來是在小規(guī)模數(shù)據(jù)上進行計算處理,大數(shù)據(jù)時代呢,只是數(shù)據(jù)變大了,核心技術(shù)還是離不開機器學(xué)習(xí)、數(shù)據(jù)挖掘等,另外還需考慮海量數(shù)據(jù)的分布式存儲管理和機器學(xué)習(xí)算法并行處理等核心技術(shù)??傊髷?shù)據(jù)這個概念就是個大框,什么都能往里裝,大數(shù)據(jù)源的采集如果用傳感器的話離不開物聯(lián)網(wǎng)、大數(shù)據(jù)源的采集用智能手機的話離不開移動互聯(lián)網(wǎng),大數(shù)據(jù)海量數(shù)據(jù)存儲要高擴展就離不開云計算,大數(shù)據(jù)計算分析采用傳統(tǒng)的機器學(xué)習(xí)、數(shù)據(jù)挖掘技術(shù)會比較慢,需要做并行計算和分布式計算擴展,大數(shù)據(jù)要互動展示離不開可視化,大數(shù)據(jù)的基礎(chǔ)分析要不要跟傳統(tǒng)商業(yè)智能結(jié)合,金融大數(shù)據(jù)分析、交通大數(shù)據(jù)分析、醫(yī)療大數(shù)據(jù)分析、電信大數(shù)據(jù)分析、電商大數(shù)據(jù)分析、社交大數(shù)據(jù)分析,文本大數(shù)據(jù)、圖像大數(shù)據(jù)、視頻大數(shù)據(jù)…諸如此類等等范圍太廣…,總之大數(shù)據(jù)這個框太大,其終極目標(biāo)是利用上述一系列核心技術(shù)實現(xiàn)海量數(shù)據(jù)條件下的人類深度洞察和決策智能化!這不僅是信息技術(shù)的終極目標(biāo),也是人類社會發(fā)展管理智能化的核心技術(shù)驅(qū)動力。
數(shù)據(jù)分析師的能力體系
如下圖:
數(shù)學(xué)知識
數(shù)學(xué)知識是數(shù)據(jù)分析師的基礎(chǔ)知識。
對于初級數(shù)據(jù)分析師,了解一些描述統(tǒng)計相關(guān)的基礎(chǔ)內(nèi)容,有一定的公式計算能力即可,了解常用統(tǒng)計模型算法則是加分。
對于高級數(shù)據(jù)分析師,統(tǒng)計模型相關(guān)知識是必備能力,線性代數(shù)(主要是矩陣計算相關(guān)知識)最好也有一定的了解。
而對于數(shù)據(jù)挖掘工程師,除了統(tǒng)計學(xué)以外,各類算法也需要熟練使用,對數(shù)學(xué)的要求是高的。
分析工具
對于初級數(shù)據(jù)分析師,玩轉(zhuǎn)Excel是必須的,數(shù)據(jù)透視表和公式使用必須熟練,VBA是加分。另外,還要學(xué)會一個統(tǒng)計分析工具,SPSS作為入門是比較好的。
對于高級數(shù)據(jù)分析師,使用分析工具是核心能力,VBA基本必備,SPSS/SAS/R至少要熟練使用其中之一,其他分析工具(如Matlab)視情況而定。
對于數(shù)據(jù)挖掘工程師……嗯,會用用Excel就行了,主要工作要靠寫代碼來解決呢。
編程語言
對于初級數(shù)據(jù)分析師,會寫SQL查詢,有需要的話寫寫Hadoop和Hive查詢,基本就OK了。
對于高級數(shù)據(jù)分析師,除了SQL以外,學(xué)習(xí)Python是很有必要的,用來獲取和處理數(shù)據(jù)都是事半功倍。當(dāng)然其他編程語言也是可以的。
對于數(shù)據(jù)挖掘工程師,Hadoop得熟悉,Python/Java/C++至少得熟悉一門,Shell得會用……總之編程語言絕對是數(shù)據(jù)挖掘工程師的最核心能力了。
業(yè)務(wù)理解
業(yè)務(wù)理解說是數(shù)據(jù)分析師所有工作的基礎(chǔ)也不為過,數(shù)據(jù)的獲取方案、指標(biāo)的選取、乃至最終結(jié)論的洞察,都依賴于數(shù)據(jù)分析師對業(yè)務(wù)本身的理解。
對于初級數(shù)據(jù)分析師,主要工作是提取數(shù)據(jù)和做一些簡單圖表,以及少量的洞察結(jié)論,擁有對業(yè)務(wù)的基本了解就可以。
對于高級數(shù)據(jù)分析師,需要對業(yè)務(wù)有較為深入的了解,能夠基于數(shù)據(jù),提煉出有效觀點,對實際業(yè)務(wù)能有所幫助。
對于數(shù)據(jù)挖掘工程師,對業(yè)務(wù)有基本了解就可以,重點還是需要放在發(fā)揮自己的技術(shù)能力上。
邏輯思維
這項能力在我之前的文章中提的比較少,這次單獨拿出來說一下。
對于初級數(shù)據(jù)分析師,邏輯思維主要體現(xiàn)在數(shù)據(jù)分析過程中每一步都有目的性,知道自己需要用什么樣的手段,達到什么樣的目標(biāo)。
對于高級數(shù)據(jù)分析師,邏輯思維主要體現(xiàn)在搭建完整有效的分析框架,了解分析對象之間的關(guān)聯(lián)關(guān)系,清楚每一個指標(biāo)變化的前因后果,會給業(yè)務(wù)帶來的影響。
對于數(shù)據(jù)挖掘工程師,邏輯思維除了體現(xiàn)在和業(yè)務(wù)相關(guān)的分析工作上,還包括算法邏輯,程序邏輯等,所以對邏輯思維的要求也是高的。
數(shù)據(jù)可視化
數(shù)據(jù)可視化說起來很高大上,其實包括的范圍很廣,做個PPT里邊放上數(shù)據(jù)圖表也可以算是數(shù)據(jù)可視化,所以我認為這是一項普遍需要的能力。
對于初級數(shù)據(jù)分析師,能用Excel和PPT做出基本的圖表和報告,能清楚的展示數(shù)據(jù),就達到目標(biāo)了。
對于高級數(shù)據(jù)分析師,需要探尋更好的數(shù)據(jù)可視化方法,使用更有效的數(shù)據(jù)可視化工具,根據(jù)實際需求做出或簡單或復(fù)雜,但適合受眾觀看的數(shù)據(jù)可視化內(nèi)容。
對于數(shù)據(jù)挖掘工程師,了解一些數(shù)據(jù)可視化工具是有必要的,也要根據(jù)需求做一些復(fù)雜的可視化圖表,但通常不需要考慮太多美化的問題。
協(xié)調(diào)溝通
對于初級數(shù)據(jù)分析師,了解業(yè)務(wù)、尋找數(shù)據(jù)、講解報告,都需要和不同部門的人打交道,因此溝通能力很重要。
對于高級數(shù)據(jù)分析師,需要開始獨立帶項目,或者和產(chǎn)品做一些合作,因此除了溝通能力以外,還需要一些項目協(xié)調(diào)能力。
對于數(shù)據(jù)挖掘工程師,和人溝通技術(shù)方面內(nèi)容偏多,業(yè)務(wù)方面相對少一些,對溝通協(xié)調(diào)的要求也相對低一些。
快速學(xué)習(xí)
無論做數(shù)據(jù)分析的哪個方向,初級還是高級,都需要有快速學(xué)習(xí)的能力,學(xué)業(yè)務(wù)邏輯、學(xué)行業(yè)知識、學(xué)技術(shù)工具、學(xué)分析框架……數(shù)據(jù)分析領(lǐng)域中有學(xué)不完的內(nèi)容,需要大家有一顆時刻不忘學(xué)習(xí)的心。
數(shù)據(jù)分析師的工具體系
一圖說明問題
可以從圖上看到,Python在數(shù)據(jù)分析中的泛用性相當(dāng)之高,流程中的各個階段都可以使用Python。所以作為數(shù)據(jù)分析師的你如果需要學(xué)習(xí)一門編程語言,那么強力推薦Python~
Hadoop家族產(chǎn)品技術(shù)介紹:
Apache Hadoop: 是Apache開源組織的一個分布式計算開源框架,提供了一個分布式文件系統(tǒng)子項目(HDFS)和支持MapReduce分布式計算的軟件架構(gòu)。
Apache Hive: 是基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,通過類SQL語句快速實現(xiàn)簡單的MapReduce統(tǒng)計,不必開發(fā)專門的MapReduce應(yīng)用,十分適合數(shù)據(jù)倉庫的統(tǒng)計分析。
Apache Pig: 是一個基于Hadoop的大規(guī)模數(shù)據(jù)分析工具,它提供的SQL-LIKE語言叫Pig Latin,該語言的編譯器會把類SQL的數(shù)據(jù)分析請求轉(zhuǎn)換為一系列經(jīng)過優(yōu)化處理的MapReduce運算。
Apache HBase: 是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),利用HBase技術(shù)可在廉價PC Server上搭建起大規(guī)模結(jié)構(gòu)化存儲集群。
Apache Sqoop: 是一個用來將Hadoop和關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)相互轉(zhuǎn)移的工具,可以將一個關(guān)系型數(shù)據(jù)庫(MySQL ,Oracle ,Postgres等)中的數(shù)據(jù)導(dǎo)進到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)進到關(guān)系型數(shù)據(jù)庫中。
Apache Zookeeper: 是一個為分布式應(yīng)用所設(shè)計的分布的、開源的協(xié)調(diào)服務(wù),它主要是用來解決分布式應(yīng)用中經(jīng)常遇到的一些數(shù)據(jù)管理問題,簡化分布式應(yīng)用協(xié)調(diào)及其管理的難度,提供高性能的分布式服務(wù)
Apache Mahout:是基于Hadoop的機器學(xué)習(xí)和數(shù)據(jù)挖掘的一個分布式框架。Mahout用MapReduce實現(xiàn)了部分數(shù)據(jù)挖掘算法,解決了并行挖掘的問題。
Apache Cassandra:是一套開源分布式NoSQL數(shù)據(jù)庫系統(tǒng)。它最初由Facebook開發(fā),用于儲存簡單格式數(shù)據(jù),集Google BigTable的數(shù)據(jù)模型與Amazon Dynamo的完全分布式的架構(gòu)于一身
Apache Avro: 是一個數(shù)據(jù)序列化系統(tǒng),設(shè)計用于支持數(shù)據(jù)密集型,大批量數(shù)據(jù)交換的應(yīng)用。Avro是新的數(shù)據(jù)序列化格式與傳輸工具,將逐步取代Hadoop原有的IPC機制
Apache Ambari: 是一種基于Web的工具,支持Hadoop集群的供應(yīng)、管理和監(jiān)控。
Apache Chukwa: 是一個開源的用于監(jiān)控大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng),它可以將各種各樣類型的數(shù)據(jù)收集成適合 Hadoop 處理的文件保存在 HDFS 中供 Hadoop 進行各種 MapReduce 操作。
Apache Hama: 是一個基于HDFS的BSP(Bulk Synchronous Parallel)并行計算框架, Hama可用于包括圖、矩陣和網(wǎng)絡(luò)算法在內(nèi)的大規(guī)模、大數(shù)據(jù)計算。
Apache Flume: 是一個分布的、可靠的、高可用的海量日志聚合的系統(tǒng),可用于日志數(shù)據(jù)收集,日志數(shù)據(jù)處理,日志數(shù)據(jù)傳輸。
Apache Giraph: 是一個可伸縮的分布式迭代圖處理系統(tǒng), 基于Hadoop平臺,靈感來自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。
Apache Oozie: 是一個工作流引擎服務(wù)器, 用于管理和協(xié)調(diào)運行在Hadoop平臺上(HDFS、Pig和MapReduce)的任務(wù)。
Apache Crunch: 是基于Google的FlumeJava庫編寫的Java庫,用于創(chuàng)建MapReduce程序。與Hive,Pig類似,Crunch提供了用于實現(xiàn)如連接數(shù)據(jù)、執(zhí)行聚合和排序記錄等常見任務(wù)的模式庫
Apache Whirr: 是一套運行于云服務(wù)的類庫(包括Hadoop),可提供高度的互補性。Whirr學(xué)支持Amazon EC2和Rackspace的服務(wù)。
Apache Bigtop: 是一個對Hadoop及其周邊生態(tài)進行打包,分發(fā)和測試的工具。
Apache HCatalog: 是基于Hadoop的數(shù)據(jù)表和存儲管理,實現(xiàn)中央的元數(shù)據(jù)和模式管理,跨越Hadoop和RDBMS,利用Pig和Hive提供關(guān)系視圖。
Cloudera Hue: 是一個基于WEB的監(jiān)控和管理系統(tǒng),實現(xiàn)對HDFS,MapReduce/YARN, HBase, Hive, Pig的web化操作和管理。
網(wǎng)頁標(biāo)題:大數(shù)據(jù)要學(xué)習(xí)什么知識?大數(shù)據(jù)學(xué)習(xí)的內(nèi)容有哪些?
文章URL:http://m.rwnh.cn/news/98571.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站排名、網(wǎng)站制作、品牌網(wǎng)站建設(shè)、定制開發(fā)、搜索引擎優(yōu)化、響應(yīng)式網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容