中文字幕日韩精品一区二区免费_精品一区二区三区国产精品无卡在_国精品无码专区一区二区三区_国产αv三级中文在线

Spark筆記整理(二):RDD與spark核心概念名詞

[TOC]

員工經(jīng)過長期磨合與沉淀,具備了協(xié)作精神,得以通過團(tuán)隊(duì)的力量開發(fā)出優(yōu)質(zhì)的產(chǎn)品。創(chuàng)新互聯(lián)堅(jiān)持“專注、創(chuàng)新、易用”的產(chǎn)品理念,因?yàn)椤皩W⑺詫I(yè)、創(chuàng)新互聯(lián)網(wǎng)站所以易用所以簡單”。公司專注于為企業(yè)提供成都網(wǎng)站制作、成都做網(wǎng)站、外貿(mào)營銷網(wǎng)站建設(shè)、微信公眾號開發(fā)、電商網(wǎng)站開發(fā),小程序定制開發(fā),軟件按需定制設(shè)計(jì)等一站式互聯(lián)網(wǎng)企業(yè)服務(wù)。


Spark RDD

非常基本的說明,下面一張圖就能夠有基本的理解:

Spark筆記整理(二):RDD與spark核心概念名詞

Spark RDD基本說明

1、Spark的核心概念是RDD (resilient distributed dataset,彈性分布式數(shù)據(jù)集),指的是一個只讀的,可分區(qū)的分布式數(shù)據(jù)集,這個數(shù)據(jù)集的全部或部分可以緩存在內(nèi)存中,在多次計(jì)算間重用。

2、RDD在抽象上來說是一種元素集合,包含了數(shù)據(jù)。它是被分區(qū)的,分為多個分區(qū),每個分區(qū)分布在集群中的不同Worker節(jié)點(diǎn)上,從而讓RDD中的數(shù)據(jù)可以被并行操作。(分布式數(shù)據(jù)集)

3、RDD通常通過Hadoop上的文件,即HDFS文件或者Hive表,來進(jìn)行創(chuàng)建;有時也可以通過RDD的本地創(chuàng)建轉(zhuǎn)換而來。

4、傳統(tǒng)的MapReduce雖然具有自動容錯、平衡負(fù)載和可拓展性的優(yōu)點(diǎn),但是其最大缺點(diǎn)是采用非循環(huán)式的數(shù)據(jù)流模型,使得在迭代計(jì)算式要進(jìn)行大量的磁盤IO操作(每跑完一個Job,拿到其中間結(jié)果后,再跑下一個Job,聯(lián)想使用MR做數(shù)據(jù)清洗的案例)。RDD正是解決這一缺點(diǎn)的抽象方法。RDD最重要的特性就是,提供了容錯性,可以自動從節(jié)點(diǎn)失敗中恢復(fù)過來。即如果某個節(jié)點(diǎn)上的RDD partition,因?yàn)楣?jié)點(diǎn)故障,導(dǎo)致數(shù)據(jù)丟了,那么RDD會自動通過自己的數(shù)據(jù)來源重新計(jì)算該partition。這一切對使用者是透明的。RDD的lineage特性(類似于族譜,像上面的圖,假如某個partition的數(shù)據(jù)丟失了,找到其父partition重新計(jì)算即可,我稱之為溯源)。

5、RDD的數(shù)據(jù)默認(rèn)情況下存放在內(nèi)存中的,但是在內(nèi)存資源不足時,Spark會自動將RDD數(shù)據(jù)寫入磁盤。(彈性)

RDD在Spark中的地位和作用

(1)為什么會有Spark?因?yàn)閭鹘y(tǒng)的并行計(jì)算模型無法有效的解決迭代計(jì)算(iterative)和交互式計(jì)算(interactive);而Spark的使命便是解決這兩個問題,這也是他存在的價值和理由。

(2)Spark如何解決迭代計(jì)算?其主要實(shí)現(xiàn)思想就是RDD,把所有計(jì)算的數(shù)據(jù)保存在分布式的內(nèi)存中。迭代計(jì)算通常情況下都是對同一個數(shù)據(jù)集做反復(fù)的迭代計(jì)算,數(shù)據(jù)在內(nèi)存中將大大提升IO操作。這也是Spark涉及的核心:內(nèi)存計(jì)算。(一行搞定wc:sc.textFile("./hello").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect.foreach(println),這就是典型的迭代計(jì)算了)

(3)Spark如何實(shí)現(xiàn)交互式計(jì)算?因?yàn)镾park是用scala語言實(shí)現(xiàn)的,Spark和scala能夠緊密的集成,所以Spark可以完美的運(yùn)用scala的解釋器,使得其中的scala可以向操作本地集合對象一樣輕松操作分布式數(shù)據(jù)集。

(4)Spark和RDD的關(guān)系?可以理解為:RDD是一種具有容錯性基于內(nèi)存的集群計(jì)算抽象方法,Spark則是這個抽象方法的實(shí)現(xiàn)。

Spark常用核心模塊

1、核心模塊開發(fā):離線批處理 Spark Core
2、實(shí)時計(jì)算:底層也是基于RDD Spark Streaming
3、Spark SQL/Hive:交互式分析
4、Spark Graphx:圖計(jì)算
5、Spark Mlib: 數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí) 

核心概念名詞

大多數(shù)應(yīng)該都要實(shí)地寫過spark程序和提交任務(wù)到spark集群后才有更好的理解。

  • ClusterManager:在Standalone模式中即為Master(主節(jié)點(diǎn)),控制整個集群,監(jiān)控Worker。在YARN模式中為資源管理器。
  • Worker:從節(jié)點(diǎn),負(fù)責(zé)控制計(jì)算節(jié)點(diǎn),啟動Executor。在YARN模式中為NodeManager,負(fù)責(zé)計(jì)算節(jié)點(diǎn)的控制。
  • Driver:運(yùn)行Application的main()函數(shù)并創(chuàng)建SparkContext。
  • Executor:執(zhí)行器,在worker node上執(zhí)行任務(wù)的組件、用于啟動線程池運(yùn)行任務(wù)。每個Application擁有獨(dú)立的一組Executors。
  • SparkContext:整個應(yīng)用的上下文,控制應(yīng)用的生命周期。
  • RDD:Spark的基本計(jì)算單元,一組RDD可形成執(zhí)行的有向無環(huán)圖RDD Graph。
  • DAG Scheduler:實(shí)現(xiàn)將Spark作業(yè)分解成一到多個Stage,每個Stage根據(jù)RDD的Partition個數(shù)決定Task的個數(shù),然后生成相應(yīng)的Task set放到TaskScheduler中。
  • TaskScheduler:將任務(wù)(Task)分發(fā)給Executor執(zhí)行。(所以Executor執(zhí)行的就是我們的代碼)
  • Stage:一個Spark作業(yè)一般包含一到多個Stage。
  • Task:一個Stage包含一到多個Task,通過多個Task實(shí)現(xiàn)并行運(yùn)行的功能。
  • Transformations:轉(zhuǎn)換(Transformations) (如:map, filter, groupBy, join等),Transformations操作是Lazy的,也就是說從一個RDD轉(zhuǎn)換生成另一個RDD的操作不是馬上執(zhí)行,Spark在遇到Transformations操作時只會記錄需要這樣的操作,并不會去執(zhí)行,需要等到有Actions操作的時候才會真正啟動計(jì)算過程進(jìn)行計(jì)算。(后面的wc例子就會有很好的說明)
  • Actions:操作(Actions) (如:count, collect, save等),Actions操作會返回結(jié)果或把RDD數(shù)據(jù)寫到存儲系統(tǒng)中。Actions是觸發(fā)Spark啟動計(jì)算的動因。
  • SparkEnv:線程級別的上下文,存儲運(yùn)行時的重要組件的引用。SparkEnv內(nèi)創(chuàng)建并包含如下一些重要組件的引用。
    • MapOutPutTracker:負(fù)責(zé)Shuffle元信息的存儲。
    • BroadcastManager:負(fù)責(zé)廣播變量的控制與元信息的存儲。
    • BlockManager:負(fù)責(zé)存儲管理、創(chuàng)建和查找塊。
    • MetricsSystem:監(jiān)控運(yùn)行時性能指標(biāo)信息。
    • SparkConf:負(fù)責(zé)存儲配置信息。

當(dāng)前文章:Spark筆記整理(二):RDD與spark核心概念名詞
當(dāng)前網(wǎng)址:http://m.rwnh.cn/article42/psgjec.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供小程序開發(fā)、做網(wǎng)站、營銷型網(wǎng)站建設(shè)、移動網(wǎng)站建設(shè)用戶體驗(yàn)、靜態(tài)網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

綿陽服務(wù)器托管
和田县| 萨迦县| 盐津县| 常州市| 扶沟县| 乌鲁木齐县| 红河县| 运城市| 五莲县| 宝清县| 合江县| 隆林| 绍兴县| 临泉县| 阜南县| 都匀市| 甘泉县| 鄂尔多斯市| 苍溪县| 彰化市| 河曲县| 莫力| 德保县| 资讯| 金阳县| 柳河县| 铅山县| 吉木萨尔县| 教育| 普洱| 祁阳县| 阿克| 娄烦县| 收藏| 武冈市| 左贡县| 曲麻莱县| 德兴市| 双柏县| 洪泽县| 天祝|