Flink作為流批統(tǒng)一的計(jì)算框架,在1.10中完成了大量batch相關(guān)的增強(qiáng)與改進(jìn)。1.10可以說是第一個(gè)成熟的生產(chǎn)可用的Flink Batch SQL版本,它一掃之前Dataset的羸弱,從功能和性能上都有大幅改進(jìn),以下我從架構(gòu)、外部系統(tǒng)集成、實(shí)踐三個(gè)方面進(jìn)行闡述。
創(chuàng)新互聯(lián)專注于思明企業(yè)網(wǎng)站建設(shè),響應(yīng)式網(wǎng)站設(shè)計(jì),商城網(wǎng)站定制開發(fā)。思明網(wǎng)站建設(shè)公司,為思明等地區(qū)提供建站服務(wù)。全流程按需網(wǎng)站設(shè)計(jì),專業(yè)設(shè)計(jì),全程項(xiàng)目跟蹤,創(chuàng)新互聯(lián)專業(yè)和態(tài)度為您提供的服務(wù)
首先來看下stack,在新的Blink planner中,batch也是架設(shè)在Transformation上的,這就意味著我們和Dataset完全沒有關(guān)系了:
Batch模式就是在中間結(jié)果落盤,這個(gè)模式和典型的Batch處理是一致的,比如MapReduce/Spark/Tez。
Flink以前的網(wǎng)絡(luò)模型也分為Batch和Pipeline兩種,但是Batch模式只是支持上下游隔斷執(zhí)行,也就是說資源用量可以不用同時(shí)滿足上下游共同的并發(fā)。但是另外一個(gè)關(guān)鍵點(diǎn)是Failover沒有對接好,1.9和1.10在這方面進(jìn)行了改進(jìn),支持了單點(diǎn)的Failover。
建議在Batch時(shí)打開:
jobmanager.execution.failover-strategy = region
為了避免重啟過于頻繁導(dǎo)致JobMaster太忙了,可以把重啟間隔提高:
restart-strategy.fixed-delay.delay = 30 s
Batch模式的好處有:
Batch模式比較穩(wěn),適合傳統(tǒng)Batch作業(yè),大作業(yè)。
Pipeline模式是Flink的傳統(tǒng)模式,它完全和Streaming作業(yè)用的是同一套代碼,其實(shí)社區(qū)里Impala和Presto也是類似的模式,純走網(wǎng)絡(luò),需要處理反壓,不落盤,它主要的優(yōu)缺點(diǎn)是:
有條件可以考慮開啟Pipeline模式。
Flink on Yarn支持兩種模式,Session模式和Per job模式,現(xiàn)在已經(jīng)在調(diào)度層次高度統(tǒng)一了。
另外,如果想要更好的復(fù)用進(jìn)程,可以考慮加大TaskManager的超時(shí)釋放:
resourcemanager.taskmanager-timeout = 900000
先說說并發(fā):
我們在Blink內(nèi)部實(shí)現(xiàn)了基于統(tǒng)計(jì)信息來推斷并發(fā)的功能,但是其實(shí)以上的策略在大部分場景就夠用了。
目前一個(gè)TaskManager里面含有多個(gè)Slot,在Batch作業(yè)中,一個(gè)Slot里只能運(yùn)行一個(gè)Task (關(guān)閉SlotShare)。
對內(nèi)存來說,單個(gè)TM會把Manage內(nèi)存切分成Slot粒度,如果1個(gè)TM中有n個(gè)Slot,也就是Task能拿到1/n的manage內(nèi)存。
我們在1.10做了重大的一個(gè)改進(jìn)就是:Task中chain起來的各個(gè)operators按照比例來瓜分內(nèi)存,所以現(xiàn)在配置的算子內(nèi)存都是一個(gè)比例值,實(shí)際拿到的還要根據(jù)Slot的內(nèi)存來瓜分。
這樣做的一個(gè)重要好處是:
當(dāng)然,為了運(yùn)行的效率,我們一般建議單個(gè)Slot的manage內(nèi)存應(yīng)該大于500MB。
另一個(gè)事情,在1.10后,我們?nèi)コ薕nHeap的manage內(nèi)存,所以只有off-heap的manage內(nèi)存。
強(qiáng)烈推薦Hive Catalog + Hive,這也是目前批處理最成熟的架構(gòu)。在1.10中,除了對以前功能的完善以外,其它做了幾件事:
得益于流批統(tǒng)一的架構(gòu),目前的流Connectors也能在batch上使用,比如HBase的Lookup和Sink、JDBC的Lookup和Sink、Elasticsearch的Sink,都可以在Batch無縫對接使用起來。
在1.10中,SQL-CLI也做了大量的改動,比如把SQL-CLI做了stateful,里面也支持了DDL,還支持了大量的DDL命令,給SQL-CLI暴露了很多TableEnvironment的能力,這讓用戶可以方便得多。后續(xù),我們也需要對接JDBC的客戶端,讓用戶可以更好的對接外部工具。但是SQL-CLI仍然待繼續(xù)改進(jìn),比如目前仍然只支持Session模式,不支持Per Job模式。
TableEnvironment tEnv = TableEnvironment.create(EnvironmentSettings .newInstance() .useBlinkPlanner() .inBatchMode() .build());
老的BatchTableEnv因?yàn)榻壎薉ataset,而且區(qū)分Java和Scala,是不干凈的設(shè)計(jì)方式,所以Blink planner只支持新的TableEnv。
TableEnv注冊的source, sink, connector, functions,都是temporary的,重啟之后即失效了。如果需要持久化的object,考慮使用HiveCatalog。
tEnv.registerCatalog(“hive”, hiveCatalog); tEnv.useCatalog(“hive”);
可以通過tEnv.sqlQuery來執(zhí)行DML,這樣可以獲得一個(gè)Table,我們也通過collect來獲得小量的數(shù)據(jù):
Table table = tEnv.sqlQuery(“SELECT COUNT(*) FROM MyTable”); List<Row> results = TableUtils.collectToList(table); System.out.println(results);
可以通過tEnv.sqlUpdate來執(zhí)行DDL,但是目前并不支持創(chuàng)建hive的table,只能創(chuàng)建Flink類型的table:
tEnv.sqlUpdate( "CREATE TABLE myResult (" + " cnt BIGINT" ") WITH (" + " 'connector.type'='jdbc'," …… ")");
可以通過tEnv.sqlUpdate來執(zhí)行insert語句,Insert到臨時(shí)表或者Catalog表中,比如insert到上面創(chuàng)建的臨時(shí)JDBC表中:
tEnv.sqlUpdate(“INSERT INTO myResult SELECT COUNT(*) FROM MyTable”); tEnv.execute(“MyJob”);
當(dāng)結(jié)果表是Hive表時(shí),可以使用Overwrite語法,也可以使用靜態(tài)Partition的語法,這需要打開Hive的方言:
tEnv.getConfig().setSqlDialect(SqlDialect.HIVE);
目前Flink batch SQL仍然在高速發(fā)展中,但是1.10已經(jīng)是一個(gè)可用的版本了,它在功能上、性能上都有很大的提升,后續(xù)還有很多有意思的features,等待著大家一起去挖掘。
原文鏈接
本文為阿里云原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
分享名稱:FlinkBatchSQL1.10實(shí)踐
文章地址:http://m.rwnh.cn/article16/gspogg.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供企業(yè)建站、響應(yīng)式網(wǎng)站、微信公眾號、關(guān)鍵詞優(yōu)化、用戶體驗(yàn)、自適應(yīng)網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)