本篇內(nèi)容主要講解“Hadoop生態(tài)系統(tǒng)的存儲格式CarbonData性能分析”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學(xué)習(xí)“Hadoop生態(tài)系統(tǒng)的存儲格式CarbonData性能分析”吧!
成都創(chuàng)新互聯(lián)公司為您提適合企業(yè)的網(wǎng)站設(shè)計?讓您的網(wǎng)站在搜索引擎具有高度排名,讓您的網(wǎng)站具備超強的網(wǎng)絡(luò)競爭力!結(jié)合企業(yè)自身,進行網(wǎng)站設(shè)計及把握,最后結(jié)合企業(yè)文化和具體宗旨等,才能創(chuàng)作出一份性化解決方案。從網(wǎng)站策劃到成都網(wǎng)站建設(shè)、成都網(wǎng)站設(shè)計, 我們的網(wǎng)頁設(shè)計師為您提供的解決方案。
一、評測環(huán)境
1)網(wǎng)絡(luò)拓撲圖
2)配置參數(shù)
服務(wù)器配置
二、性能對比
目前主流hadoop的文件存儲格式有行存儲的CSV格式,列式存儲的ORC和Parquet等。本章給出的是Parquet+Spark和CarbonData+Spark在過濾查詢場景和聚合計算場景的性能測試結(jié)果。
1)測試數(shù)據(jù)
創(chuàng)建沈陽社保的數(shù)據(jù)倉庫,導(dǎo)入、集成1年的測試數(shù)據(jù),如下表:
生成CarbonData格式文件,如下表:
2)過濾查詢場景測試
Parquet和CarbonData在過濾查詢場景下的性能對比
3)聚合計算場景測試
Parquet和CarbonData在聚合計算場景下的性能對比
4)總結(jié)分析
在過濾查詢中,CarbonData的查詢效率比parquet效率好,主要體現(xiàn)在列數(shù)據(jù)的索引查詢,極大地提高了精確查詢的性能。在聚合查詢中,CarbonData通過使用全局字典編碼來加快計算速度,這使得處理、查詢引擎可以直接在編碼好的數(shù)據(jù)上進行處理而不需要轉(zhuǎn)換數(shù)據(jù),數(shù)據(jù)只有在返回結(jié)果給用戶的時候才轉(zhuǎn)換成用戶可讀的形式,通過索引有效過濾文件數(shù)據(jù)塊減少磁盤的IO,提高查詢性能。
到此,相信大家對“Hadoop生態(tài)系統(tǒng)的存儲格式CarbonData性能分析”有了更深的了解,不妨來實際操作一番吧!這里是創(chuàng)新互聯(lián)網(wǎng)站,更多相關(guān)內(nèi)容可以進入相關(guān)頻道進行查詢,關(guān)注我們,繼續(xù)學(xué)習(xí)!
標題名稱:Hadoop生態(tài)系統(tǒng)的存儲格式CarbonData性能分析
瀏覽地址:http://m.rwnh.cn/article32/jcjgpc.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供營銷型網(wǎng)站建設(shè)、靜態(tài)網(wǎng)站、、外貿(mào)網(wǎng)站建設(shè)、軟件開發(fā)、電子商務(wù)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)