TiDB 是 PingCAP 自主研發(fā)的開源分布式關系型數據庫,具備商業(yè)級數據庫的數據可靠性,可用性,安全性等特性,支持在線彈性水平擴展,兼容 MySQL 協議及生態(tài),創(chuàng)新性實現 OLTP 及 OLAP 融合。
創(chuàng)新互聯基于分布式IDC數據中心構建的平臺為眾多戶提供成都服務器托管 四川大帶寬租用 成都機柜租用 成都服務器租用。
TiDB 3.0 版本顯著提升了大規(guī)模集群的穩(wěn)定性,集群支持 150+ 存儲節(jié)點,300+TB 存儲容量長期穩(wěn)定運行。易用性方面引入大量降低用戶運維成本的優(yōu)化,包括引入 Information_Schema 中的多個實用系統(tǒng)視圖、EXPLAIN ANALYZE、SQL Trace 等。在性能方面,特別是 OLTP 性能方面,3.0 比 2.1 也有大幅提升,其中 TPC-C 性能提升約 4.5 倍,Sysbench 性能提升約 1.5 倍,OLAP 方面,TPC-H 50G Q15 因實現 View 可以執(zhí)行,至此 TPC-H 22 個 Query 均可正常運行。新功能方面增加了窗口函數、視圖(實驗特性)、分區(qū)表、插件系統(tǒng)、悲觀鎖(實驗特性)。
截止本文發(fā)稿時 TiDB 已在 500+ 用戶的生產環(huán)境中長期穩(wěn)定運行,涵蓋金融、保險、制造,互聯網, 游戲 等領域,涉及交易、數據中臺、 歷史 庫等多個業(yè)務場景。不同業(yè)務場景對關系型數據庫的訴求可用 “百花齊放”來形容,但對關系數據庫最根本的訴求未發(fā)生任何變化,如數據可靠性,系統(tǒng)穩(wěn)定性,可擴展性,安全性,易用性等。請跟隨我們的腳步梳理 TiDB 3.0 有什么樣的驚喜。
3.0 與 2.1 版本相比,顯著提升了大規(guī)模集群的穩(wěn)定性,支持單集群 150+ 存儲節(jié)點,300+TB 存儲容量長期穩(wěn)定運行,主要的優(yōu)化點如下:
1. 優(yōu)化 Raft 副本之間的心跳機制,按照 Region 的活躍程度調整心跳頻率,減小冷數據對集群的負擔。
2. 熱點調度策略支持更多參數配置,采用更高優(yōu)先級,并提升熱點調度的準確性。
3. 優(yōu)化 PD 調度流程,提供調度限流機制,提升系統(tǒng)穩(wěn)定性。
4. 新增分布式 GC 功能,提升 GC 的性能,降低大集群 GC 時間,提升系統(tǒng)穩(wěn)定性。
眾所周知,數據庫查詢計劃的穩(wěn)定性對業(yè)務至關重要,TiDB 3.0 版本采用多種優(yōu)化手段提升查詢計劃的穩(wěn)定性,如下:
1. 新增 Fast Analyze 功能,提升收集統(tǒng)計信息的速度,降低集群資源的消耗及對業(yè)務的影響。
2. 新增 Incremental Analyze 功能,提升收集單調遞增的索引統(tǒng)計信息的速度,降低集群資源的消耗及對業(yè)務的影響。
3. 在 CM-Sketch 中新增 TopN 的統(tǒng)計信息,緩解 CM-Sketch 哈希沖突導致估算偏大,提升代價估算的準確性,提升查詢計劃的穩(wěn)定性。
4. 引入 Skyline Pruning 框架,利用規(guī)則防止查詢計劃過度依賴統(tǒng)計信息,緩解因統(tǒng)計信息滯后導致選擇的查詢計劃不是最優(yōu)的情況,提升查詢計劃的穩(wěn)定性。
5. 新增 SQL Plan Management 功能,支持在查詢計劃不準確時手動綁定查詢計劃,提升查詢計劃的穩(wěn)定性。
1. OLTP
3.0 與 2.1 版本相比 Sysbench 的 Point Select,Update Index,Update Non-Index 均提升約 1.5 倍,TPC-C 性能提升約 4.5 倍。主要的優(yōu)化點如下:
1. TiDB 持續(xù)優(yōu)化 SQL 執(zhí)行器,包括:優(yōu)化 NOT EXISTS 子查詢轉化為 Anti Semi Join,優(yōu)化多表 Join 時 Join 順序選擇等。
2. 優(yōu)化 Index Join 邏輯,擴大 Index Join 算子的適用場景并提升代價估算的準確性。
3. TiKV 批量接收和發(fā)送消息功能,提升寫入密集的場景的 TPS 約 7%,讀密集的場景提升約 30%。
4. TiKV 優(yōu)化內存管理,減少 Iterator Key Bound Option 的內存分配和拷貝,多個 Column Families 共享 block cache 提升 cache 命中率等手段大幅提升性能。
5. 引入 Titan 存儲引擎插件,提升 Value 值超過 1KB 時性能,緩解 RocksDB 寫放大問題,減少磁盤 IO 的占用。
6. TiKV 新增多線程 Raftstore 和 Apply 功能,提升單節(jié)點內可擴展性,進而提升單節(jié)點內并發(fā)處理能力和資源利用率,降低延時,大幅提升集群寫入能力。
TiDB Lightning 性能與 2019 年年初相比提升 3 倍,從 100GB/h 提升到 300GB/h,即 28MB/s 提升到 85MB/s,優(yōu)化點,如下:
1. 提升 SQL 轉化成 KV Pairs 的性能,減少不必要的開銷。
2. 提升單表導入性能,單表支持批量導入。
3. 提升 TiKV-Importer 導入數據性能,支持將數據和索引分別導入。
4. TiKV-Importer 支持上傳 SST 文件限速功能。
RBAC(Role-Based Access Control,基于角色的權限訪問控制) 是商業(yè)系統(tǒng)中最常見的權限管理技術之一,通過 RBAC 思想可以構建最簡單“用戶-角色-權限”的訪問權限控制模型。RBAC 中用戶與角色關聯,權限與角色關聯,角色與權限之間一般是多對多的關系,用戶通過成為什么樣的角色獲取該角色所擁有的權限,達到簡化權限管理的目的,通過此版本的迭代 RBAC 功能開發(fā)完成。
IP 白名單功能(企業(yè)版特性) :TiDB 提供基于 IP 白名單實現網絡安全訪問控制,用戶可根據實際情況配置相關的訪問策略。
Audit log 功能(企業(yè)版特性) :Audit log 記錄用戶對數據庫所執(zhí)行的操作,通過記錄 Audit log 用戶可以對數據庫進行故障分析,行為分析,安全審計等,幫助用戶獲取數據執(zhí)行情況。
加密存儲(企業(yè)版特性) :TiDB 利用 RocksDB 自身加密功能,實現加密存儲的功能,保證所有寫入到磁盤的數據都經過加密,降低數據泄露的風險。
完善權限語句的權限檢查 ,新增 ANALYZE,USE,SET GLOBAL,SHOW PROCESSLIST 語句權限檢查。
1. 新增 SQL 方式查詢慢查詢,豐富 TiDB 慢查詢日志內容,如:Coprocessor 任務數,平均/最長/90% 執(zhí)行/等待時間,執(zhí)行/等待時間最長的 TiKV 地址,簡化慢查詢定位工作,提高排查慢查詢問題效率,提升產品易用性。
2. 新增系統(tǒng)配置項合法性檢查,優(yōu)化系統(tǒng)監(jiān)控項等,提升產品易用性。
3. 新增對 TableReader、IndexReader 和 IndexLookupReader 算子內存使用情況統(tǒng)計信息,提高 Query 內存使用統(tǒng)計的準確性,提升處理內存消耗較大語句的效率。
4. 制定日志規(guī)范,重構日志系統(tǒng),統(tǒng)一日志格式,方便用戶理解日志內容,有助于通過工具對日志進行定量分析。
5. 新增 EXPLAIN ANALYZE 功能,提升SQL 調優(yōu)的易用性。
6. 新增 SQL 語句 Trace 功能,方便排查問題。
7. 新增通過 unix_socket 方式連接數據庫。
8. 新增快速恢復被刪除表功能,當誤刪除數據時可通過此功能快速恢復數據。
TiDB 3.0 新增 TiFlash 組件,解決復雜分析及 HTAP 場景。TiFlash 是列式存儲系統(tǒng),與行存儲系統(tǒng)實時同步,具備低延時,高性能,事務一致性讀等特性。 通過 Raft 協議從 TiKV 中實時同步行存數據并轉化成列存儲格式持久化到一組獨立的節(jié)點,解決行列混合存儲以及資源隔離性問題。TiFlash 可用作行存儲系統(tǒng)(TiKV)實時鏡像,實時鏡像可獨立于行存儲系統(tǒng),將行存儲及列存儲從物理隔離開,提供完善的資源隔離方案,HTAP 場景最優(yōu)推薦方案;亦可用作行存儲表的索引,配合行存儲對外提供智能的 OLAP 服務,提升約 10 倍復雜的混合查詢的性能。
TiFlash 目前處于 Beta 階段,計劃 2019 年 12 月 31 日之前 GA,歡迎大家申請試用。
未來我們會繼續(xù)投入到系統(tǒng)穩(wěn)定性,易用性,性能,彈性擴展方面,向用戶提供極致的彈性伸縮能力,極致的性能體驗,極致的用戶體驗。
穩(wěn)定性方面 V4.0 版本將繼續(xù)完善 V3.0 未 GA 的重大特性,例如:悲觀事務模型,View,Table Partition,Titan 行存儲引擎,TiFlash 列存儲引擎;引入近似物理備份恢復解決分布數據庫備份恢復難題;優(yōu)化 PD 調度功能等。
性能方面 V4.0 版本將繼續(xù)優(yōu)化事務處理流程,減少事務資源消耗,提升性能,例如:1PC,省去獲取 commit ts 操作等。
彈性擴展方面,PD 將提供彈性擴展所需的元信息供外部系統(tǒng)調用,外部系統(tǒng)可根據元信息及負載情況動態(tài)伸縮集群規(guī)模,達成節(jié)省成本的目標。
我們相信戰(zhàn)勝“未知”最好的武器就是社區(qū)的力量,基礎軟件需要堅定地走開源路線。截止發(fā)稿我們已經完成 41 篇源碼閱讀文章。TiDB 開源社區(qū)總計 265 位 Contributor,6 位 Committer,在這里我們對社區(qū)貢獻者表示由衷的感謝,希望更多志同道合的人能加入進來,也希望大家在 TiDB 這個開源社區(qū)能夠有所收獲。
TiDB 3.0 GA Release Notes:
一致性算法之所以可以保證在有節(jié)點掛掉時也能夠繼續(xù)服務, 就是因為有Replicated state machines的存在。 在分布式系統(tǒng)中, 有兩種方式來實現這個復制狀態(tài)機
一致性算法一般有一下特點:
Raft算法首先會選舉一個leader, 然后又leader來管理replicated log。 leader會從client處接收請求, 然后轉發(fā)給別的節(jié)點, 并且告訴這些節(jié)點什么時候可以把這些請求應用在狀態(tài)機上(落地)。 當一個leader掛了的時候, 會馬上選舉出一個新的leader。 由上可知, Raft將一致性問題拆分成了3個獨立的子問題:
Logs 組織的形式如圖所示。 當leader收到一個Log entry時, 每個log entry都會存儲一個帶有term number的state machine命令。 Term number是用來探測log之間的不一致性并且保證Figure3的一些特性。 每個log也還帶有他們在log里的索引數字。
當leader認為這個entry是可以成功應用到狀態(tài)機上, 那么這個entry就被成為commited。Raft保證所有commited entry最終都會被應用到所有的節(jié)點上。
當一個entry被成功復制到半數以上的節(jié)點后, 這個log就可以認為成功寫入了。并且會將leader之前的寫入也視為commit。
設計Raft日志機制不僅簡化了系統(tǒng)的行為, 也保證了正確性。 保證了Figure3的以下特性
1. 當不同log中的兩個entry有相同的term和index, 那么這兩個entry就是相同的
2. 當不同log中的兩個entry有相同的term和index, 那么這兩個entry之前的所有entry也都是相同的
當leader發(fā)現follower的log跟自己的不同時, 他會針對每個follower維護一個nextIndex。 這個nextIndex就是Leader下次會發(fā)第幾個entry給這個follower。 而follower也會拒絕這個append entry的rpc。
Safety
如Figure 4所示, 如果term T commit的數據在之后的term U丟失了, 那么
1. 這個log一定不在Leader-U的log中(因為leader不會覆蓋舊數據)
2. Leader-T把這個日志復制給了大多數節(jié)點并且Leader-U收到了大多數節(jié)點的投票, 所以至少有一個節(jié)點是既收到了這個entry并且又給Leader-U投票了
3. 那么這個投票的節(jié)點也一定收到了所有Leader-T的commited entries
4. 因為這個投票節(jié)點把票投給了U, 那么說明Leader-U也至少有所有這個節(jié)點的entries
由此可知, 如果投票節(jié)點和Leader-U 共享了之前的log, 那么Leader-U肯定會有所有投票節(jié)點的entry。 另外, Leader-U的last-log-term必須比T大, 而投票節(jié)點的term至少是T。之前term的leader在復制entry給Leader-U時也必須包含了之前的這個entry。 投票節(jié)點和之前term的leader都會有這個entry, 所以Leader-U也不會沒有這個entry??上陆Y論所有大于T的term的leader絕對包含了所有term T commited的entries。
raft協議是一個共識算法,主要包括leader election,log replication,safety三個關鍵部分,另外還包括membership changes和snapshot。
復制狀態(tài)機是分布式系統(tǒng)中解決fault tolerance問題的常用手段。raft通過log replication來保證集群的多個server,會有同樣的數據輸入到各自的狀態(tài)機。如圖1所示。
關鍵術語:
Apply:將entry輸入到狀態(tài)機
committed:entry可以被安全的Apply到狀態(tài)機,一般情況下entry被同步到集群的大多數節(jié)點上時,就可以認為是committed(有特殊情況)。
每個server都有一個log,log中包含一系列的entry(entry中有相應的命令,即客戶端請求),狀態(tài)機按照log中的順序執(zhí)行這些命令。
如果每個server輸入狀態(tài)機的數據相同,狀態(tài)機產生的結果也是相同的。因此共識算法的目的就是保證多個server的log一致。
leader上的consensus module接收到客戶端的命令,將這些命令作為entry添加到log中,并且和其他follower上的consensus module通信,將log entry同步到其他follower,以確保多個server之間日志文件的最終一致。
當達到一定條件,即該條entry committed時,leader會將命令輸入狀態(tài)機,并將輸出返回給客戶端,同時通過心跳通知其他follower可以Apply該entry。
共識算法有以下特點:
1.safety,在所有非拜占庭條件下(包括網絡延遲,分區(qū),丟包,duplication,reordering等),不會返回錯誤的結果
2.大部分節(jié)點正常話,系統(tǒng)就可以正常工作
3.不依靠物理時鐘來確保日志的一致,錯誤的物理時鐘和消息延遲最多會造成可用性問題
4.集群中的大多數節(jié)點在一輪rpc調用中正常響應的話,一個客戶端的請求就會被正常返回,不會受部分慢節(jié)點的影響
任何時刻,一個server處于以下三個狀態(tài)之一:leader,follower,candidate。
一般情況下,有1個leader,其他節(jié)點都是follower,follower是被動的,不會發(fā)送請求,只會響應leader和candidate的請求。
leader處理所有客戶端的請求(如果客戶端請求了follower,follower將請求重定向到leader)。
candidate狀態(tài)用于選舉一個新的leader,狀態(tài)轉換如下圖
raft將物理時間分隔為一個個的任意長度的term,term是連續(xù)的。
每個term從election開始,一個或者多個candidate嘗試競選為leader,如果一個candidate贏得了選舉,就會成為term的余下時間內的leader。
一些情況下,會產生split vote,term會以沒有l(wèi)eader的狀態(tài)結束,開始新一輪的term以及選舉
raft確保一個term中最多只會有一個leader。
term是邏輯時鐘,每個server存儲一個current term number,current term number隨著時間單調遞增,當節(jié)點之間通信時,會交換current term number,
如果一個server發(fā)現自己的current term number小于其他節(jié)點的,該server會將自己的term更新為更大的term,
如果一個candidate或者leader發(fā)現有節(jié)點的term大于自己的term,就會轉變?yōu)閒ollower(有特殊情況),
如果一個節(jié)點接收到一個有著過期term number的請求,則會拒絕這個請求。
raft的server之間使用RPC通信,主要為兩種類型的RPC,
RequestVote RPC:用于candidate選舉
AppendEntries RPC:用于leader發(fā)送log entry給follower,或者心跳
另外還有一種InstallSnapshot RPC,用于傳輸snapshot
raft協議首先需要選舉一個唯一的leader,leader接受客戶端的命令,將這些命令復制到其他follower,通知follower什么時候可以將這些日志輸入到狀態(tài)機。data flow是單向的,從leader到follower。
raft使用心跳機制觸發(fā)leader election,當一個server start up,起始狀態(tài)是follower,只要收到leader和candidate的正確RPC請求,server就會保持follower的狀態(tài)。
如果follower在一定時間內(election timeout)沒有收到心跳,follower會認為當前沒有l(wèi)eader,并開始競選。
開始競選時,follower增加自己的current term并將狀態(tài)轉換為candidate,然后會選舉自己并發(fā)送RequestVote RPC請求給集群中的其他server。
一個candidate會保持自己的狀態(tài)直到下面三種情況之一發(fā)生:
1.贏得選舉
一個candidate在接收到集群中大多數節(jié)點對當前term的投票之后,贏得選舉。每個server在一個term中,最多只會給一個candidate投票,first-come-first-served,
2.其他節(jié)點成為leader
如果candidate收到其他節(jié)點的RPC請求,而且請求中的term大于等于candidate的current term,candidate會認為已經選出leader,并返回到follower狀態(tài)。
如果RPC請求中的term小于candidate的current term,candidate會拒絕該RPC請求。
3.一定時間內(election timeout)沒有選舉出leader
每個candidate都會time out,并且增加自己的term,開始新一輪的選舉
election timeout是在一個固定范圍內(例如150ms-300ms內)隨機的
上述機制保證在一個term中,只有一個candidate會成為leader,當一個candidate成為leader,它會發(fā)送心跳信息給所有其他的節(jié)點。
當一個leader被選舉出來之后,client發(fā)送請求給leader,leader將將請求作為一個新的entry添加到log中,然后并行的發(fā)送AppendEntries RPC請求(攜帶該entry)給follower。
leader判斷當前是否可以安全地將entry apply到狀態(tài)機中,此時該entry被叫做committed。然后leader將請求Apply到狀態(tài)機,并返回執(zhí)行結果。
log entry中會保存接受到entry時的term,以及一個用于標記log entry位置的index。
raft保證committed entries是持久化的,并最終會被所有的狀態(tài)機執(zhí)行。
當一個entry被leader replicate到集群中的大多數節(jié)點上時,該entry就是committed。
如果某條entry是committed的,該entry之前的entry也都是committed的,包括之前的leader創(chuàng)建的entry。
leader會記錄committed的日志的最高index,并將該index包含在之后的AppendEntries RPC中(包括 heartbeats),
follower知道某個entry是committed,就會將該entry apply到狀態(tài)機中。
AppendEntries Consistency Check:
當發(fā)送一個AppendEntries RPC,leader將新entries之前最近的log entry的index和term包含在RPC請求中。如果follower發(fā)現自己的log中沒有該index和term的entry,就會拒絕新的entries。
類似于一個歸納的過程,最初的空的log滿足Log Matching Property,當有新的log entry時,consistency check同樣保證了新的log entry滿足Log Matching Property。
這樣,當AppendEntries請求返回成功的響應時,leader就知道follower的log在new entries之前的部分和自己的log一樣。
一個新的leader被選舉出來之后,follower的log可能和新的leader不一樣,follower可能有l(wèi)eader沒有的entry,也可能有老的leader沒有commit的entry。
為了讓follower的log和leader的完全一致,leader需要找到follower的log和自己的log分叉的地方,刪除follower在分叉點之后的log entry,然后leader向follower發(fā)送自己在分叉點之后的log entry。
上述操作通過AppendEntries RPC來實現,leader會記錄每個follower的nextIndex,即leader應該發(fā)送給這個follower的下一個log entry的index。
如果follower的log和leader的不一樣,AppendEntries RPC會失敗,leader減小nextIndex并重試。
如果需要,這個協議也可以優(yōu)化,如果AppendEntries RPC失敗,follower可以返回沖突的term,以及該term的第一個index。這樣原來一個不同的entry就需要一個AppendEntries請求,現在一個term需要一個AppendEntries請求。
這樣多個節(jié)點之間的日志就會收斂一致。同時,leader從不會覆蓋或者刪除自己的log entry,符合Leader Append-Only Property。
上述部分并不能完全保證每個狀態(tài)機以相同的順序執(zhí)行相同的命令。
例如,一個follower可能在當前l(fā)eader commit一些log entry的時候不可用,然后該follower被選舉為新的leader后,就可能覆蓋之前committed的日志,從而造成不同的狀態(tài)機執(zhí)行了不同的命令。
下面討論leader election的限制,這些限制能保證任何term的leader都會包含之前term中committed的log entry。
RequestVote RPC請求包含candidate的log,如果voter的log比candidate的log更加up-to-date,voter會拒絕這次投票。
up-to-date:兩個log,如果term不同,term更大的更新,如果term相同,日志更長的更新
一個leader不能立即判斷出一個之前term的entry是否應該committed,即使該entry被存儲到了大多數節(jié)點上。
(a)S1是leader,寫入一條命令,index是2
(b)S1 crash,S5選舉為leader,寫入一條命令,index是3
(c)S5 crash,S1選舉為leader,寫入一條命令,index是4,并將index為2的log entry同步到S3,commit和apply index為2的log entry
(d)S1 crash,S5選舉為leader,會覆蓋掉index2,造成多個server的狀態(tài)機apply不一樣的log entry
因此,raft不會因為之前term的log entry被存儲到了大多數節(jié)點上,就將該entry commit(raft never commits log entries from pervious terms by counting replicas),只有當前term的log entry被存儲到大多數節(jié)點上時,才會判斷該entry為commit
(only log entries from the leader's current term are committed by counting replicas)。這樣,由于Log Matching Property,所有之前的entries都會間接地被commit掉。
raft使用two-phase的方案來處理configuration change,集群首先會切換到一個名叫joint consensus的中間狀態(tài),一旦joint consensus被committed了,集群就會使用新的configuration。
joint consensus將老的和新的configuration結合在一起:
集群configuration也是以log entry的方式存儲和同步到其他server上。
當leader接收到configuration從C-old變?yōu)镃-new的請求之后,將C-old,new的entry存儲到log中,并同步到其他server上。
follower接收到entry后,無論該entry是否已經committed,都會使用entry包含的configuration替換當前的configuration。
如果leader crash,新的leader的configuration只可能是C-old或者C-old,new。
C-old,new被committed之后,leader創(chuàng)建一條C-new的entry,并同步到其他server上。
follower接收到該entry之后,無論該entry是否已經committed,都會使用C-new替換之前的configuration。
當C-new被committed之后,C-old中的節(jié)點就可以被shut down。
上述方案需要解決三個問題:
1.新加入的server需要很長時間才能追上leader,在這段時間內無法committed,為此raft引入了non-voting 成員
2.老的leader可能不在新的configuration中。為此,leader在C-new committed之后,leader需要變成follower
3.removed servers可能會影響集群。這些節(jié)點不會接收到心跳,然后time out,然后開始新一輪的選舉。這會造成當前的leader變成follower,然后重新選舉leader。上述過程會不斷重復。
為此,server需要忽略RequestVote RPC,如果當前的leader沒有time out。
snapshotting是log compacting的最簡單的辦法,狀態(tài)機將當前系統(tǒng)狀態(tài)被寫進snapshot,之前的log entry會被刪除。
每個server會獨立的take snapshot,snapshot會包含log中已經committed的log entry。
snapshot中會包含少量的元數據,
last included index:狀態(tài)機apply的最后一個log entry,也就是snapshot替換掉的最后一個log entry 的index。
last included term:上述entry的term
元數據用于snapshot之后的第一個log entry的AppendEntries consistency check,由于該entry需要之前的log的index和term。
元數據也包含最近的configuration。
對于一個剛加進集群的server,leader使用InstallSnapshot RPC發(fā)送snapshot給follower。
raft需要把所有的請求發(fā)送給leader,當一個client start,client連接集群中的任意一個節(jié)點,如果該節(jié)點不是leader,則會拒絕client的請求,并返回leader的信息(AppendEntries請求包含了leader的網絡地址)。
如果leader crash,client請求會timeout,然后隨機選擇一個節(jié)點繼續(xù)重試。
raft協議需要實現線性語義(linearizable semantics),每個操作會且只會執(zhí)行一次(exactly once),但是僅靠之前提到的幾點,raft協議的可能會讓一個命令執(zhí)行多次。
例如,leader在commit一個log entry,但是還沒有來得及返回給client之后,就crash掉,client會在新的leader上重復發(fā)送相同的請求,造成該請求執(zhí)行兩次。
解決方法是client給每個命令一個序列號,狀態(tài)機記錄每個client最近執(zhí)行的序列號。如果狀態(tài)機收到一個命令,該命令的序列號是之前執(zhí)行過的,就立即返回而不再執(zhí)行該命令。
只讀操作可能會讀到過期的數據。因為client訪問一個leader時,集群中選舉出了其他leader,該leader馬上就會變成follower。linear semantics不能返回過期數據。
raft的解決方案分兩步,
首先,一個leader必須確認哪些entry是committed,Leader Completeness Property保證一個leader擁有所有committed的entry,但是在term的開始階段,leader并不知道哪些是已經committed的。因此,leader需要在term的開始,先commit一個no-op entry。
然后,leader必須檢查當前是否有其他leader被選舉出來,將要取代自己的leader位置。raft在返回read-only請求的響應之前,需要和集群中的大多數節(jié)點發(fā)送心跳。
本文是JasonWilder對于常見的服務發(fā)現項目Zookeeper,Doozer,Etcd所寫的一篇博客,其原文地址如下:Open-SourceServiceDiscovery。服務發(fā)現是大多數分布式系統(tǒng)以及面向服務架構(SOA)的一個核心組成部分。這個難題,簡單來說,可以認為是:當一項服務存在于多個主機節(jié)點上時,client端如何決策獲取相應正確的IP和port。在傳統(tǒng)情況下,當出現服務存在于多個主機節(jié)點上時,都會使用靜態(tài)配置的方法來實現服務信息的注冊。但是當大型系統(tǒng)中,需要部署服務的時候,事情就顯得復雜得多。在一個實時的系統(tǒng)中,由于自動或者人工的服務擴展,或者服務的新添加部署,還有主機的宕機或者被替換,服務的location信息可能會很頻繁的變化。在這樣的場景下,為了避免不必要的服務中斷,動態(tài)的服務注冊和發(fā)現就顯得尤為重要。關于服務發(fā)現的話題,已經很多次被人所提及,而且也的確不斷的在發(fā)展?,F在,筆者介紹一下該領域內一些open-source或者被經常被世人廣泛討論的解決方案,嘗試理解它們到底是如何工作的。特別的是,我們會較為專注于每一個解決方案的一致性算法,到底是強一致性,還是弱一致性;運行時依賴;client的集成選擇;以后最后這些特性的折中情況。本文首先從幾個強一致性的項目于開始,比如Zookeeper,Doozer,Etcd,這些項目主要用于服務間的協調,同時又可用于服務的注冊。隨后,本文將討論一些在服務注冊以及發(fā)現方面比較有意思的項目,比如:Airbnb的SmartStack,Netflix的Eureka,Bitly的NSQ,Serf,SpotifyandDNS,最后是SkyDNS。問題陳述在定位服務的時候,其實會有兩個方面的問題:服務注冊(ServiceRegistration)和服務發(fā)現(ServiceDiscovery)。服務注冊——一個服務將其位置信息在中心注冊節(jié)點注冊的過程。該服務一般會將它的主機IP地址以及端口號進行注冊,有時也會有服務訪問的認證信息,使用協議,版本號,以及關于環(huán)境的一些細節(jié)信息。服務發(fā)現——client端的應用實例查詢中心注冊節(jié)點以獲知服務位置的過程。每一個服務的服務注冊以及服務發(fā)現,都需要考慮一些關于開發(fā)以及運營方面的問題:監(jiān)控——當一個已注冊完畢的服務失效的時候,如何處理。一些情況下,在一個設定的超時定時(timeout)后,該服務立即被一個其他的進程在中心注冊節(jié)點處注銷。這種情況下,服務通常需要執(zhí)行一個心跳機制,來確保自身的存活狀態(tài);而客戶端必然需要能夠可靠處理失效的服務。負載均衡——如果多個相同地位的服務都注冊完畢,如何在這些服務之間均衡所有client的請求負載?如果有一個master節(jié)點的話,是否可以正確處理client訪問的服務的位置。集成方式——信息注冊節(jié)點是否需要提供一些語言綁定的支持,比如說,只支持Java?集成的過程是否需要將注冊過程以及發(fā)現過程的代碼嵌入到你的應用程序中,或者使用一個類似于集成助手的進程?運行時依賴——是否需要JVM,ruby或者其他在你的環(huán)境中并不兼容的運行時?可用性考慮——如果系統(tǒng)失去一個節(jié)點的話,是否還能正常工作?系統(tǒng)是否可以實時更新或升級,而不造成任何系統(tǒng)的癱瘓?既然集群的信息注冊節(jié)點是架構中的中心部分,那該模塊是否會存在單點故障問題?強一致性的Registries首先介紹的三個服務注冊系統(tǒng)都采用了強一致性協議,實際上為達到通用的效果,使用了一致性的數據存儲。盡管我們把它們看作服務的注冊系統(tǒng),其實它們還可以用于協調服務來協助leader選舉,以及在一個分布式clients的集合中做centralizedlocking。ZookeeperZookeeper是一個集中式的服務,該服務可以維護服務配置信息,命名空間,提供分布式的同步,以及提供組化服務。Zookeeper是由Java語言實現,實現了強一致性(CP),并且是使用Zab協議在ensemble集群之間協調服務信息的變化。Zookeeper在ensemble集群中運行3個,5個或者7個成員。眾多client端為了可以訪問ensemble,需要使用綁定特定的語言。這種訪問形式被顯性的嵌入到了client的應用實例以及服務中。服務注冊的實現主要是通過命令空間(namespace)下的ephemeralnodes。ephemeralnodes只有在client建立連接后才存在。當client所在節(jié)點啟動之后,該client端會使用一個后臺進程獲取client的位置信息,并完成自身的注冊。如果該client失效或者失去連接的時候,該ephemeralnode就從樹中消息。服務發(fā)現是通過列舉以及查看具體服務的命名空間來完成的。Client端收到目前所有注冊服務的信息,無論一個服務是否不可用或者系統(tǒng)新添加了一個同類的服務。Client端同時也需要自行處理所有的負載均衡工作,以及服務的失效工作。Zookeeper的API用起來可能并沒有那么方便,因為語言的綁定之間可能會造成一些細小的差異。如果使用的是基于JVM的語言的話,CuratorServiceDiscoveryExtension可能會對你有幫助。由于Zookeeper是一個CP強一致性的系統(tǒng),因此當網絡分區(qū)(Partition)出故障的時候,你的部分系統(tǒng)可能將出出現不能注冊的情況,也可能出現不能找到已存在的注冊信息,即使它們可能在Partition出現期間仍然正常工作。特殊的是,在任何一個non-quorum端,任何讀寫都會返回一個錯誤信息。DoozerDoozer是一個一致的分布式數據存儲系統(tǒng),Go語言實現,通過Paxos算法來實現共識的強一致性系統(tǒng)。這個項目開展了數年之后,停滯了一段時間,而且現在也關閉了一些fork數,使得fork數降至160。.不幸的是,現在很難知道該項目的實際發(fā)展狀態(tài),以及它是否適合使用于生產環(huán)境。Doozer在集群中運行3,5或者7個節(jié)點。和Zookeeper類似,Client端為了訪問集群,需要在自身的應用或者服務中使用特殊的語言綁定。Doozer的服務注冊就沒有Zookeeper這么直接,因為Doozer沒有那些ephemeralnode的概念。一個服務可以在一條路徑下注冊自己,如果該服務不可用的話,它也不會自動地被移除。現有很多種方式來解決這樣的問題。一個選擇是給注冊進程添加一個時間戳和心跳機制,隨后在服務發(fā)現進程中處理那些超時的路徑,也就是注冊的服務信息,當然也可以通過另外一個清理進程來實現。服務發(fā)現和Zookeeper很類似,Doozer可以羅列出指定路徑下的所有入口,隨后可以等待該路徑下的任意改動。如果你在注冊期間使用一個時間戳和心跳,你就可以在服務發(fā)現期間忽略或者刪除任何過期的入口,也就是服務信息。和Zookeeper一樣,Doozer是一個CP強一致性系統(tǒng),當發(fā)生網絡分區(qū)故障時,會導致同樣的后果。EtcdEtcd是一個高可用的K-V存儲系統(tǒng),主要應用于共享配置、服務發(fā)現等場景。Etcd可以說是被Zookeeper和Doozer催生而出。整個系統(tǒng)使用Go語言實現,使用Raft算法來實現選舉一致,同時又具有一個基于HTTP+JSON的API。Etcd,和Doozer和Zookeeper相似,通常在集群中運行3,5或者7個節(jié)點。client端可以使用一種特定的語言進行綁定,同時也可以通過使用HTTP客戶端自行實現一種。服務注冊環(huán)節(jié)主要依賴于使用一個keyTTL來確保key的可用性,該keyTTL會和服務端的心跳捆綁在一起。如果一個服務在更新key的TTL時失敗了,那么Etcd會對它進行超時處理。如果一個服務變?yōu)椴豢捎脿顟B(tài),client會需要處理這樣的連接失效,然后嘗試另連接一個服務實例。服務發(fā)現環(huán)節(jié)設計到羅列在一個目錄下的所有key值,隨后等待在該目錄上的所有變動信息。由于API接口是基于HTTP的,所以client應用會的Etcd集群保持一個long-polling的連接。由于Etcd使用Raft一致性協議,故它應該是一個強一致性系統(tǒng)。Raft需要一個leader被選舉,然后所有的client請求會被該leader所處理。然而,Etcd似乎也支持從non-leaders中進行讀取信息,使用的方式是在讀情況下提高可用性的未公開的一致性參數。在網絡分區(qū)故障期間,寫操作還是會被leader處理,而且同樣會出現失效的情況。
此文是根據周洋在【高可用架構群】中的分享內容整理而成,轉發(fā)請注明出處。
周洋,360手機助手技術經理及架構師,負責360長連接消息系統(tǒng),360手機助手架構的開發(fā)與維護。
不知道咱們群名什么時候改為“Python高可用架構群”了,所以不得不說,很榮幸能在接下來的一個小時里在Python群里討論golang....
360消息系統(tǒng)介紹
360消息系統(tǒng)更確切的說是長連接push系統(tǒng),目前服務于360內部多個產品,開發(fā)平臺數千款app,也支持部分聊天業(yè)務場景,單通道多app復用,支持上行數據,提供接入方不同粒度的上行數據和用戶狀態(tài)回調服務。
目前整個系統(tǒng)按不同業(yè)務分成9個功能完整的集群,部署在多個idc上(每個集群覆蓋不同的idc),實時在線數億量級。通常情況下,pc,手機,甚至是智能硬件上的360產品的push消息,基本上是從我們系統(tǒng)發(fā)出的。
關于push系統(tǒng)對比與性能指標的討論
很多同行比較關心go語言在實現push系統(tǒng)上的性能問題,單機性能究竟如何,能否和其他語言實現的類似系統(tǒng)做對比么?甚至問如果是創(chuàng)業(yè),第三方云推送平臺,推薦哪個?
其實各大廠都有類似的push系統(tǒng),市場上也有類似功能的云服務。包括我們公司早期也有erlang,nodejs實現的類似系統(tǒng),也一度被公司要求做類似的對比測試。我感覺在討論對比數據的時候,很難保證大家環(huán)境和需求的統(tǒng)一,我只能說下我這里的體會,數據是有的,但這個數據前面估計會有很多定語~
第一個重要指標:單機的連接數指標
做過長連接的同行,應該有體會,如果在穩(wěn)定連接情況下,連接數這個指標,在沒有網絡吞吐情況下對比,其實意義往往不大,維持連接消耗cpu資源很小,每條連接tcp協議棧會占約4k的內存開銷,系統(tǒng)參數調整后,我們單機測試數據,最高也是可以達到單實例300w長連接。但做更高的測試,我個人感覺意義不大。
因為實際網絡環(huán)境下,單實例300w長連接,從理論上算壓力就很大:實際弱網絡環(huán)境下,移動客戶端的斷線率很高,假設每秒有1000分之一的用戶斷線重連。300w長連接,每秒新建連接達到3w,這同時連入的3w用戶,要進行注冊,加載離線存儲等對內rpc調用,另外300w長連接的用戶心跳需要維持,假設心跳300s一次,心跳包每秒需要1w tps。單播和多播數據的轉發(fā),廣播數據的轉發(fā),本身也要響應內部的rpc調用,300w長連接情況下,gc帶來的壓力,內部接口的響應延遲能否穩(wěn)定保障。這些集中在一個實例中,可用性是一個挑戰(zhàn)。所以線上單實例不會hold很高的長連接,實際情況也要根據接入客戶端網絡狀況來決定。
第二個重要指標:消息系統(tǒng)的內存使用量指標
這一點上,使用go語言情況下,由于協程的原因,會有一部分額外開銷。但是要做兩個推送系統(tǒng)的對比,也有些需要確定問題。比如系統(tǒng)從設計上是否需要全雙工(即讀寫是否需要同時進行)如果半雙工,理論上對一個用戶的連接只需要使用一個協程即可(這種情況下,對用戶的斷線檢測可能會有延時),如果是全雙工,那讀/寫各一個協程。兩種場景內存開銷是有區(qū)別的。
另外測試數據的大小往往決定我們對連接上設置的讀寫buffer是多大,是全局復用的,還是每個連接上獨享的,還是動態(tài)申請的。另外是否全雙工也決定buffer怎么開。不同的策略,可能在不同情況的測試中表現不一樣。
第三個重要指標:每秒消息下發(fā)量
這一點上,也要看我們對消息到達的QoS級別(回復ack策略區(qū)別),另外看架構策略,每種策略有其更適用的場景,是純粹推?還是推拉結合?甚至是否開啟了消息日志?日志庫的實現機制、以及緩沖開多大?flush策略……這些都影響整個系統(tǒng)的吞吐量。
另外為了HA,增加了內部通信成本,為了避免一些小概率事件,提供閃斷補償策略,這些都要考慮進去。如果所有的都去掉,那就是比較基礎庫的性能了。
所以我只能給出大概數據,24核,64G的服務器上,在QoS為message at least,純粹推,消息體256B~1kB情況下,單個實例100w實際用戶(200w+)協程,峰值可以達到2~5w的QPS...內存可以穩(wěn)定在25G左右,gc時間在200~800ms左右(還有優(yōu)化空間)。
我們正常線上單實例用戶控制在80w以內,單機最多兩個實例。事實上,整個系統(tǒng)在推送的需求上,對高峰的輸出不是提速,往往是進行限速,以防push系統(tǒng)瞬時的高吞吐量,轉化成對接入方業(yè)務服務器的ddos攻擊所以對于性能上,我感覺大家可以放心使用,至少在我們這個量級上,經受過考驗,go1.5到來后,確實有之前投資又增值了的感覺。
消息系統(tǒng)架構介紹
下面是對消息系統(tǒng)的大概介紹,之前一些同學可能在gopher china上可以看到分享,這里簡單講解下架構和各個組件功能,額外補充一些當時遺漏的信息:
架構圖如下,所有的service都 written by golang.
幾個大概重要組件介紹如下:
dispatcher service根據客戶端請求信息,將應網絡和區(qū)域的長連接服務器的,一組IP傳送給客戶端。客戶端根據返回的IP,建立長連接,連接Room service.
room Service,長連接網關,hold用戶連接,并將用戶注冊進register service,本身也做一些接入安全策略、白名單、IP限制等。
register service是我們全局session存儲組件,存儲和索引用戶的相關信息,以供獲取和查詢。
coordinator service用來轉發(fā)用戶的上行數據,包括接入方訂閱的用戶狀態(tài)信息的回調,另外做需要協調各個組件的異步操作,比如kick用戶操作,需要從register拿出其他用戶做異步操作.
saver service是存儲訪問層,承擔了對redis和mysql的操作,另外也提供部分業(yè)務邏輯相關的內存緩存,比如廣播信息的加載可以在saver中進行緩存。另外一些策略,比如客戶端sdk由于被惡意或者意外修改,每次加載了消息,不回復ack,那服務端就不會刪除消息,消息就會被反復加載,形成死循環(huán),可以通過在saver中做策略和判斷。(客戶端總是不可信的)。
center service提供給接入方的內部api服務器,比如單播或者廣播接口,狀態(tài)查詢接口等一系列api,包括運維和管理的api。
舉兩個常見例子,了解工作機制:比如發(fā)一條單播給一個用戶,center先請求Register獲取這個用戶之前注冊的連接通道標識、room實例地址,通過room service下發(fā)給長連接 Center Service比較重的工作如全網廣播,需要把所有的任務分解成一系列的子任務,分發(fā)給所有center,然后在所有的子任務里,分別獲取在線和離線的所有用戶,再批量推到Room Service。通常整個集群在那一瞬間壓力很大。
deployd/agent service用于部署管理各個進程,收集各組件的狀態(tài)和信息,zookeeper和keeper用于整個系統(tǒng)的配置文件管理和簡單調度
關于推送的服務端架構
常見的推送模型有長輪訓拉取,服務端直接推送(360消息系統(tǒng)目前主要是這種),推拉結合(推送只發(fā)通知,推送后根據通知去拉取消息).
拉取的方式不說了,現在并不常用了,早期很多是nginx+lua+redis,長輪訓,主要問題是開銷比較大,時效性也不好,能做的優(yōu)化策略不多。
直接推送的系統(tǒng),目前就是360消息系統(tǒng)這種,消息類型是消耗型的,并且對于同一個用戶并不允許重復消耗,如果需要多終端重復消耗,需要抽象成不同用戶。
推的好處是實時性好,開銷小,直接將消息下發(fā)給客戶端,不需要客戶端走從接入層到存儲層主動拉取.
但純推送模型,有個很大問題,由于系統(tǒng)是異步的,他的時序性無法精確保證。這對于push需求來說是夠用的,但如果復用推送系統(tǒng)做im類型通信,可能并不合適。
對于嚴格要求時序性,消息可以重復消耗的系統(tǒng),目前也都是走推拉結合的模型,就是只使用我們的推送系統(tǒng)發(fā)通知,并附帶id等給客戶端做拉取的判斷策略,客戶端根據推送的key,主動從業(yè)務服務器拉取消息。并且當主從同步延遲的時候,跟進推送的key做延遲拉取策略。同時也可以通過消息本身的QoS,做純粹的推送策略,比如一些“正在打字的”低優(yōu)先級消息,不需要主動拉取了,通過推送直接消耗掉。
哪些因素決定推送系統(tǒng)的效果?
首先是sdk的完善程度,sdk策略和細節(jié)完善度,往往決定了弱網絡環(huán)境下最終推送質量.
SDK選路策略,最基本的一些策略如下:有些開源服務可能會針對用戶hash一個該接入區(qū)域的固定ip,實際上在國內環(huán)境下不可行,最好分配器(dispatcher)是返回散列的一組,而且端口也要參開,必要時候,客戶端告知是retry多組都連不上,返回不同idc的服務器。因為我們會經常檢測到一些case,同一地區(qū)的不同用戶,可能對同一idc內的不同ip連通性都不一樣,也出現過同一ip不同端口連通性不同,所以用戶的選路策略一定要靈活,策略要足夠完善.另外在選路過程中,客戶端要對不同網絡情況下的長連接ip做緩存,當網絡環(huán)境切換時候(wifi、2G、3G),重新請求分配器,緩存不同網絡環(huán)境的長連接ip。
客戶端對于數據心跳和讀寫超時設置,完善斷線檢測重連機制
針對不同網絡環(huán)境,或者客戶端本身消息的活躍程度,心跳要自適應的進行調整并與服務端協商,來保證鏈路的連通性。并且在弱網絡環(huán)境下,除了網絡切換(wifi切3G)或者讀寫出錯情況,什么時候重新建立鏈路也是一個問題??蛻舳税l(fā)出的ping包,不同網絡下,多久沒有得到響應,認為網絡出現問題,重新建立鏈路需要有個權衡。另外對于不同網絡環(huán)境下,讀取不同的消息長度,也要有不同的容忍時間,不能一刀切。好的心跳和讀寫超時設置,可以讓客戶端最快的檢測到網絡問題,重新建立鏈路,同時在網絡抖動情況下也能完成大數據傳輸。
結合服務端做策略
另外系統(tǒng)可能結合服務端做一些特殊的策略,比如我們在選路時候,我們會將同一個用戶盡量映射到同一個room service實例上。斷線時,客戶端盡量對上次連接成功的地址進行重試。主要是方便服務端做閃斷情況下策略,會暫存用戶閃斷時實例上的信息,重新連入的 時候,做單實例內的遷移,減少延時與加載開銷.
客戶端?;畈呗?/p>
很多創(chuàng)業(yè)公司愿意重新搭建一套push系統(tǒng),確實不難實現,其實在協議完備情況下(最簡單就是客戶端不回ack不清數據),服務端會保證消息是不丟的。但問題是為什么在消息有效期內,到達率上不去?往往因為自己app的push service存活能力不高。選用云平臺或者大廠的,往往sdk會做一些?;畈呗裕热绾推渌鸻pp共生,互相喚醒,這也是云平臺的push service更有保障原因。我相信很多云平臺旗下的sdk,多個使用同樣sdk的app,為了實現服務存活,是可以互相喚醒和保證活躍的。另外現在push sdk本身是單連接,多app復用的,這為sdk實現,增加了新的挑戰(zhàn)。
綜上,對我來說,選擇推送平臺,優(yōu)先會考慮客戶端sdk的完善程度。對于服務端,選擇條件稍微簡單,要求部署接入點(IDC)越要多,配合精細的選路策略,效果越有保證,至于想知道哪些云服務有多少點,這個群里來自各地的小伙伴們,可以合伙測測。
go語言開發(fā)問題與解決方案
下面講下,go開發(fā)過程中遇到挑戰(zhàn)和優(yōu)化策略,給大家看下當年的一張圖,在第一版優(yōu)化方案上線前一天截圖~
可以看到,內存最高占用69G,GC時間單實例最高時候高達3~6s.這種情況下,試想一次悲劇的請求,經過了幾個正在執(zhí)行gc的組件,后果必然是超時... gc照成的接入方重試,又加重了系統(tǒng)的負擔。遇到這種情況當時整個系統(tǒng)最差情況每隔2,3天就需要重啟一次~
當時出現問題,現在總結起來,大概以下幾點
1.散落在協程里的I/O,Buffer和對象不復用。
當時(12年)由于對go的gc效率理解有限,比較奔放,程序里大量short live的協程,對內通信的很多io操作,由于不想阻塞主循環(huán)邏輯或者需要及時響應的邏輯,通過單獨go協程來實現異步。這回會gc帶來很多負擔。
針對這個問題,應盡量控制協程創(chuàng)建,對于長連接這種應用,本身已經有幾百萬并發(fā)協程情況下,很多情況沒必要在各個并發(fā)協程內部做異步io,因為程序的并行度是有限,理論上做協程內做阻塞操作是沒問題。
如果有些需要異步執(zhí)行,比如如果不異步執(zhí)行,影響對用戶心跳或者等待response無法響應,最好通過一個任務池,和一組常駐協程,來消耗,處理結果,通過channel再傳回調用方。使用任務池還有額外的好處,可以對請求進行打包處理,提高吞吐量,并且可以加入控量策略.
2.網絡環(huán)境不好引起激增
go協程相比較以往高并發(fā)程序,如果做不好流控,會引起協程數量激增。早期的時候也會發(fā)現,時不時有部分主機內存會遠遠大于其他服務器,但發(fā)現時候,所有主要profiling參數都正常了。
后來發(fā)現,通信較多系統(tǒng)中,網絡抖動阻塞是不可免的(即使是內網),對外不停accept接受新請求,但執(zhí)行過程中,由于對內通信阻塞,大量協程被 創(chuàng)建,業(yè)務協程等待通信結果沒有釋放,往往瞬時會迎來協程暴漲。但這些內存在系統(tǒng)穩(wěn)定后,virt和res都并沒能徹底釋放,下降后,維持高位。
處理這種情況,需要增加一些流控策略,流控策略可以選擇在rpc庫來做,或者上面說的任務池來做,其實我感覺放在任務池里做更合理些,畢竟rpc通信庫可以做讀寫數據的限流,但它并不清楚具體的限流策略,到底是重試還是日志還是緩存到指定隊列。任務池本身就是業(yè)務邏輯相關的,它清楚針對不同的接口需要的流控限制策略。
3.低效和開銷大的rpc框架
早期rpc通信框架比較簡單,對內通信時候使用的也是短連接。這本來短連接開銷和性能瓶頸超出我們預期,短連接io效率是低一些,但端口資源夠,本身吞吐可以滿足需要,用是沒問題的,很多分層的系統(tǒng),也有http短連接對內進行請求的
但早期go版本,這樣寫程序,在一定量級情況,是支撐不住的。短連接大量臨時對象和臨時buffer創(chuàng)建,在本已經百萬協程的程序中,是無法承受的。所以后續(xù)我們對我們的rpc框架作了兩次調整。
第二版的rpc框架,使用了連接池,通過長連接對內進行通信(復用的資源包括client和server的:編解碼Buffer、Request/response),大大改善了性能。
但這種在一次request和response還是占用連接的,如果網絡狀況ok情況下,這不是問題,足夠滿足需要了,但試想一個room實例要與后面的數百個的register,coordinator,saver,center,keeper實例進行通信,需要建立大量的常駐連接,每個目標機幾十個連接,也有數千個連接被占用。
非持續(xù)抖動時候(持續(xù)逗開多少無解),或者有延遲較高的請求時候,如果針對目標ip連接開少了,會有瞬時大量請求阻塞,連接無法得到充分利用。第三版增加了Pipeline操作,Pipeline會帶來一些額外的開銷,利用tcp的全雙特性,以盡量少的連接完成對各個服務集群的rpc調用。
4.Gc時間過長
Go的Gc仍舊在持續(xù)改善中,大量對象和buffer創(chuàng)建,仍舊會給gc帶來很大負擔,尤其一個占用了25G左右的程序。之前go team的大咖郵件也告知我們,未來會讓使用協程的成本更低,理論上不需要在應用層做更多的策略來緩解gc.
改善方式,一種是多實例的拆分,如果公司沒有端口限制,可以很快部署大量實例,減少gc時長,最直接方法。不過對于360來說,外網通常只能使用80和433。因此常規(guī)上只能開啟兩個實例。當然很多人給我建議能否使用SO_REUSEPORT,不過我們內核版本確實比較低,并沒有實踐過。
另外能否模仿nginx,fork多個進程監(jiān)控同樣端口,至少我們目前沒有這樣做,主要對于我們目前進程管理上,還是獨立的運行的,對外監(jiān)聽不同端口程序,還有配套的內部通信和管理端口,實例管理和升級上要做調整。
解決gc的另兩個手段,是內存池和對象池,不過最好做仔細評估和測試,內存池、對象池使用,也需要對于代碼可讀性與整體效率進行權衡。
這種程序一定情況下會降低并行度,因為用池內資源一定要加互斥鎖或者原子操作做CAS,通常原子操作實測要更快一些。CAS可以理解為可操作的更細行為粒度的鎖(可以做更多CAS策略,放棄運行,防止忙等)。這種方式帶來的問題是,程序的可讀性會越來越像C語言,每次要malloc,各地方用完后要free,對于對象池free之前要reset,我曾經在應用層嘗試做了一個分層次結構的“無鎖隊列”
上圖左邊的數組實際上是一個列表,這個列表按大小將內存分塊,然后使用atomic操作進行CAS。但實際要看測試數據了,池技術可以明顯減少臨時對象和內存的申請和釋放,gc時間會減少,但加鎖帶來的并行度的降低,是否能給一段時間內的整體吞吐量帶來提升,要做測試和權衡…
在我們消息系統(tǒng),實際上后續(xù)去除了部分這種黑科技,試想在百萬個協程里面做自旋操作申請復用的buffer和對象,開銷會很大,尤其在協程對線程多對多模型情況下,更依賴于golang本身調度策略,除非我對池增加更多的策略處理,減少忙等,感覺是在把runtime做的事情,在應用層非常不優(yōu)雅的實現。普遍使用開銷理論就大于收益。
但對于rpc庫或者codec庫,任務池內部,這些開定量協程,集中處理數據的區(qū)域,可以嘗試改造~
對于有些固定對象復用,比如固定的心跳包什么的,可以考慮使用全局一些對象,進行復用,針對應用層數據,具體設計對象池,在部分環(huán)節(jié)去復用,可能比這種無差別的設計一個通用池更能進行效果評估.
消息系統(tǒng)的運維及測試
下面介紹消息系統(tǒng)的架構迭代和一些迭代經驗,由于之前在其他地方有過分享,后面的會給出相關鏈接,下面實際做個簡單介紹,感興趣可以去鏈接里面看
架構迭代~根據業(yè)務和集群的拆分,能解決部分灰度部署上線測試,減少點對點通信和廣播通信不同產品的相互影響,針對特定的功能做獨立的優(yōu)化.
消息系統(tǒng)架構和集群拆分,最基本的是拆分多實例,其次是按照業(yè)務類型對資源占用情況分類,按用戶接入網絡和對idc布點要求分類(目前沒有條件,所有的產品都部署到全部idc)
系統(tǒng)的測試go語言在并發(fā)測試上有獨特優(yōu)勢。
對于壓力測試,目前主要針對指定的服務器,選定線上空閑的服務器做長連接壓測。然后結合可視化,分析壓測過程中的系統(tǒng)狀態(tài)。但壓測早期用的比較多,但實現的統(tǒng)計報表功能和我理想有一定差距。我覺得最近出的golang開源產品都符合這種場景,go寫網絡并發(fā)程序給大家?guī)淼谋憷?,讓大家把以往為了降低復雜度,拆解或者分層協作的組件,又組合在了一起。
QA
Q1:協議棧大小,超時時間定制原則?
移動網絡下超時時間按產品需求通常2g,3G情況下是5分鐘,wifi情況下5~8分鐘。但對于個別場景,要求響應非常迅速的場景,如果連接idle超過1分鐘,都會有ping,pong,來校驗是否斷線檢測,盡快做到重新連接。
Q2:消息是否持久化?
消息持久化,通常是先存后發(fā),存儲用的redis,但落地用的mysql。mysql只做故障恢復使用。
Q3:消息風暴怎么解決的?
如果是發(fā)送情況下,普通產品是不需要限速的,對于較大產品是有發(fā)送隊列做控速度,按人數,按秒進行控速度發(fā)放,發(fā)送成功再發(fā)送下一條。
Q4:golang的工具鏈支持怎么樣?我自己寫過一些小程序千把行之內,確實很不錯,但不知道代碼量上去之后,配套的debug工具和profiling工具如何,我看上邊有分享說golang自帶的profiling工具還不錯,那debug呢怎么樣呢,官方一直沒有出debug工具,gdb支持也不完善,不知你們用的什么?
是這樣的,我們正常就是println,我感覺基本上可以定位我所有問題,但也不排除由于并行性通過println無法復現的問題,目前來看只能靠經驗了。只要常見并發(fā)嘗試,經過分析是可以找到的。go很快會推出調試工具的~
Q5:協議棧是基于tcp嗎?
是否有協議拓展功能?協議棧是tcp,整個系統(tǒng)tcp長連接,沒有考慮擴展其功能~如果有好的經驗,可以分享~
Q6:問個問題,這個系統(tǒng)是接收上行數據的吧,系統(tǒng)接收上行數據后是轉發(fā)給相應系統(tǒng)做處理么,是怎么轉發(fā)呢,如果需要給客戶端返回調用結果又是怎么處理呢?
系統(tǒng)上行數據是根據協議頭進行轉發(fā),協議頭里面標記了產品和轉發(fā)類型,在coordinator里面跟進產品和轉發(fā)類型,回調用戶,如果用戶需要阻塞等待回復才能后續(xù)操作,那通過再發(fā)送消息,路由回用戶。因為整個系統(tǒng)是全異步的。
Q7:問個pushsdk的問題。pushsdk的單連接,多app復用方式,這樣的情況下以下幾個問題是如何解決的:1)系統(tǒng)流量統(tǒng)計會把所有流量都算到啟動連接的應用吧?而啟動應用的連接是不固定的吧?2)同一個pushsdk在不同的應用中的版本號可能不一樣,這樣暴露出來的接口可能有版本問題,如果用單連接模式怎么解決?
流量只能算在啟動的app上了,但一般這種安裝率很高的app承擔可能性大,常用app本身被檢測和殺死可能性較少,另外消息下發(fā)量是有嚴格控制 的。整體上用戶還是省電和省流量的。我們pushsdk盡量向上兼容,出于這個目的,push sdk本身做的工作非常有限,抽象出來一些常見的功能,純推的系統(tǒng),客戶端策略目前做的很少,也有這個原因。
Q8:生產系統(tǒng)的profiling是一直打開的么?
不是一直打開,每個集群都有采樣,但需要開啟哪個可以后臺控制。這個profling是通過接口調用。
Q9:面前系統(tǒng)中的消息消費者可不可以分組?類似于Kafka。
客戶端可以訂閱不同產品的消息,接受不同的分組。接入的時候進行bind或者unbind操作
Q10:為什么放棄erlang,而選擇go,有什么特別原因嗎?我們現在用的erlang?
erlang沒有問題,原因是我們上線后,其他團隊才做出來,經過qa一個部門對比測試,在沒有顯著性能提升下,選擇繼續(xù)使用go版本的push,作為公司基礎服務。
Q11:流控問題有排查過網卡配置導致的idle問題嗎?
流控是業(yè)務級別的流控,我們上線前對于內網的極限通信量做了測試,后續(xù)將請求在rpc庫內,控制在小于內部通信開銷的上限以下.在到達上限前作流控。
Q12:服務的協調調度為什么選擇zk有考慮過raft實現嗎?golang的raft實現很多啊,比如Consul和ectd之類的。
3年前,還沒有后兩者或者后兩者沒聽過應該。zk當時公司內部成熟方案,不過目前來看,我們不準備用zk作結合系統(tǒng)的定制開發(fā),準備用自己寫的keeper代替zk,完成配置文件自動轉數據結構,數據結構自動同步指定進程,同時里面可以完成很多自定義的發(fā)現和控制策略,客戶端包含keeper的sdk就可以實現以上的所有監(jiān)控數據,profling數據收集,配置文件更新,啟動關閉等回調。完全抽象成語keeper通信sdk,keeper之間考慮用raft。
Q13:負載策略是否同時在服務側與CLIENT側同時做的 (DISPATCHER 會返回一組IP)?另外,ROOM SERVER/REGISTER SERVER連接狀態(tài)的一致性|可用性如何保證? 服務側?;钣袩o特別關注的地方? 安全性方面是基于TLS再加上應用層加密?
會在server端做,比如重啟操作前,會下發(fā)指令類型消息,讓客戶端進行主動行為。部分消息使用了加密策略,自定義的rsa+des,另外滿足我們安全公司的需要,也定制開發(fā)很多安全加密策略。一致性是通過冷備解決的,早期考慮雙寫,但實時狀態(tài)雙寫同步代價太高而且容易有臟數據,比如register掛了,調用所有room,通過重新刷入指定register來解決。
Q14:這個keeper有開源打算嗎?
還在寫,如果沒耦合我們系統(tǒng)太多功能,一定會開源的,主要這意味著,我們所有的bind在sdk的庫也需要開源~
Q15:比較好奇lisence是哪個如果開源?
etcd是一個高可用的鍵值存儲系統(tǒng),主要用于共享配置和服務發(fā)現。 etcd是由CoreOS開發(fā)并維護的,靈感來自于 ZooKeeper 和 Doozer,它使用Go語言編寫,并通過Raft一致性算法處理日志復制以保證強一致性。 Raft是一個來自Stanford的新的一致性算法,。
網頁名稱:go語言實現raft協議的簡單介紹
本文URL:http://m.rwnh.cn/article40/hieheo.html
成都網站建設公司_創(chuàng)新互聯,為您提供ChatGPT、品牌網站建設、企業(yè)網站制作、做網站、面包屑導航、軟件開發(fā)
聲明:本網站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯