本文介紹MGR的故障檢測機制,以及發生網絡分區后如何處理。
(資料圖)
當MGR中個別節點與其他節點通信異常時,就會觸發故障檢測機制,經過多數派節點投票判斷后再決定是否將其驅逐出MGR。
發生故障時,只有當多數派節點存活前提下,故障檢測機制才能工作正常,使得MGR恢復可用性;當多數派節點本身已經異常的時候,MGR是無法自行恢復的,需要人為介入。
MGR中,各節點間會定期交換消息,當超過5秒(在MySQL中是固定5秒,在GreatSQL中新增選項group_replication_communication_flp_timeout?可配置)還沒收到某個節點的任何消息時,就會將這個節點標記為可疑狀態。MGR各正常存活節點會對可疑節點每隔15秒檢測一次(在GreatSQL中,調整為每隔2秒檢測,效率更高,下面再介紹),當確認可疑節點在超過group_replication_member_expel_timeout秒超時閾值后,再將該節點驅逐出MGR。
需要注意的是,選項group_replication_member_expel_timeout?從MySQL 8.0.21開始,默認值為5。在MySQL 8.0.21之前,默認值為0。在 <= MySQL 8.0.20 的版本中,group_replication_member_expel_timeout默認值為 0,也就是當某節點被判定為可疑狀態后,會被立即驅逐。在MySQL 5.7中,沒有該選項,行為模式也是一樣的。
在MySQL中,MGR故障檢測是由獨立線程來完成的,該線程每隔15秒(MySQL在源碼中硬編碼定義了SUSPICION_PROCESSING_THREAD_PERIOD = 15)進行一次檢查。因此,節點發生故障時,極端情況下,可能要耗費 5(5秒沒發送消息,被判定為可疑節點) + 15(SUSPICION_PROCESSING_THREAD_PERIOD) + 5(group_replication_member_expel_timeout) = 25秒 才能驅逐該節點。最好的情況下,最快 5 + 5 = 10秒 后即可驅逐該節點。
在GreatSQL中對此進行了優化,新增選項group_replication_communication_flp_timeout?(默認值5,最小3,最大60) 用于定義節點超過多少秒沒發消息會被判定為可疑。此外,還修改了硬編碼SUSPICION_PROCESSING_THREAD_PERIOD = 2?,也就是故障檢測線程每2秒(而非15秒)就會檢查一次。因此在GreatSQL中,最快5(group_replication_communication_flp_timeout) + 5(group_replication_member_expel_timeout) = 10秒?完成驅逐,最慢5 + 5 + 2(SUSPICION_PROCESSING_THREAD_PERIOD) = 12秒完成驅逐。
在網絡條件不好的情況下,建議適當加大 group_replication_member_expel_timeout 值,避免網絡波動造成節點頻繁被驅逐。不過也要注意另一個風險,見這篇文章所述:技術分享 | 為什么MGR一致性模式不推薦AFTER
存活的節點會把被驅逐的節點從成員列表中刪除,但被驅逐的節點自身可能還沒“意識”到(可能只是因為臨時短時間的網絡異常),在狀態恢復后,該節點會先收到一條包含該節點已被驅逐出MGR的新視圖信息,而后再重新加入MGR。被驅逐的節點會嘗試group_replication_autorejoin_tries次重新加入MGR。
選項group_replication_exit_state_action?定義了被驅逐節點之后的行為模式,默認是設置為super_read_only = ON,進入只讀模式。
2. 少數派成員失聯時當集群中的少數派成員失聯時(Unreachable),默認不會自動退出MGR集群。這時可以設置group_replication_unreachable_majority_timeout?,當少數派節點和多數派節點失聯超過該閾值時,少數派節點就會自動退出MGR集群。如果設置為0,則會立即退出,而不再等待。節點退出集群時,相應的事務會被回滾,然后節點狀態變成ERROR,并執行選項group_replication_exit_state_action?定義的后續行為模式。如果設置了group_replication_autorejoin_tries,也會再自動嘗試重新加入MGR集群。
3. 多數派成員失聯時當多數派節點也失聯時(Unreachable),例如在一個3節點的MGR集群中,有2個節點失聯了,剩下的1個節點不能成為多數派,也就無法對新事務請求做出決策,這種情況就是發生了網絡分區(腦裂)。也就是一個MGR集群分裂成兩個或多個區域,也因此缺少多數派,這種情況下,MGR集群無法提供寫入服務。
此時需要人工介入,通過設置group_replication_force_members?強行指定新的成員列表。例如MGR集群由3個節點組成,其中兩個節點都意外失聯了,僅剩一個節點存活,此時就需要手動設置group_replication_force_members強行指定成員列表,也就是只有最后存活的節點。
兩個重要提醒:
使用該方法基本上是最后迫不得已的選擇,因此需要非常謹慎。若使用不當,可能會造成一個人為的腦裂場景,或者造成整個系統被完全阻塞。也有可能會選錯新的節點列表。 強制設定新的節點列表并解除MGR阻塞后,記得再將該選項值清空,否則無法再次執行START GROUP_REPLICATION。
4. Xcom cache當有節點處于可疑狀態時,在它被確定踢出MGR集群之前,事務會緩存在其他節點的Xcom cache中。這個cache對應選項group_replication_message_cache_size。當可疑節點短時內又恢復后,就會先從Xcom cache中讀取記錄進行恢復,然后再進行分布式恢復。因此,在網絡不太穩定或并發事務較大,且物理內存也足夠的場景里,可以適當加大Xcom cache size;反之,在物理內存較小,或者網絡較為穩定的場景里,不應設置太大,降低發生OOM的風險。
在MySQL 5.7里,Xcom cache size最大值1G,且不可動態調整。從MySQL 8.0開始,可對其動態調整。在 <= MySQL 8.0.20的版本中,最小值1G。在>= MySQL 8.0.21的版本中,最小值128M。
可以執行下面的SQL查看當前Xcom cache消耗情況:
[root@GreatSQL]> SELECT * FROM performance_schema.memory_summary_global_by_event_name WHERE EVENT_NAME LIKE ‘memory/group_rpl/GCS_XCom::xcom_cache";
在MySQL中,是動態按需分配Xcom cache的,如果太多有空閑,就釋放;如果不夠用,再動態分配更多內存,一次分配大概250000個cache item,很容易造成約150ms的響應延遲。也就是說,會隨著事務多少的變化而可能頻繁產生響應延遲。
在GreatSQL中,對Xcom cache采用了靜態化分配機制,即一開始就預分配約1GB內存用于xcom cache,這可以避免前面提到的響應延遲抖動風險,不過“副作用”是mysqld進程所占用的內存會比原來多,在內存特別緊張的服務器上不太適合。
5. 網絡分區在MGR里,事務是需要經過多數派節點達成一致性共識(要么都提交,要么都回滾)。同樣的,前面提到的節點間通信消息也是需要在多數派節點間達成共識。當MGR中的多數派節點失聯時,就無法就此形成共識,也無法滿足多數派投票/仲裁要求,此時MGR將拒絕寫事務請求。這種情況,也稱為網絡分區,及一個MGR集群分裂成兩個或多個分區,彼此間相互無法連通,任何一個分區中的節點都不能達成多數派。
可能Primary節點會因為網絡分區時被踢出MGR集群,它在重新加回時,可能會因為本地有此前還沒來得及同步到其他節點的事務,而造成本地有更多事務,會報告類似下面的錯誤:
This member has more executed transactions than those present in the group. Local transactions: xx:1-300917674 > Group transactions: xx:1-300917669
此時需要人工介入處理,選擇哪個節點作為最新的Primary節點。
6. 小結本文介紹了MGR的故障檢測機制、Xcom cache,什么是網絡分區,以及發生故障時都有什么影響,如何恢復故障等。
參考資料、文檔MySQL 8.0 Reference Manual(https://dev.mysql.com/doc/refman/8.0/en/group-replication.html)
數據庫內核開發 - 溫正湖(https://www.zhihu.com/column/c_206071340)
Group Replication原理 - 宋利兵(https://mp.weixin.qq.com/s/1iO-KISAU1HLSzEVLrxG9g)
X 關閉
X 關閉
- 15G資費不大降!三大運營商誰提供的5G網速最快?中國信通院給出答案
- 2聯想拯救者Y70發布最新預告:售價2970元起 迄今最便宜的驍龍8+旗艦
- 3亞馬遜開始大規模推廣掌紋支付技術 顧客可使用“揮手付”結賬
- 4現代和起亞上半年出口20萬輛新能源汽車同比增長30.6%
- 5如何讓居民5分鐘使用到各種設施?沙特“線性城市”來了
- 6AMD實現連續8個季度的增長 季度營收首次突破60億美元利潤更是翻倍
- 7轉轉集團發布2022年二季度手機行情報告:二手市場“飄香”
- 8充電寶100Wh等于多少毫安?鐵路旅客禁止、限制攜帶和托運物品目錄
- 9好消息!京東與騰訊續簽三年戰略合作協議 加強技術創新與供應鏈服務
- 10名創優品擬通過香港IPO全球發售4100萬股 全球發售所得款項有什么用處?