?

首頁: 電子電路圖,電子技術資料網站首頁

電子資料下載: 電子資料下載頻道 -- 為電子工程師提供激發創新靈感的新方案、新的參考設計、新的設計構想等可下載的電子資料！

電子技術應用: 電子技術應用頻道 -- 為電子工程師提供電子產品設計所需的技術分析、設計技巧、設計工具、測試工具等技術文章！

電子元器件: 專業的電子元器件平臺 -- 及時發布大量最新IC、分立器件、模組等電子元器件產品信息！

電子電路圖: 電路圖頻道 -- 提供電子電路圖,原理圖,汽車電路圖,手機電路圖,功放電路圖,電源電路圖等電路圖紙

電子技術論壇: 構建電子工程師交流的平臺 -- 在交流中進一步學習設計技巧、規劃技術人生、提升自我價值！

源碼下載: 源碼下載頻道; uCOS編程 C/C++語言編程 Symbian編程 Linux/uClinux/Unix編程 Windows編程 matlab源程序 php源碼下載 asp.net源碼下載 java源碼下載匯編編程驅動程序單片機編程數值算法/人工智能

您的位置：電子發燒友網>源碼下載>數值算法/人工智能>

HBase客戶端實踐重試機制

大小：0.6 MB 人氣： 2017-10-10 需要積分：1

推薦 + 挑錯 + 收藏(0) + 用戶評論（0）

前往下載地址

分享到:

標簽：Hbase(11036)

現在，網易視頻云與大家分享HBase客戶端實踐–重試機制。
　　在運維HBase的這段時間里，發現業務用戶一方面比較關注HBase本身服務的讀寫性能：吞吐量以及讀寫延遲，另一方面也會比較關注HBase客戶端使用上的問題，主要集中在兩個方面：是否提供了重試機制來保證系統操作的容錯性？是否有必要的超時機制保證系統能夠fastfail，保證系統的低延遲特性？
　　這個系列我們集中介紹HBase客戶端使用上的這兩大問題，本文通過分析之前一個真實的案例來介紹HBase客戶端提供的重試機制，并通過配置合理的參數使得客戶端在保證一定容錯性的同時還能夠保證系統的低延遲特性。
　　案發現場
　　最近某業務在使用HBase客戶端讀取數據時出現了大量線程block的情況，業務方保留了當時的線程堆棧信息，如下圖所示：
　　 HBase客戶端實踐重試機制

　　看到這樣的問題，首先從日志和監控排查了業務表和region server，確認了在很長時間內確實沒有請求進來，除此之外并沒有其他有用的信息，同時也沒有接到該集群上其他用戶的異常反饋，從現象看，這次異常是在特定環境下才會觸發的。
　　案件分析過程
　　1.根據上圖圖1所示，所有的請求都block在《0x0000000782a936f0》這把全局鎖上，這里需要關注兩個問題：
　　哪個線程持有了這把全局鎖《0x0000000782a936f0》？
　　這是一把什么樣的全局鎖（對于問題本身并不重要，有興趣可以參考步驟3）？
　　2.哪個線程持有了這把鎖？
　　2.1 很容易在jstack日志中通過搜索找到全局鎖《0x0000000782a936f0》被如下線程持有：
　　 HBase客戶端實踐重試機制

　　定睛一看，該線程持有了這把全局鎖，而且處于TIMED_WAITING狀態，因此這把鎖可能長時間不釋放，導致所有需要這把全局鎖的線程都阻塞等待。好了，那問題就轉化成了：為什么這個線程會處于TIME_WAITING狀態？
　　2.2 根據上圖提示，查看源碼中RpcRetryingCall.java的115行代碼，可以確定該線程處于TIME_WAITING狀態是因為自己休眠導致，如下圖所示：
　　 HBase客戶端實踐重試機制

　　RpcRetryingCall函數是Rpc請求重試機制的實現，所以可以有兩點推斷：
　　HBase客戶端請求在那個時間段網絡有異常導致rpc請求失敗，進入重試邏輯
　　根據HBase的重試機制（退避機制），每兩次重試機制之間會休眠一段時間，即上圖115行代碼，這個休眠時間太長導致這個線程一直處于TIME_WAITING狀態。
　　休眠時間由上圖中expectedSleep = callable.sleep（pause，tries + 1）決定，根據hbase算法（見第三部分），默認最大的expectedSleep為20s，整個重試時間會持續8min，這也就是說全局鎖會被持有8min，可這并不能解釋持續將近幾個小時的阻塞無請求。除非有兩種情況：
　　配置有問題：需要客戶端檢查hbase.client.pause和hbase.client.retries.number兩個參數配置出現異常，比如hbase.client.pause參數如果手抖配成了10000，就有可能出現幾個小時阻塞的情況
　　網絡持續有問題：如果線程1持有全局鎖重試失敗之后退出，線程2競爭到這把鎖，此時網絡依然有問題，線程2會再次進入重試，重試8min之后失敗退出，循環下去，也有可能出現幾個小時阻塞的情況
　　和業務方確認配置，所有參數基本屬于默認配置，因此猜測一不成立，那最有可能的情況就是猜測二。經過確認，在事發當時（凌晨0點～早上6點）確實存在很多服務因為云網絡升級異常發生抖動的情況出現。然而因為沒有具體的日志信息，所以并不能完全確認猜測是否正確。但是，通過問題的分析可以進一步明白HBase重試機制以及部分客戶端參數優化策略，這也是寫這篇文章的初衷之一。

非常好我支持^.^

(0) 0%

不好我反對

(0) 0%

下載地址

不能下載？請通知我們

HBase客戶端實踐重試機制下載

普通下載普通下載

用戶評論

發表評論即可獲得積分！ 詳見積分規則

發表評論

用戶評論

評價:好評中評差評

發表評論，獲取積分！請遵守相關規定！

or

注冊會員

游客:

分享你我的電子世界

上傳我的電子資料

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

HBase客戶端實踐重試機制

下載地址

HBase客戶端實踐重試機制下載

相關電子資料下載

用戶評論

發表評論

分享你我的電子世界

實用電子設計資料下載

源碼下載排行

熱門詞