NVIDIA ConnectX 網卡助力社交網絡關鍵任務的分布式應用實現精確計時功能。
Facebook 正在開放其開源計算項目 —— 時間設備項目(OCP TAP)的源代碼,該項目以經濟高效的方式提供高度精確的計時功能,以及跨數據中心時間同步功能。在 NVIDIA ConnectX-6 Dx 網卡(NIC)的支持下,這項解決方案中的 Time Card 通過精確計時協議,可以將幾乎所有商用現成的(COTS)服務器變成精確的計時設備,與整個數據中心內的其他服務器共享精確計時。
Facebook Time Card 和 NVIDIA 網卡這對組合為數據中心運營商提供了一個先進和低成本的時間同步解決方案,并且該解決方案具有開源、安全、可靠和可擴展等特點。
精確的時間為什么對于數據中心至關重要
隨著應用的擴展并且 IT 運營遍布全球,保持數據中心內不同服務器,或位于各大洲不同數據中心的數據同步,變得更加重要和困難。
分布式數據庫必須追蹤事件的確切順序以保持一致性并顯示因果關系。如果有兩個人試圖購買同一只股票,那么根據公平性(和合規性)原則,就必須知道買單的先后順序。同樣,當每小時有上千萬人發布內容,數百萬用戶喜歡/稱贊/喜愛這些帖子時,Facebook 必須知道每個帖子、每次點贊、每條回復或每個表情符號的實際發生順序。
保持數據同步的方法之一是讓每個數據中心在每件事務操作完成后向其他中心發送更新,但由于數據中心之間的延遲太高,以至于無法支持每小時數百萬個事件,這種做法很快就變得無法維持。
更好的方法是讓每個服務器和數據中心同步到精確的時間,使彼此之間的時間誤差不超過一微秒。這樣每個站點都能追蹤時間,并且當它們與其他數據中心共享事件時,能夠正確排序每個事件。
時間同步越精確,應用性能就越快。最近的一項測試表明,將計時精度提高 80 倍(將任何時間差異減小 80 倍)能夠使分布式數據庫的運行速度提高 3 倍。在相同的服務器硬件上僅僅通過提高更精確和更可靠的時間就能實現顯著的性能提升。
網卡和網絡在時間同步中的作用
OCP TAP 項目(以及 Facebook 關于開源時間設備的博客文章)確切地定義了 Time Card 如何接收和處理來自 GPS 衛星網絡的時間信號,即使在衛星信號暫時不可用時,也能保持精確的時間并與時間服務器共享這一精確的時間。同時,網絡以及所使用的網卡也發揮著至關重要的作用。
時間設備中的網卡必須有一個用于連接 Time Card 的每秒時間脈沖(PPS)端口。這能確保每個時間服務器中 Time Card 和網卡之間的精確時間同步(精確到幾納秒之內)。ConnectX-6 Dx 是首批支持此功能的現代 25/50/100/200Gb/s網卡之一。它還能過濾和檢查傳入的 PPS 信號,并使用其 ASIC 中的硬件在內部維護時間,從而確保精確性和一致性。
計時精度達到次微秒級的時間裝置可以與數百個使用網絡時間協議(NTP)的普通服務器或數萬個使用精確時間協議(PTP)的服務器共享該計時。由于網絡會增加時間信號的延遲,因此 NTP 和 PTP 通過為數據包添加時間戳來測量兩個方向的傳輸時間、將抖動和延遲考慮在內并計算出每個服務器上的正確時間(PTP 的精度更高,因此它開始取代 NTP 協議)。
另一種方法是使用軟件解決方案來添加時間戳,但在由于擁堵或 CPU 的干擾,用軟件添加時間戳的誤差可能達到幾毫秒,因此以今天的軟件方案添加時間戳是過于難預測、不精確、甚至是不可行的。
相反,ConnectX-6 Dx 網卡和 BlueField-2 DPU 可以在高達 100Gb/s的速度下,在接收的數據包到達后和發送的數據包進入網絡前,立即為它們添加硬件時間戳。ConnectX-6 Dx 可以為每一個數據包添加時間戳,即使在網絡負載極大的情況下,時間戳的精度誤差也小于 4 納秒(4ns)。
其他大多數具有時間功能的網卡只對部分數據包進行標記并且精度抖動很大,因此在網絡流量大的情況下,它們的時間精確性就會下降。
NVIDIA 網絡解決方案為商用網卡提供最精確的延遲測量,從而在所有服務器上實現最精確的時間,應用層面的時間誤差通常低于一微秒(《1us)。
網絡計時精度的提升意味著每臺服務器上的時間變得更加精確,這將為分布式應用帶來更快的性能(并且為每個人帶來更多的 Facebook “點贊數”)。
精確時間同步,人人皆可受益
OCP 時間設備項目使任何組織都能獲得精準的計時功能。來自 Facebook、NVIDIA 和 OCP 的開源時間服務器和開源管理工具提供了一個讓每個人都可以像超大規模用戶一樣輕松使用這項功能的方法。
NVIDIA 所提供的精確時間功能網卡和 DPU(數據處理器)具有精確計時設備所需的超精確時間戳和網絡同步功能。當使用 BlueField DPU 時,就可以在其 Arm 核上運行 PTP 棧,從而將時間棧與其他服務器軟件隔離、持續驗證該服務器內的時間精確性并持續計算整個數據中心的最大時間誤差范圍。
為了發揮經過優化的時間服務器和時間同步所帶來的優勢,云服務和數據庫已經增加了基于時間的新命令和 API。這些解決方案一同開啟了精確計時的新時代,提高了分布式應用的性能并為云和企業帶來新型解決方案。
關于 OCP TAP 的技術規格、原理圖、機械原理、物料清單和源代碼等詳細信息,歡迎訪問:http://www.ocptap.com。
編輯:jq
-
NVIDIA
+關注
關注
14文章
4983瀏覽量
103010 -
網卡
+關注
關注
4文章
310瀏覽量
27379 -
源代碼
+關注
關注
96文章
2945瀏覽量
66735 -
OCP
+關注
關注
0文章
79瀏覽量
16427
原文標題:NVIDIA 助力 Facebook 新一代計時系統實現精確計時
文章出處:【微信號:sekorm_info,微信公眾號:世強SEKORM】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論