利用NVIDIA RAPIDS加速DolphinDB Shark平臺提升計算性能

DolphinDB 是一家高性能數據庫研發企業，也是 NVIDIA 初創加速計劃成員，其開發的產品基于高性能分布式時序數據庫，是支持復雜計算和流數據分析的實時計算平臺，適用于金融、電力、物聯網和零售等行業。

DolphinDB 公司推出的 CPU-GPU 異構計算平臺 Shark，將 DolphinDB 上的復雜指標計算能力無縫切換到 GPU 算力平臺，從而大幅提升了計算性能。

DolphinDB 開發團隊與 NVIDIA 團隊合作，通過利用NVIDIA RAPIDS加速 Shark 異構計算平臺的因子挖掘算法運行效率，幫助 Shark 將因子挖掘的效率提升 2 - 10 倍，并基于NVIDIA cuDF實現 Shark 因子高效計算，大幅減少開發成本，縮短開發周期。

RAPIDS 的 RMM 是一套開源的內存/顯存管理庫，提供 C++ 和 Python 接口，相比 cuMalloc、cuFree 等操作來講，具有更好的性能和靈活性；RAPIDS libcudf 是基于 GPU 的 C++ DataFrame 庫，提供了基礎數據結構，并且內置了基礎的函數算子。

Shark 的因子挖掘功能，能通過利用遺傳算法從數據中挖掘出有效的因子。在這一場景中，遺傳算法會隨機生成大量因子并進行計算。這一過程會頻繁地創建和釋放臨時空間來存儲中間結果，直接使用原生的 CUDA C 顯存分配和釋放接口，會嚴重降低執行效率。

Shark 的因子計算功能，針對金融領域的數據分析與處理，提供了豐富的函數庫。如果從零開始將 CPU 的函數遷移至 GPU，需要為 GPU 重新實現一套底層數據結構以及基礎計算函數，會導致開發周期的延長以及開發成本的增加。

基于以上挑戰，DolphinDB 開發團隊與 NVIDIA 團隊及 RAPIDS 開發團隊合作，通過利用 RAPIDS RMM，解決因子挖掘過程中頻繁申請和釋放顯存導致的性能問題；通過基于 RAPIDS libcudf 進行二次開發，實現因子計算，從而縮短開發周期，降低開發成本。

Shark 進行因子挖掘時，會通過遺傳算法隨機生成海量的因子計算公式。這些公式長度不等，接受的參數數量也不盡相同。因此在計算時，需要頻繁地申請和釋放臨時空間用于存儲中間結果。DolphinDB 開發團隊通過使用 RMM 對顯存進行池化，從而對中間結果所使用的顯存進行高效地分配、釋放和重用。

Shark 支持用戶輸入自定義的公式，自動將自定義公式轉換為計算圖，并在 GPU 完成計算，從而加快數據分析和處理的效率。如果從零開始將 DolphinDB 的計算函數遷移至 Shark，則需要在 GPU 構建 array、table 等底層數據結構，并實現大量基礎計算函數。經過調研后，DolphinDB 開發團隊決定基于 RAPIDS libcudf 進行二次開發，復用 cuDF 的 column、table 等底層數據結構，并借助 cuDF 的 groupby 和 rolling 框架，只需要完成算子的核心計算邏輯，即可完成 DolphinDB 時序算子和橫截面算子的遷移，這樣不僅極大提升了開發效率，還降低了開發成本。

下圖展示了在不同規模數據下，使用 RAPIDS 的 RMM 顯存管理庫相對于原生的 CUDA 顯存分配 API，Shark 因子挖掘效率的對比。可以清楚地看到，使用 RMM 可以顯著提升 Shark 因子挖掘效率，最高可達到 10 倍的加速比。