ArangoDB具有其固有的多模型功能,非常適合您的機器學習工作負載。ArangoMLPipeline現在可以作為云服務使用——ArangoMLPipeline Cloud。
機器學習基礎設施的ArangoML
在構建生產級機器學習基礎設施時,ArangoML在整個機器學習生命周期中提供對通用元數據存儲的支持,并支持機器學習模型的再現性、監控和審計。
多模型動力機器學習
ArangoDB支持分析任務和多模型機器學習。當處理結構化和非結構化數據的混合時,它特別有用,因為ArangoDB可以本地高效地管理不同的數據模型。
機器學習基礎設施的ArangoML
眾所周知,訓練數據是訓練機器學習模型的重要前提。但對于構建生產級機器學習平臺,我們實際上應該同樣關注另一種類型的數據:元數據。生產機器學習平臺由許多不同的步驟和組件組成:
這些組件中的大多數產生某種元數據,包括例如對數據集的引用、具有相關訓練和測試精度的訓練運行、模型服務統計、將訓練模型鏈接到用于訓練的數據集的來源信息等等。數據科學家和數據操作人員需要通用的元數據存儲來回答以下問題:哪個模型是用這個數據集訓練的,哪個特性可以產生最佳的測試精度。
在這里,ArangoML提供了一個簡單的界面,可以跨您最喜歡的機器學習框架和工具進行訪問。
由于ArangoML由ArangoDB的多模型功能支持,因此它可以存儲非結構化數據,例如特定訓練運行(文檔)的訓練統計信息,以及與相關數據集和結果模型的連接(圖)。所以上面的查詢基本上變成了圖遍歷。
ArangoMLPipeline是一個強大而簡單的工具,用于促進數據操作和數據科學之間的團隊合作,但也允許為審計員提供詳細的審計跟蹤和整個機器學習環境的高級分析。
多模型動力機器學習
ArangoDB為不同的數據模型(包括圖形、文檔和鍵值)提供本機支持,并允許使用單個查詢語言跨所有模型進行查詢。
這些多模型功能在用于特征工程的機器學習平臺中特別有用,因為它們使用戶能夠將不同的數據方面組合成特征,而這些特征又可以被機器學習框架(如TensorFlow或PyTorch)用于訓練模型。
數據量至關重要,尤其是對于現代深度學習而言。作為分布式數據庫的ArangoDB還可以處理對于單個節點來說太大的數據集(例如,圖形)。
此外,ArangoDB本機支持大量圖算法,包括PageRank、頂點中心性、頂點貼近度、連接組件或社區檢測。
所有這些功能使ArangoDB和本地的多種模型成為許多機器學習用例的一個非常有用的工具。
審核編輯:劉清
-
數據庫
+關注
關注
7文章
3817瀏覽量
64498 -
機器學習
+關注
關注
66文章
8423瀏覽量
132752
原文標題:ArangoML:用于機器學習的ArangoDB
文章出處:【微信號:哲想軟件,微信公眾號:哲想軟件】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論