色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

DASK適用于Python中的并行和分布式計算

NVIDIA英偉達 ? 來源:NVIDIA英偉達 ? 作者:NVIDIA英偉達 ? 2022-05-20 17:35 ? 次閱讀

Dask 是一個靈活的開源庫,適用于 Python 中的并行和分布式計算。

什么是 DASK ?

Dask 是一個開源庫,旨在為現有 Python 堆棧提供并行性。Dask 與 Python 庫(如 NumPy 數組、Pandas DataFrame 和 scikit-learn)集成,無需學習新的庫或語言,即可跨多個核心、處理器和計算機實現并行執行。

Dask 由兩部分組成:

用于并行列表、數組和 DataFrame 的 API 集合,可原生擴展 Numpy 、NumPy 、Pandas 和 scikit-learn ,以在大于內存環境或分布式環境中運行。Dask 集合是底層庫的并行集合(例如,Dask 數組由 Numpy 數組組成)并運行在任務調度程序之上。

一個任務調度程序,用于構建任務圖形,協調、調度和監控針對跨 CPU 核心和計算機的交互式工作負載優化的任務。

74888b28-d784-11ec-bce3-dac502259ad0.png

Dask 包含三個并行集合,即 DataFrame 、Bag 和數組,每個均可自動使用在 RAM 和磁盤之間分區的數據,以及根據資源可用性分布在集群中多個節點之間的數據。對于可并行但不適合 Dask 數組或 DataFrame 等高級抽象的問題,有一個“延遲”函數使用 Python 裝飾器修改函數,以便它們延遲運行。這意味著執行被延遲,并且函數及其參數被放置到任務圖形中。

Dask 的任務調度程序可以擴展至擁有數千個節點的集群,其算法已在一些全球最大的超級計算機上進行測試。其任務調度界面可針對特定作業進行定制。Dask 可提供低用度、低延遲和極簡的序列化,從而加快速度。

在分布式場景中,一個調度程序負責協調許多工作人員,將計算移動到正確的工作人員,以保持連續、無阻塞的對話。多個用戶可能共享同一系統。此方法適用于 Hadoop HDFS 文件系統以及云對象存儲(例如 Amazon 的 S3 存儲)。

該單機調度程序針對大于內存的使用量進行了優化,并跨多個線程和處理器劃分任務。它采用低用度方法,每個任務大約占用 50 微秒。

為何選擇 DASK?

Python 的用戶友好型高級編程語言和 Python 庫(如 NumPy 、Pandas 和 scikit-learn)已經得到數據科學家的廣泛采用。

這些庫是在大數據用例變得如此普遍之前開發的,沒有強大的并行解決方案。Python 是單核計算的首選,但用戶不得不為多核心或多計算機并行尋找其他解決方案。這會中斷用戶體驗,還會讓用戶感到非常沮喪。

過去五年里,對 Python 工作負載擴展的需求不斷增加,這導致了 Dask 的自然增長。Dask 是一種易于安裝、快速配置的方法,可以加速 Python 中的數據分析,無需開發者升級其硬件基礎設施或切換到其他編程語言。啟動 Dask 作業所使用的語法與其他 Python 操作相同,因此可將其集成,幾乎不需要重新寫代碼。

74cbdf40-d784-11ec-bce3-dac502259ad0.png

此外,由于擁有強大的網絡建設堆棧,Python 受到網絡開發者的青睞,Dask 可利用該堆棧構建一個靈活、功能強大的分布式計算系統,能夠擴展各種工作負載。Dask 的靈活性使其能夠從其他大數據解決方案(如 Hadoop 或 Apache Spark)中脫穎而出,而且它對本機代碼的支持使得 Python 用戶和 C/C++/CUDA 開發者能夠輕松使用。

Dask 已被 Python 開發者社區迅速采用,并且隨著 Numpy 和 Pandas 的普及而增長,這為 Python 提供了重要的擴展,可以解決特殊分析和數學計算問題。

Dask 的擴展性遠優于 Pandas,尤其適用于易于并行的任務,例如跨越數千個電子表格對數據進行排序。加速器可以將數百個 Pandas DataFrame 加載到內存中,并通過單個抽象進行協調。

如今, Dask 由一個開發者社區管理,該社區涵蓋數十家機構和 PyData 項目,例如 Pandas 、Jupyter 和 Scikit-Learn 。Dask 與這些熱門工具的集成促使采用率迅速提高,在需要 Pythonic 大數據工具的開發者中采用率約達 20%。

75400668-d784-11ec-bce3-dac502259ad0.png

為何 DASK 在應用 GPU 后表現更出色

在架構方面,CPU 僅由幾個具有大緩存內存的核心組成,一次只可以處理幾個軟件線程。相比之下,GPU 由數百個核心組成,可以同時處理數千個線程。

GPU 可提供曾經深奧難測的并行計算技術。

| Dask + NVIDIA:推動可訪問的加速分析

NVIDIA 了解 GPU 為數據分析提供的強大性能。因此,NVIDIA 致力于幫助數據科學、機器學習人工智能從業者從數據中獲得更大價值。鑒于 Dask 的性能和可訪問性,NVIDIA 開始將其用于 RAPIDS 項目,目標是將加速數據分析工作負載橫向擴展到多個 GPU 和基于 GPU 的系統。

75888578-d784-11ec-bce3-dac502259ad0.png

得益于可訪問的 Python 界面和超越數據科學的通用性,Dask 發展到整個 NVIDIA 的其他項目,成為從解析 JSON 到管理端到端深度學習工作流程等新應用程序的不二選擇。以下是 NVIDIA 使用 Dask 正在進行的許多項目和協作中的幾個:

| RAPIDS

RAPIDS 是一套開源軟件庫和 API,用于完全在 GPU 上執行數據科學流程,通常可以將訓練時間從幾天縮短至幾分鐘。RAPIDS 基于 NVIDIA CUDA-X AI 構建,并結合了圖形、機器學習、高性能計算 (HPC)等方面的多年開發經驗。

75c849a6-d784-11ec-bce3-dac502259ad0.png

雖然 CUDA-X 功能強大,但大多數數據分析從業者更喜歡使用 Python 工具集(例如前面提到的 NumPy、Pandas 和 Scikit-learn)來試驗、構建和訓練模型。Dask 是 RAPIDS 生態系統的關鍵組件,使數據從業者能夠更輕松地通過基于 Python 的舒適用戶體驗利用加速計算。

75eccef2-d784-11ec-bce3-dac502259ad0.png

| NVTabular

NVTabular 是一個特征工程和預處理庫,旨在快速輕松地處理 TB 級表格數據集。它基于 Dask-cuDF 庫構建,可提供高級抽象層,從而簡化大規模高性能 ETL 運算的創建。NVTabular 能夠利用 RAPIDS 和 Dask 擴展至數千個 GPU ,消除等待 ETL 進程完成這一瓶頸。

| BlazingSQL

BlazingSQL 是一個在 GPU 上運行的速度超快的分布式 SQL 引擎,也是基于 Dask-cuDF 構建的。它使數據科學家能夠輕松將大規模數據湖與 GPU 加速的分析連接在一起。借助幾行代碼,從業者可以直接查詢原始文件格式(例如 HDFS 和 AWS S3 等數據湖中的 CSV 和 Apache Parquet),并直接將結果傳輸至 GPU 顯存。

BlazingSQL 背后的公司 BlazingDB Inc 是 RAPIDS 的核心貢獻者,并與 NVIDIA 進行了大量合作。

| cuStreamz

在 NVIDIA 內部,我們正在使用 Dask 為我們的部分產品和業務運營提供動力。我們使用 Streamz、Dask 和 RAPIDS 構建了 cuStreamz ,這是一個 100% 使用原生 Python 的加速流數據平臺。借助 cuStreamz,我們能夠針對某些要求嚴苛的應用程序(例如 GeForce NOW、NVIDIA GPU Cloud 和 NVIDIA Drive SIM)進行實時分析。雖然這是一個新興項目,但與使用支持 Dask 的 cuStreamz 的其他流數據平臺相比,TCO 已顯著降低。

DASK 用例

Dask 能夠高效處理數百 TB 的數據,因此成為將并行性添加到 ML 處理、實現大型多維數據集分析的更快執行以及加速和擴展數據科學制作流程或工作流程的強大工具。因此,它可以用于 HPC 、金融服務、網絡安全和零售行業的各種用例。例如,Dask 與 Numpy 工作流程一起使用,在地球科學、衛星圖像、基因組學、生物醫學應用程序和機器學習算法中實現多維數據分析。

借助 Pandas DataFrame ,Dask 可以在時間序列分析、商業智能和數據準備方面啟用應用程序。Dask-ML 是一個用于分布式和并行機器學習的庫,可與 Scikit-Learn 和 XGBoost 一起使用,以針對大型模型和數據集創建可擴展的訓練和預測。開發者可以使用標準的 Dask 工作流程準備和設置數據,然后將數據交給 XGBoost 或 Tensorflow

DASK + RAPIDS:在企業中實現創新

許多公司正在同時采用 Dask 和 RAPIDS 來擴展某些重要的業務。NVIDIA 的一些大型合作伙伴都是各自行業的領導者,他們正在使用 Dask 和 RAPIDS 來為數據分析提供支持。以下是最近一些令人興奮的例子:

| Capital One

Capital One 的使命是“變革銀行業務”,投入巨資進行大規模數據分析,為客戶提供更好的產品和服務,并提高整個企業的運營效率。憑借一大群對 Python 情有獨鐘的數據科學家,Capital One 使用 Dask 和 RAPIDS 來擴展和加速傳統上難以并行化的 Python 工作負載,并顯著減少大數據分析的學習曲線。

| 美國國家能源研究科學計算中心 (NERSC)

NERSC 致力于為基礎科學研究提供計算資源和專業知識,是通過計算加速科學發現的世界領導者。該使命的一部分是讓研究人員能夠使用超級計算來推動科學探索。借助 Dask 和 RAPIDS ,超級計算背景有限的研究人員和科學家可以輕松訪問其新的超級計算機“Perlmutter”的驚人功能。他們利用 Dask 創建一個熟悉的界面,讓科學家掌握超級計算能力,推動各領域取得潛在突破。

| 沃爾瑪實驗室

作為零售領域巨頭,沃爾瑪利用海量數據集更好地服務客戶、預測產品需求并提高內部效率。借助大規模數據分析來實現這些目標,沃爾瑪實驗室轉而使用 Dask 、XGBoost 和 RAPIDS,將訓練時間縮短 100 倍,實現快速模型迭代和準確性提升,從而進一步發展業務。借助 Dask ,數據科學家可以利用 NVIDIA GPU 的能力解決他們最棘手的問題。

DASK 在企業中的應用:日益壯大的市場

隨著其在大型機構中不斷取得成功,越來越多的公司開始滿足企業對 Dask 產品和服務的需求。以下是一些正在滿足企業 Dask 需求的公司,它們表明市場已進入成熟期:

| Anaconda

像 SciPy 生態系統的大部分內容一樣,Dask 從 Anaconda Inc 開始,在那里受到關注并發展為更大的開源社區。隨著社區的發展和企業開始采用 Dask ,Anaconda 開始提供咨詢服務、培訓和開源支持,以簡化企業的使用。作為開源軟件的主要支持者,Anaconda 還聘請了許多 Dask 維護人員,為企業客戶提供對該軟件的深入理解。

| Coiled

由 Dask 維護人員(例如 Dask 項目主管和前 NVIDIA 員工 Matthew Rocklin)創立的 Coiled 提供圍繞 Dask 的托管解決方案,以在云和企業環境中輕松運行,還提供幫助優化機構內 Python 分析的企業支持。他們公開托管的托管部署產品為同時使用 Dask 和 RAPIDS 提供了一種強大而直觀的方式。

| Quansight

Quansight 致力于幫助企業從數據中創造價值,提供各種服務,推動各行各業的數據分析。與 Anaconda 類似,Quansight 為使用 Dask 的企業提供咨詢服務和培訓。借助 PyData 和 NumFOCUS 生態系統,Quansight 還為需要在開源軟件中增強功能或修復問題的企業提供支持。

為何 DASK 對數據科學團隊很重要

這一切都與加速和效率有關。開發交互式算法的開發者希望快速執行,以便對輸入和變量進行修補。在運行大型數據集時,內存有限的臺式機和筆記本電腦可能會讓人感到沮喪。Dask 功能開箱即用,即使在單個 CPU 上也可以提高處理效率。當應用于集群時,通常可以通過單一命令在多個 CPU 和 GPU 之間執行運算,將處理時間縮短 90% 。Dask 可以啟用非常龐大的訓練數據集,這些數據集通常用于機器學習,可在無法支持這些數據集的環境中運行。

Dask 擁有低代碼結構、低用度執行模型,并且可輕松集成到 Python、Pandas 和 Numpy 工作流程中,因此 Dask 正迅速成為每個 Python 開發者的必備工具。

原文標題:NVIDIA 大講堂 | 什么是 DASK ?

文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    4978

    瀏覽量

    102987
  • python
    +關注

    關注

    56

    文章

    4792

    瀏覽量

    84627
  • 分布式計算
    +關注

    關注

    0

    文章

    28

    瀏覽量

    4464

原文標題:NVIDIA 大講堂 | 什么是 DASK ?

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    分布式輸電線路故障定位分布式是指什么

    所謂分布式指的是產品的部署方式,是相對于集中式而言的。 一、部署方式 分散安裝:分布式輸電線路故障定位系統的采集裝置需要安裝在輸電線路的多個位置,通常是每隔一定距離設置一個監測點,以確保對整條線路
    的頭像 發表于 10-16 11:39 ?247次閱讀
    <b class='flag-5'>分布式</b>輸電線路故障定位<b class='flag-5'>中</b>的<b class='flag-5'>分布式</b>是指什么

    適用于筆記本計算應用Raptor Lake處理器的非隔離直流/直流設計

    電子發燒友網站提供《適用于筆記本計算應用Raptor Lake處理器的非隔離直流/直流設計.pdf》資料免費下載
    發表于 08-29 14:45 ?0次下載
    <b class='flag-5'>適用于</b>筆記本<b class='flag-5'>計算</b>應用<b class='flag-5'>中</b>Raptor Lake處理器的非隔離<b class='flag-5'>式</b>直流/直流設計

    適用于筆記本計算應用Alder Lake的非隔離直流/直流解決方案

    電子發燒友網站提供《適用于筆記本計算應用Alder Lake的非隔離直流/直流解決方案.pdf》資料免費下載
    發表于 08-27 09:57 ?0次下載
    <b class='flag-5'>適用于</b>筆記本<b class='flag-5'>計算</b>應用<b class='flag-5'>中</b>Alder Lake的非隔離<b class='flag-5'>式</b>直流/直流解決方案

    適用于筆記本計算應用Alder Lake處理器的非隔離直流/直流解決方案

    電子發燒友網站提供《適用于筆記本計算應用Alder Lake處理器的非隔離直流/直流解決方案.pdf》資料免費下載
    發表于 08-26 09:53 ?0次下載
    <b class='flag-5'>適用于</b>筆記本<b class='flag-5'>計算</b>應用<b class='flag-5'>中</b>Alder Lake處理器的非隔離<b class='flag-5'>式</b>直流/直流解決方案

    基于分布式計算的AR光波導測試圖像的仿真

    (10201次模擬):大約43小時。 模擬結果:不同視場角的輻射通量。 注: 21個×21個方向的結果存儲在參數連續變化的光柵的查找表。 使用分布式計算 參數運行用于改變當前視場模
    發表于 08-07 14:13

    遠程IO與分布式IO的區別

    在工業自動化和控制系統設計,遠程IO(Input/Output)和分布式IO是兩個重要的概念。它們各自具有獨特的特點和優勢,適用于不同的應用場景。本文將詳細探討遠程IO與分布式IO的
    的頭像 發表于 06-15 15:57 ?2498次閱讀

    OpenHarmony開發案例:【分布式計算器】

    使用分布式能力實現了一個簡單的計算器應用,可以進行簡單的數值計算,支持遠程拉起另一個設備的計算器應用,兩個計算器應用進行協同
    的頭像 發表于 04-11 15:24 ?1027次閱讀
    OpenHarmony開發案例:【<b class='flag-5'>分布式</b><b class='flag-5'>計算</b>器】

    分布式運維管理平臺在云計算環境的實施案例分析

    引入分布式運維管理平臺,以實現對云計算環境的全面管理和優化。 二、平臺實施與優勢 資源統一調度與管理 分布式運維管理平臺能夠自動識別、監控和管理云計算環境
    的頭像 發表于 03-26 16:16 ?548次閱讀

    NVIDIA cuPQC幫助開發適用于量子計算時代的加密技術

    NVIDIA cuPQC 可為相關開發者提供加速計算支持,幫助開發適用于量子計算時代的加密技術。cuPQC 庫可利用 GPU 并行性,為要求嚴苛的安全算法提供支持。
    的頭像 發表于 03-22 09:53 ?413次閱讀

    分布式存儲與計算:大數據時代的解決方案

    分布式存儲和計算技術應運而生,并迅速成為處理大數據的首選方案。本文將深入探討分布式存儲和計算的概念、優勢及其在各個領域的應用情況。 1.分布式
    的頭像 發表于 03-07 14:42 ?754次閱讀

    鴻蒙OS 分布式任務調度

    鴻蒙OS 分布式任務調度概述 在 HarmonyO S分布式任務調度平臺對搭載 HarmonyOS 的多設備構筑的“超級虛擬終端”提供統一的組件管理能力,為應用定義統一的能力基線、接口
    的頭像 發表于 01-29 16:50 ?488次閱讀

    分布式無紙化交互系統的應用場景:企業、教育、政府

    分布式無紙化交互系統的應用場景主要包括以下幾個方面: 來百度APP暢享高清圖片 企業 :適用于各種類型和規模的企業,尤其在跨國公司和連鎖經營更能體現其優勢。這些企業需要實現不同地區、不同語言的實時
    的頭像 發表于 01-15 14:42 ?405次閱讀

    什么是分布式架構?

    1.獨立性:分布式架構的各個節點是獨立運行的,它們沒有依賴關系,可以單獨進行升級、維護和擴展。 2.通信性:分布式架構的各個節點通過網絡連接進行通信和協作,以實現數據的傳輸和共享
    的頭像 發表于 01-12 15:04 ?1229次閱讀
    什么是<b class='flag-5'>分布式</b>架構?

    分布式鎖的三種實現方式

    分布式鎖的三種實現方式? 分布式鎖是在分布式系統中用于實現對共享資源進行訪問控制的一種機制。分布式鎖的實現需要考慮高可用性、高性能和正確性等
    的頭像 發表于 12-28 10:01 ?894次閱讀

    隱私計算分布式認知工業互聯網的應用研究

    出了隱私計算在具體工業應用場景下的解決方案,最后根據實際需求給出了隱私計算分布式認知工業互聯網的發展建議。
    的頭像 發表于 12-26 14:50 ?661次閱讀
    隱私<b class='flag-5'>計算</b>在<b class='flag-5'>分布式</b>認知工業互聯網<b class='flag-5'>中</b>的應用研究
    主站蜘蛛池模板: 亚州综人网| 牲高潮99爽久久久久777| 超碰视频97av| 在线观看亚洲 日韩 国产| 日本久久久免费高清| 精品亚洲一区二区三区在线播放| 97人妻精品全国免费视频| 午夜婷婷一夜七次郎| 嗯啊…跟校草在教室里做h| 黄色亚洲片| 国产精品第1页在线观看| 99re6热这里在线精品视频| 亚洲片在线观看| 午夜AV内射一区二区三区红桃视| 欧美成人一区二免费视频| 久久精品国产亚洲AV妓女不卡| 哺乳溢出羽月希中文字幕| 24小时日本免费看| 伊人国产在线观看| 亚洲AV久久无码精品九九软件 | 永久免费无码AV国产网站| 男人私gay挠脚心vk视频| 富婆大保健嗷嗷叫普通话对白 | 高H短篇辣肉纯肉| 伊人久久大香线蕉综合网站| 日日摸夜夜嗷嗷叫日日拍| 久久视热频国产这里只有精品23| 国产精品 中文字幕 亚洲 欧美| 97人妻在线公开视频在线观看| 2019一級特黃色毛片免費看| 69成人免费视频| georgielyall装修工| 公交车轮C关老师| 国色精品VA在线观看免费视频| 婚后被调教当众高潮H喷水 | 日日摸夜夜添无码AVA片| 欧美区一区二| 麻豆精品乱码WWW久久密| 久久精品国产欧美| 免费人成网站永久| 欧美日韩中文在线字幕视频|