色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何用Python語法加速C+的數(shù)值計(jì)算

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-04-10 10:41 ? 次閱讀

Rob Smallshire 曾經(jīng)說過,“你可以在 C ++中編寫更快的代碼,但是在 Python 中編寫代碼更快。”自從它發(fā)布超過十年前, CUDA 已經(jīng)給 C 和 C ++程序員提供了在 Nvidia GPU 上最大化其代碼性能的能力。

最近, CuPy 和 PyTorch 等庫允許解釋語言的開發(fā)人員利用其他語言優(yōu)化的 CUDA 庫的速度。這些解釋語言有許多優(yōu)秀的特性,包括易于閱讀的語法、自動(dòng)內(nèi)存管理和所有函數(shù)的通用類型。

然而,有時(shí)擁有這些功能意味著由于內(nèi)存管理和其他超出您控制范圍的因素而付出性能代價(jià)。為了節(jié)省開發(fā)時(shí)間,性能的降低通常是值得的。不過,當(dāng)性能成為一個(gè)問題時(shí),它最終可能需要重寫應(yīng)用程序的某些部分。

如果你仍然可以使用 C ++來獲得最大的性能,同時(shí)仍然能從解釋語言中獲得所有好處呢?

MatX 概述

Matx 是一個(gè)實(shí)驗(yàn)性的 GPU 加速的數(shù)值計(jì)算 C ++庫,旨在跨越用戶之間可能需要的最高性能之間的差距,在所有 CUDA 庫中使用相同的簡(jiǎn)單語法和類型。使用 CUDA 11.0 中添加的 C ++ 17 支持, MatX 允許您編寫與 Python 這樣的高級(jí)語言相同的自然代數(shù)表達(dá)式,而不會(huì)帶來性能損失。

張量類型

MatX 包括許多流行數(shù)學(xué)庫的接口,如 cuBLAS 、 CUTLASS 、 cuFFT 和 CUB ,但在所有這些庫中使用一種通用數(shù)據(jù)類型(tensor_t)。這大大簡(jiǎn)化了這些庫的 API ,方法是推斷出它知道的關(guān)于張量類型的信息,并在此基礎(chǔ)上調(diào)用正確的 API 。

下面的代碼示例顯示了一個(gè)基于 FFT 的重采樣器。

python

N = min(ns, ns_resamp)
nyq = N // 2 + 1 # Create an empty vector
sv = np.empty(ns) # Real to complex FFT
svc = np.fft.rfft(sv) # Slice
sv = svc[0:nyq] # Complex to real IFFT
rsv = np.fft.irfft(sv, ns_resamp)

馬特克斯

uint32_t N = std::min(ns, ns_resamp); uint32_t nyq = N / 2 + 1; auto sv = make_tensor({ns}); auto svc = make_tensor({ns / 2 + 1}); auto rv = make_tensor({ns_resamp}); // Real to complex FFT
fft(svc, sv, stream); // Slice the vector
auto sv = svc.Slice({0}, {nyq}); // Complex to real IFFT

ifft(rsv, sv, stream);雖然代碼長(zhǎng)度和可讀性相似,但 A100 上的 MatX 版本比 CPU 上運(yùn)行的 NumPy 版本快約 2100 倍。與直接使用 CUDA 庫相比, MatX 版本還有許多隱藏的好處,例如類型檢查、輸入和輸出大小檢查,以及在沒有指針操作的情況下切片張量。

不過,張量類型并不限于 FFT ,同樣的變量也可以在其他庫和表達(dá)式中使用。例如,如果您想在重采樣器輸出上使用 Cutslass 執(zhí)行 GEMM ,可以編寫以下代碼:

matmul(resampOut, resampView, B, stream);

在這段代碼中, resampOut 和 B 是 GEMM 操作的適當(dāng)大小的張量。與前面的 FFT 示例一樣,類型、大小、批次和步幅都由張量元數(shù)據(jù)推斷。使用強(qiáng)類型的 C ++ API 也意味著許多運(yùn)行時(shí)和編譯時(shí)錯(cuò)誤可以在不進(jìn)行附加調(diào)試的情況下捕獲。

除了支持優(yōu)化的 CUDA 庫作為后端,這些相同的張量類型還可以用于代數(shù)表達(dá)式中,以執(zhí)行元素操作:

(C = A * B + (D / 5.0) + cos(E)).run(stream);

惰性評(píng)估

MatX 使用惰性計(jì)算在編譯時(shí)創(chuàng)建一個(gè) GPU 內(nèi)核,表示括號(hào)中的表達(dá)式。只有在表達(dá)式上調(diào)用 run 函數(shù)時(shí),操作才會(huì)在 GPU 上執(zhí)行。支持 40 多種不同類型的運(yùn)算符,可以在不同大小和類型的張量之間混合匹配,并具有兼容的參數(shù)。如果你看一下之前作為 CUDA 內(nèi)核編寫的表達(dá)式,它看起來像這樣:

__global__ void Expression( float *C, const float *A, const float *B, const float *D, const float *E, int length)
{ for (int idx = blockIdx.x * blockDim.x + threadIdx.x; idx < length; idx += blockDim.x * gridDim.x) { C[idx] = A[idx] * B[idx] + (D[idx] / 5.0) + cosf(E[idx]); }?

雖然前面的代碼并不復(fù)雜,但它隱藏了幾個(gè)問題:

數(shù)據(jù)類型硬編碼為浮動(dòng)。要更改為其他類型,必須編輯內(nèi)核簽名。精明的讀者會(huì)說,使用模板,讓編譯器為您推斷類型。雖然這可能適用于某些類型,但并不適用于您可能想要使用的所有類型。例如, cosf 不是為半精度類型定義的,因此必須使用編譯時(shí)條件來處理不同的類型。

對(duì)函數(shù)簽名的任何微小更改都需要一個(gè)完全不同的函數(shù)。例如,如果您想在某些情況下添加張量 F ,但仍保留原始簽名,該怎么辦?這將是兩個(gè)幾乎相同的功能。

雖然 grid-stride loop 是一種很好的實(shí)踐,用于處理不同大小的塊和網(wǎng)格,但您仍然必須有代碼來確保在內(nèi)核啟動(dòng)期間有足夠的線程使 GPU 保持忙碌。

假設(shè)所有輸入為 1D 向量;更高的維度可能會(huì)隨著不統(tǒng)一的步伐而斷裂。

還有許多其他缺陷沒有列出,包括無法廣播不同大小的張量、不檢查大小、需要連續(xù)內(nèi)存布局等等。

顯然,這段代碼只在特定條件下工作,而 MatX 版本解決了所有這些問題,而且通常保持與直接編寫內(nèi)核相同的性能。

附加 MatX 功能

MatX 的其他主要功能包括:

通過切片、克隆和置換現(xiàn)有張量創(chuàng)建零拷貝張量視圖。

支持任意維張量。

用于動(dòng)態(tài)生成數(shù)據(jù)的生成器,無需存儲(chǔ)在內(nèi)存中。常見的例子是創(chuàng)建線性間隔向量、漢明窗或?qū)蔷仃嚒?/p>

支持 CUDA 中使用的幾乎所有類型,包括半精度( FP16 和 BF16 )和復(fù)數(shù)(全精度和半精度)。

線性解算器通過 cuSolver 、使用 CUB 進(jìn)行排序和掃描、使用 cuRAND 生成隨機(jī)數(shù)、減少等功能實(shí)現(xiàn)

總結(jié)

MatX 是根據(jù) BSDv3 許可證開源的。

關(guān)于作者

Cliff Burdick 是 NVIDIA 的高級(jí)開發(fā)技術(shù)工程師,他專注于優(yōu)化信號(hào)處理、數(shù)值計(jì)算以及 GPU 和網(wǎng)絡(luò) IO 的 GPU 代碼。

Justin Luitjens 是 NVIDIA 的高級(jí)開發(fā)技術(shù)經(jīng)理,致力于加速 GPU 上的應(yīng)用程序。他擁有猶他大學(xué)的科學(xué)計(jì)算博士學(xué)位。

Adam Thompson 是 NVIDIA 的高級(jí)解決方案架構(gòu)師。他有信號(hào)處理方面的背景,他的職業(yè)生涯一直在參與和領(lǐng)導(dǎo)一些項(xiàng)目,這些項(xiàng)目專注于射頻分類、數(shù)據(jù)壓縮、高性能計(jì)算、統(tǒng)計(jì)信號(hào)處理以及管理和設(shè)計(jì)針對(duì)大數(shù)據(jù)框架的應(yīng)用程序。他擁有喬治亞理工大學(xué)電子與計(jì)算機(jī)工程碩士學(xué)位和克萊姆森大學(xué)學(xué)士學(xué)位。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4978

    瀏覽量

    102988
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4729

    瀏覽量

    128890
  • python
    +關(guān)注

    關(guān)注

    56

    文章

    4792

    瀏覽量

    84628
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    NVIDIA發(fā)布cuPyNumeric加速計(jì)算

    加速計(jì)算庫幫助科研人員無縫地?cái)U(kuò)展到強(qiáng)大的計(jì)算集群,并且無需修改 Python 代碼,推進(jìn)科學(xué)發(fā)現(xiàn)。
    的頭像 發(fā)表于 11-21 10:05 ?246次閱讀

    對(duì)比Python與Java編程語言

    Python與Java都是目前非常流行的編程語言,它們各有其獨(dú)特的優(yōu)勢(shì)和適用場(chǎng)景。以下是對(duì)這兩種編程語言的對(duì)比: 一、語法和易用性 Python 語法簡(jiǎn)潔,代碼更易讀,非常適合初學(xué)者。
    的頭像 發(fā)表于 11-15 09:31 ?289次閱讀

    GPU加速計(jì)算平臺(tái)是什么

    GPU加速計(jì)算平臺(tái),簡(jiǎn)而言之,是利用圖形處理器(GPU)的強(qiáng)大并行計(jì)算能力來加速科學(xué)計(jì)算、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等復(fù)雜
    的頭像 發(fā)表于 10-25 09:23 ?245次閱讀

    廣成科技USBCAN-II C+型CAN盒是什么

    USBCAN-II C+是沈陽廣成科技有限公司出品的一種集成2個(gè)CAN通道的CAN盒工具,你也可以叫它CAN卡、CAN分析儀、USBCAN分析儀。相對(duì)于前身USBCAN-II C分析儀,USBCAN-II C+的外殼由金屬轉(zhuǎn)變?yōu)?/div>
    的頭像 發(fā)表于 08-30 11:47 ?646次閱讀

    廣成科技USBCAN II C+可用的GCANtools功能

    USBCAN II C+是沈陽廣成科技有限公司出品的一種雙通道CAN分析儀工具,其搭配的軟件主要廣成科技自己家的GCANTOOLS以及其他廠家的CANPro、CANTEST。相比于USBCAN II
    的頭像 發(fā)表于 08-30 11:45 ?609次閱讀

    pytorch和python的關(guān)系是什么

    ,PyTorch已經(jīng)成為了一個(gè)非常受歡迎的框架。本文將介紹PyTorch和Python之間的關(guān)系,以及它們?cè)谏疃葘W(xué)習(xí)領(lǐng)域的應(yīng)用。 Python簡(jiǎn)介 Python是一種高級(jí)、解釋型、通用的編程語言,由Guido van Rossu
    的頭像 發(fā)表于 08-01 15:27 ?1888次閱讀

    怎么導(dǎo)出python邊緣計(jì)算中的APP?

    怎么導(dǎo)出python邊緣計(jì)算中的APP,想進(jìn)行修改又找不到源碼
    發(fā)表于 07-25 06:13

    Python建模算法與應(yīng)用

    Python作為一種功能強(qiáng)大、免費(fèi)、開源且面向?qū)ο蟮木幊陶Z言,在科學(xué)計(jì)算、數(shù)學(xué)建模、數(shù)據(jù)分析等領(lǐng)域展現(xiàn)出了卓越的性能。其簡(jiǎn)潔的語法、對(duì)動(dòng)態(tài)輸入的支持以及解釋性語言的本質(zhì),使得Python
    的頭像 發(fā)表于 07-24 10:41 ?528次閱讀

    opencv-python和opencv一樣嗎

    不一樣。OpenCV(Open Source Computer Vision Library)是一個(gè)開源的計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)軟件庫,它提供了大量的圖像和視頻處理功能。OpenCV-Python
    的頭像 發(fā)表于 07-16 10:38 ?1161次閱讀

    Python中的人工智能框架與實(shí)例

    在人工智能(AI)領(lǐng)域,Python因其簡(jiǎn)潔的語法、豐富的庫和強(qiáng)大的社區(qū)支持,成為了最受歡迎的編程語言之一。本文將詳細(xì)介紹Python中的人工智能框架,并通過具體實(shí)例展示如何使用這些框架來實(shí)現(xiàn)不同的人工智能應(yīng)用。
    的頭像 發(fā)表于 07-15 14:54 ?1713次閱讀

    華為云開發(fā)者桌面全新發(fā)布 CodeArts IDE for Python,極致優(yōu)雅云原生開發(fā)體驗(yàn)

    Python 編碼體驗(yàn)。 Python 是一種編程語言,廣泛用于 Web 應(yīng)用程序、軟件開發(fā)、數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí) (ML)。Python 以其優(yōu)雅的語法、動(dòng)態(tài)解釋性、豐富的標(biāo)準(zhǔn)庫、極
    的頭像 發(fā)表于 05-10 00:27 ?1235次閱讀
    華為云開發(fā)者桌面全新發(fā)布 CodeArts IDE for <b class='flag-5'>Python</b>,極致優(yōu)雅云原生開發(fā)體驗(yàn)

    國產(chǎn)半導(dǎo)體CIM龍頭「賽美特」完成C+輪融資

    3月18日消息,國產(chǎn)半導(dǎo)體CIM龍頭「賽美特」宣布已于近期完成數(shù)億元C+輪融資,本輪融資由成都策源資本領(lǐng)投,允泰資本、申萬宏源、藍(lán)海洋基金、興業(yè)銀行等跟投。融資資金主要用于產(chǎn)研投入和人才儲(chǔ)備,并加速
    的頭像 發(fā)表于 03-18 09:26 ?1780次閱讀
    國產(chǎn)半導(dǎo)體CIM龍頭「賽美特」完成<b class='flag-5'>C+</b>輪融資

    c語言,c++,java,python區(qū)別

    C語言、C++、Java和Python是四種常見的編程語言,各有優(yōu)點(diǎn)和特點(diǎn)。 C語言: C語言是一種面向過程的編程語言。它具有底層的特性,能
    的頭像 發(fā)表于 02-05 14:11 ?2366次閱讀

    什么是加速計(jì)算加速計(jì)算的應(yīng)用場(chǎng)景和解決方案

    隨著科技的發(fā)展,處理大量數(shù)據(jù)和進(jìn)行復(fù)雜計(jì)算的需求越來越高,人工智能、大數(shù)據(jù)和物聯(lián)網(wǎng)等領(lǐng)域更是如此,傳統(tǒng)的計(jì)算方式已經(jīng)無法滿足這些需求。因此,加速計(jì)算作為一種現(xiàn)代
    的頭像 發(fā)表于 12-28 10:07 ?2175次閱讀
    什么是<b class='flag-5'>加速</b><b class='flag-5'>計(jì)算</b>?<b class='flag-5'>加速</b><b class='flag-5'>計(jì)算</b>的應(yīng)用場(chǎng)景和解決方案

    verilog語法-如何使用function提高效率?

    function的作用返回一個(gè)數(shù)值,此數(shù)值由一串組合邏輯代碼計(jì)算得到。
    的頭像 發(fā)表于 12-25 15:27 ?2550次閱讀
    verilog<b class='flag-5'>語法</b>-如何使用function提高效率?
    主站蜘蛛池模板: 久久re视频这里精品09首页| 最近中文字幕免费高清MV视频| 国产欧美精品一区二区色综合 | 色欲精品国产AV久久久| yin乱教师系列合集| 任你躁国语自产二区在线播放| 扒开老师大腿猛进AAA片软件| 青青草 久久久| 东日韩二三区| 天天躁日日躁狠狠躁中文字幕老牛 | 性满足久久久久久久久| 国产人妻麻豆蜜桃色精| 亚洲国产AV无码综合在线| 含羞草传媒在线观看| 亚洲日韩天堂在线中文字幕| 久久AV亚洲精品一区无码网| 中文字幕无码一区二区免费 | 精品无码久久久久久国产百度| 亚洲一区二区三区高清网| 久久无码人妻中文国产| 99在线播放| 日本特交大片免费观看| 国产精品人妻无码免费A片导航| 亚洲国产精品久久人人爱| 九九电影伦理片| 最近日本免费观看MV免费| 欧美国产精品主播一区| 大学生第一次破女在线观看 | gv手机在线观看| 涩涩在线观看免费视频| 国产午夜视频在永久在线观看| 野花韩国免费高清电影| 麻豆无人区乱码| 成年女人免费播放影院| 午夜性色一区二区三区不卡视频| 精品淑女少妇AV久久免费| 2023极品少妇XXXO露脸| 日本精品久久久久中文字幕 1 | 免费一级特黄欧美大片久久网| 成人高清网站| 亚洲黄色在线视频|