色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Facebook發(fā)布高性能AI代碼

DPVg_AI_era ? 來源:未知 ? 作者:李威 ? 2018-03-05 11:50 ? 次閱讀

Facebook今天宣布發(fā)布Tensor Comprehensions,能夠自動(dòng)將數(shù)學(xué)符號(hào)快速轉(zhuǎn)換成高性能機(jī)器學(xué)習(xí)代碼,將原本幾天乃至幾周的過程縮短為幾分鐘,大幅提高生產(chǎn)力。

Facebook AI Research(FAIR)今天宣布發(fā)布Tensor Comprehensions,這是一個(gè)C++庫和數(shù)學(xué)語言,旨在幫助彌合研究人員和工程師在從事機(jī)器學(xué)習(xí)任務(wù)時(shí),在溝通上的差距;研究人員習(xí)慣使用數(shù)學(xué)運(yùn)算,而工程師則專注在不同的硬件后端運(yùn)行大規(guī)模ML模型的實(shí)際需求。

相比其他庫,Tensor Comprehensions 的主要不同是對(duì)Just-In-Time編譯有獨(dú)特的研究,能夠自動(dòng)按需生成機(jī)器學(xué)習(xí)社區(qū)需要的高性能代碼。

只需幾分鐘生成高性能CPU/GPU代碼,生產(chǎn)力實(shí)現(xiàn)數(shù)量級(jí)提高

要?jiǎng)?chuàng)建新的高性能機(jī)器學(xué)習(xí)(ML)層,典型的工作流程一般包含兩個(gè)階段,時(shí)間往往需要好幾天乃至數(shù)周:

1、首先,一位研究人員在numpy級(jí)別的抽象中編寫了一個(gè)新的層,并將其與像PyTorch這樣的深度學(xué)習(xí)庫鏈接起來,然后在小規(guī)模實(shí)驗(yàn)中對(duì)其進(jìn)行測試。想法得到驗(yàn)證后,相關(guān)的代碼,性能需要加快一個(gè)數(shù)量級(jí)才能運(yùn)行大規(guī)模實(shí)驗(yàn)。

2、接下來,一位工程師為GPU和CPU編寫高效代碼,而這又需要:

這名工程師需要是高性能計(jì)算的專家,這方面人才數(shù)量有限

這名工程師需要獲取上下文,制定策略,編寫和調(diào)試代碼

將代碼移到后端需要進(jìn)行一些枯燥但必須完成的任務(wù),例如反復(fù)進(jìn)行參數(shù)檢查和添加Boilerplate集成代碼

因此,在過去的幾年中,深度學(xué)習(xí)社區(qū)在很大程度上都依靠CuBLAS,MKL和CuDNN等高性能庫來獲得GPU和CPU上的高性能代碼。不使用這些庫提供的原語來進(jìn)行試驗(yàn),需要極高的工程水平,這對(duì)不少研究人員都構(gòu)成了很大的挑戰(zhàn)。

如果有套件能夠?qū)⑸鲜鲞^程從幾周縮短為幾分鐘,我們預(yù)期,將這樣一個(gè)套件開源將具有重大實(shí)用價(jià)值。有了Tensor Comprehensions,我們的愿景是讓研究人員用數(shù)學(xué)符號(hào)寫出他們的想法,這個(gè)符號(hào)自動(dòng)被我們的系統(tǒng)編譯和調(diào)整,結(jié)果就是具有良好性能的專用代碼。

在這次發(fā)布的版本中,我們將提供:

表達(dá)一系列不同機(jī)器學(xué)習(xí)概念的數(shù)學(xué)符號(hào)

用于這一數(shù)學(xué)符號(hào)的基于Halide IR的C++前端

基于Integer Set Library(ISL)的多面體Just-in-Time(JIT)編譯器

基于進(jìn)化搜索的多線程、多GPU自動(dòng)調(diào)節(jié)器

使用高級(jí)語法編寫網(wǎng)絡(luò)層,無需明確如何運(yùn)行

最近在高性能圖像處理領(lǐng)域很受歡迎的一門語言是Halide。Halide使用類似的高級(jí)函數(shù)語法來描述圖像處理流水線,然后在單獨(dú)的代碼塊中,明確將其調(diào)度(schedule)到硬件上,詳細(xì)指定運(yùn)算如何平鋪、矢量化、并行和融合。這對(duì)于擁有架構(gòu)專業(yè)知識(shí)的人來說,是一種非常高效的語言,但對(duì)于大多數(shù)機(jī)器學(xué)習(xí)從業(yè)者卻很難使用。目前有很多研究積極關(guān)注Halide的自動(dòng)調(diào)度(Automatic scheduling),但對(duì)于在GPU上運(yùn)行的ML代碼,還沒有很好的解決方案。

Tensor Comprehensions使用Halide編譯器作為庫。在Halide的中間表示(IR)和分析工具的基礎(chǔ)上,將其與多面體編譯技術(shù)相結(jié)合,使用者可以用類似的高級(jí)語法編寫網(wǎng)絡(luò)層,而無需明確它將如何運(yùn)行。我們還成功使語言更加簡潔,無需指定減法(reduction)的循環(huán)邊界。

Tensor Comprehensions使用Halide和Polyhedral Compilation 技術(shù),自動(dòng)合成CUDA內(nèi)核。這種轉(zhuǎn)換會(huì)為通用算子融合、快速本地內(nèi)存、快速減法和JIT類型特化進(jìn)行優(yōu)化。由于沒有或者沒有去優(yōu)化內(nèi)存管理,我們的流程可以輕松高效地集成到任何ML框架和任何允許調(diào)用C++函數(shù)的語言中。

與傳統(tǒng)的編譯器技術(shù)和庫的方法相反,多面編譯(Polyhedral Compilation)讓Tensor Comprehensions為每個(gè)新網(wǎng)絡(luò)按需調(diào)度單個(gè)張量元素的計(jì)算。

在CUDA層面,Tensor Comprehensions結(jié)合了affine loop transformations,fusion/fission和自動(dòng)并行處理,同時(shí)確保數(shù)據(jù)在存儲(chǔ)器層次結(jié)構(gòu)中正確移動(dòng)。

圖中的數(shù)字表示最初計(jì)算張量元素的順序,箭頭表示它們之間的依賴關(guān)系。在這個(gè)例子中,數(shù)字旋轉(zhuǎn)對(duì)應(yīng)loop interchange,深度算子融合就發(fā)生在這個(gè)過程中。

性能媲美乃至超越Caffe2+cuBLAS

為了推動(dòng)搜索過程,我們還提供了一個(gè)集成的多線程、多GPU自動(dòng)調(diào)諧庫(autotuning library),它使用Evolutionary Search來生成和評(píng)估數(shù)千種實(shí)現(xiàn)方案,并從中選擇性能最佳的方案。只需調(diào)用Tensor Comprehension的tune函數(shù),你就能實(shí)時(shí)地看著性能提高,到你滿意時(shí)停止即可。最好的策略是通過protobuf序列化,立即就可重用,或在離線情況下。

在性能方面,盡管我們還有很多需要改進(jìn)的地方,但在某些情況下,Tensor Comprehensions 已經(jīng)可以媲美甚至超越當(dāng)前整合了手動(dòng)調(diào)整庫的ML框架。這主要通過將代碼生成策略適應(yīng)特定問題大小的能力來實(shí)現(xiàn)的。下面的條形圖展示了將Tensor Comprehensions自動(dòng)生成的內(nèi)核與Caffe2和ATen(使用CuDNN)相比較時(shí)的結(jié)果。更多信息,請(qǐng)參閱論文(見文末鏈接)。

隨著我們擴(kuò)大至更多硬件后端,Tensor Comprehensions將補(bǔ)充硬件制造商(如NVIDIA和Intel)編寫的速度很快的庫,并將與CUDNN,MKL或NNPack等庫一起使用。

未來計(jì)劃

這次發(fā)布的版本將讓研究人員和程序員用與他們?cè)谡撐闹惺褂玫臄?shù)學(xué)語言來編寫網(wǎng)絡(luò)層,并簡明地傳達(dá)他們程序的意圖。同時(shí),研究人員還能在幾分鐘之內(nèi)將他們的數(shù)學(xué)符號(hào)轉(zhuǎn)化成能夠快速實(shí)施的代碼。隨著工具鏈的不斷增長,我們預(yù)計(jì)可用性和性能將會(huì)增加,并使整個(gè)社區(qū)受益。

我們將在稍后發(fā)布PyTorch的Tensor Comprehensions集成。

我們感謝與框架團(tuán)隊(duì)的頻繁交流和反饋,并期待著將這一令人興奮的新技術(shù)帶入你最喜愛的ML框架。

FAIR致力于開放科學(xué)并與機(jī)器學(xué)習(xí)社區(qū)合作,進(jìn)一步推動(dòng)AI研究。Tensor Comprehensions(已經(jīng)在Apache 2.0協(xié)議下發(fā)布)已經(jīng)是Facebook,Inria,蘇黎世聯(lián)邦理工學(xué)院和麻省理工學(xué)院的合作項(xiàng)目。目前工作還處于早期階段,我們很高興能夠盡早分享,并期望通過社區(qū)的反饋來改進(jìn)它。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    211

    文章

    28620

    瀏覽量

    207929
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31442

    瀏覽量

    269836
  • 代碼
    +關(guān)注

    關(guān)注

    30

    文章

    4820

    瀏覽量

    68882

原文標(biāo)題:【AI大紅包】Facebook發(fā)布張量理解庫,幾分鐘自動(dòng)生成ML代碼

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    廣和通發(fā)布Fibocom AI Stack,助力客戶快速實(shí)現(xiàn)跨平臺(tái)跨系統(tǒng)的端側(cè)AI部署

    1月7日-10日,2025年國際消費(fèi)電子產(chǎn)品展覽會(huì)(CES 2025)盛大舉行,廣和通發(fā)布Fibocom AI Stack,賦智千行百業(yè)端側(cè)應(yīng)用。Fibocom AI Stack提供集高性能
    的頭像 發(fā)表于 01-08 18:21 ?194次閱讀
    廣和通<b class='flag-5'>發(fā)布</b>Fibocom <b class='flag-5'>AI</b> Stack,助力客戶快速實(shí)現(xiàn)跨平臺(tái)跨系統(tǒng)的端側(cè)<b class='flag-5'>AI</b>部署

    廣和通發(fā)布Fibocom AI Stack,助力客戶快速實(shí)現(xiàn)跨平臺(tái)跨系統(tǒng)的端側(cè)AI部署

    1月7日-10日,2025年國際消費(fèi)電子產(chǎn)品展覽會(huì)(CES 2025)盛大舉行,廣和通發(fā)布Fibocom AI Stack,賦智千行百業(yè)端側(cè)應(yīng)用。Fibocom AI Stack提供集高性能
    的頭像 發(fā)表于 01-08 18:20 ?162次閱讀

    鴻蒙原生頁面高性能解決方案上線OpenHarmony社區(qū) 助力打造高性能原生應(yīng)用

    高性能鴻蒙原生應(yīng)用。 Nodepool:優(yōu)化頁面滑動(dòng)流暢性Nodepool旨在解決應(yīng)用頁面滑動(dòng)卡頓問題。開發(fā)中,相似頁面因業(yè)務(wù)和代碼差異,組件復(fù)用性差,引發(fā)卡頓、丟幀,影響用戶體驗(yàn)。Nodepool通過
    發(fā)表于 01-02 18:00

    國芯科技與賽昉科技合作,高性能AI MCU芯片CCR7002測試成功

    近日,國芯科技與廣東賽昉科技有限公司攜手研發(fā)的CCR7002高性能AI MCU芯片產(chǎn)品傳來捷報(bào),成功通過了內(nèi)部嚴(yán)格的性能和功能測試。此次合作標(biāo)志著RISC-V+AI技術(shù)在芯片領(lǐng)域的新應(yīng)
    的頭像 發(fā)表于 12-09 15:04 ?509次閱讀

    賽昉聯(lián)合國芯推出高性能AI MCU芯片,實(shí)現(xiàn)RISC-V+AI新應(yīng)用

    近日,賽昉科技與蘇州國芯科技有限公司(以下簡稱“國芯科技”)合作研發(fā)的高性能AIMCU芯片產(chǎn)品CCR7002已成功通過了內(nèi)部性能和功能測試,實(shí)現(xiàn)了RISC-V+AI技術(shù)的新應(yīng)用。賽昉科技將與國芯
    的頭像 發(fā)表于 11-27 11:46 ?465次閱讀
    賽昉聯(lián)合國芯推出<b class='flag-5'>高性能</b><b class='flag-5'>AI</b> MCU芯片,實(shí)現(xiàn)RISC-V+<b class='flag-5'>AI</b>新應(yīng)用

    德晟達(dá)推出高性能醫(yī)療專用AI一體機(jī)

    隨著AI人工智能技術(shù)的飛速發(fā)展,醫(yī)療行業(yè)正迎來一場前所未有的變革,德晟達(dá)提供的硬件解決方案,服務(wù)客戶圍繞“AI人工智能+醫(yī)療”的行業(yè)創(chuàng)新發(fā)展方向,深度研發(fā),將AI人工智能診斷技術(shù)與高性能
    的頭像 發(fā)表于 11-26 16:25 ?347次閱讀

    國芯科技:高性能AI MCU芯片CCR7002內(nèi)部測試成功

    近日,國芯科技宣布了一項(xiàng)重要研發(fā)成果。11月24日,公司正式公告,其高性能AI MCU芯片新產(chǎn)品CCR7002在公司內(nèi)部測試中取得了圓滿成功。這一成果標(biāo)志著國芯科技在AI芯片研發(fā)領(lǐng)域取得了新的突破
    的頭像 發(fā)表于 11-25 14:45 ?442次閱讀

    國芯科技攜手賽昉科技發(fā)布高性能AI MCU芯片

    近日,從國芯科技再次傳來喜訊,國芯科技與廣東賽昉科技有限公司(以下簡稱“賽昉科技”)合作研發(fā)的高性能AI MCU芯片產(chǎn)品CCR7002已成功通過了內(nèi)部性能和功能測試,實(shí)現(xiàn)了RISC-V+AI
    的頭像 發(fā)表于 11-25 10:11 ?300次閱讀

    使用AMD Versal AI引擎加速高性能DSP應(yīng)用

    AMD Versal AI 引擎使您能夠擴(kuò)展數(shù)字信號(hào)處理( DSP )算力與面向未來的設(shè)計(jì),從而適應(yīng)當(dāng)前和下一代計(jì)算密集型 DSP 應(yīng)用。借助 Versal AI 引擎,客戶能以更低的功耗1和更少的可編程邏輯資源2獲得高性能 D
    的頭像 發(fā)表于 11-20 16:35 ?381次閱讀

    AI高性能計(jì)算平臺(tái)是什么

    AI高性能計(jì)算平臺(tái)不僅是AI技術(shù)發(fā)展的基石,更是推動(dòng)AI應(yīng)用落地、加速產(chǎn)業(yè)升級(jí)的重要工具。以下,是對(duì)AI
    的頭像 發(fā)表于 11-11 09:56 ?252次閱讀

    銘瑄發(fā)布高性能800系列主板

    近日,國內(nèi)知名電腦硬件品牌銘瑄在北京金隅喜來登酒店成功舉辦了新品發(fā)布會(huì),正式推出了以“智·競未來”為主題的高性能800系列主板。此次發(fā)布的系列主板共涵蓋了12款創(chuàng)新型號(hào),旨在滿足高性能
    的頭像 發(fā)表于 10-30 17:25 ?458次閱讀

    GPU高性能服務(wù)器配置

    GPU高性能服務(wù)器作為提升計(jì)算速度和效率的關(guān)鍵設(shè)備,在各大應(yīng)用場景中發(fā)揮著越來越重要的作用。在此,petacloud.ai小編為你介紹GPU高性能服務(wù)器的配置要點(diǎn)。
    的頭像 發(fā)表于 10-21 10:42 ?259次閱讀

    SiFive發(fā)布MX系列高性能AI加速器IP

    AI技術(shù)日新月異的今天,RISC-V IP設(shè)計(jì)領(lǐng)域的領(lǐng)軍企業(yè)SiFive再次引領(lǐng)行業(yè)潮流,正式推出了其革命性的SiFive Intelligence XM系列高性能AI加速器IP。這一創(chuàng)新產(chǎn)品專為加速各類
    的頭像 發(fā)表于 09-24 14:46 ?399次閱讀

    基于瑞薩RZ/V2H AI微處理器的解決方案:高性能視覺AI系統(tǒng)

    復(fù)雜的實(shí)時(shí)物體識(shí)別及推理,同時(shí)功耗可與傳統(tǒng)的嵌入式MPU相媲美,無需冷卻風(fēng)扇。這里介紹基于RZ/V2H的解決方案:高性能視覺AI系統(tǒng)。
    發(fā)表于 07-02 18:36 ?563次閱讀
    基于瑞薩RZ/V2H <b class='flag-5'>AI</b>微處理器的解決方案:<b class='flag-5'>高性能</b>視覺<b class='flag-5'>AI</b>系統(tǒng)

    SK海力士引領(lǐng)端側(cè)AI PC新紀(jì)元,發(fā)布高性能固態(tài)硬盤PCB01

    出了一款專為端側(cè)AI PC設(shè)計(jì)的“業(yè)界最高性能”固態(tài)硬盤(SSD)——PCB01,這不僅標(biāo)志著SK海力士在存儲(chǔ)技術(shù)領(lǐng)域的又一次重大突破,也為AI存儲(chǔ)市場注入了新的活力。
    的頭像 發(fā)表于 06-28 14:52 ?795次閱讀
    主站蜘蛛池模板: 边摸边吃奶边做下面视频| 国产亚洲精品久久久闺蜜| 国产无遮挡色视频免费观看性色| 欧美亚洲日韩国产在线在线| 1000视频在线播放| 久啪久久全部视频在线| 一色狗影院| 久久九九久精品国产尤物| 伊人久久青青| 久久中文字幕免费视频| 最近的2019中文字幕国语完整版 | 最近中文字幕2019免费版| 久久蜜视频| free高跟丝袜秘书hd| 三级黄色片免费观看| 国产精品无码AV天天爽人妻蜜桃| 性感尼姑风流寺| 狠狠色色综合站| 中文字幕无码乱人伦蜜桃| 男人日女人的b| 荡公乱妇HD中文字幕| 亚洲 日韩 在线 国产 视频| 极品色αv影院| 748亚洲大胆国模人体| 青草伊人久久| 国产精品一区二区免费| 艳妇臀荡乳欲伦岳TXT下载| 快播最新电影网站| 超碰在线 视频| 亚洲AV 无码AV 中文字幕| 久久99re7在线视频精品| 2019精品国产品在线不卡| 青青青草免费| 国产在线精彩亚洲| 521人成a天堂v| 熟女啪啪白浆嗷嗷叫| 精子网久久国产精品| xart欧美一区在线播放| 亚洲成在人线视频| 欧美 亚洲 中文字幕 高清| 国产成人8x视频一区二区|