色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一文搞懂 CPU、GPU 和 TPU

電子工程師 ? 來源:未知 ? 作者:工程師李察 ? 2018-09-15 10:46 ? 次閱讀

張量處理單元(TPU)是一種定制化的 ASIC 芯片,它由谷歌從頭設(shè)計,并專門用于機器學(xué)習工作負載。TPU 為谷歌的主要產(chǎn)品提供了計算支持,包括翻譯、照片、搜索助理和 Gmail 等。

在本文中,我們將關(guān)注 TPU 某些特定的屬性。

神經(jīng)網(wǎng)絡(luò)如何運算

在我們對比 CPUGPU 和 TPU 之前,我們可以先了解到底機器學(xué)習或神經(jīng)網(wǎng)絡(luò)需要什么樣的計算。如下所示,假設(shè)我們使用單層神經(jīng)網(wǎng)絡(luò)識別手寫數(shù)字。

如果圖像為 28×28 像素的灰度圖,那么它可以轉(zhuǎn)化為包含 784 個元素的向量。神經(jīng)元會接收所有 784 個值,并將它們與參數(shù)值(上圖紅線)相乘,因此才能識別為「8」。其中參數(shù)值的作用類似于用「濾波器」從數(shù)據(jù)中抽取特征,因而能計算輸入圖像與「8」之間的相似性:

這是對神經(jīng)網(wǎng)絡(luò)做數(shù)據(jù)分類最基礎(chǔ)的解釋,即將數(shù)據(jù)與對應(yīng)的參數(shù)相乘(上圖兩種顏色的點),并將它們加在一起(上圖右側(cè)收集計算結(jié)果)。如果我們能得到最高的預(yù)測值,那么我們會發(fā)現(xiàn)輸入數(shù)據(jù)與對應(yīng)參數(shù)非常匹配,這也就最可能是正確的答案。

簡單而言,神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)和參數(shù)之間需要執(zhí)行大量的乘法和加法。我們通常會將這些乘法與加法組合為矩陣運算,這在我們大學(xué)的線性代數(shù)中會提到。所以關(guān)鍵點是我們該如何快速執(zhí)行大型矩陣運算,同時還需要更小的能耗。

CPU 如何運行

因此 CPU 如何來執(zhí)行這樣的大型矩陣運算任務(wù)呢?一般 CPU 是基于馮諾依曼架構(gòu)的通用處理器,這意味著 CPU 與軟件和內(nèi)存的運行方式如下:

圖:CPU 如何運行

CPU 最大的優(yōu)勢是靈活性。通過馮諾依曼架構(gòu),我們可以為數(shù)百萬的不同應(yīng)用加載任何軟件。我們可以使用 CPU 處理文字、控制火箭引擎、執(zhí)行銀行交易或者使用神經(jīng)網(wǎng)絡(luò)分類圖像。

但是,由于 CPU 非常靈活,硬件無法一直了解下一個計算是什么,直到它讀取了軟件的下一個指令。CPU 必須在內(nèi)部將每次計算的結(jié)果保存到內(nèi)存中(也被稱為寄存器或 L1 緩存)。內(nèi)存訪問成為 CPU 架構(gòu)的不足,被稱為馮諾依曼瓶頸。

雖然神經(jīng)網(wǎng)絡(luò)的大規(guī)模運算中的每一步都是完全可預(yù)測的,每一個 CPU 的算術(shù)邏輯單元(ALU,控制乘法器和加法器的組件)都只能一個接一個地執(zhí)行它們,每一次都需要訪問內(nèi)存,限制了總體吞吐量,并需要大量的能耗。

GPU 如何工作

為了獲得比 CPU 更高的吞吐量,GPU 使用一種簡單的策略:在單個處理器中使用成千上萬個 ALU?,F(xiàn)代 GPU 通常在單個處理器中擁有 2500-5000 個 ALU,意味著你可以同時執(zhí)行數(shù)千次乘法和加法運算。

圖:GPU 如何工作

這種 GPU 架構(gòu)在有大量并行化的應(yīng)用中工作得很好,例如在神經(jīng)網(wǎng)絡(luò)中的矩陣乘法。實際上,相比 CPU,GPU 在深度學(xué)習的典型訓(xùn)練工作負載中能實現(xiàn)高幾個數(shù)量級的吞吐量。這正是為什么 GPU 是深度學(xué)習中最受歡迎的處理器架構(gòu)。

但是,GPU 仍然是一種通用的處理器,必須支持幾百萬種不同的應(yīng)用和軟件。這又把我們帶回到了基礎(chǔ)的問題,馮諾依曼瓶頸。在每次幾千個 ALU 的計算中,GPU 都需要訪問寄存器或共享內(nèi)存來讀取和保存中間計算結(jié)果。

因為 GPU 在其 ALU 上執(zhí)行更多的并行計算,它也會成比例地耗費更多的能量來訪問內(nèi)存,同時也因為復(fù)雜的線路而增加 GPU 的物理空間占用。

TPU 如何工作

當谷歌設(shè)計 TPU 的時候,我們構(gòu)建了一種領(lǐng)域特定的架構(gòu)。這意味著,我們沒有設(shè)計一種通用的處理器,而是專用于神經(jīng)網(wǎng)絡(luò)工作負載的矩陣處理器。

TPU 不能運行文本處理軟件、控制火箭引擎或執(zhí)行銀行業(yè)務(wù),但它們可以為神經(jīng)網(wǎng)絡(luò)處理大量的乘法和加法運算,同時 TPU 的速度非??臁⒛芎姆浅P∏椅锢砜臻g占用也更小。

其主要助因是對馮諾依曼瓶頸的大幅度簡化。因為該處理器的主要任務(wù)是矩陣處理,TPU 的硬件設(shè)計者知道該運算過程的每個步驟。因此他們放置了成千上萬的乘法器和加法器并將它們直接連接起來,以構(gòu)建那些運算符的物理矩陣。

這被稱作脈動陣列(Systolic Array)架構(gòu)。在 Cloud TPU v2 的例子中,有兩個 128X128 的脈動陣列,在單個處理器中集成了 32768 個 ALU 的 16 位浮點值。

我們來看看一個脈動陣列如何執(zhí)行神經(jīng)網(wǎng)絡(luò)計算。首先,TPU 從內(nèi)存加載參數(shù)到乘法器和加法器的矩陣中。

圖:TPU 如何工作

然后,TPU 從內(nèi)存加載數(shù)據(jù)。當每個乘法被執(zhí)行后,其結(jié)果將被傳遞到下一個乘法器,同時執(zhí)行加法。因此結(jié)果將是所有數(shù)據(jù)和參數(shù)乘積的和。在大量計算和數(shù)據(jù)傳遞的整個過程中,不需要執(zhí)行任何的內(nèi)存訪問。

這就是為什么 TPU 可以在神經(jīng)網(wǎng)絡(luò)運算上達到高計算吞吐量,同時能耗和物理空間都很小。

因此使用 TPU 架構(gòu)的好處就是:成本降低至 1/5。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 芯片
    +關(guān)注

    關(guān)注

    459

    文章

    51965

    瀏覽量

    434031
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11015

    瀏覽量

    215318
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6219

    瀏覽量

    107226

原文標題:一文搞懂 CPU、GPU 和 TPU

文章出處:【微信號:FPGAer_Club,微信公眾號:FPGAer俱樂部】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 1人收藏

    評論

    相關(guān)推薦
    熱點推薦

    CPU\GPU引領(lǐng),國產(chǎn)AI PC進階

    電子發(fā)燒友網(wǎng)報道(/黃晶晶)當前AI PC已經(jīng)成為PC產(chǎn)業(yè)的下個浪潮,國產(chǎn)CPUGPU廠商在PC市場直處于追趕態(tài)勢,AI PC給了大
    的頭像 發(fā)表于 09-01 02:15 ?5489次閱讀
    <b class='flag-5'>CPU</b>\<b class='flag-5'>GPU</b>引領(lǐng),國產(chǎn)AI PC進階

    谷歌新TPU 芯片 Ironwood:助力大規(guī)模思考與推理的 AI 模型新引擎?

    電子發(fā)燒友網(wǎng)報道( / 李彎彎)日前,谷歌在 Cloud Next 大會上,隆重推出了最新TPU AI 加速芯片 ——Ironwood。據(jù)悉,該芯片預(yù)計于今年晚些時候面向 Google
    的頭像 發(fā)表于 04-12 00:57 ?1767次閱讀

    CPUGPU:渲染技術(shù)的演進和趨勢

    渲染技術(shù)是計算機圖形學(xué)的核心內(nèi)容之,它是將三維場景轉(zhuǎn)換為二維圖像的過程。渲染技術(shù)直在不斷演進,從最初的CPU渲染到后來的GPU渲染,性能和質(zhì)量都有了顯著提升。
    的頭像 發(fā)表于 02-21 11:11 ?526次閱讀
    從<b class='flag-5'>CPU</b>到<b class='flag-5'>GPU</b>:渲染技術(shù)的演進和趨勢

    RK3588性能設(shè)置 CPU GPU DDR NPU 頻率設(shè)置

    RK3588 CPU GPU DDR定頻策略
    的頭像 發(fā)表于 02-15 16:09 ?1478次閱讀

    GPU渲染才是大勢所趨?CPU渲染與GPU渲染的現(xiàn)狀與未來

    在3D建模和渲染領(lǐng)域,隨著技術(shù)的發(fā)展,CPU渲染和GPU渲染這兩種方法逐漸呈現(xiàn)出各自獨特的優(yōu)勢,并且在不同的應(yīng)用場景中各有側(cè)重。盡管當前我們處在CPU渲染和
    的頭像 發(fā)表于 02-06 11:04 ?449次閱讀
    <b class='flag-5'>GPU</b>渲染才是大勢所趨?<b class='flag-5'>CPU</b>渲染與<b class='flag-5'>GPU</b>渲染的現(xiàn)狀與未來

    2024年GPU出貨量增長顯著,超越CPU

    6%的同比增長,總量超過2.51億顆,這數(shù)據(jù)不僅彰顯了GPU市場的繁榮,也反映了當前市場對于圖形處理能力的巨大需求。 尤為值得提的是,與同樣作為計算機核心部件的CPU相比,
    的頭像 發(fā)表于 01-17 14:12 ?381次閱讀

    FPGA+GPU+CPU國產(chǎn)化人工智能平臺

    平臺采用國產(chǎn)化FPGA+GPU+CPU構(gòu)建嵌入式多核異構(gòu)智算終端,可形成FPGA+GPU、FPGA+CPUCPU+FPGA等組合模式,形成低功耗、高可擴展性的硬件系統(tǒng),結(jié)合使用場景靈
    的頭像 發(fā)表于 01-07 16:42 ?831次閱讀
    FPGA+<b class='flag-5'>GPU+CPU</b>國產(chǎn)化人工智能平臺

    搞懂Linux進程的睡眠和喚醒

    。通過PPID,可以追蹤進程的來源,并了解進程之間的關(guān)系。 在PCB中記錄的進程狀態(tài),不過是些整數(shù),這個整數(shù)是多少就代表進程此時處于什么狀態(tài)。在CPU執(zhí)行進程時,通過找到進程的PCB,從而找到進程
    發(fā)表于 11-04 15:15

    看懂】大白話解釋“GPUGPU算力”

    隨著大模型的興起,“GPU算力”這個詞正頻繁出現(xiàn)在人工智能、游戲、圖形設(shè)計等工作場景中,什么是GPU,它與CPU的區(qū)別是什么?以及到底什么是GPU算力?本篇文章主要從以下5個角度,讓您
    的頭像 發(fā)表于 10-29 08:05 ?2064次閱讀
    【<b class='flag-5'>一</b><b class='flag-5'>文</b>看懂】大白話解釋“<b class='flag-5'>GPU</b>與<b class='flag-5'>GPU</b>算力”

    【「大模型時代的基礎(chǔ)架構(gòu)」閱讀體驗】+ 第、二章學(xué)習感受

    常用的機器學(xué)習算法,重點剖析了元線性回歸算法,由此引出機器學(xué)習算法的運算特征,此后分別描述了使用CPUGPU、TPU和NPU運行機器學(xué)習算法的特點,比如
    發(fā)表于 10-10 10:36

    動畫渲染用GPU還是CPU的選擇思路

    對話Imagination中國區(qū)董事長:以GPU為支點加強軟硬件協(xié)同,助力數(shù)【白皮書下載】分布式功能安全的創(chuàng)新與突破本文來源:渲染101動畫渲染動畫渲染是個計算密集型的過程,需要強大的硬件支持
    的頭像 發(fā)表于 09-28 08:05 ?573次閱讀
    動畫渲染用<b class='flag-5'>GPU</b>還是<b class='flag-5'>CPU</b>的選擇思路

    TPU v1到Trillium TPU,蘋果等科技公司使用谷歌TPU進行AI計算

    ,在訓(xùn)練尖端人工智能方面,大型科技公司正在尋找英偉達以外的替代品。 ? 不斷迭代的谷歌TPU 芯片 ? 隨著機器學(xué)習算法,特別是深度學(xué)習算法在各個領(lǐng)域的廣泛應(yīng)用,對于高效、低功耗的AI計算硬件需求日益增長。傳統(tǒng)的CPUGPU
    的頭像 發(fā)表于 07-31 01:08 ?3700次閱讀

    Arm發(fā)布針對旗艦智能手機的新CPUGPU IP

    全球領(lǐng)先的芯片設(shè)計公司Arm宣布了針對旗艦智能手機市場的全新CPUGPU IP設(shè)計方案——Cortex-X925 CPU和Immortalis G925 GPU。這兩款產(chǎn)品均基于Ar
    的頭像 發(fā)表于 05-31 09:44 ?793次閱讀

    CPU渲染和GPU渲染優(yōu)劣分析

    使用計算機進行渲染時,有兩種流行的系統(tǒng):基于中央處理單元(CPU)或基于圖形處理單元(GPU)。CPU渲染利用計算機的CPU來執(zhí)行場景并將其渲染到接近完美。這也是執(zhí)行渲染的更傳統(tǒng)方式。
    的頭像 發(fā)表于 05-23 08:27 ?1005次閱讀
    <b class='flag-5'>CPU</b>渲染和<b class='flag-5'>GPU</b>渲染優(yōu)劣分析

    搞懂DDR內(nèi)存原理

    內(nèi)存(DRAM-RandomAccessMemory)作為當代數(shù)字系統(tǒng)最主要的核心部件之,從各種終端設(shè)備到核心層數(shù)據(jù)處理和存儲設(shè)備,從各種消費類電子設(shè)備到社會各行業(yè)專用設(shè)備,是各種級別的CPU進行
    的頭像 發(fā)表于 05-09 17:09 ?4332次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>搞懂</b>DDR內(nèi)存原理
    主站蜘蛛池模板: 亚洲成A人片在线观看中文不卡 | 百性阁论坛首页 | 臀精插宫NP文 | 正在播放国产尾随丝袜美女 | YY600800新视觉理论私人 | 一线高清视频在线播放 | 国产呦精品一区二区三区下载 | 99精彩免费观看 | 国产人妻麻豆蜜桃色 | 黄梅戏mp3大全 | 亚洲精品久久一区二区三区四区 | YY8090福利午夜理论片 | 小妇人电影免费完整观看2021 | a三级黄色片 | 中文字幕精品AV内射夜夜夜 | 日日干日日操日日射 | 999久久狠狠免费精品 | 日韩人妻无码精品-专区 | 涩涩伊人久久无码欧美 | 又粗又大又爽又黄的免费视频 | 亚洲欧美自拍清纯中文字幕 | 成人精品在线视频 | 玖玖爱精品视频 | 男人J桶女人P视频无遮挡网站 | 欧美日韩国产在线一区二区 | 久久国产亚洲精品AV麻豆 | 婷婷五月久久丁香国产综合 | 制服丝袜第一页 | 无羞耻肉动漫在线观看 | 蜜柚免费视频高清观看在线 | 国产亚洲精品在线视频 | 草莓AV福利网站导航 | 含羞草完整视频在线播放免费 | 污文啊好棒棒啊好了 | 美女张开腿让男生桶动态图 | 在线观看国产人视频免费中国 | 国产69精品久久久久乱码 | 男生插女生下体 | 国产人妻久久久精品麻豆 | 战狼4在线观看完免费完整版 | 久久免费国产 |

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學(xué)習
    • 獲取您個性化的科技前沿技術(shù)信息
    • 參加活動獲取豐厚的禮品