又粗又长又黄又爽视频,无套啪啪,又粗又大的机巴好爽7

谷歌本月推出千元級(jí)搭載Edge TPU芯片的開發(fā)板，性能令人期待。本文以可視化圖形的方式，對(duì)比TPU、GPU和CPU，解釋了TPU在執(zhí)行神經(jīng)網(wǎng)絡(luò)計(jì)算方面的優(yōu)勢(shì)。

谷歌最便宜 TPU 值不值得買？

谷歌 Edge TPU 在本月初終于公布價(jià)格 —— 不足 1000 元人民幣，遠(yuǎn)低于 TPU。

實(shí)際上，Edge TPU 基本上就是機(jī)器學(xué)習(xí)的樹莓派，它是一個(gè)用 TPU 在邊緣進(jìn)行推理的設(shè)備。

Edge TPU(安裝在 Coral 開發(fā)板上）

云 vs 邊緣

Edge TPU顯然是在邊緣(edge)運(yùn)行的，但邊緣是什么呢？為什么我們不選擇在云上運(yùn)行所有東西呢？

在云中運(yùn)行代碼意味著你使用的CPU、GPU和TPU都是通過(guò)瀏覽器提供的。在云中運(yùn)行代碼的主要優(yōu)點(diǎn)是，你可以為特定的代碼分配必要的計(jì)算能力（訓(xùn)練大型模型可能需要大量的計(jì)算）。

邊緣與云相反，意味著你是在本地運(yùn)行代碼(也就是說(shuō)你能夠?qū)嶋H接觸到運(yùn)行代碼的設(shè)備)。在邊緣運(yùn)行代碼的主要優(yōu)點(diǎn)是沒有網(wǎng)絡(luò)延遲。由于物聯(lián)網(wǎng)設(shè)備通常要頻繁地生成數(shù)據(jù)，因此運(yùn)行在邊緣上的代碼非常適合基于物聯(lián)網(wǎng)的解決方案。

對(duì)比 CPU、GPU，深度剖析 TPU

TPU(Tensor Processing Unit, 張量處理器)是類似于CPU或GPU的一種處理器。不過(guò)，它們之間存在很大的差異。最大的區(qū)別是TPU是ASIC，即專用集成電路。ASIC經(jīng)過(guò)優(yōu)化，可以執(zhí)行特定類型的應(yīng)用程序。對(duì)于TPU來(lái)說(shuō)，它的特定任務(wù)就是執(zhí)行神經(jīng)網(wǎng)絡(luò)中常用的乘積累加運(yùn)算。CPU和GPU并未針對(duì)特定類型的應(yīng)用程序進(jìn)行優(yōu)化，因此它們不是ASIC。

下面我們分別看看 CPU、GPU 和 TPU 如何使用各自的架構(gòu)執(zhí)行累積乘加運(yùn)算：

在 CPU 上進(jìn)行累積乘加運(yùn)算

CPU 通過(guò)從內(nèi)存中讀取每個(gè)輸入和權(quán)重，將它們與其 ALU (上圖中的計(jì)算器) 相乘，然后將它們寫回內(nèi)存中，最后將所有相乘的值相加，從而執(zhí)行乘積累加運(yùn)算。

現(xiàn)代 CPU 通過(guò)其每個(gè)內(nèi)核上的大量緩存、分支預(yù)測(cè)和高時(shí)鐘頻率得到增強(qiáng)。這些都有助于降低 CPU 的延遲。

GPU 上的乘積累加運(yùn)算

GPU 的原理類似，但它有成千上萬(wàn)的 ALU 來(lái)執(zhí)行計(jì)算。計(jì)算可以在所有 ALU 上并行進(jìn)行。這被稱為 SIMD (單指令流多數(shù)據(jù)流)，一個(gè)很好的例子就是神經(jīng)網(wǎng)絡(luò)中的多重加法運(yùn)算。

然而，GPU 并不使用上述那些能夠降低延遲的功能。它還需要協(xié)調(diào)它的數(shù)千個(gè) ALU，這進(jìn)一步減少了延遲。

簡(jiǎn)而言之，GPU 通過(guò)并行計(jì)算來(lái)大幅提高吞吐量，代價(jià)是延遲增加。或者換句話說(shuō):

CPU 是一個(gè)強(qiáng)大而訓(xùn)練有素的斯巴達(dá)戰(zhàn)士，而 GPU 就像一支龐大的農(nóng)民大軍，但農(nóng)民大軍可以打敗斯巴達(dá)戰(zhàn)士，因?yàn)樗麄內(nèi)硕唷?/p>

讀取 TPU 上的乘加操作的權(quán)重

TPU 的運(yùn)作方式非常不同。它的 ALU 是直接相互連接的，不需要使用內(nèi)存。它們可以直接提供傳遞信息，從而大大減少延遲。

從上圖中可以看出，神經(jīng)網(wǎng)絡(luò)的所有權(quán)重都被加載到 ALU 中。完成此操作后，神經(jīng)網(wǎng)絡(luò)的輸入將加載到這些 ALU 中以執(zhí)行乘積累加操作。這個(gè)過(guò)程如下圖所示：

TPU 上的乘加操作

如上圖所示，神經(jīng)網(wǎng)絡(luò)的所有輸入并不是同時(shí)插入 ALU 的，而是從左到右逐步地插入。這樣做是為了防止內(nèi)存訪問，因?yàn)?ALU 的輸出將傳播到下一個(gè) ALU。這都是通過(guò)脈動(dòng)陣列 (systolic array) 的方式完成的，如下圖所示。

使用脈動(dòng)陣列執(zhí)行乘加操作

上圖中的每個(gè)灰色單元表示 TPU 中的一個(gè) ALU (其中包含一個(gè)權(quán)重)。在 ALU 中，乘加操作是通過(guò)將 ALU 從頂部得到的輸入乘以它的權(quán)重，然后將它與從左編得到的值相加。此操作的結(jié)果將傳播到右側(cè)，繼續(xù)完成乘加操作。ALU 從頂部得到的輸入被傳播到底部，用于為神經(jīng)網(wǎng)絡(luò)層中的下一個(gè)神經(jīng)元執(zhí)行乘加操作。

在每一行的末尾，可以找到層中每個(gè)神經(jīng)元的乘加運(yùn)算的結(jié)果，而不需要在運(yùn)算之間使用內(nèi)存。

使用這種脈動(dòng)陣列顯著提高了 Edge TPU 的性能。

Edge TPU 推理速度超過(guò)其他處理器架構(gòu)

TPU 還有一個(gè)重要步驟是量化 (quantization)。由于谷歌的 Edge TPU 使用 8 位權(quán)重進(jìn)行計(jì)算，而通常使用 32 位權(quán)重，所以我們應(yīng)該將權(quán)重從 32 位轉(zhuǎn)換為 8 位。這個(gè)過(guò)程叫做量化。

量化基本上是將更精確的 32 位數(shù)字近似到 8 位數(shù)字。這個(gè)過(guò)程如下圖所示：

量化

四舍五入會(huì)降低精度。然而，神經(jīng)網(wǎng)絡(luò)具有很好的泛化能力 (例如 dropout)，因此在使用量化時(shí)不會(huì)受到很大的影響，如下圖所示。

非量化模型與量化模型的精度

量化的優(yōu)勢(shì)更為顯著。它減少了計(jì)算量和內(nèi)存需求，從而提高了計(jì)算的能源效率。

Edge TPU 執(zhí)行推理的速度比任何其他處理器架構(gòu)都要快。它不僅速度更快，而且通過(guò)使用量化和更少的內(nèi)存操作，從而更加環(huán)保。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6161

瀏覽量
105300
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8406

瀏覽量
132563
TPU

TPU

+關(guān)注

關(guān)注
0

文章
140

瀏覽量
20720

原文標(biāo)題：一文讀懂：谷歌千元級(jí)Edge TPU為何如此之快？

文章出處：【微信號(hào)：AI_era，微信公眾號(hào)：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

從TPU v1到Trillium TPU，蘋果等科技公司使用谷歌TPU進(jìn)行AI計(jì)算

，在訓(xùn)練尖端人工智能方面，大型科技公司正在尋找英偉達(dá)以外的替代品。 ? 不斷迭代的谷歌TPU 芯片 ? 隨著機(jī)器學(xué)習(xí)算法，特別是深度學(xué)習(xí)算法在

發(fā)表于 07-31 01:08 ?3354次閱讀

BP神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系

廣泛應(yīng)用的神經(jīng)網(wǎng)絡(luò)模型。它們各自具有獨(dú)特的特點(diǎn)和優(yōu)勢(shì)，并在不同的應(yīng)用場(chǎng)景中發(fā)揮著重要作用。以下是對(duì)BP神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)關(guān)系的詳細(xì)探討，內(nèi)容將涵蓋兩者的定義、原理、區(qū)別、聯(lián)系以及應(yīng)

發(fā)表于 07-10 15:24 ?1442次閱讀

BP神經(jīng)網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)的區(qū)別

BP神經(jīng)網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)（Artificial Neural Networks，簡(jiǎn)稱ANNs）之間的關(guān)系與區(qū)別，是神經(jīng)網(wǎng)絡(luò)領(lǐng)域中一個(gè)基礎(chǔ)且重要的話題。本文將從定義、結(jié)構(gòu)、算法、應(yīng)用及未來(lái)發(fā)展等多個(gè)

發(fā)表于 07-10 15:20 ?1022次閱讀

循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的區(qū)別

結(jié)構(gòu)。它們在處理不同類型的數(shù)據(jù)和解決不同問題時(shí)具有各自的優(yōu)勢(shì)和特點(diǎn)。本文將從多個(gè)方面比較循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的區(qū)別。基本概念循環(huán)

發(fā)表于 07-04 14:24 ?1267次閱讀

循環(huán)神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)的區(qū)別

處理序列數(shù)據(jù)方面具有顯著的優(yōu)勢(shì)，但它們在結(jié)構(gòu)和工作原理上存在一些關(guān)鍵的區(qū)別。循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN） 1.1 RNN的結(jié)構(gòu) 循環(huán)神經(jīng)網(wǎng)絡(luò)是一

發(fā)表于 07-04 14:19 ?886次閱讀

深度神經(jīng)網(wǎng)絡(luò)與基本神經(jīng)網(wǎng)絡(luò)的區(qū)別

在探討深度神經(jīng)網(wǎng)絡(luò)（Deep Neural Networks, DNNs）與基本神經(jīng)網(wǎng)絡(luò)（通常指?jìng)鹘y(tǒng)神經(jīng)網(wǎng)絡(luò)或前向神經(jīng)網(wǎng)絡(luò)）的區(qū)別時(shí)，我們需

發(fā)表于 07-04 13:20 ?840次閱讀

bp神經(jīng)網(wǎng)絡(luò)是深度神經(jīng)網(wǎng)絡(luò)嗎

BP神經(jīng)網(wǎng)絡(luò)（Backpropagation Neural Network）是一種常見的前饋神經(jīng)網(wǎng)絡(luò)，它使用反向傳播算法來(lái)訓(xùn)練網(wǎng)絡(luò)。雖然BP神經(jīng)網(wǎng)絡(luò)

發(fā)表于 07-03 10:14 ?829次閱讀

bp神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)區(qū)別是什么

BP神經(jīng)網(wǎng)絡(luò)（Backpropagation Neural Network）和卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，簡(jiǎn)稱CNN）是兩種不同類型的人工神經(jīng)網(wǎng)絡(luò)，它們

發(fā)表于 07-03 10:12 ?1153次閱讀

卷積神經(jīng)網(wǎng)絡(luò)和bp神經(jīng)網(wǎng)絡(luò)的區(qū)別

不同的神經(jīng)網(wǎng)絡(luò)模型，它們在結(jié)構(gòu)、原理、應(yīng)用等方面都存在一定的差異。本文將從多個(gè)方面對(duì)這兩種神經(jīng)網(wǎng)絡(luò)進(jìn)行詳細(xì)的比較和分析。引言

發(fā)表于 07-02 14:24 ?3649次閱讀

計(jì)算

道哥的書籍值不值得買呢，這本書還沒有看過(guò)，不知道寫的怎么樣

發(fā)表于 05-16 11:55

谷歌將推出第六代數(shù)據(jù)中心AI芯片Trillium TPU

在今日舉行的I/O 2024開發(fā)者大會(huì)上，谷歌公司震撼發(fā)布了其第六代數(shù)據(jù)中心AI芯片——Trillium Tensor處理器單元（TPU）。據(jù)谷歌首席

發(fā)表于 05-15 11:18 ?622次閱讀

Groq推出大模型推理芯片超越了傳統(tǒng)GPU和谷歌TPU

Groq推出了大模型推理芯片，以每秒500tokens的速度引起轟動(dòng)，超越了傳統(tǒng)GPU和谷歌TPU。

發(fā)表于 02-26 10:24 ?1029次閱讀

tpu材料的用途和特點(diǎn)

的制作，例如鞋底、鞋面、鞋墊等。TPU具有耐磨、抗刮擦、柔軟舒適等特點(diǎn)，可以為鞋提供良好的保護(hù)和舒適性。服裝行業(yè)：TPU材料在服裝行業(yè)中應(yīng)用廣泛，常用于雨衣、防水服、防寒服等。其具有良好的防水性能、抗紫外線能力和耐磨性，能夠有

發(fā)表于 01-16 10:17 ?3219次閱讀

TPU-MLIR開發(fā)環(huán)境配置時(shí)出現(xiàn)的各種問題求解

。參考下文配置Docker。 2.2. Docker配置? TPU-MLIR在Docker環(huán)境開發(fā), 配置好Docker就可以編譯和運(yùn)行了。從 DockerHub https

發(fā)表于 01-10 08:02

谷歌TPU v5p超越Nvidia H100，成為人工智能領(lǐng)域的競(jìng)爭(zhēng)對(duì)手

TPU v5p已在谷歌“AI超級(jí)計(jì)算機(jī)”項(xiàng)目中發(fā)揮重要作用，這并非專業(yè)科研型超算平臺(tái)，而是面向各類人工智能應(yīng)用。與Nvidia開放GPU購(gòu)買策略不同，谷歌高端

發(fā)表于 12-26 15:20 ?2314次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

谷歌最便宜TPU值不值得買？TPU在執(zhí)行神經(jīng)網(wǎng)絡(luò)計(jì)算方面的優(yōu)勢(shì)

評(píng)論

從TPU v1到Trillium TPU，蘋果等科技公司使用谷歌TPU進(jìn)行AI計(jì)算

BP神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系

BP神經(jīng)網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)的區(qū)別

循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的區(qū)別

循環(huán)神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)的區(qū)別

深度神經(jīng)網(wǎng)絡(luò)與基本神經(jīng)網(wǎng)絡(luò)的區(qū)別

bp神經(jīng)網(wǎng)絡(luò)是深度神經(jīng)網(wǎng)絡(luò)嗎

bp神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)區(qū)別是什么

卷積神經(jīng)網(wǎng)絡(luò)和bp神經(jīng)網(wǎng)絡(luò)的區(qū)別

計(jì)算

谷歌將推出第六代數(shù)據(jù)中心AI芯片Trillium TPU

Groq推出大模型推理芯片超越了傳統(tǒng)GPU和谷歌TPU

tpu材料的用途和特點(diǎn)

TPU-MLIR開發(fā)環(huán)境配置時(shí)出現(xiàn)的各種問題求解

谷歌TPU v5p超越Nvidia H100，成為人工智能領(lǐng)域的競(jìng)爭(zhēng)對(duì)手