五月色婷婷在线影院,在线高清,天天舔天天操

（文章來源：機器之心Pro）

2016 年底，谷歌 TPU 團隊的十位核心開發者中的八位悄悄離職，創辦了一家名為 Groq 的機器學習系統公司。在此后的三年里，這家公司一直很低調。但最近，他們帶著一款名為 TSP 的芯片架構出現在公眾視野里。

TSP 的全稱是 Tensor Streaming Processor，專為機器學習等 AI 相關需求打造。該架構在單塊芯片上可以實現每秒 1000 萬億（10 的 15 次方）次運算，是全球首個實現該級別性能的架構，其浮點運算性能可達每秒 250 萬億次（TFLOPS）。在摩爾定律走向消亡的背景下，這一架構的問世標志著芯片之爭從晶體管轉向架構。

250 TFLOPS 浮點運算性能是什么概念？目前的世界第一超級計算機 Summit，其峰值算力為 200,794.9 TFLOPS，它的背后是 28,000 塊英偉達 Volta GPU。如果 TSP 達到了類似的效率，僅需 803 塊就可以實現同樣的性能。Groq 在一份白皮書中介紹了這項全新的架構設計。此外，他們還將在于美國丹佛舉辦的第 23 屆國際超算高峰論壇上展示這一成果。

我們為這一行業和我們的客戶感到興奮，Groq 的聯合創始人和 CEO Jonathan Ross 表示。頂級 GPU 公司都在宣稱他們有望在未來幾年向用戶交付一款每秒百萬億次運算性能的產品，但 Groq 現在就做到了，而且建立了一個新的性能標準。就低延遲和推理速度而言，Groq 的架構比其他任何用于推理的架構都要快許多倍。我們與用戶的互動證明了這一點。

Groq 的 TSP 架構是專為計算機視覺、機器學習和其他 AI 相關工作負載的性能要求設計的。對于一大批需要深度學習推理運算的應用來說，Groq 的解決方案是非常理想的選擇，Groq 的首席架構師 Dennis Abts 表示，但除此之外，Groq 的架構還能用于廣泛的工作負載。它的性能和簡潔性使其成為所有高性能即數據和計算密集型工作復雜的理想平臺。

Groq 的這款架構受到軟件優先（software first）理念的啟發。它在 Groq 開發的 TSP 中實現，為實現計算靈活性和大規模并行計算提供了一種新的范式，但沒有傳統 GPU 和 CPU 架構的限制和溝通開銷。在 Groq 的架構中，Groq 編譯器負責編碼所有內容：數據流入芯片，并在正確的時間和正確的地點插入，以確保計算實時進行，沒有停頓。執行規劃由軟件負責，這樣就可以釋放出原本要用于動態指令執行的寶貴硬件資源。

在傳統的體系架構中，將數據從 DRAM 移動到處理器需要大量的算力和時間，而且相同工作負載上的處理性能也是可變的。在典型的工作流中，開發人員通過反復運行工作負載或程序來對其進行配置和測試，以驗證和度量其平均處理性能。由于處理器接收和發送數據的方式不同，這種處理可能會得到略有差別的結果，而開發人員的工作就是手動調整程序以達到預定的可靠性級別。

但有了 Groq 的硬件和軟件，編譯器就可以準確地知道芯片的工作方式以及執行每個計算所需的時間。編譯器在正確的時間將數據和指令移動到正確的位置，這樣就不會有延遲。到達硬件的指令流是完全編排好的，使得處理速度更快，而且可預測。

為了滿足深度學習等計算密集型任務的需求，芯片的設計似乎正在變得越來越復雜。但 Groq 認為，這種趨勢從根本上就是錯誤的。他們在白皮書中指出，當前處理器架構的復雜性已經成為阻礙開發者生產和 AI 應用部署的主要障礙。當前處理器的復雜性降低了開發者工作效率，再加上摩爾定律逐漸變慢，實現更高的計算性能變得越來越困難。

Groq 的芯片設計降低了傳統硬件開發的復雜度，因此開發者可以更加專注于算法（或解決其他問題），而不是為了硬件調整自己的解決方案。有了這種更加簡單的硬件設計，開發者無需進行剖析研究（profiling），因此可以節省資源，更容易大規模部署 AI 應用。與基于 CPU、GPU 和 FPGA 的傳統復雜架構相比，Groq 的芯片還簡化了認證和部署，使客戶能夠簡單而快速地實現可擴展、單瓦高性能的系統。

Groq 的張量流架構可以在任何需要的地方提供算力。與當前領先的 GPU、CPU 相比，Groq 處理器的每個晶體管可以實現 3-6 倍的性能提升。這一改進意味著交付性能的提升、延遲的下降以及成本的降低。結果是，Groq 的架構使用起來更加簡單，而且性能高于傳統計算平臺。

（責任編輯：fqj）

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

芯片

芯片

+關注

關注
455

文章
50732

瀏覽量
423275
谷歌

谷歌

+關注

關注
27

文章
6164

瀏覽量
105323

《算力芯片高性能 CPUGPUNPU 微架構分析》第3篇閱讀心得：GPU革命：從圖形引擎到AI加速器的蛻變

在數據挖掘工作中，我經常需要處理海量數據的深度學習任務，這讓我對GPU架構和張量運算充滿好奇。閱讀《算力芯片》第7-9章，讓我對這些關鍵技術有了全新認識。 GPU

發表于 11-24 17:12

基于迅為RK3588開發板的AI圖像識別方案

源源不斷的動力。 ■ 無與倫比的視覺盛宴最高支持8K編碼+8K解碼，能夠同時處理多路視頻流，確保每一幀畫面都流暢如絲，細膩入微。 ■ 智馭未來的AI力量RK3588內置了6Tops（即每秒處理6萬億

發表于 08-13 11:26

蘋果承認使用谷歌芯片來訓練AI

蘋果公司最近在一篇技術論文中披露，其先進的人工智能系統Apple Intelligence背后的兩個關鍵AI模型，是在谷歌設計的云端芯片上完成預訓練的。這一消息標志著在尖端AI訓練領域

發表于 07-30 17:03 ?728次閱讀

解析OrangePi AIpro：什么是 TOPS，為什么它對?AI?PC很重要？

）的處理器（CPU），以提升人工智能特定性能。TOPS是“TeraOperationsPerSecond”（每秒萬億次運算）的縮寫，它表示系統每秒

發表于 07-29 14:50 ?471次閱讀

英偉達加速AI芯片迭代，推出Rubin架構計劃

在近日舉辦的COMPUTEX 2024展會上，英偉達CEO黃仁勛再次展現了公司在人工智能（AI）芯片領域的雄心壯志。他公布了下一代AI芯片架構

發表于 06-03 11:36 ?800次閱讀

兩小時“吼出”121次AI，谷歌背后埋伏著Open AI的幽靈

谷歌做AI依舊不痛不癢谷歌和OpenAI的又一次對陣，剛剛落幕了。北京時間5月14日凌晨，OpenAI發布端到端多模態AI大模型GPT-4o

發表于 05-19 08:05 ?391次閱讀

單路運算放大器芯片的作用是什么？

在電子工程領域，單路運算放大器芯片是一款備受矚目的重要元件。被稱為“模擬電路的心臟”，其作用不可小覷。本文將帶您深入了解單路運算放大器

發表于 05-16 14:18 ?829次閱讀

谷歌推新AI音樂工具，發布第六代TPU芯片

谷歌近日宣布與YouTube合作，推出全新音樂工具Music AI Sandbox。這款AI音樂創作工具將與傳統AI音樂應用如Suno等展開

發表于 05-16 09:44 ?387次閱讀

進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

千萬億次浮點運算。英偉達還構建了由72張GB200構成的DGX GB200 NVL72[超級計算機]。該超級計算機在內部節點間使用銅纜連接，以降低功耗。 Blackwell 圖形處理器采用雙

發表于 05-13 17:16

Cerebras發布WSE-3 AI芯片，性能翻倍達4萬億晶體，能耗不變

該款 WSE-3 AI芯片幾乎完全由一塊12英寸晶圓構成，形如邊長21.5厘米之正方體。這款芯片設有90萬個 AI 內核，理論上可輸出每秒1

發表于 03-18 16:37 ?912次閱讀

AI芯片的技術原理與架構

人工神經網絡模型 AI芯片的核心原理基于人工神經網絡，其中芯片內部的處理單元模擬了生物神經元的工作機制。每一個處理單元能夠獨立進行復雜的數學運算，例如權重乘以輸入信號并累加，形成神經元

發表于 03-12 11:27 ?3975次閱讀

谷歌發布全新AI模型Genie

谷歌近日發布了其全新的AI模型Genie，這一模型徹底改變了我們與數字世界的互動方式。Genie不僅可以接收文本提示、草圖或想法，還能將這些創意迅速轉化為一個可互動和玩耍的虛擬世界。

發表于 02-28 18:25 ?1684次閱讀

驍龍X Elite處理器在AI生成圖片性能超群，英特爾亦被超越

高通公司稱，該款處理器內置AI協處理器（NPU），性能達到驚人的45 TOPS（每秒萬億次運算）。視頻通過實例對比英特爾酷睿 Ultra 7

發表于 02-28 14:09 ?811次閱讀

谷歌推出AI擴散模型Lumiere

近日，谷歌研究院重磅推出全新AI擴散模型Lumiere，這款模型基于谷歌自主研發的“Space-Time U-Net”基礎架構，旨在實現視頻

發表于 02-04 13:49 ?1028次閱讀

谷歌發布全新AI SDK，簡化安卓應用集成

谷歌破繭而出，全新發布 Google AI SDK，引領 Android 應用邁向高性能 AI 集成新時代。這次發布的 SDK，專門為 Android 應用打造，將 Gemini Pr

發表于 01-03 14:18 ?822次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

谷歌全新AI架構，單芯片每秒1000萬億次運算

評論

《算力芯片高性能 CPUGPUNPU 微架構分析》第3篇閱讀心得：GPU革命：從圖形引擎到AI加速器的蛻變

基于迅為RK3588開發板的AI圖像識別方案

蘋果承認使用谷歌芯片來訓練AI

解析OrangePi AIpro：什么是 TOPS，為什么它對?AI?PC很重要？

英偉達加速AI芯片迭代，推出Rubin架構計劃

兩小時“吼出”121次AI，谷歌背后埋伏著Open AI的幽靈

單路運算放大器芯片的作用是什么？

谷歌推新AI音樂工具，發布第六代TPU芯片

進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

Cerebras發布WSE-3 AI芯片，性能翻倍達4萬億晶體，能耗不變

AI芯片的技術原理與架構

谷歌發布全新AI模型Genie

驍龍X Elite處理器在AI生成圖片性能超群，英特爾亦被超越

谷歌推出AI擴散模型Lumiere

谷歌發布全新AI SDK，簡化安卓應用集成