嵌入式 AI
AI 簡報 20221021 期
1. 英特爾i9-13900K重奪PC性能桂冠:與AMD 7950X拉開8%差距
原文:
https://app.myzaker.com/news/article.php?pk=63476be18e9f0903ac797c80
10 月 20 日晚上,英特爾正式解禁了 13 代酷睿臺式機處理器的性能表現,包括 Intel Core i9-13900K 和 i5-13600K。美國科技媒體 The Verge 對 i9-13900K 與 AMD Ryzen 9 7950X 進行了比較 ,發現雖然 AMD 的 Zen 4 架構 CPU 相較于英特爾 12 代酷睿的性能有所提升,但這次英特爾 13 代酷睿重新奪回了整體性能的桂冠。
先來看下英特爾酷睿 i9-13900K 的相關參數,作為高端版本,它包括 24 個核心(8 個性能核和 16 個效能核)、32 個線程和高達 5.8GHz 的時鐘速度。
英特爾承諾,酷睿 i9-13900K 的單線程性能較 i9-12900K 提升了 15%,多線程性能提升了 41%。與此同時,它的售價也來到了 589 美元。
過去一周,The Verge 一直在測試酷睿 i9-13900K,它在很大程度上兌現了英特爾聲稱的性能,尤其是多線程性能大幅提升,真正加速了最繁重的工作負載效率。
具體地,The Verge 在英特爾酷睿 i9-13900K 和 AMD 銳龍 9 7950X 處理器上測試了各種工作負載、綜合基礎測試和游戲。所有的測試均在最新的 Windows 11 2022 Update 上運行,并關閉了安全性,啟用了 Resizable BAR,所有游戲都在 1080p 分辨率設置下運行。
2. 谷歌3D全息電話亭,顛覆現有視頻通話!宛如真人面對面
原文:
https://mp.weixin.qq.com/s/TMhMjFZbw96n4CUkVQ_z1w
在近日的Google Cloud Next 2022上,桑達爾·皮查伊表示,Starline 項目已經在谷歌內部進行了數千小時的測試,并在其美國辦公室每天使用,而100多個橫跨媒體、醫療和零售的企業合作伙伴已經收到了演示。
谷歌還宣布Project Starline正在進入下一個測試階段,計劃是在選定的合作伙伴辦公室部署設備進行定期測試,谷歌提到的合作伙伴包括Salesforce、WeWork、T-Mobile和Hackensack Meridian Health,這些設備預計將在今年年底前完成安裝,開啟初試。
谷歌為什么花費大量時間開展Project Starline呢?根據項目組給出的答案,就是讓人在通話的時候,感覺你是和一個真正的人在一起。在如今的社會中,人們通常會相隔千里,尤其是近兩年疫情頻繁發生,人們不得不通過Zoom等遠程會議軟件,進行聯系、溝通工作。
然而當下視頻會議給人的感覺并不好,根據微軟一份關于視頻會議對工作效率的影響的報告,人們在視頻會議中會比顯示溝通更容易分析,這是人們在面對高壓力的視頻會議下的自然應對反應。而谷歌認為,能提供真人對話體驗的Project Starline,似乎能夠消除這種壓力感。
谷歌的研究員做了對比實驗,他們發現相比傳統視頻溝通,使用Project Starline溝通的參會者會有更多眼神接觸和肢體語言,在溝通結束后能夠回憶的內容也要多出28%。
更為重要的是,裝配一套Project Starline,成本相當高,光場顯示器和各種光學攝像頭都非常昂貴,這使得Project Starline短期內只能停留在實驗室,而進入消費者市場的可能性很小。Project Starline的產品管理總監Andrew Nartker稱,目前它還很難稱得上是一件產品。
整體而言,Project Starline是一個全新技術的探索,谷歌也會繼續對其進行優化改進。未來,它能否成為一個真正的產品還未可知。不過無論怎樣,任何一項新技術的探索都值得被關注。
3. 通用計算仍有差距,RISC-V可靠矢量處理彎道超車
原文:
https://mp.weixin.qq.com/s/mM9Drv8r2QGSD7Hm8i8HWA
對于高效的數據并行負載處理來說,矢量架構的吸引力越來越大,主流ISA都開始注意到這一點。就拿我們熟悉的前超算王者——日本的富岳來說,其處理器富士通A64FX就是基于Arm可伸縮矢量擴展(SVE)的。
Arm也在隨后推出的Armv9架構中提出了改良版的SVE2,并在其中加入了對NEON的兼容,SVE2在HPC之外的市場應用中做出了指令優化,甚至可以用于手機、汽車等智能設備中。
正是因為有了SVE的存在,富岳才得以單靠通用處理器完成高性能的大數據運算,而不是像其他主流超算一樣,還要靠堆積GPU、FPGA和AI加速器等片外加速器才能實現可觀的性能,我國的神威太湖之光同樣運用了這樣的矢量設計思路。但以上這些都是專有架構,微架構不透明的同時也限制了開源和定制化方案的出現,而這些均可以在RISC-V上一一實現。
RISC-V的矢量擴展RVV自2015年提出以來,已經有了長足的進展,也有了正式的1.0版本規范。與傳統的SIMD指令相比,RVV提供動態的矢量長度修改,做到了更高的效率、更小的代碼體積和更簡單的循環結束。我們近期已經看到了不少RISC-V處理器被廣泛使用的新聞,比如谷歌選擇在其TPU上加入SiFive的X280處理器,其實看重的就是它在矢量處理上的優勢。
所以我們看到在SiFive的處理器產品中,像Performance P270和Intelligence X280都擁有優秀的矢量處理能力,后者更是引入了一個512位矢量寄存器長度的架構,在完全支持矢量擴展標準的同時,還支持動態可變矢量長度的運算。SiFive也在其矢量擴展上做出了改進,稱其為SiFive智能擴展,與直接基于RV64GCV架構的設計相比,X280的智能擴展在INT8格式下的矩陣乘法運算時可將執行速度提高12倍。
而且這不僅僅造福的是數據中心,還有受制于功耗卻又需要高吞吐量和單線程性能的邊緣應用,比如AR/VR、數碼相機等等。SiFive同樣測試了可用于移動端或嵌入式設備的輕量級神經網絡MobileNet,相較基于RISC-V標量的架構,SiFive智能擴展可以將速度提升144倍。
AI時代下,矢量處理的應用場景已經遠超我們的現象,包括深度學習、推薦系統、鍵值存儲和HPC等,都已經廣泛利用了矢量計算。但如何做到高效高性能,才是未來所有ISA的努力方向,而RISC-V作為后來者,反而能在這上面找到彎道超車的機會。
4. 移動端部署推薦系統:快手獲數據挖掘頂會CIKM 2022最佳論文
原文:
https://mp.weixin.qq.com/s/x3dnkBF7BKDMEU_rt8QmDg
10 月 20 日,信息檢索和數據挖掘領域的頂級會議之一 CIKM 2022 公布論文獎項,快手社區科學團隊獲得了應用研究方向「最佳論文獎」。
獲獎論文《Real-time Short Video Recommendation on Mobile Devices》針對短視頻推薦場景,傳統服務端部署的推薦系統在決策時機和實時特征利用方面的不足問題,通過在移動客戶端部署推薦系統來實時響應用戶反饋,提高推薦結果的精準度,從而提升用戶體驗。論文提出的方案 100% 流量部署到了快手短視頻推薦生產環境,影響了日均超過 3.4 億用戶的體驗,是端上智能在大規模推薦場景落地的創新實踐。
論文鏈接:
https://dl.acm.org/doi/10.1145/3511808.3557065
5. 致敬Metaformer!圖像超分多尺度注意網絡MAN開源:大核分解與注意力機制的巧妙結合
原文:
https://mp.weixin.qq.com/s/DF73mR6U4MstHeAHOZTGBw
論文鏈接:
https://arxiv.org/abs/2209.14145
代碼地址:
https://github.com/icandle/MAN
本文基于大核分解和注意機制,提出應用于圖像超分的多尺度注意網絡MAN。通過可解釋的門控空間注意單元來匯總上下文信息,利用多尺度大核注意模塊獲得豐富注意特征圖,并聚合局部-全局信息。本文方法與現有流行方法進行了詳細的實驗對比,獲得了競爭性的對比結果。
圖像超分旨在從低分辨率輸入重建高分辨輸出。然而基于CNN的方法要么通過更大數據集來提高性能,要么引入了更復雜的網絡設計,這些無疑都增加了計算成本消耗。
還記得今年2月份出爐的那篇VAN嗎,VAN通過詳細實驗證明了大核的卷積可以被有效分解為三種卷積的組合,分別為:深度卷積、含膨脹的深度卷積、逐點卷積。這里給出VAN的分解示意圖:
VAN的作者在文末提到,未來對VAN的改進可能包含多分支或多尺度設計的應用。在本文中,作者等人在圖像超分任務中對VAN進行可行性考察,發現了一個很重要的問題:VAN的分解過程中,含膨脹的深度卷積會為超分任務帶來“塊狀偽影(blocking artifacts)”。在損害性能的同時,固定的核大小無法充分局部-全局特征。
綜上,作者將多尺度機制與大核注意機制結合來解決上述問題,并采用門控機制校準注意圖,避免含膨脹的深度卷積帶來的塊狀偽影。
6. 一個Trick 搞定 CNN與Transformer,即插即漲點即提速
原文:
https://mp.weixin.qq.com/s/jRfWEgQ6cqVz5hcm6WOa2g
論文鏈接:
https://arxiv.org/abs/2210.04020
近年來,Transformer
模型在各個領域都取得了巨大的進展。在計算機視覺領域,視覺Transformer
(ViTs
)也成為卷積神經網絡(ConvNets
)的有力替代品,但它們還無法取代ConvNet
,因為兩者都有各自的優點。例如,ViT善于利用注意力機制提取全局特征,而ConvNets
由于其強烈的歸納偏差,在建模局部關系時更有效。
一個自然的想法是結合ConvNets
和ViT
的優勢來設計新的結構。本文提出了一種新的基本神經網絡算子,稱為位置感知循環卷積(ParC
)及其加速版本Fast-ParC
。ParC
算子通過使用全局核和循環卷積來捕獲全局特征,同時通過位置嵌入來保持位置敏感性。
Fast-ParC
使用快速傅里葉變換將ParC
的O(n2)時間復雜度進一步降低為O(n log n)。這種加速使得在具有大型特征映射的模型的早期階段使用全局卷積成為可能,但仍保持與使用3x3或7x7內核相當的總體計算成本。所提出的操作可以以即插即用的方式使用:
1)將ViT
轉換為純ConvNet
架構,以獲得更廣泛的硬件支持和更高的推理速度;
2)在ConvNets
的深層替換傳統的卷積,通過擴大有效感受野來提高準確性。實驗結果表明,ParC
操作可以有效地擴大傳統ConvNets
的感受野,并且在所有三種流行的視覺任務(圖像分類、目標檢測和語義分割)中,采用所提出的操作都有利于ViT
和ConvNet
模型。
7. 只需一次向前推導,深度神經網絡可視化方法來了!
原文:
https://mp.weixin.qq.com/s/rzle3EYD4atj9oJ0Xy43aw
論文地址:
https://arxiv.org/abs/2209.11189
寫在前面的話
類激活圖(CAM)致力于解釋卷積神經網絡的“黑盒”屬性。本文首次提出可學習的類激活方法,通過設計適當損失來迫使注意機制學習有效CAM輸出,并只需一次前向推理。在ImageNet上與流行類激活方法比較,取得了優異且有趣的實驗結果。最后針對分類錯誤的情況,作者等人進行了細致而全面的分析。
類激活方法與Motivation簡述
深度卷積神經網絡對相關決策的可解釋性不強,這種“黑盒”屬性影響了該技術在安全、醫療等領域的商業應用。由類激活圖(CAM)生成的顯著圖SM(saliency map)描述了對模型決策貢獻最大的圖像區域,因此是一種為“黑盒”提供可解釋理論的方法。
以往的CAM方法分為基于梯度和基于擾動兩種,如下圖所示:
在圖1 (a) 中,基于梯度的方法使用從outputs反向傳播的梯度計算最后一個卷積層中特征權重,并將特征圖加權聚合得到CAM,explanation代表由CAM產生的SM。(常見的有Grad-CAM、GradCAM++)
在圖1 (b) 中,基于擾動的方法通常選取模型中不同深度的特征圖,或隨機擾動圖(圖1 (c) ),作為掩碼與輸入圖像點乘,得到擾動輸入,最后通過前向傳遞擾動輸入來生成SM。(常見方法有SIDU、Score-CAM、SISE、ADA-SISE、RISE)
然而這些方法要么基于反向傳播梯度,要么在推理階段需要多次前向傳遞,因此引入了大量的計算開銷。另外,這些方法在關注模型解釋的同時,忽略了對訓練集的有效利用。
因此本文提出了一種僅需一次前向傳遞的方法,同時引入注意機制,用可學習的方法,使訓練集得到了充分利用。
一些可能的思考與總結
本文為進一步解釋“黑盒”模型,提出了一種可學習的CAM方法,并產生了具有競爭性的實驗結果。但是有兩個問題筆者不得其解。
第一個問題就是,本文方法通過訓練集大量訓練獲得四個經驗下的正則化參數,那么相比其他方法,是否存在額外增加了實現成本?另外,如果將此參數應用于其他數據集上是否能保持原有性能,到時候如果不能是不是又要重新從訓練集中獲取呢?
第二,對于ImageNet中的某些包含多標簽圖像,錯誤分類的原因是分類器已經對某些類別形成既定的學習認知。那么假如沒有訓練這個環節,是不是就能減少對某些已確定類別的錯誤識別呢,或者說,有沒有其他方法能減少這種情況的發生呢。
8. AI框架歷史演進和趨勢探索
原文:
https://mp.weixin.qq.com/s/a3GaHwBNq7KJO0Dex-xOUg
AI框架是一種底層開發工具,是集深度學習核心訓練和推理框架、基礎模型庫、端到端開發套件、豐富的工具組件于一體的平臺。
有了AI框架,工程師在工作時調試算法,就可以更快速、更高效。通俗一點講,AI框架相當于是AI時代的操作系統,如同PC時代Windows,移動互聯網時代的iOS和安卓。
AI框架發展現狀和趨勢
AI框架的歷史并不算長,從2010年誕生的Theano算起,至今不過十二年時間。2017年后,早期的Theano、Caffe、Torch等框架逐漸銷聲匿跡,2016年前后出現的TensorFlow(谷歌)、PyTorch(Facebook)、飛槳(百度)逐漸占據市場。
從目前市場占有情況看,產業界以TensorFlow為主,學術界以PyTorch為主。與TensorFlow過于注重工業,PyTorch專注學界不同,飛槳的特性在于工業學界兩手抓,通過動態圖自動解析編譯靜態圖的技術,兼顧了學界的靈活,同時也實現了產業界希望的高效。
除了TensorFlow、PyTorch、飛槳,深度學習框架還包括由Amazon設計研發并開源的MXNet、微軟在github上開源的CNTK、華為推出的MindSpore、北京一流科技有限公司開發的OneFlow,以及清華大學自研的Jittor,和騰訊、字節跳動、360開源的Angel、BytePS、TensorNet。
過去這些年,AI框架已形成較為完整的技術體系,當前主流AI框架的核心技術演化出三大層次,分為基礎層、組件層和生態層,其中基礎層實現AI框架最基礎核心的功能,具體包括編程開發、編譯優化以及硬件使能三個子層。
從技術生態體系中的功能定位看,AI框架對下調用底層硬件計算資源,對上支撐AI應用算法模型搭建,提供算法工程化實現的標準環境,是AI技術體系的關鍵核心。
AI框架技術持續演進,歷經萌芽階段、成長階段、穩定階段,當前已進入深化階段。AI框架正向著超大規模AI、全場景支持、安全可信等技術特性深化探索。
AI框架面臨的挑戰
然而在這個探索的過程中,面臨諸多挑戰。在超大規模AI方面,當前超大規模AI成為新的深度學習范式。OpenAI于2020年5月發布GPT-3模型,包含1750億參數,數據集達到45T,在多項NLP任務中超越了人類水平。這種超大規模的模型參數及超大規模的數據集的AI大模型范式,實現了深度學習新的突破。
產業界和學術界看到這種新型范式的潛力后紛紛入局,繼OpenAI后,華為基于MindSpore框架發布了盤古大模型、智源發布了悟道模型、阿里發布了M6模型、百度發布了文心模型等。超大規模AI正成為下一代人工智能的突破口,也是最有潛力的強人工智能技術。
超大規模AI需要大模型、大數據、大算力的三重支持,這就對AI框架提出了新的挑戰,比如內存墻,大模型訓練過程中需要存儲參數、激活、梯度、優化器狀態,鵬程 盤古一個模型的訓練就需要近4TB的內存。算力墻,以鵬程 . 盤古2000億參數量的大模型為例,需要3.6EFLOPS的算力支持,要求必須構建大規模的異構AI計算集群才能滿足這樣的算力需求,同時算力平臺要滿足智能調度來提升算力資源的利用率。還有通信墻、調優墻、部署墻等。
在全場景支持方面,隨著云服務器、邊緣設備、終端設備等人工智能硬件運算設備的不斷涌現,以及各類人工智能運算庫、中間表示工具以及編程框架的快速發展,人工智能軟硬件生態呈現多樣化發展趨勢。但主流框架訓練出來的模型卻不能通用,學術科研項目間難以合作延伸,造成了深度學習框架的“碎片化”。
目前業界并沒有統一的中間表示層標準,導致各硬件廠商解決方案存在一定差異,以致應用模型遷移不暢,增加了應用部署難度。因此,基于AI框架訓練出來的模型進行標準化互通將是未來的挑戰。
然而即使面臨諸多挑戰,過去兩年,行業一直在持續探索,并取得一定突破,如2020年華為推出昇思MindSpore,在全場景協同、可信賴方面有一定的突破;曠視推出天元MegEngine,在訓練推理一體化方面深度布局等。
整體而言,在人工智能體系中,AI框架處于貫通上下的腰部位置,下接芯片、上承應用,是一個關鍵樞紐,是推動AI應用大規模落地的關鍵力量。因此對于企業來說,克服AI框架當前面臨的挑戰,不斷探索新趨勢,進行技術創新,完善技術、功能和生態是關鍵。
- END -
原文標題:【AI簡報20221021期】英特爾i9-13900K重奪PC性能桂冠、RISC-V可靠矢量處理彎道超車
-
RT-Thread
+關注
關注
31文章
1293瀏覽量
40195
原文標題:【AI簡報20221021期】英特爾i9-13900K重奪PC性能桂冠、RISC-V可靠矢量處理彎道超車
文章出處:【微信號:RTThread,微信公眾號:RTThread物聯網操作系統】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論