在线观看一级,一个人免费观看www视频,亚洲欧美日韩高清一区二区三区

AI 技術(shù)愈來愈受歡迎，在汽車、視覺處理和電信等領(lǐng)域的應(yīng)用也越來越多。目前，AI 正在通過實(shí)現(xiàn)眾多新功能來取代許多傳統(tǒng)算法，例如為智能手機(jī)攝像頭提供去噪和圖像穩(wěn)定功能。

在眾多實(shí)施 AI 的產(chǎn)品都將數(shù)據(jù)發(fā)送到云數(shù)據(jù)中心的同時(shí)，也凸顯出一些主要缺點(diǎn)：延遲增加、隱私風(fēng)險(xiǎn)以及需要互聯(lián)網(wǎng)連接。

設(shè)計(jì)人員希望創(chuàng)建一些 AI 系統(tǒng)，使其在通常采用電池供電的邊緣設(shè)備上運(yùn)行，但這也帶來了新的挑戰(zhàn)，既實(shí)現(xiàn)需求的性能和功能與功耗之間的平衡，尤其是在持續(xù)快速且越來越多的需要更多計(jì)算能力的情況下。

AI 處理挑戰(zhàn)

雖然眾多不同邊緣設(shè)備的要求都各不相同，但它們基本上都是為了最大程度地提高性能，降低功耗，并盡量減少所需的物理空間。設(shè)計(jì)工程師如何作出合適的權(quán)衡才能應(yīng)對(duì)這些挑戰(zhàn)？

現(xiàn)有 AI 處理器的性能往往受到帶寬限制，并且在將數(shù)據(jù)移入和移出外部內(nèi)存時(shí)也會(huì)遇到瓶頸，導(dǎo)致系統(tǒng)利用率低，這也就意味著性能/功率數(shù)值（以 TOPS/Watt 為單位）受到限制。

另一個(gè)重要問題是如何提前計(jì)劃滿足未來需求。由于 AI 處理器芯片的部署周期通常較長，因此 AI 解決方案必須能夠適應(yīng)未來的新要求，包括支持尚未定義的新神經(jīng)網(wǎng)絡(luò)。這意味著所有解決方案都必須足夠靈活、可擴(kuò)展，才能隨著性能需求的增加而提升。

AI 系統(tǒng)還必須安全，并且必須符合最高的質(zhì)量和安全標(biāo)準(zhǔn)，尤其是對(duì)于汽車應(yīng)用和其他人工智能系統(tǒng)可能涉及生命攸關(guān)的決策的應(yīng)用。例如，如果一位行人走到自動(dòng)駕駛汽車前面，留給司機(jī)的反應(yīng)時(shí)間是非常短的。

為了幫助克服這些挑戰(zhàn)，就需要一個(gè)全面的軟件工具鏈，簡化客戶實(shí)施，減少開發(fā)時(shí)間。

AI 處理器逐步提升

讓我們以視覺機(jī)器學(xué)習(xí)為例，看看 AI 解決方案提供商如何應(yīng)對(duì)這些挑戰(zhàn)。

圖 1：NeuPro-M AI 處理器框圖，顯示內(nèi)存架構(gòu)

首先，如果我們考慮帶寬限制性能和內(nèi)存訪問權(quán)限問題，可以通過動(dòng)態(tài)配置的兩級(jí)內(nèi)存體系架構(gòu)來加以解決（參見圖 1）。這樣可以最大限度地降低與外部 SD RAM 進(jìn)行數(shù)據(jù)傳輸產(chǎn)生的功耗。通過以分層方式使用本地內(nèi)存資源，實(shí)現(xiàn) 90% 以上的利用率，防止協(xié)處理器和加速器出現(xiàn)“數(shù)據(jù)匱乏”情形，同時(shí)還可使每個(gè)引擎獨(dú)立處理。

優(yōu)化 AI 處理的另一種方法是通過使處理器架構(gòu)支持混合精度的神經(jīng)引擎。這種方法可以處理 2 到 16 位的數(shù)據(jù)，減少系統(tǒng)帶寬消耗，除此之外，還能按每個(gè)用例靈活運(yùn)行混合精度網(wǎng)絡(luò)。此外，當(dāng)數(shù)據(jù)從外部內(nèi)存寫入或讀取時(shí)，數(shù)據(jù)壓縮之類的帶寬減少機(jī)制還能實(shí)時(shí)壓縮數(shù)據(jù)和權(quán)重。這種方法減少了所需的內(nèi)存帶寬，進(jìn)一步提高了性能，顯著降低了總功耗。

圖2：四引擎內(nèi)核細(xì)分

這是 CEVA 的 NeuPro-M AI 處理器采用的方法，是一種用于 AI/ML 推理工作負(fù)載的獨(dú)立異構(gòu)處理器架構(gòu)。以此解決方案為例，圖 2 顯示了如何在四 AI 引擎之間分割機(jī)器視覺應(yīng)用，在本案例中是對(duì)前方道路進(jìn)行車道檢測。圖像數(shù)據(jù)從外部內(nèi)存或外部接口加載，然后分成四個(gè)拼圖，每個(gè)拼圖由不同的引擎處理。換句話說，每個(gè)引擎可以各自承擔(dān)一個(gè)子圖或不同的任務(wù)，例如物體檢測和車道識(shí)別，以便優(yōu)化特定應(yīng)用的性能。

每個(gè)引擎都有自己的片上 L1 內(nèi)存，以便最大程度地減少瓶頸或延遲。這也意味著，一旦配置好，AI 處理器就幾乎可以完全獨(dú)立地運(yùn)行了，并且在大多數(shù)情況下，可以運(yùn)行“從頭到尾”的“融合”操作流水線，完全無需訪問內(nèi)部內(nèi)存且?guī)缀鹾苌僭L問外部內(nèi)存。如此一來，AI 處理器將變得更加靈活，并有助于提高能效。

我們?cè)诒疚拈_始時(shí)討論的要求還包括提供面向未來的靈活解決方案。完全可編程的矢量處理單元（VPU）可以在同一引擎 L1 數(shù)據(jù)上與協(xié)處理器并行工作，確保新的神經(jīng)網(wǎng)絡(luò)拓?fù)湟攒浖绞教峁┲С?/p>

機(jī)器視覺優(yōu)化

有許多優(yōu)化可以提升特定 AI 應(yīng)用的性能。在視覺處理過程中，Winograd 轉(zhuǎn)換就屬于這種優(yōu)化之一。這是執(zhí)行卷積（例如傅里葉變換）的另一種高效方法，只需使用以前所需的 MAC（乘累加運(yùn)算）數(shù)量的一半。

對(duì)于 3x3 卷積層而言，Winograd 轉(zhuǎn)換可以將性能提高一倍，同時(shí)保持與原始卷積方法相同的精度。

另一個(gè)基本的優(yōu)化是使用稀疏化，即能夠忽略數(shù)據(jù)或權(quán)重中的零。通過避免乘以零，性能得到了改善，同時(shí)保持了準(zhǔn)確性。雖然某些處理器需要結(jié)構(gòu)化數(shù)據(jù)才能享受稀疏化帶來的好處，但使用完全支持非結(jié)構(gòu)化稀疏化的處理器可以獲得更好的結(jié)果。

通常，AI 系統(tǒng)需要將某些優(yōu)化功能或網(wǎng)絡(luò)固有操作（如 Winograd 轉(zhuǎn)換、稀疏機(jī)制、自關(guān)注操作和縮放）交給專門的引擎。這意味著需要先卸載數(shù)據(jù)，然后在處理后再重新加載數(shù)據(jù)，這樣一來就會(huì)增加延遲并降低性能。對(duì)比之下，更好的選擇就是將加速器直接連接到引擎本地共享 L1 內(nèi)存，或者在大多數(shù)情況下，進(jìn)行融合操作，即從一個(gè)協(xié)處理器到另一個(gè)協(xié)處理器的即時(shí)端到端處理，而不需要在執(zhí)行過程中訪問任何內(nèi)存。

這些優(yōu)化有多重要？圖 3 顯示，與 CEVA 的上一代 AI 處理器相比，單引擎 NPM11 內(nèi)核在典型的 ResNet50 實(shí)施中實(shí)現(xiàn)了性能提升。您可以看到，基本的、原生的操作實(shí)現(xiàn)了近五倍的性能提升。

添加 Winograd 轉(zhuǎn)換，然后添加稀疏引擎可以進(jìn)一步提高性能，最高可達(dá)上一代處理器的 9.3 倍。最后，對(duì)一些網(wǎng)絡(luò)層使用混合精度（8x8 和低分辨率 4x4）權(quán)重和激活，在可以忽略不計(jì)的精度損失的情況下，進(jìn)一步提高了性能--實(shí)現(xiàn)了比上一代處理器近15倍的性能提升，比原生處理快 2.9 倍。

圖 3：NPM11（單引擎內(nèi)核）性能改進(jìn)

結(jié)論

我們已經(jīng)看到了新內(nèi)存架構(gòu)和本地“負(fù)載平衡”控制實(shí)現(xiàn)（流水線處理對(duì)比連續(xù)處理相同數(shù)據(jù)），最大限度地減少外部訪問的情形，并充分利用了硬件，可以在不需要更多功耗的情況下提高性能，以及 Winograd 轉(zhuǎn)換和稀疏性等優(yōu)化進(jìn)一步提升性能的方法。

總而言之，現(xiàn)代 AI 處理器可以提供完全可編程的硬件/軟件開發(fā)環(huán)境，具有要求苛刻的邊緣 AI 應(yīng)用所需的性能、能效和靈活性，這使設(shè)計(jì)工程師能夠從其系統(tǒng)內(nèi)的有效AI實(shí)現(xiàn)中受益，而不會(huì)增加超出其便攜式邊緣設(shè)備預(yù)算的功耗。

審核編輯：彭靜

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

dsp

dsp

+關(guān)注

關(guān)注
553

文章
8014

瀏覽量
349188
藍(lán)牙

藍(lán)牙

+關(guān)注

關(guān)注
114

文章
5831

瀏覽量
170527
帶寬

帶寬

+關(guān)注

關(guān)注
3

文章
937

瀏覽量
40957
CEVA

CEVA

+關(guān)注

關(guān)注
1

文章
178

瀏覽量
75958
AI處理器

AI處理器

+關(guān)注

關(guān)注
0

文章
92

瀏覽量
9499

原文標(biāo)題：CEVA的NeuPro-M AI 處理器如何迎接邊緣 AI 挑戰(zhàn)

文章出處：【微信號(hào)：CEVA-IP，微信公眾號(hào)：CEVA】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

Ceva-NeuPro-Nano NPU榮獲EE Awards Asia年度最佳IP/處理器產(chǎn)品獎(jiǎng)

近日，全球領(lǐng)先的半導(dǎo)體產(chǎn)品和軟件IP授權(quán)許可廠商Ceva公司宣布，其Ceva-NeuPro-Nano NPU在近期于中國臺(tái)北舉辦的亞洲金選獎(jiǎng)(EE Awards Asia)中榮獲年度最佳IP/處理器

發(fā)表于 12-25 15:36 ?177次閱讀

XD08M3232紅外感應(yīng)單片機(jī)擁有哪些配置實(shí)現(xiàn)高性能處理能力

。內(nèi)置兩路軌到軌運(yùn)算放大器：能夠?qū)Φ头鹊妮斎胄盘?hào)進(jìn)行有效放大。在不同場景下，通過放大傳感器信號(hào)，可以提高信號(hào)處理的效率和準(zhǔn)確性。這有助于在數(shù)據(jù)

發(fā)表于 11-23 15:08

XD08M3232紅外感應(yīng)單片機(jī)擁有哪些配置實(shí)現(xiàn)高性能處理能力

來的額外處理負(fù)擔(dān)，使得單片機(jī)可以更高效地對(duì)數(shù)據(jù)進(jìn)行處理，從而有助于實(shí)現(xiàn)高性能的處理能力。內(nèi)置兩路軌到軌運(yùn)算放大器：能夠?qū)Φ头鹊妮斎胄盘?hào)進(jìn)行有效放大。在不同場景下，通過放大傳感

發(fā)表于 11-07 14:04

人工智能ai4s試讀申請(qǐng)

目前人工智能在繪畫對(duì)話等大模型領(lǐng)域應(yīng)用廣闊，ai4s也是方興未艾。但是如何有效利用ai4s工具助力科研是個(gè)需要研究的課題，本書對(duì)ai4s基本原理和原則，方法進(jìn)行描訴，有利于總結(jié)經(jīng)驗(yàn)，擬按照要求準(zhǔn)備相關(guān)體會(huì)材料。看能否

發(fā)表于 09-09 15:36

關(guān)于一些有助于優(yōu)化電源設(shè)計(jì)的新型材料

眾所周知，人們對(duì)更高電源效率的追求正在推動(dòng)性能的全方位提升。材料科學(xué)的進(jìn)步對(duì)于優(yōu)化電源設(shè)計(jì)和開發(fā)更高效、更緊湊和更可靠的解決方案發(fā)揮著關(guān)鍵作用。下文列出了一些有助于優(yōu)化電源設(shè)計(jì)的新材料。

發(fā)表于 08-29 15:26 ?431次閱讀

MSPM0-高級(jí)控制計(jì)時(shí)器有助于實(shí)現(xiàn)更好的控制和更好的數(shù)字輸出

電子發(fā)燒友網(wǎng)站提供《MSPM0-高級(jí)控制計(jì)時(shí)器有助于實(shí)現(xiàn)更好的控制和更好的數(shù)字輸出.pdf》資料免費(fèi)下載

發(fā)表于 08-28 11:30 ?0次下載

有助于提高網(wǎng)絡(luò)設(shè)備性能的FRAM SF25C20（MB85RS2MT）

有助于提高網(wǎng)絡(luò)設(shè)備性能的FRAM SF25C20（MB85RS2MT）

發(fā)表于 07-25 09:49 ?296次閱讀

基于瑞薩RZ/V2H AI微處理器的解決方案：高性能視覺AI系統(tǒng)

RZ/V2H嵌入式AI微處理器，采用瑞薩最新的DRP-AI3技術(shù)，可提供高達(dá)8TOPS（Dense模型）/80TOPS（sparse模型）的AI推理能力，以及10 TOPS/W的

發(fā)表于 07-02 18:36 ?529次閱讀

愛普生的高精度傳感技術(shù)有助于監(jiān)控自動(dòng)化

Epson、JREast和NaganoKeiki聯(lián)合開發(fā)了一種適用于鐵路運(yùn)營商的實(shí)用撓度監(jiān)測設(shè)備-愛普生的高精度傳感技術(shù)有助于監(jiān)控自動(dòng)化-SeikoEpsonCorporation（TSE:6724

發(fā)表于 06-27 10:53 ?359次閱讀

如何借助IPM智能功率模塊提高白色家電的能效

大多數(shù)家用電器都使用電機(jī)來操作其功能，如在洗衣機(jī)中轉(zhuǎn)動(dòng)滾筒，或者在冰箱中壓縮制冷劑。通過變頻技術(shù)來調(diào)節(jié)電機(jī)是一種有效的高能效解決方案。變頻技術(shù)需要使用適當(dāng)?shù)陌雽?dǎo)體解決方案。一種行之有效的方法是使用智能功率模塊（IPM）。將功率半導(dǎo)體和驅(qū)動(dòng)電路集成到一個(gè)模塊中，

發(fā)表于 06-27 08:14 ?579次閱讀

意法半導(dǎo)體發(fā)布高能效智能慣性測量單元

意法半導(dǎo)體6軸慣性測量單元（IMU）ISM330BX集成邊緣AI處理器、傳感器擴(kuò)展模擬集線器和Qvar電荷變化檢測器，并提供產(chǎn)品壽命保證，適用于設(shè)計(jì)

發(fā)表于 06-20 09:47 ?458次閱讀

構(gòu)建強(qiáng)大、高能效的i.MX 8ULP應(yīng)用處理器合作生態(tài)體系

工程師們正在借助i.MX 8ULP應(yīng)用處理器應(yīng)對(duì)這一挑戰(zhàn)，在更緊湊的體積中實(shí)現(xiàn)更強(qiáng)大的功能，同時(shí)為下一代邊緣設(shè)備提供了驚艷的能效水平。恩智浦最新的超低功耗微處理器現(xiàn)在可供嵌入式設(shè)計(jì)工

發(fā)表于 04-24 16:35 ?1865次閱讀

AMD EPYC 8004系列處理器優(yōu)勢介紹

AMD EPYC 8004系列處理器就是專為單路平臺(tái)設(shè)計(jì)的高能效處理器，它體積小巧，非常適合空間和功率有限的部署環(huán)境。

發(fā)表于 04-15 11:30 ?382次閱讀

在微芯片上使用3D反射器堆棧有助于加快6G通信的發(fā)展

一項(xiàng)新的研究發(fā)現(xiàn)，在微芯片上使用3D反射器堆棧可以使無線鏈路的數(shù)據(jù)速率提高三倍，從而有助于加快6G通信的發(fā)展。

發(fā)表于 03-13 16:31 ?705次閱讀

如何提高處理器的性能

提高處理器主頻可以提高處理器的性能，但是到一定程度就不能再提高了，我們需要通過雙核，或者多核來提高處理器的性能。

發(fā)表于 01-24 09:59 ?2514次閱讀