ChatGPT近期成為了全球話題中心。短短兩個月,ChatGPT注冊用戶數已經破億,成為史上用戶破億速度最快的軟件之一。它不但可以回答問題,還能寫詩,寫代碼,提供旅游攻略…而ChatGPT的核心結構正是Transformer模型。
Transformer是一種能夠同時處理所有輸入數據的深度學習模型,最初是為翻譯和自動問答等自然語言處理應用開發的。計算機視覺應用領域過去主要采用卷積神經網絡(CNN),現在Transformer模型則更為流行,但它不會取代CNN,而是與之配合來提高視覺處理應用的準確度。
比如,當自動駕駛汽車在行駛過程中遇到障礙物,它是如何判斷馬路中間的是人,而不是電線桿呢?自動駕駛汽車的物體檢測和防撞系統必須正確識別前方路況并給車輛發出相應的指令。在現代汽車的計算機視覺處理應用中,深度學習模型就發揮著重要作用。
除了汽車會采用AI驅動的計算機視覺技術外,攝像頭如今已經在很多系統中都普及開了,手機和安防系統等大量基于攝像頭的設備都已經在使用神經網絡來提高圖像質量和準確性了。
為何Transformer是嵌入式計算機視覺的理想選擇呢?Transformer又將如何改變深度學習架構的發展方向?哪些技術可以優化這些模型來獲得更出色的結果?本文將帶著這些問題與大家共同探討。
更專注的注意力機制
更好的情景感知
10多年來,CNN一直是視覺處理的首選深度學習模型。隨著技術的不斷發展,CNN現已能夠準確地完成圖像分類、物體檢測、語義分割(對圖像中的每個像素進行分組或標記)和全景分割(識別物體位置以及對每個物體中的每個像素進行分組和標記)。
但Transformer除了需要將語言塊替換為圖像塊外,不需要任何其他修改就可以在準確性方面超越CNN。
2017年,Google Research將Transformer定義為一種基于自注意力機制的新型神經網絡架構,特別適合用于語言理解。到2020年,Google Research的科學家們發表了一篇關于Vision Transformer(ViT)的文章,ViT是一個基于原始Transformer架構的模型。據該文章表示,當有足夠的數據進行訓練時,ViT表現出了優異的性能,超過了先進的CNN,而所需的計算資源卻只有CNN的四分之一。這些Transformer雖然需要龐大的數據集進行訓練,但確實非常擅于處理圖像分類和物體檢測等視覺任務。
Transformer之所以能夠在視覺應用中游刃有余,其專有的注意力機制是關鍵,該機制讓模型能夠對特定情境有更深入的理解。Transformer和CNN一樣都可以檢測到前方道路上的物體是行人,而不是電線桿或者一棵樹,但不同的是,Transformer并不會同等處理所有像素,它更多關注的是數據中微小但重要的部分,比如那個行人,而不太會去過多關注代表道路其余部分的那些不重要像素。
在處理每幀數據時,CNN通常并不會考慮該幀之前和之后的數據。而相比CNN,Transformer更擅于學習較為復雜的模式,因此所需的計算也就更多,所以在速度方面Transformer沒有CNN快,但它也在努力的奮起直追了。
GPU目前可以支持這二種模型,但如果在實際應用中需要以更小的尺寸和更低的功耗來實現更高的性能,那么NPU或神經處理單元等專用AI加速器將會是更好的選擇。
為了提高推理效率,視覺處理應用可同時使用CNN和Transformer。要想實現全方位視覺感知,僅靠純視覺模型可能無法輕松獲得所需的信息,而多模態學習可以提供更詳盡的視覺信息。此外,Transformer等基于注意力機制的神經網絡非常適合像汽車應用這種集成了多個傳感器的應用。
利用NPUIP優化
Transformer和CNN的性能
Transformer包括以下幾種運算:
-
矩陣乘法
-
逐元素加法
-
Softmax數學函數
-
L2歸一化
-
激活函數
目前大多數AI加速器都針對CNN進行了優化,但它們并非全都適合Transformer。Transformer需要龐大的計算能力來執行大量計算并支持其注意力機制。
新思科技的ARC NPX6 NPU IP就是一款能夠同時處理CNN和Transformer的AI加速器。ARC NPX6 NPU IP的計算單元包括一個用于矩陣乘法(對這兩種深度學習模型都非常重要)的卷積加速器,以及一個用于處理Transformer運算和激活函數的張量加速器。該IP提供高達3,500 TOPS的性能和高達30 TOPS/瓦的出色能效。設計團隊還可以使用新思科技的MetaWare MX開發工具包來加速其應用軟件開發。該工具包提供了一個綜合的軟件編程環境,其中包括神經網絡軟件開發工具包和對各種虛擬模型的支持。
ChatGPT安全嗎?
在ChatGPT爆火的背后,我們也要知道,ChatGPT或者其他AI軟件所產出的內容或做出的決策并不是無懈可擊的。這些工具提供的結果往往會和現實有所偏差,而只有人類才能基于現實去對結果進行檢查和驗證。
而且是否會有人利用ChatGPT編寫惡意代碼來進行網絡攻擊呢?自從人類開始編寫代碼以來,開發人員一直都在無意或者有意地編寫出可被利用的代碼。幸運的是,有很多安全測試工具可以幫助開發者們進行安全防護。無論編碼者是誰,都應該使用安全工具掃描源代碼發現漏洞。
總結
Transformer擁有強大的計算能力,且一直在自然語言處理應用中被廣泛采用。現在,因Transformer模型基于其注意力機制的神經網絡擁有更出色的情感感知能力,智能手機、安防系統、自動駕駛汽車等實時視覺處理應用也開始采用此模型。以后,各種基于攝像頭的產品會越來越先進,提供的圖像質量也越來越高。在深度學習中加入Transformer后,嵌入式視覺攝像頭系統勢必能夠提供更清晰的圖像和更準確的物體檢測。
-
新思科技
+關注
關注
5文章
796瀏覽量
50334
原文標題:ChatGPT的核心算法為何如此強大?
文章出處:【微信號:Synopsys_CN,微信公眾號:新思科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論