作者:Benny Har-Even
去年Imagination推出了最新的圖形架構Furian,自2012年來首次對PowerVR進行了重大更新。這意味著在滿足越來越多的器件性能需求方面邁出了重要的一步,尤其對于一些新的應用場景比如AR、VR和AI,這使得PowerVR在嵌入式GPU中保持最高的功效和性能。
Furian在設計之初就考慮到了可擴展性,無論著色處理單元(SPUs)的數量如何都能確保性能和面積效率的一致性。在這篇文章中,我們將特別關注該架構的功效,以及是如何確保在每瓦特性能方面領先于其他競爭對手。
繼Furian架構之后我們推出了第一個基于Furian的處理器核并且提供授權——PowerVR GT8525,現在我們又推出了PowerVR GT8540——這是一款針對于高端移動通信和汽車市場的四集群設計。
與目前高端智能手機和平板電腦上的多核設計相比, PowerVR GT8525中包含了雙集群的單一著色處理單元(SPU),作為第一款用于授權的Furian架構GPU來說是一個相當合適的選擇。然而它不應該被低估,這款單SPU設計的性能已證明了Furian架構對游戲的影響。
作為技術發燒友我們致力于開發領先的圖形設計,Imagination的高端產品一直擁有大量粉絲。事實上我們很多人口袋中都裝著性能強大的高端設備。然而這類設備在價格上無疑是昂貴的,而且越來越多的人認為對于大多數人來說成本低、價格合適、有足夠功能的產品更加的適用,這在很大程度上要精確到GPU,我們推出的PowerVR GT8525正適合這樣的“超級中端”市場。
對于很多人來說,一款價格合理的設備能夠提供足夠的性能來處理日常任務,比如網頁瀏覽、查看社交媒體以及流暢的操作一些復雜的視覺游戲。它們甚至足以讓用戶體驗一些新的應用,比如基于AR、VR和AI的應用。更重要的是中端市場的SoC傳統上并不會采用先進的制造工藝,這將限制它們可用的功耗預算,因此采用更小型的GPU更可取。正是因為如此,這使得PowerVR GT8525的發布成為SoC供應商理想的GPU,這得益于它在性能和效率之間的理想平衡。
架構效率
然而在功效方面真正使我們能夠保持領先優勢是因為建立在Rogue基礎上的Furian架構所帶來的變化和提升。這些變化為的是優化內部效率,能夠在給定的功耗要求下提供更多的性能。
更高效的SPU
其中一個變化是在著色處理單元(SPU),它被重構建以更高效的使用算數邏輯單元(ALU)。正如上圖所示紋理單元已經有自己的緩存,確保在訪問數據時不需要與統一著色集群(USCs)發生競爭——結果就是使用更低的功耗同時提高吞吐量效率。紋理單元目前具有雙倍的填充效率,每個時鐘處理8個像素單元,僅在面積上略有增加。
2D Data Master(數據管理)
另一個提升是關于2D的數據管理(2D Data Master),2D Data Master第一次引入是在Series7XT,在這個有了進一步的提升。現在它完全采用異步處理,內核利用率和功效更高。它允許獨立提交2D工作任務,繞過所有Tile(貼片)的工作開銷(比如調用3D來處理2D任務時),這使得像創建UIs等場合的效率大大提高——而且最重要的是這有助于降低功耗。
管道流加倍
另一個提高整體效率的主要原因是對主要ALU管道的改變(見下圖)。管道數據位寬進行了加倍,從16增加到32——每個時鐘的吞吐量也加倍了。但關鍵的是由于內部設計的精簡和更多的共享控制邏輯,它并不會占用兩倍的硅面積。在Rougue架構中這個管道包括兩個乘加功能模塊(MADs)。然而在仔細分析了開發人員編寫的著色器和內核代碼之后,很明顯的發現這兩個MADs很少被充分利用,因為對于編譯器來說同時使用兩個MADs是很困難的。
因此在Furian架構中我們實現了一個MAD和一個MUL,在實際情況中能夠提供更多的性能,同時控制硅面積的成本在嚴格的范圍內。在一些場景可能需要兩個MAD操作,Furian采用的雙倍帶寬管道能夠提供匹敵Rogue架構的性能(16×2 MADs = 32×1 MAD),因此在這個意義上說即使在最壞的情況下我們也并沒有失去什么,大多數情況下帶來的是吞吐量的顯著提升。
減少延遲
變化還不止于此,現在GPU驅動程序和GPU之間的函數調用不再需要通過OS(操作系統)內核層了,采用的是“用戶模式隊列”直接進行通信,降低了開銷和延遲,從而再次降低了功耗。
除此之外,現在GPU支持對更多本地內存地址的同步訪問,這意味著每個ALU管道都可以直接訪問它們所需的內存區域而不需要停機。
結論
那么這些變化的結果是什么呢?從下圖中我們可以看到采用目前流行的行業標準Kishonti GFXBench Manhattan 3.0 benchmark進行測試,Series8XT GT8525比PowerVR GT7450提供更多的fps/W參數,我們上一代等效GPU與之前的15fps相比可以達到35fps(fps(每秒幀數)指的是游戲在設備上運行的流暢程度,數字越大表示終端用戶的體驗越好)。更小的硅片面積(如下圖更小的圈所示)也是另一個優勢。
PowerVR GT8525 vs GT7450 – Manhattan 3.0 FPS vs FPS/W 和面積
盡管功效是GPU的一個重要的綜合測量指標,但同樣重要的是絕對功耗,移動設備的SoC功耗一般被限制在3—3.5W,其中GPU占功率消耗的30%—50%。估計在35fps/W的情況下,Series8XT GT8525采用中端SoC制造工藝TSMC 10FF能夠實現一個合適的功耗值,GPU的功耗控制在1.5W以下。
為了更直觀的展現,針對我們上一代的Series7XT,我們期望在實現相同性能指標(iso性能)的基礎上,Series8XT GT8525比Series7XT GT7450降低60%的功耗,這意味著性能功耗比將達到令人難以置信的75%!對于終端用戶來說,這意味著他們的設備將能夠持續使用更長的時間,尤其對于一些使用場景比如玩游戲。
當然我們業界領先的功效特性是基于我們的TBDR(分塊延遲渲染)技術,我們只需要渲染屏幕上能夠看到的像素,這也是Furian架構所采用的的技術。如果你想了解更多,請查看我們之前的博客文章:深入探究TBDR。
總結
正如你所看到的,Furian架構所引入的這些變化使得PowerVR Series8XT GT8525具有非常高的性價比,提高了大部分市場的器件門檻。我們已經向關鍵客戶授權了我們的首款Series8XT內核,我們期待在2018年提供更多選擇。
-
gpu
+關注
關注
28文章
4729瀏覽量
128890 -
powervr
+關注
關注
0文章
98瀏覽量
31061 -
imagination
+關注
關注
1文章
573瀏覽量
61316
發布評論請先 登錄
相關推薦
評論