20世紀初的物理學家不會想到,懸浮在物理學大廈上的兩朵烏云會徹底顛覆整個物理學體系,馮·諾依曼在參與曼哈頓工程提出新架構時,也不會想到未來阻止芯片算力進步的竟然不是芯片本身。
馮·諾依曼結構的誕生與局限
1945年6月30日,美國正在秘密進行曼哈頓計劃。馮·諾依曼作為該計劃的重要參與者與領導者,與另外兩位組內科學家發表了一篇長達101頁的報告,這就是計算機史上著名的“101頁報告”,也是現代計算機科學發展里程碑式的文獻。
這份文件基于當時世界上第一臺計算機埃尼阿克(ENIAC)提出,詳細闡述了一種新型的計算機架構類型。彼時的電腦雖然采用了世界上最先進的電子技術,但缺乏整理論指導,用現在的話講就是“只堆料,不優化”。此外,早期電腦的用途單一,若僅設計用于數學計算,那它就不能用來處理文字內容,變更用途就需要對整體電路進行重新設計。
馮·諾依曼精準找出電腦運行緩慢的關鍵:處理器雖然可以快速完成計算,但在計算間隙,需要進行大量I/O步驟來保存計算的中間數據,這極大的拖累了處理器的整體處理速度。他將計算機結構重新調整,巧妙的將存儲與計算分離,通過內部存儲器存儲程序,成功解決了當時計算機存儲容量太小,運算速度過慢的問題。這種結構也創造了一組指令集架構,可以將機器運算轉換為一串串編程語言,讓此機器更有 “彈性”,不再需要頻繁更改電路。后來人們將這種結構定義為馮·諾依曼結構(Von Neumann architecture)。
馮·諾依曼結構
圖源 | 百度百科
馮·諾依曼結構也稱馮·紐曼模型(Von Neumann model)或普林斯頓結構(Princeton architecture),它有以下幾個特點:(1)以運算單元為中心。(2)采用存儲程序原理。(3)存儲器是按地址訪問、線性編址的空間(4)控制流由指令流產生。(5)指令由操作碼和地址碼組成。(6)數據以二進制編碼。該結構由運算器、控制器、存儲器、輸入設備、輸出設備五個部分組成。簡單來講,馮·諾依曼結構將電路與程序分離,方便進行后期程序重新調整;程序員僅通過內部存儲器寫入相關運算命令,讓計算機可以快速執行運算操作;二進制運算也能大大加快計算機的整體速度。
這種“存算分離”的結構也有自己的局限性:處理器與內存間的數據交換量同內存的整體儲存量相比太小了,隨著處理器技術的發展,這一比例更為懸殊。在一些特殊使用場景中(尤其是近年來火熱的AI計算領域),處理器需要經常等待內存的數據回傳,超高的延時嚴重拖慢了計算機整體的運行效率,內存性能逐漸成為限制計算機發展的關鍵。與此同時,過高的信息交換量也帶來了嚴重的發熱問題與功耗問題。內存墻、功耗墻與散熱墻成為阻攔計算機算力發展繞不開的“三堵高墻”。
內存墻,繞開還是撞穿?
破解內存墻問題目前已經成為工業界和學術界的焦點問題。
繞開,意味著要放棄馮·諾依曼的“存算分離”結構,采用“存算一體”的結構模式來規避內存墻對運算性能的限制。一些研究人員提出了一種以存儲器為中心的體系結構,稱為“智能存儲”。其核心思想是將部分或全部的計算移到存儲中,計算單元和存儲單元集成在同一個芯片,在存儲單元內完成運算,讓存儲單元具有計算能力。
“存算一體”結構目前較成熟的方案有查存計算(Processing With Memory)或近存計算(Computing Near Memory),可拉進內存與處理器的距離來降低大規模數據交換延時。除了成熟方案,存內計算(Computing In Memory)方案目前已成為各廠商的主要發力點,它的計算操作由位于存儲芯片區域內部的獨立計算單元完成,存儲和計算可以是模擬的也可以是數字的,一般用于算法固定的場景算法計算。存內邏輯(Logic In Memory)屬于較新的架構,通過在內部存儲中添加計算邏輯,直接在內部存儲執行數據計算,真正做到了“存算一體”。它的數據傳輸距離最短,同時能滿足大模型的計算精度要求,目前已有部分廠商已經在該結構上做出嘗試。
四種存算一體結構
圖源 | 互聯網
撞穿,意味著要在馮·諾依曼結構內部做出技術革新,其核心問題就是提升內存處理速度與數據傳輸速度。提升傳輸速度需要在總線技術上發力,光互聯技術采用波導方式傳輸數據,相比硅晶內部的載流子傳輸,具有損耗低、速度快、延時小的優點,可實現數據的高速傳輸,減少功耗。不過,面對內存墻無論是繞開還是撞穿,終歸還是要降低內存處理的延時,提升整體計算速度,因此降低內存本身延時也很關鍵。
?存算一體
離不開新式存儲方式
馮·諾依曼結構中,DRAM作為一種能夠快速反應的易失性存儲介質,是作為處理器一級內存的不二之選。DRAM基于場效應管工作,通過電流控制MOS管開閉來控制電荷進出晶體管,晶體管中的電荷多與少代表了1和0,即每個存儲單位可以儲存1Bit數據。當電流消失,晶體管就會釋放所有電荷,因此這種存儲介質被稱為易失性存儲介質。目前DRAM提升效率的主要方式就是增加工作頻率,2666MHz、3200MHz、3600MHz等參數就是內存的工作頻率。但隨著半導體工藝尺寸逐漸減小,傳統的基于互補金屬氧化物半導體工藝的緩存和主存遭遇了性能瓶頸,量子隧穿問題時刻困擾著內存工藝的進步,延時也無法進一步降低。
近年來,各類“存算一體”芯片架構的誕生,讓一部分延時更低的新式存儲方式走進人們視線。其中PCRAM相變儲存器、ReRAM電阻式存儲器、MRAM磁變/磁阻存儲器以及鐵電存儲器FRAM的出現為破解內存墻提供了新思路。
PCRAM又稱PCM、OUM(Ovonic UnifiedMemory)和 CRAM(Chalcogenide Random AccessMemory),從名字可以看出,它利用相變材料作為儲存介質。PCRAM在工作時通過對相變材料施加不同時長的電脈沖,使相變材料在不同程度的電流熱效應下分別呈現出不同的結晶狀態,并在兩種狀態之間快速切換。相變材料在非晶相態時呈現出半導體特性,具有較高的電阻值;在結晶相態時呈現出半金屬特性,具有較低的電阻值。因此,可以分別通過相變材料在非晶相態和結晶相態時呈現出的不同電阻特性來分別表示需要存儲的數據。PCRAM具有較好的微縮能力,目前已經可以做到20nm工藝,因此其儲存密度較DRAM更高。此外,由于相變材料可以在晶體態和非晶體態之間無極變換,通過更加精密的電阻探測方式,可以在單一存儲單元內存儲多Bit數據,因此PCRAM未來開發潛力巨大。
PCRAM ?圖源 |?百度百科
ReRAM,也稱RRAM,電阻式存儲器,是以非導性材料(金屬氧化物)的電阻在外加電場作用下,在高阻態和低阻態之間實現可逆轉換的非易失性存儲器。ReRAM在工作時可以對金屬氧化物施加電壓,使材料的電阻在高阻態和低阻態間發生相應變化,并利用這種性質儲存各種信息。與PCRAM原理類似,ReRAM也能在單個存儲單元中存儲多Bit數據。與DRAM相比,RRAM不僅滿足高讀寫速度和存儲密度的要求,同時延遲更低,可滿足未來智能駕駛高實時數據吞吐量。
ReRAM ?圖源 |?Objective Analysis
MRAM(Magnetoresistive Random Access Memory)是一種利用磁性工作的非易失性隨機存儲器。它和我們熟悉的“磁帶”不同,MRAM的磁性并不依賴介質表面的磁粉,而是基于兩個鐵磁層磁化狀態來存儲信息,其核心元件就是磁性隧道結 (magnetic tunnel junction,MTJ),當電流流過MTJ時它會因為存儲信息的不同而表現出不同的阻值。當下的 MRAM 家族成員包括了三類:自旋轉移扭矩 (spin-transfer torque :STT)、自旋軌道扭矩 (spin-orbit torque:SOT)、電壓控制(VCMA-和 VG-SOT)。
FRAM(FRAM,ferroelectric RAM)鐵電存儲器也是一種特殊工藝的非易失性的存儲器,采用人工合成的鉛鋯鈦(PZT) 材料形成存儲器結晶體存儲數據。當一個電場被施加到鐵晶體管時,中心原子順著電場停在低能量位置處,大量中心原子在晶體單胞中移動最終形成極化電荷,然后外界通過判斷鐵晶體管內的電荷高低來讀取數據。與DRAM相比,FRAM在速度與價格方面都具有較大優勢。
FRAM
圖源 |?Objective Analysis
值得注意的是,無論是哪種新式存儲方式,目前都存在部分局限性。由于存算一體架構在片內計算基本都屬于模擬計算,計算精度完全取決于工藝精度,更不能計算浮點運算,因此新式存儲方式搭配存算一體架構僅適合應用于需要大規模存儲的場景中。此外新式存儲往往專注于降低延時與持久儲存,往往還不具備Flash、DRAM等成熟工藝的可靠性,還需要繼續發展并完善。
總結
隨著摩爾定律逼近極限,芯片算力提升已經達到瓶頸,尤其是在需要大規模存儲的計算場景中,處理器與內存的數據交換上限逐漸成為新瓶頸。目前存算一體架構搭配延時更低的新存儲方式成為破解內存墻的關鍵。
編輯:黃飛
?
評論
查看更多