從底層硬件角度出發剖析了一下CPU對代碼的識別和讀取,內容之精彩,讀完感覺學到的很多東西瞬間聯系起來了,分享給大家。
先說一下半導體,啥叫半導體?就是介于導體和絕緣體中間的一種東西,比如二極管。
電流可以從A端流向C端,但反過來則不行。你可以把它理解成一種防止電流逆流的東西。
當C端10V,A端0V,二極管可以視為斷開。
當C端0V,A端10V,二極管可以視為導線,結果就是A端的電流源源不斷的流向C端,導致最后的結果就是A端=C端=10V。
等等,不是說好的C端0V,A端10V么?咋就變成結果是A端=C端=10V了?你可以把這個理解成初始狀態,當最后穩定下來之后就會變成A端=C端=10V。
文科的童鞋們對不住了,實在不懂問高中物理老師吧。反正你不能理解的話就記住這種情況下它相當于導線就行了。
利用半導體的這個特性,我們可以制作一些有趣的電路,比如【與門】。
此時A端B端只要有一個是0V,那Y端就會和0V地方直接導通,導致Y端也變成0V。只有AB兩端都是10V,Y和AB之間才沒有電流流動,Y端也才是10V。
我們把這個裝置成為【與門】,把有電壓的地方計為1,0電壓的地方計為0。至于具體幾V電壓,那不重要。也就是AB必須同時輸入1,輸出端Y才是1;AB有一個是0,輸出端Y就是0。
其他還有【或門】【非門】和【異或門】,跟這個都差不多,或門就是輸入有一個是1輸出就是1,輸入00則輸入0。
非門也好理解,就是輸入1輸出0,輸入0輸出1。
異或門難理解一些,不過也就那么回事,輸入01或者10則輸出1,輸入00或者11則輸出0。(即輸入兩個一樣的值則輸出0,輸入兩個不一樣的值則輸出1)。
這幾種門都可以用二極管或者三極管做出來,具體怎么做就不演示了,有興趣的童鞋可以自己試試。當然實際并不是用二極管三極管做的,因為它們太費電了。實際是用場效應管(也叫MOS管)做的。
然后我們就可以用門電路來做CPU了。當然做CPU還是挺難的,我們先從簡單的開始:加法器。加法器顧名思義,就是一種用來算加法的電路,最簡單的就是下面這種。
AB只能輸入0或者1,也就是這個加法器能算0+0,1+0或者1+1。
輸出端S是結果,而C則代表是不是發生進位了,二進制1+1=10嘛。這個時候C=1,S=0。
費了大半天的力氣,算個1+1是不是特別有成就感?
那再進一步算個1+2吧(二進制01+10),然后我們就發現了一個新的問題:第二位需要處理第一位有可能進位的問題,所以我們還得設計一個全加法器。
每次都這么畫實在太麻煩了,我們簡化一下。
也就是有3個輸入2個輸出,分別輸入要相加的兩個數和上一位的進位,然后輸入結果和是否進位。然后我們把這個全加法器串起來:
我們就有了一個4位加法器,可以計算4位數的加法也就是15+15,已經達到了幼兒園中班水平,是不是特別給力?
做完加法器我們再做個乘法器吧,當然乘任意10進制數是有點麻煩的,我們先做個乘2的吧。
乘2就很簡單了,對于一個2進制數數我們在后面加個0就算是乘2了。比如:
5=101(2)
10=1010(2)
以我們只要把輸入都往前移動一位,再在最低位上補個零就算是乘2了。具體邏輯電路圖我就不畫,你們知道咋回事就行了。
那乘3呢?簡單,先位移一次(乘2)再加一次。乘5呢?先位移兩次(乘4)再加一次。
所以一般簡單的CPU是沒有乘法的,而乘法則是通過位移和加算的組合來通過軟件來實現的。這說的有點遠了,我們還是繼續做CPU吧。
現在假設你有8位加法器了,也有一個位移1位的模塊了。串起來你就能算(A+B)×2了!激動人心,已經差不多到了準小學生水平。
那我要是想算A×2+B呢?簡單,你把加法器模塊和位移模塊的接線改一下就行了,改成輸入A先過位移模塊,再進加法器就可以了。
你的意思是我改個程序還得重新接線?
所以你以為呢?
實際上,編程就是把線來回插啊。驚喜不驚喜?意外不意外?
早期的計算機就是這樣編程的,幾分鐘就算完了但插線好幾天。而且插線是個細致且需要耐心的工作,所以那個時候的程序員都是清一色的漂亮女孩子,穿制服的那種,就像照片上這樣。是不是有種生不逢時的感覺?
插線也是個累死人的工作。所以我們需要改進一下,讓CPU可以根據指令來相加或者乘2。這里再引入兩個模塊,一個叫flip-flop,簡稱FF,中文好像叫觸發器,如下圖這樣。
這個模塊的作用是存儲1bit數據。比如上面這個RS型的FF,R是Reset,輸入1則清零。S是Set,輸入1則保存1。RS都輸入0的時候,會一直輸出剛才保存的內容。
我們用FF來保存計算的中間數據(也可以是中間狀態或者別的什么),1bit肯定是不夠的,不過我們可以并聯嘛,用4個或者8個來保存4位或者8位數據。這種我們稱之為寄存器(Register)。另外一個叫MUX,中文叫選擇器,如下圖就是一個選擇器。
這個就簡單了,sel輸入0則輸出i0的數據,i0是什么就輸出什么,01皆可。同理sel如果輸入1則輸出i1的數據。當然選擇器可以做的很長,比如這種四進一出的具體原理不細說了,其實看看邏輯圖琢磨一下就懂了,知道有這個東西就行了。下圖是一個四進一出-選擇器。
有這個東西我們就可以給加法器和乘2模塊(位移)設計一個激活針腳。
這個激活針腳輸入1則激活這個模塊,輸入0則不激活。這樣我們就可以控制數據是流入加法器還是位移模塊了。
于是我們給CPU先設計8個輸入針腳,4位指令,4位數據。
我們再設計3個指令:
0100,數據讀入寄存器
0001,數據與寄存器相加,結果保存到寄存器
0010,寄存器數據向左位移一位(乘2)
為什么這么設計呢,剛才也說了,我們可以為每個模塊設計一個激活針腳。然后我們可以分別用指令輸入的第二第三第四個針腳連接寄存器,加法器和位移器的激活針腳。
這樣我們輸入0100這個指令的時候,寄存器輸入被激活,其他模塊都是0沒有激活,數據就存入寄存器了。同理,如果我們輸入0001這個指令,則加法器開始工作,我們就可以執行相加這個操作了。
這里就可以簡單回答這個問題的第一個小問題了:CPU是為什么能看懂這些二級制的數呢?
為什么CPU能看懂,因為CPU里面的線就是這么接的唄。你輸入一個二進制數,就像開關一樣激活CPU里面若干個指定的模塊以及改變這些模塊的連同方式,最終得出結果。
幾個可能會被問的問題
Q:CPU里面可能有成千上萬個小模塊,一個32位/64位的指令能控制那么多嗎?
A:我們舉例子的CPU里面只有3個模塊,就直接接了。真正的CPU里會有一個解碼器(decoder),把指令翻譯成需要的形式。
Q:你舉例子的簡單CPU,如果我輸入指令0011會怎么樣?
A:當然是同時激活了加法器和位移器從而產生不可預料的后果,簡單的說因為你使用了沒有設計的指令,所以后果自負唄。在真正的CPU上這么干大概率就是崩潰唄,不過肯定會有各種保護性的設計。
細心的小伙伴可能發現一個問題:你設計的指令【0001,數據與寄存器相加,結果保存到寄存器】這個一步做不出來吧?
畢竟還有一個回寫的過程,實際上確實是這樣。我們設計的簡易CPU執行一個指令差不多得三步,讀取指令,執行指令,寫寄存器。
經典的RISC設計則是分5步:讀取指令(IF),解碼指令(ID),執行指令(EX),內存操作(MEM),寫寄存器(WB)。我們平常用的x86的CPU有的指令可能要分將近20個步驟。
你可以理解有這么一個開關,我們啪的按一下,CPU就走一步,你按的越快CPU就走的越快。咦?聽說你有個想法?少年,你這個想法很危險啊,姑且不說你能不能按那么快。拿現代的CPU來說,也就2GHz多吧,大概一秒也就按個20億下吧。
就算你能按那么快,雖然速度是上去了,但功耗會大大增加,發熱上升穩定性下降。江湖上確實有這種玩法,名曰超頻,不過新手不推薦你嘗試哈。
那CPU怎么知道自己走到哪一步了呢?前面不是介紹了FF么,這個不光可以用來存中間數據,也可以用來存中間狀態,也就是走到哪了。
具體的設計涉及到FSM(finite-state machine),也就是有限狀態機理論,以及怎么用FF實裝。這個也是很重要的一塊,考試必考哈,只不過跟題目關系不大,這里就不展開講了。
我們再繼續剛才的講,現在我們有3個指令了。我們來試試算個(1+4)X2+3吧。
0100 0001 ;寄存器存入1
0001 0100 ;寄存器的數字加4
0010 0000 ;乘2
0001 0011 ;再加三
太棒了,靠這臺計算機我們應該可以打敗所有的幼兒園小朋友,稱霸大班了。而且現在我們用的是4位的,如果換成8位的CPU完全可以吊打低年級小學生了!
實際上用程序控制CPU是個挺高級的想法,再此之前計算機(器)的CPU都是單獨設計的。
1969年一家日本公司BUSICOM想搞程控的計算器,而負責設計CPU的美國公司也覺得每次都重新設計CPU是個挺傻X的事,于是雙方一拍即合,于1970年推出一種劃時代的產品,世界上第一款微處理器4004。
這個架構改變了世界,那家負責設計CPU的美國公司也一步一步成為了業界巨頭。哦對了,它叫Intel,對,就是噔噔噔噔的那個。
我們把剛才的程序整理一下:
"01000001000101000010000000010011"
你來把它輸入CPU,我去準備一下去幼兒園大班踢館的工作。
什么!?等我們輸完了人家小朋友掰手指都能算出來了?
沒辦法機器語言就是這么反人類。哦,忘記說了,這種只有01組成的語言被稱之為機器語言(機器碼),是CPU唯一可以理解的語言。不過你把機器語言讓人讀,絕對一秒變典韋,這誰也受不了。
所以我們還是改進一下吧。不過話雖這么講,也就往前個30年,直接輸入01也是個挺普遍的事情。
于是我們把我們機器語言寫成的程序:
0100 0001 ;寄存器存入1
0001 0100 ;寄存器的數字加4
0010 0000 ;乘2
0001 0011 ;再加三
改寫成:
MOV 1 ;寄存器存入1
ADD 4 ;寄存器的數字加4
SHL 0 ;乘2(介于我們設計的乘法器暫時只能乘2,這個0是占位的)
ADD 3 ;再加三
是不是容易讀多了?這就叫匯編語言。
匯編語言的好處在于它和機器語言一一對應。
也就是我們寫的匯編可以完美的改寫成機器語言,直接指揮cpu,進行底層開發;我們也可以把內存中的數據dump出來,以匯編語言的形式展示出來,方便調試和debug。
匯編語言極大的增強了機器語言的可讀性和開發效率,但對于人類來說也依然是太晦澀了,于是我們又發明了高級語言,以近似于人類的語法來表現數據結構和算法。
比如很多語言都可以這么寫:
a=(1+4)*2+3;
當然這樣計算機是不認識的,我們要把它翻譯成計算機認識的形式,這個過程叫編譯,用來做這個事的東西叫編譯器。
具體怎么把高級語言弄成匯編語言/機器語言的,一本書都寫不完,我們就舉個簡單的例子。
我們把:
(1+4)*2+3
轉換成:
1,4,+,2,*,3,+
這種寫法叫后綴表示法,也成為逆波蘭表示法。相對的,我們平常用的表示法叫中綴表示法,也就是符號方中間,比如1+4。而后綴表示法則寫成1,4,+。
轉換成這種寫法的好處是沒有先乘除后加減的影響,也沒有括號了,直接算就行了。
具體怎么轉換的可以找本講編譯原理的書看看,這里不展開講了。
轉換成這種形式之后我們就可以把它改成成匯編語言了。
從頭開始處理,最開始是1,一個數字,那就存入寄存器:
MOV 1
之后是4,+,那就加一下:
ADD 4
然后是2,*,那就乘一下(介于我們設計的乘法器暫時只能乘2,這個0是占位的):
SHL 0
最后是3,+,那再加一下:
ADD 3
最后我們把翻譯好的匯編整理一下:
MOV 1
ADD 4
SHL 0
ADD 3
再簡單的轉換成機器語言,就可以拿到我們設計的簡單CPU上運行了。
其實到了這一步,應該把這個問題都講清楚了:C語言寫出來的東西是怎么翻譯成二進制的,電腦又是怎么運行這個二進制的。
只不過題主最后還提到棧和硬件的關系,這里就再多說幾句。
其實棧是一種數據結構,跟CPU無關。只不過棧這個數據結構實在太常用了,以至于CPU會針對性的進行優化。為了能讓我們的CPU也能用棧,我們給它增加幾個組件。
第一,增加一組寄存器。現在有兩組寄存器了,我們分別成為A和B。
第二,增加兩個指令,RDA/RDB和WRA/WRB,分別為把指定內存地址的數據讀到寄存器A/B,和把寄存器A/B的內容寫到指定地址。
順便再說下內存,內存有個地址總線,有個數據總線。比如你要把1100這個數字存到0011這個地址,就把1100接到數據總線,0011接到地址總線,都準備好了啪嚓一按開關(對,就是我們前面提到的那個開關),就算是存進去了。
什么叫DDR內存呢,就是你按這個開關的時候存進去一個數字,抬起來之前你把地址和數據都更新一下,然后一松手,啪!又進去一個。也就是正常的內存你按一下進去1個數據,現在你按一下進去倆數據,這就叫雙倍速率(Double Data Rate,簡稱DDR)
加了這幾個命令之后我們發現按原來的設計,CPU每個指令針腳控制一個模塊的方式的話針腳不夠用了。所以我們就需要加一個解碼器了(decoder)。
于是我們選擇用第二個位作為是否選擇寄存器的針腳。如果為0,則第三第四位可以正常激活位移器和加法器;如果為1則只激活寄存器而不激活位移和加法器,然后用第四位來決定是寄存器A還是B。這樣變成了:
0100,數據讀入寄存器A
0101,數據讀入寄存器B (我們把匯編指令定義為MOVB)
0001,數據與寄存器A相加,結果保存到寄存器A
0011,數據與寄存器B相加,結果保存到寄存器B(我們把匯編指令定義為ADDB)
0010,寄存器A數據向左位移一位(乘2)
最后我們可以用第一位來控制是不是進行內存操作。如果第一位為1則也不激活位移和加法器模塊,然后用第三個針腳來控制是讀還是寫。這樣就有了:
1100,把寄存器B的地址數據讀入寄存器A(我們把匯編指令定義為RD)
1110,寄存器A的數據寫到寄存器B指定的地址(我們把匯編指令定義為WR)
我們加了個解碼器之后,加法器的激活條件從p4變成了(NOT (p1 OR p2)) AND p4。
加法器的輸入則由第三個針腳判斷,0則為寄存器A,1為寄存器B。這就是簡單的指令解碼啦。
當然我們也可以選擇不向下兼容,另外設計一套指令。不過放到現實世界恐怕就要出大亂子了,所以你也可以想象我們平常用的x86背了個多大的歷史包袱。
這個時候我們用棧的話,先棧地址初始化:
0101 1000 ; MOVB 16; 把棧底地址定義為1000
之后入棧的話,比如把數字3,4入棧:
1111 0011 ; WR 03; 把3寫到內存,地址為1000
0011 0001 ; ADDB 01; 棧地址+1
1111 0100 ; WR 04; 把3寫到內存,地址為1001
0011 0001 ; ADDB 01; 棧地址+1
這樣就把3,4都保存到棧里了。
出棧的話反過來:
0011 1111 ; ADDB -1; 棧地址-1
1101 0000 ; RD 00; 把內容讀入寄存器A,00是占位
0011 1111 ; ADDB -1; 棧地址-1
1101 0000 ; RD 00; 把內容讀入寄存器A,00是占位
這樣就依次得到4,3兩個值。
所以,入棧出棧其實就是把數據寫道指定的內存位置,CPU其實不知道你是在干啥。當然我們也可以讓CPU知道。
接下來我們再改進一下,給CPU再加一個寄存器SP,并定義兩個指令:一個PUSH,一個POP。動作分別是把數據寫入SP的地址,然后SP=SP+1,POP的話反過來。
這樣有什么好處呢?好處在于PUSH/POP這樣的指令消耗特別少,速度特別快。而棧這種數據結構在各種程序里用的又特別頻繁,設計成專用的指令則可以很大程度上提升效率。
當然前提是編譯器知道這個指令,并且做了優化,所以同樣的程序(c語言寫的),編譯參數不一樣(打開/關閉某些特性),編譯出來的東西也就不一樣,在不同硬件上的運行的效率也就會不一樣。
比如上古時代的mmx,今天的SSE4.2,AVX-512,給力不給力?特別給力,但你平常用的程序支不支持是另一碼事,要支持怎么辦?重新編譯唄。
這個時候開源的優勢就顯示出來了,重新編譯很方便。閉源的話你就要指望作者開恩啦。
對于大多數人來說,電腦就是個黑箱,我們很難理解它到底是怎用工作的。這個問題又很難一句兩句解釋清楚,因為它是一環扣一環的,每一環都很抽象,每一環都是基礎值倆個學分,展開了講沒上限的那種。
這就導致了即使是系統學過計算機的人也不見得就有一個明確而清晰的思路。想用盡量短的篇幅和盡量簡單的語言把這個事從頭到位解釋了一下,希望能給大家解答一些疑惑。
責任編輯:lq
-
二極管
+關注
關注
147文章
9629瀏覽量
166316 -
cpu
+關注
關注
68文章
10855瀏覽量
211601 -
代碼
+關注
關注
30文章
4780瀏覽量
68529
原文標題:CPU怎么識別我們寫的代碼?
文章出處:【微信號:c-stm32,微信公眾號:STM32嵌入式開發】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論