這篇文章探討ARM架構(gòu)和總線協(xié)議如何來支持的。對(duì)于某款A(yù)RM處理器和總線CCI,CCN和CMN產(chǎn)品的具體實(shí)現(xiàn),屬于實(shí)現(xiàn)層面的微架構(gòu),一般需要NDA,這里不予討論。
順便提一下,在ARMv8 架構(gòu)下對(duì)應(yīng)的是LDXR (load exclusive register 和STXR (store exclusiveregister)及其變種指令,另外,在ARMv8.1架構(gòu)中引入atomic instruction, 例如LDADD (Atomic add),CAS(Compare and Swap)等。
Exclusive monitor
首先,作為一個(gè)愛問為什么的工程師,一定會(huì)想到LDXR/ STXR和一般的LDR/STR有什么區(qū)別。這個(gè)區(qū)別就在于LDXR除了向memory發(fā)起load請(qǐng)求外,還會(huì)記錄該memory所在地址的狀態(tài)(一般ARM處理器在同一個(gè)cache line大小,也就是64 byte的地址范圍內(nèi)共用一個(gè)狀態(tài)),那就是Open和Exclusive。
我們可以認(rèn)為一個(gè)叫做exclusive monitor的模塊來記錄。根據(jù)CPU訪問內(nèi)存地址的屬性(在頁(yè)表里面定義),這個(gè)組件可能在處理器 L1 memory system, 處理器cluster level, 或者總線,DDR controller上。
下面是Arm ARM架構(gòu) [1] 文檔定義的狀態(tài)轉(zhuǎn)換圖
實(shí)例說明:
1)CPU1發(fā)起了一個(gè)LDXR的讀操作,記錄當(dāng)前的狀態(tài)為Exclusive
2)CPU2發(fā)起了一個(gè)LDXR的讀操作,當(dāng)前的狀態(tài)為Exclusive,保持不變
3)CPU2發(fā)起了一個(gè)STXR的寫操作,狀態(tài)從Exclusive變成Open,同時(shí)數(shù)據(jù)回寫到DDR
4)CPU1發(fā)起了一個(gè)STXR的寫操作,因?yàn)楫?dāng)前的exclusive monitor狀態(tài)為Open,寫失敗(假如程序這時(shí)用STR操作來寫,寫會(huì)成功,但是這個(gè)不是原子操作函數(shù)的本意,屬于編程錯(cuò)誤)
假如有多個(gè)CPU,同時(shí)對(duì)一個(gè)處于Exclusive的memory region來進(jìn)行寫,CPU有內(nèi)部邏輯來保證串行化。
Monitor的狀態(tài)除了STXR會(huì)清掉,從Exclusive變成Open之外,還有其他因素也可以導(dǎo)致monitor的狀態(tài)被清掉,所以軟件在實(shí)現(xiàn)spinlock的時(shí)候,一般會(huì)用一個(gè)loop循環(huán)來實(shí)現(xiàn),所謂“spin”。
Exclusive monitor實(shí)現(xiàn)所處的位置
根據(jù)LDXR/STXR 訪問的memory的屬性,需要的monitor可以在CPU內(nèi)部,總線,也可以DDR controller(例如ARM DMC-400 [2]在每個(gè)memory interface 支持8個(gè) exclusive access monitors)。
一般Memory屬性配置為 normal cacheable, shareable,這種情形下,CPU發(fā)起的exclusive access會(huì)終結(jié)在CPU cluster內(nèi)部,對(duì)外的表現(xiàn),比如cacheline fill和line eviction和正常的讀寫操作產(chǎn)生的外部行為是一樣的。具體實(shí)現(xiàn)上,需要結(jié)合local monitor的狀態(tài)管理和cache coherency 的處理邏輯,比如MESI/MOESI的cacheline的狀態(tài)管理來。
為方便大家理解,下面劃出一個(gè)monitor在一個(gè)假象SOC里面的邏輯圖(在一個(gè)真實(shí)芯片里面,不是所有monitor都會(huì)實(shí)現(xiàn),需要和SOC vendor確認(rèn))
External exclusive monitor
對(duì)于normal non-cacheable,或者Device類型的memory屬性的memory地址,cpu會(huì)發(fā)出exclusive access的AXI 訪問(AxLOCK signals )到總線上去,總線需要有對(duì)應(yīng)的External exclusive monitor支持,否則會(huì)返回錯(cuò)誤。例如, 假如某個(gè)SOC不支持外部global exclusivemonitor,軟件把MMU disabled的情況下,啟動(dòng)SMP Linux,系統(tǒng)是沒法啟動(dòng)起來的,在spinlock處會(huì)掛掉。
AMBA AXI/ACE 規(guī)范
The exclusive access mechanism can provide semaphore-type operations without requiring the bus to remain dedicated to a particular master for the duration of the operation. This means the semaphore-type operations do not impact either the bus access latency or the maximum achievable bandwidth.
The AxLOCK signals select exclusive access, and the RRESP and BRESP signals indicate the success or failure of the exclusive access read or write respectively.
The slave requires additional logic to support exclusive access. The AXI protocol provides a mechanism to indicate when a master attempts an exclusive access to a slave that does not support it.
Atomic指令的支持
處理器,支持cache coherency協(xié)議的總線,或者DDR controller可以增加了一些簡(jiǎn)單的運(yùn)算,比如,在讀寫指令產(chǎn)生的memory訪問的過程中一并把簡(jiǎn)單的運(yùn)算給做了。
AMBA 5 [3] 里面增加了對(duì)Atomic transactions的支持:
AMBA 5 introduces Atomic transactions, which perform more than just a single access, and have some form of operation that is associated with the transaction.
Atomic transactions are suited to situations where the data is located a significant distance from the agent that must perform the operation. Previously, performing an operation that is atomically required pulling the data towards the agent, performing the operation, and then pushing the result back.
Atomic transactions enable sending the operation to the data, permitting the operation to be performed closer to where the data is located.
The key advantage of this approach is that it reduces the amount of time during which the data must be made inaccessible to other agents in the system.
支持4種Atomic transaction:AtomicStore ,AtomicLoad,AtomicSwap 和AtomicCompare
QA
1) Local monitor和Global monitor的使用場(chǎng)景
* Local monitor適用于訪問的memory屬為normal cacheable, shareable或者non-shareable的情況.
* Global monitor ,準(zhǔn)確來說,external global exclusive monitor (處理器之外,在外部總線上)用于normal noncacheable或者device memory類型。比如可以用于一個(gè)Cortex-A處理器和一個(gè)Cortex-M 處理器(沒有內(nèi)部cache)之間的同步。
2)多CPU下,多個(gè)LDREX,和STREX的排他性實(shí)現(xiàn)
* 各個(gè)處理器和總線的實(shí)現(xiàn)不同,可以從軟件上理解為和data coherency實(shí)現(xiàn)相結(jié)合,比如M(O)ESI協(xié)議[5],這是一種Invalidate-basedcache coherence protocol, 其中的key point就是當(dāng)多個(gè)CPU在讀同一個(gè)cacheline的時(shí)候,在每個(gè)CPU的內(nèi)部cache里面都有cacheline allocation, cacheline的狀態(tài)會(huì)變成Shared;但是當(dāng)某個(gè)CPU做寫的時(shí)候,會(huì)把其它CPU里面的cacheline數(shù)據(jù)給invalidate掉,然后寫自己的cacheline數(shù)據(jù),同時(shí)設(shè)置為Modified狀態(tài),從而保證了數(shù)據(jù)的一致性。
* LDREX,本質(zhì)上是一個(gè)LDR,CPU1做cache linefill,然后設(shè)置該line為E狀態(tài)(Exclusive),額外的一個(gè)作用是設(shè)置exclusive monitor的狀態(tài)為Exclusive;其他cpu做LDREX,該line也會(huì)分配到它的內(nèi)部cache里面,狀態(tài)都設(shè)置為Shared ,也會(huì)設(shè)置本CPU的monitor的狀態(tài)。當(dāng)一個(gè)CPU 做STREX時(shí)候,這個(gè)Write操作會(huì)把其它CPU里面的cacheline數(shù)據(jù)給invalidate掉。同時(shí)也把monitor的狀態(tài)清掉,從Exclusive變成Open的狀態(tài),這個(gè)MESI協(xié)議導(dǎo)致cachline的狀態(tài)在多CPU的變化,是執(zhí)行Write操作一次性改變的。這樣在保證數(shù)據(jù)一致性的同時(shí),也保證了montitor的狀態(tài)更新同步改變。
3)比如舉一個(gè)多核的場(chǎng)景,一個(gè)核ldrex了,如果本核的local monitor會(huì)發(fā)生什么,外部的global monitor發(fā)生什么,開不開mmu,cache不cache,區(qū)別和影響是什么。
Ldrex/strex本來就是針對(duì)多核的場(chǎng)景來設(shè)計(jì)的,local monitor的狀態(tài)發(fā)生改變,不會(huì)影響外部的global monitor狀態(tài)。但是external global monitor的狀態(tài)發(fā)生改變,可以告訴處理器,把local monitor的狀態(tài)清掉。
Data coherency是通過硬件來支持的。對(duì)于normal cacheable類型的memory, MMU和DCache必須使能,否則CPU會(huì)把exclusive類型的數(shù)據(jù)請(qǐng)求發(fā)出處理器,這時(shí)需要外部monitor的支持。
-
ARM
+關(guān)注
關(guān)注
134文章
9084瀏覽量
367384 -
Linux
+關(guān)注
關(guān)注
87文章
11292瀏覽量
209328 -
總線
+關(guān)注
關(guān)注
10文章
2878瀏覽量
88051
原文標(biāo)題:羅玉平: 關(guān)于ARM Linux原子操作的底層支持
文章出處:【微信號(hào):LinuxDev,微信公眾號(hào):Linux閱碼場(chǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論