Linux內核啟動流程
arch/arm/kernel/head-armv.S
該文件是內核最先執行的一個文件,包括內核入口ENTRY(stext)到start_kernel間的初始化代碼,主要作用是檢查CPU ID, Architecture Type,初始化BSS等操作,并跳到start_kernel函數。在執行前,處理器應滿足以下狀態:
r0 - should be 0
r1 - unique architecture number
MMU - off
I-cache - on or off
D-cache – off
/* 部分源代碼分析 */
/* 內核入口點 */
ENTRY(stext)
/* 程序狀態,禁止FIQ、IRQ,設定SVC模式 */
mov r0, #F_BIT | I_BIT | MODE_SVC@ make sure svc mode
/* 置當前程序狀態寄存器 */
msr cpsr_c, r0 @ and all irqs disabled
/* 判斷CPU類型,查找運行的CPU ID值與Linux編譯支持的ID值是否支持 */
bl __lookup_processor_type
/* 跳到__error */
teq r10, #0 @ invalid processor?
moveq r0, #'p' @ yes, error 'p'
beq __error
/* 判斷體系類型,查看R1寄存器的Architecture Type值是否支持 */
bl __lookup_architecture_type
/* 不支持,跳到出錯 */
teq r7, #0 @ invalid architecture?
moveq r0, #'a' @ yes, error 'a'
beq __error
/* 創建核心頁表 */
bl __create_page_tables
adr lr, __ret @ return address
add pc, r10, #12 @ initialise processor
/* 跳轉到start_kernel函數 */
b start_kernel
5. start_kernel()函數分析
下面對start_kernel()函數及其相關函數進行分析。
5.1 lock_kernel()
/* Getting the big kernel lock.
* This cannot happen asynchronously,
* so we only need to worry about other
* CPU's.
*/
extern __inline__ void lock_kernel(void)
{
if (!++current->lock_depth)
spin_lock(&kernel_flag);
}
kernel_flag 是一個內核大自旋鎖,所有進程都通過這個大鎖來實現向內核態的遷移。只有獲得這個大自旋
鎖的處理器可以進入內核,如中斷處理程序等。在任何一對 lock_kernel/unlock_kernel函數里至多可以有一個程序占用CPU。 進程的lock_depth成員初始化為-1,在 kerenl/fork.c文件中設置。在它小于0時
(恒為 -1),進程不擁有內核鎖;當大于或等于0時,進程得到內核鎖。
5.2 setup_arch()
setup_arch()函數做體系相關的初始化工作,函數的定義在arch/arm/kernel/setup.c文件中,主
要涉及下列主要函數及代碼。
5.2.1 setup_processor()
該函數主要通過
for (list = &__proc_info_begin; list < &__proc_info_end ; list++)
if ((processor_id & list->cpu_mask) == list->cpu_val)
break;
這樣一個循環來在.proc.info段中尋找匹配的processor_id,processor_id在head_armv.S文件
中設置。
5.2.2 setup_architecture(machine_arch_type)
該函數獲得體系結構的信息,返回mach-xxx/arch.c 文件中定義的machine結構體的指針,包含以下內容
MACHINE_START (xxx, “xxx”)
MAINTAINER ("xxx"
BOOT_MEM (xxx, xxx, xxx)
FIXUP (xxx)
MAPIO (xxx)
INITIRQ (xxx)
MACHINE_END
5.2.3內存設置代碼
if (meminfo.nr_banks == 0)
{
meminfo.nr_banks = 1;
meminfo.bank[0].start = PHYS_OFFSET;
meminfo.bank[0].size = MEM_SIZE;
}
meminfo結構表明內存情況,是對物理內存結構meminfo的默認初始化。 nr_banks指定內存塊的數量,
bank指定每塊內存的范圍,PHYS _OFFSET指定某塊內存塊的開始地址,MEM_SIZE指定某塊內存塊長度。
PHYS _OFFSET和MEM_SIZE都定義在include/asm-armnommu/arch-XXX/memory.h文件中,其中
PHYS _OFFSET是內存的開始地址,MEM_SIZE就是內存的結束地址。這個結構在接下來內存的初始化代碼中
起重要作用。
5.2.4 內核內存空間管理
init_mm.start_code = (unsigned long) &_text; 內核代碼段開始
init_mm.end_code = (unsigned long) &_etext; 內核代碼段結束
init_mm.end_data = (unsigned long) &_edata; 內核數據段開始
init_mm.brk = (unsigned long) &_end; 內核數據段結束
每一個任務都有一個mm_struct結構管理其內存空間,init_mm 是內核的mm_struct。其中設置成員變量
* mmap指向自己, 意味著內核只有一個內存管理結構,設置 pgd=swapper_pg_dir,
swapper_pg_dir是內核的頁目錄,ARM體系結構的內核頁目錄大小定義為16k。init_mm定義了整個內核的
內存空間,內核線程屬于內核代碼,同樣使用內核空間,其訪問內存空間的權限與內核一樣。
5.2.5 內存結構初始化
bootmem_init (&meminfo)函數根據meminfo進行內存結構初始化。bootmem_init(&meminfo)函數中調
用 reserve_node_zero(bootmap_pfn, bootmap_pages) 函數,這個函數的作用是保留一部分內存使之
不能被動態分配。這些內存塊包括:
reserve_bootmem_node(pgdat, __pa(&_stext), &_end - &_stext); /*內核所占用地址空間*/
reserve_bootmem_node(pgdat, bootmap_pfn<
5.2.6 paging_init(&meminfo, mdesc)
創建內核頁表,映射所有物理內存和IO空間,對于不同的處理器,該函數差別比較大。下面簡單描述一下ARM
體系結構的存儲系統及MMU相關的概念。
在ARM存儲系統中,使用內存管理單元(MMU)實現虛擬地址到實際物理地址的映射。利用MMU,可把SDRAM的
地址完全映射到0x0起始的一片連續地址空間,而把原來占據這片空間的FLASH或者ROM映射到其他不相沖突
的存儲空間位置。例如,FLASH的地址從0x0000 0000~0x00FFFFFF,而SDRAM的地址范圍是
0x3000 0000~0x3lFFFFFF,則可把SDRAM地址映射為0x0000 0000~0xlFFFFFF,而FLASH的地址可以
映射到0x9000 0000~0x90FFFFFF(此處地址空間為空閑,未被占用)。映射完成后,如果處理器發生異常,
假設依然為IRQ中斷,PC指針指向0xl8處的地址,而這個時候PC實際上是從位于物理地址的0x3000 0018處
讀取指令。通過MMU的映射,則可實現程序完全運行在SDRAM之中。在實際的應用中.可能會把兩片不連續的
物理地址空間分配給SDRAM。而在操作系統中,習慣于把SDRAM的空間連續起來,方便內存管理,且應用程序
申請大塊的內存時,操作系統內核也可方便地分配。通過MMU可實現不連續的物理地址空間映射為連續的虛擬
地址空間。操作系統內核或者一些比較關鍵的代碼,一般是不希望被用戶應用程序訪問。通過MMU可以控制地
址空間的訪問權限,從而保護這些代碼不被破壞。
MMU的實現過程,實際上就是一個查表映射的過程。建立頁表是實現MMU功能不可缺少的一步。頁表位于系統的
內存中,頁表的每一項對應于一個虛擬地址到物理地址的映射。每一項的長度即是一個字的長度(在ARM中,
一個字的長度被定義為4Bytes)。頁表項除完成虛擬地址到物理地址的映射功能之外,還定義了訪問權限和緩
沖特性等。
MMU的映射分為兩種,一級頁表的變換和二級頁表變換。兩者的不同之處就是實現的變換地址空間大小不同。
一級頁表變換支持1 M大小的存儲空間的映射,而二級可以支持64 kB,4 kB和1 kB大小地址空間的映射。
動態表(頁表)的大小=表項數*每個表項所需的位數,即為整個內存空間建立索引表時,需要多大空間存放索
引表本身。
表項數=虛擬地址空間/每頁大小
每個表項所需的位數=Log(實際頁表數)+適當控制位數
實際頁表數 =物理地址空間/每頁大小
5.3 parse_options()
分析由內核引導程序發送給內核的啟動選項,在初始化過程中按照某些選項運行,并將剩余部分傳送給init進
程。這些選項可能已經存儲在配置文件中,也可能是由用戶在系統啟動時敲入的。但內核并不關心這些,這些
細節都是內核引導程序關注的內容,嵌入式系統更是如此。
5.4 trap_init() (/kernel/traps.c do_trap)
這個函數用來做體系相關的中斷處理的初始化,在該函數中調用__trap_init((void *)vectors_base())
函數將exception vector設置到vectors_base開始的地址上。 __trap_init函數位于entry-armv.S文
件中,對于ARM處理器,共有復位、未定義指令、SWI、預取終止、數據終止、IRQ和FIQ 幾種方式。SWI主要
用來實現系統調用,而產生了IRQ之后,通過exception vector進入中斷處理過程,執行do_IRQ函數。
armnommu的trap_init()函數在arch/armnommu/kernel/traps.c文件中。vectors_base是寫中斷向
量的開始地址,在include/asm-armnommu/proc-armv/system.h文件中設置,地址為0或0XFFFF0000。
ENTRY(__trap_init)
stmfd sp!, {r4 - r6, lr}
mrs r1, cpsr @ code from 2.0.38
bic r1, r1, #MODE_MASK @ clear mode bits /* 設置svc模式,disable IRQ,FIQ */
orr r1, r1, #I_BIT|F_BIT|MODE_SVC @ set SVC mode, disable IRQ,FIQ
msr cpsr, r1
adr r1, .LCvectors @ set up the vectors
ldmia r1, {r1, r2, r3, r4, r5, r6, ip, lr}
stmia r0, {r1, r2, r3, r4, r5, r6, ip, lr} /* 拷貝異常向量 */
add r2, r0, #0x200
adr r0, __stubs_start @ copy stubs to 0x200
adr r1, __stubs_end
1: ldr r3, [r0], #4
str r3, [r2], #4
cmp r0, r1
blt 1b
LOADREGS(fd, sp!, {r4 - r6, pc})
__stubs_start到__stubs_end的地址中包含了異常處理的代碼,因此拷貝到vectors_base+0x200的位
置上。
5.5 init_IRQ()
void __init init_IRQ(void)
{
extern void init_dma(void);
int irq;
for (irq = 0; irq < NR_IRQS; irq++) {
irq_desc[irq].probe_ok = 0;
irq_desc[irq].valid = 0;
irq_desc[irq].noautoenable = 0;
irq_desc[irq].mask_ack = dummy_mask_unmask_irq;
irq_desc[irq].mask = dummy_mask_unmask_irq;
irq_desc[irq].unmask = dummy_mask_unmask_irq;
}
CSR_WRITE(AIC_MDCR, 0x7FFFE); /* disable all interrupts */
CSR_WRITE(CAHCNF,0x0);/*Close Cache*/
CSR_WRITE(CAHCON,0x87);/*Flush Cache*/
while(CSR_READ(CAHCON)!=0);
CSR_WRITE(CAHCNF,0x7);/*Open Cache*/
init_arch_irq();
init_dma();
}
這個函數用來做體系相關的irq處理的初始化,irq_desc數組是用來描述IRQ的請求隊列,每一個中斷號分配
一個irq_desc結構,組成了一個數組。NR_IRQS代表中斷數目,這里只是對中斷結構irq_desc進行了初始
化。在默認的初始化完成后調用初始化函數init_arch_irq,先執行arch/armnommu/kernel/irq-
arch.c文件中的函數genarch_init_irq(),然后就執行 include/asm-armnommu/arch-xxxx/irq.h中
的inline函數irq_init_irq,在這里對irq_desc進行了實質的初始化。其中mask用阻塞中斷;unmask用
來取消阻塞;mask_ack的作用是阻塞中斷,同時還回應ack給硬件表示這個中斷已經被處理了,否則硬件將再
次發生同一個中斷。這里,不是所有硬件需要這個ack回應,所以很多時候mask_ack與mask用的是同一個函
數。
接下來執行init_dma()函數,如果不支持DMA,可以設置include/asm-armnommu/arch-xxxx/dma.h中
的 MAX_DMA_CHANNELS為0,這樣在arch/armnommu/kernel/dma.c文件中會根據這個定義使用不同的函
數。
5.6 sched_init()
初始化系統調度進程,主要對定時器機制和時鐘中斷的Bottom Half的初始化函數進行設置。與時間相關的初
始化過程主要有兩步:(1)調用 init_timervecs()函數初始化內核定時器機制;(2)調用init_bh()函
數將BH向量TIMER_BH、TQUEUE_BH和 IMMEDIATE_BH所對應的BH函數分別設置成timer_bh()、
tqueue_bh()和immediate_bh()函數
5.7 softirq_init()
內核的軟中斷機制初始化函數。調用tasklet_init初始化tasklet_struct結構,軟中斷的個數為32個。用
于bh的 tasklet_struct結構調用tasklet_init()以后,它們的函數指針func全都指向bh_action()。
bh_action就是tasklet實現bh機制的代碼,但此時具體的bh函數還沒有指定。
HI_SOFTIRQ用于實現bottom half,TASKLET_SOFTIRQ用于公共的tasklet。
open_softirq(TASKLET_SOFTIRQ, tasklet_action, NULL); /* 初始化公共的tasklet_struct要
用到的軟中斷 */
open_softirq(HI_SOFTIRQ, tasklet_hi_action, NULL); /* 初始化tasklet_struct實現的
bottom half調用 */
5.8 time_init()
這個函數用來做體系相關的timer的初始化,armnommu的在arch/armnommu/kernel/time.c。這里調用了
在 include/asm-armnommu/arch-xxxx/time.h中的inline函數setup_timer,setup_timer()函數
的設計與硬件設計緊密相關,主要是根據硬件設計情況設置時鐘中斷號和時鐘頻率等。
void __inline__ setup_timer (void)
{
/*----- disable timer -----*/
CSR_WRITE(TCR0, xxx);
CSR_WRITE (AIC_SCR7, xxx); /* setting priority level to high */
/* timer 0: 100 ticks/sec */
CSR_WRITE(TICR0, xxx);
timer_irq.handler = xxxxxx_timer_interrupt;
setup_arm_irq(IRQ_TIMER, &timer_irq); /* IRQ_TIMER is the interrupt number */
INT_ENABLE(IRQ_TIMER);
/* Clear interrupt flag */
CSR_WRITE(TISR, xxx);
/* enable timer */
CSR_WRITE(TCR0, xxx);
}
5.9 console_init()
控制臺初始化。控制臺也是一種驅動程序,由于其特殊性,提前到該處完成初始化,主要是為了提前看到輸出
信息,據此判斷內核運行情況。很多嵌入式Linux操作系統由于沒有在/dev目錄下正確配置console設備,造
成啟動時發生諸如unable to open an initial console的錯誤。
/*******************************************************************************/
init_modules()函數到smp_init()函數之間的代碼一般不需要作修改,
如果平臺具有特殊性,也只需對相關函數進行必要修改。
這里簡單注明了一下各個函數的功能,以便了解。
/*******************************************************************************/
5.10 init_modules()
模塊初始化。如果編譯內核時使能該選項,則內核支持模塊化加載/卸載功能
5.11 kmem_cache_init()
內核Cache初始化。
5.12 sti()
使能中斷,這里開始,中斷系統開始正常工作。
5.13 calibrate_delay()
近似計算BogoMIPS數字的內核函數。作為第一次估算,calibrate_delay計算出在每一秒內執行多少次
__delay循環,也就是每個定時器滴答(timer tick)―百分之一秒內延時循環可以執行多少次。這種計算只
是一種估算,結果并不能精確到納秒,但這個數字供內核使用已經足夠精確了。
BogoMIPS的數字由內核計算并在系統初始化的時候打印。它近似的給出了每秒鐘CPU可以執行一個短延遲循環
的次數。在內核中,這個結果主要用于需要等待非常短周期的設備驅動程序――例如,等待幾微秒并查看設備的
某些信息是否已經可用。
計算一個定時器滴答內可以執行多少次循環需要在滴答開始時就開始計數,或者應該盡可能與它接近。全局變
量jiffies中存儲了從內核開始保持跟蹤時間開始到現在已經經過的定時器滴答數, jiffies保持異步更
新,在一個中斷內——每秒一百次,內核暫時掛起正在處理的內容,更新變量,然后繼續剛才的工作。
5.14 mem_init()
內存初始化。本函數通過內存碎片的重組等方法標記當前剩余內存, 設置內存上下界和頁表項初始值。
5.15 kmem_cache_sizes_init()
內核內存管理器的初始化,也就是初始化cache和SLAB分配機制。
5.16 pgtable_cache_init()
頁表cache初始化。
5.17 fork_init()
這里根據硬件的內存情況,如果計算出的max_threads數量太大,可以自行定義。
5.18 proc_caches_init();
為proc文件系統創建高速緩沖
5.19 vfs_caches_init(num_physpages);
為VFS創建SLAB高速緩沖
5.20 buffer_init(num_physpages);
初始化buffer
5.21 page_cache_init(num_physpages);
頁緩沖初始化
5.22 signals_init();
創建信號隊列高速緩沖
5.23 proc_root_init();
在內存中創建包括根結點在內的所有節點
5.24 check_bugs();
檢查與處理器相關的bug
5.25 smp_init();
5.26 rest_init(); 此函數調用kernel_thread(init, NULL, CLONE_FS | CLONE_FILES | CLONE_SIGNAL)函數。
5.26.1 kernel_thread()函數分析
這里調用了arch/armnommu/kernel/process.c中的函數kernel_thread,kernel_thread函數中通過
__syscall(clone) 創建新線程。__syscall(clone)函數參見armnommu/kernel目錄下的entry- common.S文件。
5.26.2 init()完成下列功能:
Init()函數通過kernel_thread(init, NULL, CLONE_FS | CLONE_FILES | CLONE_SIGNAL)的回調
函數執行,完成下列功能。
do_basic_setup()
在該函數里,sock_init()函數進行網絡相關的初始化,占用相當多的內存,如果所開發系統不支持網絡功
能,可以把該函數的執行注釋掉。
do_initcalls()實現驅動的初始化, 這里需要與vmlinux.lds聯系起來看才能明白其中奧妙。
static void __init do_initcalls(void)
{
initcall_t *call;
call = &__initcall_start;
do {
(*call)();
call++;
} while (call < &__initcall_end);
/* Make sure there is no pending stuff from the initcall sequence */
flush_scheduled_tasks();
}
查看 /arch/i386/vmlinux.lds,其中有一段代碼
__initcall_start = .;
.initcall.init : { *(.initcall.init) }
__initcall_end = .;
其含義是__initcall_start指向代碼節.initcall.init的節首,而__initcall_end指向.initcall.init的節尾。
do_initcalls所作的是系統中有關驅動部分的初始化工作,那么這些函數指針數據是怎樣放到了.initcall.init節呢?在include/linux/init.h文件中有如下3個定義:
1. #define __init_call __attribute__ ((unused,__section__ (".initcall.init" ))
__attribute__的含義就是構建一個在.initcall.init節的指向初始函數的指針。
2. #define __initcall(fn) static initcall_t __initcall_##fn __init_call = fn
##意思就是在可變參數使用宏定義的時候構建一個變量名稱為所指向的函數的名稱,并且在前面加上__initcall_
3. #define module_init(x) __initcall(x);
很多驅動中都有類似module_init(usb_init)的代碼,通過該宏定義逐層解釋存放到.initcall.int節
中。
blkmem相關的修改(do_initcalls()初始化驅動時執行此代碼)
在blkmem_init ()函數中,調用了blk_init_queue()函數,blk_init_queue()函數調用了blk_init_free_list()函數, blk_init_free_list()函數又調用了blk_grow_request_list()函
數,在這個函數中會 kmem_cache_alloc出nr_requests個request結構體。
這里如果nr_requests的值太大,則將占用過多的內存,將造成硬件內存不夠,因此可以根據實際情況將其替
換成了較小的值,比如32、16等。
free_initmem
這個函數在arch/armnommu/mm/init.c文件中,其作用就是對init節的釋放,也可以通過修改代碼指定為
不釋放。
5.26.3 init執行過程
在內核引導結束并啟動init之后,系統就轉入用戶態的運行,在這之后創建的一切進程,都是在用戶態進行。
這里先要清楚一個概念:就是init進程雖然是從內核開始的,即在前面所講的init/main.c中的init()函數
在啟動后就已經是一個核心線程,但在轉到執行init程序(如 /sbin/init)之后,內核中的init()就變成
了/sbin/init程序,狀態也轉變成了用戶態,也就是說核心線程變成了一個普通的進程。這樣一來,內核中
的init函數實際上只是用戶態init進程的入口,它在執行execve("/sbin/init",argv_init,
envp_init)時改變成為一個普通的用戶進程。這也就是exec函數的乾坤大挪移法,在exec函數調用其他程
序時,當前進程被其他進程“靈魂附體”。
除此之外,它們的代碼來源也有差別,內核中的init()函數的源代碼在/init/main.c中,是內核的一部
分。而/sbin/init程序的源代碼是應用程序。
init程序啟動之后,要完成以下任務:檢查文件系統,啟動各種后臺服務進程,最后為每個終端和虛擬控制臺
啟動一個getty進程供用戶登錄。由于所有其它用戶進程都是由init派生的,因此它又是其它一切用戶進程的
父進程。
init進程啟動后,按照/etc/inittab的內容進程系統設置。很多嵌入式系統用的是BusyBox的init,
它與一般所使用的init不一樣,會先執行/etc/init.d/rcS而非/etc/rc.d/rc.sysinit。
評論
查看更多