C語言是怎么寫操作系統的
剛開始學C語言的時候,都感覺它除了在命令行里打印點東西之外,沒有其他用處。
但是,又不斷地聽說Linux系統是C語言寫的。
總之,就是感覺C語言名不符實,心理落差太大。
那么,咱就說說C語言是怎么寫操作系統的。
C語言幾乎是寫操作系統的唯一語言,就是因為它可以手動管理內存,而又不像匯編的可讀性那么差。
1.C語言的全局內存模型最簡單。
C語言有指針,可以通過指針對內存進行細致的管理。
同時,C語言不依賴運行時的狀態,對內存管理模型的要求很簡單:所有的全局數據都是被常量初始化的,在main()函數運行前不需要初始化代碼。
上面的代碼里,g_a是個全局變量,它的初始化要在main()函數運行之前:可以在編譯階段初始化,也可以在main()函數前先運行一段初始化代碼。
C語言對g_a的初始化,就是在編譯階段。
編譯器在生成.o文件的數據段時,會直接把g_a對應的數據初始化成1。
全局數組、全局結構體的初始化,也是用“常量初始化”的:
這點雖然不那么直觀,但它確實是常量初始化的。
如上圖,test_file_ops結構體里雖然填的是函數的地址,看上去像個變量,但實際上:
- 編譯器在生成.o文件時,是知道哪個函數放在文件的哪個字節的。
- 連接器在生成可執行文件時,不但知道哪個函數放在哪個字節,還知道它會被加載到哪個內存地址。
所以,這種結構體里看上去是“變量”的內存地址,實際上也是常量。
C程序員不需要關注具體的數值,但編譯器會把它計算出來的。
所以,C語言的內存模型,都是在main()函數之前的編譯階段就可以確定的。
操作系統在運行程序時,只需要把文件加載到內存里,然后跳轉到main函數就行了?不需要管運行時的狀態。
但是,C++是不可以這樣的。
2.C++的全局內存模型,依賴運行時狀態。
C++要是給你寫個動態創建機制,那么在main()函數運行之前,就要運行初始化代碼,至少要把CRuntimeClass的類圖構建出來才行:否則去哪里查找類名對應的構造函數呢?
C++動態創建的演示代碼,如這3張圖:
動態創建代碼,1
所謂的動態創建,是在收到類名字符串之后,創建一個對應的類對象。
當然沒法用new "Object"去創建Object類的對象,因為"Object"是字符串常量,不是編譯之前的代碼。
所以C++就需要一個靜態函數,這個靜態函數里只有1條代碼:return new Object();
因為每個可以動態創建的類,都需要這么一段代碼,所以把它寫成了上圖的靜態函數,并且通過一個宏把它添加成每個類的靜態成員函數。
但是,在收到類名字符串之后要找到這個函數,必須得有類圖。
每個OOP語言都有個龐大的RuntimeClass類圖,就是做這個事的?
類圖,就是由每個類的RuntimeClass全局靜態對象構成的鏈表。
在每個類里添加一個RuntimeClass的靜態對象,它的構造函數在運行時就會把它自動掛到類圖的鏈表上,如下圖的紅框所示。
動態創建代碼,2
這個RuntimeClass對象,既然是全局靜態對象,那么它的構造函數當然要在main()函數之前被調用!
那么C++的編譯器框架,怎么保證這點呢?
只能在main()函數之前給可執行文件添加一個.init段,讓程序的入口在.init段里,而不是main函數所在的.text段。
但是在Linux系統里,是絕對不允許編譯器在程序員之前、對內存做手腳的!
這就是Linux之父吐槽C++的原因:因為他感覺自己的能力受到了質疑,感覺C++編譯器認為他管不好內存?
但是,C編譯器絕不會這么認為,C語言認為每個程序員都是大牛,都該自己管內存?
動態創建代碼,3
這個代碼的運行效果:
效果圖
可以看到,那3個RuntimeClass的初始化都在main start之前,因為它們是全局靜態對象。
所以,C++見到的程序入口,并不是真正的入口,在main()之前就要進行內存初始化的。
但是,C的入口是真正的入口:你想讓它做什么,它就做什么,只要你把代碼寫對了。
每個敢寫操作系統的C程序員,恐怕都認為自己能把代碼寫對。
所以,C語言幾乎是系統程序員的唯一推薦語言。
3.怎么寫操作系統?
咱先論證完了C語言寫操作系統的存在性和唯一性,然后再給它個構造性的證明。
操作系統,是最貼近硬件的軟件。
它和編譯器是互為遞歸的關系:編譯器在操作系統上運行,操作系統是編程語言寫的,編程語言是編譯器編譯的。
操作系統、編譯器、編程語言的關系
操作系統大約分為這4個模塊:進程管理、內存管理、設備管理、網絡子系統。
進程管理、內存管理,這2個是操作系統的核心模塊。
操作系統要想運行起來,進程和內存的管理是必需的,其他模塊可以后來一個個的添加。
內存管理模式,是操作系統可以運行的關鍵:主要是分段和分頁兩種。
4.內存的分段
內存的分段,就是把內存分為代碼段、數據段、堆棧段,給予不同的權限進行管理。
代碼段,具有可讀(R)、可執行權限(X)。
數據段、堆棧段,具有可讀(R)、可寫權限(W)。
數據段和堆棧段的差別是:數據段從低往高增長,堆棧段從高往低增長。
它們兩個之間的沒使用的區域,是堆和棧可以增長的空間。
通常所說的堆棧段實際上指的是棧,堆是緊鄰著數據段的。
代碼段的內存地址,要放在段寄存器CS里。
數據段的內存地址,要放在段寄存器DS里。
堆棧段的內存地址,要放在段寄存器SS里。
這3個寄存器,在用戶代碼里是不可以使用的,但內核代碼可以。
在內核初始化時,給哪個段寄存器加載哪個內存地址,它就會把哪個地址當成哪個段。
這個機制,是由intel的CPU設計所保證的。
在16位機上,是只能用分段模式的,即所謂的實模式。
段地址+偏移量的訪問方式,最大訪問1M的內存,是實模式的唯一方式:
CS:IP是代碼的運行位置,
SS:SP是棧的位置,
DS:SI和ES:DI用于數據傳遞的源位置和目標位置。
32位機之后,intel又增加了保護模式:保護模式在分段的基礎上可以分頁,也可以只分段。
5.內存的分頁
CPU進入保護模式之后,才可以開啟分頁機制。
頁的大小一般是4096字節(2^12),所以頁基地址的0-11位是0。
這些為0的12位,在頁表里用于每個頁的權限控制:讀、寫、執行、缺頁,etc.
32位的頁表項
在開啟分頁之前,需要先給內存分段。
在32位機上,通常把所有的段都映射到0-4G的虛擬空間。
這時,代碼段、數據段、堆棧段的基地址已經沒什么用了,CS、DS、SS段寄存器主要用于權限控制,改叫段選擇符。
段選擇符,是個以8為間隔的等差數列。
0號不用,代碼段是0x8,數據段是0x10,堆棧段是0x18。
它們對應的內存地址、內存范圍、內存權限,都要寫在全局描述符表(GDT)里。
GDT:global descriptor table.
在開啟分段之前,需要加載GDT表到CPU的特殊寄存器,用的指令是LGDT:這也是個特殊指令,只能在內核里用,而且一般只用在初始化時。
這里還需要加載中斷向量表 (IDT):interrupt descriptor table.
中斷向量表,是用來處理硬件中斷的函數指針,也就是所謂的中斷服務例程 (irq)。
在開啟分段之前,先給它留出內存位置來,以后才會設置它。
加載完GDT和IDT之后,打開A20地址線,CPU就可以訪問1M以上的內存地址了。
然后,開啟內存的分段模式。
接下來就是Linux引導程序里著名的那條匯編:
ljmp $8,$0
跳轉到代碼段的第一條代碼?第一條代碼的偏移量是0,代碼段的選擇符是8。
再接著,就是設置內核頁表,然后開啟分頁機制。
內核頁表至少分2級,64位機上的分級比較多,32位機上只能分2級:頁目錄、頁表。
不過每一級的表項都差不多,都是頁的基地址+訪問權限。
頁表里填寫的內存地址,都是物理內存的地址。
在進程訪問內存的時候,虛擬地址會被內存管理單元(MMU)轉化到物理地址,然后送到CPU的地址總線,然后內存數據從數據總線傳到CPU的寄存器。
32位機的虛擬地址到物理地址的計算:最高10位確定頁目錄的位置,中間10位確定頁表的位置,最后12位確定偏移量:
paddr = dir [ vaddr >> 22 ] [ (vaddr >> 12) & 0x3ff ] [ vaddr & 0x3ff ].
(64位機的,我沒仔細看過intel的手冊,有興趣的可以自己去看)
分頁機制下,一行mov rax, (rdx),硬件和操作系統實際上要做很多事的。
在把頁表設置好之后,要把頁表的基地址加載到CPU的cr3寄存器:頁目錄基地址寄存器。
然后,就可以跳轉到內核C代碼的main()函數了。
因為頁表已經設置好了,接下來就可以用C語言寫了。
上面說的那些,都是匯編代碼的內容?
6.內核子系統的初始化
進入C語言的main()函數之后,首先是各種內核子系統的初始化:
1) 缺頁中斷
當進程訪問的虛擬地址對應的物理內存頁不存在時,由缺頁中斷進行處理:合理的缺頁給它申請新的物理內存頁,不合理的缺頁給進程一個段錯誤。
段錯誤,會導致進程被操作系統的信號機制殺死。
2) 時鐘中斷
它是操作系統的調度節拍,由一個硬件時鐘每1毫秒發送一次。
3) 系統調用
它是用戶程序與操作系統的唯一接口。
write()系統調用就是其中之一,它是printf()函數的底層機制。
4) 控制臺
內核打印日志的必需模塊,它是內核printk()函數的底層機制,也是用戶的shell控制臺的底層機制。
鍵盤驅動程序,VGA驅動程序,一般都放在控制臺模塊里,用于給系統提供最初級的輸入輸出支持。
5) 進程管理
這是內核的核心模塊,折騰了這么多,就是為了讓用戶的多個進程可以切換?
fork()系統調用,exit()系統調用、wait()系統調用,getpid()系統調用,kill()系統調用,都屬于這個模塊。
6) 內存管理
也是內核的核心模塊,整個操作系統就是圍繞著內存管理來的。
kmalloc()函數、kfree()函數、get_free_pages()函數、brk()系統調用,都屬于這個模塊。
brk()系統調用,是設置用戶進程的數據段的終止位置,也就是堆內存的終止位置,是malloc()和free()函數的底層機制。
get_free_pages()函數,內核分配物理內存頁的函數。
7) 文件系統
unix系的操作系統上,一切都是文件。
這是傳承自C語言之父丹尼斯-里奇的設計理念。
open()、close()、read()、write(),這4個系統調用,都屬于文件系統。
execve()系統調用,它雖然屬于進程管理,但是因為要加載可執行文件,所以嚴重依賴文件系統。
8) 網絡子系統
TCP/IP協議棧+ Net Filter +網卡驅動程序,這3個是網絡子系統的內容。
Linux網絡子系統的作者是Alan Cox,阿蘭-寇克斯。
整個互聯網的基礎,都在這個子系統里。
TCP、UDP、IP、ICMP、ARP、DNS,etc,這些網絡協議全在這個模塊里。
9) 各種設備的驅動程序
鼠標、顯卡、USB、硬盤,等等,大多數設備的驅動程序,都屬于這部分。
大致分為:塊設備、字符設備、網絡設備。
硬盤是塊設備,它的最小訪問單元是扇區,每個扇區512字節。
字符設備,是可以按字節訪問的,顯示器是典型的字符設備。
網絡設備,網卡是典型的網絡設備,它也屬于網絡子系統。
7.0號進程的創建
0號進程,在操作系統里叫idle進程,是CPU空閑時運行的進程。
當各種內核子系統初始化完成之后,操作系統就要創建0號進程,做為以后所有進程的模板。
進程的數據結構里,主要有這么幾項:
1) EIP,用戶態的代碼地址,
2) ESP,用戶態的棧地址,
3) ESP0,內核態的棧地址,
4) cr3,頁表的物理地址,
5) pid,進程號,
6) ppid,父進程號,
7) brk,用戶代碼的數據段末尾,
8) 用戶態的代碼段、數據段、堆棧段的位置,
可以用于檢測段錯誤,防范緩沖區溢出攻擊。
9) 信號圖,
處理進程的信號機制。
10) 進程的段選擇符,
內核和用戶進程的段選擇符是不一樣的,因為內核是ring0最高權限,用戶進程是ring3最低權限。
把進程的這些數據加載到CPU的任務寄存器,然后降低權限到ring3,執行中斷返回,就到了了用戶態了:
這時的進程是idle進程,它的代碼只有1行:
pause();
即,運行pause()系統調用:在有其他進程的情況下,它會調度其他進程運行;如果沒有其他進程,它會運行功耗最低的那條pause指令,以降低CPU的功耗。
OS內核的總流程
最后,就是fork唯一的1號init進程,然后給用戶啟動shell或者圖形界面了。
不管是shell還是圖形界面,它們本質上都是用戶的進程。