C語言是怎么寫操作系統的

作者：底層技術棧 2022-11-01 11:22:38

開發前端

C++要是給你寫個動態創建機制，那么在main()函數運行之前，就要運行初始化代碼，至少要把CRuntimeClass的類圖構建出來才行：否則去哪里查找類名對應的構造函數呢？

剛開始學C語言的時候，都感覺它除了在命令行里打印點東西之外，沒有其他用處。

但是，又不斷地聽說Linux系統是C語言寫的。

總之，就是感覺C語言名不符實，心理落差太大。

那么，咱就說說C語言是怎么寫操作系統的。

C語言幾乎是寫操作系統的唯一語言，就是因為它可以手動管理內存，而又不像匯編的可讀性那么差。

1.C語言的全局內存模型最簡單。

C語言有指針，可以通過指針對內存進行細致的管理。

同時，C語言不依賴運行時的狀態，對內存管理模型的要求很簡單：所有的全局數據都是被常量初始化的，在main()函數運行前不需要初始化代碼。

int g_a = 1;
int main()
{
printf("g_a: %d\n", g_a);
return 0;
}

上面的代碼里，g_a是個全局變量，它的初始化要在main()函數運行之前：可以在編譯階段初始化，也可以在main()函數前先運行一段初始化代碼。

C語言對g_a的初始化，就是在編譯階段。

編譯器在生成.o文件的數據段時，會直接把g_a對應的數據初始化成1。

全局數組、全局結構體的初始化，也是用“常量初始化”的：

這點雖然不那么直觀，但它確實是常量初始化的。

如上圖，test_file_ops結構體里雖然填的是函數的地址，看上去像個變量，但實際上：

編譯器在生成.o文件時，是知道哪個函數放在文件的哪個字節的。
連接器在生成可執行文件時，不但知道哪個函數放在哪個字節，還知道它會被加載到哪個內存地址。

所以，這種結構體里看上去是“變量”的內存地址，實際上也是常量。

C程序員不需要關注具體的數值，但編譯器會把它計算出來的。

所以，C語言的內存模型，都是在main()函數之前的編譯階段就可以確定的。

操作系統在運行程序時，只需要把文件加載到內存里，然后跳轉到main函數就行了?不需要管運行時的狀態。

但是，C++是不可以這樣的。

2.C++的全局內存模型，依賴運行時狀態。

C++動態創建的演示代碼，如這3張圖：

動態創建代碼，1

所謂的動態創建，是在收到類名字符串之后，創建一個對應的類對象。

當然沒法用new "Object"去創建Object類的對象，因為"Object"是字符串常量，不是編譯之前的代碼。

所以C++就需要一個靜態函數，這個靜態函數里只有1條代碼：return new Object();

因為每個可以動態創建的類，都需要這么一段代碼，所以把它寫成了上圖的靜態函數，并且通過一個宏把它添加成每個類的靜態成員函數。

但是，在收到類名字符串之后要找到這個函數，必須得有類圖。

每個OOP語言都有個龐大的RuntimeClass類圖，就是做這個事的?

類圖，就是由每個類的RuntimeClass全局靜態對象構成的鏈表。

在每個類里添加一個RuntimeClass的靜態對象，它的構造函數在運行時就會把它自動掛到類圖的鏈表上，如下圖的紅框所示。

動態創建代碼，2

這個RuntimeClass對象，既然是全局靜態對象，那么它的構造函數當然要在main()函數之前被調用！

那么C++的編譯器框架，怎么保證這點呢？

只能在main()函數之前給可執行文件添加一個.init段，讓程序的入口在.init段里，而不是main函數所在的.text段。

但是在Linux系統里，是絕對不允許編譯器在程序員之前、對內存做手腳的！

這就是Linux之父吐槽C++的原因：因為他感覺自己的能力受到了質疑，感覺C++編譯器認為他管不好內存?

但是，C編譯器絕不會這么認為，C語言認為每個程序員都是大牛，都該自己管內存?

動態創建代碼，3

這個代碼的運行效果：

效果圖

可以看到，那3個RuntimeClass的初始化都在main start之前，因為它們是全局靜態對象。

所以，C++見到的程序入口，并不是真正的入口，在main()之前就要進行內存初始化的。

但是，C的入口是真正的入口：你想讓它做什么，它就做什么，只要你把代碼寫對了。

每個敢寫操作系統的C程序員，恐怕都認為自己能把代碼寫對。

所以，C語言幾乎是系統程序員的唯一推薦語言。

3.怎么寫操作系統？

咱先論證完了C語言寫操作系統的存在性和唯一性，然后再給它個構造性的證明。

操作系統，是最貼近硬件的軟件。

它和編譯器是互為遞歸的關系：編譯器在操作系統上運行，操作系統是編程語言寫的，編程語言是編譯器編譯的。

操作系統、編譯器、編程語言的關系

操作系統大約分為這4個模塊：進程管理、內存管理、設備管理、網絡子系統。

進程管理、內存管理，這2個是操作系統的核心模塊。

操作系統要想運行起來，進程和內存的管理是必需的，其他模塊可以后來一個個的添加。

內存管理模式，是操作系統可以運行的關鍵：主要是分段和分頁兩種。

4.內存的分段

內存的分段，就是把內存分為代碼段、數據段、堆棧段，給予不同的權限進行管理。

代碼段，具有可讀(R)、可執行權限(X)。

數據段、堆棧段，具有可讀(R)、可寫權限(W)。

數據段和堆棧段的差別是：數據段從低往高增長，堆棧段從高往低增長。

它們兩個之間的沒使用的區域，是堆和棧可以增長的空間。

通常所說的堆棧段實際上指的是棧，堆是緊鄰著數據段的。

代碼段的內存地址，要放在段寄存器CS里。

數據段的內存地址，要放在段寄存器DS里。

堆棧段的內存地址，要放在段寄存器SS里。

這3個寄存器，在用戶代碼里是不可以使用的，但內核代碼可以。

在內核初始化時，給哪個段寄存器加載哪個內存地址，它就會把哪個地址當成哪個段。

這個機制，是由intel的CPU設計所保證的。

在16位機上，是只能用分段模式的，即所謂的實模式。

段地址+偏移量的訪問方式，最大訪問1M的內存，是實模式的唯一方式：

CS:IP是代碼的運行位置，

SS:SP是棧的位置，

DS:SI和ES:DI用于數據傳遞的源位置和目標位置。

32位機之后，intel又增加了保護模式：保護模式在分段的基礎上可以分頁，也可以只分段。

5.內存的分頁

CPU進入保護模式之后，才可以開啟分頁機制。

頁的大小一般是4096字節（2^12），所以頁基地址的0-11位是0。

這些為0的12位，在頁表里用于每個頁的權限控制：讀、寫、執行、缺頁，etc.

32位的頁表項

在開啟分頁之前，需要先給內存分段。

在32位機上，通常把所有的段都映射到0-4G的虛擬空間。

這時，代碼段、數據段、堆棧段的基地址已經沒什么用了，CS、DS、SS段寄存器主要用于權限控制，改叫段選擇符。

段選擇符，是個以8為間隔的等差數列。

0號不用，代碼段是0x8，數據段是0x10，堆棧段是0x18。

它們對應的內存地址、內存范圍、內存權限，都要寫在全局描述符表(GDT)里。

GDT：global descriptor table.

在開啟分段之前，需要加載GDT表到CPU的特殊寄存器，用的指令是LGDT：這也是個特殊指令，只能在內核里用，而且一般只用在初始化時。

這里還需要加載中斷向量表 (IDT)：interrupt descriptor table.

中斷向量表，是用來處理硬件中斷的函數指針，也就是所謂的中斷服務例程 (irq)。

在開啟分段之前，先給它留出內存位置來，以后才會設置它。

加載完GDT和IDT之后，打開A20地址線，CPU就可以訪問1M以上的內存地址了。

然后，開啟內存的分段模式。

接下來就是Linux引導程序里著名的那條匯編：

ljmp $8,$0

跳轉到代碼段的第一條代碼?第一條代碼的偏移量是0，代碼段的選擇符是8。

再接著，就是設置內核頁表，然后開啟分頁機制。

內核頁表至少分2級，64位機上的分級比較多，32位機上只能分2級：頁目錄、頁表。

不過每一級的表項都差不多，都是頁的基地址+訪問權限。

頁表里填寫的內存地址，都是物理內存的地址。

在進程訪問內存的時候，虛擬地址會被內存管理單元(MMU)轉化到物理地址，然后送到CPU的地址總線，然后內存數據從數據總線傳到CPU的寄存器。

32位機的虛擬地址到物理地址的計算：最高10位確定頁目錄的位置，中間10位確定頁表的位置，最后12位確定偏移量：

paddr = dir [ vaddr >> 22 ] [ (vaddr >> 12) & 0x3ff ] [ vaddr & 0x3ff ].

（64位機的，我沒仔細看過intel的手冊，有興趣的可以自己去看）

分頁機制下，一行mov rax, (rdx)，硬件和操作系統實際上要做很多事的。

在把頁表設置好之后，要把頁表的基地址加載到CPU的cr3寄存器：頁目錄基地址寄存器。

然后，就可以跳轉到內核C代碼的main()函數了。

因為頁表已經設置好了，接下來就可以用C語言寫了。

上面說的那些，都是匯編代碼的內容?

6.內核子系統的初始化

進入C語言的main()函數之后，首先是各種內核子系統的初始化：

1) 缺頁中斷

當進程訪問的虛擬地址對應的物理內存頁不存在時，由缺頁中斷進行處理：合理的缺頁給它申請新的物理內存頁，不合理的缺頁給進程一個段錯誤。

段錯誤，會導致進程被操作系統的信號機制殺死。

2) 時鐘中斷

它是操作系統的調度節拍，由一個硬件時鐘每1毫秒發送一次。

3) 系統調用

它是用戶程序與操作系統的唯一接口。

write()系統調用就是其中之一，它是printf()函數的底層機制。

4) 控制臺

內核打印日志的必需模塊，它是內核printk()函數的底層機制，也是用戶的shell控制臺的底層機制。

鍵盤驅動程序，VGA驅動程序，一般都放在控制臺模塊里，用于給系統提供最初級的輸入輸出支持。

5) 進程管理

這是內核的核心模塊，折騰了這么多，就是為了讓用戶的多個進程可以切換?

fork()系統調用，exit()系統調用、wait()系統調用，getpid()系統調用，kill()系統調用，都屬于這個模塊。

6) 內存管理

也是內核的核心模塊，整個操作系統就是圍繞著內存管理來的。

kmalloc()函數、kfree()函數、get_free_pages()函數、brk()系統調用，都屬于這個模塊。

brk()系統調用，是設置用戶進程的數據段的終止位置，也就是堆內存的終止位置，是malloc()和free()函數的底層機制。

get_free_pages()函數，內核分配物理內存頁的函數。

7) 文件系統

unix系的操作系統上，一切都是文件。

這是傳承自C語言之父丹尼斯-里奇的設計理念。

open()、close()、read()、write()，這4個系統調用，都屬于文件系統。

execve()系統調用，它雖然屬于進程管理，但是因為要加載可執行文件，所以嚴重依賴文件系統。

8) 網絡子系統

TCP/IP協議棧+ Net Filter +網卡驅動程序，這3個是網絡子系統的內容。

Linux網絡子系統的作者是Alan Cox，阿蘭-寇克斯。

整個互聯網的基礎，都在這個子系統里。

TCP、UDP、IP、ICMP、ARP、DNS，etc，這些網絡協議全在這個模塊里。

9) 各種設備的驅動程序

鼠標、顯卡、USB、硬盤，等等，大多數設備的驅動程序，都屬于這部分。

大致分為：塊設備、字符設備、網絡設備。

硬盤是塊設備，它的最小訪問單元是扇區，每個扇區512字節。

字符設備，是可以按字節訪問的，顯示器是典型的字符設備。

網絡設備，網卡是典型的網絡設備，它也屬于網絡子系統。

7.0號進程的創建

0號進程，在操作系統里叫idle進程，是CPU空閑時運行的進程。

當各種內核子系統初始化完成之后，操作系統就要創建0號進程，做為以后所有進程的模板。

進程的數據結構里，主要有這么幾項：

1) EIP，用戶態的代碼地址，

2) ESP，用戶態的棧地址，

3) ESP0，內核態的棧地址，

4) cr3，頁表的物理地址，

5) pid，進程號，

6) ppid，父進程號，

7) brk，用戶代碼的數據段末尾，

8) 用戶態的代碼段、數據段、堆棧段的位置，

可以用于檢測段錯誤，防范緩沖區溢出攻擊。

9) 信號圖，

處理進程的信號機制。

10) 進程的段選擇符，

內核和用戶進程的段選擇符是不一樣的，因為內核是ring0最高權限，用戶進程是ring3最低權限。

把進程的這些數據加載到CPU的任務寄存器，然后降低權限到ring3，執行中斷返回，就到了了用戶態了：

這時的進程是idle進程，它的代碼只有1行：

pause();

即，運行pause()系統調用：在有其他進程的情況下，它會調度其他進程運行；如果沒有其他進程，它會運行功耗最低的那條pause指令，以降低CPU的功耗。

OS內核的總流程

最后，就是fork唯一的1號init進程，然后給用戶啟動shell或者圖形界面了。

不管是shell還是圖形界面，它們本質上都是用戶的進程。

責任編輯：武曉燕來源：今日頭條

C++函數機制

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看