Linux從頭學(xué):如何告訴 CPU,代碼段、數(shù)據(jù)段、棧段在內(nèi)存中什么位置?
- 幾個(gè)重要的段寄存器
- Linux 2.6 中的線性地址區(qū)間
- 一個(gè)“完整”的 8086 匯編程序
前兩篇文章,我們一起學(xué)習(xí)了 8086 處理器中關(guān)于 CPU、內(nèi)存的基本使用方式,重點(diǎn)對(duì)段寄存器和內(nèi)存的尋址方式進(jìn)行了介紹。
可能有些小伙伴會(huì)對(duì)此不屑:現(xiàn)在都是多核的現(xiàn)代處理器,操作系統(tǒng)已經(jīng)變得非常的強(qiáng)大,為何還去學(xué)習(xí)這些古董知識(shí)?
前幾天看到下面這段話,可以來(lái)回答這個(gè)問題:
“我們都希望學(xué)習(xí)最新的、使用的東西,但學(xué)習(xí)的過程是客觀的。”
“任何合理的學(xué)習(xí)過程(盡可能排除走彎路、盲目探索、不成系統(tǒng))都是一個(gè)循序漸進(jìn)的過程。”
“我們必須先通過一個(gè)易于全面把握的事物,來(lái)學(xué)習(xí)和探索一般的規(guī)律和方法。”
就拿學(xué)習(xí) Linux 操作系統(tǒng)來(lái)說(shuō),作為一個(gè)長(zhǎng)期的學(xué)習(xí)計(jì)劃,不太可能一上來(lái)就閱讀最新的 Linux 5.13 版本的代碼。
更有可能是先學(xué)習(xí) 0.11 版本,理解了其中的一些原理、思想之后,再循序漸進(jìn)的向高版本進(jìn)行學(xué)習(xí)、探索。
那么對(duì)于 《Linux 從頭學(xué)》這個(gè)系列的文章來(lái)說(shuō),我是希望自己能夠把學(xué)習(xí)路線再拉長(zhǎng)一些,從更底層的硬件機(jī)制、驅(qū)動(dòng)原理開始,由簡(jiǎn)入繁,一步一步最終把 Linux 操作系統(tǒng)這個(gè)塊硬骨頭給啃下來(lái)。
那么今天我們就繼續(xù) 8086 下的學(xué)習(xí),來(lái)看看一個(gè)相對(duì)“完整”程序的基本結(jié)構(gòu)。
幾個(gè)重要的段寄存器
在 x86 系統(tǒng)中,段尋址機(jī)制以及相關(guān)的寄存器是如此的重要,以至于我忍不住在這里,把幾個(gè)段寄存器再小結(jié)一下。

- 代碼段:用來(lái)存放代碼,段的基地址放在寄存器 CS 中,指令指針寄存器 IP 用來(lái)表示下一條指令在段中的偏移地址;
- 數(shù)據(jù)段:用來(lái)存放程序處理的數(shù)據(jù),段的基地址存放在寄存器 DS 中。對(duì)數(shù)據(jù)段中的某個(gè)數(shù)據(jù)進(jìn)行操作時(shí),直接在匯編代碼中通過立即數(shù)或寄存器來(lái)指定偏移地址;
- 棧段:本質(zhì)上也是用來(lái)存放數(shù)據(jù),只不過它的操作方式比較特殊而已:通過 PUSH 和 POP 指令來(lái)進(jìn)行操作。段的基地址存放在寄存器 SS 中,棧頂單元的偏移地址存放在寄存器 IP 中。
這里的段,本質(zhì)上是我們把內(nèi)存上的某一塊連續(xù)的存儲(chǔ)空間,專門存儲(chǔ)某一類的數(shù)據(jù)。
我們之所以能夠這么做,是因?yàn)?CPU 通過以上幾個(gè)寄存器,讓我們這樣的“安排”稱為一種可能。
一句話總結(jié):CPU 將內(nèi)存中的某個(gè)段的內(nèi)容當(dāng)做代碼,是因?yàn)?CS:IP 指向了那里;CPU 將某個(gè)段當(dāng)做棧,是因?yàn)?CS:SP 指向了那里。
在之前的一篇文章中,演示了 ELF 格式的可執(zhí)行文件中,具體包含了哪些段《Linux系統(tǒng)中編譯、鏈接的基石-ELF文件:扒開它的層層外衣,從字節(jié)碼的粒度來(lái)探索》:

雖然這張圖中描述的段結(jié)構(gòu)更復(fù)雜,但是從本質(zhì)上來(lái)說(shuō),它與 8086 中描述的段結(jié)構(gòu)是一樣的!
Linux 2.6 中的線性地址區(qū)間
在一個(gè)現(xiàn)代操作系統(tǒng)中,一個(gè)進(jìn)程中使用的的地址空間,一般稱作虛擬地址(也稱作邏輯地址)。
虛擬地址首先經(jīng)過段轉(zhuǎn)換,得到線性地址;然后線性地址再經(jīng)過分頁(yè)轉(zhuǎn)換,得到最終的物理地址。

- 這里再啰嗦一下,很多書籍中隊(duì)內(nèi)存地址的稱呼比較多,都是根據(jù)作者的習(xí)慣來(lái)稱呼。
- 我是按照上圖的方式來(lái)理解的: 編譯器產(chǎn)生的地址叫做虛擬地址,也叫做邏輯地址,然后經(jīng)過兩級(jí)轉(zhuǎn)換,得到最終的物理地址。
在 Linux 2.6 代碼中,由于 Linux 把整個(gè) 4 GB 的地址空間當(dāng)做一個(gè)“扁平”的結(jié)果來(lái)處理(段的基地址是 0x0000_0000,偏移地址的最大值是 4GB),因此虛擬地址(邏輯地址)在數(shù)值上等于線性地址。
我們?cè)俳Y(jié)合上次給出的這張圖來(lái)理解:

這張圖的意思是:在 Linux 2.6 中,用戶代碼段的開始地址是 0,最大范圍是 4 GB;用戶數(shù)據(jù)段的開始地址是 0,最大范圍也是 4 GB;內(nèi)核的數(shù)據(jù)段和代碼段也是如此。

- 為什么:虛擬地址(邏輯地址)在數(shù)值上等于線性地址?
- 線性地址 = 段基址 + 虛擬地址(偏移量),因?yàn)槎位窞?0 ,所以線性地址在數(shù)值上等于虛擬地址。
Linux 之所以要這樣安排,是因?yàn)樗幌脒^多的利用 x86 提供的段機(jī)制來(lái)進(jìn)行內(nèi)存地址的管理,而是想充分利用分頁(yè)機(jī)制來(lái)進(jìn)行更加靈活的地址管理。
還有一點(diǎn)需要提醒一下:
在上述描述的文字中,我都會(huì)標(biāo)明一個(gè)機(jī)制或者策略,它是由 x86 平臺(tái)提供的,還是由 Linux 操作系統(tǒng)提供的。
對(duì)于分頁(yè)機(jī)制也是如此,x86 硬件提供了分頁(yè)機(jī)制,但是 Linux 在 x86 提供的這個(gè)分頁(yè)機(jī)制的基礎(chǔ)上,進(jìn)行了擴(kuò)展,以達(dá)到更加靈活的內(nèi)存地址管理目的。
因此,各位小伙伴在看一些書籍的時(shí)候,心中要有一個(gè)譜:當(dāng)前描述內(nèi)容的上下文環(huán)境是什么。
當(dāng)我們創(chuàng)建一個(gè)進(jìn)程的時(shí)候,在內(nèi)核中就會(huì)記錄這個(gè)進(jìn)程所擁有的所有線性地址區(qū)間。
進(jìn)程所擁有的所有線性地址區(qū)間是一個(gè)動(dòng)態(tài)的過程,根據(jù)程序的需求隨時(shí)進(jìn)行擴(kuò)展或縮小。例如:把一個(gè)文件映射到內(nèi)存,動(dòng)態(tài)加載/卸載一個(gè)動(dòng)態(tài)庫(kù)等等。
我們知道,內(nèi)核在操作物理內(nèi)存的時(shí)候,是通過“頁(yè)框”這個(gè)單位來(lái)管理的。

一個(gè)頁(yè)框可以包含 1-n 個(gè)頁(yè),每一頁(yè)的大小一般是 4 KB,這是對(duì)物理內(nèi)存的管理。
一個(gè)線性地址區(qū)間可以包含多個(gè)物理頁(yè)。每一個(gè)線性地址最終通過多級(jí)的頁(yè)表轉(zhuǎn)換,來(lái)最終得到一個(gè)物理地址。
注意:上圖中,線性地址區(qū)間1,映射到物理地址空間中的 N 個(gè) Page,這些 Page 有可能是連續(xù)的,也有可能不是連續(xù)的。
雖然在物理內(nèi)存中是不連續(xù)的,但是由于被分頁(yè)轉(zhuǎn)換機(jī)制進(jìn)行了屏蔽,我們?cè)趹?yīng)用程序中都是按照連續(xù)的空間來(lái)使用的。
一個(gè)“完整”的 8086 匯編程序
我們?cè)倮^續(xù)回到 8086 系統(tǒng)中來(lái)。
這里描述的地址,經(jīng)過段地址轉(zhuǎn)換之后,就是一個(gè)物理地址,沒有經(jīng)過復(fù)雜的頁(yè)表轉(zhuǎn)換。
這也是我們以 8086 系統(tǒng)作為學(xué)習(xí)平臺(tái)的目的:拋開復(fù)雜的操作系統(tǒng),直接探索底層的東西。
在這個(gè)最簡(jiǎn)單的匯編程序中,會(huì)使用到 3 個(gè)段:代碼段,數(shù)據(jù)段和棧段。
前面已經(jīng)說(shuō)到:所謂的段,就是一個(gè)地址空間。既然是一個(gè)地址空間,必然包含 2 個(gè)元素:從什么地方開始,長(zhǎng)度是多少。
還是直接上代碼:
- assume ds:addr1, ss:addr2, cs:addr3
- addr1 segment ; 把數(shù)據(jù)段安排在這個(gè)位置
- db 32 dup (0) ; 這 32 個(gè)字節(jié),是數(shù)據(jù)段的大小
- addr1 end
- addr2 segment ; 把棧段安排在這個(gè)位置
- db 32 dup(0) ; 這 32 個(gè)字節(jié),是棧段的大小
- addr2 end
- addr3 segment ; 把代碼段安排在這個(gè)位置
- start
- mov ax, addr1
- mov ds, ax ; 設(shè)置數(shù)據(jù)段寄存器
- mov ax, addr2
- mov ss, ax ; 設(shè)置棧段寄存器
- mov sp, 20h ; 設(shè)置棧頂指針寄存器
- ... ; 其他代碼
- addr3 ends
- end start
以上就是一個(gè)匯編代碼的基本程序結(jié)構(gòu),我們給它安排了 3 個(gè)段。
3 個(gè)標(biāo)號(hào):addr1、addr2 和 addr3,代表了每一個(gè)段的開始地址。在代碼段的開始部分,把數(shù)據(jù)段標(biāo)號(hào) addr1 代表的地址,賦值給 DS 寄存器;把棧段標(biāo)號(hào) addr2 代表的地址,賦值給 SS 寄存器。
- 這里的標(biāo)號(hào),是不是與 C 語(yǔ)言中的 goto 標(biāo)號(hào)很類似?都是表示一個(gè)地址。
注意這里賦值給棧頂指針 SP 寄存器的值是 20H。
因?yàn)闂6蔚氖褂檬菑母叩刂废虻偷刂贩较蜻M(jìn)行的,所以需要把棧頂指針設(shè)置為最大地址單元的下一個(gè)地址空間。

假設(shè)把第一個(gè)數(shù)據(jù)入棧時(shí)(eg: 先執(zhí)行 mov ax, 1234h,再執(zhí)行 push ax),CPU 要做的事情是: 先執(zhí)行 SP = SP - 2,此時(shí) SS:SP 指向 1000:001E,然后再把 1234h 存儲(chǔ)到這個(gè)地址空間:

另外,代碼中最后一句 end start,用來(lái)告訴編譯器:代碼段中 start 標(biāo)號(hào)代表的地址,就是這個(gè)程序的入口地址,編譯之后這個(gè)入口地址信息也會(huì)被寫入可執(zhí)行程序中。
當(dāng)可執(zhí)行文件被加載到內(nèi)存中之后,加載程序會(huì)找到這個(gè)入口地址,然后把 CS:IP 設(shè)置為指向這個(gè)入口地址,從而開始執(zhí)行第一條指令。
我們?cè)賮?lái)對(duì)比一下《Linux系統(tǒng)中編譯、鏈接的基石-ELF文件:扒開它的層層外衣,從字節(jié)碼的粒度來(lái)探索》中列出的 ELF 可執(zhí)行文件中的入口地址,它與上面 8086 下的 start 標(biāo)號(hào)代表的入口地址,在本質(zhì)上都是一樣的道理:

本文轉(zhuǎn)載自微信公眾號(hào)「 IOT物聯(lián)網(wǎng)小鎮(zhèn)」,可以通過以下二維碼關(guān)注。轉(zhuǎn)載本文請(qǐng)聯(lián)系 IOT物聯(lián)網(wǎng)小鎮(zhèn)公眾號(hào)。
【編輯推薦】