八張圖講清楚Mmap實現原理
大家好,最近在研究Linux內核以及Linux系統編程的時候,經常會碰到mmap內存映射,mmap函數是實現高性能編程的一個關鍵點,下面我通過幾張圖詳細介紹一下mmap實現原理。
(本文以64位CPU為原型講解)
1.虛擬地址如何映射物理地址?
要了解mmap實現原理,首先必須了解虛擬地址如何映射物理地址,如果沒掌握這個知識點,后續閱讀會有很大的困難,切記!
虛擬地址映射物理地址采用的是頁表機制,64位CPU采用的是4級頁表。
圖片
64位CPU虛擬地址長度為64位,但實際只用48位就已滿足虛擬地址映射物理內存的要求,如下圖:
圖片
64位CPU地址空間可分為三個部分:
- 128T用戶空間
- 128T內核空間
- 其他:保留空間
用戶空間和內核空間共256T,2的48次方剛好為256T,所以48位地址空間能映射所有的虛擬地址。
48位虛擬地址由五部分組成:
- pgd表偏移,四級表,9位
- pud表偏移,三級表,9位
- pmd表偏移,二級表,9位
- ptl表偏移,一級表,9位
- 物理頁偏移,12位
問題1:為什么pgd,pud,pmd,ptl表偏移是9位?
pgd,pud,pmd,ptl表實現原理都相同,我們以pgd來講解。
一張pgd表對應一個物理頁,一個物理頁的大小為4KB,一個pgd_t表項為8個字節,一張pgd表能存儲4*1024/8=512個表項。
2的9次方等于512,所以采用9位的表偏移就能索引整張表的表項。
圖片
問題2:為什么物理頁偏移為12位?
一個物理頁為4KB,物理頁訪問是單字節訪問,2的12次方剛好為4KB,所以物理頁偏移為12位。
1.1 虛擬地址映射物理地址過程
虛擬地址映射物理地址需要依次索引pgd,pud,pmd,ptl表,具體過程如下:
- 步驟1:查詢pgd表
查詢pgd表,首先需要找到pgd表物理頁首地址,pgd表物理頁首地址由task_struct->mm_struct->pgd成員保存,每個進程的task_struct->mm_struct->pgd成員數值不同,所以不同的進程即使使用相同的虛擬地址也不會訪問相同到物理地址。
通過pgd表首地址+虛擬地址pgd表偏移索引到pgd_t表項完成pgd表查詢。
- 步驟2:查詢pud表
pgd_t表項存儲的是pud表物理頁首地址。
通過pud表首地址+虛擬地址pud表偏移索引到pud_t表項完成pud表查詢。
- 步驟3:查詢pmd表
pud_t表項存儲的是pmd表物理頁首地址。
通過pmd表首地址+虛擬地址pmd表偏移索引到pmd_t表項完成pmd表查詢。
- 步驟4:查詢ptl表
pmd_t表項存儲的是ptl表物理頁首地址。
通過ptl表首地址+虛擬地址ptl表偏移索引到pte表項完成ptl表查詢。
- 步驟5:映射物理地址
pte表項存儲的是物理頁首地址,pte+虛擬地址物理頁偏移就能定位到物理地址。
注意:定位到物理地址后,虛擬地址映射物理地址的過程就已完成。
思考:64位CPU頁表機制需要多少張表?
圖片
表的數量如下:
- pgd表1張,占用內存4KB。
- pud表2的9次方張,占用內存4KB * 512 = 2MB。
- pmd表2的18次方張,占用內存4KB * 512 * 512 = 1GB。
- ptl表2的27次方張,占用內存4KB * 512 * 512 * 512 = 512GB。
如果每張表都固定分配一個物理頁,所有的表占用的內存空間已經達到500多GB,這只是一個進程占用的空間,如果有大量的進程,占用內存就非??植懒?。
通常情況下,進程只會使用很小的內存,所以系統不會一下把所有的頁表都創建出來,而是采用動態分配的方式創建,當需要訪問虛擬地址時,通過缺頁中斷創建虛擬地址對應的各個頁表。
2.mmap實現原理
mmap函數是一種內存映射文件的方法,它可以將一個文件或設備映射到進程的地址空間中,使得進程可以像訪問內存一樣訪問文件或設備。
mmap可以分為:文件映射和匿名映射。
mmap函數主要工作就是創建VMA。
2.1 VMA簡介
VMA(Virtual Memory Area,虛擬內存區域)是Linux內核中用于管理進程虛擬內存的數據結構。每個進程都有一個VMA鏈表,用于描述進程的虛擬地址空間的不同區域。
VMA包含了一段連續的虛擬地址空間,它定義了該區域的起始地址、結束地址以及一些屬性信息。VMA可以表示進程的代碼段、數據段、堆、棧等不同的內存區域。
VMA對應Linux內核struct vm_area_struct對象。
注意:VMA用于指導虛擬內存映射物理內存,沒有VMA指導無法完成虛擬地址和物理地址映射。
圖片
struct vm_area_struct結構體主要成員如下:
- vm_start:虛擬內存區域起始地址。
- vm_end:虛擬內存區域結束地址,vm_end減去vm_start為映射區域長度。
- vm_page_prot:虛擬內存訪問權限,
PROT_READ:可讀
PROT_WRITE:可寫
PROT_EXEC:可執行
- vm_page_flags:內存映射標志,
MAP_SHARED:共享映射
MAP_PRIVATE:私有映射
- vm_ops:文件映射操作集合,匿名映射為NULL。
- vm_pgoff:文件映射文件偏移量,匿名映射無效。
- vm_file:映射文件,匿名映射為NULL。
3.缺頁中斷
Linux缺頁中斷是指當進程訪問尚未建立映射關系的虛擬內存時,系統會觸發缺頁中斷,并根據頁面的狀態來分配物理頁面并建立映射關系。
通過mmap創建VMA后,我們使用VMA內存映射區虛擬地址,但此時虛擬地址不能映射物理地址,原因是映射表還沒有動態創建出來。
圖片
當缺頁中斷發生后,中斷處理函數會完成虛擬地址至物理地址各映射表創建。
各映射表的創建需要task_struct->mm_struct->pgd和虛擬地址表偏移量共同完成。
完成映射表創建后,還有最后一步工作需要完成,那就是pte創建。
pte該如何創建呢?
我們接著往下看...
4.文件映射
文件映射可以將文件的內容映射到進程的內存空間。
文件映射pte指向文件的物理內存頁,文件映射需要VMA指向對應的文件,由文件來生成物理頁。
圖片
mmap函數實現文件映射時需指定文件fd,文件偏移量,文件映射長度。
內核會根據文件fd,文件偏移量,文件映射長度填充新創建的VMA。
文件映射創建pte時根據VMA記錄的文件file,文件偏移量,文件映射長度定位到具體文件以及文件偏移位置,將磁盤文件內容拷貝至物理內存頁,再將物理內存頁轉換成pte設置進ptl表。
至此文件映射已完成,就能通過虛擬地址訪問文件物理內存頁。
5.匿名映射
圖片
匿名映射相對來說比較簡單,只要在創建pte的時候,從物理內存中申請一個物理內存頁,將物理內存頁轉換成pte設置進ptl表,就完成匿名映射。