對于精通 CURD 的業(yè)務同學,內存管理好像離我們很遠,但這個知識點雖然冷門(估計很多人學完根本就沒機會用上)但絕對是基礎中的基礎。
這就像武俠小說中的內功修煉,學完之后看不到立竿見影的效果,但對你日后的開發(fā)工作是大有裨益的,因為你站的更高了。
文中所有示例圖都是我親手畫的,畫圖比碼字還費時間,但大家看圖理解比文字更直觀,所以還是畫了。需要高清示例圖片的同學,文末有獲取方式自取。
再功利點的說,面試的時候不經意間透露你懂這方面知識,并且能說出個一二三來,也許能讓面試官對你更有興趣,離升職加薪,走上人生巔峰又近了一步。
前提約定:本文討論技術內容前提,操作系統(tǒng)環(huán)境都是 x86架構的 32 位 linux系統(tǒng)。
虛擬地址
即使是現代操作系統(tǒng)中,內存依然是計算機中很寶貴的資源,看看你電腦幾個T固態(tài)硬盤,再看看內存大小就知道了。
為了充分利用和管理系統(tǒng)內存資源,Linux采用虛擬內存管理技術,利用虛擬內存技術讓每個進程都有4GB 互不干涉的虛擬地址空間。
進程初始化分配和操作的都是基于這個「虛擬地址」,只有當進程需要實際訪問內存資源的時候才會建立虛擬地址和物理地址的映射,調入物理內存頁。
打個不是很恰當的比方,這個原理其實和現在的某某網盤一樣。假如你的網盤空間是1TB,真以為就一口氣給了你這么大空間嗎?那還是太年輕,都是在你往里面放東西的時候才給你分配空間,你放多少就分多少實際空間給你,但你和你朋友看起來就像大家都擁有1TB空間一樣。
虛擬地址的好處
- 避免用戶直接訪問物理內存地址,防止一些破壞性操作,保護操作系統(tǒng)
- 每個進程都被分配了4GB的虛擬內存,用戶程序可使用比實際物理內存更大的地址空間
4GB 的進程虛擬地址空間被分成兩部分:「用戶空間」和「內核空間」
用戶空間內核空間
物理地址
上面章節(jié)我們已經知道不管是用戶空間還是內核空間,使用的地址都是虛擬地址,當需進程要實際訪問內存的時候,會由內核的「請求分頁機制」產生「缺頁異常」調入物理內存頁。
把虛擬地址轉換成內存的物理地址,這中間涉及利用MMU 內存管理單元(Memory Management Unit ) 對虛擬地址分段和分頁(段頁式)地址轉換,關于分段和分頁的具體流程,這里不再贅述,可以參考任何一本計算機組成原理教材描述。
段頁式內存管理地址轉換
Linux 內核會將物理內存分為3個管理區(qū),分別是:
ZONE_DMA
DMA內存區(qū)域。包含0MB~16MB之間的內存頁框,可以由老式基于ISA的設備通過DMA使用,直接映射到內核的地址空間。
ZONE_NORMAL
普通內存區(qū)域。包含16MB~896MB之間的內存頁框,常規(guī)頁框,直接映射到內核的地址空間。
ZONE_HIGHMEM
高端內存區(qū)域。包含896MB以上的內存頁框,不進行直接映射,可以通過永久映射和臨時映射進行這部分內存頁框的訪問。
物理內存區(qū)劃分
用戶空間
用戶進程能訪問的是「用戶空間」,每個進程都有自己獨立的用戶空間,虛擬地址范圍從從 0x00000000 至 0xBFFFFFFF 總容量3G 。
用戶進程通常只能訪問用戶空間的虛擬地址,只有在執(zhí)行內陷操作或系統(tǒng)調用時才能訪問內核空間。
進程與內存
進程(執(zhí)行的程序)占用的用戶空間按照「 訪問屬性一致的地址空間存放在一起 」的原則,劃分成 5個不同的內存區(qū)域。訪問屬性指的是“可讀、可寫、可執(zhí)行等 。
- 代碼段代碼段是用來存放可執(zhí)行文件的操作指令,可執(zhí)行程序在內存中的鏡像。代碼段需要防止在運行時被非法修改,所以只準許讀取操作,它是不可寫的。
- 數據段數據段用來存放可執(zhí)行文件中已初始化全局變量,換句話說就是存放程序靜態(tài)分配的變量和全局變量。
- BSS段BSS段包含了程序中未初始化的全局變量,在內存中 bss 段全部置零。
- 堆 heap堆是用于存放進程運行中被動態(tài)分配的內存段,它的大小并不固定,可動態(tài)擴張或縮減。當進程調用malloc等函數分配內存時,新分配的內存就被動態(tài)添加到堆上(堆被擴張);當利用free等函數釋放內存時,被釋放的內存從堆中被剔除(堆被縮減)
- 棧 stack棧是用戶存放程序臨時創(chuàng)建的局部變量,也就是函數中定義的變量(但不包括 static 聲明的變量,static意味著在數據段中存放變量)。除此以外,在函數被調用時,其參數也會被壓入發(fā)起調用的進程棧中,并且待到調用結束后,函數的返回值也會被存放回棧中。由于棧的先進先出特點,所以棧特別方便用來保存/恢復調用現場。從這個意義上講,我們可以把堆棧看成一個寄存、交換臨時數據的內存區(qū)。
上述幾種內存區(qū)域中數據段、BSS 段、堆通常是被連續(xù)存儲在內存中,在位置上是連續(xù)的,而代碼段和棧往往會被獨立存放。堆和棧兩個區(qū)域在 i386 體系結構中棧向下擴展、堆向上擴展,相對而生。
你也可以在linux下用size 命令查看編譯后程序的各個內存區(qū)域大小:
[lemon ~]# size /usr/local/sbin/sshd
text data bss dec hex filename
1924532 12412 426896 2363840 2411c0 /usr/local/sbin/sshd
內核空間
在 x86 32 位系統(tǒng)里,Linux 內核地址空間是指虛擬地址從 0xC0000000 開始到 0xFFFFFFFF 為止的高端內存地址空間,總計 1G 的容量, 包括了內核鏡像、物理頁面表、驅動程序等運行在內核空間 。
內核空間細分區(qū)域.
直接映射區(qū)
直接映射區(qū) Direct Memory Region:從內核空間起始地址開始,最大896M的內核空間地址區(qū)間,為直接內存映射區(qū)。
直接映射區(qū)的896MB的「線性地址」直接與「物理地址」的前896MB進行映射,也就是說線性地址和分配的物理地址都是連續(xù)的。內核地址空間的線性地址0xC0000001所對應的物理地址為0x00000001,它們之間相差一個偏移量PAGE_OFFSET = 0xC0000000
該區(qū)域的線性地址和物理地址存在線性轉換關系「線性地址 = PAGE_OFFSET + 物理地址」也可以用 virt_to_phys()函數將內核虛擬空間中的線性地址轉化為物理地址。
高端內存線性地址空間
內核空間線性地址從 896M 到 1G 的區(qū)間,容量 128MB 的地址區(qū)間是高端內存線性地址空間,為什么叫高端內存線性地址空間?下面給你解釋一下:
前面已經說過,內核空間的總大小 1GB,從內核空間起始地址開始的 896MB 的線性地址可以直接映射到物理地址大小為 896MB 的地址區(qū)間。
退一萬步,即使內核空間的1GB線性地址都映射到物理地址,那也最多只能尋址 1GB 大小的物理內存地址范圍。
請問你現在你家的內存條多大?快醒醒都 0202 年了,一般 PC 的內存都大于 1GB 了吧!
所以,內核空間拿出了最后的 128M 地址區(qū)間,劃分成下面三個高端內存映射區(qū),以達到對整個物理地址范圍的尋址。而在 64 位的系統(tǒng)上就不存在這樣的問題了,因為可用的線性地址空間遠大于可安裝的內存。
動態(tài)內存映射區(qū)
vmalloc Region 該區(qū)域由內核函數vmalloc來分配,特點是:線性空間連續(xù),但是對應的物理地址空間不一定連續(xù)。vmalloc 分配的線性地址所對應的物理頁可能處于低端內存,也可能處于高端內存。
永久內存映射區(qū)
Persistent Kernel MApping Region 該區(qū)域可訪問高端內存。訪問方法是使用 alloc_page (_GFP_HIGHMEM) 分配高端內存頁或者使用kmap函數將分配到的高端內存映射到該區(qū)域。
固定映射區(qū)
Fixing kernel Mapping Region 該區(qū)域和 4G 的頂端只有 4k 的隔離帶,其每個地址項都服務于特定的用途,如 ACPI_BASE 等。
內核空間物理內存映射
回顧一下
上面講的有點多,先別著急進入下一節(jié),在這之前我們再來回顧一下上面所講的內容。如果認真看完上面的章節(jié),我這里再畫了一張圖,現在你的腦海中應該有這樣一個內存管理的全局圖。
內核空間用戶空間全圖
內存數據結構
要讓內核管理系統(tǒng)中的虛擬內存,必然要從中抽象出內存管理數據結構,內存管理操作如「分配、釋放等」都基于這些數據結構操作,這里列舉兩個管理虛擬內存區(qū)域的數據結構。
用戶空間內存數據結構
在前面「進程與內存」章節(jié)我們提到,Linux進程可以劃分為 5 個不同的內存區(qū)域,分別是:代碼段、數據段、BSS、堆、棧,內核管理這些區(qū)域的方式是,將這些內存區(qū)域抽象成vm_area_struct的內存管理對象。
vm_area_struct是描述進程地址空間的基本管理單元,一個進程往往需要多個vm_area_struct來描述它的用戶空間虛擬地址,需要使用「鏈表」和「紅黑樹」來組織各個vm_area_struct。
鏈表用于需要遍歷全部節(jié)點的時候用,而紅黑樹適用于在地址空間中定位特定內存區(qū)域。內核為了內存區(qū)域上的各種不同操作都能獲得高性能,所以同時使用了這兩種數據結構。
用戶空間進程的地址管理模型:
wm_arem_struct
內核空間動態(tài)分配內存數據結構
在內核空間章節(jié)我們提到過「動態(tài)內存映射區(qū)」,該區(qū)域由內核函數vmalloc來分配,特點是:線性空間連續(xù),但是對應的物理地址空間不一定連續(xù)。vmalloc 分配的線性地址所對應的物理頁可能處于低端內存,也可能處于高端內存。
vmalloc 分配的地址則限于vmalloc_start與vmalloc_end之間。每一塊vmalloc分配的內核虛擬內存都對應一個vm_struct結構體,不同的內核空間虛擬地址之間有4k大小的防越界空閑區(qū)間隔區(qū)。
與用戶空間的虛擬地址特性一樣,這些虛擬地址與物理內存沒有簡單的映射關系,必須通過內核頁表才可轉換為物理地址或物理頁,它們有可能尚未被映射,當發(fā)生缺頁時才真正分配物理頁面。
動態(tài)內存映射
前面分析了 Linux 內存管理機制,下面深入學習物理內存管理和虛擬內存分配。
通過前面的學習我們知道,程序可沒這么好騙,任你內存管理把虛擬地址空間玩出花來,到最后還是要給程序實實在在的物理內存,不然程序就要罷工了。
所以物理內存這么重要的資源一定要好好管理起來使用(物理內存,就是你實實在在的內存條),那么內核是如何管理物理內存的呢?
物理內存管理
在Linux系統(tǒng)中通過分段和分頁機制,把物理內存劃分 4K 大小的內存頁 Page(也稱作頁框Page Frame),物理內存的分配和回收都是基于內存頁進行,把物理內存分頁管理的好處大大的。
假如系統(tǒng)請求小塊內存,可以預先分配一頁給它,避免了反復的申請和釋放小塊內存帶來頻繁的系統(tǒng)開銷。
假如系統(tǒng)需要大塊內存,則可以用多頁內存拼湊,而不必要求大塊連續(xù)內存。你看不管內存大小都能收放自如,分頁機制多么完美的解決方案!
But,理想很豐滿,現實很骨感。如果就直接這樣把內存分頁使用,不再加額外的管理還是存在一些問題,下面我們來看下,系統(tǒng)在多次分配和釋放物理頁的時候會遇到哪些問題。
物理頁管理面臨問題
物理內存頁分配會出現外部碎片和內部碎片問題,所謂的「內部」和「外部」是針對「頁框內外」而言,一個頁框內的內存碎片是內部碎片,多個頁框間的碎片是外部碎片。
外部碎片
當需要分配大塊內存的時候,要用好幾頁組合起來才夠,而系統(tǒng)分配物理內存頁的時候會盡量分配連續(xù)的內存頁面,頻繁的分配與回收物理頁導致大量的小塊內存夾雜在已分配頁面中間,形成外部碎片,舉個例子:
外部碎片
內部碎片
物理內存是按頁來分配的,這樣當實際只需要很小內存的時候,也會分配至少是 4K 大小的頁面,而內核中有很多需要以字節(jié)為單位分配內存的場景,這樣本來只想要幾個字節(jié)而已卻不得不分配一頁內存,除去用掉的字節(jié)剩下的就形成了內部碎片。
內部碎片
頁面管理算法
方法總比困難多,因為存在上面的這些問題,聰明的程序員靈機一動,引入了頁面管理算法來解決上述的碎片問題。
Buddy(伙伴)分配算法
Linux 內核引入了伙伴系統(tǒng)算法(Buddy system),什么意思呢?就是把相同大小的頁框塊用鏈表串起來,頁框塊就像手拉手的好伙伴,也是這個算法名字的由來。
具體的,所有的空閑頁框分組為11個塊鏈表,每個塊鏈表分別包含大小為1,2,4,8,16,32,64,128,256,512和1024個連續(xù)頁框的頁框塊。最大可以申請1024個連續(xù)頁框,對應4MB大小的連續(xù)內存。
伙伴系統(tǒng)
因為任何正整數都可以由 2^n 的和組成,所以總能找到合適大小的內存塊分配出去,減少了外部碎片產生 。
分配實例
比如:我需要申請4個頁框,但是長度為4個連續(xù)頁框塊鏈表沒有空閑的頁框塊,伙伴系統(tǒng)會從連續(xù)8個頁框塊的鏈表獲取一個,并將其拆分為兩個連續(xù)4個頁框塊,取其中一個,另外一個放入連續(xù)4個頁框塊的空閑鏈表中。釋放的時候會檢查,釋放的這幾個頁框前后的頁框是否空閑,能否組成下一級長度的塊。
命令查看
[lemon]]# cat /proc/buddyinfo
Node 0, zone DMA 1 0 0 0 2 1 1 0 1 1 3
Node 0, zone DMA32 3198 4108 4940 4773 4030 2184 891 180 67 32 330
Node 0, zone Normal 42438 37404 16035 4386 610 121 22 3 0 0 1
slab分配器
看到這里你可能會想,有了伙伴系統(tǒng)這下總可以管理好物理內存了吧?不,還不夠,否則就沒有slab分配器什么事了。
那什么是slab分配器呢?
一般來說,內核對象的生命周期是這樣的:分配內存-初始化-釋放內存,內核中有大量的小對象,比如文件描述結構對象、任務描述結構對象,如果按照伙伴系統(tǒng)按頁分配和釋放內存,對小對象頻繁的執(zhí)行「分配內存-初始化-釋放內存」會非常消耗性能。
伙伴系統(tǒng)分配出去的內存還是以頁框為單位,而對于內核的很多場景都是分配小片內存,遠用不到一頁內存大小的空間。slab分配器,「通過將內存按使用對象不同再劃分成不同大小的空間」,應用于內核對象的緩存。
伙伴系統(tǒng)和slab不是二選一的關系,slab 內存分配器是對伙伴分配算法的補充。
大白話說原理
對于每個內核中的相同類型的對象,如:task_struct、file_struct 等需要重復使用的小型內核數據對象,都會有個 slab 緩存池,緩存住大量常用的「已經初始化」的對象,每當要申請這種類型的對象時,就從緩存池的slab 列表中分配一個出去;而當要釋放時,將其重新保存在該列表中,而不是直接返回給伙伴系統(tǒng),從而避免內部碎片,同時也大大提高了內存分配性能。
主要優(yōu)點
- slab 內存管理基于內核小對象,不用每次都分配一頁內存,充分利用內存空間,避免內部碎片。
- slab 對內核中頻繁創(chuàng)建和釋放的小對象做緩存,重復利用一些相同的對象,減少內存分配次數。
數據結構
slab分配器
kmem_cache 是一個cache_chain 的鏈表組成節(jié)點,代表的是一個內核中的相同類型的「對象高速緩存」,每個kmem_cache 通常是一段連續(xù)的內存塊,包含了三種類型的 slabs 鏈表:
- slabs_full (完全分配的 slab 鏈表)
- slabs_partial (部分分配的slab 鏈表)
- slabs_empty ( 沒有被分配對象的slab 鏈表)
kmem_cache 中有個重要的結構體 kmem_list3 包含了以上三個數據結構的聲明。
kmem_list3 內核源碼
slab 是slab 分配器的最小單位,在實現上一個 slab 由一個或多個連續(xù)的物理頁組成(通常只有一頁)。單個slab可以在 slab 鏈表之間移動,例如如果一個「半滿slabs_partial鏈表」被分配了對象后變滿了,就要從 slabs_partial 中刪除,同時插入到「全滿slabs_full鏈表」中去。內核slab對象的分配過程是這樣的:
- 如果slabs_partial鏈表還有未分配的空間,分配對象,若分配之后變滿,移動 slab 到slabs_full 鏈表
- 如果slabs_partial鏈表沒有未分配的空間,進入下一步
- 如果slabs_empty 鏈表還有未分配的空間,分配對象,同時移動slab進入slabs_partial鏈表
- 如果slabs_empty為空,請求伙伴系統(tǒng)分頁,創(chuàng)建一個新的空閑slab, 按步驟 3 分配對象
slab分配圖解
命令查看
上面說的都是理論,比較抽象,動動手來康康系統(tǒng)中的 slab 吧!你可以通過 cat /proc/slabinfo 命令,實際查看系統(tǒng)中slab 信息。
slabinfo查詢
slabtop 實時顯示內核 slab 內存緩存信息。
slabtop查詢
slab高速緩存的分類
slab高速緩存分為兩大類,「通用高速緩存」和「專用高速緩存」。
通用高速緩存
slab分配器中用 kmem_cache 來描述高速緩存的結構,它本身也需要 slab 分配器對其進行高速緩存。cache_cache 保存著對「高速緩存描述符的高速緩存」,是一種通用高速緩存,保存在cache_chain 鏈表中的第一個元素。
另外,slab 分配器所提供的小塊連續(xù)內存的分配,也是通用高速緩存實現的。通用高速緩存所提供的對象具有幾何分布的大小,范圍為32到131072字節(jié)。內核中提供了 kmalloc() 和 kfree() 兩個接口分別進行內存的申請和釋放。
專用高速緩存
內核為專用高速緩存的申請和釋放提供了一套完整的接口,根據所傳入的參數為指定的對象分配slab緩存。
專用高速緩存的申請和釋放
kmem_cache_create() 用于對一個指定的對象創(chuàng)建高速緩存。它從 cache_cache 普通高速緩存中為新的專有緩存分配一個高速緩存描述符,并把這個描述符插入到高速緩存描述符形成的 cache_chain 鏈表中。kmem_cache_destory() 用于撤消和從 cache_chain 鏈表上刪除高速緩存。
slab的申請和釋放
slab 數據結構在內核中的定義,如下:
slab結構體內核代碼
kmem_cache_alloc() 在其參數所指定的高速緩存中分配一個slab,對應的 kmem_cache_free() 在其參數所指定的高速緩存中釋放一個slab。
虛擬內存分配
前面討論的都是對物理內存的管理,Linux 通過虛擬內存管理,欺騙了用戶程序假裝每個程序都有 4G 的虛擬內存尋址空間(如果這里不懂我說啥,建議回頭看下 別再說你不懂Linux內存管理了,10張圖給你安排的明明白白!)。
所以我們來研究下虛擬內存的分配,這里包括用戶空間虛擬內存和內核空間虛擬內存。
注意,分配的虛擬內存還沒有映射到物理內存,只有當訪問申請的虛擬內存時,才會發(fā)生缺頁異常,再通過上面介紹的伙伴系統(tǒng)和 slab 分配器申請物理內存。
用戶空間內存分配
malloc
malloc 用于申請用戶空間的虛擬內存,當申請小于 128KB 小內存的時,malloc使用 sbrk或brk 分配內存;當申請大于 128KB 的內存時,使用 mmap 函數申請內存;
存在問題
由于 brk/sbrk/mmap 屬于系統(tǒng)調用,如果每次申請內存都要產生系統(tǒng)調用開銷,cpu 在用戶態(tài)和內核態(tài)之間頻繁切換,非常影響性能。
而且,堆是從低地址往高地址增長,如果低地址的內存沒有被釋放,高地址的內存就不能被回收,容易產生內存碎片。
解決
因此,malloc采用的是內存池的實現方式,先申請一大塊內存,然后將內存分成不同大小的內存塊,然后用戶申請內存時,直接從內存池中選擇一塊相近的內存塊分配出去。
內核空間內存分配
在講內核空間內存分配之前,先來回顧一下內核地址空間。kmalloc 和 vmalloc 分別用于分配不同映射區(qū)的虛擬內存,看這張上次畫的圖:
內核空間細分區(qū)域
kmalloc
kmalloc() 分配的虛擬地址范圍在內核空間的「直接內存映射區(qū)」。
按字節(jié)為單位虛擬內存,一般用于分配小塊內存,釋放內存對應于 kfree ,可以分配連續(xù)的物理內存。函數原型在 <linux/kmalloc.h> 中聲明,一般情況下在驅動程序中都是調用 kmalloc() 來給數據結構分配內存 。
還記得前面說的 slab 嗎?kmalloc 是基于slab 分配器的 ,同樣可以用cat /proc/slabinfo 命令,查看 kmalloc 相關 slab 對象信息,下面的 kmalloc-8、kmalloc-16 等等就是基于slab分配的 kmalloc 高速緩存。
slabinfo-kmalloc
vmalloc
vmalloc 分配的虛擬地址區(qū)間,位于 vmalloc_start 與vmalloc_end 之間的「動態(tài)內存映射區(qū)」。
一般用分配大塊內存,釋放內存對應于 vfree,分配的虛擬內存地址連續(xù),物理地址上不一定連續(xù)。函數原型在 <linux/vmalloc.h> 中聲明。一般用在為活動的交換區(qū)分配數據結構,為某些 I/O 驅動程序分配緩沖區(qū),或為內核模塊分配空間。
下面的圖總結了上述兩種內核空間虛擬內存分配方式。
總結一下
Linux內存管理是一個非常復雜的系統(tǒng),本文所述只是冰山一角,從宏觀角度給你展現內存管理的全貌,但一般來說,這些知識在你和面試官聊天的時候還是夠用的,當然也希望大家能夠通過讀書了解更深層次的原理。
本文可以作為一個索引一樣的學習指南,當你想深入某一點學習的時候可以在這些章節(jié)里找到切入點,以及這個知識點在內存管理宏觀上的位置。