在多任務操作系統(tǒng)中,每個進程都運行在屬于自己的內存沙盤中。這個沙盤就是虛擬地址空間(Virtual Address Space),在32位模式下它是一個4GB的內存地址塊。在linux系統(tǒng)中, 內核進程和用戶進程所占的虛擬內存比例是1:3,而windows系統(tǒng)為2:2(通過設置Large-Address-Aware Executables標志也可為1:3)。這并不意味著內核使用那么多物理內存,僅表示它可支配這部分地址空間,根據(jù)需要將其映射到物理內存。
虛擬地址通過頁表(Page Table)映射到物理內存,頁表由操作系統(tǒng)維護并被處理器引用。內核空間在頁表中擁有較高特權級,因此用戶態(tài)程序試圖訪問這些頁時會導致一個頁錯誤(page fault)。在Linux中,內核空間是持續(xù)存在的,并且在所有進程中都映射到同樣的物理內存。內核代碼和數(shù)據(jù)總是可尋址,隨時準備處理中斷和系統(tǒng)調用。與此相反,用戶模式地址空間的映射隨進程切換的發(fā)生而不斷變化。
Linux進程在虛擬內存中的標準內存段布局如下圖所示:
其中,用戶地址空間中的藍色條帶對應于映射到物理內存的不同內存段,灰白區(qū)域表示未映射的部分。這些段只是簡單的內存地址范圍,與Intel處理器的段沒有關系。
上圖中Random stack offset和Random mmap offset等隨機值意在防止惡意程序。Linux通過對棧、內存映射段、堆的起始地址加上隨機偏移量來打亂布局,以免惡意程序通過計算訪問棧、庫函數(shù)等地址。execve(2)負責為進程代碼段和數(shù)據(jù)段建立映射,真正將代碼段和數(shù)據(jù)段的內容讀入內存是由系統(tǒng)的缺頁異常處理程序按需完成的。另外,execve(2)還會將BSS段清零。
用戶進程部分分段存儲內容如下表所示(按地址遞減順序):
名稱
存儲內容
棧
局部變量、函數(shù)參數(shù)、返回地址等
堆
動態(tài)分配的內存
BSS段
未初始化或初值為0的全局變量和靜態(tài)局部變量
數(shù)據(jù)段
已初始化且初值非0的全局變量和靜態(tài)局部變量
代碼段
可執(zhí)行代碼、字符串字面值、只讀變量
在將應用程序加載到內存空間執(zhí)行時,操作系統(tǒng)負責代碼段、數(shù)據(jù)段和BSS段的加載,并在內存中為這些段分配空間。棧也由操作系統(tǒng)分配和管理;堆由程序員自己管理,即顯式地申請和釋放空間。
BSS段、數(shù)據(jù)段和代碼段是可執(zhí)行程序編譯時的分段,運行時還需要棧和堆。
以下詳細介紹各個分段的含義。
1 內核空間
內核總是駐留在內存中,是操作系統(tǒng)的一部分。內核空間為內核保留,不允許應用程序讀寫該區(qū)域的內容或直接調用內核代碼定義的函數(shù)。
2 棧(stack)
棧又稱堆棧,由編譯器自動分配釋放,行為類似數(shù)據(jù)結構中的棧(先進后出)。堆棧主要有三個用途:
- 為函數(shù)內部聲明的非靜態(tài)局部變量(C語言中稱“自動變量”)提供存儲空間。
- 記錄函數(shù)調用過程相關的維護性信息,稱為棧幀(Stack Frame)或過程活動記錄(Procedure Activation Record)。它包括函數(shù)返回地址,不適合裝入寄存器的函數(shù)參數(shù)及一些寄存器值的保存。除遞歸調用外,堆棧并非必需。因為編譯時可獲知局部變量,參數(shù)和返回地址所需空間,并將其分配于BSS段。
- 臨時存儲區(qū),用于暫存長算術表達式部分計算結果或alloca()函數(shù)分配的棧內內存。
持續(xù)地重用棧空間有助于使活躍的棧內存保持在CPU緩存中,從而加速訪問。進程中的每個線程都有屬于自己的棧。向棧中不斷壓入數(shù)據(jù)時,若超出其容量就會耗盡棧對應的內存區(qū)域,從而觸發(fā)一個頁錯誤。此時若棧的大小低于堆棧最大值RLIMIT_STACK(通常是8M),則棧會動態(tài)增長,程序繼續(xù)運行。映射的棧區(qū)擴展到所需大小后,不再收縮。
Linux中ulimit -s命令可查看和設置堆棧最大值,當程序使用的堆棧超過該值時, 發(fā)生棧溢出(Stack Overflow),程序收到一個段錯誤(Segmentation Fault)。注意,調高堆棧容量可能會增加內存開銷和啟動時間。
堆棧既可向下增長(向內存低地址)也可向上增長, 這依賴于具體的實現(xiàn)。本文所述堆棧向下增長。
堆棧的大小在運行時由內核動態(tài)調整。
3 內存映射段(mmap)
此處,內核將硬盤文件的內容直接映射到內存, 任何應用程序都可通過Linux的mmap()系統(tǒng)調用或Windows的CreateFileMApping()/MapViewOfFile()請求這種映射。內存映射是一種方便高效的文件I/O方式, 因而被用于裝載動態(tài)共享庫。用戶也可創(chuàng)建匿名內存映射,該映射沒有對應的文件, 可用于存放程序數(shù)據(jù)。在 Linux中,若通過malloc()請求一大塊內存,C運行庫將創(chuàng)建一個匿名內存映射,而不使用堆內存。”大塊” 意味著比閾值 MMAP_THRESHOLD還大,缺省為128KB,可通過mallopt()調整。
該區(qū)域用于映射可執(zhí)行文件用到的動態(tài)鏈接庫。在Linux 2.4版本中,若可執(zhí)行文件依賴共享庫,則系統(tǒng)會為這些動態(tài)庫在從0x40000000開始的地址分配相應空間,并在程序裝載時將其載入到該空間。在Linux 2.6內核中,共享庫的起始地址被往上移動至更靠近棧區(qū)的位置。
從進程地址空間的布局可以看到,在有共享庫的情況下,留給堆的可用空間還有兩處:一處是從.bss段到0x40000000,約不到1GB的空間;另一處是從共享庫到棧之間的空間,約不到2GB。這兩塊空間大小取決于棧、共享庫的大小和數(shù)量。這樣來看,是否應用程序可申請的最大堆空間只有2GB?事實上,這與Linux內核版本有關。在上面給出的進程地址空間經典布局圖中,共享庫的裝載地址為0x40000000,這實際上是Linux kernel 2.6版本之前的情況了,在2.6版本里,共享庫的裝載地址已經被挪到靠近棧的位置,即位于0xBFxxxxxx附近,因此,此時的堆范圍就不會被共享庫分割成2個“碎片”,故kernel 2.6的32位Linux系統(tǒng)中,malloc申請的最大內存理論值在2.9GB左右。
4 堆(heap)
堆用于存放進程運行時動態(tài)分配的內存段,可動態(tài)擴張或縮減。堆中內容是匿名的,不能按名字直接訪問,只能通過指針間接訪問。當進程調用malloc(C)/new(C++)等函數(shù)分配內存時,新分配的內存動態(tài)添加到堆上(擴張);當調用free(C)/delete(C++)等函數(shù)釋放內存時,被釋放的內存從堆中剔除(縮減) 。
分配的堆內存是經過字節(jié)對齊的空間,以適合原子操作。堆管理器通過鏈表管理每個申請的內存,由于堆申請和釋放是無序的,最終會產生內存碎片。堆內存一般由應用程序分配釋放,回收的內存可供重新使用。若程序員不釋放,程序結束時操作系統(tǒng)可能會自動回收。
堆的末端由break指針標識,當堆管理器需要更多內存時,可通過系統(tǒng)調用brk()和sbrk()來移動break指針以擴張堆,一般由系統(tǒng)自動調用。
使用堆時經常出現(xiàn)兩種問題:1) 釋放或改寫仍在使用的內存(“內存破壞”);2)未釋放不再使用的內存(“內存泄漏”)。當釋放次數(shù)少于申請次數(shù)時,可能已造成內存泄漏。泄漏的內存往往比忘記釋放的數(shù)據(jù)結構更大,因為所分配的內存通常會圓整為下個大于申請數(shù)量的2的冪次(如申請212B,會圓整為256B)。
注意,堆不同于數(shù)據(jù)結構中的”堆”,其行為類似鏈表。
【擴展閱讀】棧和堆的區(qū)別
①管理方式:棧由編譯器自動管理;堆由程序員控制,使用方便,但易產生內存泄露。
②生長方向:棧向低地址擴展(即”向下生長”),是連續(xù)的內存區(qū)域;堆向高地址擴展(即”向上生長”),是不連續(xù)的內存區(qū)域。這是由于系統(tǒng)用鏈表來存儲空閑內存地址,自然不連續(xù),而鏈表從低地址向高地址遍歷。
③空間大小:棧頂?shù)刂泛蜅5淖畲笕萘坑上到y(tǒng)預先規(guī)定(通常默認2M或10M);堆的大小則受限于計算機系統(tǒng)中有效的虛擬內存,32位Linux系統(tǒng)中堆內存可達2.9G空間。
④存儲內容:棧在函數(shù)調用時,首先壓入主調函數(shù)中下條指令(函數(shù)調用語句的下條可執(zhí)行語句)的地址,然后是函數(shù)實參,然后是被調函數(shù)的局部變量。本次調用結束后,局部變量先出棧,然后是參數(shù),最后棧頂指針指向最開始存的指令地址,程序由該點繼續(xù)運行下條可執(zhí)行語句。堆通常在頭部用一個字節(jié)存放其大小,堆用于存儲生存期與函數(shù)調用無關的數(shù)據(jù),具體內容由程序員安排。
⑤分配方式:棧可靜態(tài)分配或動態(tài)分配。靜態(tài)分配由編譯器完成,如局部變量的分配。動態(tài)分配由alloca函數(shù)在棧上申請空間,用完后自動釋放。堆只能動態(tài)分配且手工釋放。
⑥分配效率:棧由計算機底層提供支持:分配專門的寄存器存放棧地址,壓棧出棧由專門的指令執(zhí)行,因此效率較高。堆由函數(shù)庫提供,機制復雜,效率比棧低得多。Windows系統(tǒng)中VirtualAlloc可直接在進程地址空間中分配一塊內存,快速且靈活。
⑦分配后系統(tǒng)響應:只要棧剩余空間大于所申請空間,系統(tǒng)將為程序提供內存,否則報告異常提示棧溢出。
操作系統(tǒng)為堆維護一個記錄空閑內存地址的鏈表。當系統(tǒng)收到程序的內存分配申請時,會遍歷該鏈表尋找第一個空間大于所申請空間的堆結點,然后將該結點從空閑結點鏈表中刪除,并將該結點空間分配給程序。若無足夠大小的空間(可能由于內存碎片太多),有可能調用系統(tǒng)功能去增加程序數(shù)據(jù)段的內存空間,以便有機會分到足夠大小的內存,然后進行返回。,大多數(shù)系統(tǒng)會在該內存空間首地址處記錄本次分配的內存大小,供后續(xù)的釋放函數(shù)(如free/delete)正確釋放本內存空間。
此外,由于找到的堆結點大小不一定正好等于申請的大小,系統(tǒng)會自動將多余的部分重新放入空閑鏈表中。
⑧碎片問題:棧不會存在碎片問題,因為棧是先進后出的隊列,內存塊彈出棧之前,在其上面的后進的棧內容已彈出。而頻繁申請釋放操作會造成堆內存空間的不連續(xù),從而造成大量碎片,使程序效率降低。
可見,堆容易造成內存碎片;由于沒有專門的系統(tǒng)支持,效率很低;由于可能引發(fā)用戶態(tài)和內核態(tài)切換,內存申請的代價更為昂貴。所以棧在程序中應用最廣泛,函數(shù)調用也利用棧來完成,調用過程中的參數(shù)、返回地址、棧基指針和局部變量等都采用棧的方式存放。所以,建議盡量使用棧,僅在分配大量或大塊內存空間時使用堆。
使用棧和堆時應避免越界發(fā)生,否則可能程序崩潰或破壞程序堆、棧結構,產生意想不到的后果。
5 BSS段
BSS(Block Started by Symbol)段中通常存放程序中以下符號:
- 未初始化的全局變量和靜態(tài)局部變量
- 初始值為0的全局變量和靜態(tài)局部變量(依賴于編譯器實現(xiàn))
- 未定義且初值不為0的符號(該初值即common block的大小)
C語言中,未顯式初始化的靜態(tài)分配變量被初始化為0(算術類型)或空指針(指針類型)。由于程序加載時,BSS會被操作系統(tǒng)清零,所以未賦初值或初值為0的全局變量都在BSS中。BSS段僅為未初始化的靜態(tài)分配變量預留位置,在目標文件中并不占據(jù)空間,這樣可減少目標文件體積。但程序運行時需為變量分配內存空間,故目標文件必須記錄所有未初始化的靜態(tài)分配變量大小總和(通過start_bss和end_bss地址寫入機器代碼)。當加載器(loader)加載程序時,將為BSS段分配的內存初始化為0。在嵌入式軟件中,進入main()函數(shù)之前BSS段被C運行時系統(tǒng)映射到初始化為全零的內存(效率較高)。
注意,盡管均放置于BSS段,但初值為0的全局變量是強符號,而未初始化的全局變量是弱符號。若其他地方已定義同名的強符號(初值可能非0),則弱符號與之鏈接時不會引起重定義錯誤,但運行時的初值可能并非期望值(會被強符號覆蓋)。因此,定義全局變量時,若只有本文件使用,則盡量使用static關鍵字修飾;否則需要為全局變量定義賦初值(哪怕0值),保證該變量為強符號,以便鏈接時發(fā)現(xiàn)變量名沖突,而不是被未知值覆蓋。
某些編譯器將未初始化的全局變量保存在common段,鏈接時再將其放入BSS段。在編譯階段可通過-fno-common選項來禁止將未初始化的全局變量放入common段。
此外,由于目標文件不含BSS段,故程序燒入存儲器(Flash)后BSS段地址空間內容未知。U-Boot啟動過程中,將U-Boot的Stage2代碼(通常位于lib_xxxx/board.c文件)搬遷(拷貝)到SDRAM空間后必須人為添加清零BSS段的代碼,而不可依賴于Stage2代碼中變量定義時賦0值。
【擴展閱讀】BSS歷史
BSS(Block Started by Symbol,以符號開始的塊)一詞最初是UA-SAP匯編器(United Aircraft Symbolic Assembly Program)中的偽指令,用于為符號預留一塊內存空間。該匯編器由美國聯(lián)合航空公司于20世紀50年代中期為IBM 704大型機所開發(fā)。
后來該詞被作為關鍵字引入到了IBM 709和7090/94機型上的標準匯編器FAP(Fortran Assembly Program),用于定義符號并且為該符號預留指定字數(shù)的未初始化空間塊。
在采用段式內存管理的架構中(如Intel 80x86系統(tǒng)),BSS段通常指用來存放程序中未初始化全局變量的一塊內存區(qū)域,該段變量只有名稱和大小卻沒有值。程序開始時由系統(tǒng)初始化清零。
BSS段不包含數(shù)據(jù),僅維護開始和結束地址,以便內存能在運行時被有效地清零。BSS所需的運行時空間由目標文件記錄,但BSS并不占用目標文件內的實際空間,即BSS節(jié)段應用程序的二進制映象文件中并不存在。
6 數(shù)據(jù)段(Data)
數(shù)據(jù)段通常用于存放程序中已初始化且初值不為0的全局變量和靜態(tài)局部變量。數(shù)據(jù)段屬于靜態(tài)內存分配(靜態(tài)存儲區(qū)),可讀可寫。
數(shù)據(jù)段保存在目標文件中(在嵌入式系統(tǒng)里一般固化在鏡像文件中),其內容由程序初始化。例如,對于全局變量int gVar = 10,必須在目標文件數(shù)據(jù)段中保存10這個數(shù)據(jù),然后在程序加載時復制到相應的內存。
數(shù)據(jù)段與BSS段的區(qū)別如下:
1) BSS段不占用物理文件尺寸,但占用內存空間;數(shù)據(jù)段占用物理文件,也占用內存空間。
對于大型數(shù)組如int ar0[10000] = {1, 2, 3, ...}和int ar1[10000],ar1放在BSS段,只記錄共有10000*4個字節(jié)需要初始化為0,而不是像ar0那樣記錄每個數(shù)據(jù)1、2、3...,此時BSS為目標文件所節(jié)省的磁盤空間相當可觀。
2) 當程序讀取數(shù)據(jù)段的數(shù)據(jù)時,系統(tǒng)會出發(fā)缺頁故障,從而分配相應的物理內存;當程序讀取BSS段的數(shù)據(jù)時,內核會將其轉到一個全零頁面,不會發(fā)生缺頁故障,也不會為其分配相應的物理內存。
運行時數(shù)據(jù)段和BSS段的整個區(qū)段通常稱為數(shù)據(jù)區(qū)。某些資料中“數(shù)據(jù)段”指代數(shù)據(jù)段 + BSS段 + 堆。
7 代碼段(text)
代碼段也稱正文段或文本段,通常用于存放程序執(zhí)行代碼(即CPU執(zhí)行的機器指令)。一般C語言執(zhí)行語句都編譯成機器代碼保存在代碼段。通常代碼段是可共享的,因此頻繁執(zhí)行的程序只需要在內存中擁有一份拷貝即可。代碼段通常屬于只讀,以防止其他程序意外地修改其指令(對該段的寫操作將導致段錯誤)。某些架構也允許代碼段為可寫,即允許修改程序。
代碼段指令根據(jù)程序設計流程依次執(zhí)行,對于順序指令,只會執(zhí)行一次(每個進程);若有反復,則需使用跳轉指令;若進行遞歸,則需要借助棧來實現(xiàn)。
代碼段指令中包括操作碼和操作對象(或對象地址引用)。若操作對象是立即數(shù)(具體數(shù)值),將直接包含在代碼中;若是局部數(shù)據(jù),將在棧區(qū)分配空間,然后引用該數(shù)據(jù)地址;若位于BSS段和數(shù)據(jù)段,同樣引用該數(shù)據(jù)地址。
代碼段最容易受優(yōu)化措施影響。
8 保留區(qū)
位于虛擬地址空間的最低部分,未賦予物理地址。任何對它的引用都是非法的,用于捕捉使用空指針和小整型值指針引用內存的異常情況。
它并不是一個單一的內存區(qū)域,而是對地址空間中受到操作系統(tǒng)保護而禁止用戶進程訪問的地址區(qū)域的總稱。大多數(shù)操作系統(tǒng)中,極小的地址通常都是不允許訪問的,如NULL。C語言將無效指針賦值為0也是出于這種考慮,因為0地址上正常情況下不會存放有效的可訪問數(shù)據(jù)。
在32位X86架構的Linux系統(tǒng)中,用戶進程可執(zhí)行程序一般從虛擬地址空間0x08048000開始加載。該加載地址由ELF文件頭決定,可通過自定義鏈接器腳本覆蓋鏈接器默認配置,進而修改加載地址。0x08048000以下的地址空間通常由C動態(tài)鏈接庫、動態(tài)加載器ld.so和內核VDSO(內核提供的虛擬共享庫)等占用。通過使用mmap系統(tǒng)調用,可訪問0x08048000以下的地址空間。
通過cat /proc/self/maps命令查看加載表如下:
【擴展閱讀】分段的好處
進程運行過程中,代碼指令根據(jù)流程依次執(zhí)行,只需訪問一次(當然跳轉和遞歸可能使代碼執(zhí)行多次);而數(shù)據(jù)(數(shù)據(jù)段和BSS段)通常需要訪問多次,因此單獨開辟空間以方便訪問和節(jié)約空間。具體解釋如下:
當程序被裝載后,數(shù)據(jù)和指令分別映射到兩個虛存區(qū)域。數(shù)據(jù)區(qū)對于進程而言可讀寫,而指令區(qū)對于進程只讀。兩區(qū)的權限可分別設置為可讀寫和只讀。以防止程序指令被有意或無意地改寫。
現(xiàn)代CPU具有極為強大的緩存(Cache)體系,程序必須盡量提高緩存命中率。指令區(qū)和數(shù)據(jù)區(qū)的分離有利于提高程序的局部性。現(xiàn)代CPU一般數(shù)據(jù)緩存和指令緩存分離,故程序的指令和數(shù)據(jù)分開存放有利于提高CPU緩存命中率。
當系統(tǒng)中運行多個該程序的副本時,其指令相同,故內存中只須保存一份該程序的指令部分。若系統(tǒng)中運行數(shù)百進程,通過共享指令將節(jié)省大量空間(尤其對于有動態(tài)鏈接的系統(tǒng))。其他只讀數(shù)據(jù)如程序里的圖標、圖片、文本等資源也可共享。而每個副本進程的數(shù)據(jù)區(qū)域不同,它們是進程私有的。
此外,臨時數(shù)據(jù)及需要再次使用的代碼在運行時放入棧區(qū)中,生命周期短。全局數(shù)據(jù)和靜態(tài)數(shù)據(jù)可能在整個程序執(zhí)行過程中都需要訪問,因此單獨存儲管理。堆區(qū)由用戶自由分配,以便管理。