作者:黃俊彬,
來源:http://huangjunbin.com
JAVA與C++之間有一堆由內存動態分配與垃圾收集技術所圍成的“高墻”,墻外面的人想進去,墻里面的人卻想出來。 —— 《深入理解Java虛擬機:JVM高級特性與最佳實踐》
Java虛擬機在執行Java程序的過程中會把它所管理的內存劃分為若干個不同的數據區域。這些區域都有各自的用途。以及創建和銷毀的時間。有的區域隨著虛擬機進程的啟動而存在,有些區域則依賴用戶線程的啟動和結束而建立和銷毀。
程序計數器
程序計數器只占用了一塊比較小的內存空間。
可以看作是當前線程所執行的字節碼文件(class)的行號指示器。在虛擬機的世界中,字節碼解析器就是通過改變計數器的值來選取下一條執行的字節碼指令,分支、循環、跳轉、異常處理、線程恢復等,都需要通過程序計數器來實現。
因為處理器在一個確定的時刻只會執行一個線程中的指令,線程切換后,是通過計數器來記錄執行痕跡,因而可以看出,程序計數器是每個線程私有的
如果執行的是java方法,那么記錄的是正在執行的虛擬機字節碼指令的地址的地址,如果是native方法,計數器的值為空(undefined)
這個內存區域是唯一一個在java虛擬機規范中沒有規定任務OutOfMemoryError的情況區域
Java虛擬機棧
與程序計數器一樣,Java虛擬機棧也是線程私有的,它的生命周期與線程相同。虛擬機棧描述的是java方法執行的內存模型,每個方法都在執行的同時會創建一個棧幀用于存儲局部變量表、操作數棧、動態鏈接、方法出口等信息。每一個方法從調用直至執行完成的過程,就對應著一個棧幀在虛擬機棧中從入棧到出棧的過程。
局部變量表
局部變量表是一組變量值的存儲空間,用于存放方法參數和局部變量。變量槽(Variable Slot)是局部變量表的最小單位,沒有強制規定大小為32位,雖然32位足夠存放大部分類型的數據。一個Slot可以方法boolean、byte、char、short、int、float、reference、和returnAddress 8種類型。
其中reference表示對一個對象實例的引用,通過它可以得到對象在java堆中存放的起始地址的索引和該數據所屬數據類型的方法區的類型信息。returnAddress則指向一條字節碼指令的地址。對于64位的long和double變量而言,虛擬機會為其分配兩個連續的slot空間。
虛擬機通過索引定位的方式使用局部變量表。為了節省棧幀空間,局部變量表中的Slot是可以重要的。當離開了某些變量的作用域之后,這些變量對應的Slot就可以交給其他變量使用。
操作數棧
操作數棧也稱為操作棧,是一個后入先出的棧。方法執行中進行算術運算或者是調用其他的方法進行參數傳遞的時候是通過操作數棧進行的。在概念模型中,兩個棧幀是相互獨立的。但是大多數虛擬機的實現都會進行優化,令兩個棧幀出現一部分重疊。令下面的部分操作數棧與上面的局部變量表重疊在一塊,這樣在方法調用的時候可以共用一部分數據,無需進行額外的參數復制傳遞
動態鏈接
每個棧幀都包含一個執行運行時常量池中該棧幀所屬方法的引用,持有這個引用是為了支持方法調用過程中的動態鏈接
方法返回地址
當一個方法開始執行以后,只有兩種方法可以退出當前方法:
當執行遇到返回指令,會將返回值傳遞給上層的方法調用者,這種退出的方式稱為正常完成出口,一般來說,調用者的PC計數器可以作為返回地址
當執行遇到一次,并且當前方法體內沒有得到處理,就會導致方法退出,此時沒有返回值,稱為異常完成出口,返回地址要通過異常處理器表來確定
當方法返回時,可能進行3個操作:
恢復上層方法的局部變量表和操作數棧
把返回值壓入調用者調用棧幀的操作數棧
調整PC計數器的值以指向方法調用指令后面的一條指令
本地方法棧
本地方法棧與虛擬機棧所發揮的作用是非常相似的,它們之間的區別不過是虛擬機棧為虛擬機執行Java方法(也就是字節碼)服務,而本地的方法棧則為虛擬機使用到的Native方法服務。
在虛擬機規范中對本地方法棧中方法使用的語言,使用方式和數據結構并沒有強制規定,因此具體的虛擬機可以自由實現它。甚至有的虛擬機(譬如 Sun HotSport虛擬機)直接就把本地方法棧和虛擬機棧合二為一,本地方法棧區域也會拋出StackOverflowError和OutOfMemoryError異常。
Java堆
對于大多數應用來說,Java堆是Java虛擬機所管理的內存中最大的一塊。Java堆是被所有線程共享的一塊內存區域,在虛擬機啟動時創建。此內存區域的唯一目的就是存放對象實例,幾乎所有的對象實例都在這里分配內存。
Java堆是垃圾收集管理器的主要區域。因此很多時候也被稱做“GC”堆。從內存回收的角度來看,由于現在收集器基本都采用分代收集算法。所以Java堆中還可以細分為:新生代和老年代:再細致一點的有Eden空間、From Survivor空間、ToSurvivor空間等。
從內存分配的角度來看,線程共享的Java堆中可能劃分出多個線程私用的分配緩沖區。不過無論如何如何劃分,都與存放內容無關,無論哪個區域,存儲的都任然是對象實例,進一步劃分的目的是為了更好地回收內存,或者更快地分配內存。
Java堆可以處理物理上不連續的內存空間,只要邏輯上是連續的即可。如果在堆中沒有內存完成實例分配,并且堆也無法再擴展時,將會拋出OutOfMenoryError異常。
方法區
方法區與Java堆一樣,是各個線程共享的內存區域,它用于存儲已被虛擬機加載的類信息、常量、靜態變量、即時編譯器編譯后的代碼等數據。
方法區也叫永久代,在過去(自定義類加載器還不是很常見的時候),類大多是”static”的,很少被卸載或收集,因此被稱為“永久的(Permanent)”。
雖然Java虛擬機規范把方法區描述為堆的一個邏輯部分,但是它卻有一個別名叫做Non-Heap(非堆),目的應該是與Java 堆區分開來。同時,由于類class是JVM實現的一部分,并不是由應用創建的,所以又被認為是“非堆(non-heap)”內存。
運行時常量池
運行時常量池是方法區的一部分,Class文件中除了有類的版本、字段、方法、接口等描述信息外們還有一項信息是常量池,用于存放編譯期生成的各種常量和符合引用,這部分內容將在類加載后進入方法區的運行時常量池中存放。
直接內存
直接內存并不是虛擬機運行時數據區的一部分,也不是Java虛擬機規范中定義的內存區域。在JDK1.4中新加入了MIO(New Input/Output)類,引入了一種基于通道。(Channel)與緩沖區(Buffer)的I/O方式,他可以使用Native函數庫直接分配堆外內存,然后通過一個存儲在Java堆中的DirectByteBuffer對象作為這塊內存的引用進行操作。
這樣能在一些場景中顯著提高性能,因此避免了在Java堆和Native堆中來回復制數據。
new 一個對象 發生了什么?
對象創建
Java是一門面向對象的編程語言,在Java程序運行過程中無時無刻都有對象被創建出來,在語言層面只是使用new關鍵字,而在虛擬機中,對象的創建又是怎樣一個過程呢?
1.類加載檢查
虛擬機遇到一條new 指令時,首先將去檢查這個指令的參數是否能在常量池中定位到一個類的符合引用,并且檢查這個符合引用代表的類是否已被加載、解析和初始化過。如果沒有,那必須先執行相應的類加載過程。
2.對象分配內存
在類加載檢查通過后,接下來虛擬機將為新生對象分配內存。對象所需內存的大小在類加載完成后便可完全確定,為對象分配空間的任務等同于把一塊確定大小的內存從Java堆中劃分出來。根據Java堆中的內存是否規整,有2種處理方式:
1,指針碰撞(Bump the pointer)
Java堆中的內存是規整的,所有用過的內存都放在一邊,空閑的內存放在另一邊,中間放著一個指針作為分界點的指示器,分配內存也就是把指針向空閑空間那邊移動一段與內存大小相等的距離。例如:Serial、ParNew等收集器。
2,空閑列表(Free List)
Java堆中的內存不是規整的,已使用的內存和空閑的內存相互交錯,就沒有辦法簡單的進行指針碰撞了。虛擬機必須維護一張列表,記錄哪些內存塊是可用的,在分配的時候從列表中找到一塊足夠大的空間劃分給對象實例,并更新列表上的記錄。例如:CMS這種基于Mark-Sweep算法的收集器。并發處理:
對象創建在虛擬機中是非常頻繁的行為,即使是僅僅修改一個指針所指向的位置,在并發情況下也并不是線程安全的,可能出現正在給對象A分配內存,指針還沒來得及修改,對象B又同時使用了原來的指針來分配內存的情況。處理方案有2種:
1,同步處理
對分配內存空間的動作進行同步處理,實際上虛擬機采用CAS配上失敗重試的方式保證更新操作的原子性。
2,TLAB
把內存分配的動作按照線程劃分在不同的空間之中進行,即每個線程在Java堆中預先分配一小塊內存,稱為本地線程分配緩沖(Thread Local Allocation Buffer,TLAB)。那個線程要分配內存,就在哪個線程的TLAB上分配,只有TLAB用完并分配新的TLAB時,才需同步鎖定。
3.內存空間初始化
虛擬機將分配到的內存空間都初始化為零值(不包括對象頭),如果使用了TLAB,這一工作過程也可以提前至TLAB分配時進行。
內存空間初始化保證了對象的實例字段在Java代碼中可以不賦初始值就直接使用,程序能訪問到這些字段的數據類型所對應的零值。
4.對象設置
接下來,虛擬機要對對象進行必要的設置,例如這個對象是那個類的實例、如何才能找到類的元數據信息、對象的哈希碼、對象的GC分代年齡等信息。這些信息存放在對象的對象頭中。
5.執行init()
在上面的工作都完成之后,從虛擬機的角度看,一個新的對象已經產生了。但是從Java程序的角度看,對象的創建才剛剛開始init()方法還沒有執行,所有的字段都還是零。
所以,一般來說(由字節碼中是否跟隨invokespecial指令所決定),執行new指令之后會接著執行init()方法,把對象按照程序員的意愿進行初始化,這樣一個真正可用的對象才算產生出來。
對象內存布局
對象的內存結構又可以被分為:對象頭,實例數據,對象填充。
對象頭
對象頭包括兩部分信息:
1,用于存儲對象自身的運行時數據, 如哈希碼(HashCode)、GC分代年齡、鎖狀態標志、線程持有的鎖、偏向線程ID、偏向時間戳等等,這部分數據的長度在32位和64位的虛擬機(暫 不考慮開啟壓縮指針的場景)中分別為32個和64個Bits,官方稱它為“Mark word”。
存儲內容標志位狀態對象哈希碼、對象分代年齡01未鎖定指向鎖記錄的指針00輕量級鎖定指向重量級鎖的指針10膨脹(重量級鎖定)空,不需要記錄信息11GC標記偏向線程ID、偏向時間戳、對象分代年齡01可偏向。
2,類型指針,即是對象指向它的類的元數據的指針,虛擬機通過這個指針來確定這個對象是哪個類的實例。
實例數據
對象真正存儲的有效信息,也是在程序代碼中定義的各種類型字段內容。無論是從父類繼承下來的還是子類定義的,都需要記錄下來。
對象填充
沒有實際意義,僅僅起著占位符的作用。以為對象的大小必須是8字節的整數倍。
對象訪問定位
建立對象是為了使用對象,我們的Java程序需要通過棧上的reference數據來操作堆上的具體對象。由于在Java虛擬機規范里面只規定了reference類型是一個指向對象的引用,并沒有定義這個引用應該通過什么種方式去定位、訪問到堆中的對象的具體位置,對象訪問方式也是取決于虛擬機實現而定的。
主流的訪問方式有使用句柄和直接指針兩種:
句柄訪問
如果使用句柄訪問的話,Java堆中將會劃分出一塊內存來作為句柄池,reference中存儲的就是對象的句柄地址,而句柄中包含了對象實例數據與類型數據的具體各自的地址信息。
指針訪問對象
使用直接指針訪問的話,Java堆對象的布局中就必須考慮如何放置訪問類型數據的相關信息,reference中存儲的直接就是對象地址。
這兩種對象訪問方式各有優勢,使用句柄來訪問的最大好處就是reference中存儲的是穩定句柄地址,在對象被移動(垃圾收集時移動對象是非常普遍的行為)時只會改變句柄中的實例數據指針,而reference本身不需要被修改。
使用直接指針來訪問最大的好處就是速度更快,它節省了一次指針定位的時間開銷,由于對象訪問的在Java中非常頻繁,因此這類開銷積小成多也是一項非常可 觀的執行成本。從上一部分講解的對象內存布局可以看出,就虛擬機HotSpot而言,它是使用第二種方式進行對象訪問,但在整個軟件開發的范圍來看,各種 語言、框架中使用句柄來訪問的情況也十分常見。
本文主要參考《深入理解Java虛擬機:JVM高級特性與最佳實踐》后的學習筆記及總結。