億級流量電商系統JVM模型參數預估方案,在原來的基礎上采用ParNew+CMS垃圾收集器
一、億級流量分析及jvm參數設置
1. 需求分析
大促在即,擁有億級流量的電商平臺開發了一個訂單系統,我們應該如何來預估其并發量?如何根據并發量來合理配置JVM參數呢?
假設,現在有一個場景,一個電商平臺,比如京東,需要承擔每天上億的流量。現在開發了一個訂單系統,那么這個訂單系統每秒的并發量是多少呢?我們應該如何分配其內存空間呢?先來分析一下
每日億級流量,平均一個用戶點擊量在20-30左右,通過這個計算出日活用戶數約1億/20=500萬, 看的人多,買的人少,通常下單率不超過10%,我們按照留存率10%來計算,日均訂單約50萬單。這是分兩種情況:
- 一種是普通流量,非特殊節假日,通常早上、中午、晚上非工作時間有1個小時的時間集中購買。我們按照早上1小時,中午1小時,晚上1小時來計算,也就是3小時。這樣平均到每秒就是50萬/3/3600=46, 也就是及時并發,通常我們的服務都是一個集群,有好幾臺服務器承受著幾十并發,應該不成問題。
- 另一種是大促流量,比如雙十一,基本流量都集中在雙十一當天的投幾分鐘。這時每秒的并發量大概在50萬/10/60=866,平均每秒并發量不到1000。這時服務集群有3臺服務器,沒太服務器承受的壓力是400單/s。
2. 常規方案及問題暴露
對于這每秒400但會產生多大的對象呢?
我們假設訂單對象的大小是1kb,實際上訂單對象的大小和訂單對象中的字段有關系,我們假設是1kb。每秒400單,也就是會產生400kb的訂單對象。下單還涉及到其他對象,比如庫存,優惠券,積分等等,我們將對象擴大20倍, 大約是(400kb*20)/秒. 可能同時還有其他操作,比如查詢訂單的操作,我們再講其擴大10倍,大約是80M,也就是每秒產生約80M的對象,這些對象在1s后都會變為垃圾。
對于一臺4核8G的服務器來說,通常我們不設置JVM參數,也可能會根據物理機的8G內存來設置JVM參數。如果根據JVM參數來設置參數如何設置呢?
之前說過開啟逃逸分析會將對象分配到棧上,我們這里計算分析的時候暫且忽略逃逸分析分配到棧上的對象,因為這部分對象相對來說比較少。下面我們來驗證上面的預估算法是否準確,會有什么樣的問題呢?
物理機有8G,分給os操作系統3G,分給JVM5G,然后JVM中給堆分配3G,元數據空間分配512M,線程棧分配1M等等。這是估算,不夠精細,到底分配這么多空間夠不夠呢,會不會浪費呢?會產生什么樣的問題呢?
設置jvm參數大致如下:
-Xms3072M -Xmx3072M -Xss1M -XX:MetaspaceSize=512M -XX:MaxMetaspaceSize=512M
這樣設置到底行不行呢?有沒有問題呢?我們來看看運行時數據區:
根據計算
- 整個堆空間3G
- Eden區800M
- s1/s2各100M
- 方法區512M
- 一個線程1M
按照這個模型來分析,得到如下結果:
- 大促期間1s產生80M的對象數據。我們知道對象數據都是放在Eden園區,Eden園區一共800M,那么大約10s就放滿了,放滿了就會觸發Minor GC
- 觸發Minor GC的期間,會Stop The World暫停業務線程。在第10s觸發MinorGC的時候,前9s的720M數據都已經變成垃圾了,會被回收掉,最后1s的80M數據由于還有對象引用,只是暫停了業務線程,因此不是垃圾,不能被回收。會被放入S1區。
- 在Survivor區有一個對象動態年齡判斷機制。什么是對象動態年齡判斷機制呢?
當前放對象的Survivor區域里(其中一塊區域,放對象的那塊s區),一批對象的總大小大于這塊Survivor區域內存大小的50%(-XX:TargetSurvivorRatio可以指定),那么此時大于等于這批對象年齡最大值的對象,就可以直接進入老年代了,
例如:Survivor區域里現在有一批對象,年齡1+年齡2+年齡n的多個年齡對象總和超過了Survivor區域的50%,此時就會把年齡n(含)以上的對象都放入老年代。這個規則其實是希望那些可能是長期存活的對象,盡早進入老年代。
對象動態年齡判斷機制一般是在minor gc之后觸發的。
也就是說當在Survivor區經過幾代的回收以后,如果對象總和大于Survivor區域的一半,則會直接放入到老年代。Survivor是100M,第10s的對象是80M,大于100M,會直接將這個對象放入到老年代。
- 老年代一共有2G空間,2G空間執行多少次會滿呢?2G/80M=25次,也就是發生25次(25秒)Minor GC就會觸發一次Full GC。這個頻率就太高了,通常應該要很少觸發Full GC,起碼也得1個小時觸發一次。而觸發的原因是因為垃圾對象(這些對象1s后都變成垃圾了),這樣肯定是不行的。我們需要優化JVM參數。
3. JVM優化
有問題有就解決問題。問題的根本原因是老年代發生了Full GC,為什么會發生Full GC呢?
之所以80M對象會放到了老年代是因為每秒產生的數據 大于 Survivor區空間的一半。所以,我們可以調整Survivor區大小。通常我們不會修改默認的Eden:S1:S2的比例,所以,我們可以考慮從整體擴大新生代的內存空間。假設我們擴大到2G,讓老年代是1G。
這時會怎么樣呢?
- Young區占2G,Eden區有1.6G, S1、S2各有200M。
這時在分析:
- Eden區有1.6G,每秒產生80M的對象放到Eden區,大約1.6G/80=20s放滿。
- 放滿以后觸發Minor GC, 此時前19s的對象都已經成為垃圾被回收,第20s的對象被轉移到S1區。
- 此時,S1區有200M,80<S1區空間的一半,所以不會轉移到老年代。這樣第一次GC結束
- 又過了20s,進行第二次Minor GC,這次Eden區又產生了1.52G的垃圾被回收,之前在S1區的80M對象也已經變成垃圾被回收。新的80M對象被放入到S2區。沒有進入到老年代。
- 以此類推,第三次,第四次,垃圾對象不會再進入老年代,因此也不會在發生Full GC.
由此分析,大大降低了Full GC發生的頻率。
最終參數設置:
-Xms3072M -Xmx3072M -Xmn2048M -Xss1M -XX:MetaspaceSize=512M -XX:MaxMetaspaceSize=512M
為了更清晰的看到效果,可以打印GC詳細日志
-XX:+PrintGCDetails
4. 總結
通過上面的數據分析,我們要養成一個習慣,做任何事情都是要有理有據,不能是拍腦袋就說出來的。一定要能夠經得起驗證的。
二、億級流量jvm參數優化--使用parNew和CMS垃圾收集器
1. 需求分析
上面的參數設置,幫我們解決了多次觸發Full GC的問題,通過調整參數以后,我們看出在預期正常情況下,基本不會觸發Full GC。但如果有意外情況呢?比如,我們的一臺服務器能夠承受的最大并發量是400/s,但如果在秒殺的時候,并發量超過了這種情況是在不發生意外的情況下。假如并發流量達到1000,內存模型是怎么樣的呢?
根據這個估算模型,正常情況下訂單系統可以承接的訂單并發量是400單/s,但遇到某一個大促活動,很可能并發量沖到700單/s, 1000單/s,這是一秒產生的垃圾就不是60M了,可能是120M,甚至更多。根據之前的分析,這時又會頻繁的觸發Full GC了。當然了,我們有很多辦法來控制并發量,比如限流、擴容。但這里我們從JVM的角度來分析,如何處理這個問題。
正常情況我們的jvm參數是如下設置:
‐Xms3072M ‐Xmx3072M ‐Xss1M ‐XX:MetaspaceSize=256M ‐XX:MaxMetaspaceSize=256M ‐XX:SurvivorRatio=8
經過上面的分析,這樣設置可能會由于動態對象年齡判斷原則導致頻繁full gc。于是我們設置如下JVM參數,盡量避免觸發full GC
‐Xms3072M ‐Xmx3072M ‐Xmn2048M ‐Xss1M ‐XX:MetaspaceSize=256M ‐XX:MaxMetaspaceSize=256M ‐XX:SurvivorRatio=8
2. JVM優化
這個原理在上面已經說過了,但是如果并發量從峰值400單/s,一下沖到700~1000單/s。這時候,很顯然,又會觸發Full GC了,因為內存對象從原來的80M,變成了160M甚至更多,Survior區200M空間,他的一半小于160M, 所以會直接放入到老年代。針對這個問題,我們來做參數優化。
優化一:分代年齡從15變成5
系統默認的分代年齡是15,也就是一個對象在Survivor兩個區輪回15次才會進入到老年代。15次大概是多長時間呢?我們來計算一下,按照參數來分析一下內存模型,如下圖:
‐Xms3072M ‐Xmx3072M ‐Xmn2048M ‐Xss1M ‐XX:MetaspaceSize=256M ‐XX:MaxMetaspaceSize=256M ‐XX:SurvivorRatio=8
? 每秒鐘產生80M垃圾,放入到Eden區,Eden區一共1.6G,預計20s放滿,觸發Minor GC, 然后大部分對象被回收,只有一小部分對象進入到Survivor區。第二次回收的時候,上次進入Survivor區的大部分對象被垃圾回收,另一部分進入到另一個Survivor區。這些進入到另一個Survivor的對象要經歷15次Minor GC,也就是年齡是15的時候,被轉移到老年代,花費大約20s*15約5分鐘的時間才能進入到老年代。其實這些長期存活的對象都是JAVA運行或者spring運行是的一些java.lang.String, java.util.Math, 和一些bean對象。既然這些對象本身是長期存活的,那么我們就沒必要讓他經歷那么多代才進入到老年代。
? 我們完全可以將默認的15歲改小一點,比如改為5,那么意味著對象要經過5次minor gc才會進入老年代,如果經歷5次Minor GC還沒有被回收,我們完全可以認為她就是要長期存活的對象了,將其移動到老年代,而不是繼續一直占用survivor區空間。整個過程時間不到兩分鐘。
設置參數如下:
‐Xms3072M ‐Xmx3072M ‐Xmn2048M ‐Xss1M ‐XX:MetaspaceSize=256M ‐XX:MaxMetaspaceSize=256M ‐XX:SurvivorRatio=8
‐XX:MaxTenuringThreshold=5
優化二:大對象直接進入老年代
對于多大的對象直接進入老年代合適呢?這個一般可以結合你自己系統看下有沒有什么大對象生成,預估下大對象的大小,一般來說設置為1M就差不多了,很少有超過1M的大對象,這些對象一般就是你系統初始化分配的緩存對象,比如大的緩存List,Map之類的對象。 設置大對象直接進入老年代使用的參數:-XX:PretenureSizeThreshold
參數設置如下:
‐Xms3072M ‐Xmx3072M ‐Xmn2048M ‐Xss1M ‐XX:MetaspaceSize=256M ‐XX:MaxMetaspaceSize=256M ‐XX:SurvivorRatio=8
‐XX:MaxTenuringThreshold=5 ‐XX:PretenureSizeThreshold=1M
優化三:替換垃圾收集器為ParNew + CMS
JDK8默認使用的垃圾回收器是-XX:+UseParallelGC(年輕代)和-XX:+UseParallelOldGC(老年代),通常使用Parallel會有什么問題呢?經驗告訴我們,當系統內存較大的時候(超過4G,經驗值),系統對停頓時間是比較敏感的。 通常大于4G內存,我們可以采用ParNew + CMS垃圾收集器??刹豢梢允褂肎1收集器呢?G1收集器通常是內存大于8G時使用的。 內存小于8G時,在jdk8中G1收集器的算法耗費的內存要比CMS多。所以這里我們替換垃圾收集器為ParNew + CMS。設置使用ParNew + CMS的參數是:-XX:+UseParNewGC -XX:+UseConcMarkSweepGC
經驗: 很多使用jdk8的公司都是用時ParNew + CMS垃圾回收
參數設置如下:
‐Xms3072M ‐Xmx3072M ‐Xmn2048M ‐Xss1M ‐XX:MetaspaceSize=256M ‐XX:MaxMetaspaceSize=256M ‐XX:SurvivorRatio=8
‐XX:MaxTenuringThreshold=5 ‐XX:PretenureSizeThreshold=1M -XX:+UseParNewGC -XX:+UseConcMarkSweepGC
替換成ParNew + CMS垃圾收集器能解決上面并發流量達到700~1000單/s的問題么?我們來分析一下:
1) 當并發流量導到700單/s的時候, 原來每秒產生80M垃圾,現在可能達到160M,那么年輕代Survivor放不下,會直接放入到老年代。
2)當兵發流量大了的時候,本來系統能承受的是400單/s, 但是突增到500單/s的時候,原來每秒可以處理一個訂單,現在可能1秒處理不完了,要2秒甚至更多。那么就有可能在垃圾回收的時候,2s內的對象的引用關系都還在,不能被回收,剛好又大于新生代一半的空間,也會被直接放入老年代。
3)經過上面的優化,發生一次Minor GC,大約要20s, 老年代有1G空間,1G/160M*20/60=2分鐘。2分鐘觸發一次GC,通常高峰流量也就半個小時左右。2分鐘觸發一次GC,這也不太合適。
優化四:設置CMS收集器的參數
1) 避免并發失敗參數設置
在CMS收集器那塊我們說過,CMS正在收集垃圾但還沒有完成的時候,又產生了新的垃圾,導致再次觸發垃圾回收,這就發生死循環了,這就是concurrentmode failure并發失敗。為了避免并發失敗,這時會停止CMS垃圾回收的全部線程,進入到Serial Old串行垃圾收集。串行速度是很慢的,嚴重影響用戶體驗。我們盡量不要讓這種情況發生。因此,我們設置垃圾回收參數:‐XX:CMSInitiatingOccupancyFraction,我們設置老年代達到一定比例比如80%就出發Full GC,留出足夠大的空間給大對象,這樣就不會觸發Serial Old了。
這個值默認是92,也可以設置成80,但設置成80就表示,剩下20%的內存空間正常情況下處于閑置了。
參數設置如下:
‐Xms3072M ‐Xmx3072M ‐Xmn2048M ‐Xss1M ‐XX:MetaspaceSize=256M ‐XX:MaxMetaspaceSize=256M ‐XX:SurvivorRatio=8
‐XX:MaxTenuringThreshold=5 ‐XX:PretenureSizeThreshold=1M -XX:+UseParNewGC -XX:+UseConcMarkSweepGC
‐XX:CMSInitiatingOccupancyFraction=92
2)壓縮整理參數設置
我們可以設置在發生Full GC之后進行內存空間的壓縮整理。這里涉及到兩個參數,一個是開啟壓縮整理,另一個是觸發幾次Full GC整理一次內存空間。
-XX:+UseCMSCompactAtFullCollection:FullGC之后做壓縮整理(減少碎片)
-XX:CMSFullGCsBeforeCompaction:多少次FullGC之后壓縮一次,默認是0,代表每次FullGC后都會壓縮一次
這個參數是說執行多少次Full GC以后進行一次壓縮。如果其值是3,則表示執行3次Full GC,進行一次壓縮整理。
在觸發了CMS垃圾回收之后,進行內存整理,也會對性能有一定的影響的。 因為他也會STW。這個過程不會特別慢,這和剩余的對象有關,剩余的對象少,效率就高。剩余的對象多,效率就低。因為在整理的過程中,對象的地址會發生變化。
對于我們上面的案例,我們可以設置每次垃圾回收后都進行整理,為什么可以這么設置呢?因為我們full GC發生的頻率很低。偶爾搞一次大促呢?也沒關系,大促的前面二三十分鐘流量最高,二三十分鐘觸發一次Full GC沒關系的,因為大促基本結束了。
如果系統壓力比較大,觸發Full GC很頻繁,這個參數就不要這么設置了??梢栽O置-XX:CMSFullGCsBeforeCompaction為3次,5次。
不做碎片整理可不可以呢?
最好不要,因為如果不做碎片整理,老年代的碎片就會越來越多,正常的大對象都放不下了。
參數設置如下:
‐Xms3072M ‐Xmx3072M ‐Xmn2048M ‐Xss1M ‐XX:MetaspaceSize=256M ‐XX:MaxMetaspaceSize=256M ‐XX:SurvivorRatio=8
‐XX:MaxTenuringThreshold=5 ‐XX:PretenureSizeThreshold=1M -XX:+UseParNewGC -XX:+UseConcMarkSweepGC
‐XX:CMSInitiatingOccupancyFraction=92 ‐XX:+UseCMSCompactAtFullCollection ‐XX:CMSFullGCsBeforeCompaction=0