作者 | 頭文件
來源 | 程序員小灰
Python作為一個(gè)高層次的結(jié)合了解釋性、編譯性、互動(dòng)性和面向?qū)ο蟮哪_本語言,與大多數(shù)編程語言不同,Python中的變量無需事先申明,變量無需指定類型,程序員無需關(guān)心內(nèi)存管理,Python解釋器給你自動(dòng)回收。開發(fā)人員不用過多的關(guān)心內(nèi)存管理機(jī)制,這一切全部由Python內(nèi)存管理器承擔(dān)了復(fù)雜的內(nèi)存管理工作。
內(nèi)存不外乎創(chuàng)建和銷毀兩部分,本文將圍繞Python的內(nèi)存池和垃圾回收兩部分進(jìn)行分析。
Python內(nèi)存池
1、為什么要引入內(nèi)存池(why)
當(dāng)創(chuàng)建大量消耗小內(nèi)存的對(duì)象時(shí),頻繁調(diào)用new/malloc會(huì)導(dǎo)致大量的內(nèi)存碎片,致使效率降低。內(nèi)存池的作用就是預(yù)先在內(nèi)存中申請(qǐng)一定數(shù)量的,大小相等的內(nèi)存塊留作備用,當(dāng)有新的內(nèi)存需求時(shí),就先從內(nèi)存池中分配內(nèi)存給這個(gè)需求,不夠之后再申請(qǐng)新的內(nèi)存。這樣做最顯著的優(yōu)勢(shì)就是能夠減少內(nèi)存碎片,提升效率。
python中的內(nèi)存管理機(jī)制為Pymalloc
2、內(nèi)存池是如何工作的(how)
首先,我們看一張CPython(python解釋器)的內(nèi)存架構(gòu)圖:
-
Python的對(duì)象管理主要位于Level+1~Level+3層
-
Level+3層:對(duì)于python內(nèi)置的對(duì)象(比如int,dict等)都有獨(dú)立的私有內(nèi)存池,對(duì)象之間的內(nèi)存池不共享,即int釋放的內(nèi)存,不會(huì)被分配給float使用
-
Level+2層:當(dāng)申請(qǐng)的內(nèi)存大小小于256KB時(shí),內(nèi)存分配主要由 Python 對(duì)象分配器(Python’s object allocator)實(shí)施
-
Level+1層:當(dāng)申請(qǐng)的內(nèi)存大小大于256KB時(shí),由Python原生的內(nèi)存分配器進(jìn)行分配,本質(zhì)上是調(diào)用C標(biāo)準(zhǔn)庫中的malloc/realloc等函數(shù)
關(guān)于釋放內(nèi)存方面,當(dāng)一個(gè)對(duì)象的引用計(jì)數(shù)變?yōu)?時(shí),Python就會(huì)調(diào)用它的析構(gòu)函數(shù)。調(diào)用析構(gòu)函數(shù)并不意味著最終一定會(huì)調(diào)用free來釋放內(nèi)存空間,如果真是這樣的話,那頻繁地申請(qǐng)、釋放內(nèi)存空間會(huì)使Python的執(zhí)行效率大打折扣。因此在析構(gòu)時(shí)也采用了內(nèi)存池機(jī)制,從內(nèi)存池申請(qǐng)到的內(nèi)存會(huì)被歸還到內(nèi)存池中,以避免頻繁地申請(qǐng)和釋放動(dòng)作。
垃圾回收機(jī)制
Python的垃圾回收機(jī)制采用引用計(jì)數(shù)機(jī)制為主,標(biāo)記-清除和分代回收機(jī)制為輔的策略。其中,標(biāo)記-清除機(jī)制用來解決計(jì)數(shù)引用帶來的循環(huán)引用而無法釋放內(nèi)存的問題,分代回收機(jī)制是為提升垃圾回收的效率。
1、引用計(jì)數(shù)
Python通過引用計(jì)數(shù)來保存內(nèi)存中的變量追蹤,即記錄該對(duì)象被其他使用的對(duì)象引用的次數(shù)。
Python中有個(gè)內(nèi)部跟蹤變量叫做引用計(jì)數(shù)器,每個(gè)變量有多少個(gè)引用,簡(jiǎn)稱引用計(jì)數(shù)。當(dāng)某個(gè)對(duì)象的引用計(jì)數(shù)為0時(shí),就列入了垃圾回收隊(duì)列。
-
>>> a=[1,2]
-
>>> importsys
-
>>> sys.getrefcount(a) ## 獲取對(duì)象a的引用次數(shù)
-
2
-
>>> b=a
-
>>> sys.getrefcount(a)
-
3
-
>>> delb ## 刪除b的引用
-
>>> sys.getrefcount(a)
-
2
-
>>> c=list
-
>>> c.Append(a) ## 加入到容器中
-
>>> sys.getrefcount(a)
-
3
-
>>> delc ## 刪除容器,引用-1
-
>>> sys.getrefcount(a)
-
2
-
>>> b=a
-
>>> sys.getrefcount(a)
-
3
-
>>> a=[3,4] ## 重新賦值
-
>>> sys.getrefcount(a)
-
2
注意:當(dāng)把a(bǔ)作為參數(shù)傳遞給getrefcount時(shí),會(huì)產(chǎn)生一個(gè)臨時(shí)的引用,因此得出來的結(jié)果比真實(shí)情況+1
-
引用計(jì)數(shù)增加的情況:
-
一個(gè)對(duì)象被分配給一個(gè)新的名字(例如:a=[1,2])
-
將其放入一個(gè)容器中(如列表、元組或字典)(例如:c.append(a))
-
引用計(jì)數(shù)減少的情況:
-
使用del語句對(duì)對(duì)象別名顯式的銷毀(例如:del b)
-
對(duì)象所在的容器被銷毀或從容器中刪除對(duì)象(例如:del c )
-
引用超出作用域或被重新賦值(例如:a=[3,4])
引用計(jì)數(shù)能夠解決大多數(shù)垃圾回收的問題,但是遇到兩個(gè)對(duì)象相互引用的情況,del語句可以減少引用次數(shù),但是引用計(jì)數(shù)不會(huì)歸0,對(duì)象也就不會(huì)被銷毀,從而造成了內(nèi)存泄漏問題。針對(duì)該情況,Python引入了標(biāo)記-清除機(jī)制。
2、標(biāo)記-清除
標(biāo)記-清除用來解決引用計(jì)數(shù)機(jī)制產(chǎn)生的循環(huán)引用,進(jìn)而導(dǎo)致內(nèi)存泄漏的問題 。循環(huán)引用只有在容器對(duì)象才會(huì)產(chǎn)生,比如字典,元組,列表等。
顧名思義,該機(jī)制在進(jìn)行垃圾回收時(shí)分成了兩步,分別是:
-
標(biāo)記階段,遍歷所有的對(duì)象,如果是可達(dá)的(reachable),也就是還有對(duì)象引用它,那么就標(biāo)記該對(duì)象為可達(dá);
-
清除階段,再次遍歷對(duì)象,如果發(fā)現(xiàn)某個(gè)對(duì)象沒有標(biāo)記為可達(dá)(即為Unreachable),則就將其回收。
-
>>> a=[1,2]
-
>>> b=[3,4]
-
>>> sys.getrefcount(a)
-
2
-
>>> sys.getrefcount(b)
-
2
-
>>> a.append(b)
-
>>> sys.getrefcount(b)
-
3
-
>>> b.append(a)
-
>>> sys.getrefcount(a)
-
3
-
>>> dela
>>> del b
-
a引用b,b引用a,此時(shí)兩個(gè)對(duì)象各自被引用了2次(去除getrefcout()的臨時(shí)引用)
-
執(zhí)行del之后,對(duì)象a,b的引用次數(shù)都-1,此時(shí)各自的引用計(jì)數(shù)器都為1,陷入循環(huán)引用
-
標(biāo)記:找到其中的一端a,因?yàn)樗幸粋€(gè)對(duì)b的引用,則將b的引用計(jì)數(shù)-1
-
標(biāo)記:再沿著引用到b,b有一個(gè)a的引用,將a的引用計(jì)數(shù)-1,此時(shí)對(duì)象a和b的引用次數(shù)全部為0,被標(biāo)記為不可達(dá)(Unreachable)
-
清除: 被標(biāo)記為不可達(dá)的對(duì)象就是真正需要被釋放的對(duì)象
上面描述的垃圾回收的階段,會(huì)暫停整個(gè)應(yīng)用程序,等待標(biāo)記清除結(jié)束后才會(huì)恢復(fù)應(yīng)用程序的運(yùn)行。為了減少應(yīng)用程序暫停的時(shí)間,Python 通過“分代回收”(Generational Collection)以空間換時(shí)間的方法提高垃圾回收效率。
3、分代回收
分代回收是基于這樣的一個(gè)統(tǒng)計(jì)事實(shí),對(duì)于程序,存在一定比例的內(nèi)存塊的生存周期比較短;而剩下的內(nèi)存塊,生存周期會(huì)比較長,甚至?xí)某绦蜷_始一直持續(xù)到程序結(jié)束。生存期較短對(duì)象的比例通常在 80%~90%之間。因此,簡(jiǎn)單地認(rèn)為:對(duì)象存在時(shí)間越長,越可能不是垃圾,應(yīng)該越少去收集。這樣在執(zhí)行標(biāo)記-清除算法時(shí)可以有效減小遍歷的對(duì)象數(shù),從而提高垃圾回收的速度,是一種以空間換時(shí)間的方法策略。
Python將所有的對(duì)象分為年輕代(第0代)、中年代(第1代)、老年代(第2代)三代。所有的新建對(duì)象默認(rèn)是 第0代對(duì)象。當(dāng)在第0代的gc掃描中存活下來的對(duì)象將被移至第1代,在第1代的gc掃描中存活下來的對(duì)象將被移至第2代。
gc掃描次數(shù)(第0代>第1代>第2代)
當(dāng)某一代中被分配的對(duì)象與被釋放的對(duì)象之差達(dá)到某一閾值時(shí),就會(huì)觸發(fā)當(dāng)前一代的gc掃描。當(dāng)某一代被掃描時(shí),比它年輕的一代也會(huì)被掃描,因此,第2代的gc掃描發(fā)生時(shí),第0,1代的gc掃描也會(huì)發(fā)生,即為全代掃描。
-
>>> importgc
>>> gc.get_threshold ## 分代回收機(jī)制的參數(shù)閾值設(shè)置
(700,10,10)
-
700=新分配的對(duì)象數(shù)量-釋放的對(duì)象數(shù)量,第0代gc掃描被觸發(fā)
-
第一個(gè)10:第0代gc掃描發(fā)生10次,則第1代的gc掃描被觸發(fā)
-
第二個(gè)10:第1代的gc掃描發(fā)生10次,則第2代的gc掃描被觸發(fā)
4、思考
在標(biāo)記-清除中,如果對(duì)象c也引用a,執(zhí)行del操作后,會(huì)發(fā)生什么?
對(duì)象a,b,c的引用關(guān)系如下圖所示:
-
>>> a=[1,2]
-
>>> b=[3,4]
-
>>> c=a
-
>>> a.append(b)
-
>>> b.append(a)
-
ref_count表示引用計(jì)數(shù)
-
對(duì)象a,b,c全部為reachable
執(zhí)行del之后,引用關(guān)系如下圖所示:
-
>>> dela
-
>>> delb
-
a,b,c的ref_count減1
執(zhí)行g(shù)c掃描
標(biāo)記: a引用b,將b的refcount減1到0,b引用a,將a的refcount減1到1,將b放在unreachable下。
再循環(huán):因?yàn)閍是可達(dá)的,所以會(huì)遞歸地將從a節(jié)點(diǎn)出發(fā)可以達(dá)到的所有節(jié)點(diǎn)標(biāo)記為reachable下,即為:
清除:unreachable下沒有可清除的對(duì)象,因此a,b,c對(duì)象不會(huì)被清除
總結(jié)
總體而言,Python通過內(nèi)存池來減少內(nèi)存碎片化,提高執(zhí)行效率。主要通過引用計(jì)數(shù)來完成垃圾回收,通過標(biāo)記-清除解決容器對(duì)象循環(huán)引用造成的問題,通過分代回收提高垃圾回收的效率。