在linux系統(tǒng)中,我們經(jīng)常用free命令來查看系統(tǒng)內(nèi)存的使用狀態(tài)。在一個RHEL6的系統(tǒng)上,free命令的顯示內(nèi)容大概是這樣一個狀態(tài):
這里的默認(rèn)顯示單位是kb,我的服務(wù)器是128G內(nèi)存,所以數(shù)字顯得比較大。這個命令幾乎是每一個使用過Linux的人必會的命令,但越是這樣的命令,似乎真正明白的人越少(我是說比例越少)。一般情況下,對此命令輸出的理解可以分這幾個層次:
不了解。這樣的人的第一反應(yīng)是:天啊,內(nèi)存用了好多,70個多G,可是我?guī)缀鯖]有運(yùn)行什么大程序啊?為什么會這樣?Linux好占內(nèi)存!
自以為很了解。這樣的人一般評估過會說:嗯,根據(jù)我專業(yè)的眼光看的出來,內(nèi)存才用了17G左右,還有很多剩余內(nèi)存可用。buffers/cache占用的較多,說明系統(tǒng)中有進(jìn)程曾經(jīng)讀寫過文件,但是不要緊,這部分內(nèi)存是當(dāng)空閑來用的。
真的很了解。這種人的反應(yīng)反而讓人感覺最不懂Linux,他們的反應(yīng)是:free顯示的是這樣,好吧我知道了。神馬?你問我這些內(nèi)存夠不夠,我當(dāng)然不知道啦!我特么怎么知道你程序怎么寫的?
根據(jù)目前網(wǎng)絡(luò)上技術(shù)文檔的內(nèi)容,我相信絕大多數(shù)了解一點Linux的人應(yīng)該處在第二種層次。大家普遍認(rèn)為,buffers和cached所占用的內(nèi)存空間是可以在內(nèi)存壓力較大的時候被釋放當(dāng)做空閑空間用的。但真的是這樣么?在論證這個題目之前,我們先簡要介紹一下buffers和cached是什么意思:
什么是buffer/cache?
buffer和cache是兩個在計算機(jī)技術(shù)中被用濫的名詞,放在不通語境下會有不同的意義。在Linux的內(nèi)存管理中,這里的buffer指Linux內(nèi)存的:Buffer cache。這里的cache指Linux內(nèi)存中的:Page cache。翻譯成中文可以叫做緩沖區(qū)緩存和頁面緩存。在歷史上,它們一個(buffer)被用來當(dāng)成對io設(shè)備寫的緩存,而另一個(cache)被用來當(dāng)作對io設(shè)備的讀緩存,這里的io設(shè)備,主要指的是塊設(shè)備文件和文件系統(tǒng)上的普通文件。但是現(xiàn)在,它們的意義已經(jīng)不一樣了。在當(dāng)前的內(nèi)核中,page cache顧名思義就是針對內(nèi)存頁的緩存,說白了就是,如果有內(nèi)存是以page進(jìn)行分配管理的,都可以使用page cache作為其緩存來管理使用。當(dāng)然,不是所有的內(nèi)存都是以頁(page)進(jìn)行管理的,也有很多是針對塊(block)進(jìn)行管理的,這部分內(nèi)存使用如果要用到cache功能,則都集中到buffer cache中來使用。(從這個角度出發(fā),是不是buffer cache改名叫做block cache更好?)然而,也不是所有塊(block)都有固定長度,系統(tǒng)上塊的長度主要是根據(jù)所使用的塊設(shè)備決定的,而頁長度在X86上無論是32位還是64位都是4k。
明白了這兩套緩存系統(tǒng)的區(qū)別,就可以理解它們究竟都可以用來做什么了。
什么是page cache?
Page cache主要用來作為文件系統(tǒng)上的文件數(shù)據(jù)的緩存來用,尤其是針對當(dāng)進(jìn)程對文件有read/write操作的時候。如果你仔細(xì)想想的話,作為可以映射文件到內(nèi)存的系統(tǒng)調(diào)用:mmap是不是很自然的也應(yīng)該用到page cache?在當(dāng)前的系統(tǒng)實現(xiàn)里,page cache也被作為其它文件類型的緩存設(shè)備來用,所以事實上page cache也負(fù)責(zé)了大部分的塊設(shè)備文件的緩存工作。
什么是buffer cache
Buffer cache則主要是設(shè)計用來在系統(tǒng)對塊設(shè)備進(jìn)行讀寫的時候,對塊進(jìn)行數(shù)據(jù)緩存的系統(tǒng)來使用。這意味著某些對塊的操作會使用buffer cache進(jìn)行緩存,比如我們在格式化文件系統(tǒng)的時候。一般情況下兩個緩存系統(tǒng)是一起配合使用的,比如當(dāng)我們對一個文件進(jìn)行寫操作的時候,page cache的內(nèi)容會被改變,而buffer cache則可以用來將page標(biāo)記為不同的緩沖區(qū),并記錄是哪一個緩沖區(qū)被修改了。這樣,內(nèi)核在后續(xù)執(zhí)行臟數(shù)據(jù)的回寫(writeback)時,就不用將整個page寫回,而只需要寫回修改的部分即可。
如何回收cache?
Linux內(nèi)核會在內(nèi)存將要耗盡的時候,觸發(fā)內(nèi)存回收的工作,以便釋放出內(nèi)存給急需內(nèi)存的進(jìn)程使用。一般情況下,這個操作中主要的內(nèi)存釋放都來自于對buffer/cache的釋放。尤其是被使用更多的cache空間。既然它主要用來做緩存,只是在內(nèi)存夠用的時候加快進(jìn)程對文件的讀寫速度,那么在內(nèi)存壓力較大的情況下,當(dāng)然有必要清空釋放cache,作為free空間分給相關(guān)進(jìn)程使用。所以一般情況下,我們認(rèn)為buffer/cache空間可以被釋放,這個理解是正確的。
但是這種清緩存的工作也并不是沒有成本。理解cache是干什么的就可以明白清緩存必須保證cache中的數(shù)據(jù)跟對應(yīng)文件中的數(shù)據(jù)一致,才能對cache進(jìn)行釋放。所以伴隨著cache清除的行為的,一般都是系統(tǒng)IO飆高。因為內(nèi)核要對比cache中的數(shù)據(jù)和對應(yīng)硬盤文件上的數(shù)據(jù)是否一致,如果不一致需要寫回,之后才能回收。
在系統(tǒng)中除了內(nèi)存將被耗盡的時候可以清緩存以外,我們還可以使用下面這個文件來人工觸發(fā)緩存清除的操作:
[root@tencent64 ~]# cat /proc/sys/vm/drop_caches
1
方法是:
echo 1 > /proc/sys/vm/drop_caches
當(dāng)然,這個文件可以設(shè)置的值分別為1、2、3。它們所表示的含義為:
echo 1 > /proc/sys/vm/drop_caches:表示清除pagecache。
echo 2 > /proc/sys/vm/drop_caches:表示清除回收slab分配器中的對象(包括目錄項緩存和inode緩存)。slab分配器是內(nèi)核中管理內(nèi)存的一種機(jī)制,其中很多緩存數(shù)據(jù)實現(xiàn)都是用的pagecache。
echo 3 > /proc/sys/vm/drop_caches:表示清除pagecache和slab分配器中的緩存對象。
優(yōu)化后截圖如下: