Python/ target=_blank class=infotextkey>Python標(biāo)準(zhǔn)庫(kù)已經(jīng)提供了性能分析所需的工具,即cProfile。本文將向你展示如何使用cProfile,以可視化的方式快速識(shí)別代碼中哪些部分計(jì)算開(kāi)銷(xiāo)最高,并且應(yīng)該優(yōu)先進(jìn)行優(yōu)化。
帕累托法則無(wú)處不在,它說(shuō):
“在大多數(shù)情況下,80%的結(jié)果來(lái)自于20%的原因。”
作為一名程序員,當(dāng)代碼運(yùn)行速度不盡如人意時(shí),就需要花費(fèi)大量時(shí)間對(duì)代碼進(jìn)行相應(yīng)的重構(gòu)。但在許多情況下,所得到的速度提升并不值得花費(fèi)的精力。
Python標(biāo)準(zhǔn)庫(kù)已經(jīng)提供了性能分析所需的工具,即cProfile。本文將向你展示如何使用cProfile,以可視化的方式快速識(shí)別代碼中哪些部分計(jì)算開(kāi)銷(xiāo)最高,并且應(yīng)該優(yōu)先進(jìn)行優(yōu)化。
安裝
cProfile
cProfile是我們將用來(lái)測(cè)量代碼的各個(gè)部分所需時(shí)間的工具,它是Python標(biāo)準(zhǔn)庫(kù)的一部分,因此無(wú)需安裝。
QCachegrind
QCachegrind將負(fù)責(zé)可視化cProfile的輸出結(jié)果,將能夠快速觀察到性能瓶頸所在。
macOS 用戶(hù)
請(qǐng)檢查你是否已經(jīng)安裝了Homebrew。如果沒(méi)有安裝,請(qǐng)使用以下命令進(jìn)行安裝:
ruby -e “$(curl -fsSL https://raw.Githubusercontent.com/Homebrew/install/master/install)" < /dev/null 2> /dev/null
然后你可以安裝QCachegrind
brew install qcachegrind
其他用戶(hù)
對(duì)于其他操作系統(tǒng)的用戶(hù),推薦Pyprof2calltree工具。
Pyprof2calltree
Pyprof2calltree將使用cProfile收集的分析數(shù)據(jù)轉(zhuǎn)換為QCachegrind可以讀取的格式。
安裝方法如下:
pip install pyprof2calltree
方法
完成安裝后,進(jìn)入包含Python腳本的文件夾。
包含要優(yōu)化的腳本的文件夾
測(cè)量
我們使用cProfile來(lái)測(cè)量腳本不同部分的運(yùn)行時(shí)間,并將結(jié)果保存在一個(gè)名為medium_example.profile的文件中(可以選擇使用任何名稱(chēng),只要它是.profile文件):
python -m cProfile -o medium_example.profile 1_generate_ML_data.py
正如你所看到的,medium_example.profile文件已添加到文件夾中:
該文件包含了運(yùn)行腳本中所涉及的不同函數(shù)的運(yùn)行時(shí)間。
可視化
現(xiàn)在,我們可以將cProfile的測(cè)量結(jié)果可視化:
pyprof2calltree -k -i medium_example.profile
QCachegrind的用戶(hù)界面包含了與所有相關(guān)函數(shù)的執(zhí)行時(shí)間有關(guān)的信息:紅色的是“Flat Profile”(左側(cè)),藍(lán)色的是“Callers”(右上方),綠色的是“Callees”(右下方)。
這個(gè)用戶(hù)界面展示的內(nèi)容較多。接下來(lái)本文會(huì)逐一解釋所有這些內(nèi)容的含義。
- “Flat Profile” 面板出現(xiàn)在左側(cè),按時(shí)間消耗的降序排列提供了完整的函數(shù)調(diào)用列表。“Incl.” 列顯示每個(gè)函數(shù)消耗的總時(shí)間,考慮到其被調(diào)用者花費(fèi)的時(shí)間。
- “Self” 列顯示僅在函數(shù)本身內(nèi)部花費(fèi)的時(shí)間,不包括其被調(diào)用者花費(fèi)的時(shí)間。
- “Called” 列顯示函數(shù)被調(diào)用的次數(shù),而“Function” 列則顯示函數(shù)的名稱(chēng),包括其命名空間。
- “Callers” 面板(右上方)顯示調(diào)用所選函數(shù)的函數(shù)列表,以及在每個(gè)調(diào)用者函數(shù)中花費(fèi)的時(shí)間。
- 另一方面,“Callees” 面板(右下方)顯示由所選函數(shù)調(diào)用的函數(shù)列表,以及每個(gè)被調(diào)用者函數(shù)中花費(fèi)的時(shí)間。通過(guò)優(yōu)化這些被調(diào)用者函數(shù),你可以提高所選函數(shù)的性能。
現(xiàn)在你知道如何解讀用戶(hù)界面,接下來(lái)展示如何使用它來(lái)找到性能瓶頸。
利用QCachegrind用戶(hù)界面識(shí)別性能瓶頸
在“Flat Profile”面板的搜索欄中,輸入builtins.exec,然后選擇函數(shù)<Built-in method builtins.exec>。
在“Callees”面板中,選擇應(yīng)該占用所有(~100%)的執(zhí)行時(shí)間的第一個(gè)函數(shù)。它是你之前執(zhí)行的腳本的入口點(diǎn)。
然后,該函數(shù)會(huì)被移到“Callers”面板上,并刷新“Callees”面板顯示其中調(diào)用的函數(shù)。
在本示例中,96.52%的執(zhí)行時(shí)間來(lái)自函數(shù)generate_all_season_games_features。
如果想再深入一級(jí),可以選擇該函數(shù)。它再次被移到“Callers”面板上,而“Callees”面板則顯示了被調(diào)用的函數(shù)。
看起來(lái),42.73%的執(zhí)行時(shí)間來(lái)自于generate_results_hometeam_current_season,而42.57%的執(zhí)行時(shí)間來(lái)自于generate_resukts_awayteam_current_season。
由于它們對(duì)速度的影響相同,我可以選擇處理其中的任意一個(gè)函數(shù)。
或者,如果需要的話(huà),可以更深入地調(diào)查一級(jí)。
優(yōu)化
建議從優(yōu)化耗時(shí)最長(zhǎng)的函數(shù)開(kāi)始。所需的重構(gòu)對(duì)代碼來(lái)說(shuō)將是非常具體的。以下是一些典型優(yōu)化的示例:
- 將嵌套的for循環(huán)轉(zhuǎn)換為單個(gè)for循環(huán)。
- 實(shí)現(xiàn)多進(jìn)程。
- 使用向量化。
重復(fù)進(jìn)行
當(dāng)應(yīng)用了第一個(gè)優(yōu)化后,可以根據(jù)實(shí)際需要多次進(jìn)行測(cè)量-可視化-優(yōu)化周期,以達(dá)到符合要求的總運(yùn)行時(shí)間。
結(jié)論
當(dāng)涉及到優(yōu)化代碼時(shí),遵循數(shù)據(jù)驅(qū)動(dòng)的方法,能確保在不進(jìn)行太多猜測(cè)和浪費(fèi)時(shí)間的情況下,取得快速進(jìn)展。