寫過很多 bash 腳本的人都知道,bash 的坑不是一般的多。 其實 bash 本身并不是一個很嚴謹的語言,但是很多時候也不得不用。以下總結了一些鵝廠程序員在編寫可靠 bash 腳本的一些小 tips。
0. set -x -e -u -o pipefail
在寫腳本時,在一開始(Shebang 之后)就加上這一句,或者它的縮略版:
set -xeuo pipefail
這能避免很多問題,更重要的是能讓很多隱藏的問題暴露出來。
下面說明每個參數的作用,以及一些例外的處理方式 :
-x : 在執行每一個命令之前把經過變量展開之后的命令打印出來。
這個對于 debug 腳本、輸出 Log 時非常有用。 正式運行的腳本也可以不加。
-e : 遇到一個命令失敗(返回碼非零)時,立即退出。
bash 跟其它的腳本語言最大的不同點之一,應該就是遇到異常時繼續運行下一條命令。 這在很多時候會遇到意想不到的問題。加上 -e ,會讓 bash 在遇到一個命令失敗時,立即退出。
如果有時確實需要忽略個別命令的返回碼,可以用 || true 。如:
some_cmd || true # 即使some_cmd失敗了,仍然會繼續運行
some_cmd || RET=$? # 或者可以這樣來收集some_cmd的返回碼,供后面的邏輯判斷使用
但是在管道串起多條命令的情況下,只有最后一條命令失敗時才會退出。如果想讓管道中任意一條命令失敗就退出,就要用后面提到的-o pipefail 了。
加-e 有時候可能會不太方便,動不動就退出。但覺得還是應該堅持所謂的fail-fast 原則,也就是有異常時停止正常運行,而不是繼續嘗試運行可能存在缺陷的過程。如果有命令可以明確忽略異常,那可以用上面提到的 || true 等方式明確地忽略之。
-u :試圖使用未定義的變量,就立即退出。
如果在 bash 里使用一個未定義的變量,默認是會展開成一個空串。有時這種行為會導致問題,比如:
rm -rf $MYDIR/data
如果 MYDIR 變量因為某種原因沒有賦值,這條命令就會變成 rm -rf /data 。 這就比較搞笑了。。 使用 -u 可以避免這種情況。
但有時候在已經設置了-u 后,某些地方還是希望能把未定義變量展開為空串,可以這樣寫:
${SOME_VAR:-}
# bash變量展開語法,可以參考:
https://www.gnu.org/software/bash/manual/html_node/Shell-Parameter-Expansion.html
-o pipefail : 只要管道中的一個子命令失敗,整個管道命令就失敗。
pipefail 與-e 結合使用的話,就可以做到管道中的一個子命令失敗,就退出腳本。
1. 防止重疊運行
在一些場景中,我們通常不希望一個腳本有多個實例在同時運行。比如用 crontab 周期性運行腳本時,有時不希望上一個輪次還沒運行完,下一個輪次就開始運行了。 這時可以用 flock 命令來解決。 flock 通過文件鎖的方式來保證獨占運行,并且還有一個好處是進程退出時,文件鎖也會自動釋放,不需要額外處理。
用法 1: 假設你的入口腳本是 myscript.sh,可以新建一個腳本,通過 flock 來運行它:
# flock --wait 超時時間 -e 鎖文件 -c "要執行的命令"
# 例如:
flock --wait 5 -e "lock_myscript" -c "bash myscript.sh"
用法 2: 也可以在原有腳本里使用 flock。 可以把文件打開為一個文件描述符,然后使用 flock 對它上鎖(flock 可以接受文件描述符參數)。
exec 123<>lock_myscript # 把lock_myscript打開為文件描述符123
flock --wait 5 123 || { echo 'cannot get lock, exit'; exit 1; }
2. 意外退出時殺掉所有子進程
我們的腳本通常會啟動好多子腳本和子進程,當父腳本意外退出時,子進程其實并不會退出,而是繼續運行著。 如果腳本是周期性運行的,有可能發生一些意想不到的問題。
在 stackoverflow 上找到的一個方法,原理就是利用 trap 命令在腳本退出時 kill 掉它整個進程組。 把下面的代碼加在腳本開頭區,實測管用:
trap "trap - SIGTERM && kill -- -$$" SIGINT SIGTERM EXIT
不過如果父進程是用 SIGKILL (kill -9) 殺掉的,就不行了。因為 SIGKILL 時,進程是沒有機會運行任何代碼的。
3. timeout 限制運行時間
有時候需要對命令設置一個超時時間。這時可以使用 timeout 命令,用法很簡單:
timeout 600s some_command arg1 arg2
命令在超時時間內運行結束時,返回碼為 0,否則會返回一個非零返回碼。
timeout 在超時時默認會發送 TERM 信號,也可以用 -s 參數讓它發送其它信號。
4. 連續管道時,考慮使用 tee 將中間結果落盤,以便查問題
有時候我們會用到把好多條命令用管道串在一起的情況。如 cmd1 | cmd2 | cmd3 | ...這樣會讓問題變得難以排查,因為中間數據我們都看不到。
如果改成這樣的格式:
cmd1 > out1.dat
cat out1 | cmd2 > out2.dat
cat out2 | cmd3 > out3.dat
性能又不太好,因為這樣 cmd1, cmd2, cmd3 是串行運行的,這時可以用 tee 命令:
cmd1 | tee out1.dat | cmd2 | tee out2.dat | cmd3 > out3.dat