1. 前言
grep (global search regular expression_r(RE) and print out the line,全面搜索正則表達式并把行打印出來)是一種強大的文本搜索工具,它能使用正則表達式搜索文本,并把匹配的行打印出來。Unix的grep家族包括grep、egrep和fgrep。egrep和fgrep的命令只跟grep有很小不同。egrep是grep的擴展,支持更多的re元字符, fgrep就是fixed grep或fast grep,它們把所有的字母都看作單詞,也就是說,正則表達式中的元字符表示回其自身的字面意義,不再特殊。linux使用GNU版本的grep。它功能更強,可以通過-G、-E、-F命令行選項來使用egrep和fgrep的功能。
grep的工作方式是這樣的,它在一個或多個文件中搜索字符串模板。如果模板包括空格,則必須被引用,模板后的所有字符串被看作文件名。搜索的結果被送到屏幕,不影響原文件內容。
grep可用于shell腳本,因為grep通過返回一個狀態值來說明搜索的狀態,如果模板搜索成功,則返回0,如果搜索不成功,則返回1,如果搜索的文件不存在,則返回2。我們利用這些返回值就可進行一些自動化的文本處理工作。
除了grep,還有以下文本查找工具:
egrep (extended grep) egrep是grep的擴展,支持更多的re正則表達式元字符,等同于grep -E。
fgrep (fixed grep) 就是fixed grep或fast grep,它們把所有的字母都看作單詞,也就是說,正則表達式中的元字符表示回其自身的字面意義,不再特殊,等同于grep -F,相對于grep和egrep的執行速度最快。
在使用這些工具時,我們需要有一些基本的shell功底和熟悉正則表達式:
正則表達式,又稱正規表示法、常規表示法(英語:Regular Expression,在代碼中常簡寫為regex、regexp或RE),計算機科學的一個概念。正則表達式使用單個字符串來描述、匹配一系列符合某個句法規則的字符串。在很多文本編輯器里,正則表達式通常被用來檢索、替換那些符合某個模式的文本。
所謂元字符就是指那些在正則表達式中具有特殊意義的專用字符,可以用來規定其前導字符(即位于元字符前面的字符)在目標對象中的出現模式。
轉義字符是這樣一個字符,標志著在一個字符序列中出現在它之后的后續幾個字符采取一種替代解釋。轉義字符是元字符(en:metacharacter)的一種特殊情況。通常,判定某字符是否為轉義字符由上下文確定。轉義字符即標志著轉義序列開始的那個字符。
轉義字符的英文為Escape character。原本是指ASCII中的十進制27,十六進制1D,八進制033所定義的那個字符。對應于標準鍵盤左上角的ESC鍵。老式鍵盤如果沒有ESC鍵,替代輸入是“Ctrl+[”。在老式的計算機外設控制協議,ASCII碼的十進制27這個字符開始的一個字符序列,是外設的控制序列,不能按照這些字符的字面意義解釋。后來,就把最初的狹義的Escape character的含義引申開來,在各種計算機語言與協議中,標志著一個轉義序列開始的那個字符,都叫做Escape character。最常見的一個例子是C程序設計語言中,用反斜線字符“”作為轉義字符,來表示那些不可打印的ASCII控制符。在URI協議中,轉義字符是百分號“%”。
2. grep命令選項
-?
同時顯示匹配行上下的?行,如:grep -2 pattern filename同時顯示匹配行的上下2行。
-b,--byte-offset
打印匹配行前面打印該行所在的塊號碼。
-c,--count
只打印匹配的行數,不顯示匹配的內容。
-f File,--file=File
從文件中提取模板。空文件中包含0個模板,所以什么都不匹配。
-h,--no-filename
當搜索多個文件時,不顯示匹配文件名前綴。
-i,--ignore-case
忽略大小寫差別。
-q,--quiet
取消顯示,只返回退出狀態。0則表示找到了匹配的行。
-l,--files-with-matches
打印匹配模板的文件清單。
-L,--files-without-match
打印不匹配模板的文件清單。
-n,--line-number
在匹配的行前面打印行號。
-s,--silent
不顯示關于不存在或者無法讀取文件的錯誤信息。
-v,--revert-match
反檢索,只顯示不匹配的行。
-w,--word-regexp
如果被<和>引用,就把表達式做為一個單詞搜索。
-V,--version
顯示軟件版本信息。
3. grep實用案例
格式: grep [option] pattern filename 注意: pattern如果是表達式或者超過兩個單詞的, 需要用引號引用. 可以是單引號也可雙引號, 區別是單引號無法引用變量而雙引號可以.
要用好grep這個工具,其實就是要寫好正則表達式,所以這里不對grep的所有功能進行實例講解,只列幾個例子,講解一個正則表達式的寫法。
[root@zcwyou ~]# ls -l | grep '^a'
通過管道過濾ls -l輸出的內容,只顯示以a開頭的行。
[root@zcwyou ~]# grep 'test' d*
顯示所有以d開頭的文件中包含test的行。
[root@zcwyou ~]# grep 'test' aa bb cc
顯示在aa,bb,cc文件中匹配test的行。
[root@zcwyou ~]# grep '[a-z]{5}' aa
顯示所有包含每個字符串至少有5個連續小寫字符的字符串的行。
[root@zcwyou ~]# grep 'w(es)t.*1' aa
如果west被匹配,則es就被存儲到內存中,并標記為1,然后搜索任意個字符(.),這些字符后面緊跟著另外一個es(1),找到就顯示該行。如果用egrep或grep -E,就不用""號進行轉義,直接寫成'w(es)t.1'就可以了。
使用grep查找待定文本內容
參數說明:
-I :忽略大小寫
-c :打印匹配的行數
-l :從多個文件中查找包含匹配項
-v :查找不包含匹配項的行
-n:打印包含匹配項的行和行標RE(正則表達式)符號
忽略正則表達式中特殊字符的原有含義
^ 匹配正則表達式的開始行
不能識別此Latex公式: 匹配正則表達式的結束行 < 從匹配正則表達式的行開始 > 到匹配正則表達式的行結束 [ ] 單個字符;如[A] 即A符合要求 [ - ] 范圍 ;如[A-Z]即A,B,C一直到Z都符合要求 . 所有的單個字符 所有字符,長度可以為0 3.1 只查看wget進程 ```bash [root@zcwyou ~]# ps -ef | grep wget ``` 3.2 查找以root開頭的行 ```bash [root@zcwyou ~]# grep '^root' /etc/group ``` 3.3 查找含有http的行 ```bash [root@zcwyou ~]# grep 'http' /etc/group ``` 3.4 查找以root結束的行 ```bash [root@zcwyou ~]# grep 'root$' /etc/group ``` 3.5 在zcwyou.txt里查找包括abc的行 ```bash [root@zcwyou ~]# grep '<abc>' zcwyou.txt ``` 或者 ```bash [root@zcwyou ~]# grep 'abc' zcwyou.txt ``` 3.6 查找以abc開頭的行 ```bash [root@zcwyou ~]# grep '^abc' zcwyou.txt ``` 3.7 查找以.bak結束的行注意一下,要把符號.轉義 ```bash [root@zcwyou ~]# grep '.bak$' file 包含以.bak ``` 3.8 查找包含poly或Poly的單詞的行 ```bash [root@zcwyou ~]# grep '[Pp]oly' zcwyou.txt ``` 3.9 查找包含至少一個大寫字母的行 ```bash [root@zcwyou ~]# grep '[A-Z]' zcwyou.txt ``` 3.10 查找包含至少一個數字的行 ```bash [root@zcwyou ~]# grep '[0-9]' zcwyou.txt ``` 3.11 查找包含五個字符,以大寫開頭, 和一個數字結尾的行. ```bash [root@zcwyou ~]# grep '[A-Z]...[0-9]' zcwyou.txt ``` 3.12 查找包含單詞和test或者Test的行. ```bash [root@zcwyou ~]# grep -w '[tT]est' zcwyou.txt ``` 3.13 查找包含pepper pig的行, 但不打印行, 而是用來檢查退出狀態. ```bash [root@zcwyou ~]# grep -s 'pepper pig' zcwyou.txt ``` 3.14 打印文件內容但要排除含aaa的行。 ```bash [root@zcwyou ~]# grep -v aaa file ``` 3.15 查找包括abc的行,不考慮大小寫 ```bash [root@zcwyou ~]# grep -i abc zcwyou.txt ``` 3.16 打印含pepper pig的文件內容和文件名清單 ```bash [root@zcwyou ~]# grep -l 'pepper pig' * ``` 3.17 查找zcwyou.txt 里含有ftp內容的行,并添加行號。 ```bash [root@zcwyou ~]# grep -n ftp zcwyou.txt ``` 12:ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin 3.18 查找包含變量內容的行, 注意必須用雙引號, 單引號則無法引用變量. ```bash [root@zcwyou ~]# grep "$LOGNAME" zcwyou.txt ``` 3.19 查找包含字符$name的行 ```bash [root@zcwyou ~]# grep '$name' zcwyou.txt ``` 4. egrep使用案例egrep = grep -E 可以使用基本的正則表達外, 還可以用擴展表達式. 注意區別. 擴展表達式: 匹配一個或者多個先前的字符, 至少一個先前字符. ? 匹配0個或者多個先前字符. a|b|c 匹配a或b或c () 字符組, 如: love(able|ers) 匹配loveable或lovers. (..)(..)12 模板匹配. 1代表前面第一個模板, 2代第二個括弧里面的模板. x{m,n} =x{m,n} x的字符數量在m到n個之間. 4.1 打印以一個或者多個空格開頭的行 ```bash [root@zcwyou ~]# egrep '^+' zcwyou.txt ``` 或者 ```bash [root@zcwyou ~]# grep '^*' zcwyou.txt ``` 4.2 查找包含TOM SAVAGE 和DAN SAVAGE的行 ```bash [root@zcwyou ~]# egrep '(TOM|DAN) SAVAGE' zcwyou.txt ``` 4.3 查找至少包括一個ab的行 ```bash [root@zcwyou ~]# egrep '(ab)+' zcwyou.txt ``` 4.4 查找包含x或者x后面跟著0個或者多個數字的行 ```bash [root@zcwyou ~]# egrep 'x[0-9]?' zcwyou.txt ``` 4.5 查找所有文件里面以fun.結尾的行. ```bash [root@zcwyou ~]# egrep 'fun.$' * ``` 4.6 查找至少包含一個大寫字母的行. ```bash [root@zcwyou ~]# egrep '[A-Z]+' zcwyou.txt ``` 4.7 查找至少一個數字的行. ```bash [root@zcwyou ~]# egrep '[0-9]' zcwyou.txt ``` 4.8 查找有五個字符, 第一個式大寫, 最后一個是數字的行. ```bash [root@zcwyou ~]# egrep '[A-Z]...[0-9]' zcwyou.txt ``` 4.9 查找包含單詞test或Test的行. ```bash [root@zcwyou ~]# egrep '[tT]est' zcwyou.txt ``` 4.10 查找包含abc 123的行. ```bash [root@zcwyou ~]# egrep 'abc 123' zcwyou.txt ``` 4.11 查找不包含marry的行. ```bash [root@zcwyou ~]# egrep -v 'marry' zcwyou.txt ``` 4.12 忽略大小寫查找含有jack的行 ```bash [root@zcwyou ~]# egrep -i 'jack' zcwyou.txt ``` 4.13 查找包含abc 123的所有文件的清單 ```bash [root@zcwyou ~]# egrep -l "abc 123" * ``` 4.14 包含tom的行, 每行前面追加行號 ```bash [root@zcwyou ~]# egrep -n pack zcwyou.txt ``` 4.15 查找變量名$name的內容, 不打印而是顯示退出狀態. ```bash [root@zcwyou ~]# egrep -s "$name" zcwyou.txt ``` 0表示找到. 1表示表達式沒找到符合要求的, 2表示文件沒找到. 5. 正則表達式5.1 grep正則表達式元字符集(基本集)^ 錨定行的開始 如:'^grep'匹配所有以grep開頭的行。
錨定行的結束 如:'grep$'匹配所有以grep結尾的行。
.
匹配一個非換行符的字符如:'gr.p'匹配gr后接一個任意字符,然后是p。
- 匹配零個或多個先前字符如:'*grep'匹配所有一個或多個空格后緊跟grep的行。 .*一起用代表任意字符。
[]
匹配一個指定范圍內的字符,如'[Gg]rep'匹配Grep和grep。
[^]
匹配一個不在指定范圍內的字符,如:'[^A-FH-Z]rep'匹配不包含A-R和T-Z的一個字母開頭,緊跟rep的行。
(..)
標記匹配字符,如'(love)',love被標記為1。
<
錨定單詞的開始,如:'<grep'匹配包含以grep開頭的單詞的行。
>
錨定單詞的結束,如'grep>'匹配包含以grep結尾的單詞的行。
x{m}
重復字符x,m次,如:'0{5}'匹配包含5個o的行。
x{m,}
重復字符x,至少m次,如:'o{5,}'匹配至少有5個o的行。
x{m,n}
重復字符x,至少m次,不多于n次,如:'o{5,10}'匹配5-10個o的行。
w
匹配文字和數字字符,也就是[A-Za-z0-9],如:'Gw*p'匹配以G后跟零個或多個文字或數字字符,然后是p。
W
w的反置形式,匹配一個或多個非單詞字符,如點號句號等。
b
單詞鎖定符,如: 'bgrepb'只匹配grep。
5.2 用于egrep和 grep -E的元字符擴展集
+
匹配一個或多個先前的字符。如:'[a-z]+able',匹配一個或多個小寫字母后跟able的串,如loveable,enable,disable等。
?
匹配零個或多個先前的字符。如:'gr?p'匹配gr后跟一個或沒有字符,然后是p的行。
a|b|c
匹配a或b或c。如:grep|sed匹配grep或sed
()
分組符號,如:love(able|rs)ov+匹配loveable或lovers,匹配一個或多個ov。
x{m},x{m,},x{m,n}
作用同x{m},x{m,},x{m,n}
5.3 POSIX字符類
為了在不同國家的字符編碼中保持一至,POSIX(The Portable Operating System Interface)增加了特殊的字符類,如[:alnum:]是A-Za-z0-9的另一個寫法。要把它們放到[]號內才能成為正則表達式,如[A- Za-z0-9]或[[:alnum:]]。在linux下的grep除fgrep外,都支持POSIX的字符類。
grep與egrep字符類
[:alnum:]
文字數字字符
[:alpha:]
文字字符
[:digit:]
數字字符
[:graph:]
非空字符(非空格、控制字符)
[:lower:]
小寫字符
[:cntrl:]
控制字符
[:print:]
非空字符(包括空格)
[:punct:]
標點符號
[:space:]
所有空白字符(新行,空格,制表符)
[:upper:]
大寫字符
[:xdigit:]
十六進制數字(0-9,a-f,A-F)
本文已同步至博客站,尊重原創,轉載時請在正文中附帶以下鏈接:
https://www.linuxrumen.com/cyml/834.html