全面分析Linux正則表達式(二)
Linux正則表達式不僅僅是用于各種語言的編程,系統管理員也必須得熟悉。前面我介紹了模式修正符,現在我們繼續介紹,它是學好Linux/UNIX必需掌握的一個知識點,否則你連Linux的啟動腳本都讀不懂。
Linux正則表達式的元字符(Meta-characters)
Linux正則表達式的威力在于其能夠在模式中包含選擇和循環。它們通過使用元字符來編碼在模式中,元字符不代表其自身,它們用一些特殊的方式來解析。
有兩組不同的元字符:一種是模式中除了方括號內都能被識別的,還有一種是在方括號內被識別的。如果想在模式里包含一個元字符本身,就需要用到轉義符號,正則表達式常用反斜線“\”作為轉義字符使用,為了匹配“\”本身,你需要輸入兩個“\”,向這樣“\\”。當然,這個符號本身也是一個元字符。
方括號之外的元字符有這些:
\
有數種用途的通用轉義符
^
斷言目標的開頭(或在多行模式下行的開頭,即緊隨一換行符之后)
$
斷言目標的結尾(或在多行模式下行的結尾,即緊隨一換行符之前)
.
匹配除了換行符外的任意一個字符(默認情況下)
[
字符類定義開始
]
字符類定義結束
|
開始一個多選一的分支
(
子模式開始
)
子模式結束
?
擴展 ( 的含義,我們已經在介紹模式修正符里看到過它的使用。它也可以是 0 或 1 數量限定符,以及數量限定符最小值
*
匹配 0 個或多個的數量限定符
+
匹配 1 個或多個的數量限定符
{
最少/最多數量限定開始
}
最少/最多數量限定結束
模式中方括號內的部分稱為“字符類”。字符類中可用的元字符為:
\
通用轉義字符
^
排除字符類,但僅當其為***個字符時有效
-
指出字符范圍
在這里,最值得一提是“\”這個元字符。之所以重點對它進行講解是因為這一個元字符有多種不同的用法,在不同情況下代表不同的含義,而且使用頻率非常高,是個很容易讓人迷惑的地方。
***種用法前面我們已經提過,是作為通用轉義字符使用,如果其后跟著一個非字母數字字符,則取消該字符可能具有的任何特殊含義。此種將反斜線用作轉義字符的用法適用于無論是字符類之中還是之外。例如“\\”代表一個單獨的反斜線“\”。
第二種用途提供了一種在模式中以可見方式去編碼不可打印字符的方法。模式中完全可以包括不可打印字符,除了代表模式結束的二進制零,例如,可以用“\a”代表alarm,即 BEL 字符(0x07),或用“\cx”代表"control-x",其中 x 是任意字符。當然,這種方法表示的不一定非得是不可打印字符,實際上,可以用“\xhh(十六進制代碼為 hh 的字符)”和“\ddd(八進制代碼為 ddd 的字符)”來以編碼的形式表達任何單字節字符,例如“\040”可以用來表示空格。
反斜線的第三個用法是指定通用字符類型,這些字符類型序列可以出現在字符類之中和之外。每一個匹配相應類型中的一個字符。如果當前匹配點在目標字符串的結尾,以上所有匹配都失敗,因為沒有字符可供匹配。有以下這些常見的通用字符類:
\d 任一十進制數字
\D任一非十進制數的字符
\s任一空白字符
\S任一非空白字符
\w任一“字”的字符
\W任一“非字”的字符
反斜線的第四個用法是某些簡單的斷言,關于斷言的討論我們放在后面,這里先不加討論。
反斜線的***一個用法是逆向引用。關于逆向引用,我們會在后面討論逆向引用的部分來做進一步的討論。
我們已經看到,反斜線的眾多用法,其中一些涉及到了以后才講的內容。我們在模式中遇到反斜線時一定要注意它具體是哪一種用途以免疑惑。
另外兩個方括號也是非常重要的元字符,左方括號開始了一個字符類,右方括號結束之。單獨一個右方括號不是特殊字符。字符類匹配目標中的一個字符,該字符必須是字符類定義的字符集中的一個;除非字符類中的***個字符是音調符(^),此情況下目標字符必須不在字符類定義的字符集中。如果在字符類中需要音調符本身,則其必須不是***個字符,或用反斜線轉義。例如,[^A-Z]表式非大寫字符。
這里先介紹到這里,Linux正則表達式將繼續在后面介紹。
【編輯推薦】