阿里大佬整理的常用正則表達(dá)式大全

、校驗(yàn)數(shù)字的表達(dá)式

1. 數(shù)字：^[0-9]*$

2. n位的數(shù)字：^\d{n}$

3. 至少n位的數(shù)字：^\d{n,}$

4. m-n位的數(shù)字：^\d{m,n}$

5. 零和非零開頭的數(shù)字：^(0|[1-9][0-9]*)$

6. 非零開頭的最多帶兩位小數(shù)的數(shù)字：^([1-9][0-9]*)+(.[0-9]{1,2})?$

7. 帶1-2位小數(shù)的正數(shù)或負(fù)數(shù)：^(\-)?\d+(\.\d{1,2})?$

8. 正數(shù)、負(fù)數(shù)、和小數(shù)：^(\-|\+)?\d+(\.\d+)?$

9. 有兩位小數(shù)的正實(shí)數(shù)：^[0-9]+(.[0-9]{2})?$

10. 有1~3位小數(shù)的正實(shí)數(shù)：^[0-9]+(.[0-9]{1,3})?$

11. 非零的正整數(shù)：^[1-9]\d*$ 或 ^([1-9][0-9]*){1,3}$ 或 ^\+?[1-9][0-9]*$

12. 非零的負(fù)整數(shù)：^\-[1-9][]0-9"*$ 或 ^-[1-9]\d*$

13. 非負(fù)整數(shù)：^\d+$ 或 ^[1-9]\d*|0$

14. 非正整數(shù)：^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$

15. 非負(fù)浮點(diǎn)數(shù)：^\d+(\.\d+)?$ 或 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$

16. 非正浮點(diǎn)數(shù)：^((-\d+(\.\d+)?)|(0+(\.0+)?))$ 或 ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$

17. 正浮點(diǎn)數(shù)：^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ 或 ^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$

18. 負(fù)浮點(diǎn)數(shù)：^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ 或 ^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$

19. 浮點(diǎn)數(shù)：^(-?\d+)(\.\d+)?$ 或 ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$

二、校驗(yàn)字符的表達(dá)式

1. 漢字：^[\u4e00-\u9fa5]{0,}$

2. 英文和數(shù)字：^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$

3. 長度為3-20的所有字符：^.{3,20}$

4. 由26個英文字母組成的字符串：^[A-Za-z]+$

5. 由26個大寫英文字母組成的字符串：^[A-Z]+$

6. 由26個小寫英文字母組成的字符串：^[a-z]+$

7. 由數(shù)字和26個英文字母組成的字符串：^[A-Za-z0-9]+$

8. 由數(shù)字、26個英文字母或者下劃線組成的字符串：^\w+$ 或 ^\w{3,20}$

9. 中文、英文、數(shù)字包括下劃線：^[\u4E00-\u9FA5A-Za-z0-9_]+$

10. 中文、英文、數(shù)字但不包括下劃線等符號：^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$

11. 可以輸入含有^%&',;=?$\"等字符：[^%&',;=?$\x22]+ 12 禁止輸入含有~的字符：[^~\x22]+

其它：

.*匹配除 \n 以外的任何字符。

/[\u4E00-\u9FA5]/ 漢字

/[\uFF00-\uFFFF]/ 全角符號

/[\u0000-\u00FF]/ 半角符號

三、特殊需求表達(dá)式

1. Email地址：^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$

2. 域名：[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?

3. InternetURL：[a-zA-z]+://[^\s]* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$

4. 手機(jī)號碼：^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$

5. 電話號碼("XXX-XXXXXXX"、"XXXX-XXXXXXXX"、"XXX-XXXXXXX"、"XXX-XXXXXXXX"、"XXXXXXX"和"XXXXXXXX)：^(\(\d{3,4}-)|\d{3.4}-)?\d{7,8}$

6. 國內(nèi)電話號碼(0511-4405222、021-87888822)：\d{3}-\d{8}|\d{4}-\d{7}

7. 身份證號(15位、18位數(shù)字)：^\d{15}|\d{18}$

8. 短身份證號碼(數(shù)字、字母x結(jié)尾)：^([0-9]){7,18}(x|X)?$ 或 ^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$

9. 帳號是否合法(字母開頭，允許5-16字節(jié)，允許字母數(shù)字下劃線)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$

10. 密碼(以字母開頭，長度在6~18之間，只能包含字母、數(shù)字和下劃線)：^[a-zA-Z]\w{5,17}$

11. 強(qiáng)密碼(必須包含大小寫字母和數(shù)字的組合，不能使用特殊字符，長度在8-10之間)：^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$

12. 日期格式：^\d{4}-\d{1,2}-\d{1,2}

13. 一年的12個月(01～09和1～12)：^(0?[1-9]|1[0-2])$

14. 一個月的31天(01～09和1～31)：^((0?[1-9])|((1|2)[0-9])|30|31)$

15. 錢的輸入格式：

16. 1.有四種錢的表示形式我們可以接受:"10000.00" 和 "10,000.00", 和沒有 "分" 的 "10000" 和 "10,000"：^[1-9][0-9]*$

17. 2.這表示任意一個不以0開頭的數(shù)字,但是,這也意味著一個字符"0"不通過,所以我們采用下面的形式：^(0|[1-9][0-9]*)$

18. 3.一個0或者一個不以0開頭的數(shù)字.我們還可以允許開頭有一個負(fù)號：^(0|-?[1-9][0-9]*)$

19. 4.這表示一個0或者一個可能為負(fù)的開頭不為0的數(shù)字.讓用戶以0開頭好了.把負(fù)號的也去掉,因?yàn)殄X總不能是負(fù)的吧.下面我們要加的是說明可能的小數(shù)部分：^[0-9]+(.[0-9]+)?$

20. 5.必須說明的是,小數(shù)點(diǎn)后面至少應(yīng)該有1位數(shù),所以"10."是不通過的,但是 "10" 和 "10.2" 是通過的：^[0-9]+(.[0-9]{2})?$

21. 6.這樣我們規(guī)定小數(shù)點(diǎn)后面必須有兩位,如果你認(rèn)為太苛刻了,可以這樣：^[0-9]+(.[0-9]{1,2})?$

22. 7.這樣就允許用戶只寫一位小數(shù).下面我們該考慮數(shù)字中的逗號了,我們可以這樣：^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$

23 8.1到3個數(shù)字,后面跟著任意個逗號+3個數(shù)字,逗號成為可選,而不是必須：^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$

24. 備注：這就是最終結(jié)果了,別忘了"+"可以用"*"替代如果你覺得空字符串也可以接受的話(奇怪,為什么?)最后,別忘了在用函數(shù)時去掉去掉那個反斜杠,一般的錯誤都在這里

25. xml文件：^([a-zA-Z]+-?)+[a-zA-Z0-9]+\.[x|X][m|M][l|L]$

26. 中文字符的正則表達(dá)式：[\u4e00-\u9fa5]

27. 雙字節(jié)字符：[^\x00-\xff] (包括漢字在內(nèi)，可以用來計(jì)算字符串的長度(一個雙字節(jié)字符長度計(jì)2，ASCII字符計(jì)1))

28. 空白行的正則表達(dá)式：\n\s*\r (可以用來刪除空白行)

29. HTML標(biāo)記的正則表達(dá)式：<(\S*?)[^>]*>.*?</>|<.*? /> (網(wǎng)上流傳的版本太糟糕，上面這個也僅僅能部分，對于復(fù)雜的嵌套標(biāo)記依舊無能為力)

30. 首尾空白字符的正則表達(dá)式：^\s*|\s*$或(^\s*)|(\s*$) (可以用來刪除行首行尾的空白字符(包括空格、制表符、換頁符等等)，非常有用的表達(dá)式)

31. 騰訊QQ號：[1-9][0-9]{4,} (騰訊QQ號從10000開始)

32. 中國郵政編碼：[1-9]\d{5}(?!\d) (中國郵政編碼為6位數(shù)字)

33. IP地址：\d+\.\d+\.\d+\.\d+ (提取IP地址時有用)

34. IP地址：((?:(?:25[0-5]|2[0-4]\d|[01]?\d?\d)\.){3}(?:25[0-5]|2[0-4]\d|[01]?\d?\d))

35. IP-v4地址：\b(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\b (提取IP地址時有用)
36. 校驗(yàn)IP-v6地址:(([0-9a-fA-F]{1,4}:){7,7}[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,7}:|([0-9a-fA-F]{1,4}:){1,6}:[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,5}(:[0-9a-fA-F]{1,4}){1,2}|([0-9a-fA-F]{1,4}:){1,4}(:[0-9a-fA-F]{1,4}){1,3}|([0-9a-fA-F]{1,4}:){1,3}(:[0-9a-fA-F]{1,4}){1,4}|([0-9a-fA-F]{1,4}:){1,2}(:[0-9a-fA-F]{1,4}){1,5}|[0-9a-fA-F]{1,4}:((:[0-9a-fA-F]{1,4}){1,6})|:((:[0-9a-fA-F]{1,4}){1,7}|:)|fe80:(:[0-9a-fA-F]{0,4}){0,4}%[0-9a-zA-Z]{1,}|::(ffff(:0{1,4}){0,1}:){0,1}((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])|([0-9a-fA-F]{1,4}:){1,4}:((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9]))
37. 子網(wǎng)掩碼：((?:(?:25[0-5]|2[0-4]\d|[01]?\d?\d)\.){3}(?:25[0-5]|2[0-4]\d|[01]?\d?\d))
38. 校驗(yàn)日期:^(?:(?!0000)[0-9]{4}-(?:(?:0[1-9]|1[0-2])-(?:0[1-9]|1[0-9]|2[0-8])|(?:0[13-9]|1[0-2])-(?:29|30)|(?:0[13578]|1[02])-31)|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)-02-29)$(“yyyy-mm-dd“ 格式的日期校驗(yàn)，已考慮平閏年。)
39. 抽取注釋：
40. 查找CSS屬性:^\s*[a-zA-Z\-]+\s*[:]{1}\s[a-zA-Z0-9\s.#]+[;]{1}
41. 提取頁面超鏈接:(<a\s*(?!.*\brel=)[^>]*)(href="https?:\/\/)((?!(?:(?:www\.)?'.implode('|(?:www\.)?', $follow_list).'))[^" rel="external nofollow" ]+)"((?!.*\brel=)[^>]*)(?:[^>]*)>
42. 提取網(wǎng)頁圖片:\< *[img][^\\>]*[src] *= *[\"\']{0,1}([^\"\'\ >]*)
43. 提取網(wǎng)頁顏色代碼:^#([A-Fa-f0-9]{6}|[A-Fa-f0-9]{3})$
44. 文件擴(kuò)展名效驗(yàn):^([a-zA-Z]\:|\\)\$[^\\]+\$*[^\/:*?"<>|]+\.txt(l)?$
45. 判斷IE版本：^.*MSIE [5-8](?:\.[0-9]+)?(?!.*Trident\/[5-9]\.0).*$

元字符	描述
\	將下一個字符標(biāo)記符、或一個向后引用、或一個八進(jìn)制轉(zhuǎn)義符。例如，“\n”匹配\n。“\n”匹配換行符。序列“\”匹配“\”而“\(”則匹配“(”。即相當(dāng)于多種編程語言中都有的“轉(zhuǎn)義字符”的概念。
^	匹配輸入字行首。如果設(shè)置了RegExp對象的Multiline屬性，^也匹配“\n”或“\r”之后的位置。
$	匹配輸入行尾。如果設(shè)置了RegExp對象的Multiline屬性，$也匹配“\n”或“\r”之前的位置。
*	匹配前面的子表達(dá)式任意次。例如，zo能匹配“z”，也能匹配“zo”以及“zoo”。等價于{0,}。
+	匹配前面的子表達(dá)式一次或多次(大于等于1次）。例如，“zo+”能匹配“zo”以及“zoo”，但不能匹配“z”。+等價于{1,}。
?	匹配前面的子表達(dá)式零次或一次。例如，“do(es)?”可以匹配“do”或“does”。?等價于{0,1}。
{n}	n是一個非負(fù)整數(shù)。匹配確定的n次。例如，“o{2}”不能匹配“Bob”中的“o”，但是能匹配“food”中的兩個o。
{n,}	n是一個非負(fù)整數(shù)。至少匹配n次。例如，“o{2,}”不能匹配“Bob”中的“o”，但能匹配“foooood”中的所有o。“o{1,}”等價于“o+”。“o{0,}”則等價于“o*”。
{n,m}	m和n均為非負(fù)整數(shù)，其中n<=m。最少匹配n次且最多匹配m次。例如，“o{1,3}”將匹配“fooooood”中的前三個o為一組，后三個o為一組。“o{0,1}”等價于“o?”。請注意在逗號和兩個數(shù)之間不能有空格。
?	當(dāng)該字符緊跟在任何一個其他限制符（*,+,?，{n}，{n,}，{n,m}）后面時，匹配模式是非貪婪的。非貪婪模式盡可能少地匹配所搜索的字符串，而默認(rèn)的貪婪模式則盡可能多地匹配所搜索的字符串。例如，對于字符串“oooo”，“o+”將盡可能多地匹配“o”，得到結(jié)果[“oooo”]，而“o+?”將盡可能少地匹配“o”，得到結(jié)果 ['o', 'o', 'o', 'o']
.點(diǎn)	匹配除“\n”和"\r"之外的任何單個字符。要匹配包括“\n”和"\r"在內(nèi)的任何字符，請使用像“[\s\S]”的模式。
(pattern)	匹配pattern并獲取這一匹配。所獲取的匹配可以從產(chǎn)生的Matches集合得到，在VBScript中使用SubMatches集合，在JScript中則使用>匹配pattern并獲取這一匹配。所獲取的匹配可以從產(chǎn)生的Matches集合得到，在VBScript中使用SubMatches集合，在JScript中則使用$0…$9屬性。要匹配圓括號字符，請使用“”或“”或“”。<…屬性。要匹配圓括號字符，請使用“”或“”或“”。
(?:pattern)	非獲取匹配，匹配pattern但不獲取匹配結(jié)果，不進(jìn)行存儲供以后使用。這在使用或字符“(\|)”來組合一個模式的各個部分時很有用。例如“industr(?:y\|ies)”就是一個比“industry\|industries”更簡略的表達(dá)式。
(?=pattern)	非獲取匹配，正向肯定預(yù)查，在任何匹配pattern的字符串開始處匹配查找字符串，該匹配不需要獲取供以后使用。例如，“Windows(?=95\|98\|NT\|2000)”能匹配“Windows2000”中的“Windows”，但不能匹配“Windows3.1”中的“Windows”。預(yù)查不消耗字符，也就是說，在一個匹配發(fā)生后，在最后一次匹配之后立即開始下一次匹配的搜索，而不是從包含預(yù)查的字符之后開始。
(?!pattern)	非獲取匹配，正向否定預(yù)查，在任何不匹配pattern的字符串開始處匹配查找字符串，該匹配不需要獲取供以后使用。例如“Windows(?!95\|98\|NT\|2000)”能匹配“Windows3.1”中的“Windows”，但不能匹配“Windows2000”中的“Windows”。
(?<=pattern)	非獲取匹配，反向肯定預(yù)查，與正向肯定預(yù)查類似，只是方向相反。例如，“(?<=95\|98\|NT\|2000)Windows”能匹配“2000Windows”中的“Windows”，但不能匹配“3.1Windows”中的“Windows”。 *python的正則表達(dá)式?jīng)]有完全按照正則表達(dá)式規(guī)范實(shí)現(xiàn)，所以一些高級特性建議使用其他語言如java、scala等
(?<!patte_n)	非獲取匹配，反向否定預(yù)查，與正向否定預(yù)查類似，只是方向相反。例如“(?<!95\|98\|NT\|2000)Windows”能匹配“3.1Windows”中的“Windows”，但不能匹配“2000Windows”中的“Windows”。 *python的正則表達(dá)式?jīng)]有完全按照正則表達(dá)式規(guī)范實(shí)現(xiàn)，所以一些高級特性建議使用其他語言如java、scala等
x\|y	匹配x或y。例如，“z\|food”能匹配“z”或“food”(此處請謹(jǐn)慎)。“[z\|f]ood”則匹配“zood”或“food”。
[xyz]	字符集合。匹配所包含的任意一個字符。例如，“[abc]”可以匹配“plain”中的“a”。
[^xyz]	負(fù)值字符集合。匹配未包含的任意字符。例如，“[^abc]”可以匹配“plain”中的“plin”任一字符。
[a-z]	字符范圍。匹配指定范圍內(nèi)的任意字符。例如，“[a-z]”可以匹配“a”到“z”范圍內(nèi)的任意小寫字母字符。注意:只有連字符在字符組內(nèi)部時,并且出現(xiàn)在兩個字符之間時,才能表示字符的范圍; 如果出字符組的開頭,則只能表示連字符本身.
[^a-z]	負(fù)值字符范圍。匹配任何不在指定范圍內(nèi)的任意字符。例如，“[^a-z]”可以匹配任何不在“a”到“z”范圍內(nèi)的任意字符。
\b	匹配一個單詞的邊界，也就是指單詞和空格間的位置（即正則表達(dá)式的“匹配”有兩種概念，一種是匹配字符，一種是匹配位置，這里的\b就是匹配位置的）。例如，“er\b”可以匹配“never”中的“er”，但不能匹配“verb”中的“er”；“\b1_”可以匹配“1_23”中的“1_”，但不能匹配“21_3”中的“1_”。
\B	匹配非單詞邊界。“er\B”能匹配“verb”中的“er”，但不能匹配“never”中的“er”。
\cx	匹配由x指明的控制字符。例如，\cM匹配一個Control-M或回車符。x的值必須為A-Z或a-z之一。否則，將c視為一個原義的“c”字符。
\d	匹配一個數(shù)字字符。等價于[0-9]。grep 要加上-P，perl正則支持
\D	匹配一個非數(shù)字字符。等價于[^0-9]。grep要加上-P，perl正則支持
\f	匹配一個換頁符。等價于\x0c和\cL。
\n	匹配一個換行符。等價于\x0a和\cJ。
\r	匹配一個回車符。等價于\x0d和\cM。
\s	匹配任何不可見字符，包括空格、制表符、換頁符等等。等價于[ \f\n\r\t\v]。
\S	匹配任何可見字符。等價于[^ \f\n\r\t\v]。
\t	匹配一個制表符。等價于\x09和\cI。
\v	匹配一個垂直制表符。等價于\x0b和\cK。
\w	匹配包括下劃線的任何單詞字符。類似但不等價于“[A-Za-z0-9_]”，這里的"單詞"字符使用Unicode字符集。
\W	匹配任何非單詞字符。等價于“[^A-Za-z0-9_]”。
\xn	匹配n，其中n為十六進(jìn)制轉(zhuǎn)義值。十六進(jìn)制轉(zhuǎn)義值必須為確定的兩個數(shù)字長。例如，“\x41”匹配“A”。“\x041”則等價于“\x04&1”。正則表達(dá)式中可以使用ASCII編碼。
\num	匹配num，其中num是一個正整數(shù)。對所獲取的匹配的引用。例如，“(.)”匹配兩個連續(xù)的相同字符。
\n	標(biāo)識一個八進(jìn)制轉(zhuǎn)義值或一個向后引用。如果\n之前至少n個獲取的子表達(dá)式，則n為向后引用。否則，如果n為八進(jìn)制數(shù)字（0-7），則n為一個八進(jìn)制轉(zhuǎn)義值。
\nm	標(biāo)識一個八進(jìn)制轉(zhuǎn)義值或一個向后引用。如果\nm之前至少有nm個獲得子表達(dá)式，則nm為向后引用。如果\nm之前至少有n個獲取，則n為一個后跟文字m的向后引用。如果前面的條件都不滿足，若n和m均為八進(jìn)制數(shù)字（0-7），則\nm將匹配八進(jìn)制轉(zhuǎn)義值nm。
\nml	如果n為八進(jìn)制數(shù)字（0-7），且m和l均為八進(jìn)制數(shù)字（0-7），則匹配八進(jìn)制轉(zhuǎn)義值nml。
\un	匹配n，其中n是一個用四個十六進(jìn)制數(shù)字表示的Unicode字符。例如，\u00A9匹配版權(quán)符號（©）。
\p{P}	小寫 p 是 property 的意思，表示 Unicode 屬性，用于 Unicode 正表達(dá)式的前綴。中括號內(nèi)的“P”表示Unicode 字符集七個字符屬性之一：標(biāo)點(diǎn)字符。其他六個屬性： L：字母； M：標(biāo)記符號（一般不會單獨(dú)出現(xiàn)）； Z：分隔符（比如空格、換行等）； S：符號（比如數(shù)學(xué)符號、貨幣符號等）； N：數(shù)字（比如阿拉伯?dāng)?shù)字、羅馬數(shù)字等）； C：其他字符。 *注：此語法部分語言不支持，例：javascript。
\< \>	匹配詞（word）的開始（\<）和結(jié)束（\>）。例如正則表達(dá)式\<the\>能夠匹配字符串"for the wise"中的"the"，但是不能匹配字符串"otherwise"中的"the"。注意：這個元字符不是所有的軟件都支持的。
( )	將( 和 ) 之間的表達(dá)式定義為“組”（group），并且將匹配這個表達(dá)式的字符保存到一個臨時區(qū)域（一個正則表達(dá)式中最多可以保存9個），它們可以用到的符號來引用。
\|	將兩個匹配條件進(jìn)行邏輯“或”（or）運(yùn)算。例如正則表達(dá)式(him\|her) 匹配"it belongs to him"和"it belongs to her"，但是不能匹配"it belongs to them."。注意：這個元字符不是所有的軟件都支持的。

作者 | ZhaoYingChao88

來源 | runoob.com/regexp/regexp-tutorial.html

則表達(dá)式30分鐘入門教程

一些要說的話：

如果你沒有正則表達(dá)式的基礎(chǔ)，請跟著教程“一步步來”。請不要大概地掃兩眼就說看不懂——以這種態(tài)度我寫成什么樣你也看不懂。當(dāng)我告訴你這是“30分鐘入門教程”時，請不要試圖在30秒內(nèi)入門。
事實(shí)是，我身邊有個才接觸電腦，對操作都不是很熟練的人通過自己學(xué)習(xí)這篇教程，最后都能在文章采集系統(tǒng)中使用正則表達(dá)式完成任務(wù)。而且，他寫的表達(dá)式中，還使用了“零寬斷言”等“高級”技術(shù)。
所以，如果你能具體地說明你的問題，我很愿意幫助你。但是如果你概括地說看不懂，那不是我的問題。
歡迎轉(zhuǎn)載，但請聲明作者以及來源。

正則表達(dá)式30分鐘入門教程

版本：v2.31 (2009-4-11) 作者：deerchao 轉(zhuǎn)載請注明來源

跳過目錄

本文目標(biāo)
如何使用本教程
正則表達(dá)式到底是什么東西？
入門
測試正則表達(dá)式
元字符
字符轉(zhuǎn)義
重復(fù)
字符類
分枝條件
反義
分組
后向引用
零寬斷言
負(fù)向零寬斷言
注釋
貪婪與懶惰
處理選項(xiàng)
平衡組/遞歸匹配
還有些什么東西沒提到
聯(lián)系作者
網(wǎng)上的資源及本文參考文獻(xiàn)
更新紀(jì)錄

本文目標(biāo)

30分鐘內(nèi)讓你明白正則表達(dá)式是什么，并對它有一些基本的了解，讓你可以在自己的程序或網(wǎng)頁里使用它。

如何使用本教程

最重要的是——請給我30分鐘，如果你沒有使用正則表達(dá)式的經(jīng)驗(yàn)，請不要試圖在30秒內(nèi)入門——除非你是超人 :)

別被下面那些復(fù)雜的表達(dá)式嚇倒，只要跟著我一步一步來，你會發(fā)現(xiàn)正則表達(dá)式其實(shí)并沒有你想像中的那么困難。當(dāng)然，如果你看完了這篇教程之后，發(fā)現(xiàn)自己明白了很多，卻又幾乎什么都記不得，那也是很正常的——我認(rèn)為，沒接觸過正則表達(dá)式的人在看完這篇教程后，能把提到過的語法記住80%以上的可能性為零。這里只是讓你明白基本的原理，以后你還需要多練習(xí)，多使用，才能熟練掌握正則表達(dá)式。

除了作為入門教程之外，本文還試圖成為可以在日常工作中使用的正則表達(dá)式語法參考手冊。就作者本人的經(jīng)歷來說，這個目標(biāo)還是完成得不錯的——你看，我自己也沒能把所有的東西記下來，不是嗎？

清除格式 文本格式約定：專業(yè)術(shù)語 元字符/語法格式正則表達(dá)式正則表達(dá)式中的一部分(用于分析) 對其進(jìn)行匹配的源字符串 對正則表達(dá)式或其中一部分的說明

隱藏邊注 本文右邊有一些注釋，主要是用來提供一些相關(guān)信息，或者給沒有程序員背景的讀者解釋一些基本概念，通常可以忽略。

正則表達(dá)式到底是什么東西？

字符是計(jì)算機(jī)軟件處理文字時最基本的單位，可能是字母，數(shù)字，標(biāo)點(diǎn)符號，空格，換行符，漢字等等。字符串是0個或更多個字符的序列。文本也就是文字，字符串。說某個字符串匹配某個正則表達(dá)式，通常是指這個字符串里有一部分（或幾部分分別）能滿足表達(dá)式給出的條件。

在編寫處理字符串的程序或網(wǎng)頁時，經(jīng)常會有查找符合某些復(fù)雜規(guī)則的字符串的需要。正則表達(dá)式就是用于描述這些規(guī)則的工具。換句話說，正則表達(dá)式就是記錄文本規(guī)則的代碼。

很可能你使用過Windows/Dos下用于文件查找的通配符(wildcard)，也就是*和?。如果你想查找某個目錄下的所有的Word文檔的話，你會搜索*.doc。在這里，*會被解釋成任意的字符串。和通配符類似，正則表達(dá)式也是用來進(jìn)行文本匹配的工具，只不過比起通配符，它能更精確地描述你的需求——當(dāng)然，代價就是更復(fù)雜——比如你可以編寫一個正則表達(dá)式，用來查找所有以0開頭，后面跟著2-3個數(shù)字，然后是一個連字號“-”，最后是7或8位數(shù)字的字符串(像010-12345678或0376-7654321)。

入門

學(xué)習(xí)正則表達(dá)式的最好方法是從例子開始，理解例子之后再自己對例子進(jìn)行修改，實(shí)驗(yàn)。下面給出了不少簡單的例子，并對它們作了詳細(xì)的說明。

假設(shè)你在一篇英文小說里查找hi，你可以使用正則表達(dá)式hi。

這幾乎是最簡單的正則表達(dá)式了，它可以精確匹配這樣的字符串：由兩個字符組成，前一個字符是h,后一個是i。通常，處理正則表達(dá)式的工具會提供一個忽略大小寫的選項(xiàng)，如果選中了這個選項(xiàng)，它可以匹配hi,HI,Hi,hI這四種情況中的任意一種。

不幸的是，很多單詞里包含hi這兩個連續(xù)的字符，比如him,history,high等等。用hi來查找的話，這里邊的hi也會被找出來。如果要精確地查找hi這個單詞的話，我們應(yīng)該使用\bhi\b。

\b是正則表達(dá)式規(guī)定的一個特殊代碼（好吧，某些人叫它元字符，metacharacter），代表著單詞的開頭或結(jié)尾，也就是單詞的分界處。雖然通常英文的單詞是由空格，標(biāo)點(diǎn)符號或者換行來分隔的，但是\b并不匹配這些單詞分隔字符中的任何一個，它只匹配一個位置。

如果需要更精確的說法，\b匹配這樣的位置：它的前一個字符和后一個字符不全是(一個是,一個不是或不存在)\w。

假如你要找的是hi后面不遠(yuǎn)處跟著一個Lucy，你應(yīng)該用\bhi\b.*\bLucy\b。

這里，.是另一個元字符，匹配除了換行符以外的任意字符。*同樣是元字符，不過它代表的不是字符，也不是位置，而是數(shù)量——它指定*前邊的內(nèi)容可以連續(xù)重復(fù)使用任意次以使整個表達(dá)式得到匹配。因此，.*連在一起就意味著任意數(shù)量的不包含換行的字符。現(xiàn)在\bhi\b.*\bLucy\b的意思就很明顯了：先是一個單詞hi,然后是任意個任意字符(但不能是換行)，最后是Lucy這個單詞。

換行符就是'\n',ASCII編碼為10(十六進(jìn)制0x0A)的字符。

如果同時使用其它元字符，我們就能構(gòu)造出功能更強(qiáng)大的正則表達(dá)式。比如下面這個例子：

0\d\d-\d\d\d\d\d\d\d\d匹配這樣的字符串：以0開頭，然后是兩個數(shù)字，然后是一個連字號“-”，最后是8個數(shù)字(也就是中國的電話號碼。當(dāng)然，這個例子只能匹配區(qū)號為3位的情形)。

這里的\d是個新的元字符，匹配一位數(shù)字(0，或1，或2，或……)。-不是元字符，只匹配它本身——連字符(或者減號，或者中橫線，或者隨你怎么稱呼它)。

為了避免那么多煩人的重復(fù)，我們也可以這樣寫這個表達(dá)式：0\d{2}-\d{8}。這里\d后面的{2}({8})的意思是前面\d必須連續(xù)重復(fù)匹配2次(8次)。

測試正則表達(dá)式

其它可用的測試工具:

RegexBuddy
Javascript正則表達(dá)式在線測試工具

如果你不覺得正則表達(dá)式很難讀寫的話，要么你是一個天才，要么，你不是地球人。正則表達(dá)式的語法很令人頭疼，即使對經(jīng)常使用它的人來說也是如此。由于難于讀寫，容易出錯，所以找一種工具對正則表達(dá)式進(jìn)行測試是很有必要的。

不同的環(huán)境下正則表達(dá)式的一些細(xì)節(jié)是不相同的，本教程介紹的是微軟 .Net Framework 4.0 下正則表達(dá)式的行為，所以，我向你推薦我編寫的.Net下的工具 正則表達(dá)式測試器。請參考該頁面的說明來安裝和運(yùn)行該軟件。

下面是Regex Tester運(yùn)行時的截圖：

元字符

現(xiàn)在你已經(jīng)知道幾個很有用的元字符了，如\b,.,*，還有\(zhòng)d.正則表達(dá)式里還有更多的元字符，比如\s匹配任意的空白符，包括空格，制表符(Tab)，換行符，中文全角空格等。\w匹配字母或數(shù)字或下劃線或漢字等。

對中文/漢字的特殊處理是由.Net提供的正則表達(dá)式引擎支持的，其它環(huán)境下的具體情況請查看相關(guān)文檔。

下面來看看更多的例子：

\ba\w*\b匹配以字母a開頭的單詞——先是某個單詞開始處(\b)，然后是字母a,然后是任意數(shù)量的字母或數(shù)字(\w*)，最后是單詞結(jié)束處(\b)。

好吧，現(xiàn)在我們說說正則表達(dá)式里的單詞是什么意思吧：就是不少于一個的連續(xù)的\w。不錯，這與學(xué)習(xí)英文時要背的成千上萬個同名的東西的確關(guān)系不大 :)

\d+匹配1個或更多連續(xù)的數(shù)字。這里的+是和*類似的元字符，不同的是*匹配重復(fù)任意次(可能是0次)，而+則匹配重復(fù)1次或更多次。

\b\w{6}\b 匹配剛好6個字符的單詞。

表1.常用的元字符代碼說明.匹配除換行符以外的任意字符\w匹配字母或數(shù)字或下劃線或漢字\s匹配任意的空白符\d匹配數(shù)字\b匹配單詞的開始或結(jié)束^匹配字符串的開始$匹配字符串的結(jié)束

正則表達(dá)式引擎通常會提供一個“測試指定的字符串是否匹配一個正則表達(dá)式”的方法，如JavaScript里的RegExp.test()方法或.NET里的Regex.IsMatch()方法。這里的匹配是指是字符串里有沒有符合表達(dá)式規(guī)則的部分。如果不使用^和$的話，對于\d{5,12}而言，使用這樣的方法就只能保證字符串里包含5到12連續(xù)位數(shù)字，而不是整個字符串就是5到12位數(shù)字。

元字符^（和數(shù)字6在同一個鍵位上的符號）和$都匹配一個位置，這和\b有點(diǎn)類似。^匹配你要用來查找的字符串的開頭，$匹配結(jié)尾。這兩個代碼在驗(yàn)證輸入的內(nèi)容時非常有用，比如一個網(wǎng)站如果要求你填寫的QQ號必須為5位到12位數(shù)字時，可以使用：^\d{5,12}$。

這里的{5,12}和前面介紹過的{2}是類似的，只不過{2}匹配只能不多不少重復(fù)2次，{5,12}則是重復(fù)的次數(shù)不能少于5次，不能多于12次，否則都不匹配。

因?yàn)槭褂昧薧和$，所以輸入的整個字符串都要用來和\d{5,12}來匹配，也就是說整個輸入必須是5到12個數(shù)字，因此如果輸入的QQ號能匹配這個正則表達(dá)式的話，那就符合要求了。

和忽略大小寫的選項(xiàng)類似，有些正則表達(dá)式處理工具還有一個處理多行的選項(xiàng)。如果選中了這個選項(xiàng)，^和$的意義就變成了匹配行的開始處和結(jié)束處。

字符轉(zhuǎn)義

如果你想查找元字符本身的話，比如你查找.,或者*,就出現(xiàn)了問題：你沒辦法指定它們，因?yàn)樗鼈儠唤忉尦蓜e的意思。這時你就得使用\來取消這些字符的特殊意義。因此，你應(yīng)該使用\.和\*。當(dāng)然，要查找\本身，你也得用\.

例如：unibetter\.com匹配unibetter.com，C:\Windows匹配C:\Windows。

重復(fù)

你已經(jīng)看過了前面的*,+,{2},{5,12}這幾個匹配重復(fù)的方式了。下面是正則表達(dá)式中所有的限定符(指定數(shù)量的代碼，例如*,{5,12}等)：

表2.常用的限定符代碼/語法說明*重復(fù)零次或更多次+重復(fù)一次或更多次?重復(fù)零次或一次{n}重復(fù)n次{n,}重復(fù)n次或更多次{n,m}重復(fù)n到m次

下面是一些使用重復(fù)的例子：

Windows\d+匹配Windows后面跟1個或更多數(shù)字

^\w+匹配一行的第一個單詞(或整個字符串的第一個單詞，具體匹配哪個意思得看選項(xiàng)設(shè)置)

字符類

要想查找數(shù)字，字母或數(shù)字，空白是很簡單的，因?yàn)橐呀?jīng)有了對應(yīng)這些字符集合的元字符，但是如果你想匹配沒有預(yù)定義元字符的字符集合(比如元音字母a,e,i,o,u),應(yīng)該怎么辦？

很簡單，你只需要在方括號里列出它們就行了，像[aeiou]就匹配任何一個英文元音字母，[.?!]匹配標(biāo)點(diǎn)符號(.或?或!)。

我們也可以輕松地指定一個字符范圍，像[0-9]代表的含意與\d就是完全一致的：一位數(shù)字；同理[a-z0-9A-Z_]也完全等同于\w（如果只考慮英文的話）。

下面是一個更復(fù)雜的表達(dá)式：\(?0\d{2}[) -]?\d{8}。

“(”和“)”也是元字符，后面的分組節(jié)里會提到，所以在這里需要使用轉(zhuǎn)義。

這個表達(dá)式可以匹配幾種格式的電話號碼，像(010)88886666，或022-22334455，或02912345678等。我們對它進(jìn)行一些分析吧：首先是一個轉(zhuǎn)義字符\(,它能出現(xiàn)0次或1次(?),然后是一個0，后面跟著2個數(shù)字(\d{2})，然后是)或-或空格中的一個，它出現(xiàn)1次或不出現(xiàn)(?)，最后是8個數(shù)字(\d{8})。

分枝條件

不幸的是，剛才那個表達(dá)式也能匹配010)12345678或(022-87654321這樣的“不正確”的格式。要解決這個問題，我們需要用到分枝條件。正則表達(dá)式里的分枝條件指的是有幾種規(guī)則，如果滿足其中任意一種規(guī)則都應(yīng)該當(dāng)成匹配，具體方法是用|把不同的規(guī)則分隔開。聽不明白？沒關(guān)系，看例子：

0\d{2}-\d{8}|0\d{3}-\d{7}這個表達(dá)式能匹配兩種以連字號分隔的電話號碼：一種是三位區(qū)號，8位本地號(如010-12345678)，一種是4位區(qū)號，7位本地號(0376-2233445)。

$0\d{2}$[- ]?\d{8}|0\d{2}[- ]?\d{8}這個表達(dá)式匹配3位區(qū)號的電話號碼，其中區(qū)號可以用小括號括起來，也可以不用，區(qū)號與本地號間可以用連字號或空格間隔，也可以沒有間隔。你可以試試用分枝條件把這個表達(dá)式擴(kuò)展成也支持4位區(qū)號的。

\d{5}-\d{4}|\d{5}這個表達(dá)式用于匹配美國的郵政編碼。美國郵編的規(guī)則是5位數(shù)字，或者用連字號間隔的9位數(shù)字。之所以要給出這個例子是因?yàn)樗苷f明一個問題：使用分枝條件時，要注意各個條件的順序。如果你把它改成\d{5}|\d{5}-\d{4}的話，那么就只會匹配5位的郵編(以及9位郵編的前5位)。原因是匹配分枝條件時，將會從左到右地測試每個條件，如果滿足了某個分枝的話，就不會去再管其它的條件了。

分組

我們已經(jīng)提到了怎么重復(fù)單個字符（直接在字符后面加上限定符就行了）；但如果想要重復(fù)多個字符又該怎么辦？你可以用小括號來指定子表達(dá)式(也叫做分組)，然后你就可以指定這個子表達(dá)式的重復(fù)次數(shù)了，你也可以對子表達(dá)式進(jìn)行其它一些操作(后面會有介紹)。

(\d{1,3}\.){3}\d{1,3}是一個簡單的IP地址匹配表達(dá)式。要理解這個表達(dá)式，請按下列順序分析它：\d{1,3}匹配1到3位的數(shù)字，(\d{1,3}\.){3}匹配三位數(shù)字加上一個英文句號(這個整體也就是這個分組)重復(fù)3次，最后再加上一個一到三位的數(shù)字(\d{1,3})。

IP地址中每個數(shù)字都不能大于255，大家千萬不要被《24》第三季的編劇給忽悠了……

不幸的是，它也將匹配256.300.888.999這種不可能存在的IP地址。如果能使用算術(shù)比較的話，或許能簡單地解決這個問題，但是正則表達(dá)式中并不提供關(guān)于數(shù)學(xué)的任何功能，所以只能使用冗長的分組，選擇，字符類來描述一個正確的IP地址：((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。

理解這個表達(dá)式的關(guān)鍵是理解2[0-4]\d|25[0-5]|[01]?\d\d?，這里我就不細(xì)說了，你自己應(yīng)該能分析得出來它的意義。

反義

有時需要查找不屬于某個能簡單定義的字符類的字符。比如想查找除了數(shù)字以外，其它任意字符都行的情況，這時需要用到反義：

表3.常用的反義代碼代碼/語法說明\W匹配任意不是字母，數(shù)字，下劃線，漢字的字符\S匹配任意不是空白符的字符\D匹配任意非數(shù)字的字符\B匹配不是單詞開頭或結(jié)束的位置[^x]匹配除了x以外的任意字符[^aeiou]匹配除了aeiou這幾個字母以外的任意字符

例子：\S+匹配不包含空白符的字符串。

<a[^>]+>匹配用尖括號括起來的以a開頭的字符串。

后向引用

使用小括號指定一個子表達(dá)式后，匹配這個子表達(dá)式的文本(也就是此分組捕獲的內(nèi)容)可以在表達(dá)式或其它程序中作進(jìn)一步的處理。默認(rèn)情況下，每個分組會自動擁有一個組號，規(guī)則是：從左向右，以分組的左括號為標(biāo)志，第一個出現(xiàn)的分組的組號為1，第二個為2，以此類推。

呃……其實(shí),組號分配還不像我剛說得那么簡單：

分組0對應(yīng)整個正則表達(dá)式
實(shí)際上組號分配過程是要從左向右掃描兩遍的：第一遍只給未命名組分配，第二遍只給命名組分配－－因此所有命名組的組號都大于未命名的組號
你可以使用(?:exp)這樣的語法來剝奪一個分組對組號分配的參與權(quán)．

后向引用用于重復(fù)搜索前面某個分組匹配的文本。例如，代表分組1匹配的文本。難以理解？請看示例：

\b(\w+)\b\s+\b可以用來匹配重復(fù)的單詞，像go go, 或者kitty kitty。這個表達(dá)式首先是一個單詞，也就是單詞開始處和結(jié)束處之間的多于一個的字母或數(shù)字(\b(\w+)\b)，這個單詞會被捕獲到編號為1的分組中，然后是1個或幾個空白符(\s+)，最后是分組1中捕獲的內(nèi)容（也就是前面匹配的那個單詞）()。

你也可以自己指定子表達(dá)式的組名。要指定一個子表達(dá)式的組名，請使用這樣的語法：(?<Word>\w+)(或者把尖括號換成'也行：(?'Word'\w+)),這樣就把\w+的組名指定為Word了。要反向引用這個分組捕獲的內(nèi)容，你可以使用\k<Word>,所以上一個例子也可以寫成這樣：\b(?<Word>\w+)\b\s+\k<Word>\b。

使用小括號的時候，還有很多特定用途的語法。下面列出了最常用的一些：

表4.常用分組語法分類代碼/語法說明捕獲(exp)匹配exp,并捕獲文本到自動命名的組里(?<name>exp)匹配exp,并捕獲文本到名稱為name的組里，也可以寫成(?'name'exp)(?:exp)匹配exp,不捕獲匹配的文本，也不給此分組分配組號零寬斷言(?=exp)匹配exp前面的位置(?<=exp)匹配exp后面的位置(?!exp)匹配后面跟的不是exp的位置(?<!exp)匹配前面不是exp的位置注釋(?#comment)這種類型的分組不對正則表達(dá)式的處理產(chǎn)生任何影響，用于提供注釋讓人閱讀

我們已經(jīng)討論了前兩種語法。第三個(?:exp)不會改變正則表達(dá)式的處理方式，只是這樣的組匹配的內(nèi)容不會像前兩種那樣被捕獲到某個組里面，也不會擁有組號。“我為什么會想要這樣做？”——好問題，你覺得為什么呢？

零寬斷言

地球人，是不是覺得這些術(shù)語名稱太復(fù)雜，太難記了？我也有同感。知道有這么一種東西就行了，它叫什么，隨它去吧！人若無名，便可專心練劍；物若無名，便可隨意取舍……

接下來的四個用于查找在某些內(nèi)容(但并不包括這些內(nèi)容)之前或之后的東西，也就是說它們像\b,^,$那樣用于指定一個位置，這個位置應(yīng)該滿足一定的條件(即斷言)，因此它們也被稱為零寬斷言。最好還是拿例子來說明吧：

斷言用來聲明一個應(yīng)該為真的事實(shí)。正則表達(dá)式中只有當(dāng)斷言為真時才會繼續(xù)進(jìn)行匹配。

(?=exp)也叫零寬度正預(yù)測先行斷言，它斷言自身出現(xiàn)的位置的后面能匹配表達(dá)式exp。比如\b\w+(?=ing\b)，匹配以ing結(jié)尾的單詞的前面部分(除了ing以外的部分)，如查找I'm singing while you're dancing.時，它會匹配sing和danc。

(?<=exp)也叫零寬度正回顧后發(fā)斷言，它斷言自身出現(xiàn)的位置的前面能匹配表達(dá)式exp。比如(?<=\bre)\w+\b會匹配以re開頭的單詞的后半部分(除了re以外的部分)，例如在查找reading a book時，它匹配ading。

假如你想要給一個很長的數(shù)字中每三位間加一個逗號(當(dāng)然是從右邊加起了)，你可以這樣查找需要在前面和里面添加逗號的部分：((?<=\d)\d{3})+\b，用它對1234567890進(jìn)行查找時結(jié)果是234567890。

下面這個例子同時使用了這兩種斷言：(?<=\s)\d+(?=\s)匹配以空白符間隔的數(shù)字(再次強(qiáng)調(diào)，不包括這些空白符)。

負(fù)向零寬斷言

前面我們提到過怎么查找不是某個字符或不在某個字符類里的字符的方法(反義)。但是如果我們只是想要確保某個字符沒有出現(xiàn)，但并不想去匹配它時怎么辦？例如，如果我們想查找這樣的單詞--它里面出現(xiàn)了字母q,但是q后面跟的不是字母u,我們可以嘗試這樣：

\b\w*q[^u]\w*\b匹配包含后面不是字母u的字母q的單詞。但是如果多做測試(或者你思維足夠敏銳，直接就觀察出來了)，你會發(fā)現(xiàn)，如果q出現(xiàn)在單詞的結(jié)尾的話，像Iraq,Benq，這個表達(dá)式就會出錯。這是因?yàn)閇^u]總要匹配一個字符，所以如果q是單詞的最后一個字符的話，后面的[^u]將會匹配q后面的單詞分隔符(可能是空格，或者是句號或其它的什么)，后面的\w*\b將會匹配下一個單詞，于是\b\w*q[^u]\w*\b就能匹配整個Iraq fighting。負(fù)向零寬斷言能解決這樣的問題，因?yàn)樗黄ヅ湟粋€位置，并不消費(fèi)任何字符。現(xiàn)在，我們可以這樣來解決這個問題：\b\w*q(?!u)\w*\b。

零寬度負(fù)預(yù)測先行斷言(?!exp)，斷言此位置的后面不能匹配表達(dá)式exp。例如：\d{3}(?!\d)匹配三位數(shù)字，而且這三位數(shù)字的后面不能是數(shù)字；\b((?!abc)\w)+\b匹配不包含連續(xù)字符串a(chǎn)bc的單詞。

同理，我們可以用(?<!exp),零寬度負(fù)回顧后發(fā)斷言來斷言此位置的前面不能匹配表達(dá)式exp：(?<![a-z])\d{7}匹配前面不是小寫字母的七位數(shù)字。

請?jiān)敿?xì)分析表達(dá)式(?<=<(\w+)>).*(?=<\/>)，這個表達(dá)式最能表現(xiàn)零寬斷言的真正用途。

一個更復(fù)雜的例子：(?<=<(\w+)>).*(?=<\/>)匹配不包含屬性的簡單HTML標(biāo)簽內(nèi)里的內(nèi)容。(?<=<(\w+)>)指定了這樣的前綴：被尖括號括起來的單詞(比如可能是<b>)，然后是.*(任意的字符串),最后是一個后綴(?=<\/>)。注意后綴里的\/，它用到了前面提過的字符轉(zhuǎn)義；則是一個反向引用，引用的正是捕獲的第一組，前面的(\w+)匹配的內(nèi)容，這樣如果前綴實(shí)際上是<b>的話，后綴就是</b>了。整個表達(dá)式匹配的是<b>和</b>之間的內(nèi)容(再次提醒，不包括前綴和后綴本身)。

注釋

小括號的另一種用途是通過語法(?#comment)來包含注釋。例如：2[0-4]\d(?#200-249)|25[0-5](?#250-255)|[01]?\d\d?(?#0-199)。

要包含注釋的話，最好是啟用“忽略模式里的空白符”選項(xiàng)，這樣在編寫表達(dá)式時能任意的添加空格，Tab，換行，而實(shí)際使用時這些都將被忽略。啟用這個選項(xiàng)后，在#后面到這一行結(jié)束的所有文本都將被當(dāng)成注釋忽略掉。例如，我們可以前面的一個表達(dá)式寫成這樣：

 (?<= # 斷言要匹配的文本的前綴
 <(\w+)> # 查找尖括號括起來的字母或數(shù)字(即HTML/XML標(biāo)簽)
 ) # 前綴結(jié)束
 .* # 匹配任意文本
 (?= # 斷言要匹配的文本的后綴
 <\/\1> # 查找尖括號括起來的內(nèi)容：前面是一個"/"，后面是先前捕獲的標(biāo)簽
 ) # 后綴結(jié)束

貪婪與懶惰

當(dāng)正則表達(dá)式中包含能接受重復(fù)的限定符時，通常的行為是（在使整個表達(dá)式能得到匹配的前提下）匹配盡可能多的字符。以這個表達(dá)式為例：a.*b，它將會匹配最長的以a開始，以b結(jié)束的字符串。如果用它來搜索aabab的話，它會匹配整個字符串a(chǎn)abab。這被稱為貪婪匹配。

有時，我們更需要懶惰匹配，也就是匹配盡可能少的字符。前面給出的限定符都可以被轉(zhuǎn)化為懶惰匹配模式，只要在它后面加上一個問號?。這樣.*?就意味著匹配任意數(shù)量的重復(fù)，但是在能使整個匹配成功的前提下使用最少的重復(fù)。現(xiàn)在看看懶惰版的例子吧：

a.*?b匹配最短的，以a開始，以b結(jié)束的字符串。如果把它應(yīng)用于aabab的話，它會匹配aab（第一到第三個字符）和ab（第四到第五個字符）。

為什么第一個匹配是aab（第一到第三個字符）而不是ab（第二到第三個字符）？簡單地說，因?yàn)檎齽t表達(dá)式有另一條規(guī)則，比懶惰／貪婪規(guī)則的優(yōu)先級更高：最先開始的匹配擁有最高的優(yōu)先權(quán)——The match that begins earliest wins。

表5.懶惰限定符代碼/語法說明*?重復(fù)任意次，但盡可能少重復(fù)+?重復(fù)1次或更多次，但盡可能少重復(fù)??重復(fù)0次或1次，但盡可能少重復(fù){n,m}?重復(fù)n到m次，但盡可能少重復(fù){n,}?重復(fù)n次以上，但盡可能少重復(fù)

處理選項(xiàng)

在C#中，你可以使用Regex(String, RegexOptions)構(gòu)造函數(shù)來設(shè)置正則表達(dá)式的處理選項(xiàng)。如：Regex regex = new Regex(@"\ba\w{6}\b", RegexOptions.IgnoreCase);

上面介紹了幾個選項(xiàng)如忽略大小寫，處理多行等，這些選項(xiàng)能用來改變處理正則表達(dá)式的方式。下面是.Net中常用的正則表達(dá)式選項(xiàng)：

表6.常用的處理選項(xiàng)名稱說明IgnoreCase(忽略大小寫)匹配時不區(qū)分大小寫。Multiline(多行模式)更改^和$的含義，使它們分別在任意一行的行首和行尾匹配，而不僅僅在整個字符串的開頭和結(jié)尾匹配。(在此模式下,$的精確含意是:匹配\n之前的位置以及字符串結(jié)束前的位置.)Singleline(單行模式)更改.的含義，使它與每一個字符匹配（包括換行符\n）。IgnorePatternWhitespace(忽略空白)忽略表達(dá)式中的非轉(zhuǎn)義空白并啟用由#標(biāo)記的注釋。ExplicitCapture(顯式捕獲)僅捕獲已被顯式命名的組。

一個經(jīng)常被問到的問題是：是不是只能同時使用多行模式和單行模式中的一種？答案是：不是。這兩個選項(xiàng)之間沒有任何關(guān)系，除了它們的名字比較相似（以至于讓人感到疑惑）以外。

平衡組/遞歸匹配

這里介紹的平衡組語法是由.Net Framework支持的；其它語言／庫不一定支持這種功能，或者支持此功能但需要使用不同的語法。

有時我們需要匹配像( 100 * ( 50 + 15 ) )這樣的可嵌套的層次性結(jié)構(gòu)，這時簡單地使用$.+$則只會匹配到最左邊的左括號和最右邊的右括號之間的內(nèi)容(這里我們討論的是貪婪模式，懶惰模式也有下面的問題)。假如原來的字符串里的左括號和右括號出現(xiàn)的次數(shù)不相等，比如( 5 / ( 3 + 2 ) ) )，那我們的匹配結(jié)果里兩者的個數(shù)也不會相等。有沒有辦法在這樣的字符串里匹配到最長的，配對的括號之間的內(nèi)容呢？

為了避免(和\(把你的大腦徹底搞糊涂，我們還是用尖括號代替圓括號吧。現(xiàn)在我們的問題變成了如何把xx <aa <bbb> <bbb> aa> yy這樣的字符串里，最長的配對的尖括號內(nèi)的內(nèi)容捕獲出來？

這里需要用到以下的語法構(gòu)造：

(?'group') 把捕獲的內(nèi)容命名為group,并壓入堆棧(Stack)
(?'-group') 從堆棧上彈出最后壓入堆棧的名為group的捕獲內(nèi)容，如果堆棧本來為空，則本分組的匹配失敗
(?(group)yes|no) 如果堆棧上存在以名為group的捕獲內(nèi)容的話，繼續(xù)匹配yes部分的表達(dá)式，否則繼續(xù)匹配no部分
(?!) 零寬負(fù)向先行斷言，由于沒有后綴表達(dá)式，試圖匹配總是失敗

如果你不是一個程序員（或者你自稱程序員但是不知道堆棧是什么東西），你就這樣理解上面的三種語法吧：第一個就是在黑板上寫一個"group"，第二個就是從黑板上擦掉一個"group"，第三個就是看黑板上寫的還有沒有"group"，如果有就繼續(xù)匹配yes部分，否則就匹配no部分。

我們需要做的是每碰到了左括號，就在壓入一個"Open",每碰到一個右括號，就彈出一個，到了最后就看看堆棧是否為空－－如果不為空那就證明左括號比右括號多，那匹配就應(yīng)該失敗。正則表達(dá)式引擎會進(jìn)行回溯(放棄最前面或最后面的一些字符)，盡量使整個表達(dá)式得到匹配。

< #最外層的左括號
 [^<>]* #最外層的左括號后面的不是括號的內(nèi)容
 (
 (
 (?'Open'<) #碰到了左括號，在黑板上寫一個"Open"
 [^<>]* #匹配左括號后面的不是括號的內(nèi)容
 )+
 (
 (?'-Open'>) #碰到了右括號，擦掉一個"Open"
 [^<>]* #匹配右括號后面不是括號的內(nèi)容
 )+
 )*
 (?(Open)(?!)) #在遇到最外層的右括號前面，判斷黑板上還有沒有沒擦掉的"Open"；如果還有，則匹配失敗
> #最外層的右括號

平衡組的一個最常見的應(yīng)用就是匹配HTML,下面這個例子可以匹配嵌套的<div>標(biāo)簽：<div[^>]*>[^<>]*(((?'Open'<div[^>]*>)[^<>]*)+((?'-Open'</div>)[^<>]*)+)*(?(Open)(?!))</div>.

還有些什么東西沒提到

上邊已經(jīng)描述了構(gòu)造正則表達(dá)式的大量元素，但是還有很多沒有提到的東西。下面是一些未提到的元素的列表，包含語法和簡單的說明。你可以在網(wǎng)上找到更詳細(xì)的參考資料來學(xué)習(xí)它們--當(dāng)你需要用到它們的時候。如果你安裝了MSDN Library,你也可以在里面找到.net下正則表達(dá)式詳細(xì)的文檔。

這里的介紹很簡略，如果你需要更詳細(xì)的信息，而又沒有在電腦上安裝MSDN Library,可以查看關(guān)于正則表達(dá)式語言元素的MSDN在線文檔。

表7.尚未詳細(xì)討論的語法代碼/語法說明\a報警字符(打印它的效果是電腦嘀一聲)\b通常是單詞分界位置，但如果在字符類里使用代表退格\t制表符，Tab\r回車\v豎向制表符\f換頁符\n換行符\eEscape>代碼/語法說明\a報警字符(打印它的效果是電腦嘀一聲)\b通常是單詞分界位置，但如果在字符類里使用代表退格\t制表符，Tab\r回車\v豎向制表符\f換頁符\n換行符\eEscape\0nnASCII代碼中八進(jìn)制代碼為nn的字符\xnnASCII代碼中十六進(jìn)制代碼為nn的字符\unnnnUnicode代碼中十六進(jìn)制代碼為nnnn的字符\cNASCII控制字符。比如\cC代表Ctrl+C\A字符串開頭(類似^，但不受處理多行選項(xiàng)的影響)\Z字符串結(jié)尾或行尾(不受處理多行選項(xiàng)的影響)\z字符串結(jié)尾(類似$，但不受處理多行選項(xiàng)的影響)\G當(dāng)前搜索的開頭\p{name}Unicode中命名為name的字符類，例如\p{IsGreek}(?>exp)貪婪子表達(dá)式(?<x>-<y>exp)平衡組(?im-nsx:exp)在子表達(dá)式exp中改變處理選項(xiàng)(?im-nsx)為表達(dá)式后面的部分改變處理選項(xiàng)(?(exp)yes|no)把exp當(dāng)作零寬正向先行斷言，如果在這個位置能匹配，使用yes作為此組的表達(dá)式；否則使用no(?(exp)yes)同上，只是使用空表達(dá)式作為no(?(name)yes|no)如果命名為name的組捕獲到了內(nèi)容，使用yes作為表達(dá)式；否則使用no(?(name)yes)同上，只是使用空表達(dá)式作為no<>

網(wǎng)上的資源及本文參考文獻(xiàn)

微軟的正則表達(dá)式教程
System.Text.RegularExpressions.Regex類(MSDN)
專業(yè)的正則表達(dá)式教學(xué)網(wǎng)站(英文)
關(guān)于.Net下的平衡組的詳細(xì)討論（英文）
Mastering Regular Expressions (Second Edition)

在

你已經(jīng)會使用 python 模擬瀏覽器

進(jìn)行一些 Http 的請求了

那么請求完之后

服務(wù)器返回給我們一堆源代碼

我們可不是啥都要的啊

我們是有原則的

我們想要的東西

怎么能一股腦的啥都往自己兜里塞呢？

使不得

所以

在服務(wù)器返回給我們的源碼之中

我們要過濾

拿到我們想要的就好

其它就丟一旁

那么

我們就需要學(xué)會怎么使用

正則表達(dá)式

通過它

我們才能過濾出我們想要的內(nèi)容

...

接下來就是

學(xué)習(xí) python 的正確姿勢

真香警告

這篇文章不適合急性子的人看，要不然會把手機(jī)砸了的！但是，如果你能看完，那么正則表達(dá)式對你來說，算個 p 的難度啊？

其實(shí)

正則表達(dá)式不僅僅適用于 python

很多編程語言

很多地方都會使用到正則

試想一下

如何從下面這段字符串中快速檢索所有的數(shù)字出來呢？

zui12shu234ai45der6en7sh88ixia7898os0huaib

簡單來說

正則表達(dá)式就是定義一些特殊的符號

來匹配不同的字符

比如

就可以代表

一個數(shù)字，等價于 0-9 的任意一個

那么你肯定想知道

其它的特殊符號表示的啥意思吧？

恩

就不告訴你

本篇完

再見

這是各種符號的解釋

字符描述\將下一個字符標(biāo)記為一個特殊字符（File Format Escape，清單見本表）、或一個原義字符（Identity Escape，有^$()*+?.[\{|共計(jì)12個)、或一個向后引用（backreferences）、或一個八進(jìn)制轉(zhuǎn)義符。例如，“n”匹配字符“n”。“\n”匹配一個換行符。序列“\”匹配“\”而“\(”則匹配“(”。^匹配輸入字符串的開始位置。如果設(shè)置了RegExp對象的Multiline屬性，^也匹配“\n”或“\r”之后的位置。$匹配輸入字符串的結(jié)束位置。如果設(shè)置了RegExp對象的Multiline屬性，$也匹配“\n”或“\r”之前的位置。*匹配前面的子表達(dá)式零次或多次。例如，zo*能匹配“z”、“zo”以及“zoo”。*等價于{0,}。+匹配前面的子表達(dá)式一次或多次。例如，“zo+”能匹配“zo”以及“zoo”，但不能匹配“z”。+等價于{1,}。?匹配前面的子表達(dá)式零次或一次。例如，“do(es)?”可以匹配“do”或“does”中的“do”。?等價于{0,1}。{n}n是一個非負(fù)整數(shù)。匹配確定的n次。例如，“o{2}”不能匹配“Bob”中的“o”，但是能匹配“food”中的兩個o。{n,}n是一個非負(fù)整數(shù)。至少匹配n次。例如，“o{2,}”不能匹配“Bob”中的“o”，但能匹配“foooood”中的所有o。“o{1,}”等價于“o+”。“o{0,}”則等價于“o*”。{n,m}m和n均為非負(fù)整數(shù)，其中n<=m。最少匹配n次且最多匹配m次。例如，“o{1,3}”將匹配“fooooood”中的前三個o。“o{0,1}”等價于“o?”。請注意在逗號和兩個數(shù)之間不能有空格。?非貪心量化（Non-greedy quantifiers）：當(dāng)該字符緊跟在任何一個其他重復(fù)修飾符（*,+,?，{n}，{n,}，{n,m}）后面時，匹配模式是非貪婪的。非貪婪模式盡可能少的匹配所搜索的字符串，而默認(rèn)的貪婪模式則盡可能多的匹配所搜索的字符串。例如，對于字符串“oooo”，“o+?”將匹配單個“o”，而“o+”將匹配所有“o”。.匹配除“\r”“\n”之外的任何單個字符。要匹配包括“\r”“\n”在內(nèi)的任何字符，請使用像“(.|\r|\n)”的模式。(pattern)匹配pattern并獲取這一匹配的子字符串。該子字符串用于向后引用。所獲取的匹配可以從產(chǎn)生的Matches集合得到，在VBScript中使用SubMatches集合，在JScript中則使用>貪婪的。非貪婪模式盡可能少的匹配所搜索的字符串，而默認(rèn)的貪婪模式則盡可能多的匹配所搜索的字符串。例如，對于字符串“oooo”，“o+?”將匹配單個“o”，而“o+”將匹配所有“o”。.匹配除“\r”“\n”之外的任何單個字符。要匹配包括“\r”“\n”在內(nèi)的任何字符，請使用像“(.|\r|\n)”的模式。(pattern)匹配pattern并獲取這一匹配的子字符串。該子字符串用于向后引用。所獲取的匹配可以從產(chǎn)生的Matches集合得到，在VBScript中使用SubMatches集合，在JScript中則使用$0…$9屬性。要匹配圓括號字符，請使用“$”或“$”。可帶數(shù)量后綴。(?:pattern)匹配pattern但不獲取匹配的子字符串（shy groups），也就是說這是一個非獲取匹配，不存儲匹配的子字符串用于向后引用。這在使用或字符“(|)”來組合一個模式的各個部分是很有用。例如“industr(?:y|ies)”就是一個比“industry|industries”更簡略的表達(dá)式。(?=pattern)正向肯定預(yù)查（look ahead positive assert），在任何匹配pattern的字符串開始處匹配查找字符串。這是一個非獲取匹配，也就是說，該匹配不需要獲取供以后使用。例如，“Windows(?=95|98|NT|2000)”能匹配“Windows2000”中的“Windows”，但不能匹配“Windows3.1”中的“Windows”。預(yù)查不消耗字符，也就是說，在一個匹配發(fā)生后，在最后一次匹配之后立即開始下一次匹配的搜索，而不是從包含預(yù)查的字符之后開始。(?!pattern)正向否定預(yù)查（negative assert），在任何不匹配pattern的字符串開始處匹配查找字符串。這是一個非獲取匹配，也就是說，該匹配不需要獲取供以后使用。例如“Windows(?!95|98|NT|2000)”能匹配“Windows3.1”中的“Windows”，但不能匹配“Windows2000”中的“Windows”。預(yù)查不消耗字符，也就是說，在一個匹配發(fā)生后，在最后一次匹配之后立即開始下一次匹配的搜索，而不是從包含預(yù)查的字符之后開始(?<=pattern)反向（look behind）肯定預(yù)查，與正向肯定預(yù)查類似，只是方向相反。例如，“(?<=95|98|NT|2000)Windows”能匹配“2000Windows”中的“Windows”，但不能匹配“3.1Windows”中的“Windows”。(?<!pattern)反向否定預(yù)查，與正向否定預(yù)查類似，只是方向相反。例如“(?<!95|98|NT|2000)Windows”能匹配“3.1Windows”中的“Windows”，但不能匹配“2000Windows”中的“Windows”。x|y沒有包圍在()里，其范圍是整個正則表達(dá)式。例如，“z|food”能匹配“z”或“food”。“(?:z|f)ood”則匹配“zood”或“food”。[xyz]字符集合（character class）。匹配所包含的任意一個字符。例如，“[abc]”可以匹配“plain”中的“a”。特殊字符僅有反斜線\保持特殊含義，用于轉(zhuǎn)義字符。其它特殊字符如星號、加號、各種括號等均作為普通字符。脫字符^如果出現(xiàn)在首位則表示負(fù)值字符集合；如果出現(xiàn)在字符串中間就僅作為普通字符。連字符 - 如果出現(xiàn)在字符串中間表示字符范圍描述；如果如果出現(xiàn)在首位（或末尾）則僅作為普通字符。右方括號應(yīng)轉(zhuǎn)義出現(xiàn)，也可以作為首位字符出現(xiàn)。[^xyz]排除型字符集合（negated character classes）。匹配未列出的任意字符。例如，“[^abc]”可以匹配“plain”中的“plain”。[a-z]字符范圍。匹配指定范圍內(nèi)的任意字符。例如，“[a-z]”可以匹配“a”到“z”范圍內(nèi)的任意小寫字母字符。[^a-z]排除型的字符范圍。匹配任何不在指定范圍內(nèi)的任意字符。例如，“[^a-z]”可以匹配任何不在“a”到“z”范圍內(nèi)的任意字符。[:name:]增加命名字符類（named character class）[注 1]中的字符到表達(dá)式。只能用于<…屬性。要匹配圓括號字符，請使用“$”或“$”。可帶數(shù)量后綴。(?:pattern)匹配pattern但不獲取匹配的子字符串（shy groups），也就是說這是一個非獲取匹配，不存儲匹配的子字符串用于向后引用。這在使用或字符“(|)”來組合一個模式的各個部分是很有用。例如“industr(?:y|ies)”就是一個比“industry|industries”更簡略的表達(dá)式。(?=pattern)正向肯定預(yù)查（look ahead positive assert），在任何匹配pattern的字符串開始處匹配查找字符串。這是一個非獲取匹配，也就是說，該匹配不需要獲取供以后使用。例如，“Windows(?=95|98|NT|2000)”能匹配“Windows2000”中的“Windows”，但不能匹配“Windows3.1”中的“Windows”。預(yù)查不消耗字符，也就是說，在一個匹配發(fā)生后，在最后一次匹配之后立即開始下一次匹配的搜索，而不是從包含預(yù)查的字符之后開始。(?!pattern)正向否定預(yù)查（negative assert），在任何不匹配pattern的字符串開始處匹配查找字符串。這是一個非獲取匹配，也就是說，該匹配不需要獲取供以后使用。例如“Windows(?!95|98|NT|2000)”能匹配“Windows3.1”中的“Windows”，但不能匹配“Windows2000”中的“Windows”。預(yù)查不消耗字符，也就是說，在一個匹配發(fā)生后，在最后一次匹配之后立即開始下一次匹配的搜索，而不是從包含預(yù)查的字符之后開始(?<=pattern)反向（look behind）肯定預(yù)查，與正向肯定預(yù)查類似，只是方向相反。例如，“(?<=95|98|NT|2000)Windows”能匹配“2000Windows”中的“Windows”，但不能匹配“3.1Windows”中的“Windows”。(?<!pattern)反向否定預(yù)查，與正向否定預(yù)查類似，只是方向相反。例如“(?<!95|98|NT|2000)Windows”能匹配“3.1Windows”中的“Windows”，但不能匹配“2000Windows”中的“Windows”。x|y沒有包圍在()里，其范圍是整個正則表達(dá)式。例如，“z|food”能匹配“z”或“food”。“(?:z|f)ood”則匹配“zood”或“food”。[xyz]字符集合（character class）。匹配所包含的任意一個字符。例如，“[abc]”可以匹配“plain”中的“a”。特殊字符僅有反斜線\保持特殊含義，用于轉(zhuǎn)義字符。其它特殊字符如星號、加號、各種括號等均作為普通字符。脫字符^如果出現(xiàn)在首位則表示負(fù)值字符集合；如果出現(xiàn)在字符串中間就僅作為普通字符。連字符 - 如果出現(xiàn)在字符串中間表示字符范圍描述；如果如果出現(xiàn)在首位（或末尾）則僅作為普通字符。右方括號應(yīng)轉(zhuǎn)義出現(xiàn)，也可以作為首位字符出現(xiàn)。[^xyz]排除型字符集合（negated character classes）。匹配未列出的任意字符。例如，“[^abc]”可以匹配“plain”中的“plain”。[a-z]字符范圍。匹配指定范圍內(nèi)的任意字符。例如，“[a-z]”可以匹配“a”到“z”范圍內(nèi)的任意小寫字母字符。[^a-z]排除型的字符范圍。匹配任何不在指定范圍內(nèi)的任意字符。例如，“[^a-z]”可以匹配任何不在“a”到“z”范圍內(nèi)的任意字符。[:name:]增加命名字符類（named character class）[注 1]中的字符到表達(dá)式。只能用于方括號表達(dá)式。[=elt=]增加當(dāng)前l(fā)ocale下排序（collate）等價于字符“elt”的元素。例如，[=a=]可能會增加?、á、à、?、?、?、?、?、a、?、?、?、?、ǎ、?、?、?、?、?、?、?、?、ā、?、?、?、?、?、?、?、?、?、?、ɑ 。只能用于方括號表達(dá)式。[.elt.]增加排序元素（collation element）elt到表達(dá)式中。這是因?yàn)槟承┡判蛟赜啥鄠€字符組成。例如，29個字母表的西班牙語， "CH"作為單個字母排在字母C之后，因此會產(chǎn)生如此排序“cinco, credo, chispa”。只能用于方括號表達(dá)式。\b匹配一個單詞邊界，也就是指單詞和空格間的位置。例如，“er\b”可以匹配“never”中的“er”，但不能匹配“verb”中的“er”。\B匹配非單詞邊界。“er\B”能匹配“verb”中的“er”，但不能匹配“never”中的“er”。\cx匹配由x指明的控制字符。x的值必須為A-Z或a-z之一。否則，將c視為一個原義的“c”字符。控制字符的值等于x的值最低5比特（即對3210進(jìn)制的余數(shù)）。例如，\cM匹配一個Control-M或回車符。\ca等效于\u0001, \cb等效于\u0002, 等等...\d匹配一個數(shù)字字符。等價于[0-9]。注意Unicode正則表達(dá)式會匹配全角數(shù)字字符。\D匹配一個非數(shù)字字符。等價于[^0-9]。\f匹配一個換頁符。等價于\x0c和\cL。\n匹配一個換行符。等價于\x0a和\cJ。\r匹配一個回車符。等價于\x0d和\cM。\s匹配任何空白字符，包括空格、制表符、換頁符等等。等價于[ \f\n\r\t\v]。注意Unicode正則表達(dá)式會匹配全角空格符。\S匹配任何非空白字符。等價于[^ \f\n\r\t\v]。\t匹配一個制表符。等價于\x09和\cI。\v匹配一個垂直制表符。等價于\x0b和\cK。\w匹配包括下劃線的任何單詞字符。等價于“[A-Za-z0-9_]”。注意Unicode正則表達(dá)式會匹配中文字符。\W匹配任何非單詞字符。等價于“[^A-Za-z0-9_]”。\xnn十六進(jìn)制轉(zhuǎn)義字符序列。匹配兩個十六進(jìn)制數(shù)字nn表示的字符。例如，“\x41”匹配“A”。“\x041”則等價于“\x04&1”。正則表達(dá)式中可以使用ASCII編碼。.\num向后引用（back-reference）一個子字符串（substring），該子字符串與正則表達(dá)式的第num個用括號圍起來的捕捉群（capture group）子表達(dá)式（subexpression）匹配。其中num是從1開始的十進(jìn)制正整數(shù)，其上限可能是9[注 2]、31[注 3]、99甚至無限[注 4]。例如：“(.)”匹配兩個連續(xù)的相同字符。\n標(biāo)識一個八進(jìn)制轉(zhuǎn)義值或一個向后引用。如果\n之前至少n個獲取的子表達(dá)式，則n為向后引用。否則，如果n為八進(jìn)制數(shù)字（0-7），則n為一個八進(jìn)制轉(zhuǎn)義值。\nm3位八進(jìn)制數(shù)字，標(biāo)識一個八進(jìn)制轉(zhuǎn)義值或一個向后引用。如果\nm之前至少有nm個獲得子表達(dá)式，則nm為向后引用。如果\nm之前至少有n個獲取，則n為一個后跟文字m的向后引用。如果前面的條件都不滿足，若n和m均為八進(jìn)制數(shù)字（0-7），則\nm將匹配八進(jìn)制轉(zhuǎn)義值nm。\nml如果n為八進(jìn)制數(shù)字（0-3），且m和l均為八進(jìn)制數(shù)字（0-7），則匹配八進(jìn)制轉(zhuǎn)義值nml。\unUnicode轉(zhuǎn)義字符序列。其中n是一個用四個十六進(jìn)制數(shù)字表示的Unicode字符。例如，\u00A9匹配版權(quán)符號（?）。

（來自維基百科）

你能看到這里

也是

不知道你看懵逼了沒？

反正我是不想看了

接下來

才是干貨

小帥b就給你精簡一下

通俗的把最常用的匹配告訴你

字符描述\d代表任意數(shù)字，就是阿拉伯?dāng)?shù)字 0-9 這些玩意。\D大寫的就是和小寫的唱反調(diào)，\d 你代表的是任意數(shù)字是吧？那么我 \D 就代表不是數(shù)字的。\w代表字母，數(shù)字，下劃線。也就是 a-z、A-Z、0-9、_。\W跟 \w 唱反調(diào)，代表不是字母，不是數(shù)字，不是下劃線的。\n代表一個換行。\r代表一個回車。
\f代表換頁。\t代表一個 Tab 。
\s代表所有的空白字符，也就是上面這個：\n、\r、\t、\f。\S

跟 \s 唱反調(diào)，代表所有不是空白的字符。

\A代表字符串的開始。\Z代表字符串的結(jié)束。^匹配字符串開始的位置。$匹配字符創(chuàng)結(jié)束的位置。.代表所有的單個字符，除了 \n \r[...]代表在 [] 范圍內(nèi)的字符，比如 [a-z] 就代表 a到z的字母[^...]跟 [...] 唱反調(diào)，代表不在 [] 范圍內(nèi)的字符{n}
匹配在 {n} 前面的東西，比如: o{2} 不能匹配 Bob 中的 o ，但是能匹配 food 中的兩個o。{n,m}匹配在 {n,m} 前面的東西，比如：o{1,3} 將匹配“fooooood”中的前三個o。{n，}匹配在 {n,} 前面的東西，比如：o{2,} 不能匹配“Bob”中的“o”，但能匹配“foooood”中的所有o。*和 {0,} 一個樣，匹配 * 前面的 0 次或多次。比如 zo* 能匹配“z”、“zo”以及“zoo”。+和{1，} 一個樣，匹配 + 前面 1 次或多次。比如 zo+”能匹配“zo”以及“zoo”，但不能匹配“z”。？和{0,1} 一個樣，匹配？前面 0 次或 1 次。
a|b匹配 a 或者 b。（）匹配括號里面的內(nèi)容。

知道了這些之后

我們怎么用 python 來進(jìn)行判斷呢？

那就要使用到 python 的庫了

它就是

接下來我們就來使用 re 模塊

對其常用的方法

來使用正則表達(dá)式

re.match

使用這個方法

主要傳入兩個參數(shù)

第一個就是我們的匹配規(guī)則

第二個就是需要被過濾的內(nèi)容

例如

我們想要從這

Xiaoshuaib has 100 bananas

拿到一個數(shù)字

那么我們就可以這樣

import re
content = 'Xiaoshuaib has 100 bananas'
res = re.match('^Xi.*(\d+)\s.*s$',content)
print(res.group(1))

通過我們剛剛說的匹配符號

可以定義出相應(yīng)的匹配規(guī)則

在這里我們將我們需要的目標(biāo)內(nèi)容用 () 括起來

此刻我們獲得結(jié)果是

那么如果我們想要 100 這個數(shù)字呢？

可以這樣

import re
content = 'Xiaoshuaib has 100 bananas'
res = re.match('^Xi.*?(\d+)\s.*s$',content)
print(res.group(1))

看出區(qū)別了么

第二段代碼我們多了一個？符號

在這里呢

涉及到兩個概念

一個是

貪婪匹配

另一個是

非貪婪匹配

所謂貪婪匹配

就是我們的第一段代碼

一個數(shù)一個數(shù)都要去匹配

而非貪婪呢

我們是直接把 100 給匹配出來了

剛剛我們用到的

.*？

是我們在匹配過程中最常使用到的

表示的就是匹配任意字符

但是

.*？的 . 代表所有的單個字符，除了 \n \r

如果我們的字符串有換行了

怎么辦呢？

比如這樣

content = """Xiaoshuaib has 100 
bananas"""

那么我們就需要用到 re 的匹配模式了

說來也簡單

直接用 re.S 就可以了

import re
content = """Xiaoshuaib has 100 
bananas"""
res = re.match('^Xi.*?(\d+)\s.*s$',content,re.S)
print(res.group(1))

可能有些朋友會覺得

匹配一個東西還要寫開頭結(jié)尾

有點(diǎn)麻煩

那么就可以使用 re 的另一個方法了

re.search

它會直接去掃描字符串

然后把匹配成功的第一個結(jié)果的返回給你

import re
content = """Xiaoshuaib has 100 
bananas"""
res = re.search('Xi.*?(\d+)\s.*s',content,re.S)
print(res.group(1))

這樣子也是可以獲取 100 的

但是如果我們的內(nèi)容是這樣的

content = """Xiaoshuaib has 100 bananas;
Xiaoshuaib has 100 bananas;
Xiaoshuaib has 100 bananas;
Xiaoshuaib has 100 bananas;"""

想要獲取所有的 100 呢？

這時候就要用到 re 的另一個方法了

re.findall

通過它我們就能輕松的獲取所有匹配的內(nèi)容了

import re
content = """Xiaoshuaib has 100 bananas;
Xiaoshuaib has 100 bananas;
Xiaoshuaib has 100 bananas;
Xiaoshuaib has 100 bananas;"""
res = re.findall('Xi.*?(\d+)\s.*?s;',content,re.S)
print(res)

這里的結(jié)果是

['100', '100', '100', '100']

又有朋友覺得

如果我們想直接替換匹配的內(nèi)容呢

就比如剛剛的字符串

可不可以把 100 直接替換成 250 呢？

那就要用到 re 的另一個方法了

re.sub

可以這樣

import re
content = """Xiaoshuaib has 100 bananas;
Xiaoshuaib has 100 bananas;
Xiaoshuaib has 100 bananas;
Xiaoshuaib has 100 bananas;"""
content = re.sub('\d+','250',content)
print(content)

那么結(jié)果就變成了

Xiaoshuaib has 250 bananas;

250 個香蕉

吃....得完么？？

再來說說 re 的另一個常用到的方法吧

re.compile

這個主要就是把我們的匹配符封裝一下

import re
content = "Xiaoshuaib has 100 bananas"
pattern = re.compile('Xi.*?(\d+)\s.*s',re.S)
res = re.match(pattern,content)
print(res.group(1))

其實(shí)和我們之前寫的一樣的

res = re.match('^Xi.*?(\d+)\s.*s$',content,re.S)

只不過 compile 一下

便于以后復(fù)用

好了

關(guān)于 re 模塊和正則表達(dá)式就介紹完啦

知道了怎么請求數(shù)據(jù)

也知道了將返回的數(shù)據(jù)如何正則過濾

那么

爬蟲對我們來說還難么？

這次本篇真的完啦

再見

記得來關(guān)注我喲！！

在線咨詢

上一篇：Chrome/Safari都輸了：新Edge瀏覽器率先實(shí)現(xiàn)100%支持HTML5
下一篇：前端開發(fā)CSS學(xué)習(xí)的3種方法，如何快速的入門CSS？

您的項(xiàng)目需求

*請認(rèn)真填寫需求信息，我們會在24小時內(nèi)與您取得聯(lián)系。