在很多技術(shù)領(lǐng)域(如:自然語言處理,數(shù)據(jù)存儲等),正則表達式可以很方便的提取我們想要的信息,所以正則表達式是一個很重要的知識點!
一、概念
正則表達式(Regular Expression)是用于描述一組字符串特征的模式,用來匹配特定的字符串。通過特殊字符+普通字符來進行模式描述,從而達到文本匹配目的工具。
正則表達式目前被集成到了各種文本編輯器/文本處理工具當中
二、應用場景
(1)驗證:表單提交時,進行用戶名密碼的驗證。
(2)查找:從大量信息中快速提取指定內(nèi)容,在一批url中,查找指定url。
(3)替換:將指定格式的文本進行正則匹配查找,找到之后進行特定替換。
三、基本要素
(1)字符類
(2)數(shù)量限定符
(3)位置限定符
(4)特殊符號
注意:正則表達式基本是與語言無關(guān)的,我們可以結(jié)合語言/工具與正則表達式進行文本處理,在后面的博客中,我將使用grep來進行驗證。(grep是一款Linux下按行匹配文本的工具,如下,使我們常使用的兩個選項)
-E:使用擴展正則匹配
--color:將匹配得到的內(nèi)容進行語法高亮
1.字符類
![](/d/20211017/476c8f031dc0c7b6dafbf9f54960ed35.gif)
舉例如下:
例1:
![](/d/20211017/d77c477072de6744514f7311b5cd33c3.gif)
注意:1.grep采用的貪心匹配,它會匹配當前行中的所有匹配內(nèi)容
2.echo $?表示是否匹配成功(如果成功返回值為0,不成功返回值為1)
例2:
![](/d/20211017/e669b44e7b7816632b49828f71fb811f.gif)
例3:
![](/d/20211017/4cd2d6e94e2daa1fd05cf746382bd73c.gif)
例4:
![](/d/20211017/ecb3308efcf15e61072b264364763061.gif)
例5:
![](/d/20211017/b9c69509ccd806c6b87435be4747fc85.gif)
2.數(shù)量限定符
![](/d/20211017/94b30912a44c1ddf7d35bbe51097e954.gif)
舉例如下:
例1:
![](/d/20211017/37c369e4ebb5dcd65fe382cab518f491.gif)
例2:
![](/d/20211017/062d6c0b94bfe4ad7bcdb1496bf4beb1.gif)
由此,我們可以看出,“前面的單元”默認是指?或+前面的字符
例3:
![](/d/20211017/fb87c1670401d88487aa75fa75a22f8c.gif)
例4:
![](/d/20211017/a8be3e145e6b6975b5d3e097b2fe5c68.gif)
例5:
![](/d/20211017/768d47c856aeac50b465f0fe071b236a.gif)
例6:
![](/d/20211017/53a1955c7afa89c571498b3fa3b1a5a0.gif)
注意:該結(jié)果為匹配失敗,在相關(guān)文檔中并未出現(xiàn),應該啊是錯誤或者廢棄的用法
例7:
![](/d/20211017/4124812e830b3063fdb990fed2ae69b3.gif)
3.位置限定符
![](/d/20211017/a675b0b77755bab38c3ff7d94d9897b3.gif)
舉例如下:
例1:
![](/d/20211017/1713a531b7b7a8fe3b1a292b99de1075.gif)
例2:
![](/d/20211017/10e0eb371674025977a6fffac61a49ac.gif)
例3:
![](/d/20211017/783745ea2576b2f4d5de01d344aaa742.gif)
例4:
![](/d/20211017/3b931f011ea2b3ec6dfc9375960dbce0.gif)
例5:
![](/d/20211017/716d61ad530f57a533c2b11d47f105bb.gif)
例6:
![](/d/20211017/e5dc11c2cc0117671626c635437ae0d1.gif)
4.特殊符號
![](/d/20211017/5b4e8f0d56d8da74e8bd66f0fb514190.gif)
舉例如下:
![](/d/20211017/4066df528d2520051e9f1691ceaf229e.gif)
假如我們?nèi)サ?E選項,會有什么現(xiàn)象呢?
![](/d/20211017/8bb917f5477b5e71f6fc930744b34ba8.gif)
此時,不難發(fā)現(xiàn),去掉-E選項之后沒有進行正常的正則匹配,這種現(xiàn)象需要我們引入如下的兩個概念!
5.基本正則表達式擴展正則表達式
區(qū)別:正則表達式的擴展正則(Extended規(guī)范)和基本正則(Basic規(guī)范)下,有些字符
應該解釋為普通字符,要表示上述特殊含義則需要加“\”轉(zhuǎn)義字符。反之,在擴展規(guī)范下,
應被理解為特殊含義,要取其字面值,也要對其進行“\”轉(zhuǎn)義。
因此,grep工具帶上-E選項,表示使用擴展正則來進行匹配,若沒有該選項,則表示使用基準正則來進行匹配。
對于上述的問題,我們舉例如下:
例1:
![](/d/20211017/2b1ac71be3128b9fb0270846dfa55076.gif)
例2:當目標字符串當中本身就包含了
字符,要想進行正則匹配,應該這樣做:
![](/d/20211017/9f11f11bc8d8d202d87002e6e7f829ed.gif)
例3:
![](/d/20211017/7f2f85b9bf2c860cf25df3dc053b60ba.gif)
5.其他普通字符集及其替換
![](/d/20211017/0a158288f28a9a3807976324a1e84432.gif)
舉個例子:
![](/d/20211017/8cc6b7b814f439f4ac53d71656f66881.gif)
綜上,正則表達式有以下三個分類:
(1)基本正則表達式:Basic即BPEs
(2)擴展正則表達式:Extended即EREs
(3)Perl的正則表達式:PREs
因此,當grep指令不跟任何參數(shù)時,表示要使用BREs,后面跟“-E”表示使用EREs,后面跟“-P”參數(shù),表示使用PREs
四、貪婪模式與非貪婪模式
1.貪婪模式:正則表達式匹配時,會盡量多的匹配符合條件的內(nèi)容
舉例如下:
![](/d/20211017/744d6dc610b5eee69fa5c5ff8e71acaa.gif)
注意:grep默認采用貪婪匹配,可能會對我們的測試結(jié)果造成干擾,大家可以上網(wǎng)使用“正則在線轉(zhuǎn)換工具”進行測試
2.非貪婪模式:正則表達式匹配時,會盡量少的匹配符合條件的內(nèi)容,也就是說,一旦發(fā)現(xiàn)匹配符合要求,立馬就匹配成功,而不會繼續(xù)匹配下去(除非有g(shù),開啟下一組匹配)
舉例如下:
![](/d/20211017/3b6984b33655937a625eefd3fd27e9eb.gif)
五、零寬斷言
1.所謂斷言,是用來聲明一個應該為真的事實。在正則表達式中,只有當斷言為真時才會繼續(xù)進行匹配。
2.零寬斷言:像用于查找某些內(nèi)容之前或者之后的東西,其中一些特殊字符如“\b、^、$”等用于指定一個位置,這個位置應滿足一定的條件。
3.分類:
(1)零寬度正預測先行斷言(?=exp)
它斷言自身出現(xiàn)的位置之后能匹配的表達式exp。如:\b\w+(?=ing\b),表示匹配以ing結(jié)尾的單詞的前面的部分(除ing以外的部分)。當我們要查找“I'm singing while you're dancing.”時,它會匹配sing和danc
舉例如下:
![](/d/20211017/38f5da6be828a04c8e529ac91c3b7bb6.gif)
(2)零寬度正回顧后發(fā)斷言(?>=exp)
它斷言自身出現(xiàn)的位置的前面能匹配的表達式exp。如:(?=\bre)\w+\b會匹配以re開頭的單詞的后半部分(除er以外的部分),例如:在查找“reading a book”時,它匹配ading
舉例如下:
![](/d/20211017/3b0e27f456c36e12028d00408b07a1cb.gif)
六、簡單練習
1.手機號碼
![](/d/20211017/548c4c10732cfea8987448b1c6100a87.gif)
2.非零的正整數(shù)
![](/d/20211017/c5430d80e50c76283394323c9799f566.gif)
3.非零開頭的最多帶兩位小數(shù)的數(shù)字
![](/d/20211017/6cffd475683da647133b1cb5daa42e75.gif)
4.由數(shù)字和26位字母組成的字符串
![](/d/20211017/a20eea854b82a145b4d0559ee8f2d9c4.gif)
5.QQ號,從10000開始
![](/d/20211017/d738378fa08173d4b9a5b36942b875b8.gif)
6.IP地址
\d+\.\d+\.\d+\.\d+
7.判斷賬號是否合法
^[a-zA-Z0-9][a-zA-Z0-9_]{4,15}$
8.日期格式
^\d{4}-\d{1,2}-\d{1,2}
正則表達式的學習就到這里結(jié)束啦,如果有小伙伴沒有看明白的,可以上網(wǎng)查詢正則的更多知識點!
您可能感興趣的文章:- linux grep與正則表達式使用介紹
- linux系統(tǒng)用戶管理與grep正則表達式示例教程
- 淺談Linux grep與正則表達式
- linux grep正則表達式與grep用法詳解
- linux下關(guān)于正則表達式grep的一點總結(jié)