玄幻小说改编的电视剧,我吃西红柿,雪鹰领主

主頁 > 知識(shí)庫 > 正則表達(dá)式之文本模式的匹配和查找

正則表達(dá)式之文本模式的匹配和查找

1、需求

我們想要按照特定的文本模式進(jìn)行匹配或查找。

2、解決方案

如果想要匹配的只是簡單的文字，那么通常只需要用基本的字符串方法就可以了，比如str.find()、str.endswith()、str.startswith()或類似函數(shù)。

示例：

text='mark ，帥哥，18，183 帥，mark'
print(text=='mark')
print(text.startswith('mark'))
print(text.startswith('mark'))
print(text.find('帥哥'))

結(jié)果：

False
True
True
6

如果更為復(fù)雜的匹配則需要使用正則表達(dá)式以及re模塊。為了說明使用正則表達(dá)式的基本流程，假設(shè)我們想匹配以數(shù)字形式構(gòu)成的日期，比如"11/27/2018"。示例如下：

import re
text1='11/27/2018'
text2='Nov 27, 2018'
if re.match(r'\d+/\d+/\d+',text1):
  print('符合模型：數(shù)字/數(shù)字/數(shù)字')
else:
  print('不符合模型：數(shù)字/數(shù)字/數(shù)字')

if re.match(r'\d+/\d+/\d+',text2):
  print('符合模型：數(shù)字/數(shù)字/數(shù)字')
else:
  print('不符合模型：數(shù)字/數(shù)字/數(shù)字')

運(yùn)行結(jié)果：

符合模型：數(shù)字/數(shù)字/數(shù)字
不符合模型：數(shù)字/數(shù)字/數(shù)字

如果打算針對同一模型做多次匹配，那么通常會(huì)先將正則表達(dá)式模式預(yù)編譯成一個(gè)模式對象。

例如：

import re
text1='11/27/2018'
text2='Nov 27, 2018'
datepat=re.compile(r'\d+/\d+/\d+')
if datepat.match(text1):
  print('符合模型：數(shù)字/數(shù)字/數(shù)字')
else:
  print('不符合模型：數(shù)字/數(shù)字/數(shù)字')

if datepat.match(text2):
  print('符合模型：數(shù)字/數(shù)字/數(shù)字')
else:
  print('不符合模型：數(shù)字/數(shù)字/數(shù)字')

結(jié)果：

符合模型：數(shù)字/數(shù)字/數(shù)字
不符合模型：數(shù)字/數(shù)字/數(shù)字

match()方法總是嘗試在字符串的開頭找到匹配項(xiàng)。如果想針對整個(gè)文本搜索出所有的匹配項(xiàng)，那么就應(yīng)該使用findall()方法，例如：

import re
text='今天是 11/27/2018，昨天是11/26/2018'
datepat=re.compile(r'\d+/\d+/\d+')
print(datepat.findall(text))

運(yùn)行結(jié)果：

['11/27/2018', '11/26/2018']

當(dāng)定義正則表達(dá)式時(shí)，我們常會(huì)將部分模式用括號包起來的方式引入捕獲組，捕獲組通常簡化后續(xù)對匹配文本的處理，因?yàn)槊總€(gè)組的內(nèi)容都可以單獨(dú)提取出來。findall()方法搜索整個(gè)文本并找出所有的匹配項(xiàng)然后將它們以列表的形式返回。如果想以迭代的方式找出匹配項(xiàng)，可以使用finditer()方法。

例如：

import re
#加入捕獲組
datepat=re.compile(r'(\d+)+/(\d+)+/(\d+)')
m=datepat.match('11/27/2018')
print(m.group(0))
print(m.group(1))
print(m.group(2))
print(m.group(3))
print(m.groups())
month,day,year=m.groups()
print(month)
print(day)
print(year)

print('*'*20)

text='今天是 11/27/2018，昨天是11/26/2018'
for month,day,year in datepat.findall(text):
  print('{}-{}-{}'.format(year,month,day))

print('*'*20)

for m in datepat.finditer(text):
  print(m.groups())

結(jié)果：

11/27/2018
11
27
2018
('11', '27', '2018')
11
27
2018
********************
2018-11-27
2018-11-26
********************
('11', '27', '2018')
('11', '26', '2018')

3、分析

本節(jié)主要介紹了re模塊對文本匹配和搜索的基本功能，首先用re.compile()對模式進(jìn)行編譯，然后使用想match()、findall()、finditer()這樣的方法做匹配和搜索。

當(dāng)指定模式時(shí)我們通常會(huì)使用原始字符串，例如：

r'(\d+)/(\d+)/(\d+)'

這樣的字符串不會(huì)對反斜字符轉(zhuǎn)義，這在正則表達(dá)式中非常有用。否則，我們需要用雙反斜杠線來標(biāo)識(shí)一個(gè)單獨(dú)的''，例如：

'(\\d+)/(\\d+)/(\\d+)'

請注意match()方法只會(huì)檢查字符的開頭，有可能出現(xiàn)的匹配的結(jié)果并不是你想要的，例如：

import re
#加入捕獲組
datepat=re.compile(r'(\d+)+/(\d+)+/(\d+)')
m=datepat.match('11/27/2018xxxx')
print(m)

結(jié)果：

re.Match object; span=(0, 10), match='11/27/2018'>

如果想要精確匹配，可以加一個(gè)結(jié)束標(biāo)記：$

import re
#加入捕獲組
datepat=re.compile(r'(\d+)+/(\d+)+/(\d+)$')
m1=datepat.match('11/27/2018xxxx')
m2=datepat.match('11/27/2018')
print(m1)
print(m2)

結(jié)果：

None
re.Match object; span=(0, 10), match='11/27/2018'>

如果只是執(zhí)行簡單的文本匹配和搜索操作，可以省略編譯步驟。
如果打算執(zhí)行很多匹配或查找操作的話，通常需要先將模式編譯然后重復(fù)使用。模塊級的函數(shù)會(huì)對最近編譯過的模式做緩存處理，并且比較省步驟。

總結(jié)

以上所述是小編給大家介紹的正則表達(dá)式之文本模式的匹配和查找,希望對大家有所幫助，如果大家有任何疑問請給我留言，小編會(huì)及時(shí)回復(fù)大家的。在此也非常感謝大家對腳本之家網(wǎng)站的支持！
如果你覺得本文對你有幫助，歡迎轉(zhuǎn)載，煩請注明出處，謝謝！

您可能感興趣的文章:

Java正則表達(dá)式實(shí)現(xiàn)在文本中匹配查找換行符的方法【經(jīng)典實(shí)例】
Java基于正則表達(dá)式實(shí)現(xiàn)查找匹配的文本功能【經(jīng)典實(shí)例】
Go語言正則表達(dá)式用法實(shí)例小結(jié)【查找、匹配、替換等】
學(xué)習(xí)Java正則表達(dá)式（匹配、替換、查找）
正則表達(dá)式匹配，替換，查找
JAVA中正則表達(dá)式匹配，替換，查找，切割的方法

標(biāo)簽：大興安嶺湖州常州涼山哈密泰安本溪

巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《正則表達(dá)式之文本模式的匹配和查找》，本文關(guān)鍵詞正則,表達(dá)式,之,文本,模式,；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題，煩請?zhí)峁┫嚓P(guān)信息告之我們，我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無關(guān)。