# -*- coding: utf-8-*-
import re
##過濾HTML中的標(biāo)簽
#將HTML中標(biāo)簽等信息去掉
#@param htmlstr HTML字符串.
def filter_tags(htmlstr):
#先過濾CDATA
re_cdata=re.compile('//![CDATA[[^>]*//]]>',re.I) #匹配CDATA
re_script=re.compile('s*script[^>]*>[^]*s*/s*scripts*>',re.I)#Script
re_style=re.compile('s*style[^>]*>[^]*s*/s*styles*>',re.I)#style
re_br=re.compile('brs*?/?>')#處理換行
re_h=re.compile('/?w+[^>]*>')#HTML標(biāo)簽
re_comment=re.compile('!--[^>]*-->')#HTML注釋
s=re_cdata.sub('',htmlstr)#去掉CDATA
s=re_script.sub('',s) #去掉SCRIPT
s=re_style.sub('',s)#去掉style
s=re_br.sub('n',s)#將br轉(zhuǎn)換為換行
s=re_h.sub('',s) #去掉HTML 標(biāo)簽
s=re_comment.sub('',s)#去掉HTML注釋
#去掉多余的空行
blank_line=re.compile('n+')
s=blank_line.sub('n',s)
s=replaceCharEntity(s)#替換實體
return s
##替換常用HTML字符實體.
#使用正常的字符替換HTML中特殊的字符實體.
#你可以添加新的實體字符到CHAR_ENTITIES中,處理更多HTML字符實體.
#@param htmlstr HTML字符串.
def replaceCharEntity(htmlstr):
CHAR_ENTITIES={'nbsp':' ','160':' ',
'lt':'','60':'',
'gt':'>','62':'>',
'amp':'','38':'',
'quot':'"','34':'"',}
re_charEntity=re.compile(r'#?(?Pname>w+);')
sz=re_charEntity.search(htmlstr)
while sz:
entity=sz.group()#entity全稱,如>
key=sz.group('name')#去除;后entity,如>為gt
try:
htmlstr=re_charEntity.sub(CHAR_ENTITIES[key],htmlstr,1)
sz=re_charEntity.search(htmlstr)
except KeyError:
#以空串代替
htmlstr=re_charEntity.sub('',htmlstr,1)
sz=re_charEntity.search(htmlstr)
return htmlstr
def repalce(s,re_exp,repl_string):
return re_exp.sub(repl_string,s)
if __name__=='__main__':
str='' # 需要提取的html字符串
str=filter_tags(str)
print(str)
以上所述是小編給大家介紹的Python使用正則表達(dá)式去除(過濾)HTML標(biāo)簽提取文字功能 ,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復(fù)大家的。在此也非常感謝大家對腳本之家網(wǎng)站的支持!
如果你覺得本文對你有幫助,歡迎轉(zhuǎn)載,煩請注明出處,謝謝!