python爬虫学习---正则表达式的使用

python爬虫学习---正则表达式的使用

#正则表达式实现字符串的提取处理等等操作
#正则不是python独有的,只是python使用re模块进行了支持

#常见的匹配模式参加开发文档
#re.match,从头开始匹配,中间匹配不到
import re
str='wqgeygewgfywgqfhdsakdgsafgdsah'
result=re.match("wq",str)
print(result)

#.*可以匹配所有的字符
result=re.match("wq.*h",str)
print(result)

#使用小括号,可以仅仅匹配小括号里的内容
result=re.match("wq(.*)f",str)
print(result)
print(result.group(1))#group指的是第几个括号里的字符串

#贪婪模式.*尽可能多的匹配
#懒惰模式.*?尽可能短的匹配
result=re.match("wq(.*?)f",str)
print(result)
print(result.group(1))#贪婪模式比较常用,因为比较精准

#匹配模式,使之可以匹配到换行符
str='wqgeygewgfywgqfhds\
akdgsafgdsah'
result=re.match("wq.*h",str,re.S)
print(result)

#转义遇到像$这样的有意义的字符,可以在特殊字符前加\进行转义,即可以匹配
#re.search扫描整个字符串,返回第一个匹配成功的结果
str='wqgeygewgfywgqfhdsakdgsafgdsah'
result=re.match("wg",str)
result_search=re.search("wg",str)
print(result)
print(result_search)

#re.findall以列表的形式返回全部的匹配字符串
#re.sub(规则,替换内容,替换的字符串)替换字符串中每一个匹配的子串返回替换后的字符串
#re.compile将正则表达式编译成正则对象
str=""
pattern=re.compile("",re.S)
result=re.match(pattern,str)
#用于代码复用
      这其中有不合适或者不正确的地方欢迎指正,我的QQ号码:2867221444(乔金明),谢谢,也可以相互交流下,备注信息随意,只要能看得出是开发者或者学习者即可。

你可能感兴趣的:(python爬虫学习---正则表达式的使用)