python爬虫编程实践 Task2--Re(正则表达式)入门(实战:淘宝商品比价定向爬虫)

Re库(正则表达式)入门

正则表达式是用来简洁表达一组字符串的表达式,是一种通用的字符串表达框架,可以用来判断某字符串的特征属性

正则表达式在文本处理中十分常用:

  1. 表达文本类型的特征(病毒、入侵等)
  2. 同时查找或替换一组字符串
  3. 匹配字符串的全部或部分

1 正则表达式的语法

正则表达式语法由字符和操作符构成

常用操作符 说明 实例
. 表示任何单个字符
[ ] 字符集,对单个字符给出取值范围 [abc]表示a、 b、 c, [a‐z]表示a到z单个字符
[^ ] 非字符集,对单个字符给出排除范围 [^abc]表示非a或b或c的单个字符
* 前一个字符0次或无限次扩展 abc* 表示 ab、 abc、 abcc、 abccc等
+ 前一个字符1次或无限次扩展 abc+ 表示 abc、 abcc、 abccc等
? 前一个字符0次或1次扩展 abc? 表示 ab、 abc
| 左右表达式任意一个 abc|def 表示 abc、 def
{m} 扩展前一个字符m次 ab{2}c表示abbc
{m,n} 扩展前一个字符m至n次(含n) ab{1,2}c表示abc、 abbc
^ 匹配字符串开头 ^abc表示abc且在一个字符串的开头
$ 匹配字符串结尾 abc$表示abc且在一个字符串的结尾
( ) 分组标记,内部只能使用 | 操作符 (abc)表示abc, (abc | def)表示abc、 def
\d 数字,等价于[0‐9]
\w 单词字符,等价于[ A‐Za‐z0‐9_ ]

经典正则表达式实例

表达式 说明
^ [A‐Za‐z]+$ 由26个字母组成的字符串
^ [A‐Za‐z0‐9]+$ 由26个字母和数字组成的字符串
^ ‐?\d+$ 整数形式的字符串
^ [0‐9] * [1‐9] [0‐9]*$ 正整数形式的字符串
[1‐9]\d{5} 中国境内邮政编码, 6位
[\u4e00‐\u9fa5] 匹配中文字符
\d{3}‐\d{8} \d{4}‐\d{7}

匹配IP地址的正则表达式
python爬虫编程实践 Task2--Re(正则表达式)入门(实战:淘宝商品比价定向爬虫)_第1张图片

2 re库的基本使用

  • 调用方式:import re
  • re库采用raw string类型表示正则表达式,表示为:r’text’,raw string是不包含对转义符再次转义的字符串

re库的主要功能函数:

函数 说明
re.search() 在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象
re.match() 从一个字符串的开始位置起匹配正则表达式,返回match对象
re.findall() 搜索字符串,以列表类型返回全部能匹配的子串
re.split() 将一个字符串按照正则表达式匹配结果进行分割,返回列表类型
re.finditer() 搜索字符串,返回一个匹配结果的迭代类型,每个迭代元素是match对象
re.sub() 在一个字符串中替换所有匹配正则表达式的子串,返回替换后的字符串

Match对象介绍

Match对象是一次匹配的结果,包含匹配的很多信息

match = re.search(r'[1‐9]\d{5}', 'BIT 100081')
if match:
	print(match.group(0))
>> 100081

type(match)
>> <class '_sre.SRE_Match'>
match对象的属性 说明
.string 待匹配的文本
.re 匹配时使用的patter对象(正则表达式)
.pos 正则表达式搜索文本的开始位置
.endpos 正则表达式搜索文本的结束位置
match对象的方法 说明
.group(0) 获得匹配后的字符串
.start() 匹配字符串在原始字符串的开始位置
.end() 匹配字符串在原始字符串的结束位置
.span() 返回(.start(), .end())
# Match对象实例
import re 
m=re.search(r'[1‐9]\d{5}', 'BIT100081 TSU100084')
m.string
>> 'BIT100081 TSU100084'
m.re
>> re.compile(r'[1‐9]\d{5}', re.UNICODE)
m.pos
>> 0
m.endpos
>> 19
m.group(0) 
# 匹配结果是存储在group(0)内容中,match对象返回的是第一次匹配的结果(只返回一次匹配结果)。
# 如果希望得到每一次返回的match对象,则需要用finditer()来实现
>> '100081'
m.start()
>> 3
m.end()
>> 9
m.span()
>> (3,9)

re库的另一种等价用法(编译)

  • regex = re.compile(pattern, flags=0):将正则表达式的字符串形式编译成正则表达式对象
# 函数式用法:一次性操作
rst = re.search(r'[1‐9]\d{5}', 'BIT 100081')

# 面向对象用法:编译后的多次操作
pat = re.compile(r'[1‐9]\d{5}')
rst = pat.search('BIT 100081')

python爬虫编程实践 Task2--Re(正则表达式)入门(实战:淘宝商品比价定向爬虫)_第2张图片

re 库的贪婪匹配和最小匹配

  • .* Re库默认采用贪婪匹配,即输出匹配最长的子串
match = re.search(r'PY.*N', 'PYANBNCNDN')
match.group(0) # match对象只返回一次匹配结果
>> 'PYANBNCNDN'
  • *? 只要长度输出可能不同的,都可以通过在操作符后增加?变成最小匹配
match = re.search(r'PY.*?N', 'PYANBNCNDN')
match.group(0)
>> 'PYAN'

3 实战:淘宝商品比价定向爬虫

  • requests-re实现定向爬虫
  • 由于现在淘宝有反爬虫机制了,需进行user-agent修改添加cookie的操作【headers参数添加字典】:打开F12开发者工具,在页面的network下的doc中随便选一个文件,记得勾选hide data urls,然后右边就能找到cookie和user-agent,复制粘贴就行了
    python爬虫编程实践 Task2--Re(正则表达式)入门(实战:淘宝商品比价定向爬虫)_第3张图片
import requests
import re

# 获得页面
def getHTMLText(url): 
    try:
        kv={
            'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36',
            'Cookie': 'thw=cn; v=0; t=ab66dffdedcb481f77fd563809639584; cookie2=1f14e41c704ef58f8b66ff509d0d122e; _tb_token_=5e6bed8635536; cna=fGOnFZvieDECAXWIVi96eKju; unb=1864721683; sg=%E4%B8%8B3f; _l_g_=Ug%3D%3D; skt=83871ef3b7a49a0f; cookie1=BqeGegkL%2BLUif2jpoUcc6t6Ogy0RFtJuYXR4VHB7W0A%3D; csg=3f233d33; uc3=vt3=F8dBy3%2F50cpZbAursCI%3D&id2=UondEBnuqeCnfA%3D%3D&nk2=u%2F5wdRaOPk21wDx%2F&lg2=VFC%2FuZ9ayeYq2g%3D%3D; existShop=MTU2MjUyMzkyMw%3D%3D; tracknick=%5Cu4E36%5Cu541B%5Cu4E34%5Cu4E3F%5Cu5929%5Cu4E0B; lgc=%5Cu4E36%5Cu541B%5Cu4E34%5Cu4E3F%5Cu5929%5Cu4E0B; _cc_=WqG3DMC9EA%3D%3D; dnk=%5Cu4E36%5Cu541B%5Cu4E34%5Cu4E3F%5Cu5929%5Cu4E0B; _nk_=%5Cu4E36%5Cu541B%5Cu4E34%5Cu4E3F%5Cu5929%5Cu4E0B; cookie17=UondEBnuqeCnfA%3D%3D; tg=0; enc=2GbbFv3joWCJmxVZNFLPuxUUDA7QTpES2D5NF0D6T1EIvSUqKbx15CNrsn7nR9g%2Fz8gPUYbZEI95bhHG8M9pwA%3D%3D; hng=CN%7Czh-CN%7CCNY%7C156; mt=ci=32_1; alitrackid=www.taobao.com; lastalitrackid=www.taobao.com; swfstore=97213; x=e%3D1%26p%3D*%26s%3D0%26c%3D0%26f%3D0%26g%3D0%26t%3D0%26__ll%3D-1%26_ato%3D0; uc1=cookie16=UtASsssmPlP%2Ff1IHDsDaPRu%2BPw%3D%3D&cookie21=UIHiLt3xThH8t7YQouiW&cookie15=URm48syIIVrSKA%3D%3D&existShop=false&pas=0&cookie14=UoTaGqj%2FcX1yKw%3D%3D&tag=8&lng=zh_CN; JSESSIONID=A502D8EDDCE7B58F15F170380A767027; isg=BMnJJFqj8FrUHowu4yKyNXcd2PXjvpa98f4aQWs-RbDvsunEs2bNGLfj8BYE6lWA; l=cBTDZx2mqxnxDRr0BOCanurza77OSIRYYuPzaNbMi_5dd6T114_OkmrjfF96VjWdO2LB4G2npwJ9-etkZ1QoqpJRWkvP.; whl=-1%260%260%261562528831082'
        }
        r = requests.get(url,headers = kv,timeout=30)  # 获取url信息,修改user-agent和Cookie,并且设置时间
        r.raise_for_status()  # 产生异常信息
        r.encoding=r.apparent_encoding  # 修改编码。在这之前需判断下apparent_encoding是否能获得文件的编码信息
        return r.text  # 将网页的信息内容返回给程序的其他部分
    except:
        return ""

# 对每一个获得页面进行解析
def parsePage(ilt,html):
    try:
        plt=re.findall(r'\"view_price\"\:\"[\d\.]*\"',html) # plt是一个列表,作为存储容器
        tlt=re.findall(r'\"raw_title\"\:\".*?\"',html)
        for i in range(len(plt)):
            price = eval(plt[i].split(':')[1]) # eval函数能将最外层的单引号和双引号去掉,用split函数分割字符串,获得键值对的后面部分
            title = eval(tlt[i].split(':')[1])
            ilt.append([price,title]) # 将价格和名称写入相关的列表中
    except:
        print("")

# 将淘宝商品信息输出到屏幕上
def printGoodsList(ilt):
    tplt="{0:4}\t{1:8}\t{2:16}" # 定义一个输出内容的格式(三个位置长度分别为4,8,16)
    print(tplt.format("序号","价格","商品名称"))
    count=0
    for g in ilt:
        count = count + 1
        print(tplt.format(count,g[0],g[1])) #count为商品的序号,后面两个分别为商品价格和名称
    print("")

# 主函数
def main():
    goods = "书包"
    depth =2  # 设定爬取页面的深度
    start_url = 'https://s.taobao.com/search?q=' + goods  #通过goods来整合对商品的检索
    infoList = [] # 定义一个输出变量
    for i in range(depth): # 每一个页面会有一个不同的url,用for循环对每一个页面进行单独的访问和处理
        try:
            url = start_url + "&s="+str(44*i)  # 根据页面url的变化寻找规律,构建爬取url
            html= getHTMLText(url)  # 获得页面
            parsePage(infoList,html)  # 处理每个页面的解析过程(解析HTML和爬取内容)
            
        except:
            continue  # 如果某一个页面解析出问题,继续下一个页面的解析
    printGoodsList(infoList)
                              
main()

python爬虫编程实践 Task2--Re(正则表达式)入门(实战:淘宝商品比价定向爬虫)_第4张图片

你可能感兴趣的:(python爬虫编程实践 Task2--Re(正则表达式)入门(实战:淘宝商品比价定向爬虫))