正则匹配(爬取糗图百科)

概述

当查找不是固定的一个,而是一类字符串(得有规律),字符串的函数实现不了,引入了正则表达式。不分语言,js就有正则表达式
正则肯定有自己的规则,学习这些规则,写出一个正则匹配那一类字符串

规则

1)单字符匹配 
 \d 0-9 digit 
 \D 除了\d 
 \w 小写字母、大写字母、数字、下划线,一个中文 word 
 \W 除了\w  
\s 所有的空白字符,空格、\t space 
 \S 除了\s  
. 任意字符,除了 \n  
[aeiou] 匹配中括号里面任意一个字符
  [a-z](#)  [0-9](#)  


(2)和数量相关的  
a{3,}  
aaaaaaaaaa  
{m} 修饰前面的一个字符出现m次 
 {m,n} 修饰前面的字符出现最少m次,最多n次,贪婪的,能多匹配就多匹配 
 {m,} 修饰前面的字符出现最少m次  
{0,} 任意多次 * 
 {1,} 至少1次 +  
{0,1} 可有可无 ?  
(3)边界相关  
  ^ 以某某开头
 $以某某结尾

(4)贪婪和非贪婪
        .*   贪婪的
        .*?  非贪婪
        .+   贪婪的
        .+?  非贪婪

5)分组
        12(ab){2}cd
        用一个小括号将正则括起来
        1、视为一个整体
        2、子模式、分组
            给需要使用的正则两边添加小括号,然后后面使用 \1 \2 表示第一个小括号匹配的内容,第二个小括号匹配的内容

re模块
        re.match()     从字符串的开头开始匹配,匹配成功立即返回,返回一个对象
        re.search()    从字符串任意位置开始匹配,匹配成功立即返回,返回一个对象
        re.findall()  匹配字符串所有符合要求的,返回一个列表
        re.compile()   生成一个正则对象
        re.sub()      正则替换
         pattern.sub('固定字符串', 字符串)
         pattern.sub(函数, 字符串)   用函数的返回值替换正则匹配的内容

(6)模式修饰
        re.I    忽略大小写
string = 'i love you baby'
pattern = re.compile(r'LOVE', re.I)
ret = pattern.search(string)
print(ret.group())

        re.S    视为单行模式

string = '''
细思极恐 你的对手在看书 你的敌人在磨刀 你的闺蜜在减肥 隔壁老王在炼腰
''' pattern = re.compile(r'
(.*?)
', re.S) ret = pattern.search(string) print(ret.group(1)) re.M 视为多行模式 string = '''有关爱情的歌曲 爱情36计 爱是一道光 爱我别走 爱情买卖 爱如潮水 ''' pattern = re.compile(r'^爱', re.M) ret = pattern.findall(string) print(ret)

sub替换

# 将正则匹配的内容替换掉
str = '男生喜欢123的女孩子'
pat = re.compile(r'\d+')
lala = pat.sub('60',str)
print(lala)

#通过函数返回值替换
def fn(ret):
    # print(ret)
    age = int(ret.group())
    age += 1
    return str(age)

string = '男生都喜欢18岁的女孩'
pattern = re.compile(r'\d+')
# lala = pattern.sub('60', string)
# print(lala)

lala = pattern.sub(fn, string)
print(lala)

糗事百科实例

import urllib.request
import re
import time
import os

def handle_request(url, page):
    # 拼接url
    url_page = url.format(page)
    # print(url_page)
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
    }
    # 构建请求对象
    request = urllib.request.Request(url=url_page, headers=headers)
    return request

def parse_content(content):
    # 正则解析
    # 这种写法范围太广,匹配的不精确
    # pattern = re.compile(r'')
    # 分析网页结构,首先先找到class是thumb的div,然后再去div里面找img
    # pattern = re.compile(r'
.*?
', re.S) pattern = re.compile(r'
.*?(.*?).*?
', re.S) ret = pattern.findall(content) # print(ret) # print(len(ret)) # 遍历这个列表,依次下载图片 dirname = 'qiutu' for info in ret: # 获取图片的链接 img_src = 'https:' + info[0] # 拼接得到图片的名字 img_name = info[1] + '.' + img_src.split('.')[-1] print('正在下载--%s--' % img_name) filepath = os.path.join(dirname, img_name) try: urllib.request.urlretrieve(img_src, filepath) except: print('二货,没有这个图片') print('结束下载--%s--' % img_name) time.sleep(2) def main(): # 让用户输入起始页码和结束页码 start_page = int(input('请输入起始页码-')) end_page = int(input('请输入结束页码-')) url = 'https://www.qiushibaike.com/pic/page/{}/' # 搞个循环,依次向每个页面的url发送请求 for page in range(start_page, end_page + 1): print('正在下载--第%s页--......' % page) # 拼接url,生成请求对象 request = handle_request(url, page) # 发送请求,获得响应 response = urllib.request.urlopen(request) # 获得响应内容字符串格式 content = response.read().decode('utf8') # 解析网页内容,提取图片链接,下载图片 parse_content(content) print('结束下载--第%s页--...' % page) time.sleep(2) if __name__ == '__main__': main()
正则匹配(爬取糗图百科)_第1张图片
gfg.jpeg

你可能感兴趣的:(正则匹配(爬取糗图百科))