爬取心灵鸡汤

网页截图

爬取心灵鸡汤_第1张图片

Python代码

import requests
import re

url = 'http://www.59xihuan.cn/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
}

text = requests.get(url, headers=headers).content.decode()
for i in range(64783, 64793):
    page = re.findall(r'div id="humorContent_{}" class="pic_text1"(.*?)

'.format(str(i)), text, re.DOTALL) print(page[0]) print('*' * 40)

效果截图

爬取心灵鸡汤_第2张图片

总结

网页本身存在一定的问题,而我的正则表达式应该是没有问题的;现在的不足之处就是还不会翻页爬取数据,存储以及整理数据,希望今后能因为兴趣再更上一层楼。

你可能感兴趣的:(爬虫)