爬取20个网页
01
import requests
import re
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'
}
url = 'https://news.baidu.com/guonei'
response = requests.get(url,headers=headers)
response.encoding = 'utf8'
html = response.text
#print(html)
title = re.findall('.+>(\S+)',html)
print(title)
"""
运行结果:
['网页', '贴吧', '知道', '音乐', '图片', '视频', '地图', '文库', '驻联合国大使陈旭:香港需要止暴制乱恢复秩序', '台风又要来了?周末雨水来“报道”义乌高温依旧“', '这就
是乱港分子要带给香港的“自由”?', '村里有了保洁志愿队伍,嘉祥贫困户更干净、心更亮', '印宇鹰主持召开全县公安工作现场办公会', '安徽一保时捷女司机当街质问:交警就是这样
干事的?结..', '福建200年网红古村,游客来了大呼“照骗”,你怎么..', '安徽霍邱一辅警执勤时被大货车碾压身亡,案件侦办中', '安徽最没有“存在感”的城市,游客只知九华山,
却很少..', '判了!安徽男子电动车充电引发火灾,致3人死亡']
"""
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20