Python Day08习题

爬取20个网页

01

import requests
import re

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'
}
url = 'https://news.baidu.com/guonei'
response = requests.get(url,headers=headers)
response.encoding = 'utf8'
html = response.text 
#print(html)    
title = re.findall('
  • .+>(\S+)
  • ',html) print(title) """ 运行结果: ['网页', '贴吧', '知道', '音乐', '图片', '视频', '地图', '文库', '驻联合国大使陈旭:香港需要止暴制乱恢复秩序', '台风又要来了?周末雨水来“报道”义乌高温依旧“', '这就 是乱港分子要带给香港的“自由”?', '村里有了保洁志愿队伍,嘉祥贫困户更干净、心更亮', '印宇鹰主持召开全县公安工作现场办公会', '安徽一保时捷女司机当街质问:交警就是这样 干事的?结..', '福建200年网红古村,游客来了大呼“照骗”,你怎么..', '安徽霍邱一辅警执勤时被大货车碾压身亡,案件侦办中', '安徽最没有“存在感”的城市,游客只知九华山, 却很少..', '判了!安徽男子电动车充电引发火灾,致3人死亡'] """

    02

    03

    04

    05

    06

    07

    08

    09

    10

    11

    12

    13

    14

    15

    16

    17

    18

    19

    20

    你可能感兴趣的:(Python Day08习题)