python爬虫脚本编写

1,先准备一个mysql配置类,将爬取到的数据存入mysql中

(1)连接数据库


image.png

(2)执行插入语句,将数据插入数据库


image.png

2,找到要爬取数据的网页(需要爬取如下页面中所有年度的获奖名单)


image.png

image.png

3,点开F12,找到对应的标签位置


image.png

4,先在类中构造方法中初始化mysql配置类,然后用request的方式访问页面,访问成功后,用beautilfulSoup方法获取我们要爬取数据所在的标签内容,循环得到所有标签中的二级url,放到list集合中


image.png

5,得到所有年份和对应的url之后,循环遍历访问每个年份下的url,获取对应标签的所有内容


image.png

image.png

6,得到所有年份二级url下对应的标签后,因为每个url下的标签格式不同,这时就需要我们去分别打补丁去获取每个标签下的内容


image.png

7,获取到数据后做一个插入拼接,批量将所有爬到的数据批量导入数据库中


image.png

你可能感兴趣的:(python爬虫脚本编写)