Python数据爬虫学习笔记(3)爬取豆瓣阅读的出版社名称数据

需求:写一个Python程序,实现获取豆瓣阅读网页上的所有出版社名称,并储存在指定路径的txt文件中,如下:

Python数据爬虫学习笔记(3)爬取豆瓣阅读的出版社名称数据_第1张图片

准备:观察该网页的源代码,注意到每个出版社名称都由固定格式的div所包裹,如下:

编写代码:

import urllib.request
data=urllib.request.urlopen("https://read.douban.com/provider/all").read()
data=data.decode("utf-8")  #注意对汉字要进行编码
import re
pat='
(.*?)
' mydata=re.compile(pat).findall(data) #得到一个数组mydata:['博集天卷', '北京邮电大学出版社',........] fh=open("F:/22.txt","w") for i in range(0,len(mydata)): fh.write(mydata[i]+"\n") fh.close()

结果:

Python数据爬虫学习笔记(3)爬取豆瓣阅读的出版社名称数据_第2张图片

 

你可能感兴趣的:(Python)