豆瓣出版社爬取

最近在看视频学习时提到的爬取豆瓣出版社的一个训练,代码如下:

注意点:decode使用

import urllib.request
import re
url="https://read.douban.com/provider/all"
data=urllib.request.urlopen(url).read().decode("utf-8")
pat1='
(.*?)
' result=re.compile(pat1).findall(data) context=(",".join([*result])) outfile="publishing_house.csv" afile=open(outfile,"w+") afile.write("Press"+"\n") afile.write(context.replace(",","\n")) afile.close()

输出文件内容如下:

豆瓣出版社爬取_第1张图片

你可能感兴趣的:(python)