爬虫句子迷

句子迷网站(www.juzimi.com/)是提供高品质句子的专业句子网站,是一个美句佳句的分享社区。但它有个缺点,就是里面的文字没法直接复制。因而就想到了能否使用网页爬虫的方式摘录句子。试了之后发现,这个网站的爬虫还是比较容易实现的。

一些爬虫结果

爬虫句子迷_第1张图片
爬虫鲁迅

爬虫句子迷_第2张图片
爬虫三体

爬虫句子迷_第3张图片
爬虫魔戒

句子迷口号

爱写字,爱摘抄,不爱平庸;
爱阅读,爱收藏,不爱遗忘。
迷恋文字,崇尚共鸣,
有那么一点点执着,有那么一点点个性,
不是什么小众,也不是什么大流,
我们只为那一行行跳动的文字着迷。
我们是自己精神世界的主人,
我们是句子迷。

爬虫代码

import re,requests

fo = open("爬虫三体.txt", "w")
pagecount = 15

url = 'https://www.juzimi.com/search/node/%E4%B8%89%E4%BD%93%20type%3Asentence'

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36",
    "Referer": url,
}

start = r'class="xlistju">'
end = r'
','\n') fo.write(fir) print(fir) for i in range(pagecount): if i: params = {"page":i} else: params ={} mywrite(params) fo.close()

你可能感兴趣的:(爬虫句子迷)