本人特别爱看网络小说,但是呢,有些小说网站的弹窗广告啊、悬浮广告太烦人,正好最近在研究Python,就来试试利用Python把小说站的小说爬下来,并保存到txt文件里。这样就可以直接使用手机打开txt来看了。并且呢,我也能熟悉利用python抓取文本数据的方法。
以爬取靠谱小说网的《伏天氏》这本小说的章节内容为例,目标url:http://www.kpxsw.com/0_479.html
第一步:选取文章列表其中某一章,检查网页,可以找到这本小说所有章节的链接和名称。
写出xpath表达式提取出href里的内容://div[@id=“list”]/dl/dd/a/@href
分析网页可得,提取出来的内容里每个元素前面应加上 http://www.kpxsw.com 得到的才是是每个章节真正的链接
第二步:接下来编写抓取章节的代码,抓取所有章节的链接,代码如下:
def get_urls():
url = "http://www.kpxsw.com/0_479.html"
response = requests.get(url, headers=headers)
response.encoding = 'utf-8'
html = etree.HTML(response.text)
# 所有章节的url列表
url_list = ['http://www.kpxsw.com' + x for x in html.xpath('//div[@id="list"]/dl/dd/a/@href')]
return url_list
第三步:抓取每章的章节名称和章节内容,保存到txt文件,具体代码如下:
def get_text(url):
rep = requests.get(url, headers=headers)
rep.encoding = 'utf-8'
dom = etree.HTML(rep.text)
name = dom.xpath('//div[@class="bookname"]/h1/text()')[0]
text = dom.xpath('//div[@id="content"]/text()')
with open(path + f'{name}.txt', 'w', encoding='utf-8') as f:
for con in text:
f.write(con)
print(f'{name} 下载完成')
OK,通过上面三步,就利用Phthon抓取《伏天氏》小说,并保存txt文件成功。你也可以通过此方法在靠谱小说网http://www.kpxsw.com 抓取其他小说,保存成txt文件来看。
完整代码如下:
import requests
from lxml import etree
import time
import random
path = r'D:\test\伏天氏\ '
headers = {
"Referer": "http://www.kpxsw.com/0_479.html",
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1"
}
def get_urls():
url = "http://www.kpxsw.com/0_479.html"
response = requests.get(url, headers=headers)
response.encoding = 'utf-8'
html = etree.HTML(response.text)
# 所有章节的url列表
url_list = ['http://www.kpxsw.com' + x for x in html.xpath('//div[@id="list"]/dl/dd/a/@href')]
return url_list
def get_text(url):
rep = requests.get(url, headers=headers)
rep.encoding = 'utf-8'
dom = etree.HTML(rep.text)
name = dom.xpath('//div[@class="bookname"]/h1/text()')[0]
text = dom.xpath('//div[@id="content"]/text()')
with open(path + f'{name}.txt', 'w', encoding='utf-8') as f:
for con in text:
f.write(con)
print(f'{name} 下载完成')
def main():
urls = get_urls()
for url in urls:
get_text(url)
time.sleep(random.randint(1, 3))
if __name__ == '__main__':
main()
运行程序后,抓取结果如下: