一天学会用Python毫无人性的抓取小说---Python入坑指南

看书,怎么能充钱呢!

看了爆肝机油的文章,简直是视觉上的冲击与享受,忍不住搞了一波Python---scrapy爬取数据

scrapy    先看中文教程,再看下文源码,不看我也不能打你

 scrapy1.5中文文档        是中文的哦       看了不吃亏,看了不上当,爬本小说看看,为啥不在网页看,引用机油的话“---浏览器上下部分都被什么 美女荷官在线发牌一夜不射提升半小时之类你懂的画面遮盖了,还经常误触,如果是在电脑上看,我们可以用ADBLOCK之类的广告插件屏蔽,可是手机浏览器貌似没有插件啊,那怎么办呢?我可是程序员啊,程序员怎么能向这种问题低头呢?----”

几个常用的scrapy命令

"""
	python 命令:
		#scrapy startproject 项目名  例:
		scrapy startproject mingyan

		cd 到项目里

		#验证scrapy到底有木有提取到数据的工具
		scrapy shell http://lab.scrapyd.cn

		#scrapy crawl name里的内容   例:
		scrapy crawl mingyan

		#要爬取标签:励志
		scrapy crawl mingyan -a tag=励志
"""

 

scrapy很牛逼,基本神马都能爬,(听说东京很热)……这里就不翻译了,直接上代码

import scrapy

class fiction(scrapy.Spider):
	# 爬虫名称
	name = 'fiction'
	# 第一页
	start_urls = ['https://www.bequge.com/24_24077/12921184.html']
	def parse(self, response):
		filename = '全球高武.txt'
		# 章节名
		title = response.css('.bookname h1::text').extract_first()
		# 章节内容
		content = response.xpath("string(//div[@id='content'])").extract()[0].replace('\n','').replace('\r','').replace('\xa0',' ')
		with open(filename,"a+",encoding='utf-8') as f:
			f.write(title)
			f.write("\n")
			# 添加章节目录
			f.write(content)
			f.write("\n\n\n")
			f.close()
		next_page =  response.xpath("//div[@class='bottem2']//@href").extract()[3]
		if next_page is not None:
			next_page = 'https://www.bequge.com'+next_page
			yield scrapy.Request(next_page,callback=self.parse)
		else:
			self.log('完结')

 

你可能感兴趣的:(一天学会用Python毫无人性的抓取小说---Python入坑指南)