Scrapy十秒钟爬取贝壳二手房3000条房源信息

此文章由码上风云原创!

1、安装 Scrapy 爬虫框架:pip install Scrapy

2、创建一个 Scrapy 项目:Scrapy startproject beike

3、将创建好的项目导入PyCharm中打开,在 Spider文件夹中创建爬虫文件

4、爬虫代码如下:

import scrapy
class mingyan(scrapy.Spider):
	name='beike'
	def start_requests(self):
		link='https://xy.ke.com/ershoufang/pg{}'
		for i in range(1,101):
			url=link.format(i)
			yield scrapy.Request(url=url, callback=self.parse)
	def parse(self,response):
		for selector in response.xpath('//*/li[@class="clear"]'):
			title = selector.xpath('div[1]/div[1]/a/@title').extract()[0]
			price= selector.xpath('div[1]/div[2]/div[5]/div[1]/span/text()').extract()[0]
			address = selector.xpath('div[1]/div[2]/div[1]/div[1]/a/text()').extract()[0]
			info_dict={
			'title':title,
			'price':price,
			"address":address
			}
			yield info_dict

5、编写完程序后需要对爬取结果进行导出存储:
scrapy crawl beike -o beike.csv

欢迎大家到我的个人博客浏览更多原创文章:www.jboss.xyz

你可能感兴趣的:(xpath,html,python,web)