QUST 爬虫

打开网页链接:https://sh.lianjia.com/zufang/

按F12打开网页源代码(我的电脑fn+f12会默认打开飞行模式 只按f12才能打开源代码)

QUST 爬虫_第1张图片

使用左上角的后,选择浦东

我们得到:

需要导入的库QUST 爬虫_第2张图片

主函数

QUST 爬虫_第3张图片 

 爬取的链接为:

https://sh.lianjia.com/zufang/

保存路径为"链家.xls"

对数据进行分析:

QUST 爬虫_第4张图片

 QUST 爬虫_第5张图片

QUST 爬虫_第6张图片

保存在excel"链家.xls"里:

QUST 爬虫_第7张图片

伪装爬虫成网页,防止爬取时被网站禁止:

QUST 爬虫_第8张图片

用正则表达式获取网页信息:

findplace1 = re.compile(
    r'(.*)-.*-.*')  
findplace2 = re.compile(
    r'.*-(.*)-.*')

 获得房源的其他信息:

QUST 爬虫_第9张图片

 运行结果如下:QUST 爬虫_第10张图片

 QUST 爬虫_第11张图片

同时,我们也可以采用数据库存储:

QUST 爬虫_第12张图片

 创建数据库

QUST 爬虫_第13张图片

 爬取结果:QUST 爬虫_第14张图片

 

你可能感兴趣的:(爬虫)