python爬虫--爬取小猪网的租房信息

python爬虫–爬取小猪网的租房信息

Pycharm简介
PyCharm是一种Python IDE,带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制。此外,该IDE提供了一些高级功能,以用于支持Django框架下的专业Web开发。
算法介绍
(1)复制标题的xpath信息,写出标题的通用 xpath 信息;
(2)打开指定路径文档;
(3)访问指定目标网址,以GET方式获取网页数据;
(4)加上睡眠;
(5)将title值写入文件。
具体实现

import requests        #导入requests包
import time
from lxml import  etree
# w:只写的模式,如果没有文件将自动创建
with open('/Users/lxdn/Desktop/lwl.txt','w',encoding='utf-8') as f:
    for a in range(1,6):
        url = 'http://cd.xiaozhu.com/'.format(a)
        data = requests.get(url).text

        s=etree.HTML(data)
        file=s.xpath('//*[@id="page_list"]/ul/li')
        time.sleep(5)

        for div in file:
            title=div.xpath("./div[2]/div/a/span/text()")[0]
            # 将 title的值写入文件
            f.write("{}\n".format(title))
            print(title)

实验结果
(1)目标网页:小猪租房网
python爬虫--爬取小猪网的租房信息_第1张图片
(2)代码执行
python爬虫--爬取小猪网的租房信息_第2张图片(3)导出文档
python爬虫--爬取小猪网的租房信息_第3张图片心得体会
(1)通过本次实训,我了解了网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。基于网页之间的链接,通过已知的网页或数据,来对与其有直接或间接链接关系的对象(可以是网页或网站等)作出评价的算法。又分为网页粒度、网站粒度和网页块粒度这三种。
(2)在编程过程中,我遇到许多问题:空间有限,在receive时就提取去超链接;动态使用缓冲,设置缓存大小,当缓存满时候,要写入文件,并清空缓存;用第三方库是好,但是自己永远不知道其中具体细节,开发的时候尽量自己总结摸索算法,有助于自己综合能力的提高。总之,在解决问题的过程中进一步熟悉了程序开发流程,提高了自己的编程水平和解决问题的能力。

你可能感兴趣的:(python)