编写爬虫脚本爬取广州楼盘信息

需求分析

要获取的信息:

  • 楼盘名称
  • 楼盘地址
  • 楼盘所属广州区县

代码1:爬取安居客广州楼盘网

# -*- coding:utf-8 -*-
# 导入模块
import urllib.request
import re
import ssl

headers={
    #浏览器代理
    'User-Agent':'User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36',
    #要爬取的网址
    'Referer':'https://gz.fang.anjuke.com/loupan/all/',            
    #来路,你是从哪个页面点入的
    'Cookie':'user_trace_token=20170921093258-cc8e4c13-9e6c-11e7-9d07-525400f775ce; LGUID=20170921093258-cc8e52b6-9e6c-11e7-9d07-525400f775ce; index_location_city=%E5%85%A8%E5%9B%BD; JSESSIONID=ABAAABAACEBACDGD4C15CDA891A7242B76AA4F9B7450B8B; _gat=1; PRE_UTM=; PRE_HOST=www.sogou.com; PRE_SITE=https%3A%2F%2Fwww.sogou.com%2Flink%3Furl%3DhedJjaC291NlQquFD-D9iKfCABISWiMgDLW1Nx6fG3psqHL_zYlG_a3mlRzfPLR2; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2Fgongsi%2Fj75915.html; TG-TRACK-CODE=index_search; _gid=GA1.2.405703854.1505957562; _ga=GA1.2.1930895945.1505957562; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1505957579,1505957596,1505957630,1505969456; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1505969469; LGSID=20170921125112-7dcd03f6-9e88-11e7-9d2f-525400f775ce; LGRID=20170921125125-85aaed04-9e88-11e7-91fb-5254005c3644; SEARCH_ID=746090bf111a497aa55f7f1b8dabffd2'
}

#定义函数,输入网页特征数字,输出网址html源代码
def get_content(page):
    context = ssl._create_unverified_context()
    url ='https://gz.fang.anjuke.com/loupan/all/p' + str(page) + '/'    #修改网址
    b = urllib.request.Request(url, headers=headers)
    a = urllib.request.urlopen(b,context=context)
    html = a.read().decode('utf-8')    #读取源代码并转为unicode,page的数据格式为bytes类型,需要decode()解码,转换成str类型
    print(url)
    return html

#定义函数,输入网页html源代码,输出正则匹配到的目标信息
def get(html):
    reg = re.compile(r'(.*?).*?.*?;(.*?)', re.S)
    items=re.findall(reg,html)
    return items

#执行循环,进行多页面处理,下载到文件
for i in range(1,3):    #修改页数
    print("正在爬取第"+str(i)+"页数据...")
    html=get_content(i)                      #调用获取网页原码
    for i in get(html):
        print(i[0],i[1])
        with open('dizhi.txt', 'a', encoding='utf-8') as f:           #爬虫结果保存到txt文件
            f.write(i[0]+'\t'+i[1]+'\n')
            f.close()
正在爬取第1页数据...
https://gz.fang.anjuke.com/loupan/all/p1/
碧桂园翡翠湾 广州周边 佛山 ] 庆云大道105号
时代家 广州周边 佛山 ] 里水大道中56号
越秀滨海御城 南沙 金洲 ] 双山大道
金保利世界城 广州周边 清远 ] 清城区石角镇金保利大道1号
广州亚运城 番禺 亚运新城 ] 兴亚二路
保利星海小镇 南沙 其他 ] 镇南路
广佛新世界上城 广州周边 佛山 ] 南海区高尔夫路333号(佛山西站旁)
广州万达城 花都 区府 ] 平步大道与曙光路交汇处
绿湖国际城 增城 荔城 ] 增滩路
新世界凯粤湾 荔湾 其他 ] 芳村大道西236号
碧桂园半岛1号 广州周边 清远 ] 市清城区石角镇县道405
碧桂园江与峸 广州周边 清远 ] 蟠龙大道2号
尚东•We家 增城 新塘 ] 西宁西路618号
佳兆业城市广场 黄埔 黄埔区府 ] 黄埔东路
越秀保利爱特城 黄埔 科学城 ] 云埔一路
碧桂园玺悦 南沙 金洲 ] 环市大道北南侧(碧桂园天玺湾旁)
保利·中航城 增城 朱村 ] 广州教育城地铁21号线朱村站(广汕公路...
佳兆业金域天下 广州周边 佛山 ] 外环路
路劲天隽峰 花都 区府 ] 宝华路
碧桂园御湖城 从化 江埔街 ] 105国道灌村路999号
金地香山湖 增城 广园东 ] 新新大道15号
万科白鹭郡 南沙 黄阁 ] 黄阁大道南大山乸森林公园旁
雅居乐富春山居 黄埔 科学城 ] 广汕路
珠江壹城 从化 太平镇 ] 佛岗村(太平收费站前行1000米)
怡翠尊堤 广州周边 佛山 ] 桂和路
观景豪园 广州周边 佛山 ] 三水区西南兴达路11号
时代天韵 黄埔 知识城 ] 九龙大道
万科幸福誉 黄埔 知识城 ] 九龙大道(中新广州知识城展示厅旁)
金融街花溪小镇 花都 新机场 ] 花都大道东228号
南沙心意华庭 南沙 金洲 ] 金岭北路395号
正在爬取第2页数据...
https://gz.fang.anjuke.com/loupan/all/p2/
祈福缤纷汇 番禺 华南 ] 市广路祈福新邨
越秀滨海新城 南沙 金洲 ] 沙螺湾叁巷12号对面
美的壹号公馆 广州周边 佛山 ] 木华路
信业郡城 广州周边 清远 ] 清城区广清高速龙塘出口左转约4公里
南沙金茂湾 南沙 蕉门河 ] 凤凰大道外国语学院旁
兰亭盛荟 天河 东圃 ] 东圃明镜路
实地常春藤 黄埔 长岭居 ] 禾丰路
碧桂园山湖城 广州周边 清远 ] 凤翔南路33号
信达金茂广场 天河 其他 ] 广州大道北920号
花都颐和山庄 花都 新机场 ] 梯面镇106国道与山前大道交界
碧桂园星钻 番禺 市桥 ] 市桥东环路204号
金泽惠百氏 增城 新塘 ] 107国道与东江大道交汇路口
江山时代 增城 朱村 ] 广汕公路
中海花湾壹号 荔湾 芳村 ] 鹤洞路220号
招商雍景湾 黄埔 知识城 ] 腾龙大道旁
广铝荔富湖畔 增城 朱村 ] 朱村大道东88号
大夫山•尚东 番禺 市桥 ] 东桥大街
时代名著 广州周边 佛山 ] 海三路
时代花城 广州周边 清远 ] 清城区城西大道与人民四路交叉口(广清...
时代康桥 花都 狮岭 ] 金狮大道西20号
招商雍华府 天河 东圃 ] 大灵山路
景业荔都 从化 温泉镇 ] 宣星运动谷
保利华润紫云 白云 白云大道 ] 西苑路
新世界云逸 白云 白云大道 ] 广州市白云新城2、3、14(在建)号线嘉...
融创湖滨首府 广州周边 清远 ] 广清高速龙塘出口右转约6公里
时代水岸 广州周边 佛山 ] 海北大道南
华发荔湾荟 荔湾 芳村 ] 岭海街
广州绿地城 黄埔 知识城 ] 中新知识城九龙大道(中新知识城南起步...
天河星作 天河 东圃 ] 合景路99号
万科里享家 | 蔚来 黄埔 长岭居 ] 新业路与布岭路交汇处(里享家公交车总...

你可能感兴趣的:(编写爬虫脚本爬取广州楼盘信息)