Python爬虫 —3000+条北京二手房数据可视化分析

哈喽，我是小张，大家好久不见啊~

最近呢，对链家平台上的北京二手房数据做了个可视化分析，对目前北京的二手房交易情况有了个大致了解，最终得到一个很实在的结论：奋斗一辈子也买不到一个厕所这句话不是骗人的，是真的；关于具体分析内容客官请看下文

1，工具说明

本文用到的 Python 库有

pandas
re
requests
json
pyecharts
folium
random
stylecloud
jieba
pyquery
fake_useragent
time

外加百度地图 API

2，数据采集

所有数据来源于链家二手房交易平台，上面每页排列 30 条二手房数据，本文采集了前 100 页数据，每条二手房交易数据中提取 标题、单价、价格、地址、年份、房间样式 等字段作为可视化分析的数据来源

网站没有设置很强的反爬机制，爬取时用的是 requests + Cookies+ PyQuery 组合即可，最好在爬取时加条 time.sleep() 命令，隔几秒休眠一次，代码如下：


import requests
from pyquery import PyQuery as pq
from fake_useragent import UserAgent
import time
import random
import pandas as pd


UA = UserAgent()
headers = {
'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
'Cookie': '你的Cookie',
'Host': 'bj.lianjia.com',
'Referer': 'https://bj.lianjia.com/ershoufang/',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36',
}
num_page = 2
class Lianjia_Crawer:
 def __init__(self,txt_path):
 super(Lianjia_Crawer,self).__init__()
 self.file = str(txt_path)
 self.df = pd.DataFrame(columns = ['title','community','citydirct','houseinfo','dateinfo','taglist','totalprice','unitprice'])


 def run(self):
 '''启动脚本'''
 for i in range(100):
 url = "https://bj.lianjia.com/ershoufang/pg{}/".format(str(i))
 self.parse_url(url)
 time.sleep(random.randint(2,5))
 print('正在爬取的 url 为 {}'.format(url))
 print('爬取完毕！！！！！！！！！！！！！！')
 self.df.to_csv(self.file,encoding='utf-8')
 def parse_url(self,url):

 headers['User-Agent'] = UA.chrome
 res = requests.get(url, headers=headers)
 doc = pq(res.text)
 for i in doc('.clear.LOGCLICKDATA .info.clear'):
 try:
 pq_i = pq(i)
 title = pq_i('.title').text().replace('必看好房', '')
 Community = pq_i('.flood .positionInfo a').text()

 HouseInfo = pq_i('.address .houseInfo').text()
 DateInfo = pq_i('.followInfo').text()
 TagList = pq_i('.tag').text()
 TotalPrice = pq_i('.priceInfo .totalPrice').text()
 UnitPrice = pq_i('.priceInfo .unitPrice').text()
 CityDirct = str(Community).split(' ')[-1]
 Community = str(Community).split(' ')[0]
 data_dict ={
 'title':title,
 'community':Community,
 'citydirct':CityDirct,
 'houseinfo':HouseInfo,
 'dateinfo':DateInfo,
 'taglist':TagList,
 'totalprice':TotalPrice,
 'unitprice':UnitPrice
 }
 print(Community,CityDirct)
 self.df = self.df.append(data_dict,ignore_index=True)
 #self.file.write(','.join([title, Community, CityDirct, HouseInfo, DateInfo, TagList, TotalPrice, UnitPrice]))
 print([title, Community, CityDirct, HouseInfo, DateInfo, TagList, TotalPrice, UnitPrice])
 except Exception as e:
 print(e)
 print("索引提取失败，请重试！！！！！！！！！！！！！")



if __name__ =="__main__":
 txt_path = "ershoufang_lianjia.csv"
 Crawer = Lianjia_Crawer(txt_path)
 Crawer.run() # 启动爬虫脚本

最终一共采集到 3000 条数据：

image-20210303001131288

3，地址经纬度坐标转换

获取到的数据是地址是字符串形式(例如梵谷水郡*酒仙桥)，后面地图位置标记时需要经纬度数据，需要把所有地址转化为经纬度坐标，这里借助了百度地图 API 完成这步操作

3.1 百度地图 AK 申请

API 的使用需要在 百度地图开放平台 申请一个 AK 效验码，网址：https://lbsyun.baidu.com/apiconsole/center#/home，登录自己的百度账号，在控制台创建一个应用，

控制台面板-> 我的应用-> 创建应用

image-20210303002409666

其他参数默认，应用名称自定义命名即可，IP 白名单填入 0.0.0.0/0，点击提交

image-20210303002603013

以上步骤操作完之后，控制台面板会多出一个应用，就是刚刚我们建立的，

image-20210303002750852

3.2 地址经纬度坐标转换

获取到你的 AK 参数之后，把 AK 和 address(中文地址) 作为参数传入下面函数中，就能获取到对应的经纬度坐标

def get_location(address,AK):
 #根据地址转化为经纬度
 try:
 url = 'http://api.map.baidu.com/geocoding/v3/?address={}&output=json&ak={}&callback=showLocation'.format(address,AK)
 res_test = requests.get(url).text
 res = re.search('\((.*?)\)', res_test).group(0).strip('(').strip(')')
 lng = json.loads(res)['result']['location']['lng']
 lat = json.loads(res)['result']['location']['lat']
 print(lng, lat)
 return lng, lat
 except Exception as e:
 print('error ---------\n')
 return None

百度地图 API 的 地址经纬度转换 功能定位不仅仅局限于省、市，还能定位到门牌号，只要你提供的地址越详细，获取的经纬度信息越准确