但愿历尽千帆,终能得偿所愿。
土地市场数据一般会公示在当地的公共资源交易中心,但经常会出现只公示当周或当月数据的情况,因此,我们得去找专业的土地网站获取交易数据。比如土流网:https://www.tudinet.com/market-0-0-0-0/
网站结构简单,简单的url翻页构造,然后用xpath解析提取数据即可。
爬虫代码如下:
import requests
from lxml import etree
import random
import time
import logging
import openpyxl
from datetime import datetime
wb = openpyxl.Workbook()
sheet = wb.active
sheet.append(['土地位置', '出让形式', '推出时间', '土地面积', '规划建筑面积', '土地地址', '成交状态', '土地代号', '规划用途'])
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s: %(message)s')
user_agent = [
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
"Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
]
start = datetime.now()
def get_info(page):
headers = {
"User-Agent": random.choice(user_agent)
}
url = f'https://www.tudinet.com/market-254-0-0-0/list-pg{page}.html'
resp = requests.get(url, headers=headers).text
time.sleep(1)
html = etree.HTML(resp)
lis = html.xpath('//div[@class="land-l-cont"]/dl')
# print(len(lis)) # 一页35条信息
for li in lis:
try:
location = li.xpath('.//dd/p[7]/text()')[0] # 土地位置
transfer_form = li.xpath('.//dt/i/text()')[0] # 出让形式
launch_time = li.xpath('.//dd/p[1]/text()')[0] # 推出时间
land_area = li.xpath('.//dd/p[3]/text()')[0] # 土地面积
planning_area = li.xpath('.//dd/p[5]/text()')[0] # 规划建筑面积
address = li.xpath('.//dd/p[4]/text()')[0] # 土地地址
state = li.xpath('.//dd/p[2]/text()')[0] # 成交状态
area_code = li.xpath('.//dt/span/text()')[0] # 土地代号
planned_use = li.xpath('.//dd/p[6]/text()')[0] # 规划用途
data = [location, transfer_form, launch_time, land_area, planning_area, address, state, area_code, planned_use]
sheet.append(data)
logging.info(data)
except Exception as e:
logging.info(e.args[0])
continue
def main():
for i in range(1, 101):
get_info(i)
logging.info(f'抓取第{i}页数据完毕')
# 休眠 防止爬得过快 给服务器减少压力
time.sleep(random.uniform(1, 2))
wb.save(filename="real_estate_info.xlsx")
if __name__ == '__main__':
main()
delta = (datetime.now() - start).total_seconds()
print(f'数据抓取完毕,用时:{delta}')
运行爬虫代码,提取到成都地区3158块土地数据,结果如下:
数据比较干净和完整,可以直接用于数据分析。
import pandas as pd
from pyecharts import options as opts
from pyecharts.charts import Pie
from pyecharts.globals import CurrentConfig, ThemeType
# 引用本地资源
CurrentConfig.ONLINE_HOST = 'D:/python/pyecharts-assets-master/assets/'
# 读取数据
df = pd.read_excel('real_estate_info.xlsx').loc[:, ['出让形式', '成交状态']]
# 统计
df1 = df['出让形式'].value_counts()
df2 = df['成交状态'].value_counts()
# 构造data_pair
data_pair_1 = [(i, int(j)) for i, j in zip(df1.index, df1.values)]
data_pair_2 = [(i, int(j)) for i, j in zip(df2.index, df2.values)]
# 绘制饼图
c = (
Pie(init_opts=opts.InitOpts(theme=ThemeType.DARK, width="1100px", height="500px")) # 初始配置项
.add(
"土地出让形式",
data_pair_1,
center=["25%", "50%"],
label_opts=opts.LabelOpts(is_show=True),
)
.set_colors(['red', 'blue', 'purple'])
.add(
"土地成交状态",
data_pair_2,
center=["70%", "50%"],
label_opts=opts.LabelOpts(is_show=True),
)
.set_global_opts(title_opts=opts.TitleOpts(title="土地出让形式&土地成交状态占比"), # 全局配置项
legend_opts=opts.LegendOpts(is_show=False)
)
.set_series_opts( # 系列配置项
tooltip_opts=opts.TooltipOpts(
trigger="item", formatter="{a}
{b}: {c} ({d}%)"
)
)
.render("pie_.html")
)
统计分析,并用pyecharts饼图可视化。已有的数据中,从 2015年9月 到 2020年2月,成都土地出让形式:挂牌出让占比67.73%、拍卖出让占比31.45%,只有很少一部分是招标出让,仅占比0.82%,成都土地招拍挂未成交和流拍土地占比不到一半,而已成交土地占比高达65.77%,整体成交率较高,原因可能为有意向竞拍人数量多、出价比较合适。
import pandas as pd
import pyecharts.options as opts
from pyecharts.charts import Bar
from pyecharts.globals import CurrentConfig, ThemeType
CurrentConfig.ONLINE_HOST = 'D:/python/pyecharts-assets-master/assets/'
df = pd.read_excel('real_estate_info.xlsx').loc[:, ['推出时间', '土地面积', '规划建筑面积']]
date = df['推出时间'].str.split('年', expand=True)[0] # 这列的字符串 按年切割
df['年份'] = date # 添加新的一列 年份
# 取掉 '平' 数据类型转为float
df['土地面积'] = df['土地面积'].str[:-1].map(float)
df['规划建筑面积'] = df['规划建筑面积'].str[:-1].map(float)
# 分组 求和 单位转换为 万m²
land_area = df.groupby('年份').agg({
'土地面积': 'sum'}) / 10000
planned_area = df.groupby('年份').agg({
'规划建筑面积': 'sum'}) / 10000
#
print(land_area, type(land_area))
print(planned_area, type(planned_area))
# 2016年-2019年 爬取的数据 2020年的只有两个月数据 2015年的数据是9月之后的
years = [int(y) for y in land_area.index[1:-1]]
# 面积保留两位小数
ydata_1 = [float('{:.2f}'.format(i)) for i in land_area['土地面积'][1:-1]]
ydata_2 = [float('{:.2f}'.format(j)) for j in planned_area['规划建筑面积'][1:-1]]
# 绘制柱形图
bar = (
Bar(init_opts=opts.InitOpts(theme=ThemeType.DARK))
.add_xaxis(xaxis_data=years)
.add_yaxis(
series_name='土地面积(万m²)',
yaxis_data=ydata_1,
label_opts=opts.LabelOpts(is_show=False)
)
.add_yaxis(
series_name='规划建筑面积(万m²)',
yaxis_data=ydata_2,
label_opts=opts.LabelOpts(is_show=False)
)
.set_global_opts(
xaxis_opts=opts.AxisOpts(name='年份'),
yaxis_opts=opts.AxisOpts(name='万m²')
)
.set_series_opts(markpoint_opts=opts.MarkPointOpts(
data=[
opts.MarkPointItem(type_="max", name="最大值"),
opts.MarkPointItem(type_="min", name="最小值"),
]),
)
.render('bar_.html')
)
从2016年到2019年,土地交易面积逐年增加,2018土地交易面积开始达到高潮,该年总的规划建筑面积为4156.15万m²,之后2019年土地交易面积较2018年有所下降。
import pandas as pd
from pyecharts import options as opts
from pyecharts.charts import Bar
from pyecharts.globals import CurrentConfig, ThemeType
CurrentConfig.ONLINE_HOST = 'D:/python/pyecharts-assets-master/assets/'
df = pd.read_excel('real_estate_info.xlsx').loc[:, ['推出时间', '土地面积', '规划建筑面积']]
df['土地面积'] = df['土地面积'].str[:-1].map(float)
df['规划建筑面积'] = df['规划建筑面积'].str[:-1].map(float)
date = df['推出时间'].str.split('月', expand=True)[0] # 这列的字符串 按月切割
date = date.apply(lambda x: x + '月') # 都加上月
# print(date)
df['月份'] = date
# 取2019年之后的
df1 = df[(df['推出时间'].str[:4] == '2020') | (df['推出时间'].str[:4] == '2019')]
df2 = df1.groupby('月份').agg({
'土地面积': 'sum'}) / 10000
df3 = df1.groupby('月份').agg({
'规划建筑面积': 'sum'}) / 10000
# print(df2)
# print(df3)
month = df2.index.tolist()
ydata_1 = [float('{:.2f}'.format(i)) for i in df2['土地面积']]
ydata_2 = [float('{:.2f}'.format(j)) for j in df3['规划建筑面积']]
bar = (
Bar(init_opts=opts.InitOpts(theme=ThemeType.DARK))
.add_xaxis(xaxis_data=month)
.add_yaxis(
series_name='土地面积(万m²)',
yaxis_data=ydata_1,
stack='stack1', # 堆叠
label_opts=opts.LabelOpts(is_show=False)
)
.add_yaxis(
series_name='规划建筑面积(万m²)',
yaxis_data=ydata_2,
stack='stack1',
label_opts=opts.LabelOpts(is_show=False)
)
.reversal_axis() # 反转 水平条形图
.set_global_opts(
xaxis_opts=opts.AxisOpts(name='万m²'),
yaxis_opts=opts.AxisOpts(name='月份')
)
.render('reverse_bar.html')
)
从2019年1月到2020年2月各月份上土地交易面积来看,2019年成都土地交易市场比较活跃,土地交易面积起伏较大,2019年12月规划建筑面积为817.47万m²,达到峰值,之后2020年开始,1、2月土地交易面积下降较多,部分原因可能是受年初国内新冠疫情爆发的影响。
import pandas as pd
from pyecharts.charts import Radar
from pyecharts import options as opts
from pyecharts.globals import CurrentConfig, ThemeType
CurrentConfig.ONLINE_HOST = 'D:/python/pyecharts-assets-master/assets/'
df = pd.read_excel('real_estate_info.xlsx')['规划用途']
datas = df.value_counts()
items = datas.index.tolist()
colors = ['#FF0000', '#FF4500', '#00FA9A', '#FFFFF0', '#FFD700']
# RadarItem:雷达图数据项配置
labels = [opts.RadarIndicatorItem(name=items[i], max_=50, color=colors[i]) for i in range(len(items))]
value = [int(j) for j in datas.values]
radar = (
Radar(init_opts=opts.InitOpts(theme=ThemeType.DARK))
.add_schema(
schema=labels
)
.add(
series_name='土地规划用途占比(%)',
data = [[round((x / sum(value)) * 100, 3) for x in value]],
areastyle_opts=opts.AreaStyleOpts(opacity=0.5, color='blue') # 区域填充颜色
)
.set_global_opts(
)
.render('radar.html')
)
交易土地的用途主要以工业用地为主,工业用地占比高达43.667%,还有相当一部分比例用作商业/办公用地、综合用地、其他用地,住宅用地仅占比5.098%。也从侧面反应出成都注重工业的发展,搜索一些资料了解到,“十二五”期间,成都工业年均增速约14.4%,在15个副省级城市中排名首位,有力支撑了成都地区生产总值迈上“万亿”台阶。
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
import pandas as pd
import matplotlib as mpl
df = pd.read_excel('real_estate_info.xlsx')
area = df['土地位置']
# 成都主要 区 县 市 9区6县4市
with open('test.txt', encoding='utf-8') as f:
areas = f.read().split('、')
for item in areas:
# 每个行政区 对每行数据都进行判断
# 土地位置里包含行政区名 值为规划建筑面积 不包含 值为0
# 得到19列 以行政区为列名 其下面为规划建筑面积
df[item] = [eval(df.loc[x, '规划建筑面积'][:-1]) if item in df.loc[x, '土地位置'] else 0 for x in range(len(df['土地位置']))]
date = df['推出时间'].str.split('年', expand=True)[0] # 这列的字符串 按年切割
df['年份'] = date # 添加新的一列 年份
df1 = df[areas]
df1.index = df['年份']
df2 = df1.groupby('年份').sum()
# print(df2.iloc[:5, ::]) # 2020年数据只有到2月的 舍去
# print(type(df2.iloc[:5, ::].T)) # 转置
datas = np.array(df2.iloc[:5, ::].T) # 19行 5列 二维数组
print(datas, type(datas))
x_label = [year for year in range(2015, 2020)]
y_label = areas
mpl.rcParams['font.family'] = 'Kaiti'
fig, ax = plt.subplots(figsize=(15, 9))
# 绘制热力图 cmap:从数字到色彩空间的映射
sns.heatmap(data=df2.iloc[:5, ::].T, linewidths=0.25,
linecolor='black', ax=ax, annot=True,
fmt='.1f', cmap='OrRd', robust=True,
)
# 添加描述信息 x y轴 title
ax.set_xlabel('年份', fontdict={
'size': 18, 'weight': 'bold'})
ax.set_ylabel('行政区', fontdict={
'size': 18, 'weight': 'bold'})
ax.set_title(r'各行政区2015-2019年的总规划建筑面积(平方米)', fontsize=25, x=0.5, y=1.02)
# 隐藏边框
ax.spines['top'].set_visible(False)
ax.spines['right'].set_visible(False)
ax.spines['left'].set_visible(False)
ax.spines['bottom'].set_visible(False)
# 保存 展示图片
plt.savefig('heat_map.png')
plt.show()
从交易区域来看,除双流县和郫县,各行政区每年都有一定土地成交,龙泉驿区和青白江区2018年到2019年交易土地面积最大,土地交易市场火热。