未来就业城市选择问题分析项目文档
目录
目录 2
1数据来源 3
2理论基础 3
3算法流程 3
3.1中国城市资本流动探索 3
3.1.1数据预处理 3
3.1.2查看全国城市控股型投资关系 4
3.1.3 2013-2016年全国跨城市资本流动情况 4
3.1.4 深度探索跨城市资本流动 4
3.2全国各省市平均房价问题研究 4
4实验结果 5
4.1中国城市资本流动探索 5
4.1.1查看全国城市控股型投资关系 5
4.1.2 2013-2016年全国跨城市资本流动情况 7
4.1.3 深度探索跨城市资本流动 9
4.2 全国各省市平均房价问题研究 12
4.2.1 对当前城市房价进行分析 12
4.2.2 双中城市选择符合条件的最优城市 13
5总结 17
附录 18
全国个城市资本流动数据全国城市房价2020均值均为网络下载
数据处理:python(numpy,pandas,sklearn)
数据可视化:QGis,Gephi,echarts , python(bokeh,matplotlib)
3.1中国城市资本流动探索
3.1.1数据预处理
由于数据没有缺失值只有重复值,因此将同一年的重复值求和
3.1.2查看全国城市控股型投资关系
筛选出同城和跨城投资企业对数top20的城市
然后对同城投资可跨城投资的top20城市进行柱形图可视化
3.1.3 2013-2016年全国跨城市资本流动情况
Python处理数据转化为gephi和Qgis标准格式读取数据
Gephi画关系模型图,观察城市关系
Qgis画资本流动线图,观察城市关系
将Qgis数据转化为json格式,通过echarts画出动图
3.1.4 深度探索跨城市资本流动
探索2013-2016年对外控股投资笔数最多的10个城市 (当前自身经济实力强)
探索2013-2016年吸引对外控股型投资笔数最多的10个城市(具有未来发展潜力)
进行K均值聚类得到北上深经济远超其他省市
2013年-2016年北上深阵营和本地化阵营(非北上深)资本流动变化趋势
3.2全国各省市平均房价问题研究
利用PCA对跨城市投资和跨城融资的数据进行PCA降维,描述当前城市的综合实力
将房价信息与城市综合实力信息进行合并
对房价的缺失值进行拉格朗日插值,其他由于数量接近为0采用ffill()补缺
将房价标准化描述为选择优先度
通过优先度和综合实力进行Kmeans聚类,将样本分为高实力高房价,中实力中房价和低实力低房价
从中房价中实力城市中选择出最优城市
4.1中国城市资本流动探索
4.1.1查看全国城市控股型投资关系
结论1
① 从2013-2016的汇总数据来看,投资比数“同城投资”>“跨城投资”
② “同城投资”中领头的城市为北上广深及部分二线强城市,其中 深圳>北京>上海>>其他城市
③ “跨城投资”中领头的城市仍为北上广深(相互投资),或者北上广深向周边城市投资(城市群)
同城和跨城投资企业对数top20的城市2013年导2016年的对比
结论2
① 分开2013-2017年来看,每年“同城投资”、“跨城投资”均呈上升趋势
② “同城投资”中,头部城市仍为北上深(没有广州),且随着时间推移,越来越拉开和其他城市的“同城投资”差距(注意这个结论)
③ “跨城投资”中,投资关系较强的城市为“北京-上海” > “北京-深圳” > “上海-深圳” → 一线城市之间投资力度较大
4.1.2 2013-2016年全国跨城市资本流动情况
结论3
① 通过“全国跨城市资本流动OD图”可以明显看到
** 三个亮点密集的区域:长三角城市群、珠三角城市群、北京-天津城市群
** 这三个城市群与成都-重庆西部城市群构成了一个钻石形状
** 在钻石之外,仅有星星点点的东北和西部的几个亮点游离;
** 而这颗大钻石内的资本流动,占据了全国资本流动的绝大部分!!
② 通过“城市关系图”可以发现:
** 城际投资的全国城市拓扑关系 → 以“北上深”为中心的城市网络
4.1.3 深度探索跨城市资本流动
2013-2016年对外控股投资笔数最多的10个城市 (当前自身经济实力强)
探索2013-2016年吸引对外控股型投资笔数最多的10个城市(具有未来发展潜力)
结论4
① 通过“对外控股型投资笔数-城市排名TOP10”可以看出
** 北京、上海、深圳毫无悬念地包揽了前三名,且在量级上远远超过了其他城市 → 北上深在一定程度上控制着全国的资金流向和经济命脉
** 杭州 → 第四名,表现最为亮眼的省会城市,崛起的新一线城市
** 广州 → 第五名,江湖人称“北上广”三兄弟的广州,在对外投资的控制力上已经与另两位兄弟渐行渐远了
** 前10名中有5名都是长三角区域的城市,可以看到长三角地区资本的活跃程度
② 通过“吸引对外控股型投资笔数-城市排名TOP10”可以看出
** 吸引外来控股型投资笔数最多的前三名的仍然是北上深
** 在外来资本流入城市的榜单中,嘉兴挤掉了南京,进入前十名 → 相比资本对外输出,嘉兴是一个更受资本青睐的城市
2013年-2016年北上深阵营和本地化阵营(非北上深)资本流动变化趋势
结论5
“北上深阵营”高歌猛进,“本地化阵营”节节败退
① 2013年,“北上深阵营”的地盘仅仅局限于国内少数相对发达地区,以及各省省会城市
② 随着时间的推移,“北上深阵营”的势力范围逐步扩大,东北和内蒙的大部分地区纳入了“北上深阵营”
③ 越来越多的中小型城市也逐渐成为“北上深阵营”的一员
④ 北上深”越来越强大的资本力量,正在逐步地穿透中国经济的底层——三四线城市
4.2 全国各省市平均房价问题研究
利用PCA对跨城市投资和跨城融资的数据进行PCA降维,描述当前城市的综合实力
将房价标准化描述为选择优先度
通过优先度和综合实力进行Kmeans聚类,将样本分为高实力高房价,中实力中房价和低实力低房价
从中房价中实力城市中选择出最优城市
4.2.1 对当前城市房价进行分析
根据实力排名后的各城市数据top20
结论6
① 中国的平均房价与经济实力成指数型正相关
② 存在少数经济实力一般但是平均房价很高的城市,这样的城市虽然可能有独到之处,但是不适合年轻人选择
③ 中国绝大部分城市的平均房价在1W元以下,但综合实力强的城市房价极高
4.2.2 双中城市选择符合条件的最优城市
结论7
① 根据二线城市综合优先级均值排名,嘉兴,成都是权衡实力和压力之后的第一选择
② 如果十分在意房价,那么嘉兴,成都,西安等城市优先级很高,但是西安经济实力与宁波成都相差很大
③ 广州,厦门,南京虽然城市实力尚可,但是房价异常的高导致优先度极低
④ 长三角地区城市占比很高,表明长三角地区未来就业优先级非常高
⑤ 中等房价中等实力城市中东南沿海城市站主导地位
⑥ 三亚可能由于环境原因房价很高,但是对于年轻人来说优先级很低
5总结
首先,如果要干一番大事业,根据我们的2013-2016年全国跨城市资本流动情况和深度探索跨城市资本流动的分析,北上深仍然是我们的第一选择。并且根据我们查看全国城市控股型投资关系的分析,深圳的控股型投资发展速度很快,2013-2016年的总和超过了北京上海,并且随着这年份的接近,增长速度十分夸张,2016年远超北京上海,并且向外投资比例相较北京上海偏低,可以得出深圳近些年发展速度很快,是一个机会很多的城市,因此相对于北京,上海等已经发展很长时间,阶级已经相对固化的近年,深圳应该是,年轻人拼搏的第一首选
我们熟悉的北上广深一线城市,广州已经被踢出第一梯队,控股型和跨城市的投资都远不及北上深,从当前的经济实力和未来的发展前景的角度来看,因此广州并不是一个很好的一线城市选择,而且根据我们对于中等实力中等房价的城市分析来看,虽然广州实力尚可,但是房价很高,优先级依然非常低,所以广州不推荐
根据我们通过K均值聚类算法得到的二级城市,综合全国城市资本流动图来看,江苏省和浙江省值得关注,浙江省有杭州,宁波,嘉兴,江苏省有南京,苏州,均属长三角地区,武汉也紧挨着长三角地区,这表明长三角地区以目前的发展前景和经济实力综合来看属于最优选择位置,中部城市仅有成都,而北部渤海湾地区仅有天津
如果想要选择相对轻松的城市,压力不想像北上深那么大,并且还要有一定的发展空间的城市,杭州,宁波,嘉兴,成都,天津等二线城市是比较好的选择。根据我们的跨城市资本流动图与双中地区综合优先级排名可知,成都是我们一直忽略的一个西部经济中心,在未来由沿海转向内陆的过程中成都有机会成为新一线城市,
并且成都的综合实力很高,房价在双中城市中很低,因此如果想要去中部地区,成都是首选。
二线城市中打拼的优先级高,则首推的是位于长三角地区的杭州,长三角经济区中,南京的地位逐步下滑,虽然同城投资为top4,但是吸引投资企业对数未进TOP10,未来发展形势不乐观,取而代之的是杭州,杭州同城投资和南京相当,吸引投资位于top4,表明杭州未来发展趋势良好,和向外投资top5表明杭州自身经济形势十分乐观,并且同城投资也位于top5,表明自身经济增长速度很快,并且紧挨上海,未来前景一片光明,是除北上深外的首选城市
如果必须选择地理位置相对北方,环渤海经济圈中天津值得安身,并且根据我们对于查看全国城市控股型投资关系发现,虽然天津同城投资企业对数未进入top20,在跨城市投资中,北京投资天津的企业数为top4,天津的投资主要来源于北京,并且天津向外投资和接受融资都进入全国城市top10,可惜的是同城投资未进top20,得出天津经济实力很强,但是发展速度缓慢,但是如果必须选择北方,因为有北京的帮助,并且自身经济实力并不弱,因此天津仍是一个比较好的选择,
如果想要更低的房价,也可以安身大连,不过并不推荐
代码文件:
未来就业城市选择问题分析.py
未来就业城市选择问题分析.ipynb
数据:
data.xlsx
全国城市房价2020平均值.xlsx
python代码中的读写文件地址要改,直接跑的话会报错,建议先用jupyter打开ipynb的文件一个一个文件框内读懂代码,不要上来就全跑
ipynb的我都跑过一遍,因此可以复制下来对照着跑。
bokeh的表的画要自己再点一下才能生成,所以我的ipynb文件内没有显示bokeh,bokeh国内教程较少,如果想要学习可以参照官方文档,非常好用的图表工具,
QGIS和Gephi的教程的话后续可能会出,如果看不懂的话可以百度搜一搜教程之类的,本人要考研了,python这块可能要放一放了。
echart文件从QGIS3导出来的shp文件进入网站mapshaper可直接转换为geojson数据,直接复制到data中的data.js实现自己数据的动图。
线图是用QGIS 2 的小组件lineplotter画的,QGIS2 现在已经淘汰,目前QGIS3我也不会画线图,建议QGIS2画完了,导出来,然后导进去QGIS3
QGIS3 和gephi直接去官网下即可,Qgis2我会放到我的下载里面,
lineploter插件并不能直接从插件库中直接安装,可以去官网的插件库搜索lineplotter 然后通过本地安装的方式安装本插件
本人python版本是3.8所以一些方法可能与其他版本不同,python更新的挺快的,因此可以安装和我一样的版本,或者一点一点的改一改。
代码PPT和文档
QGIS2