题主目前正在入门数据分析,接下来的时间会把自己的学习轨迹记录下来分享给大家,和大家共勉!
1.扯点前言 |
---|
2.数据分析师的职业素养 |
3.由两个实例讲述初步接触数据分析 |
1.1任何学习的方法论
理论知识(像大学内学习到的内容是可以通过勤奋读书获得的),但是将知识转换为能让你收益的商业智慧,是需要体验(自己策划一个方案、动手尝试、得到反馈、再次调整方案)为基础的
1.2刻意练习-学以致用
学到的知识要刻意结合自己的工作场景进行连续,才能学得快乐,学以致用会让你学得上瘾!
1.3为什么各行业都要学习数据分析?
学会建立个人壁垒:职业背景+数据分析能力
单拼职业能力或者数据分析能力我们可能搞不过术业专攻的,因此我们要给自己建立壁垒。
在职业人群中你有数据分析能力,在职业分析师中,你有行业背景能够带领技术团队!
1.4
数学和算法的区别
算法不等于数学,数学要探索,算法只要理解+记忆方法,算法只是应用型的工科数学而已
1.5数据分析VS数据挖掘
数据分析没用到机器学习,挖掘用到机器学习
1.6数据分析的一般流程
注意3分析算法和4可视化表达是不断迭代的。根据可视化输出调整分析算法。调整的算法又产生新的输出
相对于软实力(思维)的培养,技术永远是最好学的,一个好的数据分析师重要的是软(分析思维)积累!
1.8警惕走马观花(刷视频)学习法
人的短期有效记忆只有3h
因此对于读书/视频内容要定期做完整的笔记总结
对于书/视频中出现的代码要自己敲一遍,注释详尽规范,并且整理出简单的功能伪代码框架。
1.9目标导向
一切不以现实利益(学生党为了能上更好的学校或得到更好的成绩 工作党升职加薪)为目的的学习都是耍流氓!
1.10数据可视化的功能需求和非功能需求
数据可视化的功能需求(本质目的):是为了挖掘数据背后的规律
数据可视化的非功能需求(锦上添花):展示形式高大上:是为了更好地展现规律
因此不要舍本逐末,过度追究展示形式的高大上,reason1浪费时间 reason2有时复杂的展示形式不一定会比简单的展示形式好
2.1好奇,是数据分析师进步的动力
要时时刻刻保持对数据的热情,我有了大数据就能搞事情
2.2谨慎,是数据分析师成熟的标志
得到结果不要轻易发布,只经过一种方法得到的结果往往是偏颇甚至错误的
没有完美的的数据,没有完美的方法
解决方法–多维数据比较验证
3责任,是数据分析师存在的意义
我们要坚信数据分析得到的结果一定能运用到发现社会问题,改善社会建设中去,数据分析任重而道远。
3.2.1得出结论
a人口自然增长率在减少
b各个阶段增长/下降的幅度(加速度)不同
c出现两个小凹槽
c.1第一个凹槽上升是因为1985年中国婴儿潮
c.2第二个凹槽只下降不上升
国家统计局给出的解释
16-25岁适龄生育女性数量减少
左图发现2015年女性分布最多的在25岁,确实和最佳生育年龄24岁有一岁之差
右图发现观察以往数据羊年封建传统确实有不生孩子的传统
并不是所有的数据都用酷炫可视化的图,效果最好,而是根据你的研究来定
a例如此题三问南丁格尔玫瑰图就没有柱状图好用
b但是如果研究人口老龄化使中国人口收缩就可以用玫瑰图
注南丁格尔玫瑰图
a每个分类所占角度平分360
b各色块圆饼区均由圆心往外的面积来表现数字
3.3.1爬取链家房产数据,我们会发现其实链家每个城市只给出前100页(每页20个)的房源数据,用这样的局部数据用来衡量整体城市房价太过偏颇
局部数据解决方案
a公司战略合作直接从链家数据库得到原始数据
b提高爬虫技术获得全部数据
3.3.2就算我们得到全部数据得到的结论不一定正确
a链家等二手房交易平台报价会低于实际房价来吸引更多关注
b地址信息给的不详细,不精确(eg给一个小区名称)这样在小范围分析房产信息不一定能得到精确的结论
解决方法
数据清洗
纵轴:误差
横轴:房价
尝试多种方法降低误差,发现八万以下的房价预测较为准确,八万以上的房价预测误差较大
(可能原因:豪宅数据太少,受区位因素的影响大)
所以说即使进行了步骤正确的数据分析(本例采用了多个模型进行分析,为降低误差率,最后还是无法突破百分之8的最小误差),结果也不一定是正确的,数据分析师对待数据一定要谨慎!
重点:一次性得到的结果绝对是不符合要求或说问题很大的,要多次进行调整方法和可视化输出的循环改良,得到最终输出
b其中弧的长度代表每个城市大学生的数量
c具体看每个城市大学生去向需要辅助图(拆分为每个城市为单位输出)
d制作方法–1用python进行数据处理2将数据结果输入D3(一个基于js的画图网站)
3.4.2动态大屏
3.4.3可视化图表
3.4.4各类制图及相应软件
多看看D3 Echart的gallery 可以使你对于数据输出提升很大
3.4.5其他推荐
推荐课程
强烈推荐:3blue1brown数学教程
https://space.bilibili.com/88461692?from=search&seid=2041065308167205854#/channel/detail?cid=9450
课程配套python动画模型
大神使用的库manim,基于py2.7
https://github.com/3b1b/manim
b站上研究大神的库的中文解释
https://www.bilibili.com/read/cv19963