• 重视基础
• 归纳总结,构建自己知识体系
• 推荐使用xmind思维导图
• 三多法则
• 多练习
• 多应用
• 多思考
• 数据分析班级到课人数
• 有8人不来上课,这是数据分析吗?
这是现象,不是原因,所以这肯定不是数据分析。
若是班主任的业务能力比较强,他对每个同学的上课情况都十分了解可能有五个同学一直加班,比较忙所以没有来上课,还有两个是因为跟不上了,还有一个在谈对象。这才是原因,然后会有解决方案,比如因为有跟不上的同学,那么老师就会放慢进度,放慢语速,对于加班忙的同学,老师会敦促他们空闲时间是否已经补课,看录播了,当然那个谈对象的同学就没有解决方案 [dog]
所以我们会发现这种业务型的数据分析 需要分析数据找到原因然后提供解决方案 ,这就是完整的闭环。
那么数据挖掘又是什么?
数据挖掘跟数据分析不一样,数据挖掘基本上大量的工作在建模,比如通过大量的数据去训练模型,得到一个最简单的模型,比如y=kx+b 这是一种线性回归。要想确定这条线,首先得确定k 和b 两个参数 那数据挖掘是什么?就好比说我们有一系列的数据,x呢是我们的样本数据,y是我们的预测数据,我们通过大量的数据训练出k和b,也可以说是拟合。那么假如我们得出了k=1,b=2, 那么就有了y=x+2了,就有了一条准线,这条线就是模型,那么当我们有新的样本数据,x=1时,y=3,意思就是我们有了新的样本数据就可以获得预测值。这就是一个最简单得模型。这就是一个机器学习或者数据挖掘的过程。简单来说就是通过大量数据训练出一个模型,这个训练的过程就是求参。求得参数以后就能用新的数据代入这个模型来求得预测结果,当然这个是通俗的来说,如果详细的来讲,会涉及到很多东西,比如哪一个k b误差是最小的。
数据分析的这三个库是机器学习的基础,没有这三个库的知识储备的话,学习机器学习是比较为难的。
这里注意一下我们的jupyter是直接可以写数据分析报告的,当然很多公司都是用ppt来展示的,jupyter没有那么美观,jupyter是一个编辑器
• 在课程每小段知识点讲解完毕之后: 会跟大家进行互动,那么希望大家积极的反馈该知识点的学习情况。
• 如有大部分同学反馈有疑问,则会停下来重新解释。但是同一个问题课题上重复讲解不超过2次。
• 关于课程我们会根据课堂内容适当拖堂,但考虑大家次日上班以及学习的效率问题,一般不会超过22:30。
• 关于直播 VS 录播
• 希望大家享受学习的过程,直播可以帮助大家更高效的学习。
• 录播建议
• 若没上直播课程,课后一定要抽时间补上录播,避免后期跟不上。
• 录播学习不建议重复,如有需要建议先看课程笔记,带着疑问跟回放。
• 课堂纪律:不允许迟到早退,有请假的要提前和班主任老师或者我进行说明/ 对于要退出课堂的同学要在公屏说明原因。
• 关于节假日:国家法定节假日都正常休息,大家可以自由安排行程(如有特殊安排,会及时群公告说明)
只有坚持耐得住寂寞才能有成效
• 用适当的统计分析方法对收集来的大量数据进行分析
• 提取有用信息和形成结论
• 对数据加以详细研究和概括总结的过程
我们举一个例子,比如一个公司是销售型的,我们需要分析它的销售线状(线状分析),