开启机器学习模式(孤军奋战且行且珍惜)

今天在知乎上认识了“猴子聊人物”里的猴子。源头是之前看过一个研究生小姐姐写的文章,她是通过kaggle进行练习来提高自己的数据分析能力,(已经看完了沈浩老师的媒体大数据分析课程,也学了简单地python内容)我也准备用kaggle开始锻炼自己。小白的我找了好多B站视频,都是直接起步开始练项目或者如何冲击奖金。最后在知乎找到了这个https://www.zhihu.com/lives/934023671148949504?utm_source=wechat_session&utm_medium=social&utm_oi=698496002927120384

我的目标很小,就是做一个项目,完整的从头到尾。毕竟没有数据(爬虫不是一个多么光彩的行为),希望kaggle能让我慢慢入门。

1.什么是机器学习

橘子如果是嫩黄的就是甜的(普通计算机算法)

机器学习算法:有标签,判断特征,输出结果:甜不甜

人工智能>机器学习>深度学习

机器学习步骤:提出问题——理解数据——数据清洗——构建模型——评估

猴子喜欢Beyond的《不再犹豫》,特征:节奏、强度、听歌时长,输出标签:喜欢或者不喜欢

Python机器学习包sklearn (会用即可)

(中间分神了:找英语BGM,最近还是有计划要考雅思,英语差是我一大硬伤,这辈子不克服一直是阴影)

相关性分析、数据集、散点图、正线性相关(某个统计量>0)、负线性相关(某个统计量<0)、不是线性相关

协方差:cov(X,Y)= E 【(X—E[X])(Y—E[Y])】

2个数据点的协方差 

[(x1-ux)(y1-uy)+(x1-ux)(y1-uy)] / 2

相关系数r = x和y 的协方差/ x的标准差 X y的标准差 

相关系数越靠近1,越相关

python实现:rDF = examDF. corr()

最佳拟合线 回归方程y=a(截距)+bx(回归系数)

建立训练数据和测试数据

训练模型

分析错误信息

决定系数R平方

有多少百分比的Y波动被回归线描述= 1- 误差平方和/总波动 = 决定系数R平方

R平方越高,回归模型越精确

你可能感兴趣的:(开启机器学习模式(孤军奋战且行且珍惜))