首先明确概念:
回归:预测体重、预测房价、预测损失。 结果是不容易确定的。
分类:预测男女、预测是否能通过考试 结果是容易确定的。
我的理解:回归针对连续的数据、分类针对离散的数据。 回归连续、分类离散。
classfication和regression的区别:
回归的是求topk的value求平均值;
分类是求topk中出现最多的类别。
例子:预测房价(回归例子)
根据经度、维度->预测房屋价格
numpy中数组的特性:广播效应
减法时会自动匹配每一行/列
思路:
拿到feature(影响结果的影响因子)与预测的作差平方和 开方 得到欧式距离 然后利用argsort得到下标的升序排序,通过label访问下标的值+k值预测 求得平均值。
包装成函数看看:
注意:不管是feature/label还是predictPoint这些都是np下的数组 才能使用广播响应。
为什么这里不使用归一化?
因为数据之间差异太大,使得处理后的数据不集中 不好获得理想预测结果。
可以使用标准化来解决一下:
数据标准化的格式,仔细看看有点复杂 但是Python的第三库已经写好了!
最后的最后,分享给大家:
数学的学习方法:
试着去理解原理、理解数学背后的原理;
避免抽象数学和理论数学;
结论不靠数学公式证明,靠的是编写程序实验证明。
原理->应用