非线性问题:多项式回归

特征分别与标签之间的关系

非线性问题:多项式回归_第1张图片
非线性问题:多项式回归_第2张图片
分类问题中特征与标签[0,1]或者[-1,1]之间关系明显是非线性的关系。除非我们 在拟合分类的概率,否则不存在例外。
非线性问题:多项式回归_第3张图片
当我们在进行分类的时候,我们的数据分布往往是这样的:
非线性问题:多项式回归_第4张图片
总结一下,对于回归问题,数据若能分布为一条直线,则是线性的,否则是非线性。对于分类问题,数据分布若能使
用一条直线来划分类别,则是线性可分的,否则数据则是线性不可分的。

线性模型与非线性模型处理非线性分布数据

非线性问题:多项式回归_第5张图片

非线性问题:多项式回归_第6张图片
,线性回归无法拟合出这条带噪音的正弦曲线的真实面貌,只能够模拟出大概的趋势(欠拟合),而决策树却
通过建立复杂的模型将几乎每个点都拟合出来了,容易过拟合。

非线性问题:多项式回归_第7张图片
非线性问题:多项式回归_第8张图片
线性模型、分箱(离散化)、非线性模型
线性模型的决策边界是平行的直线,非线性模型的决策边界是曲线或者交叉的直线。
非线性问题:多项式回归_第9张图片
线性数据:线性模型或者非线性模型
非线性数据:非线性模型、分箱(线性模型)

5.2 使用分箱处理非线性问题
让线性回归在非线性数据上表现提升的核心方法之一是对数据进行分箱,也就是离散化。
非线性问题:多项式回归_第10张图片

7. 如何选取最优的箱数

from sklearn.model_selection import cross_val_score as CVS
import numpy as np
pred,score,var = [], 

你可能感兴趣的:(回归,机器学习,算法)