监督学习
定义
给算法一个数据集,其中包含了“正确答案”,算法的目的是给出更多的正确答案
重要前提
监督学习假设数据是独立同分布产生的
监督学习假设输入 X 与输出 Y 遵循联合概率分布 P(X, Y)
监督学习与非监督学习的主要区别是, 在非监督学习中,类别信息是不被提前知道的,在学习的过程中使用的训练样本通常不具有标记信息
无监督学习
定义
只给算法一个数据集,但是不给数据集的正确答案,由算法自行分类。
无监督学习中没有任何的标签或者是只有有相同的标签。所以我们已知数据集,却不知如何处理,也未告知每个数据点是什么。
针对数据集,无监督学习就能判断出数据有两个不同的聚集簇。这是一个,那是另一个,二者不同。是的,无监督学习算法可能会把这些数据分成两个不同的簇,所以也叫做聚类算法。
线性回归算法
回归这个词的意思是,我们在试着推测出这一系列的数据是连续值属性。
ℎ() = 0 + 1,因为只含有一个特征/输入变量,这样的问题叫作单变量线性回归问题。
损失函数:在线性回归问题中,平方误差函数是最常用的手段。
特征,目标变量,训练样本
目标: 最小化代价函数,即minimize J(θ0, θ1)
训练,测试
线性模型
损失(代价)函数也被称为平方误差函数或者平方误差代价函数。
梯度下降法
用均方差做损失函数
过拟合,欠拟合
普通线性回归和局部加权线性回归的差异