推荐系统笔记(二)

机器学习

  • 概念:通过输入海量训练数据对模型进行训练,使模型掌握数据所蕴含的潜在规律,进而对新输入的数据进行准确的分类或者预测。是一门多领域交叉的学科,涉及了统计学、概率论、算法复杂度理论等多门学科。专门研究计算机怎样模拟人类的学习行为,以获取新的知识和技能,然后重新组织已有的知识结构,使之不断改善自身的性能。
  • 分类
    监督学习:提供数据并提供数据对应的结果。这些数据称为训练数据。
    包括分类回归
    分类是输出被限制为有限的离散数值;分类问题包括学习和分类两个过程。学习过程中,根据已知的训练数据集,利用学习方法学习一个分类器,在分类过程中,利用已得的分类器对新输入的数据进行分类。可以用很多学习方法来解决,例如K邻近、决策树、支撑向量机、神经网络等。
    TP:正确的匹配数目
    FP:误报,没有的匹配不正确
    FN:漏报,没有找到正确匹配的数目
    TN:正确的非匹配数目
    准确率(正确率)=所有预测正确的样本/总的样本 (TP+TN)/总
    精确率= 将正类预测为正类 / 所有预测为正类 TP/(TP+FP)
    召回率 = 将正类预测为正类 / 所有正真的正类 TP/(TP+FN)
    回归是输出是范围内的连续数值。相似度学习是使用相似性函数从样本中学习,可度量两个对象之间的关联度。
    无监督学习:提供数据并不提供数据对应的结果。仅有输入数据,通过寻找数据中的内在结构来进行样本点的分组或聚类。应用是统计学中的密度估计和聚类分析。
    强化学习:通过与环境交互,获取延迟反馈,进而改进行为。
  • 监督学习
    步骤1:构建问题,选择模型
    步骤2:收集已知数据
    步骤3:训练出理想模型
    步骤4:对新用户进行预测
    三要素
    模型:总结数据的内在规律,用数学函数描述的系统。
    策略:选取最优模型的评价准则。
    算法:选取最优模型的具体方法。
    模型评估策略
    训练集:输入到模型中,对模型进行训练的数据集合。
    测试集:模型训练完成后,测试训练效果的数据集合。
    损失函数:用来衡量模型预测误差大小,损失函数值越小,模型就越好。
    经验风险:关于训练数据集的平均损失。
    经验风险最小化 ERM:认为经验风险最小的模型就是最优模型。样本足够大的时候ok,样本小的时候有问题。
    过拟合:指的是模型的训练结果“太好了”,以至于在实际应用的过程中,会存在“死板”的情况,导致分类错误。
    欠拟合:特征集过小,模型的训练结果不理想。
    结构风险最小化 SRM:在ERM基础上,为了防止过拟合,在经验风险上加上正则化项(模型越复杂,正则化值越大)
    奥卡姆剃刀原理:如务必要,勿增实体。
    交叉验证:简单交叉验证(数据随机分成两部分,分别做训练集和测试集)、S折交叉验证(S-1个做训练集,剩一个做测试集)、留一交叉验证
    模型求解算法
    梯度下降算法:梯度方向:函数变化增加最快的方向。让系数沿着损失函数的负梯度方向变化,此时损失函数减少最快,能以最快的速度下降到极小值。
    牛顿法和拟牛顿法

python

python是解释型语言,意味着没有编译环节。可读性好、面向对象、是交互式语言。

你可能感兴趣的:(推荐系统笔记(二))