大数据开发之机器学习总结(一)

大数据开发之机器学习总结

1. 背景

  1. 在大数据开发中,数据分析目的一般分为2大类,一个是基于已有数据,提炼出想要的数据汇总信息。一个是基于已有数据使用算法训练出模型,基于模型预测和分析未来的新数据。
  2. 前者就是很多时候的大数据分析场景,后者则涉及到算法模型,机器学习的范畴。更进一步,人工智能,但机器学习和人工智能,本身其实技术上并没有非常严格的界限。

2. 机器学习概念

  1. 机器学习,故名思意,让机器通过学习过去的经验数据,然后可以更好处理现在和未来的任务。
  2. 官方定义,研究计算机对于特定任务的性能,逐步改善算法和统计模型。

通过海量数据训练模型,使得模型掌握数据所蕴含的潜在规律,对新输入的数据做准确分类或者预测。
多学科交叉,涉及概率统计,逼近论,凸优化,算法复杂度等学科

  1. 机器学习流程大数据开发之机器学习总结(一)_第1张图片

3. 机器学习分类

  1. 有监督学习
  1. 注意,机器学习需要输入大量的训练数据
    监督学习就是在数据输入时,还会给出这个输入数据的特征和目标,一般这个目标和特征都是认为标定给出的。
    其实监督学习,可以看成是手把手教学,告诉机器这是什么,有什么特点。当输入的数据足够多,机器就能够提炼出这些输入数据的特点,当输入相似的新数据时,就能快速区分和预测出结果。
    上述流程其实和人小孩学习新事物时,非常相像
  2. 监督学习下,训练的数据称之为训练集,测试用的数据称之为测试集。注意这里,一个模型的的训练,需亚有专门的训练集,训练出来之后,还需要使用测试集合数据验证。所以训练集和测试集合数据一定不能重合,否则就会失去测试的意义。
  3. 模型的训练是一个不断调整优化过程,也就是有一个迭代过程。在这个过程中,训练出的模型会不断优化,直到得到一个预期的模型。
  4. 常见监督学习算法

你可能感兴趣的:(大数据,机器学习,用户画像,机器学习,大数据,算法)