吴恩达机器学习笔记1 初识机器学习

本章节主要介绍了监督学习和无监督学习的概念与举例,适合小白入门机器学习。

1. 监督学习

监督学习指的就是我们给学习算法一个数据集。这个数据集由“正确答案”组成。

房价问题

首先给了一系列房子的数据,然后给定数据集中每个样本实际的售价,然后运用学习算法,算出更多的正确答案。这是一个回归问题,回归是指预测连续值的属性。可以用一条直线、二次函数或二阶多项式拟合数据做出预测。
吴恩达机器学习笔记1 初识机器学习_第1张图片

肿瘤问题

假设想通过查看病历来推测乳腺癌良性与否,例如这组数据:横轴表示肿瘤的大小,纵轴上1表示恶性肿瘤,0表示不是恶性肿瘤。这是一个分类问题,分类是预测离散值的输出,输出可以是多个值。比如说可能有三种乳腺癌,则要预测离散输出0、1、2、3。
吴恩达机器学习笔记1 初识机器学习_第2张图片

在其他机器学习问题中,我们通常有更多的特征。例如肿瘤问题中常采用肿块密度,肿瘤细胞尺寸的一致性和形状的一致性等等这些特征。
吴恩达机器学习笔记1 初识机器学习_第3张图片

当存在无限多种特征时,如何选择预测模型?这将在后面的课程中进行介绍。

2. 无监督学习

无监督学习的数据集没有任何标签,就是给算法一个数据集,但不知道哪些样本是什么类型也不知道有哪些类型,并希望算法从数据中找出某种结构。例如自动将数据分为两个不同的簇,即聚类算法。

应用

  • 组织大型计算机集群。解决什么样的机器易于协同地工作,能让数据中心工作得更高效。
  • 社交网络的分析。自动地给出朋友的分组,识别出同属一个圈子的朋友。
  • 市场分割。许多公司有大型的数据库,存储消费者信息。检索这些顾客数据集,自动找出不同的市场分割,并自动地把顾客划分到不同的细分市场中,实现在不同的细分市场中进行自动高效的销售。

鸡尾酒宴问题

两个人在同时讲话,两个不同位置的麦克风分别录下了这些重叠的声音。通过无监督学习算法找出数据的结构,可以分离出两个音频源。一行代码就可以完成这个算法:

[W,s,v] = svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x’);
svd是奇异值分解。

下一章将介绍单变量线性回归。

你可能感兴趣的:(机器学习,机器学习)