机器学习算法的过程

一、任务分析

1. 引言

基于SVM的尿沉渣红、白细胞识别:
任务:识别尿沉淀物中的红细胞和白细胞;
下图是标注过的训练样本,左边是白细胞,右边是红细胞;

机器学习算法的过程_第1张图片

2.对数据要有认知

在这个任务中,当我们拿到数据之后,构建机器学习算法的第一步:
是观察数据,总结规律;
(最近几年由于大数据和深度学习的发展,很多人会认为,只要收集
足够多的数据,从网上随便下载一个开源的算法模型,直接将
数据丢到算法模型中去训练,就可能获得很好的结果,这样
的观点在大多数时候不正确,偶尔可能正确也是误打误撞的结果
,如果我们自身对数据没有认知,我们很难设计出好的算法,
也很难估计算法可能达到的性能极限)

3. 观察数据得到信息

仔细观察,图中左边的白细胞和右边的红细胞有什么区别呢?
有可能被观察到的区别:
1.平均来说,白细胞面积比红细胞大;
2.白细胞没有红细胞圆;
3.白细胞内部纹理比红细胞粗糙。

机器学习的第一步是特征提取(Feature Extraction);
特征提取:通过训练样本获得的,对机器学习任务有帮助的
多纬度特征数据。

4. 机器学习第一步:提取特征(Feature Extraction)

对于此项目,提取三类特征:(认真观察数据后得出的结果)
(1)细胞的面积
(2)圆形度
(3)表面粗糙程度

(1)提取以上这三种特征的方法:

a. 提取面积特征的方法:

机器学习算法的过程_第2张图片

1.采用图像处理中的链码,来提取细胞的边缘信息,
从细胞的边缘信息来推测出细胞的周长和面积,同时又基于边
缘的信息,用图像处理中的哈夫(Hough)变换,提取细胞的
圆形程度,接着又利用灰度共生矩阵,提取细胞的粗糙程度;
2.

(2)注意事项!

机器学习的重点,不是研究如何提取特征,而是假设在已经提取好这么些特征的前提下–>如何构造算法获得更好的性能指标,所以,我们不过多的研究如何提取特征,但是这并不意味着提取特征这一步不重要,相反特征提取对于机器学习系统及其重要,实践表明,如果我们提取了好的特征,哪怕用差一点的机器学习算法也能获得不错的性能;反之如果我们提取的特征很差,无法反映出训练样本的内在规律,那么哪怕我们用再好的机器学习算法,也不可能获得好的性能。

(3)为什么不重点研究提取特征呢?

因为不同的任务提取特征的方式有不同:
例如:图像,语音,等媒质的物理属性各不相同,同时机器学
习的任务也各不相同,因此针对不同的媒质不同的任务,提取
特征的方式千变万化(涉及内容很多);
因此机器学习课程缩小了研究范围,假设在已经获得了特征的
前提下,研究合理的算法,使学习系统获得较好的性能。

5. 机器学习第二步:特征选择(Feature Selection)

在提取特征这一步做完后,下一步是对特征进行取舍,称为特征选择

(1)特征选择(对各个特征区分度分析)

机器学习算法的过程_第3张图片
机器学习算法的过程_第4张图片
机器学习算法的过程_第5张图片

红色表示红细胞的特征
蓝色表示白细胞的特征
见上图,红细胞和白细胞每个样例对应的特征值
由周长和面积图可知,区分白细胞和红细胞的准确度是非常高的,因为蓝色的线和红色的线重合的地方很少;
在圆形度这个特征上,尽管红细胞的平均值要高一些,但是红细胞的圆形度和白细胞的圆形度重合的
地方还是很多的;
因此我们若是只采用圆形度作为区分红细胞和白细胞的特征,识别度不会特别的高

机器学习算法的过程_第6张图片

以上这五个灰度XX的特征区分度也不是很高

所以,最终决定,选择面积和周长作为区分白细胞和红细胞的特征,来构建机器学习系统

6.机器学习第三步:如何基于这两个特征构建算法?

(1)支持向量机(SUPPORT VECTOR MACHINE)

此处用到了支持向量机的三种内核:线性内核、多项式核、高斯径向基函数核(可以将这三种内核看成是三种不同的机器学习算法)

(2)(对训练结果的处理)将所有的白细胞和红细胞画到一张二维的图上

机器学习算法的过程_第7张图片

横坐标代表面积,纵坐标代表周长特征(对此,做了一定程度的归一化),将这两个特征的数值归一
化到+1-1之间;
将这两个特征组成的二维平面,称为特征空间(Feature Space),在此例中,特征空间是二维的,
如果我们采用了多个特征,那么特征空间的维度可以高于二维;
可以看到,在这个二维的特征空间中,绿色代表红细胞,红色代表白细胞,接下来利用前面提到的三
种不同的算法,在这个特征空间的图上,画出了三条不同的线,不同的机器学习算会画出不同的线
,同时一旦画出这条线,机器学习的过程就已经完成了;
why?

机器学习算法的过程_第8张图片

如果输入一个新的样本,我们怎么预测它是白细胞还是红细胞呢?
先计算面积再计算周长,然后,把新样本按照面积和周长这两个维度的位置关系,画到此图上,如果
新样本落在这条线的左边,则判之为红细胞;若新样本落在此线条的右边,则判之为白细胞。
只有画出了这条线,我们就能预测新样本的类别。
重点:
因此,在这个例子中,机器学习的过程就是设计一个算法画出这样一条曲线。

(3)维度

此例子中,就提取了面积和周长两个特征,特征空间是二维的,只有面积和周长两个维度,所以能很容易发现其规律,并画出来曲线;但是,若是特征空间的维度极高,例如我们提取了上万个特征,产生了上万维的特征空间,这规律就不好看出来了。

在最近流行的深度学习算法模型中,特征空间经常是几万维,甚至几十万维的,人眼对于超过三维的
世界缺乏想象力,人看不到。
但是,目前的机器学习算法,在处理高维特征空间方面,表现出优异的性能,远远超越了人类对于高
维空间的想象。哪怕是对于上万维的空间,机器学习也可以给出一个预测的结果,而且这个结果在很
多时候,还那么的准确。

(4)标准:对某一些区域的划分是不一样的

机器学习算法的过程_第9张图片

图中,对于同一块区域,但是上面的图中的方法认为这是红细胞,下面的图中的方法认为这是白细胞
  • 会引出哪种机器学习的算法更好这样的问题。
  • 这些线是根据有限的训练样本画的,目的是预测新样本的类别,我们无法重建所有的新样本。(即无法将世界上所有的红细胞,白细胞一一列举到图上)。
  • 无法得出一个绝对意义的好和坏的标准。

如何针对不同应用场景选择合适的机器学习算法?
构造新的机器学习算法,解决目前无法解决的应用场景。
理论 + 实践
深入研究

7. 三种算法在测试集上准确率的比较

机器学习算法的过程_第10张图片

8. 总结机器学习算法的流程

机器学习算法的过程_第11张图片

你可能感兴趣的:(机器学习,算法,深度学习)