初识机器学习

一、机器学习定义
Tom Mitchell 在1997年给出了一个比较官方的定义:‘A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E. ’
用周志华老师西瓜书上的翻译就是:“假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务丰获得了性能改善,则我们就说关于T和P,该程序对E进行了学习”。
通俗来讲,如果我们要利用机器去预测(评估)一个任务的结果,但是在预测(评估)过程中利用数据(经验)来使得我们任务结果得到了更准确的值,那么利用数据(经验)来改善任务结果的过程就成为机器学习。

二、机器学习的一些术语解释

这里只例举一些常用的以及我学习的时候有点懵的术语
数据集:分为训练集、测试集和验证集。
	训练集:训练模型时用到的数据集。(模型要干啥,你要提前跟它说)
	验证集:优化和改善模型时用到的数据集。(它知道自己干啥了,怎么干得更好)
	测试集:最终检验这个模型好不好。(交差的时候,别人考验你你干的如何)
数据预处理:收集的数据格式(大小、缺失值等)不统一,需要进行预先处理。
特征:以西瓜书上的例子为例,可以是西瓜的色泽,敲声,根蒂等可以作为特征。
梯度:也可以说斜度,通俗理解就是函数的导数,求损失函数时可以朝着导数方向求最大最小值。
损失函数:也就是机器预测出来的值与真实的值之间的差距。
过拟合:特征太多,认狗只认黄色的狗狗,小黑不配做狗。
欠拟合:特征太少,认狗只认俩耳朵俩眼睛,突然觉得和楼主有点像。

三、机器学习算法分类
我们以是否在训练时需要人为监督将算法分为四类:
1.监督学习
2.无监督学习
3.半监督学习
4.强化学习

监督学习初识机器学习_第1张图片以猫狗数据集为例,所标注的即为该数据对应的标签。在监督学习任务中的训练集数据都是有标签的,所解决的任务类型可以为分类或者回归。主要的监督学习算法有:
• k-Nearest Neighbors(K近邻算法)

• Linear Regression(线性回归)

• Logistic Regression(逻辑回归)

• Support Vector Machines (支持向量机)

• Decision Trees and Random Forests(决策树与随机森林)

• Neural networks (神经网络)

无监督学习
初识机器学习_第2张图片无监督学习与监督学习不同,它的训练数据集里没有数据标签,其中主要涉及到的一些无监督学习的算法有:
• Clustering(聚类)

— k-Means(K均值算法)

— Learning Vector Quantization(学习向量量化)

— Mixture of Gaussian(高斯混合聚类)

— density based clustering(密度聚类)

— hierarchical clustering(层次聚类)

半监督学习
初识机器学习_第3张图片半监督学习任务中的训练数据集少部分有标签,而大部分是没有标签的。半监督学习算法一般不单独使用,与监督学习或无监督学习联合使用。

强化学习
初识机器学习_第4张图片强化学习是深度学习里的一种算法,如上图所示,它可以根据周围环境来执行下一步操作,我们给每一种操作设置一种奖励分数,机器根据每次操作所得到的分数去学习,最终得到最高的分数。

楼主是一个刚入门的小白,希望不会误导大家,有错请指正。

本文借鉴: https://zhuanlan.zhihu.com/p/34592108

你可能感兴趣的:(入门学习,机器学习,python,神经网络,人工智能)