scikit-learn机器学习笔记(11.22)

启言:

机器学习通过使用过去的经验去指导未来的决策,它的基础目标是归纳,或者从一种未知规则的应用例子中归纳出未知规则。

一、机器学习的定义

一个程序:性能体现在“T”,衡量性能用“P”,提升性能通过经验“E”

可视为:针对一些“T”类型,通过“P”来衡量性能的的任务,从经验“E”中进行学习

二、从经验“E”中学习(监督下和无监督下)

(1)监督学习:“对于输入数据X能预测变量Y”通过标记的输入和输出进行学习,并预测一个输入或输出,也就是:从“正确答案”的例子中进行学习。它在训练集中找规律,然后对测试数据运用这种规律。

常见的监督学习任务:分类回归

1)分类:分类的目标变量是标称型的,以电影分类为例,一部电影无非是动作片、爱情片、喜剧片等类别。

常见的分类算法:

a.KNN:k-近邻算法,使用距离测量的方法进行分类

b.NaiveBayes朴素贝叶斯,基于概率论的分类方法,贝叶斯公式。

c.DecisionTree:决策树,通过选区最优特征划分数据集,构建一棵树,表示我们的整个决策过程

d.LogisticRegression:逻辑回归,是一种分类算法,就是回归+Sigmoid函数

2)回归:而回归的目标变量是连续数值型的,如果预测某小区房价,则可能是任意正数了。

常见的回归算法:

a.LinearRegression:线性回归,有时也称回归

(2)无监督学习:“从数据X中能发现什么”,不从标记的数据中学习,它自己尝试在数据中发现模式。它没有训练集,只有一组数据,在该组数据集内寻找规律。(例:比如,一组颜色各异的积木,它可以按形状为维度来分类,也可以按颜色为维度来分类。分析数据集有什么特点都可以归于无监督学习方法的范畴)

常见的无监督学习任务:聚类降维

1)聚类:将数据按相似度聚类(clustering)成不同的分组

常见的聚类方法:

K 均值聚类

2)降维(reducing dimensionality),以便在保留数据结构和有用性的同时对数据进行压缩

两种实际中很常用的降维技术:

主成分分析和奇异值分解

(3)机器学习术语:

输入变量:特征。

输出变量:响应变量,其他包括:回归变量、被解释变量、应答。

输入变量代表的现象:解释变量,其他包括:预测器、回归器。

该两个可以是实数值也可以是离散值

你可能感兴趣的:(机器学习,scikit-learn,sklearn)