=======================================================================
(1)监督学习:有数据和标签,学习一个模型预测一个输出(决策函数)
应用:分类问题,回归问题
常见算法:逻辑回归,反向传递神经网络
(2)非监督学习:有数据无标签
应用:推断数据内部结构,关联规则,聚类
常见算法:Apriori算法,k-Means算法
(3)半监督学习:部分数据有标签,部分数据无标签
应用:分类问题,回归问题,通过有标签的数据建立模型预测没有标签的数据
常见算法:图论推理算法(Graph Inference),拉普拉斯向量机(Laplacian SVM)
(4)弱监督学习:有数据和标签,但标签不准确
应用:训练弱标签的数据来得到强标签的数据集
=====================================================================================
(5)分类算法
分类问题:数据输出为0或者1进行分类
回归:数据输出为概率事件([0,1])
算法:贝叶斯(Bayes) 【估计参数少,不敏感缺失数据;需要知道先验概率】
决策树(Decision Tree)【不估计参数,适合大量数据和高维数据;忽略属性之间相关性易于过拟合】
支持向量机(SVM) 【所需样本少,适合高维非线性数据;敏感缺失数据,操作难度高】
K近邻(KNN) 【适合非线性分类,不敏感outlier;计算量大,输出解释性差】
逻辑回归(Logistic Regression)【特征权重分明,易于吸收新数据;特征处理复杂】
神经网络(Neural Network) 【易于分布式存储和学习,鲁棒性强;参数量大,时间太长】
Adaboosting 【高精度分类器,构建弱分类器一步步得到强分类器;敏感outlier】
(6)神经网络:将多个神经元通过一定规则一层层连接起来
包括输入层,输出层,隐藏层;上一层的输出作为这一层的输出,同层之间不连接
=======================================================================
(7)分类算法的评估
1.常用术语:
True Positives(TP): 实际为正例,也被正确划分为正例
False Positives(FP): 实际为负例,但被错误划分为正例
True Negatives(TN): 实际为负例,也被正确划分为负例
False Negatives(FN):实际为正例,但被错误划分为负例
则:P=TP+FN为实际为正例的个数,N=FP+TN表示实际为负例的个数
实际类标=TF*PN,T=1,F=-1;P=1,N=-1;
则:True Positive=1*1=1,则实际为正例;False Positive=-1*1=-1,则实际为负例
2.评价指标
正确率(accuracy)=(TP+TN) / (P+N) 错误率(error rate)=(FP+FN) / (P+N) accuracy+error rate=1
灵敏度(sensitive)=召回力(recall)=TP / P【衡量分类器对正例的识别能力】
特效度(specificity)=TN / N【衡量分类器对负例的识别能力】
精度(precision)=TP / (TP/FP)
综合分类率(考虑了查准率和查全率):
满足一定正确率的前提下,召回率尽量高的分类器就好
======================================================================
(7)大数据、机器学习、数据挖掘
大数据:超出常用软件工具捕获,管理和处理能力的数据集
机器学习:构建计算机程序,使机器根据经验自动改进
数据挖掘:从数据中提取模式的特定算法的应用。
深度学习:建立、模拟人脑进行分析学习的神经网络,模仿人脑的机制来解释数据
深度学习与大数据:将你的大数据通过深度分析变为现实
===================================================================
(8)逻辑回归:适用于目标和特征是线性关系的分类器,通常用于监督学习
将连续的回归数据通过映射变成不连续的数据从而进行分类判别(数据采样)
1)如果是连续的,就是多重线性回归;
2)如果是二项分布,就是 Logistic 回归;
3)如果是 Poisson 分布,就是 Poisson 回归;
4)如果是负二项分布,就是负二项回归;
(9)生成模型和判别模型: P(Y|X)= P(X,Y)/ P(X)
生成模型估计的是联合概率分布(joint probability distribution)
联合概率密度分布P(X,Y) ——> 条件概率分布P(Y|X)
生成方法关心的是给定输入x产生输出y的生成关系。
先根据历史每个不同特征的数据生成对应模型再根据以前的特征一一判断(构建多个模型)
判别模型估计的是条件概率分布(conditional distribution)
直接学习决策函数f(X)f(X)或者条件概率分布P(Y|X)P(Y|X)
判别方法关心的是对于给定的输入X,应该预测什么样的输出Y。
根据数据直接判断输出(构建一个模型)