学习能力是智能的本质
人工智能 => 机器学习 => 深度学习
什么是机器学习?
baidu:多领域交叉学科(做什么)
wiki:the study of algorithms and mathematical models(怎么做)
人工智能的核心是使计算机具有智能的根本途径
大数据建模分析的理论和方法
依赖的理论和方法:统计学、机器学习、数据挖掘、深度学习
统计学:人工学习特征,人工学习规律
机器学习:人工学习特征,自动学习规律
深度学习:自动学习特征,自动学习规律
实现基础:数据库、数据仓库、分布式存储、并行计算、流式计算、GPU加速…
机器学习历史
神经网络发展3起2落
历史数据:训练模型
新数据:输入模型
结果:由模型预测
即,自动学习数据规律,解决分类/回归/聚类等问题
机器学习的实质:寻找函数
本质:通过构建数学模型,从数据中学习特征和规律,收获有用的知识
根据反馈的不同,学习技术分为:
半监督学习案例:图片分类
step1:用有标签图片训练分类器
step2:对无标签的数据进行分类,按照信任度从大到小排序
step3:将信任度最高的图片自动加入标识项
step4:重新训练分类器,重复step2—step4
1:数据预处理(数据清洗、数据集成、数据采样)
数据完整性、一致性、合法性等
数据采样均衡:(例如二分类问题的正负样本悬殊)
数据集拆分:
2:特征工程(特征编码、特征选择、特征降维、规范化)
特征降维:减小特征矩阵,降低计算量和训练时间
规范化:通过归一化等进行规范
3:数据建模(回归问题、分类问题、聚类问题、其他问题)
分类:决策树、贝叶斯、SVM、逻辑回归、集成学习
回归:线性回归、广义线性回归、岭回归、Lasso回归
聚类:K-means、高斯混合聚类、密度聚类、层次聚类
其他:隐马尔可夫模型、LDA主题模型、条件随机场、神经网络、深度学习
4:结果评估(拟合度量、准确率、召回率、F1值、PR曲线等)
5:总结
有监督学习(有x有y,y是标签):分类、回归
无监督学习(有x无y,只有数据没有标签):聚类、降维
条件概率
P ( A ∣ B ) = P ( A B ) / P ( B ) P(A|B)=P(AB)/P(B) P(A∣B)=P(AB)/P(B)
乘法定理
P ( A B C ) = P ( A ) ∗ P ( B ∣ A ) ∗ P ( C ∣ A B ) P(ABC)=P(A)*P(B|A)*P(C|AB) P(ABC)=P(A)∗P(B∣A)∗P(C∣AB)
全概率公式
P ( A ) = ∑ i = 1 n P ( B ) ∗ P ( A ∣ B i ) P(A)=∑_{i=1}^{n}P(B)*P(A|B_i) P(A)=i=1∑nP(B)∗P(A∣Bi)
分解为若干个简单事件的概率计算问题,利用可加性求出最终的概率结果
贝叶斯公式
P ( B i ∣ A ) = P ( A ∣ B i ) ∗ P ( B i ) / ( ∑ j = 1 n P ( A ∣ B j ) ∗ P ( B j ) ) P(B_i|A)=P(A|B_i)*P(B_i)/(∑_{j=1}^nP(A|B_j)*P(B_j)) P(Bi∣A)=P(A∣Bi)∗P(Bi)/(j=1∑nP(A∣Bj)∗P(Bj))
已知A事件确已发生,求原因B_j所导致的概率(从结果分析原因)
贝叶斯分类
P ( H ∣ X ) = P ( X ∣ H ) ∗ P ( H ) / P ( X ) P(H|X)=P(X|H)*P(H)/P(X) P(H∣X)=P(X∣H)∗P(H)/P(X)
P(H):先验概率
P(H|X):后验概率(某个特定条件下具体事物发生的概率)
工作过程
1:每个数据样本用1个n维特征向量X={x1,…,xn}表示,分别描述对n个属性A1~An样本的n个度量
2:假设有m个类C1~Cm,给定1个未知数据样本X,分类器将预测X属于具有最高后验概率的类
3:根据贝叶斯定理计算,其中P(X)对于所有类为常数,因此只需要计算分子;如果先验概率位置,则假设各类是等概率的
4:给定具有许多属性的样本数据集,为降低计算P(X|Ci)的开销,可做类条件独立的朴素假定,即属性值相互条件独立
P ( A B ) = P ( A ) ∗ P ( B ) P(AB)=P(A)*P(B) P(AB)=P(A)∗P(B)
5:对未知样本X分类,对每个类Ci,计算P(X|Ci)*P(Ci)
优点
缺点