第1章 p1-p23 2017-2-20 Mon
模型:泛指从数据中学得的结果
Instance示例(或sample样本):每条记录的数据。每条记录是关于一个事件或对象的描述。
Data set数据集:记录数据的集合
Attribute属性(或feature特征):反映事件或对象在某方面的表现或性质的事项
Attribute value属性值:属性上的取值
Attribute space属性空间(或sample space样本空间或输入空间):属性张成的空间
Feature vector特征向量:一个示例
D={x1,x2,...,xm}:
示例:m个
D:包含m个示例的数据集
xi=(xi1;xi2;...;xid)
样本:xi
xi:d维样本空间中的一个向量
属性:d个
Dimensionality维数:d:每个示例由d个属性描述;的维数。
Learning学习(或training训练):从数据中学得模型的过程;此过程通过执行某个学习算法来完成。
Training data训练数据:训练过程中使用的数据
Training sample训练样本:训练过程中使用的每个样本
Training set训练集:训练样本组成的集合
Hypothesis假设:学得模型对应了关于数据的某种潜在的规律
Ground-truth真相或真实:这种潜在规律自身
学习过程目的:找出或逼近真相
Learner学习器:即模型的别称;可看作学习算法在给定数据和参数空间上的实例化
Prediction预测:
Label标记:关于示例结果的信息
Example样例:拥有标记信息的示例
(xi,yi):第i个样例
yi:示例的标记
Label space标记空间(或输出空间):所有标记的集合
Classification分类:预测的是离散值的学习任务
Binary classification:只涉及两个类别的任务,positive class正类,negative class反类
Multi-class classification:多分类任务,
Regression回归:预测的是连续值的学习任务
Testing测试:使用学习的模型进行预测的过程
Testing sample测试样本:被预测的样本
Clustering聚类:将训练集中的对象分成若干组
Cluster簇:训练集中每组称为一个簇
学习任务分类——根据训练数据是否拥有标记信息——supervised learning监督学习(分类&回归)
——unsupervised learning无监督学习(聚类)
机器学习的目标:使学得的模型能很好地适用于“新样本”,而不仅仅在训练样本上工作得很好
Generalization泛化(能力):学得模型适用于新样本的能力
(具有强泛化能力的模型能很好地使用于整个样本空间)
Specialization特化
D:distribution分布(未知的)
independent and identically distributed独立同分布:每个样本都是独立地从这个分布上采样获得的
科学推理的两大基本手段:归纳与演绎
Induction归纳:从特殊到一般的泛化过程;即从具体的事实归结出一般性规律
Deduction演绎:从一般到特殊的特化过程;即从基础原理推演出具体状况
Inductive learning归纳学习<——从样例中学习
(基于一组公理和推理规则推导出与之相洽的定理)
归纳学习:广义——从样例中学习
狭义——从训练数据中学得概念(concept):又称概念学习/概念形成
概念学习——最基本的:布尔概念学习:是/否;0/1
机械学习:记住训练样本
Hypothesis假设
Fit匹配
Version space版本空间:存在一个与训练集一致的“假设集合”
Inductive bias(归纳)偏好:机器学习算法在血洗过程中对某种类型假设的偏好
(任何一个有效的机器学习算法必有其归纳偏好,否则将无法产生确定的学习结果)
Feature selection特征选择
(归纳偏好:可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或价值观
:对应学习算法本身所做出的关于什么样的模型更好的假设)
Occam's razor奥卡姆剃刀:——若有多个假设与观察一致,则选最简单的那个
——一种常用的、自然科学研究中最基本的原则)
NFL;No Free Lunch Theorem没有免费的午餐
(在某些问题上表现好的学习算法,在另一些问题上却可能不尽如人意,学习算法自身的归纳偏好与问题是否相配,往往会起到决定性的作用)
Artificial intelligence人工智能
People————achievements
A.Newell & H.Simon——Logic Theorist逻辑理论家程序&General Problem Solving通用问题求解程序
John McCarthy约翰. 麦卡锡——人工智能之父
E.A.Feigenbaum(Edward Feigenbaum爱德华. 费根鲍姆)——知识工程之父
A. Samuel(Arthur. Samuel阿瑟. 萨缪尔)——跳棋程序
——————connectionism连接主义学习
F. Rosenblatt——Perceptron感知机
B. Widrow——Adaline
——————symbolism符号主义学习
N. J. Nilson——学习机器
symbolism符号主义学习——decision tree决策树&基于逻辑的学习
ILP:Inductive Logic Programming归纳逻辑程序设计
Statistical learning统计学习——代表性技术:SVM:Support Vector Machine&kernel methods核方法
深度学习:狭义上:很多层的神经网络
计算——目的:数据分析
数据科学——核心:通过数据分析来获得价值(利用大数据)
(美国最尖端科技的研究推进——NASA&DARPA)
crowdsourcing众包
Data mining数据挖掘——从海量数据中发觉知识
——管理技术:数据库
——数据分析技术:机器学习&统计学
(数据挖掘:两大支撑:机器学习&数据库;统计学通过机器学习对数据挖掘发挥影响)
Transfer learning迁移学习
Learning by analogy类比学习
Deep learning深度学习
Principle of multiple explanations多释原则
Ensemble learning集成学习
机器学习领域国际学术会议——ICML国际机器学习会议
国际学术期刊——Journal of Machine Learning Research
人工智能领域国际学术会议——AAAI
国际学术期刊——Journal of Artificial Intelligence Research
---------------------
原文:https://blog.csdn.net/angle_11111/article/details/56025757