机器学习术语

目录

绪论

模型评估和选择

线性模型



  •  machine learning    机器学习
  • model    模型
  • learning algorithm    学习算法
  • data set    数据集
  • instance    示例/     sample     样本
  • attribute    属性/    feature        特征
  • attribute value       属性值
  • attribute space        属性空间/        sample space        样本空间
  • feature vector        特征向量
  • dimensionality        维数
  • learning    学习
  • training        训练
  • training data        训练数据
  • training sample    训练样本    /training instance        训练示例
  • training set         训练集
  • hypothesis        假设
  • ground-truth        真相、真实
  • learner         学习器
  • prediction     预测
  • label        标记
  • example        样例
  • label space        标记空间、输出空间
  • classification        分类
  • regression        回归
  • binary classification         二分类
  • positive class         正类
  • negative class         反类
  • multi-class classification         多分类
  • testing         测试
  • testing sample        测试样本
  • clustering  聚类  : 训练样本通常不拥有标记信息(label)
  • cluster 簇
  • supervised learning 监督学习  :根据训练数据是否拥有标记信息来划分
  • UNsupervised learning  无监督学习
  • generalization        泛化能力
  • distribution        分布
  • independent and identically distributed         独立同分布
  • induction         归纳
    • deduction        演绎
    • generalization    泛化过程
    • specialization    特化过程
    • inductive learning  归纳学习
    • inductive bias   归纳偏好
    • occam's razor   奥卡姆剃刀 :若有多个假设与观察一致,则选择最简单的那个
    • artificial intelligence   人工智能
    • logic theorist   逻辑理论家
    • general problem solving   逻辑理论家
    • connectionism    连接主义(与神经网络相关)
    • perceptron  感知机
    • symbolism   符号主义
    • decision tree  决策树
    • inductive logic programming  ILP   归纳逻辑程序设计:基于逻辑的学习
    • support vector machine   支持向量机
    • kernel methods   核方法
    • kernel trick   核技巧
    • crowdsourcing   众包
    • data mining   数据挖掘
    • transfer learning   迁移学习
    • learning by analogy   类比学习
    • deep learning   深度学习
    • ICML   国际机器学习会议
    • NIPS   国际神经信息处理系统会议
    • COLT   国际学习理论会议
    • ECML  欧洲机器学习会议
    • ACML  亚洲机器学习会议
    • journal of machine learning research 机器学习国际学术期刊
    • IJCAI  AAAI 人工智能领域重要后裔
    • artificial intelligence 
    • journal of artificial intelligence research
    • KDD,ICDM  数据挖掘的重要会议
    • ACM 数据挖掘重要期刊
    • transaction on knowledge discovery from data 数据挖掘类期刊
    • data mining and knowledge discovery  数据挖掘类期刊
    • neural computational  神经网络重要期刊
    • IEEE transaction on neural network and learning system 神经网络重要期刊

模型评估和选择

  • error rate   错误率 :predicted-wrong/testing set
  • accuracy   精度:1-predicted-wrong/testing set
  • training error    训练误差/  empirical error 经验误差
  • generalization    泛化误差
  • overfitting    过拟合
  • underfitting   欠拟合
  • model selection    模型选择
  • testing set    测试集
  • testing error   测试误差
  • hold-out   留出法
  • sampling   采样
  • stratified sampling   分层采样:数据集D包含500个正样本和500个负样本,如果期望通过分层采样得到70%的训练集S和30%的训练集T,则分层采样后S将包含350个正例,350个负例;T将包含150个正例和150个负例。
  • fidelity   保真性
  • cross validation   交叉验证法
  • k-fold cross validation   k折交叉验证:10次10折交叉验证法和100次留出法都是进行了100次训练/测试
  • leave-one-out:简称LOO,留一法:留一法使用的训练集与初始数据集相比只少了一个样本,但是不适用于大数据集,因为当数据集包含一百万个样本时,就要训练一百万个模型
  • bootstraping:自助法:减少训练样本规模不同造成的影响,同时还能比较高效地进行实验评估
  • bootstrap sampling   自助采样:每次随机从D中挑选一个样本,将其拷贝入D’,然后再将该样本放回初始数据集D中,使得该样本在下次采样时仍然有可能被采样到,重复执行m次,最后,初始数据集D中,约有36.8%的样本未出现在采样数据集D‘中。
  • out-of-bagestimate    包外估计:剩下1/3的未在训练集中出现过的样本作为测试,测试结果称为包外估计,该方法在数据集较小时使用,但是自助法产生的数据集改变了初始数据集的分布,这会引入估计偏差,因此当初始数据集足够的时候,一般使用留出法和交叉验证法。
  • parameter   参数
  • parameter tuning   调参
  • validation set    验证集:在研究对比不同算法的泛化性能时,我们用测试集上的判别效果来估计模型在实际使用时的泛化能力,而把训练数据另外划分成训练集和验证集,基于验证集上的性能来进行模型的选择和调参。(训练数据=训练集+验证集;测试数据=测试集)
  • performance measure   性能度量:衡量模型的泛化能力标准
  • mean squared error    均方误差:回归任务中最常用的性能度量
  • precision   查准率:Precision=TP/(TP+NP)
  • recall    查全率:recall=TP/(TP+FN)
  • true positive   真正例:简称TP
  • false positive   假正例:简称FP 
  • true negative   真反例:简称TN
  • false negative   假反例:简称FN
  • break-even point    平衡点:简称BEP,当precision=recall时的取值
  • F1-score   F1度量
  • macro-P   宏查准率:当遇到多个二分类混淆矩阵使用
  • macro-R   宏查全率
  • macro-F1    宏F1
  • micro-P     微查准率
  • micro-R     微查全率
  • micro-F1     微F1
  • threshold    分类阈值
  • cut point     截断点:将样本分为两个部分,前一部分判为正例,后一部分判为负例
  • ROC    受试者工作特征:receiver operating characteristic 根据预测概率,对测试集进行排序,最可能是正例的排在最前面,最不可能是正例的排在最后,排好序后,根据任务需求来采用不同的截断点,如果更加重视查准率,则可选择排序中靠前的位置进行截断,如果更加重视查全率,则可以选择排序中靠后的位置进行截断。排序本身的质量好坏体现了“期望泛化能力”的好坏,ROC曲线则是研究模型泛化能力好坏的有力工具
  • TPR    真正例率:true positive rate    TPR=TP/(TP+FN)=recall
  • FPR    假正例率:false positve rate    FPR=FP/(TN+FP)
  • AUC   area under ROC curve:ROC曲线下的面积,如果两个学习器的ROC曲线发生交叉,可以根据ROC曲线下的面积来判断学习器的好坏
  • unequal cost    非均等代价
  • cost matrix    代价矩阵
  • total cost    总体代价
  • cost-sensitive    代价敏感
  • cost curve     代价曲线
  • hypothesis test    假设检验
  • binomial    二项分布
  • binomial test   二项检验
  • confidence    置信度
  • t-test   t检验
  • two-tailed    双边
  • contingency table  列联表
  • McMemar检验
  • Friedman检验
  • Nemenyi后续检验
  • bias-variance decomposition    偏差-方差分解
  • bias   偏差:预测值-真实值  度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力
  • var    方差:预测值-期望值  度量了同样大小的训练集的变动所导致的学习性能的变化, 泛化误差可以分解为偏差,方差,噪声之和
  • bias-variance deliemma   偏差-方差窘境:在训练不足时,学习器的拟合能力不够强,训练数据的扰动不足以使学习器产生显著变化,此时偏差住到了泛化错误率,随着训练程度加深,学习器的拟合能力组件增强,训练数据发生的扰动渐渐被学习器学到,方差逐渐主导了泛化错误率,在训练程度充足后,学习器的拟合能力已经非常强,训练数据发生轻微扰动都会导致学习器发生显著变化,若训练数据自身的费全局的特性被学习到了,则将发生过拟合。

线性模型

  • linear model   线性模型
  • nonlinear model    非线性模型
  • comprehensibility    可解释性
  • linear regression    线性回归
  • euclidean distance    欧式距离:均方误差有非常好的几何意义,其也就是大名鼎鼎的欧式距离,均方误差=(预测值-真实值)^2
  • least square method    最小二乘法:基于均方误差最小化来进行模型求解的方法称为最小二乘法
  • parameter estimation    参数估计:求解线性模型中的w和b的过程,称为线性模型的最小二乘“参数估计”
  • close-form    最优解闭市
  • multivariance linear regression    多元线性回归
  • full-rank matrix   满秩矩阵/ positive definite matrix   正定矩阵:XTX如果是满秩矩阵/正定矩阵,则wX可以得到一个解,如果不是满秩矩阵,则可以解出多个w,
  • regularization   正则化项:当XTX不是满秩矩阵时,需要抉择试用版哪个解作为输出,这将由学习算法的归纳偏好决定,常用做法就是引入正则化
  • log-linear regression   对数线性回归:期望令模型预测值逼近真实值y的衍生物,因此引入了对数线性回归
  • generalized linear model    广义线性模型:对数线性回归是广义线性模型在g(.)=ln(.)时的特例
  • link function    联系函数:

 


你可能感兴趣的:(机器学习,机器学习)