04-数据科学基础:数据科学中专用名词解释

这一篇博客我们将详细讲解那些出现在数据科学领域的专业术语。

算法(Algorithm)
是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。 也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。 如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题

属性(Attribute) 详见 预测变量(Predictor)

案例(Case) 详见 观测值(Observation)

置信度(Confidence)
关联的规定中指出,如果购买了A和V,那么客人也会购买C。置信度是在A和B被购买的情况下C被购买的条件的概率

置信度(Confidence)
置信度在统计学中有更广泛的意义(置信区间), 置信度是在选择一个样本而不是另一个样本时产生的预估的误差的程度

因变量(Dependent Variable) 详见 反应变量(Response)

统计估计(Estimation) 详见 统计预测(Prediction)

特征(Feature) 详见 预测变量(Predictor)

流出法数据(Holdout Data( Or Holdout set)
一组用于评估模型的性能的抽样数据样本,这组抽样数据不用于模型的拟合

输入变量(Input Variable) 详见 预测变量(Predictor)

模型(Model)
应用在数据集合上的一个算法,算法可以根据用户的具体要求调整参数。

观测值(Observation)
观测值是指通过测量或测定所得到的样本值。许多指标的观测值具有直观的唯一确定性,此观测值即是指标值。

结果变量(Outcome Variable) 详见 反应变量(Response)

输入变量(Output Variable) 详见 反应变量(Response)

条件概率 P(A|B)
条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。 条件概率表示为:P(A|B),读作“在B的条件下A的概率”。 条件概率可以用决策树进行计算。 条件概率的谬论是假设P(A|B) 大致等于P(B|A)

统计预测(Prediction)
预测就是根据过去和现在估计未来,预测未来。

预测变量(Predictor)
一个变量,通常用X表示,作为预测模型的输入变量,也成为特征,输入变量,自变量。

概况(Profile)
一组观测值(例如:身高,体重,年龄的数据)

记录(Record) 详见 观测值(Observation)

反应变量(Response)
应变量 ( R Variable) 又称因变量(dependent variable),是函数和统计学中的专业名词,函数关系式Y=f(X)中,Y会随X的变动而变动,Y就称为反应变量(因变量)

抽样(Sample)
又称取样。从欲研究的全部样品中抽取一部分样品单位。其基本要求是要保证所抽取的样品单位对全部样品具有充分的代表性。

分数(Score)
分数是一个预测值,对新数据进行的打分意味将训练集输入进模型中来预测出新的数据

成功的分类(Success Class)
类别针对于二分结果(例如:购买或者不够买的情况)

监督学习(Supervised Learning)
用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。 监督学习是从标记的训练数据来推断一个功能的机器学习任务。 训练数据包括一套训练示例。 在监督学习中,每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成

构建目标(Target) 详见 外应变量(Response)

测试集(Test data(Test set)
在机器学习中,一般将样本分成独立的三部分训练集(train set),验证集(validation set)和测试集(test set)。 其中,测试集用来检验最终选择最优的模型的性能如何

训练集(Training Data(Training set)
训练集用于建立模型

无监督学习(Unsupervised Learning)
根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。一种分析方法,人们试图了解数据中的规律和模式,而不是预测感兴趣的结果

验证数据集(Validation Data(or Validation set)
在评估模型的拟合度,廖正模型以及已用于模型的部分数据。

变量(Variable)
对记录的任何测量,包括输入(X)变量和输出(Y)变量。

**部分解释来源于百度百科。

你可能感兴趣的:(数据科学)