CDA题目

大纲：

应用情境例子：客户价值评估（线性回归）、贷款违约识别（逻辑回归）、不同班级的成绩差异（方差分析）、根据用户特征进行市场细分（聚类分析）

统计模型可以解决：预测分类、相关分析、市场细分等问题。

传统数据分析与数据挖掘模型对计量方式都有自身严格的要求。

样本量越大，抽样误差越小。

在其它条件不变的情况下，如果希望将误差降低50%，则需4倍的样本。

置信区间的例子：100次独立抽样产生的区间估计，会有95次正确地包含着总体平均数。

在其它条件不变的情况下，提高置信水平会使置信区间变大。

没有理论、业务向导和假设条件的情况下，可以进行探索性数据分析，了解数据情况。

遵循假设检验步骤是一种验证性数据分析的思路。

t检验统计量的适用条件：小样本，并且方差未知

t检验例子：化肥改良后的效果（配对样本t检验，两相关样本（改良前后的样本对应）是否来自相同均值的总体），商品质量是否达标（单样本t检验，单个变量的均值与指定的检验值之间是否存在显著性差异/样本均值与总体均值之间的差异），不同性别的成绩是否有差异（独立样本t检验，两独立样本是否来自相同均值的总体）

方差分析同时检验两组或多组均值是否存在差异。

正态分布是方差分析的前提。

方差的基本原理是方差的可加性。

方差不满足齐性检验的情况下，也有可能是满足正态分布的。

方差不满足齐性检验的情况说明：不同组均值隐含的信息不同；数据分析结果无法推理到总体。

回归分析之前，可以对数据做标准化处理、取对数处理

线性回归的假设：线性（因变量与自变量呈线性关系）、正态性（残差服从正态分布）、独立同分布（残差间相互独立且遵循同一分布）、正交假定（误差项与自变量不相关）

如果我们建立了y关于x的线性回归方程，在没有其它信息的情况下，我们只能说这两个变量存在线性关系。（不能当作因果关系）

Z-score标准化消除了量纲的影响。

识别异常值的方法：分位数判断、转化为Z-score判断、聚类

主成分分析计算在选择相关系数计算法时，确定主成分个数的大致原则包括：特征根值大于1，累计特征根值加总占总特征根值的80%以上。

主成分分析计算分为：根据相关系数和协方差矩阵两种方式。

变量的量纲不同时，适用相关系数计算。

主成分分析是把主成分表示成各个变量的线性组合。

因子分析需要构造因子模型：用潜在的假想变量和随机影响变量的线性组合表示原始变量。

主成分法是常用的因子载荷矩阵的估计方法。

最大方差旋转是最常用的因子旋转方法，是一种正交旋转。

在选择合适的因子数量时，可以适当放宽对于特征根大小的要求，大于0.7就可以。

聚类模型需要事先采用因子分析对变量进行降维，分类模型需要事先对解释变量进行因子分析。

将样本按相似性的大小分成多个类的过程称为聚类。

层次聚类可以提供聚类树形图。

当样本量超过50时，一般采用K均值聚类法，但是它对起始点位置敏感，也无法通过分析方法确定聚类个数，还容易受异常值的影响。

取百分位秩和分箱处理都会影响原变量的分布，标准化、因子分析和变量聚类不会影响分布。

对应分析是从主成分分析发展而来，用于两个或多个分类变量间各分类水平相关性的比较。

多维尺度分析用于衡量样本间相异性（距离）或相似程度，也就是寻求原始距离的一个最佳近似，使得在低维中也能表示这些距离。

Minkowski/欧式距离用于连续型数据，Jacard相似系数用于分类数据，余弦相似度反映了向量之间的余弦值。

通过多维尺度分析将样本点在二维图中进行表示，通常是根据两个样本间的直线距离来判断相似度。很多时候因为不了解用户的主观判断标准，所以无法解读坐标含义。

线性回归的5个假设：1.解释变量和被解释变量之间存在线性关系；2.解释变量和扰动项不能相关；3.解释变量之间不能强线性相关；4.扰动项独立同分布；5扰动项服从正态分布

常用的分类变量预测模型是逻辑回归模型。

p为发生概率，p/(p-1)为发生比Odds

ROC曲线下面积值越接近1，表明模型预测能力越强。

建立逻辑回归时，需要对连续变量进行分箱处理，以此捕获原始连续变量和被解释变量之间非线性关系、避免异常值的影响。

一般在逻辑回归中只关注系数的正负，一般不看大小：解释变量X的系数为负，则X增大会导致Odds下降，即被解释变量Y=1的概率下降。

数据库的ER图包含了表字段信息、表与表之间关系的信息、存储表的数据库信息

在数据库中调整字段位置（MODIFY）时使用的关键词为 FIRST 和 AFTER 没有 BEFORE，在使用 ALTER TABLE…MODIFY…语句更改字段属性或位置时至少需要指定字段名+字段的数据类型

网络例题：

回归分析的第一步是：确定解释和被解释变量

哪个变量可以反映客户的忠诚度? ：购买频次

对客户的生命周期进行分类主要使用：聚类分析

什么方法可以用于检验信用卡类型和支出是否有关系？：方差分析

加权移动平均法遵循的一般原则是：近期数据权数大，远期数据权数小

当所有观测值都落在回归直线上，则这两个变量之间的相关系数为：+1或-1

SPSS中，定义性别变量时，假设用数值1表示男，用数值2表示女，需要使用到的工具是：变量名标签

甲、乙两生产小组人均月工资分别为420元和537元，其方差均为80元，则两小组人均工资的代表性：甲大于乙

区间估计依据的原理是：样本分布理论

excel也可以建立三维图表

抽取样本单位的方法：重复抽样、不重复抽样

在全面调查和抽样调查中都存在的误差是：登记性误差、责任心误差、技术性误差，系统性误差不是

总体线性关系的模型可以包含多个变量

回归变差（或回归平方和）是指：被解释变量的回归值与平均值的离差平方和、被解释变量的总变差与剩余变差之差、解释变量变动所引起的被解释变量的变差

在表格排序时，笔画和拼音可以作为排序的依据

EXCEL中“清除”不能删掉单元格中某些类型的数据

平均差的优点：平均差意义明确，计算容易；较好的代表了数据分布的离散程度；反应灵敏

常见的差异量数有：平均差、方差、百分位数

利用离均差求积差相关系数的方法有：减差法、加差法

计算积差相关需满足：要求成对的数据、两列变量各自总体的分布都是正态、两相关变量都是连续变量、两变量之间的关系应是直线型的

计算斯皮尔曼等级相关可用：等级差数法、等级序数法

肯德尔 W 系数计算的是变量相关程度，没有负数

质量相关包括：点二列相关、二列相关、多列相关

品质相关主要有：四分相关、φ相关、列联相关

相关分析：分析对象是相关关系、分析方法主要是绘制相关图和计算相关系数、

直线回归方程：建立前提条件是现象之间具有较密切的直线相关关系、关键在于确定方程中的参数a和b、表明两个相关变量间的数量变动关系、可用来根据自变量值推算因变量值，并可进行回归预测

相关关系的特点是：现象之间确实存在数量上的依存关系，但是现象之间的数量依存关系值是不确定的

现象间的相关关系按相关形式分为：直线相关、曲线相关

配合一元线性回归方程须具备下列前提条件：现象间确实存在数量上的相互依存关系、现象间的关系是直线关系，这种直线关系可用散点图来表示、具备一组自变量与因变量的对应资料，且能明确哪个是自变量，哪个是因变量、两个变量之间不是对等关系

由直线回归方程y=a+bx所推算出来的y值也是一个等差级数

依分布函数的来源，可把概率分布划分为：经验分布、理论分布

χ2分布的特点：取值均为正值、分布是正偏态分布

使用正态分布表，可以进行的计算：Z 分数与概率、概率与概率密度、Z 值与概率密度

检验次数分布是否正态的方法有：皮尔逊偏态量数法、累加次数曲线法、峰度偏度检验法、直方图法

二项分布

样本平均数的分布为正态分布的条件：总体方差已知

F 分布特点：是一个正偏态分布、为正值、当组间自由度为1时， F检验与t检验的结果相同

标准分数（z-score）的优点：可比性、可加性、明确性、稳定性

单侧检验与双侧检验的区别包括：问题的提法不同、建立假设的形式不同、否定域不同

关于SQL语句，联合查询使用的关键字是：UNION

积差相关系数

趋势方程

时间每增加一个单位，Y平均减少1.2个单位

CDA题目

你可能感兴趣的:(CDA题目)