大纲:
应用情境例子:客户价值评估(线性回归)、贷款违约识别(逻辑回归)、不同班级的成绩差异(方差分析)、根据用户特征进行市场细分(聚类分析)
统计模型可以解决:预测分类、相关分析、市场细分等问题。
传统数据分析与数据挖掘模型对计量方式都有自身严格的要求。
样本量越大,抽样误差越小。
在其它条件不变的情况下,如果希望将误差降低50%,则需4倍的样本。
置信区间的例子:100次独立抽样产生的区间估计,会有95次正确地包含着总体平均数。
在其它条件不变的情况下,提高置信水平会使置信区间变大。
没有理论、业务向导和假设条件的情况下,可以进行探索性数据分析,了解数据情况。
遵循假设检验步骤是一种验证性数据分析的思路。
t检验统计量的适用条件:小样本,并且方差未知
t检验例子:化肥改良后的效果(配对样本t检验,两相关样本(改良前后的样本对应)是否来自相同均值的总体),商品质量是否达标(单样本t检验,单个变量的均值与指定的检验值之间是否存在显著性差异/样本均值与总体均值之间的差异),不同性别的成绩是否有差异(独立样本t检验,两独立样本是否来自相同均值的总体)
方差分析同时检验两组或多组均值是否存在差异。
正态分布是方差分析的前提。
方差的基本原理是方差的可加性。
方差不满足齐性检验的情况下,也有可能是满足正态分布的。
方差不满足齐性检验的情况说明:不同组均值隐含的信息不同;数据分析结果无法推理到总体。
回归分析之前,可以对数据做标准化处理、取对数处理
线性回归的假设:线性(因变量与自变量呈线性关系)、正态性(残差服从正态分布)、独立同分布(残差间相互独立且遵循同一分布)、正交假定(误差项与自变量不相关)
如果我们建立了y关于x的线性回归方程,在没有其它信息的情况下,我们只能说这两个变量存在线性关系。(不能当作因果关系)
Z-score标准化消除了量纲的影响。
识别异常值的方法:分位数判断、转化为Z-score判断、聚类
主成分分析计算在选择相关系数计算法时,确定主成分个数的大致原则包括:特征根值大于1,累计特征根值加总占总特征根值的80%以上。
主成分分析计算分为:根据相关系数和协方差矩阵两种方式。
变量的量纲不同时,适用相关系数计算。
主成分分析是把主成分表示成各个变量的线性组合。
因子分析需要构造因子模型:用潜在的假想变量和随机影响变量的线性组合表示原始变量。
主成分法是常用的因子载荷矩阵的估计方法。
最大方差旋转是最常用的因子旋转方法,是一种正交旋转。
在选择合适的因子数量时,可以适当放宽对于特征根大小的要求,大于0.7就可以。
聚类模型需要事先采用因子分析对变量进行降维,分类模型需要事先对解释变量进行因子分析。
将样本按相似性的大小分成多个类的过程称为聚类。
层次聚类可以提供聚类树形图。
当样本量超过50时,一般采用K均值聚类法,但是它对起始点位置敏感,也无法通过分析方法确定聚类个数,还容易受异常值的影响。
取百分位秩和分箱处理都会影响原变量的分布,标准化、因子分析和变量聚类不会影响分布。
对应分析是从主成分分析发展而来,用于两个或多个分类变量间各分类水平相关性的比较。
多维尺度分析用于衡量样本间相异性(距离)或相似程度,也就是寻求原始距离的一个最佳近似,使得在低维中也能表示这些距离。
Minkowski/欧式距离用于连续型数据,Jacard相似系数用于分类数据,余弦相似度反映了向量之间的余弦值。
通过多维尺度分析将样本点在二维图中进行表示,通常是根据两个样本间的直线距离来判断相似度。很多时候因为不了解用户的主观判断标准,所以无法解读坐标含义。
线性回归的5个假设:1.解释变量和被解释变量之间存在线性关系;2.解释变量和扰动项不能相关;3.解释变量之间不能强线性相关;4.扰动项独立同分布;5扰动项服从正态分布
常用的分类变量预测模型是逻辑回归模型。
p为发生概率,p/(p-1)为发生比Odds
ROC曲线下面积值越接近1,表明模型预测能力越强。
建立逻辑回归时,需要对连续变量进行分箱处理,以此捕获原始连续变量和被解释变量之间非线性关系、避免异常值的影响。
一般在逻辑回归中只关注系数的正负,一般不看大小:解释变量X的系数为负,则X增大会导致Odds下降,即被解释变量Y=1的概率下降。
数据库的ER图包含了表字段信息、 表与表之间关系的信息、 存储表的数据库信息
在数据库中调整字段位置(MODIFY)时使用的关键词为 FIRST 和 AFTER 没有 BEFORE,在使用 ALTER TABLE…MODIFY…语句更改字段属性或位置时至少需要指定字段名+字段的数据类型
网络例题:
回归分析的第一步是 :确定解释和被解释变量
哪个变量可以反映客户的忠诚度? :购买频次
对客户的生命周期进行分类主要使用:聚类分析
什么方法可以用于检验信用卡类型和支出是否有关系? :方差分析
加权移动平均法遵循的一般原则是:近期数据权数大,远期数据权数小
当所有观测值都落在回归直线上,则这两个变量之间的相关系数为 :+1或-1
SPSS中,定义性别变量时,假设用数值1表示男,用数值2表示女,需要使用到的工具是 :变量名标签
甲、乙两生产小组人均月工资分别为420元和537元,其方差均为80元,则两小组人均工资的代表性 :甲大于乙
区间估计依据的原理是 :样本分布理论
excel也可以建立三维图表
抽取样本单位的方法:重复抽样、不重复抽样
在全面调查和抽样调查中都存在的误差是:登记性误差、责任心误差、技术性误差,系统性误差不是
总体线性关系的模型可以包含多个变量
回归变差(或回归平方和)是指:被解释变量的回归值与平均值的离差平方和、被解释变量的总变差与剩余变差之差、解释变量变动所引起的被解释变量的变差
在表格排序时,笔画和拼音可以作为排序的依据
EXCEL中“清除”不能删掉单元格中某些类型的数据
平均差的优点:平均差意义明确,计算容易;较好的代表了数据分布的离散程度;反应灵敏
常见的差异量数有:平均差、方差、百分位数
利用离均差求积差相关系数的方法有:减差法、加差法
计算积差相关需满足:要求成对的数据、两列变量各自总体的分布都是正态、两相关变量都是连续变量、两变量之间的关系应是直线型的
计算斯皮尔曼等级相关可用:等级差数法、等级序数法
肯德尔 W 系数计算的是变量相关程度,没有负数
质量相关包括:点二列相关、二列相关、多列相关
品质相关主要有:四分相关、φ相关、列联相关
相关分析:分析对象是相关关系、分析方法主要是绘制相关图和计算相关系数、
直线回归方程:建立前提条件是现象之间具有较密切的直线相关关系、关键在于确定方程中的参数a和b、表明两个相关变量间的数量变动关系、可用来根据自变量值推算因变量值,并可进行回归预测
相关关系的特点是:现象之间确实存在数量上的依存关系,但是现象之间的数量依存关系值是不确定的
现象间的相关关系按相关形式分为:直线相关、曲线相关
配合一元线性回归方程须具备下列前提条件:现象间确实存在数量上的相互依存关系、现象间的关系是直线关系,这种直线关系可用散点图来表示、具备一组自变量与因变量的对应资料,且能明确哪个是自变量,哪个是因变量、两个变量之间不是对等关系
由直线回归方程y=a+bx所推算出来的y值也是一个等差级数
依分布函数的来源,可把概率分布划分为:经验分布、理论分布
χ2分布的特点:取值均为正值、分布是正偏态分布
使用正态分布表,可以进行的计算:Z 分数与概率、概率与概率密度、Z 值与概率密度
检验次数分布是否正态的方法有:皮尔逊偏态量数法、累加次数曲线法、峰度偏度检验法、直方图法
二项分布
样本平均数的分布为正态分布的条件:总体方差已知
F 分布特点:是一个正偏态分布、为正值、当组间自由度为1时, F检验与t检验的结果相同
标准分数(z-score)的优点:可比性、可加性、明确性、稳定性
单侧检验与双侧检验的区别包括:问题的提法不同、建立假设的形式不同、否定域不同
关于SQL语句,联合查询使用的关键字是:UNION
积差相关系数
趋势方程