spss学习小记

在一年的sql+python挖掘数据+数据可视化技术熟练之后,可以开启下一步学习。
spss应该是每位数据分析师必备实用工具,现开始学习,特在此篇文章记录。

了解spss:

spss软件主要用于对数据做统计学方面的简单分析和检验样本准确性,是一个用于对数据进行基本处理、分析、以及做一些统计检验的软件。

常用步骤:

导入数据->数据基本处理->数据分析->总结并得出结论

数据处理分析:

对数据处理操作可在“数据”和“转换”中实现。
统计分析都在“分析”中。

分析方法统计:

  1. 描述性分析:
    频数分析:一组数据的不同数值的频数频数进行统计。
    描述型统计:对调查总体所有变量的有关数据进行统计性描述,包括数据的集中趋势与离散趋势。
    分类汇总:根据定类变量分类进行汇总,按照某一标准进行分类,然后在分完类的基础上对各类别相关数据分别进行求和、求平均数、求个数、求最大值、求最小值等方法的汇总。
    正态性分析:检验数据是否满足正态分布,一些算法需要数据满足正态分布。
    相关性分析:对变量两两之间的相关程度进行分析。
    交叉分析:分析两两分组变量之间的交叉分布,比较各组的分布状况寻找变量间的关系。
  2. 问卷分析:
    信度分析:检测问卷中量表所测结果的稳定性以及一致性。
    效度分析:问卷量表的有效性和正确性,即分析问卷题目的设计是否合理。
    熵权法:对问卷调查的指标的重要性进行计算出各个指标的权重,为多指标综合评价提供依据。
    验证性因子分析:测试一个因子与相对应的测度项之间的关系,是否符合研究者所设计的理论关系。
    Kappa一致性检验:定类数据的相关性检验,定量数据的相关性检验为皮尔逊相关系数。
    组内相关系数:衡量和评价观察者间信度和复测信度的信度系数指标。
  3. 量化分析
    秩和比综合评价法(RSR):将效益型指标从小到大排序进行排名、成本型指标从大到小排序进行排名,再计算秩和比,最后统计回归、分档排序。
    优劣解距离法(TOPSIS):组内综合评价方法,能充分利用原始数据的信息,其结果能精确地反映各评价方案之间的差距。
  4. 统计建模
    线性回归(最小二乘法):利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系。
    主成分分析(PCA):将多个有一定相关性的指标进行线性组合以最少的维度解释原数据中尽可能多的信息为目标进行降维,降维后的各变量间彼此线性无关,最终确定的新变量是原始变量的线性组合。
    因子分析(探索性):基于降维的思想,在尽可能不损失或者少损失原始数据信息的情况下,将错综复杂的众多变量聚合成少数几个独立的公共因子。
    岭回归:专用于共线性数据分析的有偏估计回归方法实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数。
    时间序列模型(ARIMA):常见的用来进行时间序列预测的模型。
  5. 差异性分析
    方差分析:用于定类字段(X)与 1 个或 1 个以上的定量字段(Y)之间的差异性研究。
    独立样本t检验:用于分析一个定类变量与一个或者多个定量变量之间有无明显差异。
    单样本t检验:比较样本数据与一个特定数值之间的差异情况,同时要求数据呈现正态性分布。
    卡方检验:比较定类变量与定类变量之间的差异性分析。

你可能感兴趣的:(学习,python,人工智能,数据分析,spss)