《CDA-LEVEL-II考试大纲》解读--PART 5 数据分析模型

PART 5 数据分析模型

总体要求:领会模型基本原理,数值模型操作流程,懂得模型应用场景,能够完成数据建模分析报告。

数据分析模型

  • PART 5 数据分析模型
    • 1、主成分分析
      • 1.1、领会内容
        • 1.1.1、主成分分析的计算步骤
        • 1.1.2、主成分分析的基础内容
            • 假设:
            • 模型设置:
      • 1.2、熟知内容
        • 1.2.1、适用于主成分分析的变量度量类型
    • 2、因子分析
      • 2.1、领会内容
        • 2.1.1、因子分析模型
      • 2.2、熟知内容
        • 2.2.1、因子分析的变量度量类型
        • 2.2.2、常用因子旋转的方法
    • 3、回归分析
      • 3.1、领会内容
        • 3.1.1、线性回归的综合应用
      • 3.2、熟知内容
        • 3.2.1、线性回归
          • 6 个经典假设:
          • 违反上述假设后出现的问题:
          • 模型是否违反经典假设的检验方法与模型纠正的方法:
        • 3.2.2、独立同分布
        • 3.2.3、明晰横截面和时间序列数据在回归建模上的差异
      • 3.3、应用内容
        • 3.3.1、分类变量
        • 3.3.2、区分预测性建模与解释性建模的关系
        • 3.3.3、客户价值分析
            • 基本步骤:
            • 注意事项:
    • 4、分类分析
      • 4.1、领会内容
        • 4.1.1、卡方检验计算公式
        • 4.1.2、二分类逻辑回归的计算公式
      • 4.2、熟知内容
        • 4.2.1、分类变量
            • 列联表分析
            • 卡方检验
        • 4.2.2、似然比与 Logit 转换
        • 4.2.3、二分类逻辑回归模型构建与变量筛选
        • 4.2.4、模型评估的方法
    • 5、聚类分析
      • 5.1、领会内容
        • 5.1.1、多种聚类算法的特点
        • 5.1.2、迭代的概念与实现
      • 5.2、熟知内容
        • 5.2.1、聚类方法的基本逻辑
        • 5.2.2、聚类的距离计算
        • 5.2.3、系统聚类和 K-Means 聚类的基本算法和优缺点
        • 5.2.4、系统聚类法中选择最优聚类数量的方法
        • 5.2.5、聚类分析变量标准化的原因和计算方法
        • 5.2.6、变量需要进行主成分分析的原因
        • 5.2.7、变量进行函数转化的原因和计算方法
    • 6、时间序列
      • 6.1、领会内容
        • 6.1.1、趋势分解法&ARIMA 方法&时间序列回归方法
        • 6.1.2、 ARIMA 方法的计算方法
      • 6.2、熟知内容
        • 6.2.1、趋势分解法具体步骤
        • 6.2.2、时间序列回归方法
      • 6.3、应用内容
        • 6.3.1、进行业务时间序列预测等模型的基本步骤与注意事项

1、主成分分析

【领会】
主成分分析的计算步骤;
主成分分析中对变量自身分布和多变量之间关系的假设以及模型设置。
【熟知】
适用于主成分分析的变量度量类型。
【应用】
在深入理解主成分的意义的基础之上,在遇到业务问题时,有能力决定是否使用主成分分析方法;
有能力决定何时采用相关系数计算方法和协方差矩阵计算方法;
有能力解释主成分得分的结果;
根据变量分布情况进行函数转换。

1.1、领会内容

1.1.1、主成分分析的计算步骤

主成分分析是一种常见的数据降维方法,其计算步骤如下:

  • 数据标准化:将原始数据进行标准化处理,使得每个变量的均值为0,方差为1。
  • 计算样本协方差矩阵或相关系数矩阵:根据样本数据计算协方差矩阵或相关系数矩阵。
  • 特征值分解:对协方差矩阵或相关系数矩阵进行特征值分解,得到特征值和特征向量。
  • 选择主成分:根据特征值的大小,选择前k个主成分。通常选取的主成分个数k可以根据累计贡献率和特征值大小来确定。
  • 计算主成分:将原始数据映射到主成分上,得到新的数据集合,每个变量对应一个主成分。
  • 解释主成分:根据主成分的特征向量,解释每个主成分代表的意义,理解数据降维后的含义。

1.1.2、主成分分析的基础内容

主成分分析(Principal Component Analysis,PCA)的假设和模型设置如下:

假设:
  • 假设变量之间存在线性关系
  • 假设变量的方差不同
  • 假设各变量之间不存在完全的共线性(即变量之间存在一定程度的独立性);
  • 假设数据符合正态分布或接近正态分布
模型设置:
  • 确定主成分的个数,通常通过特征值分析和累计方差贡献率分析来确定;
  • 根据主成分个数,运用线性代数方法求解主成分;
  • 利用主成分系数,计算每个样本在不同主成分上的得分;
  • 分析主成分的解释力,并对主成分进行旋转和解释。

需要注意的是,PCA是一种基于样本协方差矩阵的无监督学习方法,因此对数据的可信度和有效性有一定要求。同时,PCA的结果也需要经过科学的解释和分析,才能得到有意义的结论和应用。

1.2、熟知内容

1.2.1、适用于主成分分析的变量度量类型

主成分分析可以适用于多种变量度量类型,包括:

  • 定量变量(连续型):如身高、体重、收入等数值型变量。
  • 定量二元变量:如是否吸烟、是否结婚等二元型数值变量。
  • 定性变量(分类型):如性别、种族、婚姻状态等分类变量。
  • 定序变量:如受教育程度、职位级别等顺序型分类变量。

需要注意的是,对于不同类型的变量,在进行主成分分析时需要使用不同的方法和技巧。同时,需要进行数据标准化和变量筛选等预处理工作,以确保分析结果的准确性和可靠性。

2、因子分析

【领会】
了解因子分析模型设置,只需要关注主成分法的计算步骤
【熟知】
适用于因子分析的变量度量类型,通过分析结果,选取合适的因子个数;
常用因子旋转的方法。
【应用】
在遇到业务问题时,有能力决定是否使用因子分析,还是使用主成分分析方法就可以了;
有能力根据原始变量在各因子上的权重明确每个因子的意义;
有能力对大量变量进行维度分析,分维度打分,并比较与专家打分(德尔菲法)的区别;
在聚类前对数据进行描述,发现理想的聚类方式和数量。

2.1、领会内容

2.1.1、因子分析模型

在因子分析模型中,需要设置以下几个参数:

  1. 因子数目:决定了模型中的因子个数,可以根据实际情况进行选择。
  2. 因子旋转方法:用于将因子旋转到一个更可解释的位置上,以便于进一步分析。常用的方法包括方差最大旋转法(VARIMAX)、斜交旋转法(OBLIMIN)等。
  3. 因子载荷估计方法:用于估计每个变量与因子之间的关系。常用的方法包括主成分分析、最大似然方法、加权最小二乘法等。
  4. 原始数据处理方法:如果原始数据存在缺失值、异常值等问题,需要先进行数据清洗和预处理。
  5. 因子的命名和解释:根据因子的载荷和变量的含义,对因子进行命名和解释,以便于后续分析。

以上参数设置需要根据具体研究问题和数据特点进行调整和选择。

2.2、熟知内容

2.2.1、因子分析的变量度量类型

因子分析适用于连续型数据,常用的度量类型包括:

  • 定距变量:如温度、时间等,可进行加减运算,但没有绝对零点。
  • 定比变量:如重量、长度等,具有绝对零点,可进行任何数学运算,包括乘除。
  • 顺序变量:如评分、等级等,有顺序关系但没有固定的数值,通常可将其转化为数值。
  • 名义变量:如性别、国籍等,表示分类,通常可将其转化为虚拟变量。

选取合适的因子个数时,可以结合以下指标进行考虑:

  1. 原始变量的解释程度:因子数目越多,对原始变量的解释程度越高。但也要避免因子解释过多而过度拟合数据。
  2. 因子的简洁性:应选择能够较简洁地解释数据变异度的因子个数。
  3. 因子的稳定性:应选择具有稳定性的因子,即在多次分析中得到相似的因子结构.
  4. 因子的实际意义:应选择能够反映真实情况的因子,可结合领域知识和理论背景进行解释。

2.2.2、常用因子旋转的方法

因子旋转是因子分析中常用的一种方法,它可以帮助研究者更好地理解因子结构。常用的因子旋转方法包括:

  1. 方差最大旋转法(Varimax Rotation):这种方法旋转后的因子具有简单结构,即每个因子上只有少量的高载荷变量,其他变量的载荷较低。
  2. 均方根最小旋转法(Promax Rotation):这种方法旋转后的因子可以具有更为复杂的结构,但是计算量较大。
  3. 等比例旋转法(Equamax Rotation):这种方法旋转后的因子具有中等的简单结构,可以平衡Varimax和Promax旋转法的优缺点。
  4. 岭回归旋转法(Ridge Regression Rotation):这种方法旋转后的因子具有最小的共同因子方差,可以更好地解释共同因子之间的相关性。

以上这些方法都可以用于因子旋转,具体使用哪种方法,需要根据具体研究问题和数据特点进行选择。

3、回归分析

【领会】
线性回归的综合应用
【熟知】
明确线性回归的 6 个经典假设(线性模型、不存在共线性、残差期望为 0(无内生性)、同方差、正态性、随机抽样);
明确违反上述假设后出现的问题;
模型是否违反经典假设的检验方法与模型纠正的方法;
独立同分布的概念;
变量筛选方法;
离群值、指标计算方法;
明晰横截面和时间序列数据在回归建模上的差异。
【应用】
结合业务构建回归模型并且解释回归系数
根据业务场景与变量分布情况进行函数转换
解释变量为分类变量时的处理方法
区分预测性建模与解释性建模的关系
使用结果进行新样本预测
进行客户价值分析的基本步骤与注意事项

3.1、领会内容

3.1.1、线性回归的综合应用

线性回归是一种常见的机器学习算法,它可以被广泛应用于各种场景,例如:

  1. 房价预测:通过分析历史房价数据和房屋特征(例如地理位置、房屋面积、房间数量等),可以建立一个线性回归模型来预测未来房价。
  2. 销售预测:通过分析历史销售数据和市场特征(例如经济情况、竞争对手数量和市场份额等),可以建立一个线性回归模型来预测未来销售额。
  3. .财务预测:通过分析历史财务数据和市场特征(例如利润率、销售额等),可以建立一个线性回归模型来预测未来的财务表现。
  4. 医疗预测:通过分析患者的个人信息、病史和检查结果等数据,可以建立一个线性回归模型来预测患者的疾病风险和治疗效果等。
  5. 交通预测:通过分析历史交通数据和交通状况(例如拥堵程度、交通信号灯状况等),可以建立一个线性回归模型来预测未来交通情况,从而帮助规划交通路线和优化交通流量。

综上所述,线性回归具有广泛的应用场景,通过不断迭代和优化模型,可以使其拥有更高的准确率和预测能力。

3.2、熟知内容

3.2.1、线性回归

6 个经典假设:
  1. 线性模型假设:线性回归模型是基于假设因变量与自变量之间存在线性关系的。
  2. 不存在共线性(独立性)假设:自变量之间不存在高度相关性,即不存在共线性问题.
  3. 残差期望为 0(无内生性)假设:模型的残差项的期望值为 0,这意味着模型中的任何遗漏变量并不影响模型的预测能力,也就是说,没有内生性问题。
  4. 同方差假设:对于任何给定的自变量值,残差的方差相等,即残差具有同方差性。
  5. 正态性假设:残差符合正态分布,即误差是随机的,不会呈现任何系统性的模式。
  6. 随机抽样假设:观测数据是从一个总体中随机抽取的,即每个观测值对于总体是独立的。
违反上述假设后出现的问题:
  1. 线性性不满足时,模型的预测效果会显著降低
  2. 独立性不满足时,可能出现估计量偏差(即变量之间存在强相关性)。
  3. 均值为零不满足时,模型的截距计算会出现偏差
  4. 同方差性不满足时,会出现异方差问题(即随着自变量的变化,因变量的方差也会变化)。
  5. 正态性不满足时,模型在进行假设检验和置信区间估计时会出现偏差
  6. 同方向性不满足时,模型的预测效果会显著降低
模型是否违反经典假设的检验方法与模型纠正的方法:
  1. 线性性:可以通过图示法F检验来检验,可以尝试添加二次项或对数项来修正。
  2. 独立性:可以通过相关系数矩阵方差膨胀因子来检验,可以尝试通过主成分分析等方法来处理多重共线性。
  3. 均值为零:可以通过样本平均值来检验,可以尝试在模型中加入截距项来纠正。
  4. 同方差性:可以通过残差图Goldfeld-Quandt检验来检验,可以尝试通过加权最小二乘法或使用泊松回归等方法进行纠正。
  5. 正态性:可以通过正态概率图残差图来检验,可以尝试通过对数转换Box-Cox变换来纠正。
  6. 同方向性:可以通过散点图来初步检验,可以尝试添加相反的自变量或进行交互项来纠正。

3.2.2、独立同分布

独立同分布是指对于两个或更多的随机变量,在它们之间不存在任何关联,且它们都来自同一种概率分布。

具体地说,如果存在两个随机变量X和Y,它们之间互不影响,也就是说,X的值的变化不会影响Y的概率分布,反之亦然,那么X和Y就是独立的。

此外,如果X和Y都来自于同一种概率分布,这就说明它们具有相同的概率密度函数或概率质量函数,即它们是同分布的。因此,当X和Y既是独立的,又具有相同的概率分布时,它们就是独立同分布的。

3.2.3、明晰横截面和时间序列数据在回归建模上的差异

横截面数据是在同一时间点上对样本进行的观察,而时间序列数据是在一段时间内对同一样本进行的观察。在回归建模中,这两种数据的差异表现在以下几个方面:

类别 横截面 时间序列数据
变量选择 选择样本在同一时间点上的各项指标作为解释变量 考虑过去时间点的数据作为解释变量,例如前一期的变量值等。
模型结构 考虑独立的观察对象之间的关系 考虑时间维度上的相关性,并且需要考虑更复杂的模型结构,例如ARMA、ARIMA等。
数据平稳性 无需考虑 需要考虑数据的平稳性

总之,横截面数据和时间序列数据在回归建模上的差异主要表现在变量选择、模型结构和数据平稳性三个方面。在真实的数据分析中,需要了解数据的特点,并使用适当的方法进行建模。

3.3、应用内容

3.3.1、分类变量

当变量为分类变量时,处理方法通常包括以下几个方面:

  1. 查看分类变量的取值范围:分类变量通常包括不同的类别或者标签,需要先查看该变量的取值范围,以便后续分析。
  2. 统计每个分类变量的频数和频率:对于分类变量,我们需要了解每个类别的频数和频率,以衡量每个类别在样本中所占的比例。可以通过绘制频率分布表、柱状图等方式来展示。
  3. 进行分类变量的编码:在一些模型建立和分析中,需要使用分类变量进行分析,但是计算机往往不能直接处理分类变量,因此需要将其编码成数字形式。可以采用哑变量编码、标签编码等方法。
  4. 进行分类变量的特征工程:当变量为分类变量时,我们可以进行一些特征工程,例如对某些类别进行合并或删除,以提高变量的区分度和预测能力。
  5. 分析分类变量与其他变量之间的关系:可以通过交叉分析、卡方检验等方法,来了解分类变量和其他变量之间的关系,进一步探索分类变量对预测目标的影响。

3.3.2、区分预测性建模与解释性建模的关系

预测性建模和解释性建模是两个不同的概念,但它们之间存在一定的联系。

预测性建模通常是为了解决一个具体的问题预测未来的趋势而创建的模型。例如,通过使用历史销售数据来预测未来的销售额,或使用股票价格数据来预测未来的市场趋势。预测性建模的目标是创建一个高准确性的模型,以便可以做出最佳的预测决策。

解释性建模则旨在理解模型中的关键因素和变量之间的相互作用。这种建模通常被用于研究学术或科学问题,以及在政策制定和决策制定方面进行决策。解释性建模的目标是创建一个能够清楚地解释模型的结果和结论的模型,以便可以帮助人们更好地理解数据和现象。

虽然预测性建模和解释性建模有不同的目标,但它们之间存在一定的联系。预测性建模通常需要对数据进行深入分析,以了解数据中的模式和关系。这种分析通常需要使用解释性建模的方法来解释数据。同样,解释性建模通常需要将模型用于实际问题中,从而需要进行预测性建模来预测实际情况下的结果。

3.3.3、客户价值分析

进行客户价值分析的基本步骤与注意事项,如下内容所述。

基本步骤:
  1. 定义研究目标:明确需要了解的问题和目标,例如客户需求、满意度、忠诚度等。
  2. 确定研究方法:根据研究目标,选择适当的研究方法,例如问卷调查、深度访谈、焦点小组讨论等。
  3. 客户分群:将客户根据行为、偏好、价值等因素划分为不同的群体,以便更好地了解其需求和特点。
  4. 客户细分:在每个客户群体中进一步细分客户,如购买频率、消费金额、购买渠道等,以便更好地了解其需求和行为。
  5. 进行调查分析:通过调查和分析客户数据,了解客户的需求、满意度、期望等,发现客户痛点和机会,为提高客户价值提供依据。
  6. 制定客户价值策略:根据客户价值分析结果,制定相应的策略,如提高服务质量、增加产品种类、优化营销策略等,以提升客户价值。
注意事项:
  1. 研究目标要明确,研究方法要科学、有效。
  2. 客户分群和细分要根据客户行为和价值确定,且应严格保密。
  3. 调查分析要保证数据可靠性和客观性,避免因主观因素而偏离实际情况。
  4. 制定策略时要有重点、有针对性,充分考虑客户需求和市场环境。
  5. 在实施方案时,要注意跟踪和评估效果,及时调整策略和方法。

4、分类分析

【领会】
卡方检验计算公式
二分类逻辑回归的计算公式
【熟知】
分类变量是否存在相关关系的描述方法和检验方法,涉及列联表分析、卡方检验 似
然比与 Logit 转换
二分类逻辑回归模型构建与变量筛选
模型评估的方法,涉及混淆矩阵、ROC 曲线
【应用】
结合业务构建回归模型并且解释回归系数
根据业务场景与变量分布情况进行函数转换
使用结果进行新样本预测
逻辑回归与多元线性回归模型的结合应用
进行客户流失预测、信用评级、精准营销等模型的基本步骤与注意事项

4.1、领会内容

4.1.1、卡方检验计算公式

卡方检验的计算公式如下:

X² = Σ [ (Oi - Ei)² / Ei ]

其中, X²为卡方值; Oi为实际观察值; Ei为期望值,由样本数据计算而来; Σ为求和符号。

4.1.2、二分类逻辑回归的计算公式

二分类逻辑回归模型的数学表达式为:

h θ ( x ) = g ( θ T x ) = 1 1 + e − θ T x h_\theta(x) = g(\theta^Tx) = \frac{1}{1+e^{-\theta^Tx}} hθ(x)=g(θTx)=1+eθTx1

其中, h θ ( x ) h_\theta(x) hθ(x) 表示预测的概率, g ( z ) g(z) g(z) 是逻辑函数(也称为sigmoid函数), x x x 是输入特征向量, θ \theta θ 是模型参数向量。

预测结果为正类的概率可以通过将 h θ ( x ) h_\theta(x) hθ(x) 带入阈值函数进行判断,如:

y = { 1 , h θ ( x ) ≥ 0.5   0 , h θ ( x ) < 0.5 y = \begin{cases} 1, & h_\theta(x) \geq 0.5 \ 0, & h_\theta(x) < 0.5 \end{cases} y={1,hθ(x)0.5 0,hθ(x)<0.5

模型的目标是最大化训练数据的似然函数,即:

L ( θ ) = ∏ i = 1 m h θ ( x ( i ) ) y ( i ) ( 1 − h θ ( x ( i ) ) ) 1 − y ( i ) L(\theta) = \prod_{i=1}^m h_\theta(x^{(i)})^{y^{(i)}} (1 - h_\theta(x^{(i)}))^{1-y^{(i)}} L(θ)=i=1mhθ(x(i))y(i)(1hθ(x(i)))1y(i)

为了方便求解,通常采用对数似然函数来代替似然函数,即:

l ( θ ) = log ⁡ L ( θ ) = ∑ i = 1 m [ y ( i ) log ⁡ h θ ( x ( i ) ) + ( 1 − y ( i ) ) log ⁡ ( 1 − h θ ( x ( i ) ) ) ] l(\theta) = \log L(\theta) = \sum_{i=1}^m [y^{(i)} \log h_\theta(x^{(i)}) + (1-y^{(i)}) \log (1 - h_\theta(x^{(i)})) ] l(θ)=logL(θ)=i=1m[y(i)loghθ(x(i))+(1y(i))log(1hθ(x(i)))]

模型的目标就是最小化对数似然函数的负值,即:

J ( θ ) = − 1 m ∑ i = 1 m [ y ( i ) log ⁡ h θ ( x ( i ) ) + ( 1 − y ( i ) ) log ⁡ ( 1 − h θ ( x ( i ) ) ) ] J(\theta) = -\frac{1}{m} \sum_{i=1}^m [y^{(i)} \log h_\theta(x^{(i)}) + (1-y^{(i)}) \log (1 - h_\theta(x^{(i)})) ] J(θ)=m1i=1m[y(i)loghθ(x(i))+(1y(i))log(1hθ(x(i)))]

模型训练的过程就是通过梯度下降等优化算法,求解 θ \theta θ 使得 J ( θ ) J(\theta) J(θ) 取得最小值。

4.2、熟知内容

4.2.1、分类变量

分类变量之间存在相关关系是统计学分析中一个重要的问题。描述和检验方法如下:

列联表分析

列联表是将两个或多个分类变量的频数汇总到一个表格中,用于研究它们之间的关系。通过观察列联表中各类别的频数和频率,可以初步判断两个变量是否存在相关关系。

例如,假设我们要研究某地区男女性别和是否抽烟的关系,可以按照性别和抽烟与否两个变量分别建立一张列联表,并计算出各类别的频数(或频率),如下所示:

类别 抽烟 不抽烟 总计
男性 150 50 200
女性 80 120 200
总计 230 170 400

通过观察上表可以看出,男性中抽烟比例高于女性,男性中不抽烟比例低于女性,因此可能存在男女性别和是否抽烟的相关关系。

卡方检验

卡方检验是检验两个或多个分类变量之间是否存在相关关系的常用方法。它的原理是通过比较观察值和期望值之间的差异,判断样本数据是否与假设模型一致。

对于两个分类变量的列联表,可以利用卡方检验来检验它们之间的相关性。卡方检验的步骤如下:

  1. 建立假设
    H0:两个变量之间不相关。
    H1:两个变量之间存在相关关系。
  2. 计算期望频数根据假设模型和样本数据,计算出每个单元格的期望频数。
  3. 计算卡方值
    将观察频数和期望频数的差值平方,除以期望频数,得到每个单元格的卡方值。将所有单元格的卡方值相加,得到总的卡方值。
  4. 计算自由度
    自由度的计算方法是:自由度 = (行数-1)*(列数-1)。
  5. 查表得出显著性水平
    根据自由度和显著性水平查找卡方分布表,得到卡方值的临界值。
  6. 比较卡方值和临界值
    如果卡方值大于临界值,则拒绝原假设,认为两个变量之间存在相关关系;否则接受原假设,认为两个变量之间不相关。

例如,在上述例子中,可以用卡方检验来检验男女性别和是否抽烟的相关性。得到卡方值为3.97,自由度为1,显著性水平为0.05时,卡方分布表上的临界值为3.84。因此,卡方值大于临界值,可以拒绝原假设,认为男女性别和是否抽烟之间存在相关关系。

4.2.2、似然比与 Logit 转换

4.2.3、二分类逻辑回归模型构建与变量筛选

二元逻辑回归是一种常用的分类问题解决方法,主要应用于输出二分类结果,例如判断某个人是否生病或是否购买某个商品等。它基于逻辑函数,可以将输入的特征映射为概率输出,并根据阈值进行分类预测。

构建二元逻辑回归模型的步骤如下:

  • 收集数据集并进行预处理,包括缺失值处理、异常值处理和特征归一化等。
  • 将数据集划分为训练集和测试集,通常采用随机划分的方式。
  • 选择适当的特征,并对特征进行编码,例如采用独热编码或二进制编码等方式。
  • 建立逻辑回归模型,即构建逻辑函数和损失函数,并使用训练数据集进行模型训练。常用的优化算法包括梯度下降法、牛顿法和拟牛顿法等。
  • 使用测试数据集对模型进行评估,包括计算准确率、召回率、精度和F1值等指标。

变量筛选是构建逻辑回归模型的重要步骤,主要有以下几种方法:

  • 相关性分析:通过计算特征与结果变量之间的相关性系数,筛选出与结果变量相关性较强的特征。
  • 嵌入式方法:将特征选择嵌入到模型训练过程中,例如使用L1正则化或L2正则化约束模型参数,从而选择重要的特征。
  • 包裹式方法:将特征选择看成一个搜索问题,通过迭代地添加或删除特征来选择最佳的特征集合。
  • 过滤式方法:通过计算特征与结果变量之间的统计指标来评估特征的重要性,例如卡方检验、互信息、F检验等,从而选择重要的特征。

4.2.4、模型评估的方法

模型评估是评估一个机器学习模型在训练和测试数据上的表现。一些常见的评估方法如下:

混淆矩阵:是一种矩阵,用于可视化模型的性能。它包含四个指标:真阳性(true positive, TP)、真阴性(true negative, TN)、假阳性(false positive, FP)和假阴性(false negative, FN)。这个指标矩阵可用于评估二分类问题的模型性能,例如在医学领域中,应用到肿瘤诊断。

ROC 曲线:是一种绘制真阳性率 (TPR) 和假阳性率 (FPR)之间关系的图形。真阳性率是指被正确分类为真实正类的样本占所有真实正类样本的比例,假阳性率是指被错误分类为正类的负类样本占所有负类样本的比例。通过绘制 ROC 曲线,我们可以评估模型的性能,例如,ROC 曲线下方的面积 AUC(Area Under the Curve)可以用于比较不同分类器的性能。

准确率、精确率和召回率:是用于评估分类模型性能的指标。准确率表示被正确分类的样本所占比例,精确率衡量预测为正类的样本中有多少实际上是真正的正类,召回率衡量真正正类中有多少被预测为正类。这三个指标可以一起使用,以评估模型的分类能力,以及权衡假阳性和假阴性的风险。

5、聚类分析

【领会】
多种聚类算法的特点;
迭代的概念与实现。
【熟知】
聚类方法的基本逻辑;
距离的计算;
系统聚类和 K-Means 聚类的基本算法和优缺点;
系统聚类的计算步骤,包括两点距离、两类合并的计算方法;
系统聚类法中选择最优聚类数量的方法;
K-Means 聚类的基本算法;
聚类分析变量标准化的原因和计算方法;
变量需要进行主成分分析的原因;
变量进行函数转化的原因和计算方法。
【应用】
结合客户画像、客户细分、商品聚类、离群值检验(欺诈、反洗钱)等业务运用场景, 选取合适的聚类方法与步骤。
聚类事后分析,根据聚类后变量分布情况获取每类的特征。

5.1、领会内容

5.1.1、多种聚类算法的特点

聚类算法是无监督学习中最常用的方法之一,它的目标是将数据集划分为若干个不同的组或簇。不同的聚类算法基于不同的假设和方法,因此具有不同的特点。以下是常见聚类算法的特点.

聚类算法 特点
K均值聚类 一种基于距离度量的聚类算法,通过将数据点分配到最近的k个簇中,来构建簇。该算法的优点是简单易懂,计算速度快,适用于大规模数据集。但是,该算法对初始簇中心的选择非常敏感,可能会收敛到局部最优解。
层次聚类 一种逐步合并或分裂簇的算法,形成一个层次结构。可以选择自底向上(聚合)或自顶向下(分裂)地构建层次结构。该算法的优点是可以生成不同的簇数,不需要预先指定聚类数,同时可以看到层次结构。但是,该算法对于大规模数据集的计算开销较大,同时合并或分裂决策可能会导致局部最优解。
密度聚类 一种基于样本间密度的聚类算法,通过寻找高密度区域来确定簇。该算法特别适合于处理具有不同密度和形状的簇。但是,该算法对于噪声和维数灾难的数据集容易出现偏差,且需要手动指定密度阈值和邻域大小等参数。
谱聚类 是一种基于图论的聚类算法,通过计算样本的拉普拉斯矩阵,将数据投影到低维空间,然后使用其他聚类方法来划分簇。该算法可以处理非线性可分的数据,且对噪声具有一定的鲁棒性。但是,该算法有较高的计算复杂度,并且需要进行特定的特征变换和簇数的选择。
DBSCAN聚类 一种基于密度的聚类算法,它通过将样本点分为核心点、边界点和噪声点,来确定簇。该算法可以自动确定簇的数量,且对噪声和密度变化敏感。但是,该算法对于高维数据和不同密度的数据集可能会失效,并且需要手动调整参数。

综上所述,不同的聚类算法有不同的适用场景和特点,需要根据数据的特点和需求来选择合适的聚类算法。

5.1.2、迭代的概念与实现

迭代是指重复执行一定的操作来逐步接近所需结果的过程。在编程中,迭代通常用于处理数据集合中的每个元素,或在循环中重复执行某些操作。迭代的实现方式有很多种,以下是其中几种常见的方式:

  • for循环:for循环是一种非常常见的迭代方式。for循环通常用于遍历数组、列表等数据结构中的每个元素,并对每个元素执行一定的操作。
  • while循环:while循环也可以用来实现迭代。while循环通常用于在满足某个条件时重复执行一些操作,直到条件不再满足。
  • 迭代器:迭代器是一种用于遍历数据集合的对象。迭代器提供了next()方法,用于返回下一个元素,直到所有元素遍历完毕。
  • 递归:递归是一种通过重复调用函数来实现迭代的方式。递归通常用于处理树形结构等复杂数据结构,逐层遍历节点并对每个节点进行操作。

以上是几种常见的迭代实现方式,每种方式都有自己的特点和适用场景。在实际编程中,应根据具体情况选择最合适的迭代方式。

5.2、熟知内容

5.2.1、聚类方法的基本逻辑

聚类方法的基本逻辑是将数据集中的对象划分成多个类别或簇,使得同一类内的对象相似度尽可能高,不同类间的对象相似度尽可能低。聚类方法的目的是找到数据中的潜在结构模式和分类规律,以便对数据进行分析和应用。

5.2.2、聚类的距离计算

在聚类中,距离计算是用来衡量两个样本之间的相似程度的方法。通常情况下,距离计算方法应该是对称的(即d(x,y) = d(y,x)),非负的(即d(x,y) >= 0),并且d(x,y) = 0当且仅当x = y。

以下是几种常用的距离计算方法:

欧几里得距离:欧几里得距离是空间中两点之间的距离,也称为 L 2 L_2 L2距离。假设有两个向量 x x x y y y,它们的欧几里得距离为:
d ( x , y ) = ∑ i = 1 n ( x i − y i ) 2 d(x,y) = \sqrt{\sum_{i=1}^{n}(x_i-y_i)^2} d(x,y)=i=1n(xiyi)2

曼哈顿距离:曼哈顿距离也称为 L 1 L_1 L1距离,是指在二维平面上两点之间的距离,与从一个十字路口到另一个十字路口的距离相同。假设有两个向量 x x x y y y,它们的曼哈顿距离为:
d ( x , y ) = ∑ i = 1 n ∣ x i − y i ∣ d(x,y) = \sum_{i=1}^{n}|x_i-y_i| d(x,y)=i=1nxiyi

闵可夫斯基距离:闵可夫斯基距离是欧几里得距离和曼哈顿距离的一般化。假设有两个向量 x x x y y y,它们的闵可夫斯基距离为:
d ( x , y ) = ( ∑ i = 1 n ∣ x i − y i ∣ p ) 1 p d(x,y) = (\sum_{i=1}^{n}|x_i-y_i|^p)^{\frac{1}{p}} d(x,y)=(i=1nxiyip)p1

其中 p p p是一个可调整的参数,通常为2。

切比雪夫距离:切比雪夫距离也称为 L ∞ L_\infty L距离,是指两个向量在各维度上数值差的最大值。假设有两个向量 x x x y y y,它们的切比雪夫距离为:
d ( x , y ) = max ⁡ i = 1 n ∣ x i − y i ∣ d(x,y) = \max_{i=1}^{n}|x_i-y_i| d(x,y)=i=1maxnxiyi

在聚类算法中,距离计算方法的选择取决于数据的性质和算法的需求。

5.2.3、系统聚类和 K-Means 聚类的基本算法和优缺点

类别 系统聚类 K-Means 聚类
概念 一种基于树状结构的聚类方法,可以分为自上而下的聚合(Agglomerative)和自下而上的分裂(Divisive)两种方式 一种基于距离度量的非层次聚类方法
算法步骤 1,初始化,将每个数据点看作一个簇。2,计算任意两个簇之间的相似度或距离,用距离作为相似度度量的话,距离越小,相似度越高。3,找到距离最近的两个簇,将它们合并为一个新的簇。4,重复步骤2和3,直到簇的个数达到预设的阈值或者只剩下一个簇。 1,初始化,随机选择 K 个数据点作为初始聚类中心。2,将每个数据点分配到与其距离最近的聚类中心所在的簇中。3,重新计算每个簇的质心(即平均值),作为新的聚类中心。4,重复步骤2和3,直到簇的中心不再变化或达到预设的迭代次数。
优点 1,不需要预设簇的数量,可以根据不同的相似度阈值得到不同数量的簇。2,可以可视化地表示出不同层次的聚类结果,对数据有良好解释性和可理解性。3,可以处理不同类型和形态的数据,包括数值型、标称型、序数型等。 1,计算量相对较小,速度快。2,能够处理大规模数据集。3,通常表现较好的处理数值型数据。
缺点 1,对于大规模数据集,计算任意两个簇之间的相似度或距离的时间复杂度较高,计算量大。2,对噪声和异常值敏感。3,由于是贪心算法,容易陷入局部最优解。 1,需要预设聚类的个数 K。2,对于不同密度和不同大小的簇效果不佳。3,对于不是凸形的簇,表现不如基于密度的聚类算法。

5.2.4、系统聚类法中选择最优聚类数量的方法

在系统聚类法中,选择最优聚类数量的方法包括以下几种:

聚类平均簇内距离法(Ward’s method):该方法通过计算每个聚类的凝聚度,即聚类内各点与聚类中心的距离平方和,来评估不同数量的聚类效果,选择使平均簇内距离增幅最小的聚类数量作为最优聚类数。

轮廓系数法(Silhouette method):该方法通过计算每个数据点的轮廓系数,即该点与其所属聚类内其他点的平均距离,与该点与距离最近聚类内其他点的平均距离之差的比值,来评估不同数量的聚类效果,选择轮廓系数达到最大值时的聚类数量作为最优聚类数。

间隔统计量法(Gap statistic method):该方法通过生成一组随机数据集并计算其与原始数据集的聚类效果之间的差异,来评估不同数量的聚类效果,选择使间隔统计量达到最大值时的聚类数量作为最优聚类数。

直观分析法:该方法通过观察聚类图像,判断聚类数量增加时每个聚类之间的区别是否足够明显,对聚类效果进行直观分析来选择最优聚类数。

5.2.5、聚类分析变量标准化的原因和计算方法

聚类分析需要对不同变量之间的距离进行度量,而不同变量之间的度量单位不同,可能会导致距离度量的偏差。为了消除偏差,需要进行变量标准化。

变量标准化的计算方法有以下两种:

Z-score标准化方法:将变量的原始值转化为其标准分数,即将各变量的值减去该变量所有数据的均值,再除以该变量所有数据的标准差,即
z i = x i − x ˉ s z_i=\frac{x_i-\bar{x}}{s} zi=sxixˉ

其中, z i z_i zi表示变量 i i i的标准分数, x i x_i xi表示变量 i i i的原始值, x ˉ \bar{x} xˉ表示变量 i i i所有数据的均值, s s s表示变量 i i i所有数据的标准差。

Min-max标准化方法:将变量的原始值转化为0~1之间的数值,即将各变量的值减去该变量所有数据的最小值,再除以该变量所有数据的最大值与最小值之差,即
x i ′ = x i − x m i n x m a x − x m i n x_i'=\frac{x_i-x_{min}}{x_{max}-x_{min}} xi=xmaxxminxixmin

其中, x i ′ x_i' xi表示变量 i i i的标准化值, x i x_i xi表示变量 i i i的原始值, x m i n x_{min} xmin表示变量 i i i所有数据的最小值, x m a x x_{max} xmax表示变量 i i i所有数据的最大值。

无论使用哪种标准化方法,都能够消除不同变量之间的度量单位差异,使得聚类分析的结果更加准确。

5.2.6、变量需要进行主成分分析的原因

变量需要进行主成分分析的原因是在实际问题中,可能存在许多相关变量,它们会造成冗余信息和多重共线性问题,导致模型的不稳定性和误差增加。而主成分分析可以将这些相关变量转化为少数几个无关的综合变量,从而降低变量的维度和冗余信息,提高模型的精度和效率,更好地解决实际问题。同时,主成分分析还可以帮助理解数据的结构和变量之间的关系,有助于探索变量之间的内在联系和发现隐藏的模式,对于数据挖掘和特征提取等领域有着重要的应用价值。

5.2.7、变量进行函数转化的原因和计算方法

变量进行函数转化的主要原因是为了方便计算和描述。将变量进行函数转化可以让我们更加清晰地了解变量的变化规律和特性,也可以使得计算过程更加简便和高效。

计算方法主要分为以下两个步骤:

  1. 将变量转化为符合函数形式的表达式,即将变量表示为自变量和因变量之间的关系式,例如:
    通过线性变换将变量x转化为y,y=ax+b
    通过指数函数将变量x转化为y,y=a^x
    通过对数函数将变量x转化为y,y=log_a(x)
  2. 使用所得到的函数式进行计算,即将自变量代入函数中求出因变量的值。例如,如果要求线性变换y=ax+b在x=2时的因变量值,可以将x=2代入函数,得到y=a*2+b的结果。

6、时间序列

【领会】
明确趋势分解法、ARIMA 方法、时间序列回归方法的差异和适用场景;
明确 ARIMA 方法的计算方法;
【熟知】
趋势分解法,涉及乘法模型、加法模型、ARIMA 方法的具体步骤;
时间序列回归的方法
【应用】
结合业务(业绩预测、预警),选取合适的分析方法;
进行业务时间序列预测等模型的基本步骤与注意事项。

6.1、领会内容

6.1.1、趋势分解法&ARIMA 方法&时间序列回归方法

趋势分解法、ARIMA 方法、时间序列回归方法是时间序列分析中常用的三种方法,它们分别具有不同的特点和适用场景。

趋势分解法:将一个时间序列分解为趋势、季节性和随机波动三个部分,以便更好地理解其性质和特征。该方法适用于周期性变化、趋势变化和季节性变化较为明显的时间序列,例如自然灾害、经济周期等。

ARIMA 方法:自回归移动平均模型,是一种广泛应用于时间序列分析的方法。该方法主要适用于非常规时间序列,如具有长期趋势和季节性变化等特征的时间序列。其适用条件包括时间序列平稳性、自相关性和偏自相关性等方面的要求。

时间序列回归方法:将时间序列与其他相关变量进行回归分析,以确定两者之间的关系,并进行预测。它主要适用于分析时间序列与其他变量之间的相关性,如销售额与广告投入、气温与能源消耗等。

总之,选择合适的方法进行时间序列分析需要根据具体的数据和问题来确定。趋势分解法适用于周期性、趋势性和季节性变化较为明显的时间序列,ARIMA 方法适用于非常规时间序列,时间序列回归方法适用于分析时间序列与其他变量之间的相关性。

6.1.2、 ARIMA 方法的计算方法

ARIMA (AutoRegressive Integrated Moving Average) 是一种用于时间序列预测的方法,其计算方法如下:

  1. 观察时间序列的趋势和季节性,并进行差分,使其变成平稳时间序列。
  2. 确定 ARIMA 模型的参数 p、q、d:
    p 是自回归项的阶数,表示之前的 p 个时间步长的数据对当前时间步长的影响;
    q 是移动平均项的阶数,表示之前的 q 个时间步长的噪声对当前时间步长的影响;
    d 是差分次数,表示将时间序列进行差分的次数。
  3. 使用样本数据训练 ARIMA 模型,并进行模型检验和参数调整。
  4. 使用训练好的 ARIMA 模型进行预测。对于每个时间步长,使用之前的 p 个时间步长的数据和之前的 q 个时间步长的误差来生成预测。
  5. 对于每个预测结果,使用置信区间来评估预测的精度。如果置信区间与实际观测值重叠,则认为预测结果可信。

需要注意的是,在实际应用中,ARIMA 方法的计算可能比较复杂,需要结合实际场景和数据进行调优和优化。

6.2、熟知内容

6.2.1、趋势分解法具体步骤

**势分解法(Trend Decomposition Method)**可以将时间序列分解为趋势、季节性、循环和随机四个部分,提取出时间序列的各种特征,是时间序列分析中常用的方法之一。趋势分解法包括乘法模型、加法模型和ARIMA(自回归(AR)综合移动平均(IMA))方法,下面是它们的具体步骤:

  1. 乘法模型 乘法模型将时间序列分解为趋势、季节性、循环和随机四个部分,其公式为: y(t) = T(t) * S(t) * C(t) * E(t) 其中,y(t)为时间序列,T(t)为趋势,S(t)为季节性,C(t)为循环,E(t)为随机误差。
    乘法模型的具体步骤如下:
    (1)对原始时间序列进行对数转换,转化为线性关系。
    (2)对转换后的序列进行平滑处理,例如移动平均法或指数平滑法。
    (3)计算季节性指数,将序列分解为趋势和季节性两部分。
    (4)对季节性指数进行平滑处理,例如移动平均法或指数平滑法。
    (5)计算循环指数,将序列分解为趋势、季节性和循环三部分。
    (6)对循环指数进行平滑处理,例如移动平均法或指数平滑法。
    (7)将趋势、季节性、循环指数和随机误差相乘,得到原始时间序列。
  2. 加法模型 加法模型将时间序列分解为趋势、季节性、循环和随机四个部分,其公式为: y(t) = T(t) + S(t) + C(t) + E(t) 其中,y(t)为时间序列,T(t)为趋势,S(t)为季节性,C(t)为循环,E(t)为随机误差。
    加法模型的具体步骤如下:
    (1)对原始时间序列进行平滑处理,例如移动平均法或指数平滑法。
    (2)计算季节性指数,将序列分解为趋势和季节性两部分。
    (3)对季节性指数进行平滑处理,例如移动平均法或指数平滑法。
    (4)计算循环指数,将序列分解为趋势、季节性和循环三部分。
    (5)对循环指数进行平滑处理,例如移动平均法或指数平滑法。
    (6)将趋势、季节性、循环指数和随机误差相加,得到原始时间序列。
  3. ARIMA 方法 ARIMA 方法是一种基于自回归(AR)综合移动平均(IMA)的时间序列模型,可以用于预测和分解时间序列的趋势和季节性。
    ARIMA 方法的具体步骤如下:
    (1)进行时间序列分解,提取趋势和季节性。
    (2)对分解后的残差进行自回归(AR)建模。
    (3)对自回归建模得到的残差进行移动平均(MA)建模。
    (4)通过AR和MA的参数建立ARIMA模型,预测未来时间序列值。
    (5)将预测的趋势和季节性加回去,得到完整的预测结果。

6.2.2、时间序列回归方法

时间序列回归是一种基于时间序列数据的回归分析方法,它将时间作为一个自变量或者是一个特征来预测目标变量的值。下面介绍几种常见的时间序列回归方法:

  • 线性回归:基于线性关系建立的回归模型,可以用来预测目标变量在时间上的变化趋势。
  • ARIMA模型:ARIMA是一种广泛使用的时间序列建模方法,它基于自回归(AR)和移动平均(MA)的概念,可以分离出时间序列中的趋势、季节性和随机性成分。
  • Prophet模型:由Facebook开发的一种强大的预测框架,针对具有时间趋势、季节性和节假日等复杂模式的时间序列数据进行建模,能够在预测需求、销售和其他趋势时提高准确度。
  • LSTM模型:LSTM是一种递归神经网络模型,能够更好地处理时间序列数据中的长期依赖关系,适合处理非线性的时间序列数据。

以上方法在实际应用中选择的因素主要包括数据的性质、数据量、预测精度要求等因素,需要根据具体情况进行选择。

6.3、应用内容

6.3.1、进行业务时间序列预测等模型的基本步骤与注意事项

进行业务时间序列预测模型的基本步骤如下:

  1. 数据收集:收集所需的历史时间序列数据,包括每个时间点的相关指标。
  2. 数据探索:通过可视化和统计方法探索数据,并发现可能的趋势、周期性和异常值。
  3. 数据预处理:清洗数据、平滑、差分、缩放数据,以便更好地拟合模型。
  4. 模型选择:根据数据的特点选择合适的模型,如ARIMA、ETS、Prophet等。
  5. 模型训练:使用历史数据对所选模型进行训练,并对模型进行参数调整。
  6. 模型评估:使用评估指标(如均方误差、平均绝对误差等)对训练好的模型进行评估。
  7. 模型应用:使用训练好的模型进行未来时间的预测。

进行业务时间序列预测模型时需要注意以下几点:

  • 数据采集应确保数据的完整性和准确性。
  • 在模型选择时,要特别注意数据的特点和需求,并根据实际情况调整模型。
  • 在模型训练时,需要对模型进行合理的参数调整,以获得更好的预测效果。
  • 在模型评估时,使用多个不同的评估指标,以全面评估模型的性能。
  • 在应用模型时,需要注意模型的适用范围和时间跨度,以及模型的未来预测的可靠性。

(“Youth is not afraid of the long years, there is still glory in the other side.少年不惧岁月长,彼方尚有荣光在。”FIGHTING. . . .)

你可能感兴趣的:(数据分析,数据分析,机器学习,数据挖掘,逻辑回归)