暴走的山芋

数据分析知识——统计学学习笔记（拉勾数据分析训练营）

模块1 统计学基本概念

1 测量尺度

人文社科中的分类尺度

1定类尺度

功能：分类作用，比如性别。英文：Norminal

2定序尺度

功能：分类、排序作用，比如喜欢的艺人、年级。英文：Ordinal

3定距尺度

功能：分类、排序、加减，比如温度。英文：Scale

4定比尺度

功能：分类、排序、加减、乘除，比如年龄、体重等。有绝对零点。英文：Scale

实际应用说明

分类说法：定类与定序合称分类变量，定距与定比合称连续变量。Tableau就是这样分类：分类-维度，连续-度量。

描述统计方法：

分类变量：只能用频次统计
连续变量：既可以用频次统计，也可以用均值和标准差。

2 平均值

分类概念

1算术平均

2几何平均

n个数据的乘积开n次方。计算多年增长率的复合增长率

3调和平均

互联网数据分析用的很少，一般当数据在下限值附近的时候，例如是右偏分布的时候（波峰偏左），这个均值比前两个都小。

4调整平均

又称trim平均，从上限值和下限值中去掉一定比例（通常5%）的数据后剩下的数据的算术平均。可以去除最大最小值的原因是因为这些值可能是异常值。

3中位数和众数

概念

1中位数

当一组序列数据之间差异较大时，导致平均值代表性较弱，可通过中位数来表示数据的集中趋势

2中位数和众数的应用差异

平均值、中位数通常应用在连续变量中，即数值型变量。众数既可以用在连续变量，也可用在分类变量中。

4极差和标准差

对数据的离散状态进行分析，本课程内只介绍最常用的两个。

概念

极差

指分布的最大值和最小值的距离。

标准差

作为表示各个数据相当于平均值的离散程度的指标。

要点

对于不同样本量的两个样本做离散程度对比时，直接用标准差是不合适的。可以用离散系数，即，标准差/平均值，来代表。
在计算过程中，用n去除的公式适合于总体数据的场合，而用(n-1)去除的公式则适合于从总体中抽取样本的场合。原因是总体的样本量比较大，其离散程度肯定大于抽样样本。除以(n-1)可以人为的少量放大样本的离散程度，从而更贴近总体。

模块一2 总体推断

统计推断/假设检验

z值转换公式：用来将t分布转换为z分布，即（标准差0，均值为1），又称为标准化，或Z值标准化。Z=(xi-x)/s（xi原始样本数值，x样本均值，s标准差），用于判断哪些数值为异常值。Z值绝对值大于3为异常值，大于5为极端值。

t分布

Excel两个函数：TINV(概率值求t值)、TDIST（t值求概率值）

置信度

T=1.65，对应90%的置信度，T=1.98，对应95%的置信度，T=2.58，对应99%的置信度

假设检验的步骤

定义H0和H1：原假设H0一般定义没有相关性或没有显著差异，研究假设H1定义为有相关性。
选择合适的检验方法，计算统计量（t值、F值等）。置信度即显著性水平，一般取t为1.98。
根据统计量计算概率P值，或者取值区间。
P值与显著性水平（通常0.05）进行对比，P<0.05，则拒绝原假设H0，接收研究假设H1；反之，P>0.05，则接受原假设H0。

模块一3 抽样方法

10万以下一般都属于小样本

1分层抽样

如何选择分层变量，考虑因素：

选择那些与研究主题高度相关的变量，比如研究收入问题时，考虑学历、年龄、性别等影响收入的基本属性。
成本：分层因素考虑越多，选取的样本量则越多，学历（高、中、低3类）、收入（高中低3类）、性别（男女2类）.则共有总共18类，每类样本量至少保证30人以上（一般认为只有30人以上的单元才有统计学意义），此时就需要18*30=540人的样本。

因此可以将与研究主题不太相关的主题可以不考虑，或者将因素的分类减少。

模块一4 卡方检验

很多场景都用，非常经典的方法。

假设检验的结论：P<0.05，则研究假设成立；反之，p>0.05，则研究假设不成立。

应用场景

属于非参数检验，适用于不知道总体参数的检验，是最常用的一种非参数检验。当不适用参数检验法时，第一个想到的就是卡方检验。

常见的单样本非参检验方法

1 比例分布检验（卡方检验）

检验一个变量是否包含相同频率或与用户指定比例一致。

操作：分析-非参数检验-旧对话框-卡方检验

原假设：变量的取值分布与均匀分布（或研究者设定的分布）没有显著差异

研究假设：变量的取值分布与均匀分布（或研究者设定的分布）有显著差异

P<0.05，则研究假设成立。

2 二项式检验

检验一个变量取二分类两个值的概率是否符合设定的概率。概率有时候是50%，有时候可以是别的值。

操作：分析-非参数检验-旧对话框-二项

原假设：变量的第一个取值比例与设定比例没有显著差异

研究假设：变量的第一个取值比例与设定比例有显著差异

分割点：是将一个连续变量，选择一个值分割为大于该值和小于该值。

3 K-S检验

检验样本来自的总体中，一个变量的分布是否服从正态分布、均匀分布、泊松分布、指数分布。

原假设：变量来自总体的分布与正态分布（或均匀分布等）没有显著差异，即变量在总体中呈现正态分布（或均匀分布等）。

研究假设：变量来自总体的分布与正态分布（或均匀分布等）有显著差异，即变量在总体中不呈现正态分布（或均匀分布等）。

4 游程检验

检验某一变量的两个值的出现顺序是否随机。

研究假设：变量两个值出现顺序不是随机的

5 独立样本非参数检验

独立样本：两组不同不重叠的样本，比如男性和女性

检验两组样本在收入、年龄等分布上是否有差异。即检验不同人群在特定变量取值上是否有差异。

研究假设：两组来自总体的变量数据在分布上有差异，即两组数据在该变量的去之上有显著差异

操作：分析-非参数检验-旧对话框-2个独立样本

注意：分组变量是分类变量、比较变量是连续变量

6 配对样本非参数检验

配对样本：同一组人群在不同时间采集的两组或多组数据；或者同一组人群不同身体部位采集的两组或多组数据。

检验同一组人群在不同时间、不同部位采集的数据是否有差异。

研究假设：来自总体的同一组人群的两组数据在分布上有差异，即两组数据在该变量的取值上有显著差异

操作：分析-非参数检验-旧对话框-2个相关样本

注意：t1、t2，比较的变量必须是连续变量

7 交叉分析（列联表分析）

检验两个分类变量是否存在相关性。

如果场景中需要对连续变量进行卡方检验，首先需要将连续变量转换为分类变量，如年龄分为70后、80后、90后、00后……

连续变量转成分类变量的操作：转换-重新编码为不同变量，收入分为0-50，50-100，100以上等。

如果两个变量都是定类变量，相关系数可通过卡方检验中“名义”里的四个相关系数；如果两个都是定序变量，则选择“有序”里的四个相关系数。

问：如果两个变量中，一个为定类变量，一个位定序变量，相关系数应该选哪个？

答：应该用“名义”中的四个相关系数，原因是定序变量可降级为定类变量，而定类变量不可以升为定序变量。

卡方检验结果解读

第一步：看卡方统计结果，根据P值判断两个变量是否存在相关性，如P<0.05，则说明两者存在显著相关性

第二步：看相关系数，判断两者之间相关性到底有多大。0-0.2，较弱相关；0.2-0.4，弱相关；0.4-0.6，相关性一般；0.6-0.8，较强相关；0.8-1，极强相关。

第三步：看频次分布，具体分析两者存在什么样的相关。

模块一5 t检验

假设检验的结论：P<0.05，则研究假设成立；反之，p>0.05，则研究假设不成立。（有时P值也称Sig，significance）

单样本均值t检验

某个连续变量的样本均数与给定总体的已知均数相比，其差异是否有显著。

用到的变量：一个连续变量

数据要求：小样本时来自的总体服从正态分布，如果大样本或者是数据收集的时候没有特殊性，可以忽略正态分布的假设。

操作：分析-比较平均值-单样本t检验

独立样本均值t检验

用来检验两组独立样本在某个连续变量的均值是否有显著差异。

用到的变量：一个连续变量和一个分类变量（也可以将连续变量进行分组（分割点）变成分类变量）

原假设：两组独立样本来自的总体在该变量的均值上没有显著差异

研究假设：两组独立样本来自的总体在该变量的均值上有显著差异

操作：分析-比较平均值-独立样本t检验

方差齐性检验

用于判断看哪个t值

原假设：两组总体中的方差是相等的

研究假设：两组总体中的方差是不等的

当p<0.05，则研究假设成立，即两组总体中的方差是不等的，需要看第二行的t值检验结果。反之则看第一行的t值结果。

配对样本均值t检验

用来检验同一组样本不同时间/部位/处理条件测量得到的两组数据均值是否存在差异。

原假设：两组配对数据之间没有显著差异

研究假设：两组配对数据之间有显著差异

变量：两个连续变量（其实是针对同一组人群不同时间/部位/处理条件测量的两组数据）

操作：分析-比较平均值-成对样本t检验

模块一6 方差检验

又称F检验、ANOVA。

变量要求：自变量既可以是分类也可以是连续变量，因变量必须是连续变量。

因素：因素是可能对因变量有影响的变量

水平：因素的不同取值等级称作水平

单元：亦称为实验单位，指各因素的水平之间的每种组合。

交互作用：

如果一个因素的效应大小在另一个因素不同水平下明显不同，则称为两因素间存在交互作用。当存在交互作用时，单纯研究某个因素的作用是没有意义的，必须分另一个因素的不同水平研究该因素的作用大小。
如果所有单元格内都至多只有一个元素，则交互作用无法进行分析，只能不考虑

单因素方差检验

检验3组及以上人群在某个连续变量均值上是否存在差异，或某个分类变量对某个连续变量是否存在显著影响（显著相关）

变量：**因变量是一个，且为连续变量；**自变量是一个，为分类变量（如果是连续变量要分组）

研究假设：自变量与因变量之间存在显著相关（不同人群之间在该连续变量的均值上有显著差异）

操作：分析-比较平均值-单因素ANOVA检验

两两比较中根据方差齐性检验结果，来选择方差相等的比较结果或方差不等的检验结果。

方差齐性检验在：选项-方差齐性检验。当方差不齐时，则通过非参数检验中的K个独立样本检验法进行检验。

多因素方差检验

检验多个变量在某个连续变量均值上是否存在差异，或多个变量对某个连续变量是否存在显著相关。

变量：**一个因变量，且为连续变量；**自变量有多个（既可以是分类变量也可以是连续变量）

研究假设：多个自变量与因变量之间存在显著相关

拆开来看研究假设：

因子A对因变量有影响；因子B对因变量有影响；因子A与因子B有交互作用（三个因素的交互影响一般不考虑）

操作：分析-一般线性模型-单变量

也要进行方差齐性检验

选用模型

当自变量特别多时，尤其是分类自变量特别多，且样本量不多时，应该使用定制模型。

全因子模型：既考虑所有自变量对于因变量的直接效应，又考虑所有分类变量的交互作用对因变量的影响。

（构建项/构建定制项）定制模型：可根据研究者自身需求，定制需要考虑的对因变量的影响因素。比如只考虑自变量的直接效应，或部分自变量的交互作用。

模块二1 多变量分析方法的选择

有因变量，则建立有监督模型。有监督模型有两大通用目的：1）分析哪些自变量对因变量存在显著影响作用；2）通过选择对因变量存在显著影响的自变量，建立预测因变量取值的预测模型。
1. 因变量为连续变量，建立的模型称为回归预测模型：
  1. 自变量为连续变量时，可选择回归分析、方差分析；
  2. 自变量为分类变量+连续变量，可选择带虚拟变量的回归分析、联合分析、方差分析
2. 因变量为分类变量（定性数据），建立的模型称为分类预测模型：
  1. 自变量为连续变量（或连续+分类）时，可选择判别分析、Logistic/probit analysis
  2. 自变量为定性数据时，可选择对数线性回归（Logit）。预测因变量是如何分类的，在人文社科常用。
无因变量，则建立无监督模型。只要是无监督分析，都叫做描述分析，分析方法得到的结果没有客观标准判断结论是否准确。目的：1）对人进行分类；2）对变量/指标进行分类；3）分析变量与变量之间的测量关系
1. 自变量为连续变量时，选择因子分析（其中一个目的就是对变量/指标分类）、聚类分析（对人分类、对变量/指标分类）
2. 自变量为分类变量时，选择对应分析（对人分类）、多维尺度分析（对人分类）
其他分析
1. 当模型中需要加入潜在变量（通过多个客观指标测量的抽象概念整体）、或需要考虑多个变量之间的因果关系分析模型，建立结构方程模型、路径模型、协方差分析。
2. 综合评价：通过多个指标对多个评价对象进行排名，可选择层次分析法（AHP)、因子分析等。

模块二2 相关系数

相关系数是衡量两个变量之间变化趋势的相关性

不同变量类型的相关系数

两个变量都为连续变量，则可用Pearson相关系数。在统计中常用r这个符号来表示。
两个变量都为定序变量，则可用GMMA、Spearman、Kendall’s tau-b等相关系数
两个变量都为定类变量，则可用LAMMDA等相关系数
一个变量为定类变量，一个变量为连续变量，可通过ETA系数来测量相关性

三种重要相关系数

Pearson相关系数：参数检验，针对两个都是连续变量的数据进行相关性判断
Spearman相关系数：非参数检验，针对两个都是定序变量
Kendall’s tau-b相关系数：非参数检验，针对两个都是定序变量

其他概念

常用方法：散点图；计算相关系数

偏相关分析的假设检验

注意：计算相关性的变量为连续变量，加入控制的变量同样也是连续变量

操作：分析-相关-偏相关性

模块二3 回归分析

*目的：*当需要用一个数学表达式（模型）表示多个因素与另外一个因素之间关系时，可选用回归分析法。

*R²：*自变量对因变量的解释能力，即r（相关系数）的平方。注意r不一定是一元一次回归模型里x前面的值，x前面的值是要考虑x和y的量纲的。

*应用：*和有监督模型的两个通用目的相同：

1）分析哪些自变量对因变量存在显著影响作用，R²值可以不要求大于0.8；

2）通过选择对因变量存在显著影响的自变量，建立预测因变量取值的预测模型，模型R²必须要求大于等于0.8。

但是，在人文社科领域，很多回归模型的R²值达不到0.8，也可以用来做预测。

回归分析的建立步骤

选择变量
1. 因变量：根据研究需求或问题推导出来
2. 自变量：1）前人的研究成果；2）个人经验
确定变量之间关系
1. 挨个将自变量与因变量画散点图，判断每个自变量与因变量之间是线性还是非线性关系
2. 通过卡方检验、T检验、F检验或相关分析法，挨个分析每个备选的自变量与因变量之间是否存在显著的相关性。将与因变量明显没有相关性的自变量剔除掉，不加入到后期模型中。
选择对应的线性或非线性方程，进行各项参数计算
回归方程计算，对模型进行全方位检验
1. 多重共线性检验：检验多个自变量之间是否存在相关性较高的变量，如有，则保留与因变量相关性最高的一个自变量。
2. 模型拟合优度检验：方差检验/判定系数（R²）/残差检验/自变量参数检验

回归分析的软件操作

画图位置：图形-图表构建器

解决问题：分析影响人们家庭收入的因素有哪些，建立预测收入的回归方程

因变量：家庭收入

自变量：年龄、工作年限、性别（因为只有男女01）、学历（变成虚拟变量）

操作：分析-回归-线性

“统计”中勾选共线性诊断、DW

“图”中勾选标准化残差图下的：直方图、正态概率图

虚拟变量

原因：分类变量无法参与到回归模型中的加减乘除运算

操作：将原先的分类编码统一转换为0、1数值

Ed=12345，转换为4个变量，选择第三个值为对照（也可以选其他值为对照人群）

还可以转换为5个变量，这时没有对照人群，都有一个1。

1 2 3（对照人群） 4 5

Ed1 1 0 0 0 0

Ed2 0 1 0 0 0

Ed3 0 0 0 1 0

Ed4 0 0 0 0 1

SPSS软件操作：选中要转换的字段列-转换-重新编码为不同变量，定义新值和旧值的对应关系

	1	2	4	5
Ed1	1	0	0	0
Ed2	0	1	0	0
Ed3	0	0	1	0
Ed4	0	0	0	1

回归分析的结果解读

拟合优度检验：
1. R²值
2. F值：F值对应的概率P值小于0.05，研究假设成立，即至少有一个自变量对因变量存在显著影响
参数显著性检验：
1. 根据每个自变量的t值对应的概率P值是否小于0.05，如小于0.05，则研究假设成立，即该自变量对因变量存在显著影响。
  
  根据下表得出：
  
  [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NPJl7JWu-1613448172329)(G:\个人文档\拉勾教育数据分析训练营\第六阶段统计学\统计学个人笔记.assets\image-20210209091708359.png)]
  
  工作年龄和学历对收入有显著影响，而年龄和性别没有。通过标准化系数来判断两者对影响程度大小，可知工作年限的影响明显大于学历。
  
  工作年限对收入影响程度（未标准化系数的B）：在其他变量不变的情况下，工作年限每增加一个单位（1年），则因变量家庭收入平均增加6.279个单位。
  
  学历对收入的影响程度（4个虚拟变量）：Ed1 = -51.042表示Ed1代表的学历（高中以下）比对照的学历人群（大专学历）在因变量家庭收入上，平均低51.042个单位 ——其他同理
共线性检验：通常根据VIF>10，自变量之间存在共线性。如果存在共线性，可用逐步法解决。
残差检验：DW越接近2，表示残差越不存在自相关性。——主要看两个图表：直方图、正态P-P图
将对模型没有显著影响的因素剔除掉

操作：用逐步回归法，在线性回归的方法中选“步进”，从自变量中将对模型没有影响的因素删除掉。

以下结果为三次逐步回归后，R方值很接近1得到的结果。第三个模型是最准确的
回归方程：y=34.601+6.021*工作年限-62.647*ed1-36.379*ed2
发现模型中没有ed3和ed4，那就无法完整反应学历的影响。需要强制将他们放到模型里。操作是：任务三-6-32:42，在回归分析中将四个学历放在下一层（SPSS软件里选“下一个”），方法选强制。得到如下结果
回归方程：y=22.629+6.087*工作年限-51.637*ed1-25.174*ed2+16.717*ed3+28.459*ed4

非线性回归

求解方式：

线性转换：原因是非线性方程拟合方法和参数初始值设置均会导致求出的结果并非全局最优解，因此尽量将非线性方程转换为多元线性回归方程。
直接建立非线性方程，求解非线性模型。

操作：先通过散点图判断是否存在非线性关系（用telecon数据）

SPSS操作1：分析-回归-曲线估算

自变量：Ininc；因变量：Income

Income = e^Ininc

SPSS操作2：分析-回归-非线性

因变量：Income

自己写模型表达式a*EXP(b*Ininc)

点“参数”设置初始值

模块二4 因子分析

目的：对多个具有较高相似性的变量/指标进行降维，前提是这些变量/指标之间必须存在一定的相关性/相似性

应用场景

降维后做综合评价
效度检验：对抽象概念的测量工具进行有效性检验，判断哪些指标需要保留或删除，并对保留的指标进行维度划分
降维后做其他分析：由于变量存在较高相关性，不适合做回归分析、聚类等其他分析，需要用因子分析消除变量间较高的共线性

因子旋转的目的

使得因子可以更好地代表原来的变量
降低或消除提取的因子之间的相关性

SPSS软件操作

分析-降维-因子

判断相关性：描述-相关性矩阵-KMO和巴特利特球形度检验
旋转-最大方差法
得分-保存为变量
选项-按大小排序、排除小系数

结果解读

KMO>0.7，适合做因子分析
累计方差贡献率需要达到多少才合适：
1. 做综合评价：>80%（类似于回归分析需要R²>0.8）
2. 效度检验或其他分析：>60%，效度检验更宽泛，甚至可以不要求
判断因子数量：碎石图拐点位置的因子数量（现在已经比较少用）；因子特征值>1；因子的累计方差贡献率
因子的划分：根据每个变量在每个因子中的取值是否大于0.5
效度检验（应用场景2）（用因子旋转载荷矩阵）：

用于判断保留哪些变量，这种方法也主要应用于探索性因子分析
1. 第一判断标准：每个变量有且只有一个因子载荷值大于0.5，如果所有因子载荷值均小于0.5，则说明该变量不具有收敛效度，需要删除；
2. 第二判断标准：变量在两个或以上因子中的载荷值同时大于0.5，则说明该变量不具有区分效度，需删除；
3. 第三判断标准：某变量单独成为一个因子，则说明该变量也不存在收敛效度
因子原始得分计算（用因子得分系数矩阵，一般每个值都不大于0.5）：F1 = x1*a1 + x2*a2……
因子轴旋转后的因子得分：在变量视图里可以找到几个

Logistic回归（逻辑回归）

应用场景：

做分类预测模型，且为非参数检验方法。可以用于二分类、无序多分类、有序多分类。

SPSS软件操作

二元（因变量有两个值）

位置：分析-回归-二元Logistic

首先选“输入”方法，统一看下自变量对因变量的影响程度

结果解读

很重要的一个结果是“分类表”，用来判断逻辑回归模型的准确率。
看另一个表“方程中的变量”：
- 根据参数检验中的p是否<0.05，得到自变量对因变量是否存在显著影响。
- 根据“瓦尔德”（Wald）值的大小，判断自变量对因变量的影响程度
然后再次进行逻辑回归操作，选“向前”或“向后”方法，剔除影响程度小的变量。

之后如果发现有的变量被剔除了，可以用分层的方法（选“下一个”），用“输入”方法，强制将某变量加进来
优势比（OR值，在表格中是Exp(B)）大于1，表示该自变量会增加因变量取1的概率的发生；反之会降低因变量取1的概率。
连续自变量对因变量的影响程度解读：在其他变量不变的情况下，当年龄增加一个单位（1岁）时，优势比增加1.385倍（年龄越大、退休概率越高）
分类自变量对因变量的影响程度解读：

在Level of education的4个虚拟变量中，只有第3个虚拟变量有显著影响。虚拟变量的对照组是"Post-undergraduate"，第3个虚拟变量是"Some college"。所以这个结果的解读是：在其他变量不变的情况下，大专学历的优势比是研究生学历优势比的0.120倍，即大专学历高于研究生学历的退休概率
Logistic公式：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Idmi5va0-1613448172339)(G:\个人文档\拉勾教育数据分析训练营\第六阶段统计学\统计学个人笔记.assets\image-20210213111220030.png)]
$l n (p / (1 - p)) = - 20.305 - 0.782 * e d 1 - 0.561 * e d 2 - 2.121 * e d 3 - 1.897 * e d 4 - 0.429 * g e n d e r + 0.326 * a g e$
最后SPSS会自动生成两个变量：

PRE是指每个人的概率，概率和0.5比较，如果>0.5，则因变量取值。这个0.5是在回归分析中的“选项”里设置“分类分界值”

PGR是指每个人的因变量取值

多元无序回归

位置：分析-回归-多元Logistic回归

参考类别选哪个都可以，结果没差别。

统计里的几个模型可以定制看各个变量的影响

因子选分类变量，协变量选连续变量。

保存里选择“预测类别”和“预测类别概率”，和二元回归一样。

结果解读

似然比检验，根据其显著性的值，可以判断几个自变量和因变量有没有相关性。

参数估算值有两个大表，原因是其实相当于建立了两个二元逻辑回归。

有序多分类回归

操作位置：分析-回归-有序

在“输出”勾选“平行线检验”、“预测类别”和“预测类别概率”。位置，选主效应。

结果解读

“模型拟合信息”表：显著性<0.05，说明至少有一个自变量对因变量有影响作用
“拟合优度”表，显著性>0.05，说明模型的拟合状态还不错。
“伪R方”，一般不看这个结果。
“参数估算值”：
- 阈值一栏里：对有序变量逐次切割之后做的二元回归
- 位置一栏里：“显著性”<0.05的，说明该变量对因变量有显著影响，可将“显著性”>0.05的变量去除后，再重新做一次回归预测
- “平行线检验”，检验当因变量划分不同取值时建立的多个二元Logistic回归，自变量对因变量的影响程度是相同的。如果该检验不成立，则不能选择有序多分类模型，改用无序多分类模型。当P>0.05，说明原假设成立，则平行性检验成立，可以建立有序多分类模型。
- “参数估算值”：这里没有直接计算出优势比（Exp(B)）,但是“位置”一栏的“估算”就是B。所以可以根据估算值的正负来判断：如果为正，则该参数增加因变量取大于1的概率，如果为负则增加因变量取小于1的概率。
- 模型公式：
  1. $l n (p 1 / (1 - p 1)) = - 2.494 - 0.032 * a g e + 0.003 * i n c o m e$
    
    p1表示学历取1的概率
  2. $l n (p 2 / (1 - p 2)) = - 1.110 - 0.032 * a g e + 0.003 * i n c o m e$
    
    p2表示学历取1和2的概率
  3. $l n (p 3 / (1 - p 3)) = - 0.192 - 0.032 * a g e + 0.003 * i n c o m e$
    p3表示学历取1、2、3的概率
  4. $l n (p 4 / (1 - p 4)) = 1.649 - 0.032 * a g e + 0.003 * i n c o m e$
    p4表示学历取1、2、3、4的概率

模块二5 时间序列分析

普通ARIMA模型和因果关系ARIMA模型的区别就是，自变量是否要考虑因果关系的滞后性（普通的不考虑）

格兰杰因果检验

因果关系成立的三个条件：

AB两个事件必须存在相关性
原因A必须发生在结果B之前
排除其他干扰因素（没有A导致B，或A+C导致B）

平稳序列

ARIMA模型建立的前提是时间序列数据必须为平稳序列，可通过单位根检验（ADF）来判断一个序列是否平稳。如果不平稳，可通过差分进行转换。

ARIMA中的I就是差分进行了几阶差分，如果没有差分就是0

周期性计算

通过自相关系数（ACF）的拐点，乘以4得到周期。

SPSS软件操作

普通ARIMA模型

定义时间：数据-定义日期和时间
建立模型：分析-时间序列预测-创建传统模型
- 加入因变量和自变量（自变量可以不加，在这里添加的自变量是不考虑滞后性的，只有和因变量的相关性）
- 方法选“专家建模器”，条件可以自订
- “统计”里的勾选项用于判断模型的好坏
- “图”一般画预测值和拟合值
结果解读：
- （看“模型统计”表）时间序列的假设检验：通过杨-博克斯模型（Ljung-Box Q(18)），原假设是模型可以很好地拟合原始数据，p>0.05表示模型可以接受，P值越大模型越好。R方值仍然是0~1之间，越大越好。
- 模型1：Yt = 8.579+0.999*Y_t-1+0.6333*Y_t-12(12个月为一个周期，所以这里是t-12)
- 只有当数据窗口中有空的时间数据时，选了预测之后才会有预测结果，不然的话就没有预测。预测结果在输出窗口中，数据窗口中没有。

因果关系ARIMA模型

操作位置：分析-时间序列预测-创建时间因果模型
- 字段窗口：
  - 目标：因变量，最好选择连续变量
  - 候选输入：自变量的候选项，有可能是自变量
  - 目标和输入：选入的变量既是自变量又是因变量
  - 强制输入：一定需要作为自变量，不管有没有影响

时间序列因果模型：Y_1t = a1*Y_t-1+a2*Y_1t-12+a3*Y_4t-2+a4*Y_2t-12+a0

之后再进行拟合，做多元回归线性模型测试

分析-时间序列预测下的其他几个功能的简介

都用的不太多

交叉相关性

用来分析不同变量之间是否存在滞后性相关

自相关性

用来画自相关（ACF）图和偏自相关图。这两个图一般做分析的时候是要画

序列图

用来画时间序列图

谱图

用的非常少，但功能很重要，主要用在分析音频上。可以作为第二种判断周期性的方法（第一种是看ACF图）。通过频率取值最高的点对应的频率乘以数据量，得到周期

季节性分解

一般是在建模前进行的操作，看数据是否在季节上有周期性。不过实用性不强，这一步可以直接交给模型做判断。

你可能感兴趣的:(数据分析,spss)

【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
在SPSS中进行单因素方差分析（One-Way ANOVA）是一种常见的统计分析方法，用于比较三个或更多独立组之间的均值差异。 zhangfeng1133 均值算法算法
在SPSS中进行单因素方差分析（One-WayANOVA）是一种常见的统计分析方法，用于比较三个或更多独立组之间的均值差异。以下是进行单因素方差分析的详细步骤：---###1.**数据准备**-**因变量**：需要分析的连续变量（如成绩、收入等）。-**自变量**：分类变量（如组别、性别等），通常是一个名义变量。数据结构示例：|组别（自变量）|成绩（因变量）||----------------|-
在SPSS的单因素方差分析（One-Way ANOVA）中，F值和t值是两种不同的统计量 f/t zhangfeng1133 数据分析
在SPSS的单因素方差分析（One-WayANOVA）中，F值和t值是两种不同的统计量，用于不同的分析场景，具体含义如下：###1.**F值**F值是单因素方差分析中的统计量，用于检验多个组之间的均值是否存在显著差异。它是通过比较组间方差与组内方差的比值来计算的，具体公式为：**F值=组间方差/组内方差**-**F值的意义**：-F值越大，说明组间差异相对于组内差异越大，即不同组之间的均值差异越显
华为OD机试统一考试D卷C卷 - 机器人仓库搬砖 py 愤怒的小青春 java
平安寿险北分和飞鹤职能哪个强度好一些呀，平安寿险北分和飞鹤职能哪个强度好一些呀，两个offer纠结经营分析应该属于什么序列#数据分析#在牛客搜经营分析貌似只有字节有这个单独岗位名字，其他大厂都是在从属于数据分析，所以这俩昇腾计算岗位扩招，绝佳上车AI机会，速来ai芯片业务发展太快，要大量补充人力缺口。嵌入式软件开发、测试，前后端岗位，硬件岗位都招。院校范围很春招补录两个公司总包差不多，都是后台开发
零基础入门机器学习：用Scikit-learn实现鸢尾花分类藍海琴泉机器学习 scikit-learn 分类
适合人群：机器学习新手|数据分析爱好者|需快速展示案例的学生一、引言：为什么要学这个案例？目的：明确机器学习解决什么问题，建立学习信心。机器学习定义：让计算机从数据中自动学习规律（如分类鸢尾花品种）。为什么选鸢尾花数据集：数据量小、特征明确，适合教学演示。Scikit-learn优势：提供现成算法和工具，无需从头写数学公式。二、环境准备：5分钟快速上手目的：搭建可运行的代码环境，避免卡在工具安装环
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
Python连接SQL SEVER数据库全流程 m0_74823131 数据库 python sql
背景介绍在数据分析领域，经常需要从数据库中获取数据进行分析和处理。而SQLServer是一种常用的关系型数据库管理系统，因此学习如何使用Python连接SQLServer数据库并获取数据是非常有用的。以下是Python使用pymssql连接SQLServer数据库的全流程：安装pymssql库本地账号设置脚本连接数据导入函数实现一、安装pymssqlpymssql是Python连接SQLServe
IDC权威认证！永洪科技入选 IDC「GBI图谱」，点亮生成式 BI 价值灯塔永洪科技科技人工智能 BI 大数据数据分析
大数据市场正在稳步前进，生成式AI已成为厂商服务的重点方向，其发展离不开数据底座建设和数据工程管理，反过来AI也会帮助开发运维人员、业务人员和管理层更好地使用、查询数据。IDC调研数据显示，在生成式AI的驱动下，未来5年企业在数据管理和数据分析基础设施建设的投资增长率将分别达到8.7%和9.2%。近日，国际咨询机构IDC发布了《中国数据智能市场生态图谱V5.0》，在这一领域，永洪科技以其创新前沿的
如何避免Bug跟踪系统混乱管理前沿运维人工智能大数据
流程规范化、工具集成化、沟通透明化。其中流程规范化通过明确每个环节的责任分工、标准化Bug报告和处理流程，有效减少混乱和重复劳动，确保Bug跟踪系统高效运转。企业通过数据分析发现，采用标准化流程后Bug处理效率可提升30%以上，这为软件质量控制提供了坚实保障。一、BUG跟踪系统的基本概念与重要性Bug跟踪系统是一种用于记录、管理和解决软件缺陷的工具和流程。它通过集中存储Bug报告、分类处理问题，并
OpenCV ML 模块使用指南 ice_junjun OpenCV opencv 人工智能计算机视觉
一、模块概述OpenCV的ML模块提供了丰富的机器学习算法，可用于解决各种计算机视觉和数据分析问题。本指南将详细介绍该模块中主要的机器学习算法，包括支持向量机（SVM）、K均值聚类（K-Means）和神经网络（ANN），并结合图像分类和聚类分析这两个典型应用场景进行代码实现与解释。二、主要函数及类详解（一）支持向量机（SVM）：cv.ml.SVM_create()功能支持向量机（SVM）是一种强大
零基础上手Python数据分析 (7)：Python 面向对象编程初步 kakaZhui python 数据分析 excel
写在前面回顾一下，我们已经学习了Python的基本语法、数据类型、常用数据结构和文件操作、异常处理等。到目前为止，我们主要采用的是面向过程(ProceduralProgramming)的编程方式，即按照步骤一步一步地编写代码，解决问题。这种方式对于简单的任务已经足够，但当程序变得越来越复杂，代码量越来越大时，面向过程编程可能会显得力不从心，代码难以组织、复用和维护。代码复杂性带来的挑战：面向过程v
Python 数据分析实战：跨境电商行业发展解析萧十一郎@ python python 数据分析开发语言
目录一、案例背景二、代码实现2.1数据收集2.2数据探索性分析2.3数据清洗2.4数据分析2.4.1跨境电商消费者地域分布分析2.4.2跨境电商商品销售与价格关系分析2.4.3跨境电商行业未来发展预测三、主要的代码难点解析3.1数据收集3.2数据清洗-销售数据处理3.3数据分析-跨境电商消费者地域分布分析3.4数据分析-跨境电商商品销售与价格关系分析3.5数据可视化四、可能改进的代码4.1数据收集
轻松帮你搞清楚Python爬虫数据可视化的流程 liuhaoran___ python
Python爬虫数据可视化的流程主要是通过网络爬取所需的数据，并利用相关的库将数据分析结果以图形化的方式展示出来，帮助用户更直观地理解数据背后的信息。Python爬虫+数据可视化步骤1.获取目标网站的数据使用`requests`或者`selenium`库从网页上抓取信息。对于动态加载内容的页面可以考虑结合JavaScript渲染引擎。2.解析HTML内容提取有用信息常见工具如BeautifulSo
抖音视频数据获取实战：从API调用到热门内容挖掘爱搞技术的猫猫 API 音视频
在短视频流量为王的时代，掌握抖音热门视频数据已成为内容运营、竞品分析及营销决策的关键。本文将手把手教你通过抖音开放平台API获取视频详情数据，并提供完整的代码实现及商业化应用思路。一、抖音API权限申请与核心接口抖音API需企业资质认证，个人开发者权限受限。以下是接入流程：企业开发者认证•登录开放平台，选择注册，提交信息等材料。•完成认证后，创建应用（如“视频数据分析工具”），获取ClientKe
Python 爬虫实战：社交媒体品牌反馈数据抓取与舆情分析西攻城狮北 python 爬虫媒体
一、引言在当今数字化时代，社交媒体已成为公众表达意见、分享信息的重要渠道。品牌的声誉和市场表现往往受到消费者在社交平台上的反馈和评价的影响，因此品牌舆情分析变得至关重要。本文将介绍如何使用爬虫技术爬取社交媒体上的品牌反馈数据，并通过数据分析技术，分析品牌的舆情动态。二、环境准备在开始之前，确保你的开发环境已经安装了以下必要的Python库：requests:用于发送HTTP请求。beautiful
零基础上手Python数据分析 (6)：Python 异常处理，告别程序崩溃的烦恼！ kakaZhui python 数据分析数据库 excel 数据挖掘
回顾一下，前几篇博客我们学习了Python的基本语法、数据结构和文件操作。现在，我们已经掌握了Python编程的基础知识，可以开始编写更复杂的数据分析代码了。但是，在实际的数据分析工作中，程序并非总能一帆风顺地运行，总会遇到各种意外情况，例如：文件找不到：程序尝试读取一个不存在的数据文件。数据格式错误：数据文件中包含非预期的格式，例如本应是数字的列包含了文本。网络连接中断：程序尝试从网络获取数据，
微软 LIDA 库：基于大模型的自动化数据分析与可视化窝窝和牛牛 microsoft 数据分析
微软LIDA库：基于大模型的自动化数据分析与可视化一、核心架构与LLM交互流程调用LLM生成数据摘要基于LLM推理分析目标LLM生成可视化代码结合图像生成模型优化原始数据Summarizer模块结构化摘要GoalExplorer模块可视化目标列表VizGenerator模块可执行图表代码Infographer模块风格化信息图表二、LLM交互核心功能1.多模型支持架构兼容主流LLM服务商：通过统一接
AWS SAP学习笔记-概念 HainesFreeman AWS aws
1、什么是ETL应用程序，举个例子说明？ETL（Extract,Transform,Load）应用程序是一种用于数据处理和迁移的工具或程序，它主要负责从多个数据源提取数据，对数据进行转换和清洗，然后将处理后的数据加载到目标数据仓库或数据库中。ETL应用程序广泛应用于数据集成、数据仓库构建、数据分析和数据迁移等场景。ETL的三个主要步骤：Extract（提取）：从各种数据源（如数据库、文件、API等
AI 赋能应急管理：ChatGPT、DeepSeek、Grok 的应用探索一ge科研小菜菜人工智能人工智能
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着人工智能（AI）技术的快速发展，大语言模型（LLM）在应急管理领域的应用逐步扩大。ChatGPT、DeepSeek、Grok等AI模型凭借强大的文本处理、数据分析和推理能力，可为灾害预警、应急响应、风险评估等提供高效支持。本文将对比三大AI模型在应急管理中的优势，并探讨其在未来智能化应急管理体系中的应用前景。2.应急管理中的核心挑战应
GitHub项目推荐--基于LLM的开源爬虫项目惟贤箬溪穷玩Ai github 爬虫
以下是一些基于大语言模型（LLM，LargeLanguageModel）的开源爬虫项目，它们结合了自然语言处理（NLP）技术与爬虫的功能，能在一定程度上提升爬取的智能化和精度。这些项目可以用于自动化抓取、内容提取、数据分析等任务。1.GPT-3WebScraper简介：这是一个基于OpenAIGPT-3模型的网页抓取工具，利用GPT-3的自然语言理解能力来生成有用的爬虫策略、处理网页内容并提取有价
Python基础知识点总结豆芽819 tip python 开发语言
1Python简介Python特点：解释型语言：无需编译，逐行执行。动态类型：变量类型在运行时确定。简洁易读：语法接近自然语言，代码简洁。跨平台支持：Windows/Linux/macOS均可运行。应用领域：Web开发、数据分析、人工智能、自动化脚本等。开发环境：推荐使用IDLE、PyCharm、VSCode或JupyterNotebook。2Python数值运算基本运算符：算术：+,-,*,/,
使用 Nginx 实现镜像流量：提升系统可用性与负载均衡绝顶少年 nginx 负载均衡 java
在现代分布式系统中，确保高可用性和负载均衡是至关重要的。Nginx作为一个高性能的反向代理服务器，不仅可以用于负载均衡，还可以通过镜像流量（TrafficMirroring）功能，将实时流量复制到其他服务器，用于测试、监控或数据分析，而不会影响生产环境。本文将详细介绍如何使用Nginx实现镜像流量。(有时候只是实现单接口的数据共享也同样可以采用单接口配置！如果你遇到按照配置完成后主服务器实现了转发
阻止 Mac 在运行任务时进入休眠状态好好学习 666 macos
掌握`Caffeinate`命令：让您的Mac保持清醒以完成关键任务开发人员经常发现自己在Mac上运行持续时间较长的进程。无论是大量文件上传、广泛的数据分析脚本，还是复杂的构建过程，我们最不希望的就是我们的机器在任务中途进入睡眠状态。输入`caffeinate`命令–macOS的内置解决方案，可在您最需要时保持系统唤醒。##睡眠困境MacOS在设计时考虑了电源效率，这对电池寿命非常有用，但在运行时
使用Seaborn绘制小提琴图 CodeWG python 开发语言
使用Seaborn绘制小提琴图在数据分析与可视化中，小提琴图是一种常用的图表类型。它能够展示数据的分布情况，同时还能显示中位数、四分位数和异常值等统计指标。在Python中，我们可以使用Seaborn库来轻松地绘制小提琴图。下面就来详细介绍一下如何使用Seaborn来创建小提琴图。首先，我们需要导入必要的库和数据集。这里我们使用Seaborn自带的数据集tips作为例子。importseaborn
Elasticsearch + Docker：实现容器化部署指南 IT成长日记 elasticsearch docker 容器化部署
Elasticsearch是一款强大的分布式搜索和分析引擎，广泛应用于日志分析、全文检索、实时数据分析等场景。而Docker作为一种轻量级的容器化技术，能够帮助开发者快速部署和管理应用。将Elasticsearch与Docker结合，不仅可以简化部署流程，还能提高资源利用率和系统可维护性。1环境准备1.1安装Docker安装操作请参考：Docker入门指南：1分钟搞定安装+常用命令，轻松入门容器化
从入门到进阶：Python数据可视化实战技巧 Blossom.118 分布式系统与高性能计算领域信息可视化 python 开发语言网络协议 spring boot java 后端
在数据分析和数据科学领域，数据可视化是将复杂数据以直观图形展示的重要手段。Python作为数据科学领域的首选语言之一，提供了强大的数据可视化库，如Matplotlib、Seaborn、Plotly等。本文将从入门到进阶，逐步介绍Python数据可视化的实战技巧，帮助读者快速提升数据可视化能力。一、入门：Matplotlib基础Matplotlib是Python中最基础、最强大的数据可视化库之一。它
AI时代个人财富增长实战指南：从零基础到精通变现的完整路径 A达峰绮人工智能
（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉（图像视频处理）、数据分析（预测建模）、自动化控制（流程优化）。建议新手首先掌握语言类工具的基础操作，逐步扩展到其他领域。工具操作逻辑通用AI工具通常包含三大核心功能模块：输入界面
Python 数据分析实战：宠物经济行业发展洞察萧十一郎@ python python 数据分析宠物
目录一、案例背景二、代码实现2.1数据收集2.2数据探索性分析2.3数据清洗2.4数据分析2.4.1宠物用品用户满意度分析2.4.2宠物用品销售与价格关系分析2.4.3宠物经济行业未来发展预测三、主要的代码难点解析3.1数据收集3.2数据清洗-销售数据处理3.3数据分析-宠物用品用户满意度分析3.4数据分析-宠物用品销售与价格关系分析3.5数据可视化四、可能改进的代码4.1数据收集改进4.2数据清
专利信息管理知识产权基于Spring Boot SSM QQ1978519681计算机程序 java 前端数据库毕业设计计算机毕业设计 spring boot
目录一、需求分析1.1系统用户角色与权限1.2专利信息管理功能二、数据分析与报表生成三、系统性能与安全性四用户体验与界面设计五扩展性与可维护性六、法律法规与合规性七.技术选型与实现‌7.1技术选型‌：‌7.2实现方式‌：随着科技的不断发展和知识产权保护意识的提升，专利信息管理系统的需求日益增加。基于SpringBoot的专利信息管理系统旨在提供一个高效、便捷的平台，帮助用户全面管理专利信息。该系统
Matplotlib如何创建交互式图表？ EdgarBertram matplotlib
Matplotlib是一个强大的Python绘图库，它可以用于生成高质量的静态图像。然而，Matplotlib同样支持创建交互式图表，这对于数据分析和可视化非常有用。交互式图表允许用户通过交互方式探索数据，例如缩放、平移或者查询数据点。下面我们将详细介绍如何使用Matplotlib创建交互式图表。一、安装与配置首先，确保你已经安装了Matplotlib库。你可以使用pip来安装：bash复制代码p
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s