数据分析学习笔记

R语言介绍

统计介绍

2.1变量度量类型

名义型变量

等级型变量

连续型变量

等级变量差值无意义,连续变量差值有意义

2.2抽样与统计推断

从样本的情况推断总体的情况--统计推断

统计推断:①我们拿到的是样本的数据

2.3连续变量的描述

平均①中心水平②代表性③哪个统计量最恰当④方差、标准差、极差、四分卫差(内分位差)

峰度、偏度

summary函数

tapply函数

2.4连续变量的图形展示

正态分布左右对称,均值=中位数=众数

盒须图--boxplot函数

PP图、QQ图用来检测正态分布--ppnorm函数、qqline函数

hist函数--柱状图

2.5连续变量的区间估计

样本均值的分布服从正态分布

样本均值的标准差称作样本的标准物

中心极限定理

回归

4.1两连续变量关系探索

散点图​

4.2简单线性回归

lm(y~x)

coef(llm)

summary(lm)

模型解释力度

模型预测​​​​

predict(lm)

resid(lm)

fitted(lm)​​​

4.3多元线性回归

Y=β+βx+βx+

线性回归假设

①x和y之间是线性关系

②扰动项正态分布

③扰动项方差一样的

④扰动项不相关的

⑤x和x之间不能有线性关系或者线性关系太强

析因模型

lm(y~x1+x2+x3..., data=dataframe)

coef(lm)

summary(lm)

Multiple R

Adjust R​​​​​​​​​​​​​

模型选择 变量个数的非递减函数

模型解释力度​​

4.4多元线性回归模型的自动选择

向前法、向后法、逐步法(向前向后法)

step函数 direction="forward | backward | both"​

你可能感兴趣的:(数据分析学习笔记)