Python - 方差分析(简单代码)

应用场景:
例如一个分类指标教育等级(等级变量),如(大学 - 1,硕士 - 2,博士 - 3)与连续变量每月的月均支出金额是否相关。

应用条件:
观测样本独立
每一组都符合正态分布
在数据量很大的情况下,抽取3000的样本量,p值<1%就说明有关系。(简单随机抽样即可,分层随机抽样最好)
当然,决策树也可以用来直接判断(不过在目前情况下大可不必)

有木有觉得以上描述特别熟悉呀~,没有错,其实方差分析和我们双样本T检验是亲戚。应用场景和应用条件非常类似。

import pandas as pd
import os 
import numpy as np
import matplotlib.pyplot as plt


os.chdir('C://Users//jane//Desktop')

df=pd.read_csv('TEST2.csv',encoding='gbk')

df.dropna(inplace=True)

df2=df['EDU'].groupby(df['ACC']).describe()

import statsmodels.api as sm
from statsmodels.formula.api import ols

sm.stats.anova_lm(ols('AVG~C(EDU)',data=df).fit())
#这里的C表示的是分类变量,如果说除了教育等级,你还有啥信用等级之类的,你可以直接在C(EDU)+C(CRED)之类的。data就是数据源

Python - 方差分析(简单代码)_第1张图片
P值过大,所以不相关(当然这里的数据都是我瞎编哒,结果不重要。只要你懂这个过程,几行代码就能实现哟)

你可能感兴趣的:(数据清洗)