Best_CLW

Python 各种回归（含sklearn）

机器学习
https://www.jb51.net/article/164603.htm
多元回归
https://zhuanlan.zhihu.com/p/61084966?utm_source=wechat_session
正态性检验
https://blog.csdn.net/QimaoRyan/article/details/72861387

# 定义模型预测准确率得分
n_folds = 5
def score(model):
    kf = KFold(n_folds, shuffle=True, random_state=20)
    score=cross_val_score(model,x, y, scoring="accuracy", cv = kf)
    return(score.mean())

一、多元线性回归

调用statsmodels模块中的子模块ols函数。有关该函数的语法及参
数含义可见下方：
ols(formula, data, subset=None, drop_cols=None)
formula：以字符串的形式指定线性回归模型的公式，如’y～x1+x2+x3’（对于非数值的离散变量，建模时必须将其设置为哑变量的效果，实现方式很简单，将该变量套在C()中，表示将其当作分（Category）变量处理即可。即含定性自变量的回归模型）
C()无法选择对照变量（包含在常数中的变量），随机选
data：指定建模的数据集。
subset：通过bool类型的数组对象，获取data的子集用于建模。
drop_cols：指定需要从data中删除的变量。

实训任务1：产品利润预测

数据集包含5个变量，分别是产品的研发成本、管理成本、市场营销成本、销售市场和销售利润，请完成以下任务：
（1）将数据集划分为训练集和测试集，其中测试集占比20%，完成多元线性回归建模；
（2）完成F检验和t检验；
（3）完正态性检验、多重共线性检验、线性相关性检验、异常值检验、独立性检验、方差齐性检验；
（4）使用最终确定的模型进行预测，并画出图形，比较预测值和实际值。

###方法罗列，不是完整顺序
# 工作年限与收入之间的散点图
# 导入第三方模块
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# 导入数据集
income = pd.read_csv(r'C:\Users\Administrator\Desktop\Salary_Data.csv')
# 绘制散点图
sns.lmplot(x = 'YearsExperience', y = 'Salary', data = income, ci = None)
# 显示图形
plt.show()

# 简单线性回归模型的参数求解
# 样本量
n = income.shape[0]
# 计算自变量、因变量、自变量平方、自变量与因变量乘积的和
sum_x = income.YearsExperience.sum()
sum_y = income.Salary.sum()
sum_x2 = income.YearsExperience.pow(2).sum()
xy = income.YearsExperience * income.Salary
sum_xy = xy.sum()
# 根据公式计算回归模型的参数
b = (sum_xy-sum_x*sum_y/n)/(sum_x2-sum_x**2/n)
a = income.Salary.mean()-b*income.YearsExperience.mean()
# 打印出计算结果
print('回归参数a的值：',a)
print('回归参数b的值：',b)

# 导入第三方模块
import statsmodels.api as sm
# 利用收入数据集，构建回归模型
fit = sm.formula.ols('Salary ~ YearsExperience', data = income).fit()
# 返回模型的参数值
fit.params



####====== 多元线性回归模型的构建和预测==========
# 导入模块
from sklearn import model_selection
# 导入数据
Profit = pd.read_excel(r'C:\Users\Administrator\Desktop\Predict to Profit.xlsx')
# 将数据集拆分为训练集和测试集
train, test = model_selection.train_test_split(Profit, test_size = 0.2, random_state=1234)
# 根据train数据集建模
model = sm.formula.ols('Profit ~ RD_Spend + Administration + Marketing_Spend + C(State)', data = train).fit()
print('模型的偏回归系数分别为：\n', model.params)
# 删除test数据集中的Profit变量，用剩下的自变量进行预测
test_X = test.drop(labels = 'Profit', axis = 1)
pred = model.predict(exog = test_X)
print('对比预测值和实际值的差异：\n',pd.DataFrame({
     'Prediction':pred,'Real':test.Profit}))

# 生成由State变量衍生的哑变量
dummies = pd.get_dummies(Profit.State)
# 将哑变量与原始数据集水平合并
Profit_New = pd.concat([Profit,dummies], axis = 1)
# 删除State变量和California变量（因为State变量已被分解为哑变量，New York变量需要作为参照组）
Profit_New.drop(labels = ['State','New York'], axis = 1, inplace = True)

# 拆分数据集Profit_New
train, test = model_selection.train_test_split(Profit_New, test_size = 0.2, random_state=1234)
# 建模
model2 = sm.formula.ols('Profit ~ RD_Spend + Administration + Marketing_Spend + Florida + California', data = train).fit()
print('模型的偏回归系数分别为：\n', model2.params)

# 导入第三方模块
import numpy as np
## 计算法：
# 计算建模数据中，因变量的均值
ybar = train.Profit.mean()
# 统计变量个数和观测个数
p = model2.df_model
n = train.shape[0]
# 计算回归离差平方和
RSS = np.sum((model2.fittedvalues-ybar) ** 2)
# 计算误差平方和
ESS = np.sum(model2.resid ** 2)
# 计算F统计量的值
F = (RSS/p)/(ESS/(n-p-1))
print('F统计量的值：',F)
## 直接得
# 返回模型中的F值
model2.fvalue

### 正态性检验
## 直方图法
# 导入第三方模块
import scipy.stats as stats
# 中文和负号的正常显示
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
plt.rcParams['axes.unicode_minus'] = False
# 绘制直方图
sns.distplot(a = Profit_New.Profit, bins = 10, fit = stats.norm, norm_hist = True,
             hist_kws = {
     'color':'steelblue', 'edgecolor':'black'}, 
             kde_kws = {
     'color':'black', 'linestyle':'--', 'label':'核密度曲线'}, 
             fit_kws = {
     'color':'red', 'linestyle':':', 'label':'正态密度曲线'})
# 显示图例
plt.legend()
# 显示图形
plt.show()

## 残差的正态性检验（PP图和QQ图法）
pp_qq_plot = sm.ProbPlot(Profit_New.Profit)
# 绘制PP图
pp_qq_plot.ppplot(line = '45')
plt.title('P-P图')
# 绘制QQ图
pp_qq_plot.qqplot(line = 'q')
plt.title('Q-Q图')
# 显示图形
plt.show()

## shapiro检验（数据<5000）
# 导入模块
import scipy.stats as stats
stats.shapiro(Profit_New.Profit)

## K-S检验
# 生成正态分布和均匀分布随机数（随机数据）
rnorm = np.random.normal(loc = 5, scale=2, size = 10000)  #正态分布
runif = np.random.uniform(low = 1, high = 100, size = 10000)  #均匀分布
# 正态性检验
KS_Test1 = stats.kstest(rvs = rnorm, args = (rnorm.mean(), rnorm.std()), cdf = 'norm')
KS_Test2 = stats.kstest(rvs = runif, args = (runif.mean(), runif.std()), cdf = 'norm')
  #rvs：待检验的数据 cdf：检验方法，norm即正态性检验
print(KS_Test1)
print(KS_Test2)

### 多重共线性检验
# 导入statsmodels模块中的函数
from statsmodels.stats.outliers_influence import variance_inflation_factor
# 自变量X(包含RD_Spend、Marketing_Spend和常数列1)
X = sm.add_constant(Profit_New.ix[:,['RD_Spend','Marketing_Spend']])

# 构造空的数据框，用于存储VIF值
vif = pd.DataFrame()
vif["features"] = X.columns
vif["VIF Factor"] = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]
# 返回VIF值
vif

### 线性相关性检验
# 计算数据集Profit_New中每个自变量与因变量利润之间的相关系数
Profit_New.drop('Profit', axis = 1).corrwith(Profit_New.Profit)

# 散点图矩阵
# 导入模块
import matplotlib.pyplot as plt
import seaborn
# 绘制散点图矩阵
seaborn.pairplot(Profit_New.ix[:,['RD_Spend','Administration','Marketing_Spend','Profit']])
# 显示图形
plt.show()

### 模型修正（去掉不显著的）
model3 = sm.formula.ols('Profit ~ RD_Spend + Marketing_Spend', data = train).fit()
# 模型回归系数的估计值
model3.params

### 异常值检验
outliers = model3.get_influence()
# 高杠杆值点（帽子矩阵）
leverage = outliers.hat_matrix_diag
# dffits值（不常用）
dffits = outliers.dffits[0]
# 学生化残差
resid_stu = outliers.resid_studentized_external
# cook距离
cook = outliers.cooks_distance[0]

# 合并各种异常值检验的统计量值
contat1 = pd.concat([pd.Series(leverage, name = 'leverage'),pd.Series(dffits, name = 'dffits'),
                     pd.Series(resid_stu,name = 'resid_stu'),pd.Series(cook, name = 'cook')],axis = 1)
# 重设train数据的行索引
train.index = range(train.shape[0])
# 将上面的统计量与train数据集合并
profit_outliers = pd.concat([train,contat1], axis = 1)
profit_outliers.head()

# 计算异常值数量的比例
outliers_ratio = sum(np.where((np.abs(profit_outliers.resid_stu)>2),1,0))/profit_outliers.shape[0]
outliers_ratio
# 挑选出非异常的观测点
none_outliers = profit_outliers.ix[np.abs(profit_outliers.resid_stu)<=2,]

# 应用无异常值的数据集重新建模
model4 = sm.formula.ols('Profit ~ RD_Spend + Marketing_Spend', data = none_outliers).fit()
model4.params

### 独立性检验
# Durbin-Watson统计量
# 模型概览
model4.summary()

### 方差齐性检验
## 图形法
# 设置第一张子图的位置
ax1 = plt.subplot2grid(shape = (2,1), loc = (0,0))
# 绘制散点图
ax1.scatter(none_outliers.RD_Spend, (model4.resid-model4.resid.mean())/model4.resid.std())
# 添加水平参考线
ax1.hlines(y = 0 ,xmin = none_outliers.RD_Spend.min(),xmax = none_outliers.RD_Spend.max(), color = 'red', linestyles = '--')
# 添加x轴和y轴标签
ax1.set_xlabel('RD_Spend')
ax1.set_ylabel('Std_Residual')

# 设置第二张子图的位置
ax2 = plt.subplot2grid(shape = (2,1), loc = (1,0))
# 绘制散点图
ax2.scatter(none_outliers.Marketing_Spend, (model4.resid-model4.resid.mean())/model4.resid.std())
# 添加水平参考线
ax2.hlines(y = 0 ,xmin = none_outliers.Marketing_Spend.min(),xmax = none_outliers.Marketing_Spend.max(), color = 'red', linestyles = '--')
# 添加x轴和y轴标签
ax2.set_xlabel('Marketing_Spend')
ax2.set_ylabel('Std_Residual')

# 调整子图之间的水平间距和高度间距
plt.subplots_adjust(hspace=0.6, wspace=0.3)
# 显示图形
plt.show()

## BP检验法（方差齐性）
sm.stats.diagnostic.het_breushpagan(model4.resid, exog_het = model4.model.exog)

### 模型预测
# model4对测试集的预测
pred4 = model4.predict(exog = test.ix[:,['RD_Spend','Marketing_Spend']])
# 绘制预测值与实际值的散点图
plt.scatter(x = test.Profit, y = pred4)
# 添加斜率为1，截距项为0的参考线
plt.plot([test.Profit.min(),test.Profit.max()],[test.Profit.min(),test.Profit.max()],
        color = 'red', linestyle = '--')
# 添加轴标签
plt.xlabel('实际值')
plt.ylabel('预测值')
# 显示图形
plt.show()

实训任务2：上市公司来年盈利状况的预测

本案例随机抽取深市和沪市2002年和2003年各500个样本，对上市公司的净资产收益率（return on equity, ROE）进行预测。
我们要求使用2002年的样本来建立模型，2003年的数据用来检验模型的预测精度。

目标：盈利预测
因变量：下一年的净资产收益率（ROE）
自变量：当年的财务信息
样本容量：2002年500；2003年500

ROEt: 当年净资产收益率
ATO: 资产周转率（asset turnover ratio）
LEV: 债务资本比率（debt to asset ratio）反映公司基本债务状况
PB: 市倍率（price to book ratio）反映公司预期未来成长率
ARR: 应收账款/主营业务收入（account receivable over total income）反映公司的收入质量
PM: 主营业务利润/主营业务收入（profit margin）反映公司利润状况
GROWTH: 主营业务增长率（sales growth rate）反映公司已实现的当年增长率
INV: 存货/资产总计（inventory to asset ratio）反映公司的存货状况
ASSET: （对数）资产总计（log-transformed asset）反映公司的规模

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.api as sm

# 导入数据集
data = pd.read_csv(r'C:\Users\hp\Desktop\roe.csv')

# 将数据集拆分为训练集和测试集
train=data.iloc[0:500]
test=data.iloc[500:]

# 根据train数据集建模
model = sm.formula.ols('ROE~ROEt+ATO+PM+LEV+GROWTH+PB+ARR+INV+ASSET', data = train).fit()
print('模型的偏回归系数分别为：\n', model.params)
model.summary()
'''
ROEt、LEV、GROWTH系数显著
'''

### 线性相关性检验
## 计算每个自变量与因变量利润之间的Marketin相关系数
data.drop('ROE', axis = 1).corrwith(data.ROE)
'''
自变量中ROEt、LEV与ROE相关系数较高，分别为0.572和0.297
'''

## 散点图矩阵
sns.pairplot(data.ix[:,['ROEt','ATO','PM','LEV','GROWTH','PB','ARR','INV','ASSET','ROE']])
# 显示图形
plt.show()
'''
ROEt和ROE之间的散点图几乎为一条向上倾斜的直线，说明这两种变量之间确实存在很强的线性相关,其余关系不明显
'''

### 模型修正
model2 = sm.formula.ols('ROE ~ ROEt + LEV', data = train).fit()
model2.params

### 异常值检验
outliers = model2.get_influence()
# 高杠杆值点（帽子矩阵）
leverage = outliers.hat_matrix_diag
# dffits值
dffits = outliers.dffits[0]
# 学生化残差
resid_stu = outliers.resid_studentized_external
# cook距离
cook = outliers.cooks_distance[0]
# 合并各种异常值检验的统计量值
contat1 = pd.concat([pd.Series(leverage, name = 'leverage'),pd.Series(dffits, name = 'dffits'),
                     pd.Series(resid_stu,name = 'resid_stu'),pd.Series(cook, name = 'cook')],axis = 1)
# 重设train数据的行索引
train.index = range(train.shape[0])
# 将上面的统计量与train数据集合并
data_outliers = pd.concat([train,contat1], axis = 1)
data_outliers.head()
# 计算异常值数量的比例
outliers_ratio = sum(np.where((np.abs(data_outliers.resid_stu)>2),1,0))/data_outliers.shape[0]
outliers_ratio
'''
异常比例为1.4%，比较小，故考虑将其删除。
'''

# 挑选出非异常的观测点
none_outliers = data_outliers.ix[np.abs(data_outliers.resid_stu)<=2,]

### 应用无异常值的数据集重新建模
model3 = sm.formula.ols('ROE ~ ROEt + LEV', data = none_outliers).fit()
model3.params
'''
新的模型公式为：ROE = 0.3838 + 0.5445 ROEt - 0.0305 LEV
当年净资产收益率和债务资本比率对下一年的净资产收益率有影响，其中当年净资产收益率影响较大。
'''

### 显著性检验
# 返回模型中的F值
model3.fvalue
'''
184.38006651692137
'''
# 导入模块
from scipy.stats import f
# 统计变量个数和观测个数
p = model3.df_model
n = none_outliers.shape[0]
# 计算F分布的理论值
F_Theroy = f.ppf(q=0.95, dfn = p,dfd = n-p-1)
print('F分布的理论值为：',F_Theroy)
'''
3.0141222778120325
计算出的F统计值大于理论F值，拒绝原假设，即认为多元线性回归是显著的，也就是回归模型的偏回归系数不全为0。
'''
# 模型的概览信息
model3.summary()
'''
t检验中P值都小于0.05，说明变量都通过系数的显著性检验。
'''

### 正态性检验
## 直方图法
import scipy.stats as stats
# 中文和负号的正常显示
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
plt.rcParams['axes.unicode_minus'] = False
# 绘制直方图
sns.distplot(a = none_outliers.ROE, bins = 10, fit = stats.norm, norm_hist = True,
             hist_kws = {
     'color':'steelblue', 'edgecolor':'black'}, 
             kde_kws = {
     'color':'black', 'linestyle':'--', 'label':'核密度曲线'}, 
             fit_kws = {
     'color':'red', 'linestyle':':', 'label':'正态密度曲线'})
# 显示图例
plt.legend()
# 显示图形
plt.show()
'''
核密度曲线和正态分布密度曲线的趋势比较吻合，直观上可以认为变量服从正态分布
'''

## 残差的正态性检验（PP图和QQ图法）
pp_qq_plot = sm.ProbPlot(none_outliers.ROE)
# 绘制PP图
pp_qq_plot.ppplot(line = '45')
plt.title('P-P图')
# 绘制QQ图
pp_qq_plot.qqplot(line = 'q')
plt.title('Q-Q图')
# 显示图形
plt.show()
'''
不管是PP图还是QQ图，绘制的散点均落在直线的附近，没有较大的偏离，变量近似服从正态分布
'''

# shapiro检验
import scipy.stats as stats
stats.shapiro(none_outliers.ROE)
'''
shapiro检验的p值为0.629，不拒绝原假设，服从正态分布
'''

### 多重共线性检验
# 导入statsmodels模块中的函数
from statsmodels.stats.outliers_influence import variance_inflation_factor
# 自变量X(包含ROEt、LEV和常数)
X = sm.add_constant(none_outliers.ix[:,['ROEt','LEV']])
# 构造空的数据框，用于存储VIF值
vif = pd.DataFrame()
vif["features"] = X.columns
vif["VIF Factor"] = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]
# 返回VIF值
vif
'''
两个自变量对应的方差膨胀因子均小于10，说明构建模型的数据并不存在多重共线性。
'''

### 残差的独立性检验
# Durbin-Watson统计量
# 模型概览
model3.summary()
'''
DW统计量的值为1.959，比较接近于2，故可以认为模型的残差项之间是满足独立性这个假设前提的。
'''

### 方差齐性检验
# BP检验
sm.stats.diagnostic.het_breushpagan(model3.resid, exog_het = model3.model.exog)
'''
LM统计量和F统计量的p值均为0.98，不拒绝原假设，说明残差方差为常数，残差项满足方差齐性的假设
'''

### 模型预测
# model3对测试集的预测
pred2 = model3.predict(exog = test.ix[:,['ROEt','LEV']])
# 绘制预测值与实际值的散点图
plt.scatter(x = test.ROE, y = pred2)
# 添加斜率为1，截距项为0的参考线
plt.plot([test.ROE.min(),test.ROE.max()],[test.ROE.min(),test.ROE.max()],
        color = 'red', linestyle = '--')
# 添加轴标签
plt.xlabel('real')
plt.ylabel('pred')
# 显示图形
plt.show()

实训任务3：北京房价影响因素探究及预测

注：案例残差不符合正态性分布，只看过程
问题：1.先将分类变量做方差分析，把显著变量加入模型用机器学习更好
2.分类变量不用做多重共线性
3.不能删分类变量里单个类别

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.api as sm

# 导入数据集
train = pd.read_csv(r'C:\Users\hp\Desktop\real.csv',encoding='gbk')
test = pd.read_csv(r'C:\Users\hp\Desktop\new.csv',encoding='gbk')

# 根据train数据集建模
model = sm.formula.ols('price~rong+lv+area+ratio+C(dis)+C(ring)+C(wuye)+C(fitment)+C(contype)', data = train).fit()
print('模型的偏回归系数分别为：\n', model.params)
# 预测
pred = model.predict(exog = test)

### 生成哑变量
dummies1 = pd.get_dummies(train.dis)
dummies2 = pd.get_dummies(train.ring)
dummies3 = pd.get_dummies(train.wuye)
dummies4 = pd.get_dummies(train.fitment)
dummies5 = pd.get_dummies(train.contype)
# 将哑变量与原始数据集水平合并
train2 = pd.concat([train,dummies1,dummies2,dummies3,dummies4,dummies5], axis = 1)
test2 = pd.concat([test,dummies1,dummies2,dummies3,dummies4,dummies5], axis = 1)
# 删除变量
train2.drop(labels = ['dis','ring','wuye','fitment','contype','东城','三至四环','公寓','毛坯','塔楼'], axis = 1, inplace = True)
test2.drop(labels = ['dis','ring','wuye','fitment','contype','东城','三至四环','公寓','毛坯','塔楼'], axis = 1, inplace = True)

### 建模
X=train2.ix[:,1:]
y=train2.price
model2 = sm.OLS(y,X).fit()
print('模型的偏回归系数分别为：\n', model2.params)
model2.summary()
'''
lv、ratio、宣武、崇文、朝阳、海淀、二环以内、二至三环、五环以外、四至五环、精装修的系数显著
'''

### 线性相关性检验
# 计算每个自变量与因变量之间的Marketin相关系数
train2.drop('price', axis = 1).corrwith(train2.price)
'''
自变量中ratio、二至三环、四至五环、五环以外、普通住宅、精装修相关系数较高，分别为0.31、0.29、0.30、0.35、-0.53、0.50
'''

### 模型修正
model3 = sm.formula.ols('price~ratio+二至三环+四至五环+五环以外+精装修', data = train2).fit()
print('模型的偏回归系数分别为：\n', model3.params)

### 异常值检验
outliers = model3.get_influence()
# 高杠杆值点（帽子矩阵）
leverage = outliers.hat_matrix_diag
# dffits值
dffits = outliers.dffits[0]
# 学生化残差
resid_stu = outliers.resid_studentized_external
# cook距离
cook = outliers.cooks_distance[0]
# 合并各种异常值检验的统计量值
contat1 = pd.concat([pd.Series(leverage, name = 'leverage'),pd.Series(dffits, name = 'dffits'),
                     pd.Series(resid_stu,name = 'resid_stu'),pd.Series(cook, name = 'cook')],axis = 1)
# 重设train数据的行索引
train2.index = range(train2.shape[0])
# 将上面的统计量与train数据集合并
data_outliers = pd.concat([train2,contat1], axis = 1)
data_outliers.head()
# 计算异常值数量的比例
outliers_ratio = sum(np.where((np.abs(data_outliers.resid_stu)>2),1,0))/data_outliers.shape[0]
outliers_ratio
'''
异常比例为4.5%，比较小，故考虑将其删除。
'''

# 挑选出非异常的观测点
none_outliers = data_outliers.ix[np.abs(data_outliers.resid_stu)<=2,]
train3 = none_outliers.ix[:,0:21]

### 应用无异常值的数据集重新建模
model4 = sm.formula.ols('price~ratio+二至三环+四至五环+五环以外+精装修', data = train3).fit()
print('模型的偏回归系数分别为：\n', model4.params)
'''
影响价格的主要因素有小区停车位住户比例、所在环线、装修状况。和三至四环相比，二至三环的价格821.3，四至五环低1704.3，五环以外低3403.4。和毛坯相比，精装修价格高2597.8.
'''

### 显著性检验
# 返回模型中的F值
model4.fvalue
'''
54.664299539241384
'''
# 导入模块
from scipy.stats import f
# 统计变量个数和观测个数
p = model4.df_model
n = train3.shape[0]
# 计算F分布的理论值
F_Theroy = f.ppf(q=0.95, dfn = p,dfd = n-p-1)
print('F分布的理论值为：',F_Theroy)
'''
2.262937383111096
计算出的F统计值大于理论F值，拒绝原假设，即认为多元线性回归是显著的，也就是回归模型的偏回归系数不全为0。
'''
# 模型的概览信息
model4.summary()
'''
t检验中ROEt和LEV的P值都小于0.05，说明变量都通过系数的显著性检验。
'''

### 正态性检验
## 直方图法
import scipy.stats as stats
# 中文和负号的正常显示
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
plt.rcParams['axes.unicode_minus'] = False
# 绘制直方图
sns.distplot(a = train3.price, bins = 10, fit = stats.norm, norm_hist = True,
             hist_kws = {
     'color':'steelblue', 'edgecolor':'black'}, 
             kde_kws = {
     'color':'black', 'linestyle':'--', 'label':'核密度曲线'}, 
             fit_kws = {
     'color':'red', 'linestyle':':', 'label':'正态密度曲线'})
# 显示图例
plt.legend()
# 显示图形
plt.show()
'''
核密度曲线和正态分布密度曲线的趋势相差较大，直观上可以认为变量不服从正态分布
'''

## 残差的正态性检验（PP图和QQ图法）
pp_qq_plot = sm.ProbPlot(train3.price)
# 绘制PP图
pp_qq_plot.ppplot(line = '45')
plt.title('P-P图')
# 绘制QQ图
pp_qq_plot.qqplot(line = 'q')
plt.title('Q-Q图')
# 显示图形
plt.show()
'''
不管是PP图还是QQ图，绘制的散点未落在直线的附近，有较大的偏离，变量不服从正态分布
'''

# shapiro检验
import scipy.stats as stats
stats.shapiro(train3.price)
'''
shapiro检验的p值小于0.05，拒绝原假设，不服从正态分布
'''

### 多重共线性检验
# 导入statsmodels模块中的函数
from statsmodels.stats.outliers_influence import variance_inflation_factor
# 自变量X(包含ROEt、LEV和常数)
X = sm.add_constant(train3.ix[:,['ratio','二至三环','四至五环','五环以外','精装修']])
# 构造空的数据框，用于存储VIF值
vif = pd.DataFrame()
vif["features"] = X.columns
vif["VIF Factor"] = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]
# 返回VIF值
vif
'''
自变量对应的方差膨胀因子均小于10，说明构建模型的数据并不存在多重共线性。
'''

### 残差的独立性检验
# Durbin-Watson统计量
# 模型概览
model4.summary()
'''
DW统计量的值为1.697，比较接近2，故可以认为模型的残差项之间是满足独立性这个假设前提的。
'''

### 方差齐性检验
# BP检验
sm.stats.diagnostic.het_breushpagan(model4.resid, exog_het = model4.model.exog)
'''
LM统计量和F统计量的p值均为0.002，拒绝原假设，说明残差方差不是常数，残差项不满足方差齐性的假设
'''

# 模型预测
# model4对测试集的预测
pred2 = model4.predict(exog = test2.ix[:,['ratio','二至三环','四至五环','五环以外','精装修']])
'''
6264.21626752804
5866.47732152316
6131.636618859747
8641.082289281629
'''

二、Logistic回归（0-1）

案例：

手机设备搜集的用户运动数据为例，判断用户所处的运动状态，即步行还是跑步。该数据集一共包含88 588条记录，6个与运动相关的自变量，其中三个与运动的加速度有关，另三个与运动方向有关。接下来将利用该数据集构建Logistic回归模型，并预测新样本所属的运动状态。

###Logistic回归sklearn库
# 导入第三方模块
import pandas as pd
import numpy as np
from sklearn import linear_model
from sklearn import model_selection
# 读取数据
sports = pd.read_csv(r'Run or Walk.csv')
# 提取出所有自变量名称
predictors = sports.columns[4:]
# 构建自变量矩阵
X = sports.ix[:,predictors]
# 提取y变量值
y = sports.activity
# 将数据集拆分为训练集和测试集
X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size = 0.25, random_state = 1234)
# 利用训练集建模
sklearn_logistic = linear_model.LogisticRegression()
sklearn_logistic.fit(X_train, y_train)
# 返回模型的各个参数
print(sklearn_logistic.intercept_, sklearn_logistic.coef_)
sklearn_logistic.score(X_train, y_train)
# 模型预测
sklearn_predict = sklearn_logistic.predict(X_test)
# 预测结果统计
pd.Series(sklearn_predict).value_counts()
# 导入第三方模块
from sklearn import metrics

# 混淆矩阵
cm = metrics.confusion_matrix(y_test, sklearn_predict, labels = [0,1])
cm
Accuracy = metrics.scorer.accuracy_score(y_test, sklearn_predict)
Sensitivity = metrics.scorer.recall_score(y_test, sklearn_predict)
Specificity = metrics.scorer.recall_score(y_test, sklearn_predict, pos_label=0)
print('模型准确率为%.2f%%:' %(Accuracy*100))
print('正例覆盖率为%.2f%%' %(Sensitivity*100))
print('负例覆盖率为%.2f%%' %(Specificity*100))

# 混淆矩阵的可视化
# 导入第三方模块
import seaborn as sns
import matplotlib.pyplot as plt
# 绘制热力图
sns.heatmap(cm, annot = True, fmt = '.2e',cmap = 'GnBu')
# 图形显示
plt.show()

### ROC曲线
# y得分为模型预测正例的概率
y_score = sklearn_logistic.predict_proba(X_test)[:,1]
# 计算不同阈值下，fpr和tpr的组合值，其中fpr表示1-Specificity，tpr表示Sensitivity
fpr,tpr,threshold = metrics.roc_curve(y_test, y_score)
# 计算AUC的值
roc_auc = metrics.auc(fpr,tpr)
# 绘制面积图
plt.stackplot(fpr, tpr, color='steelblue', alpha = 0.5, edgecolor = 'black')
# 添加边际线
plt.plot(fpr, tpr, color='black', lw = 1)
# 添加对角线
plt.plot([0,1],[0,1], color = 'red', linestyle = '--')
# 添加文本信息
plt.text(0.5,0.3,'ROC curve (area = %0.2f)' % roc_auc)
# 添加x轴与y轴标签
plt.xlabel('1-Specificity')
plt.ylabel('Sensitivity')
# 显示图形
plt.show()

###--------------------- logistic回归stastmodels库 ---------------------- #
# 导入第三方模块
import statsmodels.api as sm
# 将数据集拆分为训练集和测试集
X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size = 0.25, random_state = 1234)
# 为训练集和测试集的X矩阵添加常数列1
X_train2 = sm.add_constant(X_train)
X_test2 = sm.add_constant(X_test)
# 拟合Logistic模型
sm_logistic = sm.formula.Logit(y_train, X_train2).fit()
# 返回模型的参数
sm_logistic.params
# -----------------------第二步 预测构建混淆矩阵 ----------------------- #
# 模型在测试集上的预测
sm_y_probability = sm_logistic.predict(X_test2)###注意这个预测值和上一种方法的不同
# 根据概率值，将观测进行分类，以0.5作为阈值
sm_pred_y = np.where(sm_y_probability >= 0.5, 1, 0)
# 混淆矩阵
cm = metrics.confusion_matrix(y_test, sm_pred_y, labels = [0,1])
cm
# -----------------------第三步 绘制ROC曲线 --------------------- #
# 计算真正率和假正率 
fpr,tpr,threshold = metrics.roc_curve(y_test, sm_y_probability)
# 计算auc的值  
roc_auc = metrics.auc(fpr,tpr)
# 绘制面积图
plt.stackplot(fpr, tpr, color='steelblue', alpha = 0.5, edgecolor = 'black')
# 添加边际线
plt.plot(fpr, tpr, color='black', lw = 1)
# 添加对角线
plt.plot([0,1],[0,1], color = 'red', linestyle = '--')
# 添加文本信息
plt.text(0.5,0.3,'ROC curve (area = %0.2f)' % roc_auc)
# 添加x轴与y轴标签
plt.xlabel('1-Specificity')
plt.ylabel('Sensitivity')
# 显示图形
plt.show()

0-1因变量回归的练习：上市公司是否被ST

数据共包含1430个完整的观测。其中，684个观测来自1999年，即解释性变量来自1999年，我们用这部分数据建立模型。剩下的746个观测来自2000年，我们用这部分数据检验模型的预测效果。
因变量是什么？
若解释变量来自1999年，那么因变量ST就是2002是否被宣布ST；
若解释变量来自2000，那么因变量ST就是2003年是否被宣布ST。

ARA:应收账款与总资产的比例，衡量盈利质量
ASSET：对数变换后的资产规模，用于反映公司规模
ATO:资产周转率，用于度量资产利用效率
GROWTH:销售收入增长率，用于反映公司的成长潜力
LEV:负债资产比率，用于反映债务状况
ROA：资产收益率，用于度量盈利能力
SHARE:最大股东的持股比例，用于反映股权结构

###Logistic回归sklearn库
# 导入第三方模块
import pandas as pd
import numpy as np
from sklearn import linear_model
from sklearn import model_selection

# 读取数据
data = pd.read_csv(r'C:\Users\hp\Desktop\ST.csv')

# 选取训练集测试集
train = data.loc[data['year'] == 1999] 
test = data.loc[data['year'] == 2000] 

X_train=train.drop(labels =['year','ST'], axis = 1, inplace = False)
y_train=train.ST
X_test=test.drop(labels =['year','ST'], axis = 1, inplace = False)
y_test=test.ST

# 利用训练集建模
sklearn_logistic = linear_model.LogisticRegression()
sklearn_logistic.fit(X_train, y_train)
# 返回模型的各个参数
print(sklearn_logistic.intercept_, sklearn_logistic.coef_)
'''
[-0.37145315] [[ 1.53047657 -0.11348713 -0.50267722 -0.89698116  1.30174923 -0.24722824
  -0.0129398 ]]
ARA和LEV的系数较大
'''
sklearn_logistic.score(X_train, y_train)
'''
 0.9473684210526315
 '''
 
# 模型预测
sklearn_predict = sklearn_logistic.predict(X_test)
# 预测结果统计
pd.Series(sklearn_predict).value_counts()
'''
746个0
'''

# 导入第三方模块
from sklearn import metrics
# 混淆矩阵
cm = metrics.confusion_matrix(y_test, sklearn_predict, labels = [0,1])
cm
'''
[699,   0]
[ 47,   0]
'''
Accuracy = metrics.scorer.accuracy_score(y_test, sklearn_predict)
Sensitivity = metrics.scorer.recall_score(y_test, sklearn_predict)
Specificity = metrics.scorer.recall_score(y_test, sklearn_predict, pos_label=0)
print('模型准确率为%.2f%%:' %(Accuracy*100))
print('正例覆盖率为%.2f%%' %(Sensitivity*100))
print('负例覆盖率为%.2f%%' %(Specificity*100))
'''
模型准确率为93.70%:
正例覆盖率为0.00%
负例覆盖率为100.00%
'''

# 混淆矩阵的可视化
# 导入第三方模块
import seaborn as sns
import matplotlib.pyplot as plt
# 绘制热力图
sns.heatmap(cm, annot = True, fmt = '.2e',cmap = 'GnBu')
# 图形显示
plt.show()

### ROC曲线
# y得分为模型预测正例的概率
y_score = sklearn_logistic.predict_proba(X_test)[:,1]
# 计算不同阈值下，fpr和tpr的组合值，其中fpr表示1-Specificity，tpr表示Sensitivity
fpr,tpr,threshold = metrics.roc_curve(y_test, y_score)
# 计算AUC的值
roc_auc = metrics.auc(fpr,tpr)
'''
0.7462636593309592
'''

# 绘制面积图
plt.stackplot(fpr, tpr, color='steelblue', alpha = 0.5, edgecolor = 'black')
# 添加边际线
plt.plot(fpr, tpr, color='black', lw = 1)
# 添加对角线
plt.plot([0,1],[0,1], color = 'red', linestyle = '--')
# 添加文本信息
plt.text(0.5,0.3,'ROC curve (area = %0.2f)' % roc_auc)
# 添加x轴与y轴标签
plt.xlabel('1-Specificity')
plt.ylabel('Sensitivity')
# 显示图形
plt.show()

三、泊松回归

案例：

该案例来源于我国北方某城市处于垄断地位的一家超市，数据包含了该超市一部分会员的详细消费记录。我们以某年某月为基准月份（第0月），因此，可以将前一个月记为第-1月，以此类推。我们的因变量是一个会员在基准月份光顾该超市的次数，因此是一个典型的技术计数数据。超市经理所感兴趣的问题是能否从这些会员前三个月的消费记录中找出什么规律，以便判断超市的众多会员中哪些人在这个月还会光顾超市以及大约会光顾多少次。为此，我们整理了每一个会员前三个月的每月光顾次数以及每月的消费金额。数据包含3995个有效样本。

# possion回归（结果是转化好的纳么哒（均值）的值）
import pandas as pd
from statsmodels.formula.api import poisson
crm = pd.read_csv(r'crm.csv')
model=poisson(formula="freq0~freq1+freq2+freq3+exp1+exp2+exp3",data=crm)
results = model.fit()
print(results.summary())
crm1 = pd.read_csv(r'crm1.csv')
print(results.predict(crm1))

注意：零膨胀和过散布问题

四、岭回归+lasso回归

https://blog.csdn.net/weixin_42521211/article/details/105806200

实训：中国民航客运量的回归

为了研究我国民航客运量的变化趋势及其成因，我们以民航客运量为因变量，所有变量如下：
y—民航客运量(万人)；x1—国民收入(亿元)；x2—消费额(亿元)；x3—铁路客运量(万人)；x4—民航航线里程(万公里)；x5—来华旅游入境人数(万人)。
根据《1994年统计摘要》获得1978-1993年统计数据
要求：
1、使用岭回归和LASSO回归寻找最优的λ值；
2、根据系数随λ值变化的可视化曲线，提出存在多重共线性的变量，再次建模，写出最终模型。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn import model_selection
from sklearn.linear_model import Ridge
import warnings
warnings.filterwarnings("ignore")   # 忽略警告信息输出

# 读取数据
data = pd.read_csv(r'C:\Users\hp\Desktop\data.csv',encoding='gbk')

# 选择自变量、因变量
X,y = data.ix[:,2:],data.ix[:,1]

# 将数据集拆分为训练集、测试集
X_train,X_test,y_train,y_test = model_selection.train_test_split(X,y,test_size=0.2,random_state=123)

#======================岭回归==========================
##====== 可视化方法=======
# 构造不同的 lambda值
lambds = np.logspace(-5,2,200)
# 构造空列表，用于存储模型的偏回归系数
ridge_coffs = []
# 求解不同lambda对应的系数值
for lambd in lambds:
    ridge = Ridge(alpha=lambd,normalize=True)
    ridge.fit(X_train,y_train)
    ridge_coffs.append(ridge.coef_)

# 绘制lambda的对数与回归系数的关系
# 设置绘图风格
plt.style.use('seaborn')
# 为了画图中文可以正常显示
plt.rcParams['font.sans-serif'] = ['SimHei'] #指定默认字体
plt.rcParams['axes.unicode_minus'] = False  #解决保存图像时负号'-'显示为方块的问题

plt.plot(lambds,ridge_coffs)
# 对x轴做对数处理
plt.xscale('log')
# 设置x轴和y轴标签
plt.xlabel('Log($\lambda$)')
plt.ylabel('Cofficients')
plt.title('正则项系数与回归系数之间的关系')
# 显示图形
plt.show()
'''
由图，x1存在多重共线性，删除变量
'''

# 删除多重共线性变量
X_train.drop('x1',axis=1,inplace=True)
X_test.drop('x1',axis=1,inplace=True)

# 再进行一次可视化
lambds = np.logspace(-2,2,200)
ridge_coffs = []
for lambd in lambds:
    ridge = Ridge(alpha=lambd,normalize=True)
    ridge.fit(X_train,y_train)
    ridge_coffs.append(ridge.coef_)
plt.style.use('seaborn')
plt.rcParams['font.sans-serif'] = ['SimHei'] 
plt.rcParams['axes.unicode_minus'] = False  
plt.plot(lambds,ridge_coffs)
plt.xscale('log')
plt.xlabel('Log($\lambda$)')
plt.ylabel('Cofficients')
plt.title('正则项系数与回归系数之间的关系')
plt.show()
'''
消除了多重共线性，lambd在***时系数趋于平缓
'''

# 交叉验证法确定λ值
from sklearn.linear_model import RidgeCV
ridge_cv = RidgeCV(alphas=lambds,normalize=True,scoring='neg_mean_squared_error',cv=10)
# 模型拟合
ridge_cv.fit(X_train,y_train)
# 返回最佳的lambda值
ridge_best_lambda = ridge_cv.alpha_
print('最佳的lambda值为：',ridge_best_lambda)
'''
最佳的lambda值为：***
'''

# 基于最佳的lambda值建模
ridge = Ridge(alpha=ridge_best_lambda,normalize=True)
ridge.fit(X_train,y_train)
# 返回岭回归模型系数
ridge_coef = pd.Series(data=[ridge.intercept_]+ridge.coef_.tolist(),index =['Intercept']+list(X_train.columns))
print('岭回归模型系数:\n',ridge_coef)
'''
岭回归模型系数:
 Intercept    630.867929
x1             0.057979
x2             0.075966
x3            -0.009156
x5             0.216515
'''

# 模型预测
from sklearn.metrics import mean_squared_error # 均方误差MSE，评估模型效果
y_pred = ridge.predict(X_test)
# 预测效果验证  :均方根误差RMSE
rmse = np.sqrt(mean_squared_error(y_test,y_pred))
print("测试集均方根误差RMSE：",rmse)
'''
测试集均方根误差RMSE： 46.77979596227859
'''

#======================lasso回归==========================
data = pd.read_csv(r'C:\Users\hp\Desktop\data.csv',encoding='gbk')
# 选择自变量、因变量
X,y = data.ix[:,2:],data.ix[:,1]
# 将数据集拆分为训练集、测试集
X_train,X_test,y_train,y_test = model_selection.train_test_split(X,y,test_size=0.2,random_state=123)

# 导入模块中的函数
from sklearn.linear_model import Lasso

lambds = np.logspace(-2,2,200)
# 空列表，用于存储模型的偏回归系数
lasso_coffs = []
for lambd in lambds:
    lasso = Lasso(alpha=lambd,normalize=True)
    lasso.fit(X_train,y_train)
    lasso_coffs.append(lasso.coef_)
# 绘制lambda与回归系数的折线图
plt.plot(lambds,lasso_coffs)
# 对x轴取对数
plt.xscale('log')
plt.xlabel('$\lambda$')
plt.ylabel('cofficients')
plt.show()

# 交叉验证
from sklearn.linear_model import LassoCV
lasso_cv = LassoCV(alphas=lambds,normalize=True,cv=10)
lasso_cv.fit(X_train,y_train)
# 输出最佳的lambda值
lasso_best_alpha = lasso_cv.alpha_
print("最佳lambda值：",lasso_best_alpha)
'''
最佳lambda值： 0.0174263338600965
'''

# 基于最佳的lambda值建模
lasso = Lasso(alpha=lasso_best_alpha,normalize=True)
lasso.fit(X_train,y_train)
# 返回LASSO回归模型系数
lasso_coef = pd.Series(data=[lasso.intercept_]+lasso.coef_.tolist(),index =['Intercept']+list(X_train.columns))
print('lasso回归模型系数:\n',lasso_coef)
'''
lasso回归模型系数:
 Intercept    869.509333
x1             0.039523
x2            -0.130325
x3            -0.013593
x4            35.452554
x5             0.392240
'''

# 模型预测
from sklearn.metrics import mean_squared_error 
y_pred = lasso.predict(X_test)
rmse = np.sqrt(mean_squared_error(y_test,y_pred))
print("测试集均方根误差RMSE：",rmse)
'''
测试集均方根误差RMSE： 133.57521496736558
'''

岭回归

去重

lasso

五、主成分回归

案例分析：

###===================主成分求解示例=====================
import numpy as np
from sklearn.decomposition import PCA
X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
pca = PCA(n_components=2)
newX = pca.fit_transform(X)
print(X)
print(newX)
print(pca.explained_variance_ratio_)
pca = PCA(n_components=1)
newX = pca.fit_transform(X)
print(pca.explained_variance_ratio_)

##主成分回归示例
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split
#  读取数据
data = pd.read_csv('data.csv' , encoding =  'UTF-8') 
data
X = data.iloc[:, 0:4]
Y = data.iloc[:, 5]
# 对数据进行标准化
X = (X - X.mean())/np.std(X)
Y = (Y - Y.mean())/np.std(Y)
# 对数据进行分割
X_train, X_test, Y_train, Y_test = train_test_split(X,Y,train_size=0.7, random_state=1)
# 创建pca模型
pca = PCA(n_components='mle')
# 对模型进行训练
pca.fit(X_train)
# 返回降维后据
X_train = pca.transform(X_train)
X_train # 经过降维之后的主成分矩阵----> 用来进行主成分回归的数
Y_train= (Y_train - Y_train.mean())/np.std(Y)
Y_train
# 使用返回后的数据用线性回归模型进行建模
import statsmodels.api as sm
ols = sm.OLS(Y_train, X_train).fit()
ols.summary()
pca.explained_variance_ratio_
pca.get_params()
pca.get_precision()  ##不太明白为什么是四行四列。代表什么
# 使用LinearRegression进行拟合，其实这两种拟合的都差不多
from sklearn.linear_model import LinearRegression
lr = LinearRegression()
lr.fit(X_train,Y_train)   # 模型训练
lr.score(X_train, Y_train) # 获取模型的得分
X_test = (X_test - X_test.mean())/np.std(X_test)
X_test = pca.transform(X_test)
X_test
y_pred = lr.predict(X_test)
Y_test
y_pred
plt.scatter(y_pred, Y_test)
plt.xlabel('The predicted Y of LinearRegression')
plt.ylabel('The real Y')
olsr = sm.OLS(y_pred, Y_test).fit()
olsr.summary()

###==================偏最小二乘法===================
from sklearn.cross_decomposition import PLSRegression
X = [[0., 0., 1.], [1.,0.,0.], [2.,2.,2.], [2.,5.,4.]]
Y = [[0.1, -0.2], [0.9, 1.1], [6.2, 5.9], [11.9, 12.3]]
pls2 = PLSRegression(n_components=2)
pls2.fit(X, Y)
Y_pred = pls2.predict(X)
pls2.fit_transform(X,Y)
pls2.get_params()
pls2.score(X,Y)
pls2.coef_
pls2.x_weights_
from sklearn.cross_decomposition import PLSRegression
import numpy as np
import pandas as pd
from statsmodels import api as sms
data = pd.read_csv('data8.2.csv' , encoding =  'UTF-8') 
data
X = data.iloc[:, 1:14]
Y = data.iloc[:, 0]
pls2 = PLSRegression(n_components=3)
pls2.fit(X, Y)
pls2.fit_transform(X,Y)
pls2.get_params()
pls2.score(X,Y)
pls2.coef_
pls2.x_weights_
pls2.y_weights_
pls2.x_loadings_
pls2.x_scores_
pls2.n_iter_

实训

糖尿病数据集。该数据集包含442条观测、10个自变量和1个因变量。这些自变量分别为患者的年龄、性别、体质指数、平均血压及六个血清测量值；因变量为糖尿病指数，其值越小，说明糖尿病的治疗效果越好。根据文献可知，对于胰岛素治疗糖尿病的效果表明，性别和年龄对治疗效果无显著影响。
请以4：1的比例划分训练集和测试集，然后分别使用主成分回归和偏最小二乘回归对本题进行做出分析，找出模型得分最高的主成分个数及系数，再使用测试集计算此时的RMSE，对比两种算法。

import pandas as pd
import numpy as np

data = pd.read_excel(r'C:\Users\hp\Desktop\diabetes.xlsx')

data.drop(['AGE','SEX'],axis=1,inplace=True)
X,Y = data.ix[:,:-1],data.ix[:,-1]

# 对数据进行标准化
X = (X - X.mean())/np.std(X)
Y = (Y - Y.mean())/np.std(Y)

# 将数据集拆分为训练集、测试集
from sklearn.model_selection import train_test_split
X_train,X_test,Y_train,Y_test = train_test_split(X,Y,test_size=0.2,random_state=123)
               
###==================主成分回归====================
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
# 创建pca模型
pca = PCA(n_components=8)  # 8时模型得分最高
# 对模型进行训练
pca.fit(X_train)
# 返回降维后数据
X_train = pca.transform(X_train)
X_train 
Y_train= (Y_train - Y_train.mean())/np.std(Y)
Y_train

# 线性回归模型
from sklearn.linear_model import LinearRegression
lr = LinearRegression()
lr.fit(X_train,Y_train)   
lr.score(X_train, Y_train) # 获取模型的得分
'''
0.48598326062077973
'''
lr.coef_
X_test = (X_test - X_test.mean())/np.std(X_test)
X_test = pca.transform(X_test)

# 模型预测
from sklearn.metrics import mean_squared_error # 均方误差MSE，评估模型效果
y_pred = lr.predict(X_test)
rmse = np.sqrt(mean_squared_error(Y_test,y_pred))
print("测试集均方根误差RMSE：",rmse)
'''
测试集均方根误差RMSE： 0.6954947256191752
'''

###====================偏最小二乘法======================
from sklearn.cross_decomposition import PLSRegression
from statsmodels import api as sms

pls2 = PLSRegression(n_components=8)
pls2.fit(X_train,Y_train)
pls2.fit_transform(X_train,Y_train)
pls2.get_params()
pls2.score(X_train,Y_train)  
'''
 0.4859832606207598
 '''
pls2.coef_

# 模型预测
from sklearn.metrics import mean_squared_error # 均方误差MSE，评估模型效果
y_pred = pls2.predict(X_test)
rmse = np.sqrt(mean_squared_error(Y_test,y_pred))
print("测试集均方根误差RMSE：",rmse)
'''
测试集均方根误差RMSE：0.6954947287521299
'''
'''
主成分回归模型更好
'''

六、多项式回归

# 二次多项式回归
# 实例化一个二次多项式特征实例
quadratic_featurizer=PolynomialFeatures(degree=2)
# 用二次多项式对样本X值做变换
X_train_quadratic = quadratic_featurizer.fit_transform(X)
# 创建一个线性回归实例
regressor_model=linear_model.LinearRegression()
# 以多项式变换后的x值为输入，带入线性回归模型做训练
regressor_model.fit(X_train_quadratic,y)
regressor_model.coef_  ##显示系数
# 设计x轴一系列点作为画图的x点集
xx=np.linspace(30,400,100)
# 把训练好X值的多项式特征实例应用到一系列点上,形成矩阵
xx_quadratic = quadratic_featurizer.transform(xx.reshape(xx.shape[0], 1))
yy_predict = regressor_model.predict(xx_quadratic)
# 用训练好的模型作图
plt.plot(xx, yy_predict, 'r-')
X_test_quadratic = quadratic_featurizer.transform(X_test)
print('二次回归     r-squared', regressor_model.score(X_test_quadratic, y_test))
# plt.show()  # 展示图像

# 三次回归
cubic_featurizer = PolynomialFeatures(degree=3)
X_train_cubic = cubic_featurizer.fit_transform(X)
regressor_cubic = LinearRegression()
regressor_cubic.fit(X_train_cubic, y)
regressor_cubic.coef_   ##显示系数
xx_cubic = cubic_featurizer.transform(xx.reshape(xx.shape[0], 1))
plt.plot(xx, regressor_cubic.predict(xx_cubic))
X_test_cubic = cubic_featurizer.transform(X_test)
print('三次回归     r-squared', regressor_cubic.score(X_test_cubic, y_test))
plt.show()  # 展示图像

七、非线性回归

案例

##非线性最小二乘拟合
from scipy import optimize
import numpy as np
xdata = np.linspace(-10, 10, num=20)
def f2(x, a, b):         # 拟合函数式
    return a*x**2 + b*np.sin(x)
ydata = f2(xdata,2,1) + np.random.randn(xdata.size)    # y
guess = [2, 2]  # 猜测的初始值
params,params_covariance= optimize.curve_fit(f2, xdata, ydata,guess)
print(params)
print(params_covariance) # 协方差矩阵

xdata = np.linspace(0,2*np.pi,1000)
def func(x,A,k,theta):
    return A*np.sin(2*np.pi*k*x+theta)
ydata = func(xdata,10,0.34,np.pi/6) + np.random.randn(xdata.size)
guess=[3,3,3]
params,params_covariance= optimize.curve_fit(func, xdata, ydata,guess)
print(params)
print(params_covariance)

'''
使用最小二乘法拟合正弦函数
'''
import numpy as np
from scipy.optimize import leastsq
import  matplotlib.pyplot as plt 

#定义拟合函数图形
def func(x,p):
    A,k,theta = p
    return A*np.sin(2*np.pi*k*x+theta)
#定义误差函数
def error(p,x,y):
    return y-func(x,p)
#生成训练数据
#随机给出参数的初始值
p0 = [10,0.34,np.pi/6]
A,k,theta = p0
x = np.linspace(0,2*np.pi,1000)
#随机指定参数
y0 = func(x,[A,k,theta])
#randn(m)从标准正态分布中返回m个值，在本例作为噪声
y1 = y0 + 2*np.random.randn(len(x))
#进行参数估计
Para = leastsq(error,p0,args=(x,y1))
A,k,theta = Para[0]
print('A=',A,'k=',k,'theta=',theta)

'''
图形可视化
'''
plt.figure(figsize=(20,8))
ax1 = plt.subplot(2,1,1)
ax2 = plt.subplot(2,1,2)
#在ax1区域绘图
plt.sca(ax1)
#绘制散点图
plt.scatter(x,y1,color='red',label='Sample Point',linewidth = 3)
plt.xlabel('x')
plt.xlabel('y')
y = func(x,p0)
plt.plot(x,y0,color='black',label='sine',linewidth=2)
#在ax2区域绘图
plt.sca(ax2)
e = y-y1
plt.plot(x,e,color='orange',label='error',linewidth=1)
#显示图例和图形
plt.legend()
plt.show()

作业

data = pd.read_csv(r'C:\Users\hp\Desktop\data9.5.csv')
x = data.iloc[:,1]
y = data.iloc[:,2]
plt.scatter(x,y,marker='*',color='blue')

def f2(x, k, a, b, c):    # 函数式刑形式
    return k-a*b**(x**c)
    
guess = [15,1,0.5,1]  # 猜测
params,params_covariance= optimize.curve_fit(f2, x, y,guess, maxfev=500000, bounds=(0, [100., 100., 1,100]))  # maxfev：最大拟合次数  bounds：取值范围，大于0，小于……
print(params)
'''
[14.90578281  9.23677568  0.99778541  1.63687107]
'''
print(params_covariance)

自变量有多个时的写法

# 乘性
from sklearn.linear_model import LinearRegression
data = pd.read_csv(r'C:\Users\hp\Desktop\data9.6.csv')

lX = data.iloc[:,5:]
ly = data.iloc[:,4]

model = LinearRegression()
model.fit(lX,ly)
model.coef_
'''
[0.90239268, 0.36054285]
'''
model.intercept_
'''
-2.085893188284622
'''
np.exp(0.90239268) #  2.4654952004600927
np.exp(0.36054285) # 1.4341077086623983

# 加性
k = data.iloc[:,2]
l = data.iloc[:,3]
y = data.iloc[:,1]

def f2(x, A, a, b):
    k,l=x   # 自变量有两个
    return A*(k**a)*(l**b)
    
x=[k,l]
guess = [1,0.5,0.5]  
params,params_covariance= optimize.curve_fit(f2, x, y,guess, maxfev=500000, bounds=(0, [100., 1., 1.]))
print(params)
'''
[0.02047588 0.92237277 0.50483645]
'''
print(params_covariance)

八、随机森林回归

案例：波斯顿房价

from sklearn.datasets import load_boston
from sklearn.cross_validation import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error
boston = load_boston()

print(boston.DESCR)
x = boston.data
y = boston.target

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25, random_state=33)

RF = RandomForestRegressor(n_estimators=100,random_state=0)
RF.fit(x_train, y_train)

RF.feature_importances_
RF.score(x_train, y_train)
RF.score(x_test, y_test)

yhat_RF=RF.predict(x_test)
r2_score(y_test, yhat_RF) 
cross_val_score(RF, boston.data, boston.target, cv=10
   ,scoring = "neg_mean_squared_error")
mean_squared_error(y_test, yhat_RF)

from sklearn.ensemble import AdaBoostRegressor
AB=AdaBoostRegressor()
# 拟合构造 CART 回归树
AB.fit(x_train, y_train)
AB.score(x_train, y_train)
AB.score(x_test, y_test)
# 预测测试集中的房价
yhat_AB=AB.predict(x_test)
r2_score(y_test, yhat_AB) 
mean_squared_error(y_test, yhat_AB)

from sklearn.tree import DecisionTreeRegressor
DT=DecisionTreeRegressor()
# 拟合构造 CART 回归树
DT.fit(x_train, y_train)
DT.score(x_train, y_train)
DT.score(x_test, y_test)
# 预测测试集中的房价
yhat_DT=DT.predict(x_test)
r2_score(y_test, yhat_DT) 
mean_squared_error(y_test, yhat_DT)

from sklearn.ensemble import ExtraTreesRegressor, GradientBoostingRegressor
# 极端随机森林回归
ETR = ExtraTreesRegressor()
ETR.fit(x_train, y_train)
ETR.score(x_train, y_train)
ETR.score(x_test, y_test)
# 预测 保存预测结果
yhat_ETR = ETR.predict(x_test)
r2_score(y_test, yhat_ETR)
mean_squared_error(y_test, yhat_ETR)
# 梯度提升回归
GBR = GradientBoostingRegressor()
# 训练
GBR.fit(x_train, y_train)
GBR.score(x_train, y_train)
GBR.score(x_test, y_test)
# 预测 保存预测结果
yhat_GBR = GBR.predict(x_test)
r2_score(y_test, yhat_GBR)
mean_squared_error(y_test, yhat_GBR)


import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import load_boston
from sklearn.impute import SimpleImputer
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import cross_val_score

#以波士顿数据集为例，导入完整的数据集并探索
dataset = load_boston()
dataset.data.shape

#总共506*13=6578个数据
X_full, y_full = dataset.data, dataset.target
n_samples = X_full.shape[0]
n_features = X_full.shape[1]

#np.random.RandomState(0)伪随机数生成器,随机种子为0
rng = np.random.RandomState(0)    
missing_rate = 0.5
n_missing_samples = int(np.floor(n_samples * n_features * missing_rate))

#np.floor向下取整，返回.0格式的浮点数
missing_features = rng.randint(0,n_features,n_missing_samples)
missing_samples = rng.randint(0,n_samples,n_missing_samples)    

#创建含缺失值的数据集X_missing和y_missing
X_missing = X_full.copy()
y_missing = y_full.copy()

#创建缺失值-按缺失值位置赋值np.nan
X_missing[missing_samples,missing_features] = np.nan
'''转换成DataFrame是为了后续方便各种操作，
numpy对矩阵的运算速度快到拯救人生，
但是在索引等功能上却不如pandas来得好用'''
X_missing = pd.DataFrame(X_missing) 

#使用均值进行填补
from sklearn.impute import SimpleImputer

#SimpleImputer()缺失值填补函数
imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean')
X_missing_mean = imp_mean.fit_transform(X_missing)

#使用0进行填补
imp_0 = SimpleImputer(missing_values=np.nan, strategy="constant",fill_value=0)
X_missing_0 = imp_0.fit_transform(X_missing)

#用随机森林预测填补缺失值
X_missing_reg = X_missing.copy()

#特征缺失值累计，按索引升序排序
sortindex = np.argsort(X_missing_reg.isnull().sum(axis=0)).values

#循环，按缺失值累计升序，依次填补不同特征的缺失值
for i in sortindex:
    #构建我们的新特征矩阵和新标签
    #含缺失值的总数据集
    df = X_missing_reg 
    #要填充特征作为新标签列
    fillc = df.iloc[:,i] 
    #新的特征矩阵=其余特征列+原来的标签列Y
    df = pd.concat([df.iloc[:,df.columns != i],pd.DataFrame(y_full)],axis=1)
    #在新特征矩阵中，对含有缺失值的列，进行0的填补
    df_0 =SimpleImputer(missing_values=np.nan,strategy='constant',
         fill_value=0).fit_transform(df)
    #找出我们的训练集和测试集
    Ytrain = fillc[fillc.notnull()]
    Ytest = fillc[fillc.isnull()]
    Xtrain = df_0[Ytrain.index,:]
    Xtest = df_0[Ytest.index,:]
    #用随机森林回归预测缺失值
    rfc = RandomForestRegressor(n_estimators=100)
    rfc = rfc.fit(Xtrain, Ytrain)
    Ypredict = rfc.predict(Xtest)
    #填入预测值
    X_missing_reg.loc[X_missing_reg.iloc[:,i].isnull(),i] = Ypredict

#对填补好的数据依次用随机森林回归建模，取得MSE结果
X = [X_full,X_missing_mean,X_missing_0,X_missing_reg]
mse = []
std = []
for x in X:
    estimator = RandomForestRegressor(random_state=0, n_estimators=100)
    scores = cross_val_score(estimator,x,y_full,scoring='neg_mean_squared_error',
                                cv=5).mean()
    mse.append(scores * -1)

#画条形图
x_labels = ['Full data',
            'Mean Imputation',
            'Zero Imputation',
            'Regressor Imputation']
colors = ['r', 'g', 'b', 'orange']
plt.figure(figsize=(12, 6))
ax = plt.subplot(111)
for i in np.arange(len(mse)):
    ax.barh(i, mse[i],color=colors[i], alpha=0.6, align='center')
ax.set_title('Imputation Techniques with Boston Data')
ax.set_xlim(left=np.min(mse) * 0.9,
            right=np.max(mse) * 1.1)
ax.set_yticks(np.arange(len(mse)))
ax.set_xlabel('MSE')
ax.set_yticklabels(x_labels)
plt.show()

你可能感兴趣的:(方法总结)

计算机视觉中的数据增强方法总结 CV技术指南(公众号) CV技术总结计算机视觉深度学习卷积神经网络
前言：在计算机视觉方向，数据增强的本质是人为地引入人视觉上的先验知识，可以很好地提升模型的性能，目前基本成为模型的标配。最近几年逐渐出了很多新的数据增强方法，在本文将对数据增强做一个总结。本文介绍了数据增强的作用，数据增强的分类，数据增强的常用方法，一些特殊的方法，如Cutout，RandomErasing，Mixup，Hide-and-Seek，CutMix，GridMask，FenceMask
清单革命中号裁判_乐读1z1b
这本书应该是读完没有具体感受，只能方法总结的一类，需要实际操作不断积累的一种方法。本书围绕“清单”分三个部分讲述。1，任命常犯的错有哪些？就根源来讲，犯错来自于两个方面，一个是无知，一个是无能。无知代表没有相关知识而犯的错误。现在社会分工越来越细化，专业知识，及知识传递普及获取方式都大大提高，可以预见，无知类的错误会越来越少。无能的错误，来自于人们无法把控的范畴，健忘，焦虑，环境影响，都会造成无能
掌财社:在html5中使用video进行全屏播放与自动播放的代码方法总结！ weixin_45378258 HTML
今天由于在之前小编在项目中遇到的有关于：“在html5中使用video进行全屏播放与自动播放的代码方法总结！”这方面的内容，所以今天就来和大家分享有关于这方面的相关内容！近期开始开发公司新版官网，首页顶部（header）是一个全屏播放的小视频,现简单总结如下：页面代码：其中php简单判断了一下是否是移动设备,移动设备不展示视频(如果移动端展示的话,需要解决iOS上无法自动播放的问题):ps:如果H
SystemTap 工作原理 weixin_30275415
《systemtap原理及使用》https://www.cnblogs.com/youngerchina/p/5624588.html这篇帖子前边系统介绍了systemtap的工作原理，摘取几个图。《使用Kprobes调试内核》https://www.ibm.com/developerworks/cn/linux/l-kprobes.html这篇帖子介绍了用kprobes调试内核的方法总结：kpr
如何快速下载huggingface模型——全方法总结 u013250861 #elasticsearch 大数据搜索引擎
原文发布于本人博客：如何快速下载huggingface大模型-padeoe的小站这是博主第一次上知乎发文章，欢迎评论、交流！Update:推荐huggingface镜像站：https://hf-mirror.com。Update:推荐官方的huggingface-cli命令行工具、以及本人开发的
C# 命名空间与程序结构 Freesial_ C#笔记 c#开发语言
目录前言一、命名空间声明二、命名空间的引用：using语句三、C#的程序结构1、程序结构2、C#的Main（）方法总结前言现实世界中不同对象间的相互联系和相互作用构成了各种不同的系统，不同系统间的相互联系和相互作用构成了更庞大的系统，进而构成了整个世界。在面向对象概念中把这些系统称为命名空间。命名空间提供了一种组织相关类和其它类型的方式。与文件或组件不同，命名空间是一种逻辑组合，而不是物理组合，应
深度学习基础之循环神经网络 Ctrl+CV九段手机器学习和深度学习 rnn 深度学习神经网络人工智能机器学习学习
目录基本概念与特点定义与工作原理结构组成应用领域自然语言处理语音识别时间序列分析优缺点优点缺点改进方法总结循环神经网络在自然语言处理中的最新应用和研究进展是什么？长短期记忆网络（LSTM）与门控循环单元（GRU）在解决梯度消失和爆炸问题上的具体差异和优势是什么？LSTM的结构与优势GRU的结构与优势具体差异门的数量：计算复杂度：性能对比：总结双向循环神经网络如何增强模型的上下文捕捉能力，与单向RN
Python进阶————面向对象高级记得多吃点 Python进阶知识 python 开发语言
面向对象高级前言一、继承1.1.单继承1.2.多继承1.3.方法重写1.4.子类调用父类方法1.4.1父类名.父类方法名()1.4.2super().父类方法名()1.5.多层继承二、封装2.1.私有属性2.2.私有方法三、多态3.1.多态的条件3.2.多态的定义四、面向对象的其他特性4.1.对象属性4.2.类属性4.3.类方法4.4.静态方法总结前言接下来我们学习Python中的继承、封装、多态
小学英语教学方法总结翻白眼_f5c4
作为一名小学英语教师，如何在此刻的岗位上发光发热，如何让学生在有限的课堂时光里学好英语这门语言，教育教学中有太多的东西值得我去深思，去探索。透过八年的工作实践，我认识到，小学英语教学不就应只满足于对单词、句型的概念化解释和程序化分析，那样只会使教学资料平淡、课堂气氛沉闷，使学生不能全身心地投入到英语学习中来，使他们原有的兴趣和信心很快丧失殆尽。那么，怎样才能做好小学英语的教学工作呢？以下是我教学过
利用命令模式实现一个手游后端架构的方法总结 LQS2020 命令模式
命令模式（CommandPattern）是一种行为设计模式，它将请求或操作封装为一个对象。这种模式允许用户使用不同的请求、队列或日志请求来参数化其他对象，并且支持可撤销的操作。在手游后端架构中，命令模式可以用于实现以下方面：请求的封装与调度：将每个操作封装为一个命令对象，这些对象可以被存储、传递和调用。解耦发送者和接收者：发送者（Invoker）通过命令对象来调用操作，而不必知道具体操作的实现细节
Qt：设置Qwidget类背景方法总结面条有点辣 Qt qt ui 开发语言
目录1、引言2、使用样式表（setStyleSheet）3、QPalette4、paintEvent事件5、简洁方式6、总结1、引言在实现一个页面跳转功能时，选择PushButton或QWidget可以有效当作按钮，而Qwidget可以添加label或者其它控件，自定义程度更高，因此本文给出几种给Qwidget绘制背景图片方法。2、使用样式表（setStyleSheet）ui->widget-
Java笔试面试题AI答之线程（24）工程师老罗 Java笔试面试题AI答 java 开发语言
文章目录139.简述为什么wait(),notify()和notifyAll()必须在同步方法或者同步块中被调用？140.简述为什么Thread类的sleep()和yield()方法是静态的？1.sleep()方法2.yield()方法总结141.简述同步方法和同步块，哪个是更好的选择？同步方法同步块选择建议142.简述如何创建守护线程？143.简述什么是JavaTimer类？如何创建一个有特定时
【python】错误 SyntaxError: invalid syntax的解决方法总结二川bro 优化 bug集合 python python 开发语言
【python】错误SyntaxError:invalidsyntax的解决方法总结在Python编程中，SyntaxError:invalidsyntax是一个常见的错误，通常表示Python解释器在尝试解析代码时遇到了语法错误。这种错误可能由多种原因引起，包括拼写错误、缺少关键字、不恰当的缩进等。本文将深入探讨这个错误，包括其发生的原因、解决思路、具体解决方法、常见场景分析以及扩展与高级技巧。
大模型微调方法总结：LoRA、Adapter、Prefix-tuning、P-tuning、Prompt-tuning 百度_开发者中心 prompt 人工智能大模型
随着深度学习技术的不断发展，大型预训练模型已成为许多任务的重要工具。然而，微调（finetuning）这些大模型以适应特定任务是一个复杂且计算密集型的过程。本文将重点介绍五种不同的微调方法：LoRA、Adapter、Prefix-tuning、P-tuning和Prompt-tuning，并对它们进行总结。LoRA(LearnedRepresentationsforFinetuning)LoRA是
数组循环遍历方法总结及区别 zwt_vip javascript 前端开发语言
数组循环遍历方法总结及区别前言一、for循环二、while循环三、do...while...循环四、forEach五、filter六、some七、every八、reduce，reduceRight九、map十、for...in...循环1.数字数组2.遍历对象3.数组的真相3.for...in...性能十一、for...of...循环总结前言不同的场景使用不同的遍历方法可以大大提高计算效率，优化代
js循环遍历的方法总结 healer- js javascript 开发语言 ecmascript
在js中什么叫做循环遍历：循环遍历：循环遍历是指通过重复执行一段代码来遍历（访问）一个数据集合中的每个元素。可用于处理数组、对象或者其它可迭代的数据结构。可迭代：可迭代（iterable）是指一种数据结构，它可以被迭代（遍历）访问其元素。当我们说一个数据结构是可迭代的，意味着我们可以按照一定的顺序逐个访问其中的元素。总而言之，可迭代的数据结构提供了一种方式来访问它们的元素，通常是通过循环遍历的方式
JavaScript 循环遍历方法总结不知名靓仔 javascript 开发语言 ecmascript
引言JavaScript提供了多种循环遍历数组、对象等数据结构的方法。掌握这些方法不仅能够帮助你写出更加高效、简洁的代码，还能让你更好地理解JavaScript的核心概念。本文将总结JavaScript中常见的循环遍历方法，并提供具体的使用示例。1.for循环1.1基本用法for循环是最常见的循环结构之一，适用于遍历已知长度的数组。示例遍历数组：javascript深色版本1constnumber
Java的Math.abs()返回的一定都是非负数吗？龙大. Java java 后端
结论在使用Math.abs()时，除非处理Integer.MIN_VALUE或Long.MIN_VALUE，返回的绝对值通常是非负的。Math.abs()方法总结功能：Math.abs()方法用于返回数字的绝对值。返回类型：适用于不同的数据类型，包括int、long、float和double。返回值特性：正数和零：对于绝大多数有效输入，Math.abs()返回的结果是非负数（即要么是正数，要么是零
2021-07-21学习记录蓝澜2021
10：18刚才背完了单词，发现把单词分为两组学也不太难。扇贝推送了考研阅读三刷方法，刚刚看了一下，总的内容和我现在做的差不多，方法总结和词句篇的梳理，它分成一二刷，但是建议几天内做完一二刷，其实可以算作一刷吧。虽然我不太理解为什么要先方法再词句梳理。三刷全面复习。中间的复习方法可以借鉴，当天的即时记忆和一周一次的间隔记忆，我的问题就是不爱复习。那就反思一下复习问题。专业课，还没背，如果背的话应该会
深度学习--常用的调整张量形状的方法总结 Ambition_LAO 深度学习
在深度学习中，调整张量的形状是一个常见且重要的操作。它使我们能够调整数据的形式以适应模型的输入要求或进行其他处理。以下是一些常用的调整张量形状的方法，以及这些方法的详细解释和应用场景。1.reshape()功能：reshape()方法用于将张量重新调整为指定的形状，而不改变数据的顺序或总的元素数量。如何使用：在TensorFlow中，可以使用tf.reshape()。在NumPy中，可以使用.re
受导者的“好”也许只有她自己知道心理咨询师翁慧
OTT心理咨询是源于多年心理学专业学习和个案实践的基础上结合咨询师个人经验的方法总结，简单分为三个阶段：1.OPEN:对本体感觉保持开放2.TRUST:信任与安全感的构建3.TRUTH:让看不见的东西被看见，通过身体的一些症状真正地透过现象去看见事情的本质。图片发自App上周末闺蜜介绍了一位朱女士来做OTT心理咨询的受导体验者。朱女士33岁，儿子上幼儿园，由于自己上班加上带孩子双重压力，最近失眠和
【Python】入门到放弃之第九章《字典》花凝雨 Python python 开发语言
上一篇：【Python】入门到放弃之第八章《元组》下一篇：【Python】入门到放弃之第十章《控制流语句》文章目录前言一、定义二、创建字典三、访问字典元素四、添加和修改元素五、删除元素六、遍历字典七、检查键是否存在八、字典的其他方法总结前言这是本系列的第九章节内容，《字典》。一、定义在Python中，字典（Dictionary）是一种内置的数据结构，用于存储键值对（key-valuepairs）。
排序方法总结 wx20041102 排序算法算法数据结构
下列具体实现了希尔排序插入排序快速排序归并排序（包括递归和非递归）如若有任何不懂之处，欢迎评论，我会尽我之力解答希尔排序：总结：对gap的运用voidShellSort(int*nums,intnumsSize){inti=0;intend=0;inttemp=0;intgap=numsSize;while(gap>1){gap=gap/3+1;//+1是为了保证最后gap为1，进行插入排序，从而
程序人生——Java中基本类型使用建议 Perley620 #Java面试上岸专栏程序人生 java python
目录引出Java中基本类型使用建议建议21：用偶判断，不用奇判断建议22：用整数类型处理货币建议23：不要让类型默默转换建议24：边界、边界、还是边界建议25：不要让四舍五入亏了一方建议26：提防包装类型的null值建议27：谨慎包装类型的大小比较建议28：优先使用整型池建议29：优先选择基本类型建议30：不要随便设置随机种子深入认识JVMJVM内存分配，类加载创建对象的4种方法总结垃圾回收GCJ
WIFI攻击方法总结安全方案智能路由器网络
WIFI攻击是指黑客利用各种手段，对WIFI网络进行非法入侵和攻击，以获取用户的个人信息、网络权限或其他敏感数据。常见的WIFI攻击方式主要包括以下几种：伪造认证页面：黑客可以创建一个伪造的认证页面，当用户尝试连接到WIFI网络时，会被重定向到这个伪造页面。用户在这个页面上输入用户名和密码后，黑客就能获取到这些信息，进而窃取用户的上网凭证。利用忘记密码功能：许多WIFI网络在忘记密码时提供重置密码
已解决ModuleNotFoundError: No module named ‘tensorflow‘异常的正确解决方法，亲测有效！！！小明 Bug解决大全 tensorflow 人工智能 python java 开发语言 Exception Error
已解决ModuleNotFoundError:Nomodulenamed'tensorflow'异常的正确解决方法，亲测有效！！！文章目录问题分析报错原因解决思路解决方法总结在深度学习和机器学习项目中，TensorFlow是一个极为常用和功能强大的库。如果你在导入TensorFlow时遭遇到了ModuleNotFoundError:Nomodulenamed'tensorflow'这一错误，那么本
String.format()详细用法简单的绿竹 .net(C#)基础知识 c#
String类有一个强大的字符串格式化方法format()。下面是常用的方法总结。一、占位符类型Stringformatted=String.format("%s今年%d岁。","小李",25);//"小李今年25岁。"二、字符串和整数格式化//将第二个入参拼接到模板中,入参长度如果不足10左侧用空格补齐,超过10全量输出System.out.println(String.format("%10s
SQL实现模糊查询的四种方法总结浮生若梦777 sql 数据库 mysql
目录一、一般模糊查询二、利用通配符查询1._表示任意的单个字符2.%表示匹配任意多个任意字符3.[]表示筛选范围4.查询包含通配符的字符串一、一般模糊查询1.单条件查询//查询所有姓名包含“张”的记录select*fromstudentwherenamelike'张'2.多条件查询//查询所有姓名包含“张”，地址包含四川的记录select*fromstudentwherenamelike'张'an
ProCAST 2016 warning-8 = invalid inconsistent license key dgdqqxxx 经验分享经验分享
文章目录前言一、原因二、解决方法总结前言安装ProCAST2016完成后运行时报错“LicenseManagerError(-8),warning-8=invalidinconsistentlicensekey”一、原因导致这个问题的原因可能每个人的不一样，我的是因为安装目录问题：默认的安装目录Visual-Environment在C:\ProgramFiles文件夹下，而其他ProCAST、Qu
25 Redis的缓存中的数据和数据库中的不一致问题海陆云 Redis 缓存数据库 redis
25Redis的缓存中的数据和数据库中的不一致问题前言一、缓存和数据库的数据不一致是如何发生的？二、解决Redis和数据库数据不一致的方法总结前言Redis缓存经常会遇到有4个方面：缓存中的数据和数据库中的不一致；缓存雪崩；缓存击穿；缓存穿透。只要我们使用Redis缓存，就会面对缓存和数据库间的一致性保证问题。如果数据不一致，业务应用从缓存中读取的数据就不是最新数据。比如，把电商商品的库存信息缓存
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class