keithic

sesection7——逻辑回归分析—根据过去的行为能否预测当下

import pandas as pd
import numpy as np
import pymysql
from sqlalchemy import create_engine
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno
%matplotlib inline

# 数据库引擎
engine = create_engine('mysql+pymysql://root:123456@localhost:3306/datascience')

## 读取数据

# 读取数据
data = 'data/section7-dau.csv'

dau = pd.read_csv(data)

# 写入 MYSQL
# dau.to_sql('s7_dau',engine,index=False)

dau.head()

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	region_month	region_day	app_name	user_id	device
0	2013-01	2013-01-01	game-02	10061580	FP
1	2013-01	2013-01-01	game-02	10154440	FP
2	2013-01	2013-01-01	game-02	10164762	SP
3	2013-01	2013-01-01	game-02	10165615	FP
4	2013-01	2013-01-01	game-02	10321356	FP

# 查看数据信息
dau.info()

print(dau.region_month.value_counts())
print(dau.region_day.unique())
print(dau.device.value_counts())

2013-01 25847 2013-02 23141 Name: region_month, dtype: int64 [‘2013-01-01’ ‘2013-01-02’ ‘2013-01-03’ ‘2013-01-04’ ‘2013-01-05’ ‘2013-01-06’ ‘2013-01-07’ ‘2013-01-08’ ‘2013-01-09’ ‘2013-01-10’ ‘2013-01-11’ ‘2013-01-12’ ‘2013-01-13’ ‘2013-01-14’ ‘2013-01-15’ ‘2013-01-16’ ‘2013-01-17’ ‘2013-01-18’ ‘2013-01-19’ ‘2013-01-20’ ‘2013-01-21’ ‘2013-01-22’ ‘2013-01-23’ ‘2013-01-24’ ‘2013-01-25’ ‘2013-01-26’ ‘2013-01-27’ ‘2013-01-28’ ‘2013-01-29’ ‘2013-01-30’ ‘2013-01-31’ ‘2013-02-01’ ‘2013-02-02’ ‘2013-02-03’ ‘2013-02-04’ ‘2013-02-05’ ‘2013-02-06’ ‘2013-02-07’ ‘2013-02-08’ ‘2013-02-09’ ‘2013-02-10’ ‘2013-02-11’ ‘2013-02-12’ ‘2013-02-13’ ‘2013-02-14’ ‘2013-02-15’ ‘2013-02-16’ ‘2013-02-17’ ‘2013-02-18’ ‘2013-02-19’ ‘2013-02-20’ ‘2013-02-21’ ‘2013-02-22’ ‘2013-02-23’ ‘2013-02-24’ ‘2013-02-25’ ‘2013-02-26’ ‘2013-02-27’ ‘2013-02-28’] FP 30331 SP 18657 Name: device, dtype: int64 ## 关于用户是否进行了账号迁转的数据的整理 #### 提取需要的数据列，去除重复项，得到用户按月份和设备登陆的信息

mau = dau[['region_month','user_id','device']]
mau.head()

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	region_month	user_id	device
0	2013-01	10061580	FP
1	2013-01	10154440	FP
2	2013-01	10164762	SP
3	2013-01	10165615	FP
4	2013-01	10321356	FP

# 重复数据 （用户在某一月使用相同设备登陆）
print(mau.duplicated().sum())
mau.drop_duplicates(inplace=True)
print(mau.duplicated().sum())

46007 0 D:\ProgramData\Anaconda3\lib\site-packages\ipykernel_launcher.py:3: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy This is separate from the ipykernel package so we can avoid doing imports until #### 非智能手机和智能手机分开

fp = dau[dau['device']=='FP'][['region_month','user_id','device']].drop_duplicates()
sp = dau[dau['device']=='SP'][['region_month','user_id','device']].drop_duplicates()

print(fp.info())
print(sp.info())

#### 分别获取1月份和2月份的数据

# 分别获取1月份和2月份的数据

fp_m1 = fp[fp['region_month']=='2013-01']
fp_m2 = fp[fp['region_month']=='2013-02']

sp_m1 = sp[sp['region_month']=='2013-01']
sp_m2 = sp[sp['region_month']=='2013-02']

#### 1月份的非智能手机用户在2月份的访问情况

# 1月份的非智能手机用户在2月份的访问情况

mau['is_access'] = 1
fp_m1 = pd.merge(fp_m1,mau[mau['region_month']=='2013-02'][['user_id','is_access']],how='left',on='user_id')
fp_m1['is_access'].fillna(0,inplace=True)

fp_m1.head()

D:\ProgramData\Anaconda3\lib\site-packages\ipykernel_launcher.py:3: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame. Try using .loc[row_indexer,col_indexer] = value instead See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy This is separate from the ipykernel package so we can avoid doing imports until

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	region_month	user_id	device	is_access
0	2013-01	10061580	FP	1.0
1	2013-01	10154440	FP	0.0
2	2013-01	10165615	FP	1.0
3	2013-01	10321356	FP	1.0
4	2013-01	10447112	FP	1.0

#### 1月份访问过游戏的非智能手机用户在2月份是否是继续通过非智能手机来访问的

# 1月份访问过游戏的非智能手机用户在2月份是否是继续通过非智能手机来访问的

fp_m2['is_fp'] = 1
fp_m1 = pd.merge(fp_m1,fp_m2[['user_id','is_fp']],how='left',on='user_id')
fp_m1['is_fp'].fillna(0,inplace=True)

fp_m1.head()

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	region_month	user_id	device	is_access	is_fp
0	2013-01	10061580	FP	1.0	1.0
1	2013-01	10154440	FP	0.0	0.0
2	2013-01	10165615	FP	1.0	1.0
3	2013-01	10321356	FP	1.0	1.0
4	2013-01	10447112	FP	1.0	1.0

#### 1月份访问过游戏的非智能手机用户在2月份是否是通过智能手机来访问的

# 1月份访问过游戏的非智能手机用户在2月份是否是通过智能手机来访问的

sp_m2['is_sp'] = 1
fp_m1 = pd.merge(fp_m1,sp_m2[['user_id','is_sp']],how='left',on='user_id')
fp_m1['is_sp'].fillna(0,inplace=True)

fp_m1.head()

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	region_month	user_id	device	is_access	is_fp
0	2013-01	10061580	FP	1.0	1.0
1	2013-01	10154440	FP	0.0	0.0
2	2013-01	10165615	FP	1.0	1.0
3	2013-01	10321356	FP	1.0	1.0
4	2013-01	10447112	FP	1.0	1.0

#### 1月份通过非智能手机访问但2月份没有访问的用户，或者通过智能手机访问的用户

# 1月份通过非智能手机访问但2月份没有访问的用户，或者通过智能手机访问的用户

fp_m1 = fp_m1[(fp_m1['is_access']==0) | (fp_m1['is_sp']==1)]
fp_m1.head()

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	region_month	user_id	device	is_access	is_sp
1	2013-01	10154440	FP	0.0	0.0
7	2013-01	10528830	FP	0.0	0.0
20	2013-01	1163733	FP	1.0	1.0
21	2013-01	11727630	FP	0.0	0.0
43	2013-01	13401362	FP	1.0	1.0

#### 以上得到的即是可用于逻辑回归的标签项 ## 关于是否是每天访问游戏的数据的整理

# 标记每天登陆记录

fp_dau = dau[(dau['device']=='FP') & (dau['region_month']=='2013-01')]
fp_dau['is_access'] = 1
fp_dau.head()

D:\ProgramData\Anaconda3\lib\site-packages\ipykernel_launcher.py:4: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame. Try using .loc[row_indexer,col_indexer] = value instead See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy after removing the cwd from sys.path.

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	region_month	region_day	app_name	user_id	device	is_access
0	2013-01	2013-01-01	game-02	10061580	FP	1
1	2013-01	2013-01-01	game-02	10154440	FP	1
3	2013-01	2013-01-01	game-02	10165615	FP	1
4	2013-01	2013-01-01	game-02	10321356	FP	1
6	2013-01	2013-01-01	game-02	10447112	FP	1

# COLUMNS 名字
b = []
for a in np.arange(1,32):
    b.append('X'+str(a)+'day')
# b.insert(0,'user_id')

# 透视表转化为登陆信息
fp_dau_pivot = pd.pivot_table(fp_dau, values='is_access', columns='region_day', index='user_id', fill_value=0)
fp_dau_pivot.columns = b
fp_dau_pivot.reset_index(inplace=True)

fp_dau_pivot.head()

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	user_id	X1day	X2day	X3day	X4day	X5day	X6day	X7day	X8day	X9day	…	X22day	X23day	X24day	X25day	X26day	X27day	X28day	X29day	X30day	X31day
0	397286	1	1	1	1	1	1	1	1	1	…	1	1	1	1	1	1	1	1	1	1
1	471341	1	1	1	1	0	0	0	0	0	…	0	0	0	0	0	0	0	0	0	0
2	503874	1	0	0	0	0	0	0	0	0	…	0	0	0	0	0	0	0	0	0	0
3	512250	1	1	1	1	1	1	1	1	1	…	1	1	1	1	1	1	1	1	1	1
4	513811	0	0	0	0	0	0	0	0	0	…	1	0	0	0	0	0	1	1	0	1

5 rows × 32 columns

# 将2月份的访问数据和智能手机用户数据合并,注意这里是 inner 。。

fp_dau_m = pd.merge(fp_dau_pivot, fp_m1[['user_id','is_sp']], how='inner', on='user_id')

fp_dau_m.head()

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	user_id	X1day	X2day	X3day	X4day	…	X23day	X24day	X25day	X26day	X27day	X28day	is_sp
0	471341	1	1	1	1	…	0	0	0	0	0	0	1.0
1	503874	1	0	0	0	…	0	0	0	0	0	0	0.0
2	1073544	0	0	0	0	…	1	1	1	0	0	0	0.0
3	1073864	0	0	0	0	…	0	0	0	0	0	0	0.0
4	1163733	1	1	0	0	…	1	1	1	1	1	1	1.0

5 rows × 33 columns

fp_dau_m.isna().sum().sum()

fp_dau_m.is_sp.value_counts()

0.0 190 1.0 62 Name: is_sp, dtype: int64 #### 以上数据显示，is_sp 指示： 1表示2月份通过智能手机来访问的用户， 0表示用户为流失用户 2月份流失的用户数有190个，更换为智能手机用户数为62个！ ## 逻辑回归处理 ### 1.sklearn #### 通过修改 solve 和惩罚系数 C ，可以将模型的准确度提升至 100%

from sklearn.linear_model import LogisticRegression

lr = LogisticRegression(solver='lbfgs',C=10)

x = fp_dau_m.iloc[:,1:-1]
y = fp_dau_m.iloc[:,-1]

lr.fit(x,y)

print('系数项：',lr.coef_)
print('截距项：',lr.intercept_)
print('得分是：',lr.score(x,y))

系数项： [[ 1.64264315 0.38232509 0.27375659 1.77818234 -1.2604587 -0.62425027 1.64964331 0.94366796 -0.30971957 -2.45689215 1.05453162 -0.49567095 1.37452985 -0.79198757 -1.39648934 0.18038175 -0.34026571 1.01401641 -0.49919155 -0.25791649 0.98296119 1.03952236 -1.03446927 1.53177282 -0.12212919 0.30942289 0.31267693 -0.08203749 1.32893163 1.57890364 1.29380472]] 截距项： [-3.9031072] 得分是： 0.9047619047619048

yp = lr.predict_proba(x)[:,1]

df = fp_dau_m.copy()
df['prob'] = yp
df['pred'] = df['prob'].apply(lambda x: 1 if x > 0.5 else 0)
df.head(15)

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	user_id	X1day	X2day	X3day	X4day	X5day	X6day	X8day	X9day	…	X25day	X26day	X27day	X28day	X29day	X30day	X31day	is_sp	prob	pred
0	471341	1	1	1	1	0	0	0	0	…	0	0	0	0	0	0	0	1.0	0.543341	1
1	503874	1	0	0	0	0	0	0	0	…	0	0	0	0	0	0	0	0.0	0.094451	0
2	1073544	0	0	0	0	0	0	0	0	…	1	0	0	0	0	0	0	0.0	0.002510	0
3	1073864	0	0	0	0	0	0	0	0	…	0	0	0	0	0	0	0	0.0	0.025567	0
4	1163733	1	1	0	0	0	0	0	0	…	1	1	1	1	0	0	0	1.0	0.849838	1
5	1454629	0	0	0	0	0	0	0	0	…	0	0	0	0	0	0	0	0.0	0.073879	0
6	1557628	0	0	0	0	0	0	0	1	…	0	0	0	0	0	0	1	0.0	0.051221	0
7	2241462	1	0	0	0	0	0	0	0	…	0	0	0	0	0	0	0	1.0	0.094451	0
8	2313236	0	0	0	0	0	0	0	0	…	0	0	0	0	0	0	0	0.0	0.085385	0
9	2477685	0	0	0	0	0	0	0	0	…	1	0	0	0	0	0	0	0.0	0.017546	0
10	2541741	0	0	0	0	0	0	0	0	…	0	0	0	0	0	0	0	0.0	0.001726	0
11	2628661	0	0	0	0	0	1	0	0	…	0	1	0	0	0	0	0	0.0	0.014515	0
12	3509436	0	1	0	1	1	1	1	1	…	1	1	1	1	1	1	1	1.0	0.987940	1
13	3509436	0	1	0	1	1	1	1	1	…	1	1	1	1	1	1	1	1.0	0.987940	1
14	3955950	1	1	1	1	0	0	0	0	…	0	0	0	0	0	0	0	0.0	0.543341	1

15 rows × 35 columns

df.groupby(['is_sp','pred'])['user_id'].count().reset_index()

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	is_sp	pred	user_id
0	0.0	0	181
1	0.0	1	9
2	1.0	0	15
3	1.0	1	47

len(df[df['is_sp']==df['pred']])/len(df)

0.9047619047619048 #### 此模型，无需修改任何参数即可达到准确度 100% 。重点在于 solve 和 C 的参数。

from sklearn.linear_model import LogisticRegressionCV

lr = LogisticRegressionCV(cv=10)

x = fp_dau_m.iloc[:,1:-1]
y = fp_dau_m.iloc[:,-1]

lr.fit(x,y)

print('系数项：',lr.coef_)
print('截距项：',lr.intercept_)
print('-----------------------------------------------')
print('得分是: ',lr.score(x,y))

系数项： [[ 0.66247469 0.39566209 0.12089587 0.72621501 -0.14485039 -0.11496137 0.50433275 0.25667173 0.11561233 -0.48159577 0.23713178 -0.12897139 0.31542595 -0.16714406 -0.1914315 -0.09390318 -0.05036135 0.0924934 -0.14949742 -0.05918408 0.52355482 0.58543392 0.0882812 0.39783666 0.07477356 0.14874974 0.39921228 0.38402639 0.68729765 0.6331324 0.55885631]] 截距项： [-2.95546571] ———————————————– 得分是: 0.8928571428571429 ### statsmodels

import statsmodels.api as sm
import statsmodels.formula.api as fsm     # 这个是用公式去拟合，不好用

x = fp_dau_m.iloc[:,1:-1]
x['intercept'] = 1.0          # 此处是为logistics回归添加截距项
y = fp_dau_m.iloc[:,-1]

logit = sm.Logit(y, x)
result = logit.fit(method='bfgs',maxiter=100)

Warning: Maximum number of iterations has been exceeded. Current function value: 0.222887 Iterations: 100 Function evaluations: 101 Gradient evaluations: 101 C:\Users\sylva\AppData\Roaming\Python\Python36\site-packages\statsmodels\base\model.py:508: ConvergenceWarning: Maximum Likelihood optimization failed to converge. Check mle_retvals “Check mle_retvals”, ConvergenceWarning)

# result1 = logit.fit_regularized(alpha=5)

result.pred_table()

array([[180., 10.], [ 14., 48.]])

# result1.pred_table()

print(result.summary2())

Results: Logit ================================================================= Model: Logit Pseudo R-squared: 0.601 Dependent Variable: is_sp AIC: 176.3352 Date: 2018-08-24 12:07 BIC: 289.2770 No. Observations: 252 Log-Likelihood: -56.168 Df Model: 31 LL-Null: -140.60 Df Residuals: 220 LLR p-value: 6.6358e-21 Converged: 0.0000 Scale: 1.0000 —————————————————————— Coef. Std.Err. z P>|z| [0.025 0.975] —————————————————————— X1day 1.9894 0.8047 2.4720 0.0134 0.4121 3.5666 X2day 0.3311 1.0705 0.3093 0.7571 -1.7671 2.4293 X3day 0.3793 0.9406 0.4033 0.6867 -1.4641 2.2227 X4day 2.0422 0.8359 2.4430 0.0146 0.4038 3.6805 X5day -1.7597 1.1991 -1.4675 0.1422 -4.1100 0.5906 X6day -0.6679 1.1717 -0.5701 0.5686 -2.9643 1.6285 X7day 2.0157 1.1176 1.8036 0.0713 -0.1747 4.2061 X8day 1.2119 1.3505 0.8974 0.3695 -1.4350 3.8589 X9day -0.4495 1.1874 -0.3786 0.7050 -2.7768 1.8778 X10day -3.2374 1.5580 -2.0779 0.0377 -6.2911 -0.1837 X11day 1.4392 1.2234 1.1764 0.2394 -0.9586 3.8370 X12day -0.6389 1.5297 -0.4176 0.6762 -3.6370 2.3592 X13day 1.7797 1.1424 1.5579 0.1193 -0.4594 4.0188 X14day -1.1242 1.2455 -0.9026 0.3668 -3.5653 1.3170 X15day -1.8115 1.3050 -1.3881 0.1651 -4.3694 0.7463 X16day 0.4940 1.1666 0.4234 0.6720 -1.7925 2.7804 X17day -0.4448 1.2234 -0.3636 0.7162 -2.8427 1.9531 X18day 1.4321 1.1465 1.2491 0.2116 -0.8150 3.6791 X19day -0.6132 1.1990 -0.5114 0.6091 -2.9632 1.7369 X20day -0.3130 1.4007 -0.2235 0.8232 -3.0585 2.4324 X21day 0.9587 1.2558 0.7634 0.4452 -1.5027 3.4201 X22day 1.1954 1.1238 1.0637 0.2875 -1.0072 3.3980 X23day -1.5371 1.2303 -1.2494 0.2115 -3.9486 0.8743 X24day 1.8445 1.1038 1.6710 0.0947 -0.3190 4.0080 X25day 0.1292 1.5317 0.0844 0.9328 -2.8727 3.1312 X26day 0.3131 1.4280 0.2192 0.8265 -2.4858 3.1119 X27day 0.3365 1.2965 0.2596 0.7952 -2.2045 2.8776 X28day -0.3918 1.8515 -0.2116 0.8324 -4.0207 3.2372 X29day 1.5941 1.0565 1.5088 0.1314 -0.4767 3.6648 X30day 1.9943 1.2117 1.6459 0.0998 -0.3806 4.3692 X31day 1.5214 1.1798 1.2896 0.1972 -0.7908 3.8337 intercept -4.2502 0.5904 -7.1985 0.0000 -5.4074 -3.0930 =================================================================

# print(result1.summary2())

xx = fp_dau_m.iloc[:,1:-1]
xx['intercept'] = 1.0         # 预测也要为logistics回归添加截距项

y_p = result.predict(xx)

ydf = fp_dau_m.copy()
ydf['prob'] = y_p
ydf['pred'] = ydf['prob'].apply(lambda x: 1 if x > 0.5 else 0)
ydf.head(15)

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	user_id	X1day	X2day	X3day	X4day	X5day	X6day	X8day	X9day	…	X25day	X26day	X27day	X28day	X29day	X30day	X31day	is_sp	prob	pred
0	471341	1	1	1	1	0	0	0	0	…	0	0	0	0	0	0	0	1.0	0.620506	1
1	503874	1	0	0	0	0	0	0	0	…	0	0	0	0	0	0	0	0.0	0.094416	0
2	1073544	0	0	0	0	0	0	0	0	…	1	0	0	0	0	0	0	0.0	0.000866	0
3	1073864	0	0	0	0	0	0	0	0	…	0	0	0	0	0	0	0	0.0	0.019167	0
4	1163733	1	1	0	0	0	0	0	0	…	1	1	1	1	0	0	0	1.0	0.870576	1
5	1454629	0	0	0	0	0	0	0	0	…	0	0	0	0	0	0	0	0.0	0.077951	0
6	1557628	0	0	0	0	0	0	0	1	…	0	0	0	0	0	0	1	0.0	0.039991	0
7	2241462	1	0	0	0	0	0	0	0	…	0	0	0	0	0	0	0	1.0	0.094416	0
8	2313236	0	0	0	0	0	0	0	0	…	0	0	0	0	0	0	0	0.0	0.082739	0
9	2477685	0	0	0	0	0	0	0	0	…	1	0	0	0	0	0	0	0.0	0.015969	0
10	2541741	0	0	0	0	0	0	0	0	…	0	0	0	0	0	0	0	0.0	0.000560	0
11	2628661	0	0	0	0	0	1	0	0	…	0	1	0	0	0	0	0	0.0	0.009902	0
12	3509436	0	1	0	1	1	1	1	1	…	1	1	1	1	1	1	1	1.0	0.992456	1
13	3509436	0	1	0	1	1	1	1	1	…	1	1	1	1	1	1	1	1.0	0.992456	1
14	3955950	1	1	1	1	0	0	0	0	…	0	0	0	0	0	0	0	0.0	0.620506	1

15 rows × 35 columns

ydf.groupby(['is_sp','pred'])['user_id'].count().reset_index()

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	is_sp	pred	user_id
0	0.0	0	180
1	0.0	1	10
2	1.0	0	14
3	1.0	1	48

len(ydf[ydf['is_sp']==ydf['pred']])/len(ydf)

0.9047619047619048 ### 结果观察根据 sklearn 预测的结果，有9名用户预测为1，即进行了账号迁转，但实际并没有。根据过去的访问情况来推断，这些用户应该进行了账号迁转，然而实际却是流失的用户群体。

df.head(10)

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	user_id	X1day	X2day	X3day	X4day	X9day	…	X25day	X26day	X27day	X28day	X31day	is_sp	prob	pred
0	471341	1	1	1	1	0	…	0	0	0	0	0	1.0	0.543341	1
1	503874	1	0	0	0	0	…	0	0	0	0	0	0.0	0.094451	0
2	1073544	0	0	0	0	0	…	1	0	0	0	0	0.0	0.002510	0
3	1073864	0	0	0	0	0	…	0	0	0	0	0	0.0	0.025567	0
4	1163733	1	1	0	0	0	…	1	1	1	1	0	1.0	0.849838	1
5	1454629	0	0	0	0	0	…	0	0	0	0	0	0.0	0.073879	0
6	1557628	0	0	0	0	1	…	0	0	0	0	1	0.0	0.051221	0
7	2241462	1	0	0	0	0	…	0	0	0	0	0	1.0	0.094451	0
8	2313236	0	0	0	0	0	…	0	0	0	0	0	0.0	0.085385	0
9	2477685	0	0	0	0	0	…	1	0	0	0	0	0.0	0.017546	0

10 rows × 35 columns

df1 = df[(df['is_sp']==1) & (df['pred']==1)]
df1.sort_values(by='prob',ascending=True).head(15)

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	user_id	X1day	X2day	X3day	X4day	X5day	X6day	X7day	X8day	X9day	…	X25day	X26day	X27day	X28day	X29day	X30day	X31day	is_sp	prob	pred
228	52776438	1	1	1	1	1	1	1	1	1	…	0	0	0	0	0	0	0	1.0	0.512293	1
171	32762652	1	1	1	1	1	1	1	1	1	…	0	0	0	0	0	0	0	1.0	0.512293	1
155	27800629	1	1	1	1	0	0	0	0	0	…	0	0	0	0	0	0	0	1.0	0.543341	1
0	471341	1	1	1	1	0	0	0	0	0	…	0	0	0	0	0	0	0	1.0	0.543341	1
36	8645980	0	0	0	1	0	0	0	0	0	…	0	0	0	0	1	0	0	1.0	0.551574	1
37	8645980	0	0	0	1	0	0	0	0	0	…	0	0	0	0	1	0	0	1.0	0.551574	1
169	32500332	1	1	1	1	1	1	1	1	1	…	1	0	0	0	0	0	0	1.0	0.587923	1
55	11600349	0	1	1	1	1	1	1	1	1	…	0	0	0	1	1	1	1	1.0	0.684198	1
56	11600349	0	1	1	1	1	1	1	1	1	…	0	0	0	1	1	1	1	1.0	0.684198	1
146	25787360	0	0	0	0	1	0	1	1	1	…	0	0	1	0	0	0	0	1.0	0.696295	1
145	25787360	0	0	0	0	1	0	1	1	1	…	0	0	1	0	0	0	0	1.0	0.696295	1
4	1163733	1	1	0	0	0	0	0	0	0	…	1	1	1	1	0	0	0	1.0	0.849838	1
48	10406653	0	1	1	1	1	1	1	1	0	…	1	0	1	1	1	1	1	1.0	0.865393	1
49	10406653	0	1	1	1	1	1	1	1	0	…	1	0	1	1	1	1	1	1.0	0.865393	1
165	31066299	0	1	1	1	0	1	1	1	1	…	1	1	1	0	1	1	0	1.0	0.951970	1

15 rows × 35 columns

df2 = df[(df['is_sp']==1) & (df['pred']==1)]
df2.sort_values(by='prob',ascending=False).head(15)

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	user_id	X1day	X2day	X3day	X4day	X5day	X6day	X7day	X8day	X9day	…	X25day	X26day	X27day	X28day	X29day	X30day	X31day	is_sp	prob	pred
136	24791702	1	1	0	1	0	1	1	1	1	…	1	1	1	1	1	1	1	1.0	0.998618	1
137	24791702	1	1	0	1	0	1	1	1	1	…	1	1	1	1	1	1	1	1.0	0.998618	1
44	9567562	1	1	1	1	1	1	1	1	1	…	1	1	1	1	1	1	1	1.0	0.996302	1
43	9567562	1	1	1	1	1	1	1	1	1	…	1	1	1	1	1	1	1	1.0	0.996302	1
139	24900784	1	1	1	1	1	1	1	1	1	…	1	1	1	1	1	1	1	1.0	0.993923	1
124	23113079	1	1	1	1	1	1	1	1	1	…	1	1	1	1	1	1	1	1.0	0.993923	1
133	24581383	1	1	1	1	1	1	1	1	1	…	1	1	1	1	1	1	1	1.0	0.993923	1
134	24581383	1	1	1	1	1	1	1	1	1	…	1	1	1	1	1	1	1	1.0	0.993923	1
138	24900784	1	1	1	1	1	1	1	1	1	…	1	1	1	1	1	1	1	1.0	0.993923	1
123	23113079	1	1	1	1	1	1	1	1	1	…	1	1	1	1	1	1	1	1.0	0.993923	1
114	21551429	1	1	1	1	1	1	1	1	1	…	1	1	1	1	1	1	1	1.0	0.993923	1
147	27003770	1	1	1	1	1	1	1	1	1	…	1	1	1	1	1	1	1	1.0	0.993923	1
148	27003770	1	1	1	1	1	1	1	1	1	…	1	1	1	1	1	1	1	1.0	0.993923	1
150	27602710	1	1	1	1	1	1	1	1	1	…	1	1	1	1	1	1	1	1.0	0.993923	1
151	27602710	1	1	1	1	1	1	1	1	1	…	1	1	1	1	1	1	1	1.0	0.993923	1

15 rows × 35 columns

df3 = df[(df['is_sp']==0) & (df['pred']==1)]
df3.sort_values(by='prob',ascending=False).head(15)

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	user_id	X1day	X2day	X3day	X4day	X5day	X6day	X7day	X8day	X9day	…	X25day	X26day	X27day	X28day	X29day	X31day	prob	pred
194	41590801	0	0	0	0	0	0	0	0	0	…	0	0	0	0	1	1	0.677458	1
108	19432099	1	1	1	1	0	1	1	1	1	…	0	0	0	0	0	0	0.643061	1
203	43451947	1	1	1	1	1	0	1	1	1	…	1	0	0	1	1	0	0.599921	1
197	42276142	1	1	1	1	1	1	0	1	1	…	1	1	1	1	1	0	0.577420	1
209	46285446	0	0	0	0	1	1	1	1	1	…	1	1	1	0	1	0	0.576873	1
14	3955950	1	1	1	1	0	0	0	0	0	…	0	0	0	0	0	0	0.543341	1
158	28391896	1	1	1	1	1	1	1	1	1	…	0	0	0	0	0	0	0.512293	1
240	59561276	1	1	1	1	1	1	1	1	1	…	0	0	0	0	0	0	0.512293	1
27	6147878	1	0	0	1	1	1	1	1	1	…	1	1	0	0	0	0	0.502182	1

9 rows × 35 columns

df4 = df[(df['is_sp']==0) & (df['pred']==1)]
df4.sort_values(by='prob',ascending=True).head(15)

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	user_id	X1day	X2day	X3day	X4day	X5day	X6day	X7day	X8day	X9day	…	X25day	X26day	X27day	X28day	X29day	X31day	prob	pred
27	6147878	1	0	0	1	1	1	1	1	1	…	1	1	0	0	0	0	0.502182	1
158	28391896	1	1	1	1	1	1	1	1	1	…	0	0	0	0	0	0	0.512293	1
240	59561276	1	1	1	1	1	1	1	1	1	…	0	0	0	0	0	0	0.512293	1
14	3955950	1	1	1	1	0	0	0	0	0	…	0	0	0	0	0	0	0.543341	1
209	46285446	0	0	0	0	1	1	1	1	1	…	1	1	1	0	1	0	0.576873	1
197	42276142	1	1	1	1	1	1	0	1	1	…	1	1	1	1	1	0	0.577420	1
203	43451947	1	1	1	1	1	0	1	1	1	…	1	0	0	1	1	0	0.599921	1
108	19432099	1	1	1	1	0	1	1	1	1	…	0	0	0	0	0	0	0.643061	1
194	41590801	0	0	0	0	0	0	0	0	0	…	0	0	0	0	1	1	0.677458	1

9 rows × 35 columns

df5 = df[(df['is_sp']==0) & (df['pred']==0)]
df5.sort_values(by='prob',ascending=True).head(15)

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	user_id	X4day	X5day	X6day	X7day	…	X25day	prob
149	27249550	1	1	1	0	…	0	0.000946
10	2541741	0	0	0	0	…	0	0.001726
242	60725457	0	0	0	0	…	0	0.001726
101	18408297	0	0	0	0	…	0	0.001745
172	33766090	0	0	0	0	…	0	0.002257
2	1073544	0	0	0	0	…	1	0.002510
227	52612953	0	0	0	0	…	0	0.003087
63	12582684	1	1	0	1	…	0	0.004780
208	46056688	0	0	1	1	…	0	0.004799
66	13157777	0	0	0	0	…	0	0.004969
190	40654033	0	0	0	0	…	0	0.004969
120	22437652	0	1	0	0	…	0	0.005689
87	16601600	0	1	0	0	…	0	0.005689
70	13967453	0	1	0	0	…	0	0.005689
112	20955934	0	1	0	0	…	0	0.005689

15 rows × 35 columns

df6 = df[(df['is_sp']==1) & (df['pred']==0)]
df6.sort_values(by='prob',ascending=False).head(15)

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	user_id	X1day	X2day	X3day	X4day	X5day	X6day	X7day	X8day	X9day	…	X25day	X26day	X27day	X29day	is_sp	prob
198	42438713	1	1	1	1	1	1	1	0	0	…	0	0	0	0	1.0	0.484688
127	23689923	1	1	0	1	1	1	1	1	1	…	0	0	0	0	1.0	0.359100
213	47332069	0	0	0	0	0	0	0	0	0	…	1	1	0	0	1.0	0.281079
140	24914421	1	1	1	0	0	0	0	1	0	…	0	1	0	0	1.0	0.278119
226	52131958	0	0	1	1	1	1	1	1	1	…	1	1	1	0	1.0	0.259709
212	47266966	1	0	0	1	0	1	1	1	1	…	0	0	0	0	1.0	0.232730
236	57869405	0	0	0	0	0	0	1	1	0	…	0	0	0	0	1.0	0.212521
161	29698758	1	1	1	0	0	0	0	0	0	…	0	0	0	0	1.0	0.167370
30	7177251	1	1	1	1	1	1	0	0	0	…	0	0	0	0	1.0	0.153046
7	2241462	1	0	0	0	0	0	0	0	0	…	0	0	0	0	1.0	0.094451
67	13401362	1	0	0	0	0	0	0	0	0	…	0	0	0	0	1.0	0.094451
80	15569351	0	0	0	0	0	0	1	0	1	…	0	0	0	0	1.0	0.071546
93	17388480	0	0	0	0	0	0	0	0	0	…	0	0	0	1	1.0	0.070819
94	17388480	0	0	0	0	0	0	0	0	0	…	0	0	0	1	1.0	0.070819
163	30103279	0	0	0	0	0	0	0	0	0	…	0	0	0	0	1.0	0.028795

15 rows × 35 columns

## copy 问题的出现了，！！！ = 等号只是引用内存地址，变量最好用 copy() 属性！！

fp_dau_m.head()

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	user_id	X1day	X2day	X3day	X4day	…	X23day	X24day	X25day	X26day	X27day	X28day	is_sp
0	471341	1	1	1	1	…	0	0	0	0	0	0	1.0
1	503874	1	0	0	0	…	0	0	0	0	0	0	0.0
2	1073544	0	0	0	0	…	1	1	1	0	0	0	0.0
3	1073864	0	0	0	0	…	0	0	0	0	0	0	0.0
4	1163733	1	1	0	0	…	1	1	1	1	1	1	1.0

5 rows × 33 columns

df.equals(fp_dau_m)

False

df.equals(ydf)

False

你可能感兴趣的:(机器学习实战)

机器学习实战笔记5——线性判别分析绍少阿机器学习笔记可视化机器学习 python 人工智能
任务安排1、机器学习导论8、核方法2、KNN及其实现9、稀疏表示3、K-means聚类10、高斯混合模型4、主成分分析11、嵌入学习5、线性判别分析12、强化学习6、贝叶斯方法13、PageRank7、逻辑回归14、深度学习线性判别分析（LDA）Ⅰ核心思想对于同样一件事，站在不同的角度，我们往往会有不同的看法，而降维思想，亦是如此。同上节课一样，我们还是学习降维的算法，只是提供了一种新的角度，由上
机器学习实战----波士顿房价预测模型永远偷渡不了的非洲人机器学习机器学习 sklearn python
波士顿房价模型预测是一个回归问题，可以采用r2_score方法来作为评价指标。importnumpyasnpimportpandasaspdfromsklearn.metricsimportr2_score#从sklearn的数据库中导入波士顿房产数据fromsklearn.datasetsimportload_bostonfromsklearn.model_selectionimporttrai
python logistic模型_Python实践之逻辑回归（Logistic Regression） weixin_39922394 python logistic模型
机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python，然后也想对一些机器学习算法加深下了解，所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的书籍，所以就参考这本书的过程来学习了。这节学习的是逻辑回归(LogisticRegression)，也算进入了比较正统的机器学习算法。啥叫正统呢？我概念里面机器学习算法一般是这样一个
(二十一)Seaborn知识学习8-python数据分析与机器学习实战(学习笔记) 努力奋斗的durian
文章原创,最近更新：2018-05-17课程来源:python数据分析与机器学习实战-唐宇迪引言:介绍seaborn热度图绘制学习参考链接:1、Seaborn官方0.8.1版本首先介绍以下热度图的作用,拿出离散群数据,离散群数据可能会发生波动变化.看一下哪个点的值比较高,看一下哪个点的值比较低?通过值的变化,用颜色表现出来,这个是我们要做的一件事.热度图是由不同的颜色构成的,这个颜色由可能是由浅入
机器学习实战2--蒙特卡洛方法与Q-Q图(2022/10/12) 点灯的棉羊机器学习Jupyter笔记机器学习人工智能 numpy python
蒙特卡洛方法与Q-Q图文章目录蒙特卡洛方法与Q-Q图蒙特卡洛方法蒙特卡洛的定义和基本步骤一些常用的概率论相关函数使用蒙特卡洛验证大数定理Q-Q图Q-Q图的定义及用途importnumpyasnpfromnumpy.linalgimportinv,eigimportmatplotlib.pyplotaspltimportpandasaspdfromscipy.statsimportnorm蒙特卡洛方
机器学习实战1-基础运用（2022/10/11）点灯的棉羊机器学习Jupyter笔记机器学习 python numpy
机器学习实战1-基础运用文章目录机器学习实战1-基础运用numpy的简单运用生成矩阵和矩阵的简单操作用pandas库读取、保存csv数据文件read_csv()函数及读入的数据处理to_csv()保存数据matplotlib.pyplot库绘图的使用条形图的绘制箱型图的绘制分位数（Quantile）分位点/四分位数分位数与箱型图`boxplot()`函数绘制交叉报表热力图plt绘图基础import
机器学习实战Jupyter笔记专栏汇总点灯的棉羊机器学习Jupyter笔记机器学习 jupyter 人工智能
机器学习实战Jupter笔记开始博客学校开始的一门机器学习的课程，于是使用jupyter写这门课的作业，顺便将其完善为笔记发表为这个专栏的博客，并将专栏博客链接汇总到这里。由于是刚开始学习机器学习方面的内容，如有错误的地方，希望能有大佬能帮忙指正。笔记1机器学习实战1-基础运用种一棵树最好的时间–是十年前，其次是现在
朴素贝叶斯算法 YuanDaima2048 机器学习算法学习算法机器学习人工智能深度学习 python sklearn
朴素贝叶斯算法一、基本概念二、算法及代码应用朴素贝叶斯NB算法分类算法区别其他机器学习算法：机器学习实战工具安装和使用一、基本概念朴素贝叶斯（NB）是一种基于贝叶斯定理与特征条件独立假设的分类算法。它被广泛应用于文本分类、垃圾邮件过滤等领域。朴素贝叶斯算法简单易懂，其核心思想是假设在给定目标值时，各个属性之间相互独立。在实际应用中，朴素贝叶斯算法在垃圾邮件过滤中表现出色。它不仅准确率高，而且速度快
【机器学习实战】大数据与MapReduce 吵吵人
当运算需求超出了当前资源的运算能力，一、可以考虑购买更好的机器；二、可以将计算转换成并行作业，MapReduce就提供了这种方案的一个具体实施框架。MapReduce：分布式计算的框架MapReduce是一个软件框架，可以将单个计算工作分配给多台计算机执行。工作流程包括map和reduce阶段。第一阶段，输入数据被切片分发到节点上，各个节点对本地数据进行处理对应的运算代码叫做mapper。第二阶段
[培训-Python机器学习]04-Git的使用和规范乱码奇糟软件开发 git
参考书Python机器学习实战作者裔隽张怿檬张目清出版社科学技术文献出版社难度入门安排计划：本章30分钟；作业：上网查阅Linus开发Git的背景；分析所在的开发团队所用的协作开发流程是什么？总结出Git使用和Git流程中遇到过的3个问题，发给大家讨论。非常有意思：2005年，由Linux的创始人LinusTorvalds开发；临危赴命，用时2周。分布式、本地管理、分支管理、提交机制Github、
[培训-Python机器学习]02-使用conda管理环境和包乱码奇糟软件开发 python conda
参考书Python机器学习实战作者裔隽张怿檬张目清出版社科学技术文献出版社难度入门安排计划：本章30分钟；作业：培训后实践本章的各种操作；结果：以Python3.10创建开发虚拟环境；再创建一个Python3.7版本以下的虚拟环境用来调试兼容性以前培训过venv，本次培训来说一说conda。conda其实可理解为：venv+pip，它的主要功能包括：环境管理：创建多个隔离的Python运行环境，每
机器学习（machine learning）大合集 AI信仰者
1、线性分类器怎么理解呢？我们可以把此分类器理解为线性空间的划分，最简单的，在二维空间上，通过直线的划分。第二个理解可以理解为模板匹配，W的每一行可以看做是其中一个类别的模板。每类得分，实际上是像素点和模板匹配度。模板匹配的方式是内积计算。2、机器学习实战之AdaBoost算法boosting算法系列的基本思想，如下图：adaBoost分类器就是一种元算法分类器，adaBoost分类器利用同一种基
机器学习实战朴素贝叶斯分类器 shenny_
基于概率论的分类方法：朴素贝叶斯我的微信公众号：s406205391;欢迎大家一起学习，一起进步！！！k-近邻算法和决策树会给出“该数据属于哪一类”的明确回答。不过，分类器有时会产生错误结果，这是可以要求分类器给出一个最优的类别的猜测结果，同事给出这个猜测的概率估计值。朴素贝叶斯就是一个概率分类器。我们称之为“朴素”，是因为整个形式化的过程只做最原始、最简单的假设。朴素贝叶斯的优点：在数据较少的情
《机器学习实战》笔记（十三）：Ch13 - 利用PCA来简化数据 Lornatang
第13章利用PCA来简化数据(代码)降维技术降维的意思是能够用一组个数为d的向量zi来代表个数为D的向量xi所包含的有用信息，其中d
Python实现时间序列分析马尔可夫切换自回归模型(MarkovAutoregression算法)项目实战胖哥真不错机器学习 python python 机器学习时间序列分析马尔可夫切换自回归模型项目实战
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景时间序列分析中的马尔可夫切换自回归模型（MarkovSwitchingAutoregressionModel，简称MSAR或MarkovAutoregression算法）是一种混合了自回归模型（AutoregressiveModel,AR）和马尔可夫链（MarkovC
Python实现时间序列分析马尔可夫切换动态回归模型(MarkovRegression算法)项目实战胖哥真不错机器学习 python python 机器学习时间序列分析马尔可夫切换动态回归模型项目实战
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景时间序列分析中的马尔可夫切换动态回归模型（MarkovSwitchingDynamicRegressionModel，MSDRM或简称为MarkovRegression算法）是一种用于处理具有非平稳性和隐藏状态依赖性的时序数据的方法。在该模型中，数据生成过程被认为是在
Python实现时间序列分析季节性自回归综合移动平均外生回归模型(SARIMAX算法)项目实战胖哥真不错机器学习 python python 时间序列分析季节性自回归综合移动平均外生回归模型 SARIMAX 项目实战
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景时间序列分析中的季节性自回归综合移动平均外生回归模型（SeasonalAutoregressiveIntegratedMovingAveragewitheXogenousregressors,SARIMAX）是一种统计建模技术，用于分析和预测具有季节性、趋势以及可能受
Python实现时间序列分析AR定阶自回归模型(ar_select_order算法)项目实战胖哥真不错机器学习 python python 机器学习时间序列分析AR定阶自回归模型 ar_select_order 项目实战
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景时间序列分析中，AR定阶自回归模型（ARorderselection）是指确定自回归模型（AutoRegressiveModel,AR模型）的阶数p的过程。在AR(p)模型中，当前的时间序列值被表示为过去p个时期的线性组合加上一个误差项。ar_select_order
python机器学习实战|机器学习入门笔记3-Pandas基础知识小赵同学871 机器学习实战入门笔记 python 机器学习 pandas
文章目录1.Pandas介绍2.案例知识点2.1创建DataFrame2.2创建日期3.DataFrame介绍3.1DataFrame属性3.2DataFrame设置索引3.3基本数据操作3.4DataFrame运算1.Pandas介绍开源的数据挖掘库，用于数据探索，封装了matplotlib，numpy2.案例知识点2.1创建DataFramepd.DataFrame(ndarray,index
Python实现离散选择概率模型(Probit算法)项目实战胖哥真不错机器学习 python python 离散选择概率模型 Probit算法机器学习项目实战
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景Probit模型是经过Logit模型的形式经过变形后得到的，Probit模型假设与标准正态分布的概率分布函数相似。本项目通过Probit算法来构建概率模型。2.数据获取本次建模数据来源于网络(本项目撰写人整理而成)，数据项统计如下：编号变量名称描述1x12x23x34
机器学习实战 K-近邻算法今昔何夕丶
K-近邻算法优点：精度高、对异常值不敏感、无数据输入假定缺点：计算复杂高、空间复杂度高适用数据范围：数值型和标称型一般流程收集数据：可以使用任何方法准备数据：距离计算所需要的数值，最好是结构化的数据结构分析数据：可以使用任何方法训练算法：此步骤不适用于K-近邻算法测试算法：计算错误率使用算法：首先需要输入样本数据和结构化的输出结果，然后运行K-近邻算法判定输入数据分别属于哪个分类，最后应用对计算出
Python实现稳健线性回归模型(rlm算法)项目实战胖哥真不错机器学习 python python 机器学习稳健线性回归模型 rlm算法项目实战
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景稳健回归可以用在任何使用最小二乘回归的情况下。在拟合最小二乘回归时，我们可能会发现一些异常值或高杠杆数据点。已经确定这些数据点不是数据输入错误，也不是来自另一个群落。所以我们没有令人信服的理由将它们排除在分析之外。稳健回归可能是一种好的策略，它是在将这些点完全从分析中
机器学习实战学习记录（github） monkeyhlj 学习
机器学习实战学习记录（github）可见我的github：https://github.com/monkeyhlj/machine_learning_bymyself刚刚建好，后面的学习记录会一直在这个仓库里面更新。推荐参考资料：https://www.zhihu.com/column/c_1242508311053963264
【机器学习实战】决策树吵吵人
算法思路在构造决策树时，第一个需要解决的问题就是，如何确定出哪个特征在划分数据分类是起决定性作用，或者说使用哪个特征分类能实现最好的分类效果。这样，为了找到决定性的特征，划分得到最好的结果，我们就需要评估每个特征。当找到最优特征后，依此特征，数据集就被划分为几个数据子集，这些数据自己会分布在该决策点的所有分支中。此时，如果某个分支下的数据属于同一类型，则该分支下的数据分类已经完成，无需进行下一步的
Python实现基于多元线性回归模型进行统计学相互作用和方差分析(anova算法)项目实战胖哥真不错机器学习 python 线性回归人工智能机器学习 python 相互作用方差分析 anova算法
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景多元线性回归模型（MultipleLinearRegressionModel）是一种统计学方法，用于研究一个或多个自变量（predictors）与因变量（dependentvariable）之间的关系。在模型中，因变量的值通过一个线性函数来预测，该函数包含了自变量的系
Python实现基于广义线性回归模型进行Meta分析(meta_analysis算法)项目实战胖哥真不错机器学习 python 线性回归 python 机器学习广义线性回归模型 Meta分析 meta_analysis算法项目实战
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景对于广义线性回归模型在Meta分析中的应用概念，可能是将其用于处理非正态分布或非线性关系的数据，例如：1.当原始研究的结果数据不是连续型且服从正态分布，而是二项分布（如成功率）、泊松分布（如发病率）或其他分布时，可以通过GLM设定适当的链接函数和分布族来适应。2.在进
Python实现GEE嵌套协方差结构仿真模型(GEE算法)项目实战胖哥真不错机器学习 python python 机器学习 GEE嵌套协方差结构仿真模型 GEE算法项目实战
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景广义估计方程（GeneralizedEstimatingEquations,GEE）是一种用于分析具有重复测量或者集群数据的统计方法。在社会学、医学、生物学等多个领域，研究对象的数据往往存在嵌套或群聚结构，即个体的数据不是独立的，而是隶属于某个群体或层级结构中。GEE
Python实现M-Estimators稳健线性回归模型(RLM算法)项目实战胖哥真不错机器学习 python python 机器学习 M-Estimators 稳健线性回归模型 RLM算法
说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景M-Estimators是稳健统计估计中的一个重要概念，它们在处理含有异常值、离群点或者影响点的数据时特别有用。在稳健线性回归（RobustLinearRegression,RLM）模型中，M-Estimators用于替代普通最小二乘法（OLS），以减少这些极端观测值
机器学习——python训练RNN模型实战（傻瓜式教学，小学生都可以学会）代码开源苏苏不是叔机器学习 python rnn
机器学习实战目录第一章python训练线性模型实战第二章python训练决策树模型实战第三章python训练神经网络模型实战第四章python训练支持向量机模型实战第五章python训练贝叶斯分类器模型实战第六章python训练集成学习模型实战第七章python训练聚类模型实战第八章python训练KNN模型实战第九章python训练CNN模型实战第十章python训练RNN模型实战......(
机器学习——python训练决策树模型实战（傻瓜式教学，小学生都可以学会）苏苏不是叔机器学习 python 决策树
机器学习——python训练决策树模型实战目录机器学习——python训练决策树模型实战机器学习实战目录训练一个决策树模型需要经过以下步骤：1.下载数据集2.数据预处理3.加载数据集4.准备训练数据5.创建模型6.训练模型7.测试模型参考资料机器学习实战目录第一章python训练线性模型实战第二章python训练决策树模型实战第三章python训练神经网络模型实战第四章python训练支持向量机模
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发