Daryl_Li

Kaggle 便利店销量预测（xgboost附完整详细代码）

项目背景介绍

Forecast sales using store, promotion, and competitor data
Rossmann operates over 3,000 drug stores in 7 European countries. Currently,
Rossmann store managers are tasked with predicting their daily sales for up to six weeks in advance. Store sales are influenced by many factors, including promotions, competition, school and state holidays, seasonality, and locality. With thousands of individual managers predicting sales based on their unique circumstances, the accuracy of results can be quite varied.

In their first Kaggle competition, Rossmann is challenging you to predict 6 weeks of daily sales for 1,115 stores located across Germany. Reliable sales forecasts enable store managers to create effective staff schedules that increase productivity and motivation. By helping Rossmann create a robust prediction model, you will help store managers stay focused on what’s most important to them: their customers and their teams!If you are interested in joining Rossmann at their headquarters near Hanover, Germany, please contact Mr. Frank König (Frank.Koenig {at} rossmann.de) Rossmann is currently recruiting data scientists at senior and entry-level positions.

数据

You are provided with historical sales data for 1,115 Rossmann stores. The task is to forecast the “Sales” column for the test set. Note that some stores in the dataset were temporarily closed for refurbishment.

Files

train.csv - historical data including Sales
test.csv - historical data excluding Sales
sample_submission.csv - a sample submission file in the correct format
store.csv - supplemental information about the stores

Data fields

Most of the fields are self-explanatory. The following are descriptions for those that aren’t.

Id - an Id that represents a (Store, Date) duple within the test set
Store - a unique Id for each store
Sales - the turnover for any given day (this is what you are predicting)
Customers - the number of customers on a given day
Open - an indicator for whether the store was open: 0 = closed, 1 = open
StateHoliday - indicates a state holiday. Normally all stores, with few exceptions, are closed on state holidays. Note that all schools are closed on public holidays and weekends. a = public holiday, b = Easter holiday, c = Christmas, 0 = None
SchoolHoliday - indicates if the (Store, Date) was affected by the closure of public schools
StoreType - differentiates between 4 different store models: a, b, c, d
Assortment - describes an assortment level: a = basic, b = extra, c = extended
CompetitionDistance - distance in meters to the nearest competitor store
CompetitionOpenSince[Month/Year] - gives the approximate year and month of the time the nearest competitor was opened
Promo - indicates whether a store is running a promo on that day
Promo2 - Promo2 is a continuing and consecutive promotion for some stores: 0 = store is not participating, 1 = store is participating
Promo2Since[Year/Week] - describes the year and calendar week when the store started participating in Promo2
PromoInterval - describes the consecutive intervals Promo2 is started, naming the months the promotion is started anew. E.g. “Feb,May,Aug,Nov” means each round starts in February, May, August, November of any given year for that store

简单说明：

本项目根据给定的训练数据及各商店的一些基本信息，提取相关特征，从而构建训练数据集。给定的有1115家商店的历史销售数据，来预测未来6周的销量，以给商店销售作为参考。

导入数据

#导入需要的库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
import xgboost as xgb
from time import time

#导入数据集
store=pd.read_csv(r'E:\python\data\store.csv')
train=pd.read_csv(r'E:\python\data\train.csv',dtype={'StateHoliday':pd.np.string_})
test=pd.read_csv(r'E:\python\data\test.csv',dtype={'StateHoliday':pd.np.string_})
#可以看前几行观察下数据的基本情况
store.head()
train.head()
test.head()

查看数据缺失情况：

#train数据无缺失
train.isnull().sum()

#test数据Open列有缺失
test.isnull().sum()
'''
Id                0
Store             0
DayOfWeek         0
Date              0
Open             11
Promo             0
StateHoliday      0
SchoolHoliday     0
dtype: int64
'''
#查看test缺失列都来自于622号店
test[test['Open'].isnull()]
#通过查看train里622号店的营业情况发现，622号店周一到周六都是营业的
train[train['Store']==622]
#所以我们认为缺失的部分是应该正常营业的，用1填充
test.fillna(1,inplace=True)

#store列缺失值较多，但数量看来比较一致，看一下是否同步缺失
store.isnull().sum()
'''
Store                          0
StoreType                      0
Assortment                     0
CompetitionDistance            3
CompetitionOpenSinceMonth    354
CompetitionOpenSinceYear     354
Promo2                         0
Promo2SinceWeek              544
Promo2SinceYear              544
PromoInterval                544
dtype: int64
'''
#下面是观察store缺失的情况
a1='CompetitionDistance'
a2='CompetitionOpenSinceMonth'
a3='CompetitionOpenSinceYear'
a4='Promo2SinceWeek'
a5='Promo2SinceYear'
a6='PromoInterval'
#a2和a3是同时缺失
store[(store[a2].isnull())&(store[a3].isnull())].shape
'''
(354, 10)
'''
#a4,a5,a6也是同时缺失
store[(store[a4].isnull())&(store[a5].isnull())&(store[a6].isnull())].shape
'''
(544, 10)
'''
#a4,a5,a6列缺失是因为没有活动
set(store[(store[a4].isnull())&(store[a5].isnull())&(store[a6].isnull())]['Promo2'])
'''
{0}
'''
#下面对缺失数据进行填充
#店铺竞争数据缺失，而且缺失的都是对应的。原因不明，而且数量也比较多，如果用中值或均值来填充，有失偏颇。暂且填0，解释意义就是刚开业
#店铺促销信息的缺失是因为没有参加促销活动，所以我们以0填充
store.fillna(0,inplace=True)

下面了解下销量随时间变化的情况：

#分析店铺销量随时间的变化
strain=train[train['Sales']>0]
strain.loc[strain['Store']==1,['Date','Sales']].plot(x='Date',y='Sales',title='Store1',figsize=(16,4))
#从图中可以看出店铺的销售额是有周期性变化的，一年中11,12月份销量相对较高，可能是季节因素或者促销等原因
#此外从2014年6-9月份的销量来看，6,7月份的销售趋势与8,9月份类似，而我们需要预测的6周在2015年8,9月份，因此我们可以把2015年6,7月份最近6周的1115家店的数据留出作为测试数据，用于模型的优化和验证

合并数据集：

上面需要的三个数据集缺失值也都处理完了，下面进行合并

#我们只需要销售额大于0的数据
train=train[train['Sales']>0]
#把store基本信息合并到训练和测试数据集上
train=pd.merge(train,store,on='Store',how='left')
test=pd.merge(test,store,on='Store',how='left')

train.info()
'''

Int64Index: 844338 entries, 0 to 844337
Data columns (total 18 columns):
Store                        844338 non-null int64
DayOfWeek                    844338 non-null int64
Date                         844338 non-null object
Sales                        844338 non-null int64
Customers                    844338 non-null int64
Open                         844338 non-null int64
Promo                        844338 non-null int64
StateHoliday                 844338 non-null object
SchoolHoliday                844338 non-null int64
StoreType                    844338 non-null object
Assortment                   844338 non-null object
CompetitionDistance          844338 non-null float64
CompetitionOpenSinceMonth    844338 non-null float64
CompetitionOpenSinceYear     844338 non-null float64
Promo2                       844338 non-null int64
Promo2SinceWeek              844338 non-null float64
Promo2SinceYear              844338 non-null float64
PromoInterval                844338 non-null object
dtypes: float64(5), int64(8), object(5)
memory usage: 122.4+ MB
'''

特征工程

for data in [train,test]:
	#将时间特征进行拆分和转化
    data['year']=data['Date'].apply(lambda x:x.split('-')[0])
    data['year']=data['year'].astype(int)
    data['month']=data['Date'].apply(lambda x:x.split('-')[1])
    data['month']=data['month'].astype(int)
    data['day']=data['Date'].apply(lambda x:x.split('-')[2])
    data['day']=data['day'].astype(int)
	#将'PromoInterval'特征转化为'IsPromoMonth'特征，表示某天某店铺是否处于促销月，1表示是，0表示否
	#提示下：这里尽量不要用循环，用这种广播的形式，会快很多。循环可能会让你等的想哭
    month2str={1:'Jan',2:'Feb',3:'Mar',4:'Apr',5:'May',6:'Jun',7:'Jul',8:'Aug',9:'Sep',10:'Oct',11:'Nov',12:'Dec'}
    data['monthstr']=data['month'].map(month2str)
    data['IsPromoMonth']=data.apply(lambda x:0 if x['PromoInterval']==0 else 1 if x['monthstr'] in x['PromoInterval'] else 0,axis=1)
	#将存在其它字符表示分类的特征转化为数字
	mappings={'0':0,'a':1,'b':2,'c':3,'d':4}
    data['StoreType'].replace(mappings,inplace=True)
    data['Assortment'].replace(mappings,inplace=True)
    data['StateHoliday'].replace(mappings,inplace=True)

构建训练及测试数据集

#删掉训练和测试数据集中不需要的特征
df_train=train.drop(['Date','Customers','Open','PromoInterval','monthstr'],axis=1)
df_test=test.drop(['Id','Date','Open','PromoInterval','monthstr'],axis=1)
#如上所述，保留训练集中最近六周的数据用于后续模型的测试
Xtrain=df_train[6*7*1115:]
Xtest=df_train[:6*7*1115]

分析训练数据集中特征相关性

plt.subplots(figsize=(24,20))
sns.heatmap(df_train.corr(),cmap='RdYlGn',annot=True,vmin=-0.1,vmax=0.1,center=0)

提取后续用于模型训练的数据集：

#拆分特征与标签，并将标签取对数处理
ytrain=np.log1p(Xtrain['Sales'])
ytest=np.log1p(Xtest['Sales'])

Xtrain=Xtrain.drop(['Sales'],axis=1)
Xtest=Xtest.drop(['Sales'],axis=1)

模型构建

定义评价函数

#定义评价函数，可以传入后面模型中替代模型本身的损失函数
def rmspe(y,yhat):
    return np.sqrt(np.mean((yhat/y-1)**2))

def rmspe_xg(yhat,y):
    y=np.expm1(y.get_label())
    yhat=np.expm1(yhat)
    return 'rmspe',rmspe(y,yhat)

构建初始模型

#初始模型构建
#参数设定
params={'objective':'reg:linear',
       'booster':'gbtree',
       'eta':0.03,
       'max_depth':10,
       'subsample':0.9,
       'colsample_bytree':0.7,
       'silent':1,
       'seed':10}
num_boost_round=6000
dtrain=xgb.DMatrix(Xtrain,ytrain)
dvalid=xgb.DMatrix(Xtest,ytest)
watchlist=[(dtrain,'train'),(dvalid,'eval')]

#模型训练
print('Train a XGBoost model')
start=time()
gbm=xgb.train(params,dtrain,num_boost_round,evals=watchlist,
             early_stopping_rounds=100,feval=rmspe_xg,verbose_eval=True)
end=time()
print('Train time is {:.2f} s.'.format(end-start))
'''
Train time is 3019.86 s.
数据集有点大，训练就花了50分钟。。
'''

结果分析：

#采用保留数据集进行检测
print('validating')
Xtest.sort_index(inplace=True)
ytest.sort_index(inplace=True)
yhat=gbm.predict(xgb.DMatrix(Xtest))
error=rmspe(np.expm1(ytest),np.expm1(yhat))
print('RMSPE: {:.6f}'.format(error))
'''
validating
RMSPE: 0.128683
'''

#构建保留数据集预测结果
res=pd.DataFrame(data=ytest)
res['Predicition']=yhat
res=pd.merge(Xtest,res,left_index=True,right_index=True)
res['Ratio']=res['Predicition']/res['Sales']
res['Error']=abs(res['Ratio']-1)
res['Weight']=res['Sales']/res['Predicition']
res.head()

#分析保留数据集中任意三个店铺的预测结果
col_1=['Sales','Predicition']
col_2=['Ratio']
L=np.random.randint(low=1,high=1115,size=3)
print('Mean Ratio of predition and real sales data is {}:store all'.format(res['Ratio'].mean()))
for i in L:
    s1=pd.DataFrame(res[res['Store']==i],columns=col_1)
    s2=pd.DataFrame(res[res['Store']==i],columns=col_2)
    s1.plot(title='Comparation of predition and real sales data:store {}'.format(i),figsize=(12,4))
    s2.plot(title='Ratio of predition and real sales data: store {}'.format(i),figsize=(12,4))
    print('Mean Ratio of predition and real sales data is {}:store {}'.format(s2['Ratio'].mean(),i))
'''
Mean Ratio of predition and real sales data is 1.0020524030390718:store all
Mean Ratio of predition and real sales data is 1.006614925026921:store 181
Mean Ratio of predition and real sales data is 1.0024662925685335:store 1078
Mean Ratio of predition and real sales data is 1.0020672433947455:store 911
图片有些大，我就不粘上来了
'''

#分析偏差最大的10个预测结果
res.sort_values(['Error'],ascending=False,inplace=True)
res[:10]

#从分析结果来看，初始模型已经可以比较好的预测保留数据集的销售趋势，但相对真实值，模型的预测值整体要偏高一些。从对偏差数据分析来看，偏差最大的3个数据也是明显偏高。因此，我们可以以保留数据集为标准对模型进行偏差校正。

模型优化：

#偏差整体校正优化
print('weight correction')
W=[(0.990+(i/1000)) for i in range(20)]
S=[]
for w in W:
    error=rmspe(np.expm1(ytest),np.expm1(yhat*w))
    print('RMSPE for {:.3f}:{:.6f}'.format(w,error))
    S.append(error)
Score=pd.Series(S,index=W)
Score.plot()
BS=Score[Score.values==Score.values.min()]
print('Best weight for Score:{}'.format(BS))
'''
weight correction
RMSPE for 0.990:0.131899
RMSPE for 0.991:0.129076
RMSPE for 0.992:0.126723
……
Best weight for Score:0.996    0.122779
dtype: float64
'''
#当校正系数为0.996时，保留数据集的RMSPE得分最低：0.122779,相对于初始模型0.128683得分有很大的提升。
#因为每个店铺都有自己的特点，而我们设计的模型对不同的店铺偏差并不完全相同，所以我们需要根据不同的店铺进行一个细致的校正。

#细致校正：以不同的店铺分组进行细致校正，每个店铺分别计算可以取得最佳RMSPE得分的校正系数
L=range(1115)
W_ho=[]
W_test=[]
for i in L:
    s1=pd.DataFrame(res[res['Store']==i+1],columns=col_1)
    s2=pd.DataFrame(df_test[df_test['Store']==i+1])
    W1=[(0.990+(i/1000)) for i in range(20)]
    S=[]
    for w in W1:
        error=rmspe(np.expm1(s1['Sales']),np.expm1(s1['Predicition']*w))
        S.append(error)
    Score=pd.Series(S,index=W1)
    BS=Score[Score.values==Score.values.min()]
    a=np.array(BS.index.values)
    b_ho=a.repeat(len(s1))
    b_test=a.repeat(len(s2))
    W_ho.extend(b_ho.tolist())
    W_test.extend(b_test.tolist())
#调整校正系数的排序
Xtest=Xtest.sort_values(by='Store')
Xtest['W_ho']=W_ho
Xtest=Xtest.sort_index()
W_ho=list(Xtest['W_ho'].values)
Xtest.drop(['W_ho'],axis=1,inplace=True)

df_test=df_test.sort_values(by='Store')
df_test['W_test']=W_test
df_test=df_test.sort_index()
W_test=list(df_test['W_test'].values)
df_test.drop(['W_test'],axis=1,inplace=True)

#计算校正后整体数据的RMSPE得分
yhat_new=yhat*W_ho
error=rmspe(np.expm1(ytest),np.expm1(yhat_new))
print('RMSPE for weight corretion {:.6f}'.format(error))
'''
RMSPE for weight corretion 0.116168
相对于整体校正的0.122779的得分又有不小的提高
'''

对测试数据进行预测并导出结果

#用初始和校正后的模型对训练数据集进行预测
print('Make predictions on the test set')
dtest=xgb.DMatrix(df_test)
test_probs=gbm.predict(dtest)

#初始模型
result=pd.DataFrame({'Id':test['Id'],'Sales':np.expm1(test_probs)})
result.to_csv(r'E:\python\data\result\Rossmann_submission_1.csv',index=False)
#整体校正模型
result=pd.DataFrame({'Id':test['Id'],'Sales':np.expm1(test_probs*0.996)})
result.to_csv(r'E:\python\data\result\Rossmann_submission_2.csv',index=False)
#细致校正模型
result=pd.DataFrame({'Id':test['Id'],'Sales':np.expm1(test_probs*W_test)})
result.to_csv(r'E:\python\data\result\Rossmann_submission_3.csv',index=False)

上面构建的模型经过优化后，已经有着不错的表现。如果想继续提高预测的精度，可以在模型融合上试试。本文下面通过构建多个xgboost模型，来构造融合模型。

模型融合

#训练融合模型：训练了10个模型并对偏差分别对每个店铺进行优化
#这里跑10个模型确实挺困难的，用笔记本跑了一整天，也可以减少几个试试。
#下面的代码跟上面模型构建的代码基本都是重复的
print('Train an new ensemble XGBoost model')
start=time()
rounds=10
preds_ho=np.zeros((len(Xtest.index),rounds))
preds_test=np.zeros((len(df_test.index),rounds))
B=[]
for r in range(rounds):
    print('round {}:'.format(r+1))
    
    params={'objective':'reg:linear',
       'booster':'gbtree',
       'eta':0.03,
       'max_depth':10,
       'subsample':0.9,
       'colsample_bytree':0.7,
       'silent':1,
       'seed':r+1}
    num_boost_round=6000
    gbm=xgb.train(params,dtrain,num_boost_round,evals=watchlist,
             early_stopping_rounds=100,feval=rmspe_xg,verbose_eval=True)
    
    yhat=gbm.predict(xgb.DMatrix(Xtest))
    #下面对每个店铺进行偏差优化
    L=range(1115)
    W_ho=[]
    W_test=[]
    for i in L:
        s1=pd.DataFrame(res[res['Store']==i+1],columns=col_1)
        s2=pd.DataFrame(df_test[df_test['Store']==i+1])
        W1=[(0.990+(i/1000)) for i in range(20)]
        S=[]
        for w in W1:
            error=rmspe(np.expm1(s1['Sales']),np.expm1(s1['Predicition']*w))
            S.append(error)
        Score=pd.Series(S,index=W1)
        BS=Score[Score.values==Score.values.min()]
        a=np.array(BS.index.values)
        b_ho=a.repeat(len(s1))
        b_test=a.repeat(len(s2))
        W_ho.extend(b_ho.tolist())
        W_test.extend(b_test.tolist())
    #重新调整权重顺序    
    Xtest=Xtest.sort_values(by='Store')
    Xtest['W_ho']=W_ho
    Xtest=Xtest.sort_index()
    W_ho=list(Xtest['W_ho'].values)
    Xtest.drop(['W_ho'],axis=1,inplace=True)

    df_test=df_test.sort_values(by='Store')
    df_test['W_test']=W_test
    df_test=df_test.sort_index()
    W_test=list(df_test['W_test'].values)
    df_test.drop(['W_test'],axis=1,inplace=True)
    
    yhat_ho=yhat*W_ho
    yhat_test=gbm.predict(xgb.DMatrix(df_test))*W_test
    error=rmspe(np.expm1(ytest),np.expm1(yhat_ho))
    B.append(error)
    preds_ho[:,r]=yhat_ho
    preds_test[:,r]=yhat_test
    print('round {} end'.format(r+1))
    
end=time()
time_elapsed=end-start
print('Training is end')
print('Training time is {} h.'.format(time_elapsed/3600))

#分析不同模型的相关性
preds=pd.DataFrame(preds_ho)
sns.pairplot(preds)
#模型融合可以采用简单平均或者加权重的方法进行融合。从上面图中看，这10个模型相关性很高，差别不大。所以权重融合我们只考虑训练中单独模型在保留数据集中的得分情况分配权重。

模型融合在保留数据集上的表现：

#简单平均融合
print('Validating')
bagged_ho_preds1=preds_ho.mean(axis=1)
error1=rmspe(np.expm1(ytest),np.expm1(bagged_ho_preds1))
print('RMSPE for mean: {:.6f}'.format(error1))
'''
Validating
RMSPE for mean: 0.114743
'''
#加权融合
R=range(10)
Mw=[0.20,0.20,0.10,0.10,0.10,0.10,0.10,0.10,0.00,0.00]
A=pd.DataFrame()
A['round']=R
A['best_score']=B
A.sort_values(['best_score'],inplace=True)
A['weight']=Mw
A.sort_values(['round'],inplace=True)
weight=np.array(A['weight'])
preds_ho_w=weight*preds_ho
bagged_ho_preds2=preds_ho_w.sum(axis=1)
error2=rmspe(np.expm1(ytest),np.expm1(bagged_ho_preds2))
print('RMSPE for weight: {:.6f}'.format(error2))
'''
RMSPE for weight: 0.114174
权重模型较均值模型有比较好的得分
'''

融合模型对训练集进行预测：

#用均值融合和加权融合后的模型对训练数据集进行预测
#均值融合
print('Make predictions on the test set')
bagged_preds=preds_test.mean(axis=1)
result=pd.DataFrame({'Id':test['Id'],'Sales':np.expm1(bagged_preds)})
result.to_csv(r'E:\python\data\result\Rossmann_submission_4.csv',index=False)
#加权融合
bagged_preds=(preds_test*weight).sum(axis=1)
result=pd.DataFrame({'Id':test['Id'],'Sales':np.expm1(bagged_preds)})
result.to_csv(r'E:\python\data\result\Rossmann_submission_5.csv',index=False)

下面对模型特征重要性及最佳模型结果进行分析：

#模型特征重要性
xgb.plot_importance(gbm)

从模型特征重要性分析，比较重要的特征有：
1.周期性特征：‘day’,‘month’,'year’等，可见店铺的销售额与时间是息息相关的，尤其是周期较短的时间特征。
2.店铺差异：‘store’,‘storetype’，不同店铺的销售额存在特异性。
3.短期促销情况：‘promo‘，促销会带来销售额的提升。
4.竞争对手相关特征。
作用不太大的特征：假期特征及持续促销特征。
以上分析对于后续的经营活动也有着很好的指导作用。

采用新的融合模型对于保留数据集的提升情况：

#采用新的权值融合模型构建保留数据集预测结果
res1=pd.DataFrame(data=ytest)
res1['Predicition']=bagged_ho_preds2
res1=pd.merge(Xtest,res1,left_index=True,right_index=True)
res1['Ratio']=res1['Predicition']/res1['Sales']
res1['Error']=abs(res1['Ratio']-1)
res1.head()

#分析偏差最大的10个预测结果与初始模型差异
res1.sort_values(['Error'],ascending=False,inplace=True)
res['Store_new']=res1['Store']
res['Error_new']=res1['Error']
res['Ratio_new']=res1['Ratio']
col_3=['Store','Ratio','Error','Store_new','Ratio_new','Error_new']
com=pd.DataFrame(res,columns=col_3)
com[:10]
#从新旧模型预测结果最大的几个偏差对比的情况来看，最终的融合模型在这几个预测值上大多有所提升，证明模型的校正和融合确实有效。

python简单案例代码,python案例讲解视频 2401_84471631 python
这篇文章主要介绍了python简单案例代码，具有一定借鉴价值，需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获，下面让小编带着大家一起了解一下。Python是一种高级，解释性，交互式且面向对象的脚本语言。Python的设计具有很高的可读性。它使用英语作为关键字，相对于而其他语言则使用标点符号作为语句结束不同，是依靠缩进作为结束。并且其语法结构比其他语言精简。Python是Web开发，游戏开发
Python案例--暂停与时间格式化 gabadout Python案例 python 开发语言
在编程中，时间的处理是一个常见的需求。无论是日志记录、任务调度还是数据时间戳的生成，正确地获取和格式化时间都至关重要。Python提供了强大的时间处理模块，其中time模块是基础且广泛使用的工具之一。本文将通过一个简单的示例，深入探讨如何使用Python的time模块来实现暂停程序执行并格式化输出当前时间，并展示其运行结果。一、示例代码解析以下是一个简单的Python脚本，它展示了如何在程序运行过
Python案例--养兔子 gabadout Python案例 python 数学建模开发语言
兔子繁殖问题是一个经典的数学问题，最早由意大利数学家斐波那契在13世纪提出。这个问题不仅在数学领域具有重要意义，还广泛应用于计算机科学、生物学和经济学等领域。本文将通过一个具体的Python程序，深入探讨兔子繁殖问题的建模和实现，并展示程序的运行结果。一、问题描述假设有一对兔子，从出生后第3个月起每个月都生一对兔子，小兔子长到第三个月后每个月又生一对兔子。假设兔子都不会死亡，问每个月的兔子总数是多
卷积神经网络（Convolutional Neural Network，CNN）详细解释（带示例）浪九天人工智能理论人工智能神经网络深度学习机器学习
目录卷积神经网络示例Python案例代码解释卷积神经网络概述：卷积神经网络是一种专门为处理具有网格结构数据（如图像、音频）而设计的深度学习模型。它通过卷积层、池化层和全连接层等组件，自动提取数据的特征，大大减少了模型的参数数量，降低计算量，同时提高了模型的泛化能力。主要组件卷积层：是CNN的核心组件，由多个卷积核组成。卷积核在数据上滑动，通过卷积操作提取数据的局部特征。卷积操作是将卷积核与数据的局
支持向量机（Support Vector Machine，SVM）详细解释（带示例）浪九天人工智能理论支持向量机算法机器学习
目录基本概念线性可分情况线性不可分情况工作原理示例Python案例代码解释基本概念支持向量机是一种有监督的机器学习算法，可用于分类和回归任务。在分类问题中，SVM的目标是找到一个最优的超平面，将不同类别的样本分隔开来，并且使得两类样本到该超平面的间隔最大。这个超平面被称为最大间隔超平面，而那些离超平面最近的样本点被称为支持向量，它们决定了超平面的位置和方向。线性可分情况当数据是线性可分的，即存在一
Python版23种设计模式终极指南：原理+场景+实战代码全覆盖燃灯工作室 Python python 设计模式开发语言
一、创建型模式（5种）1.单例模式（Singleton）核心思想：确保一个类仅有一个实例。使用场景：全局配置管理、数据库连接池。Python案例：classAppConfig:_instance=Nonedef__new__(cls):ifnotcls._instance:cls._instance=super().__new__(cls)cls._instance.load_config()re
python案例——算法入门10例雨蛮好看的 python 算法开发语言
目录1、车牌搜寻2、兔子产子3、牛顿迭代求方程根4、百钱百鸡5、借书方案6、打鱼晒网7、最佳存款方案8、冒泡排序9、折半查找10、数制转换1、车牌搜寻题目描述：卡车违反交通规则，撞人后逃跑。现场有三人目击该事件，但都没有记住车号，只记下了车号的一些特征。甲说:牌照的前两位数字是相同的;乙说:牌照的后两位数字是相同的，但与前两位不同;丙是数学家，他说:4位的车号刚好是一个整数的平方。请根据以上线索求
python使用多线程案例酷爱码 Python 开发语言 python
下面是一个使用多线程的Python案例，其中创建了两个线程来执行两个不同的任务：importthreadingdeftask1():foriinrange(5):print("Task1executed")deftask2():foriinrange(5):print("Task2executed")#创建两个线程t1=threading.Thread(target=task1)t2=thread
Python案例分析：使用LightGBM算法、随机森林、五折交叉验证进行分类预测 rubyw 机器学习算法随机森林分类机器学习 python
1、数据导入importpandasaspdimportnumpyasnpimportwarningsfromimblearnimportunder_sampling,over_samplingfromimblearn.over_samplingimportSMOTEwarnings.filterwarnings('ignore')pd.options.display.max_columns=No
使用setdefault撰写文本索引脚本（出自Fluent Python案例）草莓橙子碗 python 开发语言
背景介绍由于我们主要介绍撰写脚本的方法，所以用一个简单的文本例子进行分析a[(19,18),(20,53)]Although[(11,1),(16,1),(18,1)]ambiguity[(14,16)]以上内容可以保存在一个txt文件中，任务是统计文件中每一个词（包括字母，数字以及下划线的组合）位置，建立一个映射表，主键是词的内容，值是包含对应词位置的列表数据，列表的每一个元素是词出现的位置对应
python案例单进程与多进程，传参 longfei815 python 案例 python 开发语言
1.单进程importtimedefrun1():print('我是run函数')#当前代码阻塞在这了卡在这了time.sleep(1000)defrun2():print('我是run函数')#当前代码阻塞在这了卡在这了time.sleep(1000)run1()run2()print('我是下面的代码')2.多进程importtimefrommultiprocessingimportProce
奇异值分解闪闪发亮的小星星数字信号处理与分析 python 人工智能
https://blog.csdn.net/Jayphone17/article/details/113106887降维与压缩——奇异值分解（SVD）奇异值分解（SingularValueDecomposition，SVD）可以用于降维，特别是在矩阵压缩、特征提取和去噪等方面。下面是SVD降维的原理和一个简单的Python案例：SVD降维原理：计算SVD：对给定的矩阵(A)进行奇异值分解，得到(U
Linux 软件安装以及管理码农终结者知识系列 #知识系列 Linux-基础知识 linux 运维服务器
本篇主要记录常用的软件安装和管理方式，主要是yum/rpm/dnf/apt/pip；大致都是一样的，主要是部分软件提供了解决依赖的功能；内容不包括源码安装，源码安装情况相对比较复杂，后续有时间再补充。约定：案例所用模板软件均为python案例所用模板命令均为dig一、RPMLinux安装软件，一般分为两种，一种是源码编译或者解压安装，另外的就是rpm包的安装了，yum/dnf/apk等命令，是在r
【Python案例实战】水质安全分析及建模预测 Zouia Gail(修行中) python 数据分析
一、引言1.水资源的重要性水是生命之源，是人类生存和发展的基础。它是生态系统中不可或缺的组成部分，对于维系地球上的生命、农业、工业、城市发展等方面都具有至关重要的作用。2.水质安全与人类健康的关系水质安全直接关系到人类的健康和生存。水中的污染物和有害物质可能对人体造成严重的健康危害，如肠道疾病、皮肤疾病、癌症等。因此，确保水质安全是保障人类健康的重要前提。3.建模预测在水质安全分析中的必要性为了应
【头歌】 Python数据结构 Python案例实验一python初探（2） W要成为Python之w python 数据结构开发语言
第5关：BMI指数判断任务描述BMI指数（身体质量指数，简称体质指数又称体重指数，英文为BodyMassIndex，简称BMI），是用体重公斤数除以身高米数平方得出的数字，是目前国际上常用的衡量人体胖瘦程度以及是否健康的一个标准。bmi小于18.5，为体重过低；bmi18.5-24（包含24），为体重正常；bmi为24-28（包含28），为体重超重；bmi超过28，为体重肥胖。输入身高和体重，显示
【头歌】 Python数据结构 Python案例实验一python初探（1) W要成为Python之w python 数据结构
第1关：基本输入输出任务描述本关任务：编写一个程序，依次输入用户的学号，姓名和手机号码再依次输出相关信息为了完成本关任务，你需要掌握：1.如何输入数据2.如何输出输入语句=input()语句功能：系统显示提示性文字，等待用户输入。将用户输入的信息存储在指定的变量中。示例如下：x=input("请输入一个数")请输入一个数5则x变量的值为"5"注意：不管用户输入字符或数字，input()函数统一按照
选择排序与冒泡排序的区别(python案例) 小白ncu python 排序算法算法
案例：对于数组arr=[a1,a2,a3....an]，对其进行升序排列（降序同理）选择排序：对于arr[0]，遍历至多n-1次，可以找到比arr[0]的数更小的数arr[i]，则交换两者位置，若最小的数既是本身，则无需交换。相当于从数组中找到最小的值并将其放置于数组首位，然后在找次小的数放在第二位，最终实现排序。代码实现;deff(n):forjinrange(0,len(n)-1):forii
1.Apache Flink 1.12.0 wordcount 终回首 #Apache Flink 大数据 flink 流处理实时大数据
ApacheFlinkwordcountjava案例，scala案例，python案例版本操作系统：win10JDK：1.8Scala：2.11Python：3.7.4Flink：1.12.0一、BatchJob(批量计算)BatchAPI一般用于离线计算1javawordcount1创建项目我已经创建好，有需要的可以直接下载https://github.com/m769963249/flink_
Python案例005——随机密码生成器寒冰1307 Python python
#目标：创建一个程序，可指定密码长度，生成一串随机密码#提示：创建一个数字+大写字母+小写字母+特殊字符的密码#引入生成随机数模块importrandompasslen=int(input("enterthelengthofpassword"))s="abcdefghijklmnopqrstuvwxyz01234567890ABCDEFGHJKLMNOPQRSTUVWXYZ!@#$%^&*()?"
Python案例代码 | 使用正则表达式判别微博用户mbti类型程序员晓晓 python 正则表达式开发语言数据分析数据挖掘机器学习
使用Python爬虫采集「微博搜索」中含mbti信息的推文，使用正则表达式判别用户mbti类型。相比实验室做实验或者发调查问卷，这种方式收集到的用户类别是非常自然且真实的。今日爬虫不是今日主题，就不做分享了。importpandasaspd#采集自微博搜索中含mbti类型的推文df=pd.read_csv('mbti_test.csv')#剔除content列中的nan数据df.dropna(in
python案例：六大主流小说平台小说下载魔王不会哭爬虫 python 开发语言 pycharm 爬虫
嗨喽~大家好呀，这里是魔王呐❤~!python更多源码/资料/解答/教程等点击此处跳转文末名片免费获取很多小伙伴学习Python的初衷就是为了爬取小说，方便又快捷~辣么今天咱们来分享6个主流小说平台的爬取教程~一、流程步骤流程基本都差不多，只是看网站具体加密反爬，咱们再进行解密。实现爬虫的第一步?1、去抓包分析，分析数据在什么地方。打开开发者工具刷新网页找数据-->通过关键字搜索2、获取小说内容目
Python案例1—人民币与美元的汇率兑换V_4.0 白菜胡萝丸子 python 后端开发语言
大家好，我是六枚硬币初来乍到，请多指教！！！目录项目导入项目分析—理清思路知识点学习--定义函数简单介绍
风云2号卫星云图_今天从零教你开始利用Python打造词云图！ weixin_39540018 风云2号卫星云图
1.量身打造属于你的词云图今天的Python案例是跟着笔者来打造属于自己的词云图。那么什么是词云图呢？我们在百度中来搜索一下，如图所示：概念：词云图就是由词汇组成类似云的彩色图形。接下来我们就可以去为自己量身打造一张词云图了，但是笔者在这里的话就不拿自己的照片来进行演示了。最近很火的一部电影冰雪奇缘2，不知道大家有没有看过。无论是美轮美奂的画面质感，还是艾莎的造型如图1所示，都得到了众多人的喜爱，
词云中去重复的词_今天从零教你开始利用Python打造词云图！ weixin_39992072 词云中去重复的词
1.量身打造属于你的词云图今天的Python案例是跟着笔者来打造属于自己的词云图。那么什么是词云图呢？我们在百度中来搜索一下，如图所示：概念：词云图就是由词汇组成类似云的彩色图形。接下来我们就可以去为自己量身打造一张词云图了，但是笔者在这里的话就不拿自己的照片来进行演示了。最近很火的一部电影冰雪奇缘2，不知道大家有没有看过。无论是美轮美奂的画面质感，还是艾莎的造型如图1所示，都得到了众多人的喜爱，
python 可以用excel做词云图嘛_今天从零教你开始利用Python打造词云图！姚脑师 python 可以用excel做词云图嘛
1.量身打造属于你的词云图今天的Python案例是跟着笔者来打造属于自己的词云图。那么什么是词云图呢？我们在百度中来搜索一下，如图所示：概念：词云图就是由词汇组成类似云的彩色图形。接下来我们就可以去为自己量身打造一张词云图了，但是笔者在这里的话就不拿自己的照片来进行演示了。最近很火的一部电影冰雪奇缘2，不知道大家有没有看过。无论是美轮美奂的画面质感，还是艾莎的造型如图1所示，都得到了众多人的喜爱，
Python案例4 杨俊杰-YJ python 开发语言笔记学习算法
汉诺塔defhanno(n,A,B,C):ifn>0:hanno(n-1,A,C,B)#先把n-1个盘子,从柱子A移动到柱子Bprint(f"盘子{n}，从{A}移动到{C}")hanno(n-1,B,A,C) #柱子A上面有n-1个盘子,再将盘子从A,借助A,移动到Channo(3,'柱子A','柱子B','柱子c')斐波那契数列deffun_01(n):ifn<=2:return1else:r
并不止于表面理论和简单示例——《Python数据科学项目实战》清图 python 数据科学
Python现在可以说是运用最广泛的编程语言之一，使用Python的人不只局限在计算机相关专业的从业者,很多来自金融领域、医疗领域以及其他我们无法想象的领域的人,每天都在使用Python处理各种数据、使用机器学习进行预测以及完成各种有趣的工作。长久以来，很多使用Python的人都存在一个困扰，他们知道Python的具体技术,但无法与实际工作结合起来，虽然有很多“Python案例”书籍和博客，但内容
Python案例——学生信息管理系统 AItth python python pycharm flask
Python案例——学生信息管理系统文章目录Python案例——学生信息管理系统1.需求分析学生管理系统应具备的功能2.系统设计系统功能结构3.系统开发必备系统开发环境：4.主函数设计5.学生信息维护模块设计5.1录入学生信息功能5.2删除学生信息功能5.3修改学生信息功能6.查询/统计模块设计6.1实现查询学生信息功能：6.2实现统计学生总人数功能6.3显示所有信息功能7.排序模块设计8.项目打
python频谱分析_信号处理之频谱原理与python实现 Navis Li python频谱分析
目录频谱分析FFT频谱分析原理下面就用python案例进行说明案例1案例2短时傅里叶变换STFT本分享为脑机学习者Rose整理发表于公众号：脑机接口社区(微信号：Brain_Computer).QQ交流群：941473018EEG信号是大脑神经元电活动的直接反应，包含着丰富的信息，但EEG信号幅值小，其中又混杂有噪声干扰，如何从EEG信号中抽取我们所感兴趣的信号是一个极为重要的问题。自1932年D
svd降维 python案例_机器学习实战基础（二十一）：sklearn中的降维算法PCA和SVD（二） PCA与SVD 之降维究竟是怎样实现... weixin_39683598 svd降维 python案例
简述在降维过程中，我们会减少特征的数量，这意味着删除数据，数据量变少则表示模型可以获取的信息会变少，模型的表现可能会因此受影响。同时，在高维数据中，必然有一些特征是不带有有效的信息的(比如噪音)，或者有一些特征带有的信息和其他一些特征是重复的(比如一些特征可能会线性相关)。我们希望能够找出一种办法来帮助我们衡量特征上所带的信息量，让我们在降维的过程中，能够即减少特征的数量，又保留大部分有效信息——
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &