Kaggle项目实战2—Titanic:Machine learning from disaster—排名Top20%

一、项目思路

这是我在kaggle做的第二个项目，之前做一个是Digit Recognition，感兴趣的同学可以看这里。本文涉及到的python环境和需要的库在上一篇文章中已经详细说过了，这里不再赘述。在Digit Recognition由于feature只有一种特征类型，就是int类型的灰度值，所以不需要什么feature engineering。而Titanic项目最关键的部分可能就在于feature engineering方面，它对于最后的精度有着直接的影响。由于不是计算机视觉方面的问题，可以预期神经网络的分类效果估计不是很理想，我们的思路是采用多种机器学习分类器来分别预测，最后将几个分类器的结果ensemble（我采用的是bagging的方法）。

首先有必要描述一下这个项目的数据结构，项目的地址在这里。train.csv中是带有label的数据，这里的label是"Survived"变量（0代表身亡，1代表幸存）。features包括变量：

1、pclassint类型，旅客的社会等级（分3个等级，1代表高级，2代表中级，3代表低级）

2、namestring类型，旅客的姓名

3、sexstring类型，分为“male”和“female”两类

4、ageint类型，旅客的年龄

5、sibspint类型，旅客海外的旁系亲友

6、parchint类型，旅客海外的直系亲友

7、ticketstring，int混合类型，旅客的船票序列号

8、farefloat类型，旅客的船票价格

9、cabinstring，int混合类型，旅客的房号

10、embarkedstring类型，旅客上船的港口（共三个值“C”，“Q”，“S”)

容易看出，由于feature的类型各不相同，经过feature engineering之后的features必定一些适合于成为标称的类型（pclass，sex等），而有些更适合于成为标量类型（age，fare等），所以features会变成标称类型和标量类型的混合类型。由于随机森林是处理标称类型和标量类型混合features表现最好的方法之一，我们考虑用随机森林作为我们的一个基准classifier。

另外我还构建了其余四个分类器，它们分别只看见一部分的features，这样有两个好处：第一、有一些分类器只在某种类型的features上表现良好，所以我们只feed它们那些features。例如GBDT（Gradient Boosting Decision Tree)适合用标量类型的features，因为它对于稀疏的特征分类效果不好，所以只给GBDT标量类型的features或者把标称类型的features转化为标量类型（进一步转化为二值类型）。第二、这样相当于每个分类器只“记住”了一部分的features这样带来的bias可以trade off掉分类器自身的high variance，我们在构建分类器时都尽量多选参数提高variance，最后通过投票的方式ensemble，这种类似bagging的方法把候选的分类器组合起来。

总的来说我构建了五个分类器，它们以及对应接收的训练features为：

1、Random Forest Classifier（随机森林分类器）：接收二值和标量类型

2、Gradient Boosting Decision Tree Classifier（梯度提升树分类器）：接收标量类型

3、Support Vector Machine Classifier（支持向量机分类器）：接收二值类型

4、Adaptive Boosting Decision Tree Classifier（自适应提升树分类器）：接收二值类型

5、Logistic Regression Classifier（逻辑回归分类器）：接收二值和标量类型

最后通过五个分类器投票决定大多数的为输出。

二、特征处理（feature engineering）

首先，将数据读入DataFrame，这时发现有多个变量含有空的NAN值，对于缺失值的处理有几种方法：1、丢弃含有缺失字段的example（我们此项目的训练集很少，这样会损失信息，不可取）。2、填充一些统计值（中值或者平均值），这里我们对于除了“age”字段以外的字段采用这种方法填充。3、用回归等方法预测，可以预见到“age”字段对于决策的影响很大，因此我们对于此字段用其他字段来回归预测。

具体地，例如对于“Fare”字段，我们意识到pclass高的可能票价比较高，所以我们填充某旅客的“Fare”时利用此旅客对应的“pclass”的所有旅客的票价中位数来填充。

    #replace missing values with the median of the coressponding class
    df.loc[(df.Fare.isnull())&(df.Pclass==1),'Fare']=np.median(df[df['Pclass']==1]['Fare'].dropna())
    df.loc[(df.Fare.isnull())&(df.Pclass==2),'Fare']=np.median(df[df['Pclass']==2]['Fare'].dropna())
    df.loc[(df.Fare.isnull())&(df.Pclass==3),'Fare']=np.median(df[df['Pclass']==3]['Fare'].dropna())

而填充“age”字段时利用RandomForest来回归填充。

def setMissingAges(df):
    age_df=df[['Age','Embarked','Fare','Parch','SibSp','Title_id','Pclass','Names','CabinLetter']]
    knownAge=age_df[df.Age.notnull()]
    unknownAge=age_df[df.Age.isnull()]
    y=knownAge.values[:,0]
    X=knownAge.values[:,1:]
    rfr=RandomForestRegressor(n_estimators=2000,n_jobs=-1)
    #train the regressor
    rfr.fit(X,y)
    predictedAges=rfr.predict(unknownAge.values[:,1:])
    df['Age'][df.Age.isnull()]=predictedAges
    return df

填充完所有字段以后的工作就是将features化归成二值或者标量的features，对于每一个字段我们都既生成一些二值的features也生成一些标量的features以供不同的分类器从中选取。从标称类型转化为二值类型的方法是设置哑变量（dummy variable)，例如“pclass”字段的取值有1,2,3三种，则可以设置“pclass_1”、“pclass_2”，“pclass_3”三个二值哑变量。若某旅客“pclass”值为2，它对应的“pclass_1”、“pclass_2”，“pclass_3”分别取0,1,0。代码实现如下：

def processPclass(df,keep_binary=False,keep_scaled=False):
    #fill in the missing value
    df['Pclass'][df.Pclass.isnull()]=df['Pclass'].median()
    #create binary features
    if keep_binary:
        df=pd.concat([df,pd.get_dummies(df['Pclass']).rename(columns=lambda x:'Pclass_'+str(x))],axis=1)
    if keep_scaled:
        scaler=preprocessing.StandardScaler()
        df['Pclass_scaled']=scaler.fit_transform(df['Pclass'])
    return df

标量类型转化为二值型主要的方法是通过binning（分箱）先化为标称类型，再通过设置哑变量的方法从标称类型化为二值类型。分箱的操作是按照频数相等的原则把标量分为N个不想交的左开右闭区间的并。例如把“age”分为4个标称类型“age_(0,21]”，“age_(21，28]”，“age_(28,38]”，“age_(38,80]”，使得每个区间内的频数相等，代码实现如下：

def processAge(df,keep_binary=False,keep_bins=False,keep_scaled=False):
    df=setMissingAges(df)
    if keep_bins:
        # bin into quantiles and create binary features
        df['Age_bin'] = pd.qcut(df['Age'], 4)
    if keep_binary:
        # have a feature for children
        df['isChild'] = np.where(df.Age < 13, 1, 0)
        df = pd.concat([df, pd.get_dummies(df['Age_bin']).rename(columns=lambda x: 'Age_' + str(x))], axis=1)  
    if keep_scaled:
        scaler=preprocessing.StandardScaler()
        df['Age_scaled']=scaler.fit_transform(df['Age'])
    del df['Age_bin']
    return df

而标称类型转化为标量类型的方法是先factorize取特征（用0-N表示N+1个类型），然后再做scaling，例如“Embark”字段要转化为标量类型就是这样处理，代码如下：

def processEmbarked(df,keep_binary=False,keep_scaled=False):
    #replace the missing values with most common port
    df['Embarked'][df['Embarked'].isnull()]=df.Embarked.dropna().mode().values
    #turn into number
    df['Embarked']=pd.factorize(df['Embarked'])[0]
    # Create binary features for each port
    if keep_binary:
        df = pd.concat([df, pd.get_dummies(df['Embarked']).rename(columns=lambda x: 'Embarked_' + str(x))], axis=1)
    if keep_scaled:
        scaler=preprocessing.StandardScaler()
        df['Embarked_scaled']=scaler.fit_transform(df['Embarked'])
    return df

在features的二值版本和标量版本都生成完之后就来到了最关键的一步，就是发现隐藏的features。这通常是有经验的数据科学家和菜鸟之间的差距。我觉得可能是由于此步做的还不够理想导致了现在目前在排行榜上只能到Top25%的位置。我发现的隐藏features大概有这几个：

1、有的人的“name”字段有带有括号给出了另一个名字，名字的多少可能也代表了身份地位的象征

2、人的“name”字段中包含有title（称谓）例如“Mr”，“Miss”，“Mrs”等，这些称谓直接反应了身份、学历、性别、年龄等信息。所以把这些字段通过正则表达式提取出来并做成标称feature，进一步做成二值版本和标量版本。

3、“Cabin”字段中的首字母代表了相对甲板的位置，这个feature可能会带来重要的信息，例如：距离甲板的远近影响着生还概率

4、“Cabin”字段中的数字代表房间号，这个feature可能会带来重要的信息，例如：某层的房间旁边是配电室，漏水导致漏电使得配电室周围的全部电击身亡。

5、“Ticket”字段的首字母为国家编号，国家的差距直接影响人的身份地位已经绅士程度。

6、“Ticket”字段的数字部分有很多是相同的，猜测为家庭票，直接反应了家庭成员的多少。这个feature可能已经被“parch”+“sibsp”捕捉到，但是此时应该加入，去除冗余feature是后面的步骤。

“name”字段添加隐藏特征的代码如下：

def processName(df,keep_binary=False,keep_bins=False,keep_scaled=False):
    """
    Parameters:
        keep_binary:include 'Title_Mr' 'Title_Mrs'...
        keey_scaled&&keep_bins:include 'Names_scaled' 'Title_id_scaled'
    Note: the string feature 'Name' can be deleted
    """
    # how many different names do they have? this feature 'Names'
    df['Names']=df['Name'].map(lambda x:len(re.split('\\(',x)))
    
    #what is each person's title? 
    df['Title']=df['Name'].map(lambda x:re.compile(", (.*?)\.").findall(x)[0])
    #group low-occuring,related titles together
    df['Title'][df.Title.isin(['Mr','Don','Major','Capt','Jonkheer','Rev','Col','Sir','Dona'])] = 'Mr'
    df['Title'][df.Title.isin(['Master'])] = 'Master'
    df['Title'][df.Title.isin(['Countess','Mme','Mrs','Lady','the Countess'])] = 'Mrs'
    df['Title'][df.Title.isin(['Mlle','Ms','Miss'])] = 'Miss'
    df['Title'][(df.Title.isin(['Dr']))&(df['Sex']=='male')]='Mr'
    df['Title'][(df.Title.isin(['Dr']))&(df['Sex']=='female')]='Mrs'
    df['Title'][df.Title.isnull()][df['Sex']=='male']='Master'
    df['Title'][df.Title.isnull()][df['Sex']=='female']='Miss'
    #build binary features
    if keep_binary:
        df=pd.concat([df,pd.get_dummies(df['Title']).rename(columns=lambda x:'Title_'+str(x))],axis=1)
    #process_scaled
    if keep_scaled:
        scaler=preprocessing.StandardScaler()
        df['Names_scaled']=scaler.fit_transform(df['Names'])
    if keep_bins:
        df['Title_id']=pd.factorize(df['Title'])[0]+1
    if keep_bins and keep_scaled:
        scaler=preprocessing.StandardScaler()
        df['Title_id_scaled']=scaler.fit_transform(df['Title_id'])
    del df['Name']
    return df

“Cabin”字段添加隐藏特征的代码如下：

#Utility method 
def getCabinLetter(cabin):
    match = re.compile("([a-zA-Z]+)").search(cabin)
    if match:
        return match.group(0)
    else:
        return 'U'
        
#Utility method
def getCabinNumber(cabin):
    match = re.compile("([0-9]+)").search(cabin)
    if match:
        return match.group(0)
    else:
        return 0

def processCabin(df,keep_binary=False,keep_scaled=False):   
    # Replace missing values with "U0"
    df['Cabin'][df.Cabin.isnull()] = 'U0'   
    # create feature for the alphabetical part of the cabin number
    df['CabinLetter'] = df['Cabin'].map( lambda x : getCabinLetter(x))
    #change alphbet to number beacause we need tht important feature to regress the age
    df['CabinLetter']=pd.factorize(df['CabinLetter'])[0] 
    # create binary features for each cabin letters
    if keep_binary:
        cletters = pd.get_dummies(df['CabinLetter']).rename(columns=lambda x: 'CabinLetter_' + str(x))
        df = pd.concat([df, cletters], axis=1) 
    if keep_scaled:
        # create feature for the numerical part of the cabin number
        df['CabinNumber'] = df['Cabin'].map( lambda x : getCabinNumber(x)).astype(int) + 1
        # scale the number to process as a continuous feature
        scaler = preprocessing.StandardScaler()
        df['CabinNumber_scaled'] = scaler.fit_transform(df['CabinNumber'])
        df['CabinLetter_scaled'] = scaler.fit_transform(df['CabinLetter'])
        del df['CabinNumber']
    del df['CabinLetter']
    return df

“Ticket”字段添加隐藏特征的代码如下：

def getTicketPrefix(ticket):
    match=re.compile("([a-zA-Z\.\/]+)").search(ticket)
    if match:
        return match.group(0)
    else:
        return 'U'

###Utility method: get the numerical component of 'Ticket'
def getTicketNumber(ticket):
    match=re.compile("([0-9]+)").search(ticket)
    if match:
        return match.group(0)
    else:
        return '0'
###Generate features of 'Ticket'
def processTicket(df,keep_binary=False,keep_bins=False,keep_scaled=False):
    df['TicketPrefix']=df['Ticket'].map(lambda x:getTicketPrefix(x.upper()))
    df['TicketPrefix']=df['TicketPrefix'].map(lambda x:re.sub('[\.?\/?]','',x))
    df['TicketPrefix']=df['TicketPrefix'].map(lambda x:re.sub('STON','SOTON',x))
    
    df['TicketNumber']=df['Ticket'].map(lambda x:getTicketNumber(x))
    df['TicketNumberStart']=df['TicketNumber'].map(lambda x:x[0]).astype(np.int)
    
    if keep_binary:
        numberstart = pd.get_dummies(df['TicketNumberStart']).rename(columns=lambda x: 'TicketNumberStart_' + str(x))
        df = pd.concat([df, numberstart], axis=1)
    if keep_bins:
        #help the interactive feature process,lift by 1
        df['TicketPrefix_id']=pd.factorize(df['TicketPrefix'])[0]+1      
    if keep_scaled:
        scaler = preprocessing.StandardScaler()
        df['TicketNumber_scaled'] = scaler.fit_transform(df['TicketNumber'])
        df['TicketPrefix_id_scaled'] = scaler.fit_transform(df['TicketPrefix_id'])
    del df['Ticket'],df['TicketNumber'],df['TicketPrefix'],df['TicketNumberStart'],df['TicketPrefix_id']
    return df

添加了隐藏特征之后另外一个重要的步骤就是构建交互变量（Interactive variable），添加交互变量的目的是抓住标量features之间的内在联系，对于任意两个不同标量类型features我们依次生成f1*f2、f1/f2、f1+f2、f1-f2，四种特征，为了避免除数为零，在之前对标量数据做完scaling之后我刻意把零值的量提升了10%。实现的代码如下

    if keep_interactive_auto:
        numerics=df[['Names_scaled','SibSp_scaled','Parch_scaled','TicketPrefix_id_scaled','Fare_scaled','CabinNumber_scaled',
                 'Pclass_scaled','Title_id_scaled','TicketNumber_scaled','CabinLetter_scaled','Embarked_scaled','Age_scaled']]
        #print "\nFeatures used for automated feature generation:\n", numerics.head(10)
        new_fields_count=0
        for i in range(0,numerics.columns.size-1):
            for j in range(0,numerics.columns.size-1):
                if i<=j:
                    name=str(numerics.columns.values[i])+'*'+str(numerics.columns.values[j])
                    df=pd.concat([df,pd.Series(numerics.iloc[:,i]*numerics.iloc[:,j],name=name)],axis=1)
                    new_fields_count+=1
                if i < j:
                    name = str(numerics.columns.values[i]) + "+" + str(numerics.columns.values[j])
                    df = pd.concat([df, pd.Series(numerics.iloc[:,i] + numerics.iloc[:,j], name=name)], axis=1)
                    new_fields_count += 1
            
                if not i == j:
                    name = str(numerics.columns.values[i]) + "/" + str(numerics.columns.values[j])
                    df = pd.concat([df, pd.Series(numerics.iloc[:,i] / numerics.iloc[:,j], name=name)], axis=1)
           
                    name = str(numerics.columns.values[i]) + "-" + str(numerics.columns.values[j])
                    df = pd.concat([df, pd.Series(numerics.iloc[:,i] - numerics.iloc[:,j], name=name)], axis=1)
                    new_fields_count += 2

这样加入了交互特征之后features的数量急剧膨胀，所以这时我们通过检查变量之间的Pearson相关系数去掉高度相关的变量。但是由于Pearson相关系数取样时必须假设数据是成对地从正态分布中取得，是一种参数统计量，我们这里并不一定能满足条件。所以改用非参数统计量Spearman秩相关系数。代码如下：

df_corr=df.drop(['Survived','PassengerId'],axis=1).corr(method='spearman')
    mask=np.ones(df_corr.columns.size)-np.eye(df_corr.columns.size)
    df_corr=df_corr*mask
    drops=[]
    for col in df_corr.columns.values:
        if np.in1d([col],drops):
            continue
        corr=df_corr.index[abs(df_corr[col])>0.9].values
        drops=np.union1d(drops,corr)
    #print "\nDropping",drops.shape[0],"highly correlated features"
    df.drop(drops,axis=1,inplace=True)

至此特征处理工作告一段落，共计生成了不相关的大概200个features（包括二值类型和scaling后的标量）供不同的分类器选用。

三、候选分类器的训练

对于5个不同的候选分类器，它们的训练过程大同小异，大概分为几个步骤：第一，使用备用features中适合的类型，采用默认参数来预训练分类器，给出对应features的重要程度排序。第二、取第一步中比较重要的前N个features，利用validation set来选取hyperparameter（对应机器学习模型中的参数）。第三、利用第二步选择的最优参数来训练分类器。

例如，针对随机森林分类器，我们第一步先取了所有的200+个features，预训练分类器：

    print "\nRough fitting a RandomForest to determine feature importance...."
    forest=RandomForestClassifier(oob_score=True,n_estimators=10000,n_jobs=-1)
    forest.fit(X,y)
    feature_importance=forest.feature_importances_
    feature_importance=100.0*(feature_importance/feature_importance.max())
    #print "Feature importances:\n", feature_importance
    fi_threshold=30
    important_idx=np.where(feature_importance>fi_threshold)[0]
    important_features=features_list[important_idx]
    #print "\n", important_features.shape[0], "Important features(>", fi_threshold, "percent of max importance)...\n",important_features
    sorted_idx=np.argsort(feature_importance[important_idx])[::-1]
    #plot feature importance
    
    pos=np.arange(sorted_idx.shape[0])+0.5
    plt.subplot(1,2,2)
    plt.barh(pos,feature_importance[important_idx][sorted_idx[::-1]],align='center')
    plt.yticks(pos,important_features[sorted_idx[::-1]])
    plt.xlabel('Relative Importance')
    plt.title('Feature Importance')
    plt.draw()
    plt.show()

最后绘制的feature importance如下图所示：

Kaggle项目实战2—Titanic:Machine learning from disaster—排名Top20%_第1张图片

而超参数的选取scikit-learn提供了两种方法，一种是传入一个包含参数的字典，在形成的网格上逐个遍历。另一种方法是当参数取值比较多时用上一种方法形成的网格就会比较大，穷举搜索的开销太高。这时可以在小于规定的次数时随机地搜寻，大大地减少了时间开销。搜索超参数的代码如下：

sqrtfeat=int(np.sqrt(X.shape[1]))
    params_test={"n_estimators":[10000],
                 "max_features":np.rint(np.linspace(sqrtfeat,sqrtfeat,3)).astype(int),
                 "min_samples_split":np.rint(np.linspace(X.shape[0]*0.01,X.shape[0]*0.2,30)).astype(int)}
    print "Hyperparameter opimization using RandomizedSearchCV..."
    rand_search=RandomizedSearchCV(forest,param_distributions=params_test,n_jobs=7,cv=4,n_iter=100)
    rand_search.fit(X,y)
    best_params=report(rand_search.grid_scores_)
    params=best_params

当取定了最优的超参数时我们就可以训练分类器了，此步骤是平凡的，不再赘述。当五个分类器分别训练完并产生输出后采取投票的方式来取平均，当然还可以赋予不同的权重：

    test_ids,ret1,w1=rf.Titanic_rf()
    test_ids,ret2,w2=gbdt.Titanic_gbdt()
    test_ids,ret3,w3=svc.Titanic_svc()
    test_ids,ret4,w4=adbst.Titanic_adbst()
    test_ids,ret5,w5=lg.Titanic_lg()
    ret1=np.where(ret1==1,1,-1)
    ret2=np.where(ret2==1,1,-1)
    ret3=np.where(ret3==1,1,-1)
    ret4=np.where(ret4==1,1,-1)
    ret5=np.where(ret5==1,1,-1)
    votes=(w1+0.03)*ret1+w2*ret2+w3*ret3+w4*ret4+w5*ret5
    votes=np.where(votes<=0,0,1)
    submission=np.asarray(zip(test_ids,votes)).astype(int)
    #ensure passenger IDs in ascending order
    output=submission[submission[:,0].argsort()]
    predict_file=open(path+"predict.csv",'wb')
    file_object=csv.writer(predict_file)
    file_object.writerow(["PassengerId","Survived"])
    file_object.writerows(output)
    predict_file.close()
    print 'Done'

产生预测结果，提交到kaggle，正确率为80.04%，目前排名是350/1828，大概在top20%的位置。在自己的validation set上正确率可以达到84%左右，所以还是overfitting了，最后的bagging并没能把variance降下来，还需要磨练啊。另外隐藏feature的选取可能也不够好，请大家有好的想法不吝赐教。我写的这个项目的python代码在我的github上，以上。

你可能感兴趣的:(Kaggle)

推荐算法学习记录2.2——kaggle数据集的动漫电影数据集推荐算法实践——基于内容的推荐算法、协同过滤推荐萱仔学习自我记录推荐算法学习 python matplotlib 开发语言
1、基于内容的推荐：这种方法根据项的相关信息（如描述信息、标签等）和用户对项的操作行为（如评论、收藏、点赞等）来构建推荐算法模型。它可以直接利用物品的内容特征进行推荐，适用于内容较为丰富的场景。‌#1.基于内容的推荐算法fromsklearn.feature_extraction.textimportTfidfVectorizerfromsklearn.metrics.pairwiseimport
免费GPU平台教程，助力你的AI, pytorch tensorflow 支持cuda zhangfeng1133 人工智能 pytorch tensorflow
Colab：https://drive.google.com/drive/home阿里天池实验室：https://tianchi.aliyun.com/60个小时gputianchi.aliyun.com/notebook-ai/天池实验室_实时在线的数据分析协作工具，享受免费计算资源-阿里云天池移动九天：https://jiutian.10086.cn/edu/#/homekagglekaggl
49Kaggle 数据分析项目入门实战--绝地求生游戏最终排名预测 Jachin111
绝地求生介绍相信很多都玩过绝地求生这款游戏，其游戏规则主要是将100名玩家空手被扔到一个岛上，这些玩家必须探索、寻找、消灭其他玩家，直到只剩下一个玩家活着。绝地求生很受欢迎。这款游戏销量目前超过5000万份，是有史以来销量排名前五的游戏，每月有数百万活跃玩家。而我们本次实验的任务就是根据玩家在游戏中的种种表现来预测出其在最终的排名。导入数据并预览首先安装实验需要的statsmodels包。!pip
李沐《动手学深度学习》课程笔记：15 实战：Kaggle房价预测 + 课程竞赛：加州2020年房价预测非文的NLP修炼笔记 #李沐《动手学深度学习》课程笔记深度学习人工智能
15实战：Kaggle房价预测+课程竞赛：加州2020年房价预测1.访问和读取数据集importhashlibimportosimporttarfileimportzipfileimportrequestsDATA_HUB=dict()DATA_URL='http://d2l_data.s3-accelerate.amazonaws.com/'defdownload(name,cache_dir=
Kaggle Intermediate ML Part Two 卢延吉 New Developer 数据 (Data)ML &ME &GPT Data ML
CategoricalVariablesCategoricalvariables,alsoknownasqualitativevariables,areafundamentalconceptinstatisticsanddataanalysis.Here'sabreakdowntohelpyouunderstandthem:Whatarethey?Categoricalvariablesrepre
【工业智能】VSB Power Line Fault Detection-chapter1 凭轩听雨199407 学习 python 制造数据挖掘
VSBPowerLineFaultDetection-chapter1backgrounddataset数据介绍信号处理方法EDAtrainfeatureengineeringmodeltraintry信息来源：KaggleCompetition:VSBPowerLineFaultDetectionbackground中压高架线路绵延上百公里来为城市提供电力。因为距离很远，所以人工检测那些没有立即
【工业智能】VSB Power Line Fault Detection-chapter2 凭轩听雨199407 数据挖掘
工业智能】VSBPowerLineFaultDetection-chapter2关键信息依赖版本信息名词术语tricks信息来源：KaggleCompetition:VSBPowerLineFaultDetection分析冠军代码。源文件URL：https://www.kaggle.com/code/mark4h/vsb-1st-place-solution关键信息LGB标准5折验证9个特征所有特
机器学习网格搜索超参数优化实战(随机森林) ##4 恒c 机器学习随机森林人工智能
文章目录基于Kaggle电信用户流失案例数据（可在官网进行下载）数据预处理模块时序特征衍生第一轮网格搜索第二轮搜索第三轮搜索第四轮搜索第五轮搜索基于Kaggle电信用户流失案例数据（可在官网进行下载）导入库#基础数据科学运算库importnumpyasnpimportpandasaspd#可视化库importseabornassnsimportmatplotlib.pyplotasplt#时间模块
多元统计分析课程论文-聚类效果评价 talle2021 数据分析机器学习聚类数据挖掘机器学习
数据集来源：UnsupervisedLearningonCountryData(kaggle.com)代码参考：Clustering:PCA|K-Means-DBSCAN-Hierarchical||Kaggle基于特征合成降维和主成分分析法降维的国家数据集聚类效果评价目录1.特征合成降维2.PCA降维3.K-Means聚类3.1对特征合成降维的数据聚类分析3.2对PCA降维的数据聚类分析摘要：本
R语言课程论文-飞机失事数据可视化分析 talle2021 数据分析 r语言数据分析数据可视化
数据来源：AirplaneCrashesSince1908(kaggle.com)代码参考：ExploringhistoricAirPlanecrashdata|Kaggle数据指标及其含义指标名含义Date事故发生日期(年-月-日)Time当地时间，24小时制，格式为hh:mmLocation事故发生的地点Operator航空公司或飞机的运营商Flight由飞机操作员指定的航班号Route事故前
Dataframe型数据分析技巧汇总我叫杨傲天学习笔记机器学习数据分析数据挖掘
Kaggle如何针对少量数据集比赛的打法。数据降维的几种方法HF.075|时间序列趋势性分析方法汇总机器学习必须了解的7种交叉验证方法（附代码）这个图！Python也能一键绘制了，而且样式更多..散点图，把散点图画出花来综述：机器学习中的模型评价、模型选择与算法选择！表格任务中的深度学习模型性能比较再见Onehot！KaggleMaster的上分神操作！特征重要性评估方法之排列重要性
Task 11 XGBoost 算法分析与案例调参实例沫2021
1.XGBoost算法XGBoost是陈天奇等人开发的一个开源机器学习项目，高效地实现了GBDT算法并进行了算法和工程上的许多改进，被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。XGBoost是一个优化的分布式梯度增强库，旨在实现高效，灵活和便携。它在GradientBoosting框架下实现机器学习算法。XGBoost提供了并行树提升（也称为GBDT，GBM），可以快速
关于商店销售量的数据处理小问题（Python）不期而遇__ python pandas 数据分析大数据
通过学校举行的某次学科竞赛，我接触到了kaggle上的一道题：StoreSales-TimeSeriesForecasting。由于题主资质尚浅，本文将对前期数据处理的一些小问题做出解答，不涉及后续更难的问题。此处放原题链接：StoreSales-TimeSeriesForecasting题主也是看了很多的资料，也看到了CSDN上另外一位大佬写的文章，收获颇多，此处也放一下链接：Kaggle实战：
学习笔记 2019-04-30 段勇_bf97
HousePrices-bagging_xgboost+lasso+ridgeKaggle入門級賽題：房價預測FFMPEG视音频编解码零基础学习方法35岁程序员的独家面试经历公司名称公司介绍薪水车辆工程专业33岁简历有些传感器方面的东西20k-35k非渣硕是如何获得百度、京东双SP一些面试经验20k-40k吴以均的简历一个大牛的简历北京航空航天大学毕业生的简历厦门大学软件学院毕业生的简历名称介绍H
数据分析基础之《pandas（8）—综合案例》 csj50 机器学习数据分析
一、需求1、现在我们有一组从2006年到2016年1000部最流行的电影数据数据来源：https://www.kaggle.com/damianpanek/sunday-eda/data2、问题1想知道这些电影数据中评分的平均分，导演的人数等信息，我们应该怎么获取？3、问题2对于这一组电影数据，如果我们想看Rating、Runtime(Minutes)的分布情况，应该如何呈现数据？4、问题3对于这
XGBoost算法小森( ﹡ˆoˆ﹡ ) 机器学习算法算法人工智能机器学习
XGBoost在机器学习中被广泛应用于多种场景，特别是在结构化数据的处理上表现出色，XGBoost适用于多种监督学习任务，包括分类、回归和排名问题。在数据挖掘和数据科学竞赛中，XGBoost因其出色的性能而被频繁使用。例如，在Kaggle平台上的许多获奖方案中，XGBoost都发挥了重要作用。此外，它在处理缺失值和大规模数据集上也有很好的表现。XGBoost是一种基于梯度提升决策树（GBDT）的算
Kaggle Intro Model Validation and Underfitting and Overfitting 卢延吉 New Developer 数据 (Data)ML &ME &GPT 机器学习
ModelValidationModelvalidationisthecornerstoneofensuringarobustandreliablemachinelearningmodel.It'stherigorousassessmentofhowwellyourmodelperformsonunseendata,mimickingreal-worldscenarios.Doneright,it
kaggle实战语义分割-Car segmentation（附源码）橘柚jvyou python 人工智能计算机视觉深度学习 pytorch
目录前言项目介绍数据集处理数据集加载定义网络训练网络验证网络前言本篇文章会讲解使用pytorch完成另外一个计算机视觉的基本任务-语义分割。语义分割是将图片中每个部分根据其语义分割出来，其相比于图像分类的不同点是，图像分类是对一张图片进行分类，而语义分割是对图像中的每个像素点进行分类。我们这里使用的语义分割数据集是kaggle上的一个数据集。数据集来源：https://www.kaggle.com
kaggle实战图像分类-Intel Image Classification（附源码）橘柚jvyou 分类人工智能 pytorch 计算机视觉深度学习
目录前言数据集加载定义网络训练网络验证网络前言本篇文章会讲解一个使用pytorch这个深度学习框架完成一个kaggle上的图像分类任务。主要会介绍如何加载数据集，导入网络训练数据，保存损失，精度变化曲线和最终模型，以及测试模型在验证集上的好坏。其数据集介绍可以看一下kaggle的网址，这里就不过多介绍。数据集来源：https://www.kaggle.com/datasets/puneet6060
机器学习 | 深入集成学习的精髓及实战技巧挑战亦世凡华、 #机器学习机器学习集成学习人工智能 boosting xgboost
目录xgboost算法简介泰坦尼克号乘客生存预测(实操)lightGBM算法简介《绝地求生》玩家排名预测(实操)xgboost算法简介XGBoost全名叫极端梯度提升树，XGBoost是集成学习方法的王牌，在Kaggle数据挖掘比赛中，大部分获胜者用了XGBoost。XGBoost在绝大多数的回归和分类问题上表现的十分顶尖，接下来将较详细的介绍XGBoost的算法原理。最优模型构建方法：构建最优模
称霸kaggle的XGBoost究竟是啥？猴小白
一、前言：kaggle神器XGBoost相信入了机器学习这扇门的小伙伴们一定听过XGBoost这个名字，这个看起来朴实无华的boosting算法近年来可算是炙手可热，别的不说，但是大家所熟知的kaggle比赛来看，说XGBoost是“一统天下”都不为过。业界将其冠名“机器学习竞赛的胜利女神”，当然，相信很多小伙伴也看过很多文章称其为“超级女王”。那么问题来了，为啥是女的？（滑稽~）XGBoost全
烹饪第一个U-Net进行图像分割小北的北 python 开发语言
今天我们将学习如何准备计算机视觉中最重要的网络之一：U-Net。如果你没有代码和数据集也没关系，可以分别通过下面两个链接进行访问：代码：https://www.kaggle.com/datasets/mateuszbuda/lgg-mri-segmentation?source=post_page-----e812e37e9cd0--------------------------------Ka
北京房价预测——Kaggle数据 GavinHarbus
日暮途远，人间何世将军一去，大树飘零概述之前学习了加州房价预测模型，便摩拳擦掌，从kaggle上找到一份帝都房价数据，练练手。实验流程实验数据从Kaggle中选择了帝都北京住房价格的数据集，该数据集摘录了2011～2017年链家网上的北京房价数据。image下载并预览数据下载并解压数据image预览数据image每一行代表一间房，每个房子有26个相关属性，其中以下几个需要备注：DOM:市场活跃天数
kaggle：泰坦尼克号获救预测_Titanic_EDA## 卜咦
问题数据来源于Kaggle，通过一组列有泰坦尼克号灾难幸存者或幸存者的训练样本集，我们的模型能否基于不包含幸存者信息的给定测试数据集确定这些测试数据集中的乘客是否幸存。代码与数据分析导入必要的包和titanic数据image数据集基本信息将数据分为不同类别，分别为类别型数据和数字型数据类别数据：Survived,Sex,andEmbarked.Ordinal:Pclass数字型数据：Age,Far
基于LLM的数据漂移和异常检测新缸中之脑 LLM
大型语言模型(LLM)的最新进展被证明是许多领域的颠覆性力量（请参阅：通用人工智能的火花：GPT-4的早期实验）。和许多人一样，我们非常感兴趣地关注这些发展，并探索LLM影响数据科学和机器学习领域的工作流程和常见实践的潜力。在我们之前的文章中，我们展示了LLM使用Kaggle竞赛中的表格数据提供预测的潜力。只需很少的努力（即数据清理和/或功能开发），我们基于LLM的模型就可以在几个竞赛参赛作品中获
Xgboost 大雄的学习人生
在最近的Kaggle竞赛中，利用Xgboost的队伍经常能问鼎冠军，那么问题来了，Xgboost为什么这么强呢？算法释义Xgboost是一种带有正则化项，并利用损失函数泰勒展开式中二阶导数信息优化求解并增加一些计算优化的梯度提升树。Xgboost的目标函数定义为：其中l为损失函数，Ω(ft(x))是用于惩罚ft(x)模型复杂度的正则化项。根据上述目标函数可以得到Xgboost在每一轮前向分步算法中
机器学习数据预处理方法（数据重编码） ##2 恒c 机器学习人工智能数据分析
文章目录@[TOC]基于Kaggle电信用户流失案例数据（可在官网进行下载）一、离散字段的数据重编码1.OrdinalEncoder自然数排序2.OneHotEncoder独热编码3.ColumnTransformer转化流水线二、连续字段的特征变换1.标准化（Standardization）和归一化（Normalization）2.连续变量分箱3.连续变量特征转化的ColumnTransform
机器学习逻辑回归模型训练与超参数调优 ##3 恒c 机器学习逻辑回归人工智能
文章目录@[TOC]基于Kaggle电信用户流失案例数据（可在官网进行下载）逻辑回归模型训练逻辑回归的超参数调优基于Kaggle电信用户流失案例数据（可在官网进行下载）数据预处理部分可见：机器学习数据预处理方法（数据重编码）逻辑回归模型训练fromsklearn.metricsimportaccuracy_score,recall_score,precision_score,f1_score,ro
50Kaggle 数据分析项目入门实战--分销商产品未来销售情况预测 Jachin111
分销商产品未来销售情况预测未来销售额预测介绍对于一个产品来说，其未来销售额的预测是一个重要的指标，也是一项重要的任务。例如，对于一部苹果手机来说。在上市之前，得先对销售额进行预测，才能确定出货量的大小。本次实验来源于Kaggle上的一个挑战，即：未来销售额预测，由俄罗斯的1C-Company软件分销公司发起，并提供数据。而本次实验的任务就是根据提供的数据，包含商品类别、商品名称、商店等信息和商品的
机器学习本科课程实验1 线性模型 11egativ1ty 机器学习本科课程机器学习人工智能
第三章线性模型3.1一元线性回归3.2多元线性回归3.3对数几率回归，线性判别分析（二选一）3.4类别不均衡3.1一元线性回归——Kaggle房价预测使用Kaggle房价预测数据集：打乱数据顺序，取前70%的数据作为训练集，后30%的数据作为测试集分别以LotArea,BsmtUnfSF,GarageArea三种特征作为模型的输入，SalePrice作为模型的输出在训练集上，使用最小二乘法求解模型
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc