wx1871428

Kaggle经典数据分析项目：泰坦尼克号生存预测！1. 数据概述与可视化2. 数据预处理3. 模型训练4. 模型优化（调参）

↑↑↑关注后"星标"Datawhale

每日干货 & 每月组队学习

，不错过

Datawhale干货

作者：陈锴，中山大学，Datawhale成员

最近有很多读者留言，希望能有一个完整的数据分析项目练手，这几天收集了组织成员们的推荐。其中泰坦尼克号生存预测作为最经典的启蒙数据分析项目，对于初学者来说是应该是最合适的了，后面将分享更多进阶的数据分析项目。如果已经有基础了，推荐：

1.开源项目《动手学数据分析》：

https://github.com/datawhalechina/hands-on-data-analysis

DCIC 2020算法分析赛：DCIC 是国内少有的开放政府真实数据的经典赛事，对能力实践，学术研究等都提供了很好的机会。

https://mp.weixin.qq.com/s/-fzQIlZRig0hqSm7GeI_Bw

全文如下：

本文结合泰坦尼克号生存预测，从1.数据探索（数据可视化），2.数据预处理，3.模型训练，4.模型调参这四个步骤进行了完整的梳理：

![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy92STluWWU5NGZzR3J6SVRicUdpYm83WEZ2cXpvMXE3eThpYmljaFRpY2ZObDZsRk5nbDdpYjF1TGRSdUFpYWcxWEM2bTlJZzlVeFliQWNTZlpyZTFjSUV0NDVjZy82NDA?x-oss-
process=image/format,png)

1. 数据概述与可视化

1.1 数据概述

首先我们导入我们的训练数据和测试数据：

数据集包含train.csv和test.csv两个文件，在 Datawhale 公众号回复数据集，可获取打包链接，也可以直接在kaggle官网上下载。

    train_data = pd.read_csv("input/train.csv", index_col=0)
    test_data = pd.read_csv("input/test.csv", index_col=0)
    train_data.head()

![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy92STluWWU5NGZzRnFwM1pON2ptM05ydEpxZUpycTBuTXRiSHhzZVpJa3dXcG5vR242WFl0VkpvQ0dvUktOWTMwaWJVcnM4WWJNTzJuSHRFcjZDUDBoSlEvNjQw?x-oss-
process=image/format,png)

    train_data.describe()

![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy92STluWWU5NGZzRnFwM1pON2ptM05ydEpxZUpycTBuTUYwYk9LbkdGd2FRZks3VXJFMlJ0enhXaEJtZ0V1RlVpY1hDbjY1Q0lsbWFLS1VtbEFrOW5NMEEvNjQw?x-oss-
process=image/format,png)
通过describe()函数我们可以简单地看出哪些是数值型数据哪些是字符型数据，对于字符型数据我们当然要转换成数值型数据来处理，比如可以转换成0-1编码的数值型，但需要注意的是，对于一些数值型数据却未必就不需要进一步的处理了，比如Pclass特征，从名字我们就可以看出这是标识仓位等级的特征，取值范围为[1,
2, 3]，这个特征我们不应该简单地当作一个数值型数据放进分类模型中直接跑，应该把它转变为one-
hot编码，标识乘客不同的仓位，这一步我们将在数据预处理步骤完成。

我们再看看数据中值为null的数据，这是我们后面需要进一步处理的：

    train_data.isnull().sum().sort_values(ascending=False).head(4)

显示结果为：

>     Cabin       687
>     Age         177
>     Embarked      2
>     Fare          0
>     dtype: int64
>  
[/code]

##  1.2 数据可视化

为了这篇文章看起来内容多一点（误），我们可以画多点图来展示数据信息，想直接进行数据预处理的读者可以跳过这部分，这部分内容大多来自Kaggle官网的一篇notebook。

###  1.2.1 性别与生存率

首先我们应该还记得电影里感人的“女士优先”策略：

```code
    sns.barplot(x="Sex", y="Survived", data=train_data)

![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy92STluWWU5NGZzRnFwM1pON2ptM05ydEpxZUpycTBuTWRwNGJsOHlacjA0Q01XaWJ2MVEyMHQzczBkOWljNExpYlc3bkNMV2FHb0V3cUZpYkpZME1TRDJWdHcvNjQw?x-oss-
process=image/format,png) 这里我们可以看出女性的生存率远大于男性，这也很符合电影的情节。

1.2.2 仓位等级（社会等级）与生存率

我们还可以猜测不同仓位的乘客应有不同的获救率：

    #draw a bar plot of survival by Pclass
    sns.barplot(x="Pclass", y="Survived", data=train)
    
    #print percentage of people by Pclass that survived
    print("Percentage of Pclass = 1 who survived:", train["Survived"][train["Pclass"] == 1].value_counts(normalize = True)[1]*100)
    
    print("Percentage of Pclass = 2 who survived:", train["Survived"][train["Pclass"] == 2].value_counts(normalize = True)[1]*100)
    
    print("Percentage of Pclass = 3 who survived:", train["Survived"][train["Pclass"] == 3].value_counts(normalize = True)[1]*100)

![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy92STluWWU5NGZzRnFwM1pON2ptM05ydEpxZUpycTBuTUVNYklvV3hhZHR5a2JpY2NhZWliOFNGSXlaZmEwYksyMzQzMHZEM2ZRUGFZWGJCajV6R3U3ZDZ3LzY0MA?x-oss-
process=image/format,png)

    Percentage of Pclass = 1 who survived: 62.96296296296296
    Percentage of Pclass = 2 who survived: 47.28260869565217
    Percentage of Pclass = 3 who survived: 24.236252545824847

数据结果还是很现实的，贵的仓位自然有更高的生存率，不然我花这冤枉钱干嘛，生死面前不是人人平等。

As predicted, people with higher socioeconomic class had a higher rate of
survival. (62.9% vs. 47.3% vs. 24.2%)

1.2.3 家属数与生存率

    #draw a bar plot for SibSp vs. survival
    sns.barplot(x="SibSp", y="Survived", data=train)
    
    #I won't be printing individual percent values for all of these.
    print("Percentage of SibSp = 0 who survived:", train["Survived"][train["SibSp"] == 0].value_counts(normalize = True)[1]*100)
    
    print("Percentage of SibSp = 1 who survived:", train["Survived"][train["SibSp"] == 1].value_counts(normalize = True)[1]*100)
    
    print("Percentage of SibSp = 2 who survived:", train["Survived"][train["SibSp"] == 2].value_counts(normalize = True)[1]*100)

    Percentage of SibSp = 0 who survived: 34.53947368421053
    Percentage of SibSp = 1 who survived: 53.588516746411486
    Percentage of SibSp = 2 who survived: 46.42857142857143

![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy92STluWWU5NGZzRnFwM1pON2ptM05ydEpxZUpycTBuTWJCaWNranpyWDFiVXp6TnZuUjBDNm9CZk1EUkp0M2hGNkh0aWJmVWJGa0FaaDM5OG1tb0JSOFlBLzY0MA?x-oss-
process=image/format,png) 这里可以看出，有一个兄弟姐妹的一般有更高的生存率，所以快去鼓励爸爸妈妈生个弟弟妹妹吧~

In general, it’s clear that people with more siblings or spouses aboard were
less likely to survive. However, contrary to expectations, people with no
siblings or spouses were less to likely to survive than those with one or
two. (34.5% vs 53.4% vs. 46.4%)

    #draw a bar plot for Parch vs. survival
    sns.barplot(x="Parch", y="Survived", data=train)
    plt.show()

![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy92STluWWU5NGZzRnFwM1pON2ptM05ydEpxZUpycTBuTWlibVpGRGpCUnFSZlk1TmlhVWlhaWFDVG16d0xNaEx0WWR3QUNqWGFrYmVWWnFockFTTUN4bksxNFEvNjQw?x-oss-
process=image/format,png) 看起来独自旅游的人们生存率更低，想想眼眶竟湿润了

People with less than four parents or children aboard are more likely to
survive than those with four or more. Again, people traveling alone are less
likely to survive than those with 1-3 parents or children.

1.2.4 年龄与生存率

    #sort the ages into logical categories
    train["Age"] = train["Age"].fillna(-0.5)
    test["Age"] = test["Age"].fillna(-0.5)
    bins = [-1, 0, 5, 12, 18, 24, 35, 60, np.inf]
    labels = ['Unknown', 'Baby', 'Child', 'Teenager', 'Student', 'Young Adult', 'Adult', 'Senior']
    train['AgeGroup'] = pd.cut(train["Age"], bins, labels = labels)
    test['AgeGroup'] = pd.cut(test["Age"], bins, labels = labels)
    
    #draw a bar plot of Age vs. survival
    sns.barplot(x="AgeGroup", y="Survived", data=train)
    plt.show()

![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy92STluWWU5NGZzRnFwM1pON2ptM05ydEpxZUpycTBuTWh2STFTbVd5b0FxRFVKQ0tMYk1oSFNTMWljN2cyQ3p0aWFNS0JaSmxIVXhKMzZWeW80OE5RWGJ3LzY0MA?x-oss-
process=image/format,png)
这张图表绘制用到了pandas的一个方法：cut（），可以用这个方法对数据进行切分，我们得到很显然的一个结论，婴儿的生存率神他妈高（我觉得很大一部分原因是不占空间）

1.2.5 仓位特征是否存在与生存率

这是个奇怪的指标，据作者描述：

I think the idea here is that people with recorded cabin numbers are of
higher socioeconomic class, and thus more likely to survive.

好吧我们看看：

    test["CabinBool"] = (test["Cabin"].notnull().astype('int'))
    
    #calculate percentages of CabinBool vs. survived
    print("Percentage of CabinBool = 1 who survived:", train["Survived"][train["CabinBool"] == 1].value_counts(normalize = True)[1]*100)
    
    print("Percentage of CabinBool = 0 who survived:", train["Survived"][train["CabinBool"] == 0].value_counts(normalize = True)[1]*100)
    #draw a bar plot of CabinBool vs. survival
    sns.barplot(x="CabinBool", y="Survived", data=train)
    plt.show()

>     Percentage of CabinBool = 1 who survived: 66.66666666666666
>     Percentage of CabinBool = 0 who survived: 29.985443959243085
>  
[/code]

![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy92STluWWU5NGZzRnFwM1pON2ptM05ydEpxZUpycTBuTVVHNjhNU2d4QXVhSFdHUEl3RkNzbGhRY1R2SmV0YldJeXd4VElOcWRkaWJpY3Z0aWMyenRCWk1Qdy82NDA?x-oss-
process=image/format,png)  

脑洞确实大，结果确实不赖~

###  1.2.6 热力图

我们还可以给数据画上美丽的热力图，虽然没什么卵用：

![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy92STluWWU5NGZzRnFwM1pON2ptM05ydEpxZUpycTBuTWZGYXlpYXVwZU9taWFFajkxZ1JyZzRheHoxRnI4NGhpY1JpYVR3ZHU4aDZkVXlaWDFpYVI3ZEJpYjRody82NDA?x-oss-
process=image/format,png)  

#  2. 数据预处理

##  2.1 拼接数据集

首先我们讲训练集中的Survived特征提取出来，这是我们需要预测的目标函数，这部分也是train_data和test_data的不同点，接着我们可以讲训练集和测试集的数据拼接起来一起进行数据预处理，当然在实际中我们是无从得知测试数据的，但在比赛中为了方便我们可以统一进行处理：

```code
    y_train = train_data.pop("Survived")
    data_all = pd.concat((train_data, test_data), axis=0)

2.2 处理Name特征，提取出Title

从左往右看我们首先可以看到Name这个特征是比较碍眼的，很多人可能直接把它去掉了，但仔细观察我们可以发现这一列特征里都含有名字的前缀，比如"Mr."，”Mrs.“，"Miss"等，只要学过小学一年级英语的都知道这个特征在一定程度上会代表阶级地位，婚配情况等，我们可以将这个特征做一个映射，实现方式如下：

    title = pd.DataFrame()
    title["Title"] = data_all["Name"].map(lambda name:name.split(",")[1].split(".")[0].strip())
    # title.head()
    Title_Dictionary = {
        "Capt":       "Officer",
        "Col":        "Officer",
        "Major":      "Officer",
        "Jonkheer":   "Royalty",
        "Don":        "Royalty",
        "Sir" :       "Royalty",
        "Dr":         "Officer",
        "Rev":        "Officer",
        "the Countess":"Royalty",
        "Dona":       "Royalty",
        "Mme":        "Mrs",
        "Mlle":       "Miss",
        "Ms":         "Mrs",
        "Mr" :        "Mr",
        "Mrs" :       "Mrs",
        "Miss" :      "Miss",
        "Master" :    "Master",
        "Lady" :      "Royalty"
    }
    title[ 'Title' ] = title.Title.map(Title_Dictionary)
    title = pd.get_dummies(title.Title)
    # title.head()
    data_all = pd.concat((data_all, title), axis=1)
    data_all.pop("Name")
    data_all.head()

上面这段是什么意思呢？我们可以将种类众多的头衔特征先进行归类，比如"Don"，“Sir”，”Jonkheer"这几个头衔出现的次数极低，大约每个出现次数只有不到十个，因此我们可以将意思相近的归为一类便于模型运行。然后我们用get_dummies将这些特征转为one-
hot向量，得到的结果如下：

![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy92STluWWU5NGZzRnFwM1pON2ptM05ydEpxZUpycTBuTVF5aWNFdVdRbkw5cERxTjZzaWFUZGljY0JlU2p4eXRLaWNGUDI3M3VWaWF2S0o3WDNTcllNaWJKdHdEZy82NDA?x-oss-
process=image/format,png)

2.3 提取其他特征

这个
Ticket特征比较麻烦懒得搞了，先把它删掉吧，然后Cabin特征应该是很有用的，你想想嘛我们在船的不同位置到安全通道的距离当然是会随着Cabin位置的不同而不同的，我们简单提取A、B、C、D这几个仓位来作为特征，而不考虑C85、C123中的数字（表示某个仓中的位置），当然由于有些船在A、B、C、D等仓位可能都有安全通道，我们可能提取后面的数字会更适合，为了方便我们先不做此讨论：

    data_all["Cabin"].fillna("NA", inplace=True)
    data_all["Cabin"] = data_all["Cabin"].map(lambda s:s[0])
    data_all.pop("Ticket")

前面也说了Pclass更适合作为One-hot型特征出现，我们先将之转换为字符型特征再进行归类，这里我们顺手把几个靠谱的类别标签做One-hot特征：

    data_all["Pclass"] = data_all["Pclass"].astype(str)
    feature_dummies = pd.get_dummies(data_all[["Pclass", "Sex", "Embarked", "Cabin"]])
    # feature_dummies.head()
    data_all.drop(["Pclass", "Sex", "Embarked", "Cabin"], inplace=True, axis=1)
    data_all = pd.concat((data_all, feature_dummies), axis=1)
    data_all.head()

于是我们将特征集合由原来的11列扩充到了27列，噢糟糕我们前面忘了做缺失值填充，不要紧我们现在做也不晚：

    mean_cols = data_all.mean()
    data_all = data_all.fillna(mean_cols)

这里是使用了平均值对Age和Embarked两个特征进行填充，由于Age刚好是数值型特征，这种填充方式是合理的，且Embarked只有两个缺失值，因此随便填充啦~不碍事的。

2.4 将训练集测试集重新分开

在模型搭建之前不要忘了之前我们拼在一起的训练集和测试集噢，还记得最开始读取数据的时候加入的index_col嘛，这里刚好派上用场啦：

    train_df = data_all.loc[train_data.index]
    test_df = data_all.loc[test_data.index]
    print(train_df.shape, test_df.shape)

打印结果是(891, 27) (418, 27)，符合原训练集测试集的大小，我们的粗略数据预处理就到此为止了，下面进行模型搭建～

3. 模型训练

3.1 Random Forest

首先导入sklearn的包

    from sklearn.ensemble import RandomForestClassifier
    from sklearn.model_selection import cross_val_score
    import sklearn

然后设置不同的树最大深度进行参数调优：

    %matplotlib inline
    depth_ = [1, 2, 3, 4, 5, 6, 7, 8]
    scores = []
    for depth in depth_:
        clf = RandomForestClassifier(n_estimators=100, max_depth=depth, random_state=0)
        test_score = cross_val_score(clf, train_df, y_train, cv=10, scoring="precision")
        scores.append(np.mean(test_score))
    plt.plot(depth_, scores)

![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy92STluWWU5NGZzRnFwM1pON2ptM05ydEpxZUpycTBuTURwM0dkZzZwaWJMcEFDUWUzdG9YRzZ4VmVlWW9MT2V5b1RVa2syU0tsT2ZUS3dOelEzeFJNWFEvNjQw?x-oss-
process=image/format,png)
得到了这样一张图，这张图大致反映了模型中树的最大深度以6为最佳，此时可以达到0.84左右的验证准确率，我们当然可以继续调整其他参数获得更优的结果，但接下来我们先继续讨论其他模型。

3.2 Gradient Boosting Classifier

代码和上面差不多：

    from sklearn.ensemble import GradientBoostingClassifier
    depth_ = [1, 2, 3, 4, 5, 6, 7, 8]
    scores = []
    for depth in depth_:
        clf = GradientBoostingClassifier(n_estimators=100, max_depth=depth, random_state=0)
        test_score = cross_val_score(clf, train_df, y_train, cv=10, scoring="precision")
        scores.append(np.mean(test_score))
    plt.plot(depth_, scores)

![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy92STluWWU5NGZzRnFwM1pON2ptM05ydEpxZUpycTBuTUJxRnl5cW55aEF2WjkzZm1TOExFR1BCaWNsU2FLMU44RFFBakFzaWNWaHJieERWbHdac3JOTldBLzY0MA?x-oss-
process=image/format,png) 成功率最高似乎接近0.82

3.3 Bagging

Bagging把很多小分类器放在一起，每个train随机的一部分数据，然后把它们的最终结果综合起来（多数投票制）

    from sklearn.ensemble import BaggingClassifier
    params = [1, 10, 15, 20, 25, 30, 40]
    test_scores = []
    
    for param in params:
        clf = BaggingClassifier(n_estimators=param)
        test_score = cross_val_score(clf, train_df, y_train, cv=10, scoring="precision")
        test_scores.append(np.mean(test_score))
    plt.plot(params, test_scores)

结果又不稳定又不好：

![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy92STluWWU5NGZzRnFwM1pON2ptM05ydEpxZUpycTBuTU1mSmliNTF5NzdRYUdRRm91VlBWMTZPRXNzaHd3aWFIUmxMUWRNWWlhOGY2TmpQZU5tZFVFQjNuUS82NDA?x-oss-
process=image/format,png)

3.4 RidgeClassifier

下面就不说废话了，一个个试就对了：

    from sklearn.linear_model import RidgeClassifier
    alphas = np.logspace(-3, 2, 50)
    test_scores = []
    
    for alpha in alphas:
        clf = RidgeClassifier(alpha)
        test_score = cross_val_score(clf, train_df, y_train, cv=10, scoring="precision")
        test_scores.append(np.mean(test_score))
    plt.plot(alphas, test_scores)

![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy92STluWWU5NGZzRnFwM1pON2ptM05ydEpxZUpycTBuTU1RWHlmY2RMRzBpY2Rab1hHWlN4M2RsUFJ4NzNhdlJaM0lTMHlpYU5aUmYwWjVpY3VZdm9CbUVHUS82NDA?x-oss-
process=image/format,png)

3.5 RidgeClassifier + Bagging

    ridge = RidgeClassifier(alpha=5)
    params = [1, 10, 15, 20, 25, 30, 40]
    test_scores = []
    
    for param in params:
        clf = BaggingClassifier(n_estimators=param, base_estimator=ridge)
        test_score = cross_val_score(clf, train_df, y_train, cv=10, scoring="precision")
        test_scores.append(np.mean(test_score))
    plt.plot(params, test_scores)

![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy92STluWWU5NGZzRnFwM1pON2ptM05ydEpxZUpycTBuTUE3UFZNNjFHTmozWjFtdWJSMkRsQThSOHVBNXdXdVN1bWRJTUtBeGROUFBZSGQ1d3RtbUNnZy82NDA?x-oss-
process=image/format,png)

结果比使用默认模型的Bagging策略稍好一些。

3.6 XGBClassifier

    from xgboost import XGBClassifier
    params = [1, 2, 3, 4, 5, 6]
    test_scores = []
    for param in params:
        clf = XGBClassifier(max_depth=param)
        test_score = cross_val_score(clf, train_df, y_train, cv=10, scoring="precision")
        test_scores.append(np.mean(test_score))
    plt.plot(params, test_scores)

![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy92STluWWU5NGZzRnFwM1pON2ptM05ydEpxZUpycTBuTVlpY3VXQWJYUlBqYzh3bkhrMFpMaWJ2MEp0cEVXMXpNUmljeFFxSGNxaWJqanppY1ppYnkzUmx6N20wQS82NDA?x-oss-
process=image/format,png)

3.7 神经网络

首先我们基于Keras搭建了一个简单的神经网络架构：

    import tensorflow as tf
    import keras
    from keras.models import Sequential
    from keras.layers import *
    
    tf.keras.optimizers.Adam(
        learning_rate=0.003, beta_1=0.9, beta_2=0.999, epsilon=1e-07, amsgrad=False,
        name='Adam',
    )
    model = Sequential()
    model.add(Dense(32, input_dim=train_df.shape[1],kernel_initializer = 'uniform', activation='relu'))
    model.add(Dense(32, kernel_initializer = 'uniform', activation = 'relu'))
    model.add(Dropout(0.4))
    model.add(Dense(32,kernel_initializer = 'uniform', activation = 'relu'))
    model.add(Dense(1, activation='sigmoid'))
        
    model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

然后将模型放入train_df进行训练得到结果：

    history = model.fit(np.array(train_df), np.array(y_train), epochs=20, batch_size=50, validation_split = 0.2)

最后一轮的结果为：

    Epoch 20/20
    712/712 [==============================] - 0s 43us/step - loss: 0.4831 - accuracy: 0.7978 - val_loss: 0.3633 - val_accuracy: 0.8715

可以看到实验结果还是不错的，我们看一看模型的架构：

    model.summary()

    Model: "sequential_1"
    _________________________________________________________________
    Layer (type)                 Output Shape              Param #
    =================================================================
    dense_1 (Dense)              (None, 32)                896
    _________________________________________________________________
    dense_2 (Dense)              (None, 32)                1056
    _________________________________________________________________
    dropout_1 (Dropout)          (None, 32)                0
    _________________________________________________________________
    dense_3 (Dense)              (None, 32)                1056
    _________________________________________________________________
    dense_4 (Dense)              (None, 1)                 33
    =================================================================
    Total params: 3,041
    Trainable params: 3,041
    Non-trainable params: 0
    _________________________________________________________________

测试模型：

    scores = model.evaluate(train_df, y_train, batch_size=32)
    print(scores)

    891/891 [==============================] - 0s 18us/step
    [0.4208374666645872, 0.8316498398780823]

可以看到效果和随机森林的最佳效果差不多。

4. 模型优化（调参）

后续我们可以通过对这些表现比较好的模型再进行第二层的学习获得更好的分数。

首先我们将之前获得的几个比较好的结果一一定好参数放上来（这里只随便调了一个参数）：

    from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier, BaggingClassifier, AdaBoostClassifier
    from xgboost import XGBClassifier
    from sklearn.model_selection import cross_val_score
    from sklearn.linear_model import RidgeClassifier
    import sklearn
    
    classifier_num = 5
    clf = [0 for i in range(classifier_num)]
    clf[0] = RandomForestClassifier(n_estimators=100, max_depth=6, random_state=0)
    clf[1] = GradientBoostingClassifier(n_estimators=100, max_depth=4, random_state=0)
    clf[2] = RidgeClassifier(5)
    clf[3] = BaggingClassifier(n_estimators=15, base_estimator=clf[2])
    clf[4] = XGBClassifier(max_depth=2)
    
    from sklearn.model_selection import train_test_split
    X_train, X_test, Y_train, Y_test = train_test_split(train_df, y_train, random_state=0)
    
    predictFrame = pd.DataFrame()
    for model in clf:
        model.fit(X_train, Y_train)
        predictFrame[str(model)[:13]] = model.predict(X_test)
    predictFrame.head()

![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy92STluWWU5NGZzRnFwM1pON2ptM05ydEpxZUpycTBuTWFzdjhGaWJjSHRxZUZTOGtuRW1WZ3VtYUhlaWFjY1AwMHFOZ0ZFWGpXcklBQUJWRGpuYlp5YmVBLzY0MA?x-oss-
process=image/format,png)

名字随意啦反正只要不重复就好了~然后将这个结果放入下一个分类器中学习，我没有试其他的就直接放进了随机森林分类器：

    %matplotlib inline
    depth_ = [1, 2, 3, 4, 5, 6, 7, 8]
    scores = []
    for depth in depth_:
        clf_ = RandomForestClassifier(n_estimators=100, max_depth=depth, random_state=0)
        test_score = cross_val_score(clf_, predictFrame, Y_test, cv=10, scoring="precision")
        scores.append(np.mean(test_score))
    plt.plot(depth_, scores)

![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy92STluWWU5NGZzRnFwM1pON2ptM05ydEpxZUpycTBuTVIxa25ZajYwbzhaVGM3VGV5M2liQkV4U0hmeDFzckw2WDgzenY4VU8yUjNPbTI1dEQ5dFpGZEEvNjQw?x-oss-
process=image/format,png)

好吧就定个参数为2，然后就将整体跑个结果试试：

    finalFrame = pd.DataFrame()
    XFrame = pd.DataFrame()
    for model in clf:
        model.fit(train_df, y_train)
        XFrame[str(model)[:13]] = model.predict(train_df)
        finalFrame[str(model)[:13]] = model.predict(test_df)
    final_clf = RandomForestClassifier(n_estimators=100, max_depth=2, random_state=0)
    final_clf.fit(XFrame, y_train)
    result = final_clf.predict(finalFrame)

将result和passengerId一起拼接成一个Dataframe就直接输出看结果吧，比之前没有融合直接用随机森林结果稍好一些，但我们只是用了几个简单的机器学习算法搞来搞去也没有认真调参，实际上还是有很多优化空间的，读者可以自行优化。

本文PDF和数据集后台回复" _Titanic _ "可下载

![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy92STluWWU5NGZzR3h1M1A1WWliVE84OTlva1MwWDlXYUxtUUN0aWE0VThFdTF4V0N6OXQ4UXRxOVBINlQxYlRjeGliaWFDSWtHekF4cGVSa1JGWXFpYlZtd1N3LzY0MA?x-oss-
process=image/format,png)

“干货学习，点赞三连 ↓

你可能感兴趣的:(数据分析)

Python 爬虫入门教程：从零构建你的第一个网络爬虫 m0_74825223 面试学习路线阿里巴巴 python 爬虫开发语言
网络爬虫是一种自动化程序，用于从网站抓取数据。Python凭借其丰富的库和简单的语法，是构建网络爬虫的理想语言。本文将带你从零开始学习Python爬虫的基本知识，并实现一个简单的爬虫项目。1.什么是网络爬虫？网络爬虫（WebCrawler）是一种通过网络协议（如HTTP/HTTPS）获取网页内容，并提取其中有用信息的程序。常见的爬虫用途包括：收集商品价格和评价。抓取新闻或博客内容。统计数据分析。爬
Python数据分析与程序设计-番外：在vscode中使用Jupyter Notebook 想当糕手 python 数据分析 vscode jupyter
前言在系列文章的第二篇中，我们介绍了使用“if__name__=="__main__":”来模拟c语言中的main函数+封装测试函数的方法来提高代码可读性。当然，这并不是最佳的选择，本篇博客为您将介绍更为高效便捷的工具，希望能对你有所帮助！关于JupyterNotebookJupyterNotebook是一个开源的Web应用程序，它允许你创建和共享包含实时代码、方程、可视化和解释性文本的文档。它是
《利用python进行数据分析》——3.1数据结构和序列——元组、列表、字典、集合——读书笔记 pillow_L python数据分析
第3章Python的数据结构、函数和文件3.1数据结构和序列Python中常见的数据结构可以统称为容器。序列（如列表和元组）、映射（如字典）以及集合（set）是三类主要的容器。1.元组——tuple元组是一个固定长度，不可改变的Python序列对象。元组与列表一样，也是一种序列，唯一不同的是元组不能被修改（字符串其实也有这种特点）元组Tuple，一经初始化，就不能修改，没有列表List中的appe
Numpy基础01（Jupyter基本用法/Ndarray创建与基本操作） XYX的Blog 数据分析与可视化 numpy jupyter
内容一：Jupyter开发环境IPython是一个增强型的Python交互式解释器，提供了自动补全、命令历史、魔法命令等功能。它支持与操作系统命令交互、内联绘图和多语言扩展，并可与JupyterNotebook集成，适用于数据分析和科学计算。IPython还支持远程访问、包管理和插件扩展，是一个功能强大且灵活的开发工具。JupyterNotebook是IPython的开发环境。1.1Jupyter
飞轮科技荣获中国电信星海大数据最佳合作伙伴奖！
近日，由中国电信集团数据发展中心主办的数据要素合作论坛在广州召开。大会以“数聚共生·智启未来”为主题，旨在展示数据要素应用成果，探索数据要素创新实践。与会期间，为了感谢2024年生态合作伙伴对中国电信数据业务发展工作的支持，会议举行了“星海大数据·最佳合作伙伴奖”颁奖仪式。飞轮科技凭借其在数据分析领域的卓越表现与深厚实力，获得这一殊荣。作为中国电信的长期合作伙伴，飞轮科技持续致力于为中国电信提供先
Python语言的编程范式 AI向前看包罗万象 golang 开发语言后端
Python语言的编程范式Python是一种广泛使用的高级编程语言，它因其简单易读的语法和强大的功能而受到程序员的喜爱。自1991年由荷兰人GuidolvanRossum首次发布以来，Python的发展迅速，其应用范围涵盖了Web开发、数据分析、人工智能、科学计算、自动化等多个领域。本文将深入探讨Python的编程范式，帮助读者更好地理解该语言的特性和优势。1.什么是编程范式编程范式是对程序设计风
云原生周刊：K8s 生产环境架构设计及成本分析 KubeSphere 云原生 k8s 容器平台 kubesphere 云计算
开源项目推荐KubeZoneNetKubeZoneNet旨在帮助监控和优化Kubernetes集群中的跨可用区（Cross-Zone）网络流量。这个项目提供了一种简便的方式来跟踪和分析Kubernetes集群中跨不同可用区的通信，帮助用户优化集群的网络架构、提高资源利用效率并减少网络延迟。通过实时监控和数据分析，KubeZoneNet能有效地识别跨可用区的网络瓶颈，并提供改进建议，以支持Kuber
多查询分析中的并发处理实践 FADxafs python
在进行查询分析时，某些技术可能会生成多个查询。在这种情况下，我们需要记得执行所有查询并合并结果。本文将通过一个简单的示例（使用模拟数据）展示如何实现这一点。技术背景介绍在数据分析和信息检索领域，查询分析技术能够帮助我们生成和优化查询以提高搜索效率。然而，当同时生成多个查询时，处理这些查询并有效地合并结果就显得尤为重要。本次我们将使用langchain库来演示如何处理多查询情况。核心原理解析通过生成
PHP语言的编程范式代码驿站520 包罗万象 golang 开发语言后端
PHP语言的编程范式引言PHP（PHP:HypertextPreprocessor）是一种广泛使用的开源脚本语言，特别适合于Web开发。虽然最初被设计用于生成动态网页，但随着技术的发展，PHP已逐渐演化为一种功能强大的编程语言，广泛应用于服务器端编程、命令行脚本以及桌面应用程序的开发。目前，PHP的应用范围涵盖了网站开发、数据分析、内容管理系统等多个领域。本文将深入探讨PHP语言的编程范式，包括面
Python气象数据分析：风速预报订正、台风预报数据智能订正、机器学习预测风电场的风功率、浅水模型、预测ENSO等小艳加油大气科学 python 人工智能气象机器学习
目录专题一Python和科学计算基础专题二机器学习和深度学习基础理论和实操专题三气象领域中的机器学习应用实例专题四气象领域中的深度学习应用实例更多应用Python是功能强大、免费、开源，实现面向对象的编程语言，在数据处理、科学计算、数学建模、数据挖掘和数据可视化方面具备优异的性能，这些优势使得Python在气象、海洋、地理、气候、水文和生态等地学领域的科研和工程项目中得到广泛应用。可以预见未来Py
探索泰坦尼克号生存分类数据集：机器学习与数据分析的完美起点岑童嵘
探索泰坦尼克号生存分类数据集：机器学习与数据分析的完美起点【下载地址】泰坦尼克号生存分类数据集本仓库提供了一个经典的机器学习数据集——泰坦尼克号生存分类数据集。该数据集包含两个CSV文件：训练集和测试集。数据集主要用于训练和评估机器学习模型，以预测泰坦尼克号乘客的生存情况项目地址:https://gitcode.com/open-source-toolkit/35561项目介绍泰坦尼克号生存分类数
【Python】Tkinter电器销售有限公司销售数据分析（源码）【独一无二】不争不抢不显不露 python 数据分析开发语言
一、设计要求该项目创建一个数据分析软件，利用Tkinter和Matplotlib构建图形用户界面（GUI），读取和分析美迪电器销售有限公司销售数据。用户可以通过界面选择月份查看数据详情、生成销量图表并计算月总销量和年总销量。二、设计思路2.模块引入首先引入了所需的模块，包括Tkinter（用于GUI创建和管理）、ttk（Tkinter主题化控件）、messagebox（用于弹出消息框）、panda
MDX语言的数据类型 BinaryBardC 包罗万象 golang 开发语言后端
MDX语言的数据类型详解引言MDX（多维表达式）是一种用于查询和操作多维数据集的查询语言，广泛用于数据分析和商业智能领域。MDX语言的设计旨在帮助用户高效地从多维数据库（如MicrosoftSQLServerAnalysisServices）中提取和分析数据。随着数据量的不断增加和数据结构的日益复杂，MDX提供了一种强大的方式来处理和分析这些多维数据。在MDX中，数据类型是理解和使用该语言的基础，
R语言的软件工程 BinaryBardC 包罗万象 golang 开发语言后端
R语言的软件工程1.引言随着数据科学的快速发展，R语言作为一种统计计算和图形绘制的编程语言，其在数据分析、可视化以及机器学习等领域的应用日益广泛。尽管R语言在数据处理上有其独特的优势，但要将其运用于大型项目和商业应用中，就需要遵循软件工程的原则。本篇文章将探讨R语言在软件工程中的应用，主要涵盖软件开发生命周期、代码规范、版本控制、测试和文档等方面。2.软件开发生命周期软件开发生命周期（SDLC）是
StarRocks Awards 2024 年度贡献人物开源
在过去一年，StarRocks在Lakehouse与AI等关键领域取得了显著进步，其卓越的产品功能极大地简化和提升了数据分析的效率，使得"OneData，AllAnalytics"的愿景变得更加触手可及。虽然实现这一目标的道路充满挑战且漫长，但我们并不孤单，因为有一群社区伙伴与我们并肩作战。每一位贡献者的代码提交和每一次的布道，都在推动着StarRocks社区向前发展。为了表达对这些贡献者的深深感
StarRocks on AWS Graviton3，实现 50% 以上性价比提升大数据数据库数据湖云计算云服务
在数据时代，企业拥有前所未有的大量数据资产，但如何从海量数据中发掘价值成为挑战。数据分析凭借强大的分析能力，可从不同维度挖掘数据中蕴含的见解和规律，为企业战略决策提供依据。数据分析在营销、风险管控、产品优化等领域发挥着关键作用,帮助企业提高运营效率、优化业务流程、发现新商机、增强竞争力。低成本高效率的完成对海量数据的分析，及时准确的释放数据价值，已成为企业赢得竞争优势的利器。StarRockson
对于编程零基础，第一个语言是 Python 的人有什么建议？ cda2024 python 开发语言
在当今数字化时代，编程已成为一项必备技能。无论你是想成为一名专业的软件开发人员，还是希望在数据分析、人工智能等领域有所建树，掌握一门编程语言都是至关重要的第一步。对于许多初学者来说，Python是一个理想的选择。它不仅语法简洁易懂，而且拥有强大的社区支持和丰富的库资源。那么，对于编程零基础且选择Python作为第一门语言的人，有哪些实用的建议呢？1.建立正确的学习心态1.1持之以恒学习编程并不是一
chatgpt赋能python：用Python安装Jupyter：让数据科学变得更加高效！ aijinglingchat ChatGpt python chatgpt jupyter 计算机
用Python安装Jupyter：让数据科学变得更加高效！对于数据科学家而言，jupyter是不可或缺的工具之一。它是一个基于web的交互式计算环境，可以帮助我们在Python中以一种轻松、方便、可交互的方式进行编程和数据分析。今天，我们将向您介绍在Python中如何安装jupyter。安装Python要安装jupyter，首先需要安装Python。如果您已经安装了Python，请跳到下一步。您可
Kylin入门教程 -龙川- 介绍学习笔记 kylin
引言ApacheKylin是一个开源的分布式分析引擎，提供Hadoop上的多维分析（OLAP）能力，使得超大规模数据集的实时查询和分析成为可能。它通过预计算数据立方体来加速查询，使得复杂查询可以在亚秒级响应。本文将详细介绍Kylin的基本概念、安装与配置、基本操作及高级功能，帮助你全面掌握这款强大的数据分析工具。第一部分：Kylin简介1.1什么是Kylin？Kylin是由eBay开发并捐赠给Ap
实战指南：使用Wireshark捕获并解密HTTPS数据包 md_1008 wireshark https 测试工具
在网络安全和数据分析领域，捕获和分析网络数据包是理解网络行为、诊断问题和进行安全审计的重要手段。HTTPS（HyperTextTransferProtocolSecure）作为现代Web通信的主要协议，通过SSL/TLS加密确保了数据的安全传输。然而，在某些情况下，如网络调试、安全测试或故障排除时，我们可能需要解密HTTPS数据包以查看其详细内容。本文将提供一份实战指南，教你如何使用Wiresha
AI赋能人力资源：效率提升新路径前端
引言人工智能(AI)正以前所未有的速度改变着各行各业，从自动驾驶到医疗诊断，AI的应用日益广泛。而人力资源领域，作为企业运营的核心环节，也正经历着AI带来的深刻变革。传统的人力资源管理面临诸多挑战，例如招聘效率低、候选人筛选精准度不足、员工培训成本高昂以及数据分析能力有限等。这些问题不仅影响企业的招聘速度和效率，也制约了企业的发展。为了应对这些挑战，越来越多的企业开始探索AI技术在人力资源领域的应
云原生周刊：K8s 生产环境架构设计及成本分析云计算
开源项目推荐KubeZoneNetKubeZoneNet旨在帮助监控和优化Kubernetes集群中的跨可用区（Cross-Zone）网络流量。这个项目提供了一种简便的方式来跟踪和分析Kubernetes集群中跨不同可用区的通信，帮助用户优化集群的网络架构、提高资源利用效率并减少网络延迟。通过实时监控和数据分析，KubeZoneNet能有效地识别跨可用区的网络瓶颈，并提供改进建议，以支持Kuber
【一点分享】Python数据分析（1）：Jupyterlab搭建，练习Python和Sql的神器。或许能用上 Python python sql mysql
在之前Mysql专栏分享过程中，一直用的Sequel客户端进行sql编写和说明注解，及时执行的结果不能保存，得写一条sql截图一次，麻烦。而Jupyterlab就可以很好解决这个问题，代码过程与执行结果都会相邻挨着保留，随时可以查看，导出或截图都非常方便。而且，Jupyterlab还天然支持Python环境，学Python甚是方便，单步执行和结果就是亮点。其他的shell等各种语言环境也可以安装插
如何抓取社交媒体上的公开用户信息：完整的Python爬虫教程与实战 Python爬虫项目媒体 python 爬虫 selenium 开发语言 ajax
引言社交媒体平台如Twitter、Instagram、Facebook和LinkedIn等，成为了现代社会中获取信息、表达观点、社交互动的主要场所。通过社交媒体，用户分享个人信息、兴趣、活动以及与他人的互动数据，极大地丰富了网络世界的内容。在数据分析、市场研究、舆情监控等领域，抓取社交媒体上的公开用户信息是非常重要的任务。对于很多数据科学家、市场分析师、爬虫开发者来说，如何高效地抓取社交媒体平台的
基于Python的股市数据爬取与分析：从实时行情到历史数据的完整教程 Python爬虫项目 2025年爬虫实战项目 python 数据挖掘开发语言爬虫 oracle 人工智能
引言股市投资是一项具有高度风险和回报的活动，实时行情和历史数据的获取是股市分析和决策的基础。随着数据科学和爬虫技术的迅速发展，许多投资者和分析师通过编写Python爬虫来获取股市数据，进行数据分析、技术分析和预测。无论是获取实时股市行情，还是分析股票的历史数据，Python都能为我们提供强大的工具支持。本篇博客将为你提供一个完整的股市数据爬取与分析教程，介绍如何利用Python爬虫获取实时股市行情
python爬虫短视频平台数据抓取：抓取视频和评论 Python爬虫项目 2025年爬虫实战项目 python 爬虫音视频网络爬虫开发语言
随着短视频平台如抖音、快手、TikTok等的兴起，越来越多的内容创作者和观众通过短视频平台分享和观看视频内容。短视频平台包含了丰富的数据，如视频内容、评论、点赞数、分享数等，这些数据对市场分析、用户行为分析、视频推荐算法等方面具有重要意义。抓取这些数据可以帮助我们获取平台的动态信息，为数据分析提供基础。本文将详细介绍如何使用Python编写爬虫抓取短视频平台上的视频和评论数据，包括技术栈选择、爬虫
minio免费文件管理器（windows版本），若依RuoYi-Vue-Plus框架使用，有需要的可以下载，因为官网下载特别慢程序员WANG 工具 windows vue.js 容器
MinIO是一款开源的对象存储系统，它提供类似AmazonS3的云存储服务，适用于各种规模的企业。MinIO设计为高性能、安全且易于使用，适合存储大量的非结构化数据，如图片、文档、视频以及大数据分析中的日志文件等。在本案例中，我们关注的是Windows版本的MinIO，它被集成到了若依RuoYi-Vue-Plus框架中，以实现文件管理功能。若依RuoYi-Vue-Plus是一个基于Vue.js的现
一个.NET开源、性能优异的Excel数据读取库 dotNET跨平台 excel
项目介绍Sylvan.Data.Excel是一个开源、免费、跨平台的.NET库，专注于读取和写入Excel数据文件。支持多种文件格式，并提供高效的数据访问和数据绑定功能。该库在.NET生态系统中是读取Excel数据文件的最快且内存分配最低的库之一。使用场景适用于需要从Excel文件中读取数据并进行进一步处理（如数据分析、报告生成等）的应用程序。适用于需要将数据从数据库或其他数据源导出到Excel文
SQL数据分析（简单版）编程星空扩展知识 sql 数据库
一、常见数据库分类（1）关系型数据库采用关系模型组织数据的数据库，以行和列的形式存储数据，形成数据表，一组数据表组成了数据库（2）非关系型数据库非关系型数据库在严格意义上不是一种数据库，应该是一种数据结构化存储方法的集合，可以是文档或者键值对等。二、数据库常用功能（1）表数据表是数据库中存储数据的基本组成单位，例如用户信息表、订单表、采购表等。（2）查询查询是数据库中应用最多的对象之一，最常用的功
水位监测系统|远程水位监测|水位自动监测 Susie酱科技自动驾驶物联网
计讯物联水位监测系统，远程自动化全方位实时监控。监测点部署包括：目标因子采集传感器及仪器仪表、无线采集通信终端-水利RTU、数据实时采集自动上报，管理人员可通过监控中心平台远程监控，动态掌握监测点水位信息，数据分析处理，为政策规划提供决策依据，异常数据告警提示避免水生态灾害。远程水位自动监测系统组成感知层：水位计、雨量计、流量计、工业摄像头、(水质检测仪)网络传输层：计讯物联水利RTU遥测终端应用
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {