Noby_Ng

深入分析泰坦尼克号分析生存率

背景

目标¶

数据字典

1.获取数据

2.探索数据

2.1.基本信息查看（Head, info）

2.2.数据清洗

2.3.数据探索及数据解释

3.数据建模

4.数据分析

5.总结

背景

泰坦尼克号：英国白星航运公司下辖的一艘奥林匹克级邮轮，于1909年3月31日在爱尔兰贝尔法斯特港的哈兰德与沃尔夫造船厂动工建造，1911年5月31日下水，1912年4月2日完工试航。
首航时间：1912年4月10日
航线：从英国南安普敦出发，途经法国瑟堡-奥克特维尔以及爱尔兰昆士敦，驶向美国纽约。
沉船：1912年4月15日（1912年4月14日23时40分左右撞击冰山）
船员+乘客人数：2224
遇难人数：1502（67.5%）

目标¶

建立决策树模型，按照乘客的特征预测该乘客是否会在此次事故中死亡。

数据字典

Survived	Definition	Details	Sex	Definition	Details
死亡	0	NA	男	0	<= 0.5
生还	1	NA	女	1	<= 1
Pclass			Embarked
一等位	1	<= 1.5	Cherbourg	0	<= 0.5
二等位	2	<= 2.5	Queenstown	1	<= 1
三等位	3	<= 3	Southampton	2	<= 2

为了更方便后续建立决策树模型，数据会转换成数字的形式。大纲可参考上表。以下会详细解释相关的数据。

PassengerId 乘客id
- 不存在很大的相关性，因此会进行删除。
Survived 是否获救
- 0=没有获救，1=有获救
- 获救：38.25%
- 遇难：61.75%（实际遇难比例：67.5%）
Pclass 船票级别
- 代表社会经济地位。 1：一等座位（），2 ：二等座位，3 ：三等座位
- 人数占比是一等座位（24.07%），二等座位（20.70%），三等座位（55.23%）
Sex 性别
- male 男 =0，female 女 =1
- 男 : 女 = 64.9% : 35.1%
Age 年龄（缺少20%数据）
- 幼儿(5.29%)
- 儿童(2.47%)
- 少年(12.37%)
- 青年(61.64%)
- 中年(15.41%)
- 老年(2.81%)
- 一般来说：0（初生）-6岁为婴幼儿；7-12岁为少儿；13-17岁为青少年；18-45岁为青年；46-69岁为中年；>69岁为老年。
SibSp 同行的兄弟姐妹或配偶总数
- 68%无，23%有1个 … 最多8个
Parch 同行的父母或孩子总数
- 76%无，13%有1个，9%有2个 … 最多6个
- Some children travelled only with a nanny, therefore parch=0 for them.
Ticket 票号（格式不统一）
- 示例：A/5 21171
- 示例：STON/O2. 3101282
Fare 票价
Embarked 登船港口
- C = Cherbourg（瑟堡）19%, Q = Queenstown（皇后镇）9%, S = Southampton（南安普敦）72%

衍生字段（部分，在后续代码中补充）

categories
- 以年龄进行划分

1.获取数据

from sklearn import tree
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt
import numpy as np
import graphviz
import seaborn as sns

"""读取数据及观察数据"""
data = pd.read_csv("C:\\Users\\DA21\\Eric_TDAS\\train.csv")

2.探索数据

2.1.基本信息查看（Head, info）

data.head()

data.info()

从上表中可以看到，因为PassengerID 和 Name， Ticket，Cabin等不太重要。且Cabin的缺失值严重，所以在2.2.会进行删除的操作

2.2.数据清洗

#将没有用的columns 删除
data.drop(["PassengerId","Name","Ticket","Cabin"],inplace = True, axis = 1)

#Age的列存在缺失值，因此要将缺失值进行填补。
data["Age"] = data["Age"].fillna(data["Age"].mean())

#看看Embarked的列有多少个值。然后并将其转换成list，以便后续将其转换成数字
label_1 = data["Embarked"].unique().tolist()
label_1

#将数据转换成 0 1 2 的形式
data["Embarked"] = data["Embarked"].apply(lambda x : label_1.index(x))

#看看Sez有多少个值，并在后续转换成数值
label_2 = data["Sex"].unique().tolist()
label_2

#将数值转换成 0 1 的形式，方便后续建模使用
data["Sex"] = data["Sex"].apply(lambda x : label_2.index(x))

2.3.数据探索及数据解释

#将年龄进行分类。方便数据探索
data["Survived"].replace(0, "死",inplace =True)
data["Survived"].replace(1, "生",inplace =True)
data["Pclass"].replace(1, "一等位",inplace =True)
data["Pclass"].replace(2, "二等位",inplace =True)
data["Pclass"].replace(3, "三等位",inplace =True)
data["Sex"].replace(0, "男",inplace =True)
data["Sex"].replace(1, "女",inplace =True)
data

import matplotlib as mpl

mpl.rcParams['font.family']='DFKai-SB' # 修改了全局变量
plt.style.use('grayscale')
s_pclass= data['Survived'].groupby(data['Pclass'])
s_pclass = s_pclass.value_counts().unstack()
# s_pclass = data.groupby(data['Survived'])['Pclass'].count()
s_pclass
fig = s_pclass.plot(kind='bar',stacked = True, colormap='tab20c',title='不同舱位的死亡人数。',fontsize=20)
fig.axes.title.set_size(20)

数据解释：三等位的死亡人数为最高，约490人，且死亡比例为78%。而一等位的死亡人数最低，约90人，且死亡比例为45%。其中二等位的死亡人数，约100人，死亡比例约50%。

s_sex = data['Survived'].groupby(data['Sex'])
s_sex = s_sex.value_counts().unstack()
# s_sex = s_sex[[1.0,0.0]]
fig = s_sex.plot(kind='bar',stacked = True, colormap='tab20c',title='男女的死亡率。',fontsize=20)

数据解释：女性的死亡人数最低，约为80人，死亡比率为27%。而男性的死亡人数及死亡比率较高，分别为460及92%。

#将年龄进行分类。
bins = [0,6, 12, 20,39,59,100]
group_names = ['幼儿', '儿童', '少年',"青年","中年","老年"]
data['categories'] = pd.cut(data['Age'], bins, labels = group_names)
data

mpl.rcParams['font.family']='DFKai-SB' # 修改了全局变量
plt.style.use('grayscale')
s_pclass= data['Survived'].groupby(data['categories'])
s_pclass = s_pclass.value_counts().unstack()
fig = s_pclass.plot(kind='bar',stacked = True, colormap='tab20c',title='不同年龄的死亡率。',fontsize=20)
fig.axes.title.set_size(20)

数据解释：青年，少男及中年分类的人死亡率约为50 - 60%，属于死亡人数最高的类别。最高死亡率的分类是儿童及老年分类的死亡比率约84%。反之，死亡率最低的是幼儿类，约17%。

plt.style.use('grayscale')
x = data["Survived"].value_counts()
fig = x.plot.pie(figsize=(8, 8),autopct='%.2f',colormap='tab20c',title='死亡比率。',fontsize=20)
fig.axes.title.set_size(25)

数据解释：整体死亡率超过60%，属于较高水平。

plt.style.use('grayscale')
x = data["Pclass"].value_counts()
fig = x.plot.pie(figsize=(8, 8),autopct='%.2f',colormap='tab20c', title='舱位等级的人数分配',fontsize=20)
fig.axes.title.set_size(25)

数据解释：三等位的人数占比最高，约55.23%，最低是二等位，约20.7%

plt.style.use('grayscale')
x = data["Sex"].value_counts()
fig = x.plot.pie(figsize=(8, 8),autopct='%.2f',colormap='tab20c', title='性别分布',fontsize=20)
fig.axes.title.set_size(25)

、

数据解释：乘客主要以男性为主，约64.9%。男女人数相差约为两倍。

plt.style.use('grayscale')
x = data["categories"].value_counts()
fig = x.plot.pie(figsize=(8, 8),autopct='%.2f',colormap='tab20c', title='性别分布',fontsize=20)
fig.axes.title.set_size(25)

数据解释：年龄分布主要集中在青年阶段，为61.64%。第二大群体占比是中年及少年群体，约为30%。最后占比最低的是儿童类别，约为2.47%。最高类别和最低类别相差约30倍

plt.figure(figsize=(20,15))
sns.heatmap(data.corr(),annot=True)

数据解释：从上表中可见，最高的正相关是 sex 与 survived，约0.54，属于中度相关性。在性别（sex）数据中，0 代表男性，1代表女性。也就是说，女性生存的几率比较高。其次是，Fare与 survived，约为0.25，属于弱相关系数，说明票价约高与生存率有一定的关系。而 Pclass 与 Survived，属于负相关，约，-0.34。属于弱相关系数。在座舱（Pclass）数据中，1代表一等座，2 代表二等座，3代表三等座。这说明，数值越大，存活率越低。换句话说，三等座的死亡人数较高，这也符合逻辑推理。

总结2.2数据探索及数据解释部分，并提出相关问题。

问题1：为什么女性的生存率比男性较高？

从文化层面而言，英国较为重视绅士文化，从而令女性在此次事故中有较低的死亡率（27%）。

众所周知，英国绅士文化起源于古希腊和古代罗马。古希腊人为世界留下了丰富的文化遗产，是西方文明的摇篮文化。在希腊时期，有美德的贵族被称为绅士。他们认为绅士应该具备高尚的品质，如智慧、正义、勇气、宽容和好心。古罗马文明是古希腊文化的忠实学生，他继承了古希腊文化的余辉，他们追求民族特色，德性美德，国家忠贞，勇于牺牲的爱国主义和爱国精神，讲求严明的纪律，讲究秩序和法治观念，威严、庄重，这些都是罗马时代绅士最重要的品质。就是这种根深蒂固的文化精神，从而培养了他们十分尊重及保护女士的核心价值观。当他们在面对这次事故，他们会优先的将生存的位置留给了女性。这也是为什么， Survived 和 Sex 之前有0.54的中度正相关性。这意味着，当你是女性的时候，生存率便会更高。在男女死亡率中，男性高死亡率（73%）的数据也印证了这一观点。

问题2：为什么舱位的等级较低的生存率较低？

从船体结构而言，救生艇甲板主要集中在最上层，间接导致了第三舱位的死亡人数较高。

船体的进水位置主要是经最底部渗透进来，而这个位置恰好便是第三舱位。这大大的缩减了他们可逃亡的时间。因为他们需要跑到救生艇甲板，乘坐救生艇离开。此外，救生艇的数量大大不足，数量只能够一半的人使用。所以当第三舱位的人历尽辛苦跑到了顶层，可能也会因为缺少救生艇而无法获救。就算他们选择跳船，在极冷的天气下，他们也很难活到最后。这也就是为什么数据中指出，第三舱位的死亡率最高，约78%。而在相关系数表中，生存（Survived ）和舱位（Pclass）之前存在负弱相关系数。这说明，舱位等级的数值越高（在数据中，高数值代表舱位等级较低），则生存率越低。此外，生存（Survived ）和船票（Fare）之前存在弱相关性，这说明生存率越高，则船票越高。

3.建模

Part A:决策树

1.1 决策树建模

#进行建模，用X的特征预测Y的值
x = data[["Pclass","Sex","Age","SibSp","Fare","Embarked"]]
y = data["Survived"]

#用train_test_split的方法拆分数据集
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size = 0.2)

#因为拆分后的train 和 test数据集的index会混乱，所以将数据集的index 进行重新排序
for i in [x_train, x_test, y_train, y_test]:
    i.index = range(i.shape[0])

#建立模型，并 fit 模型
clf = DecisionTreeClassifier(random_state = 0)
clf.fit(x_train,y_train)

#看看，train  test split 的模型分数是多少。
score_1 = clf.score(x_test,y_test)
score_1

#用交叉验证，看看模型的分数
score_2 = cross_val_score(clf,x,y, cv = 10).mean()
score_2

两者的分数差异并不大，因此是属于可以接受的阶段

1.2 决策树简单调参

#看看train test split 和 cross validation （交叉验证）是否出现差异很大的情况
#并希望看看有没有过拟合的情况，以及找出最优的分数
tr = []
td = []

for i in range(10):
    clf = DecisionTreeClassifier(random_state=(25), max_depth=(i +1),criterion="entropy",min_samples_leaf =16)
    clf.fit(x_train,y_train)
    
    score_tr = clf.score(x_train,y_train)
    score_td = cross_val_score(clf, x,y,cv =10).mean()
    
    tr.append(score_tr)
    td.append(score_td)
print(max(td))
plt.plot(range(1,11),tr, color = "red",label ="train")
plt.plot(range(1,11),td, color = "blue",label ="test")
plt.legend()
plt.show()

根据上图可见，在没有过拟合的情况下， max_depth在等于3的时候是模型有效度最高的时候。因此接下来调节参数，在max_depth传入3的参数

1.3 决策树网格搜索调参

3.3.1 网格搜索 - 所有参数

#利用网格搜索相关参数，找出最优的参数。
gini_thresholds = np.linspace(0,0.5,20)
parameters = {'splitter':('best','random')
                ,'criterion':("gini","entropy")
                ,"max_depth":[*range(1,10)]
                ,'min_samples_leaf':[*range(1,50,5)]
                ,'min_impurity_decrease':[*np.linspace(0,0.5,20)]
}
clf = DecisionTreeClassifier(random_state=25)
GS = GridSearchCV(clf, parameters, cv=10)
GS.fit(x_train,y_train)
X = GS.best_params_
Y = GS.best_score_
print("best_params_:%s best_score_:%s " % (X,Y))

将上面的参数输入在下表中，得到了模型的参数

#把上面得到的参数，输入在模型中
clf_best =tree.DecisionTreeClassifier(random_state=25
                                 ,criterion = "gini"
                                 , max_depth = 3
                                 , min_impurity_decrease= 0.0
                                 , min_samples_leaf =  1
                                 , splitter = "best"                       
                                 )
clf_best.fit(x_train, y_train)
clf_socre = clf_best.score(x_train, y_train)

找出最优的参数，但是这是在设计5个参数下调节出来的最优参数。但我们仍然需要一个个的调节参数，是否会存在更高的分数。

1.3.2 网格搜索 - 一个个参数进行

#min_samples_leaf的最优参数测试。结果比全部参数搜索的0.8360128617363344要低，因此不选择这个参数
parameters = {'min_samples_leaf':[*range(1,50,5)]
}
clf = DecisionTreeClassifier(random_state=25, max_depth = 3)
GS = GridSearchCV(clf, parameters, cv=10)
GS.fit(x_train,y_train)
X = GS.best_params_
Y = GS.best_score_
print("best_params_:%s best_score_:%s " % (X,Y))

这个分数比全部参数调参的0.8360128还要低，所以这个参数无需调整

#min_samples_leaf的最优参数测试。结果比全部参数搜索的0.8360128617363344要低，因此不选择这个参数
parameters = {'min_samples_leaf':[*range(1,50,5)]
}
clf = DecisionTreeClassifier(random_state=25, max_depth = 3)
GS = GridSearchCV(clf, parameters, cv=10)
GS.fit(x_train,y_train)
X = GS.best_params_
Y = GS.best_score_
print("best_params_:%s best_score_:%s " % (X,Y))

这个分数比全部参数调参的0.8360128还要低，所以这个参数无需调整

#k看x 的值排列如何，以便后续决策树可视化敲定feature name的时候用
x.columns

#min_impurity_decrease的分数和min_samples_leaf的分数一样，且低于原本的。所以并不适用
parameters = {'min_impurity_decrease':[*np.linspace(0,0.5,20)]
}
clf = DecisionTreeClassifier(random_state=25, max_depth = 3)
GS = GridSearchCV(clf, parameters, cv=10)
GS.fit(x_train,y_train)
X = GS.best_params_
Y = GS.best_score_
print("best_params_:%s best_score_:%s " % (X,Y))

结论：综合全部参数进行网格搜索和一个个参数进行网格搜索，我们发现还是全部参数进行网格搜索的准确率最高

3.4 决策树可视化及预测

Step 1：确定 class name

#看看y值是如何排序的，方便后续敲定class_name的时候用
y.unique()

Step 2：建模最有效的模型

#利用网格搜索相关参数，找出最优的参数。
gini_thresholds = np.linspace(0,0.5,20)
parameters = {'splitter':('best','random')
              ,'criterion':("gini","entropy")
              ,"max_depth":[*range(1,10)]
              ,'min_samples_leaf':[*range(1,50,5)]
              ,'min_impurity_decrease':[*np.linspace(0,0.5,20)]
}
clf = DecisionTreeClassifier(random_state=25)
GS = GridSearchCV(clf, parameters, cv=10)
GS.fit(x_train,y_train)
X = GS.best_params_
Y = GS.best_score_
print("best_params_:%s best_score_:%s " % (X,Y))

Step 3：根据模型，可视化决策树。

#需要特别注意class_name 和 feature_names的排列。否则会出现很大的失误
feature_name =["舱位","性别","年龄","堂兄弟/妹个数","船费","登船地区"]
dot_data = tree.export_graphviz(clf
                        
                                , feature_names = feature_name
                                , class_names = ["死","生"]
                                , filled = True#圆头的意思
                                , rounded =True#颜色的意思
                                )

graphviz.Source(dot_data)

说了那么多，到底你是否能在那场灾难中存活呢？这涉及许多因素，也许很多人说，只要你是女的，有钱，那就能存活了。那事实真的如此吗？以下，我将会以决策树进行分析不同背景的人士，并指出他是否能存活。

个人特别喜欢刘德华，那就看看刘德华是否能存活吧。

刘德华：年纪59岁，比较富有，我相信他会买一级座位，然后船票大概300元。

刘德华是否能存活？答案是不能。

根据刘德华的特点代入，他只有死路一条哈哈。

那换个女的吧。我们假设小花，今年十八岁，比较穷，买的第三舱位，票价大概30元。

那我们看看，他能不能存活吧。

小花还是挂了。。。。

如果根据决策树进行分析的话，

条件1：只要你性别是男生，且年龄小于10岁，而兄弟姐妹数量小于2.5个，你才能存活，否则，只要你是个男的，你就挂了。

条件2： 你是个女生，且不太穷，买的舱位是一级和二级座位，那么恭喜你，你是基本能活下来的。反而如果你穷点，买的是三级座位且票价小于23.5元，那么你还有几率活下来，否则只有等死。

接下来会进行更深入的分析，比如模型调参，对比以及按照每个人的条件，预测该人是否会死亡。

3.5 决策树预测

假设1 ：小明特点如下

1.座位等级（pclass）是一等位（1）

2.是男生（0）

3.在Southampton上船（2）

4.年龄大概20岁

5.船票80元

6.独生子女

假设2 ：小美特点如下

1.座位等级（pclass）是二等位（2）

2.是男生（1）

3.在Questown上船（1）

4.年龄大概50岁

5.船票19元

6.两个孩子（2）

假设3 ：老黄特点如下

1.座位等级（pclass）是三等位（3）

2.是女生（1）

3.在Questown上船（1）

4.年龄大概90岁

5.船票380元

6.两个孩子（4）

假设4 ：大白特点如下

1.座位等级（pclass）是三等位（1）

2.是女生（1）

3.在Questown上船（1）

4.年龄大概32岁

5.船票100元

6.一个孩子（1）

假设5 ：大白特点如下

1.座位等级（pclass）是三等位（3）

2.是女生（0）

3.在Questown上船（1）

4.年龄大概88岁

5.船票5元

6.一个孩子（0）

#决策树的预测
detail_information_2 =[[1,0,20,0,80,2],[2,1,50,2,19,1],[3,1,90,4,380,1],[1,1,32,1,100,1],[3,0,88,0,5,1]]#相关的值
name_2 = ["小明","小美","老黄","大白","Ache"]#人名

predict_survived_2 = rfc.predict(detail_information_2)#预测死或者生
predict_survived_2 = list(predict_survived_2)#将值转换成list
information_2 = pd.DataFrame(detail_information_2)#将数据存入DataFrame
information_2["预测结果"] = predict_survived_2#将死亡记录写入DataFrame
information_2.rename(columns={0:"座位等级",1:"性别",2:"年龄",3:"兄弟姐妹人数",4:"票价",5:"上船的港口"},inplace = True)


predict_proba_2 = rfc.predict_proba(detail_information_2)#预测
predict_proba_2 = pd.DataFrame(predict_proba_2)#将数值转换成DataFrame
predict_proba_2.rename(columns={0:"死亡几率",1:"生存几率"},inplace =True)#修改列名
full_information_2 =  pd.concat([information_2, predict_proba_2], axis=1)#将两个DataFrame进行合并

full_information_2["预测结果"].replace(0, "死",inplace =True)
full_information_2["预测结果"].replace(1, "生",inplace =True)
full_information_2["座位等级"].replace(1, "一等位",inplace =True)
full_information_2["座位等级"].replace(2, "二等位",inplace =True)
full_information_2["座位等级"].replace(3, "三等位",inplace =True)
full_information_2["性别"].replace(0, "男",inplace =True)
full_information_2["性别"].replace(1, "女",inplace =True)
full_information_2["上船的港口"].replace(0, "瑟堡-奥克特维尔 ",inplace =True)
full_information_2["上船的港口"].replace(1, "皇后镇",inplace =True)
full_information_2["上船的港口"].replace(2, "南安普敦",inplace =True)


full_information_2.index = name_2

Part B. 随机森林建模

2..1 随机森林建模

rfc = RandomForestClassifier(n_estimators = 100, random_state = 90)

score_rfc = cross_val_score(rfc,x,y,cv =10).mean()
score_rfc

简单跑一下模型，得分为81分，效果还可以。接下来会进行简单的调参，确定n_estimator数值是多少

2.2 随机森林-确定最优estimator

"""
在这里我们选择学习曲线，可以使用网格搜索吗？可以，但是只有学习曲线，才能看见趋势
我个人的倾向是，要看见n_estimators在什么取值开始变得平稳，是否一直推动模型整体准确率的上升等信息
第一次的学习曲线，可以先用来帮助我们划定范围，我们取每十个数作为一个阶段，来观察n_estimators的变化如何
引起模型整体准确率的变化
"""
scorel = []
for i in tqdm( range(0,200,10), "updating"):
    rfc = RandomForestClassifier(n_estimators=i+1
#                                  ,n_jobs=-1
                                 ,random_state=90)
    score = cross_val_score(rfc,x,y,cv=10).mean()
    scorel.append(score)
print(max(scorel),(scorel.index(max(scorel))*10)+1)#因为每十次循环一次，所以要×10，加1是因为 index 从零开始
plt.figure(figsize=[20,5])
plt.plot(range(1,201,10),scorel)
plt.show()

在n_estimator 等于 61 的情况下，最佳的分数是0.820045. 但是由于这个是每10次循环一次，可能仍然会存在不准确的情况。所以下面会用 50 到 70 之间的range，再跑一次，看看有没有更优的n_estimator

#看看n_extimator附近参数是否还有的提高。
#结果是没有提高的。
scorel = []
for i in tqdm (range(50,70),"updating"):
    rfc = RandomForestClassifier(n_estimators=i,
                                 n_jobs=-1,
                                 random_state=90)
    score = cross_val_score(rfc,x,y,cv=10).mean()
    scorel.append(score)
print(max(scorel),([*range(50,70)][scorel.index(max(scorel))]))
plt.figure(figsize=[20,5])
plt.plot(range(50,70),scorel)
plt.show()

数据并没有变化，因此，会在接下来使用n_estimator 等于 61的情况下，进行网格搜索

2.3网格搜索-确定最优参数


#利用网格搜索max_depth参数，找出最优的参数。
parameters = {
              'max_depth':np.arange(1, 20, 1)

}
rfc = RandomForestClassifier(n_estimators = 61, random_state = 90)
GS = GridSearchCV(rfc, parameters, cv=10)
GS.fit(x,y)
X = GS.best_params_
Y = GS.best_score_
print("best_params_:%s best_score_:%s original:0.8200459652706844 " % (X,Y))

可以看到max_depth 等于9的时候，分数有所提升。因此接下来的测试会增加这个参数进行网格搜索。

#利用网格搜索max_depth参数，找出最优的参数。
parameters = {
              'min_samples_split':np.arange(2, 2+20, 1)

}
rfc = RandomForestClassifier(n_estimators = 61
                             ,random_state = 90
                             ,max_depth= 9)
GS = GridSearchCV(rfc, parameters, cv=10)
GS.fit(x,y)
X = GS.best_params_
Y = GS.best_score_
print("best_params_:%s best_score_:%s original:0.8200459652706844 adjust_depth:0.8357635342185905 " % (X,Y))

可以看到max_sample_split 等于8的时候，分数有所提升。接下来会利用得到的参数，进行数据建模

2.4 随机森林predict

2.4.1 数据建模

x = data[["Pclass","Sex","Age","SibSp","Fare","Embarked"]]
y = data["Survived"]
rfc = RandomForestClassifier(n_estimators = 61
                             ,random_state = 90
                             ,max_depth= 9
                             ,min_samples_split = 8).fit(x,y)
rfc_score = cross_val_score(rfc,x,y,cv =10).mean()
rfc_score

2.4.2 数据预测

假设1 ：小明特点如下

1.座位等级（pclass）是一等位（1）

2.是男生（0）

3.在Southampton上船（2）

4.年龄大概20岁

5.船票80元

6.独生子女

假设2 ：小美特点如下

1.座位等级（pclass）是二等位（2）

2.是男生（1）

3.在Questown上船（1）

4.年龄大概50岁

5.船票19元

6.两个孩子（2）

假设3 ：老黄特点如下

1.座位等级（pclass）是三等位（3）

2.是女生（1）

3.在Questown上船（1）

4.年龄大概90岁

5.船票380元

6.两个孩子（4）

假设4 ：大白特点如下

1.座位等级（pclass）是三等位（1）

2.是女生（1）

3.在Questown上船（1）

4.年龄大概32岁

5.船票100元

6.一个孩子（1）

#随机森林的预测
detail_information =[[1,0,20,0,80,2],[2,1,50,2,19,1],[3,1,90,4,380,1],[1,1,32,1,100,1]]#相关的值
name = ["小明","小美","老黄","大白"]#人名

predict_survived = rfc.predict(detail_information)#预测死或者生
predict_survived = list(predict_survived)#将值转换成list
information = pd.DataFrame(detail_information)#将数据存入DataFrame
information["预测结果"] = predict_survived#将死亡记录写入DataFrame
information.rename(columns={0:"座位等级",1:"性别",2:"年龄",3:"兄弟姐妹人数",4:"票价",5:"上船的港口"},inplace = True)


predict_proba = rfc.predict_proba(detail_information)#预测
predict_proba = pd.DataFrame(predict_proba)#将数值转换成DataFrame
predict_proba.rename(columns={0:"死亡几率",1:"生存几率"},inplace =True)#修改列名
full_information =  pd.concat([information, predict_proba], axis=1)#将两个DataFrame进行合并

full_information["预测结果"].replace(0, "死",inplace =True)
full_information["预测结果"].replace(1, "生",inplace =True)
full_information["座位等级"].replace(1, "一等位",inplace =True)
full_information["座位等级"].replace(2, "二等位",inplace =True)
full_information["座位等级"].replace(3, "三等位",inplace =True)
full_information["性别"].replace(0, "男",inplace =True)
full_information["性别"].replace(1, "女",inplace =True)
full_information["上船的港口"].replace(0, "瑟堡-奥克特维尔 ",inplace =True)
full_information["上船的港口"].replace(1, "皇后镇",inplace =True)
full_information["上船的港口"].replace(2, "南安普敦",inplace =True)


full_information.index = name

根据上表的假设下，得出了是否死亡的结果，并附有死亡及生存几率

Part A 及 Part B的总结：决策树和随机森林的预测结果，差异并不大。可能两个模型的有效度并不高。

5.模型对比

#可视化看看那个model有效度比较高
score = [clf_socre,rfc_score]
model_name = ["DecisionTree","RandomForest"]
plt.style.use('grayscale')
plt.bar(model_name,score)

可以看到两者的高度差不多，难以分出高下，因此笔者用了饼图进行比较。

plt.figure(figsize=(6,9)) #调节图形大小
colors = ['red','yellowgreen']
plt.pie(score,labels= model_name,colors = colors,autopct = '%3.2f%%')

可以看到随机森林的有效度更高。所以在做预测的时候，会优先选取随机森zuo'we

5.总结

根据决策树可视化而言，只要是男生，死亡率会很高。一般十岁以下的男生能存活，反之基本会挂。而且，女生的话，只有中上阶级的人才能存活，这也符合正常的逻辑推理。

根据决策树及随机森林的预测值来看，主要都是女性及一等位的人存活率越高，还有就是无论那个舱位，男性的死亡率都很高。但是，男性在第三座位死亡率是最高，反之最低是一等位。但是，一等位的死亡率也过半，属于高水平。

而随机森林的有效度更为的高，但是比决策树高的并不多。

你可能感兴趣的:(Python,机器学习,Skelarn,决策树,大数据,数据分析,python,vbscript)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">