csqazwsxedc

Titanic数据分析报告

1.1 数据加载与描述性统计

加载所需数据与所需的python库。

import statsmodels.api as sm
import statsmodels.formula.api as smf
import statsmodels.graphics.api as smg
import patsy
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from pandas import Series,DataFrame
from scipy import stats
import seaborn as sns

train = pd.read_csv("D:/学习/数据挖掘与机器学习/Titanic/train.csv")

数据集中共有12个字段，PassengerId：乘客编号，Survived：乘客是否存活，Pclass：乘客所在的船舱等级；Name：乘客姓名，Sex：乘客性别，Age：乘客年龄，SibSp：乘客的兄弟姐妹和配偶数量，Parch：乘客的父母与子女数量，Ticket：票的编号，Fare：票价，Cabin：座位号，Embarked：乘客登船码头。共有891位乘客的数据信息。其中277位乘客的年龄数据缺失，2位乘客的登船码头数据缺失，687位乘客的船舱数据缺失。

train.head()

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked
0	1	0	3	Braund, Mr. Owen Harris	male	22	1	A/5 21171	7.2500	NaN	S
1	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th…	female	38	1	PC 17599	71.2833	C85	C
2	3	1	3	Heikkinen, Miss. Laina	female	26	0	STON/O2. 3101282	7.9250	NaN	S
3	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35	1	113803	53.1000	C123	S
4	5	0	3	Allen, Mr. William Henry	male	35	0	373450	8.0500	NaN	S

train.info()

train.describe()

	PassengerId	Survived	Pclass	Age	SibSp	Parch	Fare
count	891.000000	891.000000	891.000000	714.000000	891.000000	891.000000	891.000000
mean	446.000000	0.383838	2.308642	29.699118	0.523008	0.381594	32.204208
std	257.353842	0.486592	0.836071	14.526497	1.102743	0.806057	49.693429
min	1.000000	0.000000	1.000000	0.420000	0.000000	0.000000	0.000000
25%	223.500000	0.000000	2.000000	20.125000	0.000000	0.000000	7.910400
50%	446.000000	0.000000	3.000000	28.000000	0.000000	0.000000	14.454200
75%	668.500000	1.000000	3.000000	38.000000	1.000000	0.000000	31.000000
max	891.000000	1.000000	3.000000	80.000000	8.000000	6.000000	512.329200

1.2单变量探索

1.2.1 年龄与费用

画出训练集中乘客年龄和费用的分布直方图，如下所示。可以发现，大部分乘客的年龄位于20-40岁之间，总体上呈正态分布。大部分乘客的票价很低，位于0-100之间，其他少部分乘客的票价较高。

fig,ax = plt.subplots(nrows=1,ncols=2,figsize=(15,5))
train["Age"].hist(ax=ax[0])
ax[0].set_title("Hist plot of Age")
train["Fare"].hist(ax=ax[1])
ax[1].set_title("Hist plot of Fare")

<matplotlib.text.Text at 0x7672e4e588>

1.2.2 乘客是否获救

画出乘客获救与没有获救的条形图，如下所示。可以发现，大部分乘客没有获救。

fig,ax = plt.subplots(figsize=(7,5))
train["Survived"].value_counts().plot(kind="bar")
ax.set_xticklabels(("Not Survived","Survived"),  rotation= "horizontal" )
ax.set_title("Bar plot of Survived ")

<matplotlib.text.Text at 0x7673102940>

1.2.3 性别

画出乘客性别条形分布图，如下所示。可以发现，大部分乘客为男性。

fig,ax = plt.subplots(figsize=(7,5))
train["Sex"].value_counts().plot(kind="bar")
ax.set_xticklabels(("male","female"),rotation= "horizontal"  )
ax.set_title("Bar plot of Sex ")

<matplotlib.text.Text at 0x767307af60>

1.2.4 乘客所在的船舱等级

画出乘客的Pclass条形分布图，如下所示。可以发现，大部分乘客位于第三等级，第一等级和第二等级的乘客各有200个左右。

fig,ax = plt.subplots(figsize=(7,5))
train["Pclass"].value_counts().plot(kind="bar")
ax.set_xticklabels(("Class3","Class1","Class2"),rotation= "horizontal"  )
ax.set_title("Bar plot of Pclass ")

<matplotlib.text.Text at 0x76731587b8>

1.2.5 乘客座位号

对乘客座位号数据进行处理，将缺失值赋值为Unknown。从乘客座位号数据可以发现，第一个字母可能代表了船舱号码，将该字符提取出来，赋值给Cabin，视为船舱号。

train.Cabin.fillna("Unknown",inplace=True)
for i in range(0, 891):
    train.Cabin[i]= train.Cabin[i][0]

D:\software\新建文件夹 (4)\lib\site-packages\ipykernel\__main__.py:3: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy app.launch_new_instance() 画出乘客的船舱号的条形分布图，如下所示。可以发现，大部分乘客的船舱号为未知。

fig,ax = plt.subplots(figsize=(7,5))
train.Cabin.value_counts().plot(kind="bar")
ax.set_title("Bar plot of Cabin ")

<matplotlib.text.Text at 0x76731bd908>

1.2.6 兄弟姐妹与配偶数目

画出乘客兄弟姐妹与配偶数目的条形分布图，如下所示。可以发现，大部分乘客在船上没有兄弟姐妹或配偶，大约200位乘客在船上有1个兄弟姐妹或配偶。

fig,ax = plt.subplots(figsize=(7,5))
train["SibSp"].value_counts().plot(kind="bar")
ax.set_title("Bar plot of SibSp ")

<matplotlib.text.Text at 0x76713d7438>

1.2.7 父母与子女数目

画出乘客父母与子女数目的条形分布图，如下所示。可以发现，大部分乘客在船上没有父母或子女，100多位乘客在船上有1个兄弟姐妹或配偶，大约90位乘客在船上有2个兄弟姐妹或配偶。

fig,ax = plt.subplots(figsize=(7,5))
train["Parch"].value_counts().plot(kind="bar")
ax.set_title("Bar plot of Parch ")

<matplotlib.text.Text at 0x7671457ef0>

1.2.8 乘客出发港口

画出乘客出发港口的分布条形图，如下所示。可以发现，大部分乘客从Southampton港口出发，不到200位乘客从Cherburge出发，不到100位乘客从Queentown出发。

fig,ax = plt.subplots(figsize=(7,5))
train["Embarked"].value_counts().plot(kind="bar")
ax.set_xticklabels(("Southampton","Cherbourg","Queenstown"),rotation= "horizontal"  )
ax.set_title("Bar plot of Embarked ")

<matplotlib.text.Text at 0x76714d9ac8>

1.3 多变量探索

1.3.1 性别与是否获救

画出性别与是否获救的交叉表和条形图，如下所示。可以发现，女性获救的可能性更高，而男性获救的比例很低。

pd.crosstab(train["Sex"],train["Survived"])

Survived	0	1
Sex
female	81	233
male	468	109

pd.crosstab(train["Sex"],train["Survived"]).plot(kind="bar")

<matplotlib.axes._subplots.AxesSubplot at 0x76714d0d68>

1.3.2 船舱等级与是否获救

画出船舱等级与是否获救的交叉表与条形图，如下所示。可以发现，第一等级的乘客获救的可能性更高，超过50%，第二等级的乘客获救可能性在50%左右，而第三等级的乘客获救可能性很低。

pd.crosstab(train["Pclass"],train["Survived"])

Survived	0	1
Pclass
1	80	136
2	97	87
3	372	119

pd.crosstab(train["Pclass"],train["Survived"]).plot(kind="bar")

<matplotlib.axes._subplots.AxesSubplot at 0x76741cbf98>

1.3.3 兄弟姐妹或配偶数量与是否获救

画出兄弟姐妹与配偶数目与是否获救的交叉表与条形图，如下所示。可以发现，有数量为1或2的乘客获救的可能性更高。

pd.crosstab(train["SibSp"],train["Survived"])

Survived	0	1
SibSp
0	398	210
1	97	112
2	15	13
3	12	4
4	15	3
5	5	0
8	7	0

pd.crosstab(train["SibSp"],train["Survived"]).plot(kind="bar")

<matplotlib.axes._subplots.AxesSubplot at 0x76714a9d68>

1.3.4 父母或子女数目和是否获救

画出父母或子女数目与是否获救的交叉表与条形图，如下所示。可以发现，有数量为1或2的乘客获救的可能性更高。

pd.crosstab(train["Parch"],train["Survived"])

Survived	0	1
Parch
0	445	233
1	53	65
2	40	40
3	2	3
4	4	0
5	4	1
6	1	0

pd.crosstab(train["Parch"],train["Survived"]).plot(kind="bar")

<matplotlib.axes._subplots.AxesSubplot at 0x767435b7b8>

1.3.5 登船港口与是否获救

画出登船港口与是否获救的交叉表与条形图，如下所示。可以发现，从Cherburge出发的乘客获救的人数比例更高。

pd.crosstab(train["Embarked"],train["Survived"])

Survived	0	1
Embarked
C	75	93
Q	47	30
S	427	217

pd.crosstab(train["Embarked"],train["Survived"]).plot(kind="bar")

<matplotlib.axes._subplots.AxesSubplot at 0x767436f4e0>

1.3.6 乘客船舱与是否获救

画出乘客所在船舱与是否获救的交叉表与条形图，如下所示。可以发现，船舱后没有缺失的乘客获救的人数比例更高。

pd.crosstab(train["Cabin"],train["Survived"])

Survived	0	1
Cabin
A	8	7
B	12	35
C	24	35
D	8	25
E	8	24
F	5	8
G	2	2
T	1	0
U	481	206

pd.crosstab(train["Cabin"],train["Survived"]).plot(kind="bar")

<matplotlib.axes._subplots.AxesSubplot at 0x767441f6d8>

1.3.7 乘客年龄与是否获救

画出乘客是否获救与年龄的箱线图，如下所示。从箱线图上来看，两者关系并不明显。

fig,ay = plt.subplots()
Age1 = train.Age[train.Survived == 1].dropna()
Age0 = train.Age[train.Survived == 0].dropna()
plt.boxplot((Age1,Age0),labels=('Survived','Not Survived'))
ay.set_ylim([-5,70])
ay.set_title("Boxplot of Age")

<matplotlib.text.Text at 0x7674557a20>

1.3.8 票价与是否获救

画出乘客是否获救与票价的箱线图，如下所示。可以发现，总体而言，获救的乘客票价更高。

fig,ay = plt.subplots()
Fare1 = train.Fare[train.Survived == 1]
Fare0 = train.Fare[train.Survived == 0]
plt.boxplot((Fare1,Fare0),labels=('Survived','Not Survived'))
ay.set_ylim([-10,150])
ay.set_title("Boxplot of Fare")

<matplotlib.text.Text at 0x76745e5470>

1.3.9 票价与乘客舱位等级

画出乘客票价与舱位等级的箱线图，如下所示。可以明显的发现，舱位等级越高的乘客，票价越高。这两个变量之间存在非常明显的线性相关关系。

fig,ay = plt.subplots()
Farec1 = train.Fare[train.Pclass == 1]
Farec2 = train.Fare[train.Pclass == 2]
Farec3 = train.Fare[train.Pclass == 3]
plt.boxplot((Farec1,Farec2,Farec3),labels=("Pclass1","Pclass2","Pclass3"))
ay.set_ylim([-10,180])
ay.set_title("Boxplot of Fare and Pclass")

<matplotlib.text.Text at 0x767466e8d0>

1.4 数据处理

1.4.1 缺失值处理

用年龄的均值填充年龄的缺失值，用出发港口的众数填补出发港口的缺失值。

train.Age.mean()
train.Age.fillna(29.7,inplace=True)
train.Embarked.fillna("S",inplace=True)

1.4.2 数据分箱

根据以上分析结果和变量间的关系，将年龄数据分段为0-5岁、5-15岁、15-20岁、20-35岁、35-50岁、50-60岁、60-100岁7段。将Parch变量分成数目为0、数目为1或2、数目为大于2三段。将SibSp变量分成数目为0、数目为1或2、数目为大于2三段。将Cabin变量分为缺失和没有缺失两段。

train.age=pd.cut(train.Age,[0,5,15,20,35,50,60,100])
pd.crosstab(train.age,train.Survived).plot(kind="bar")

<matplotlib.axes._subplots.AxesSubplot at 0x7674657e48>

train.Parch[(train.Parch>0) & (train.Parch<=2)]=1
train.Parch[train.Parch>2]=2
train.SibSp[(train.SibSp>0) & (train.SibSp<=2)]=1
train.SibSp[train.SibSp>2]=2
train.Cabin[train.Cabin!="U"]="K"

D:\software\新建文件夹 (4)\lib\site-packages\ipykernel\__main__.py:1: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy if __name__ == ‘__main__’: D:\software\新建文件夹 (4)\lib\site-packages\ipykernel\__main__.py:2: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy from ipykernel import kernelapp as app D:\software\新建文件夹 (4)\lib\site-packages\ipykernel\__main__.py:3: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy app.launch_new_instance() D:\software\新建文件夹 (4)\lib\site-packages\ipykernel\__main__.py:4: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy D:\software\新建文件夹 (4)\lib\site-packages\ipykernel\__main__.py:5: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy

1.4.3 创建虚拟变量

为Pclass、Sex、Embarked、Parch、SibSp、Cabin变量创建虚拟变量

dummy_Pclass = pd.get_dummies(train.Pclass, prefix='Pclass')
dummy_Sex = pd.get_dummies(train.Sex, prefix='Sex')
dummy_Embarked = pd.get_dummies(train.Embarked, prefix='Embarked')
dummy_Parch = pd.get_dummies(train.Parch, prefix='Parch')
dummy_SibSp = pd.get_dummies(train.SibSp, prefix='SibSp')
dummy_Age = pd.get_dummies(train.age, prefix='Age')
dummy_Cabin = pd.get_dummies(train.Cabin, prefix='Cabin')

1.5 模型建立

1.5.1 创建训练集

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, roc_curve,roc_auc_score,classification_report

划分训练集，将编号为0-623的乘客作为训练集。去除PassengerId和Name变量，添加常数项intercept. 因变量为乘客是否获救，自变量为乘客的票价、性别、登船码头、父母与子女数目、兄弟姐妹与配偶数目、年龄、船舱。除票价外，都为虚拟变量。考虑到Fare和Pclass之间的线性相关性，剔除Pclass变量。

train_y = train[:623]["Survived"]
cols_to_keep = ["Fare"]
train_x = train[:623][cols_to_keep].join(dummy_Sex.ix[:, "Sex_male":]).join(dummy_Embarked.ix[:,"Embarked_Q":]).join(dummy_Parch.ix[:,"Parch_1":]).join(dummy_SibSp.ix[:,"SibSp_1":]).join(dummy_Age.ix[:,"Age_(5, 15]":]).join(dummy_Cabin.ix[:,"Cabin_U" :])
train_x['intercept'] = 1.0
train_x.tail()

	Fare	Sex_male	Embarked_S	Parch_1	SibSp_1	Age_(15, 20]	Age_(20, 35]	Age_(35, 50]	Cabin_U	intercept
618	39.0000	0	1	1	1	0	0	0	0	1
619	10.5000	1	1	0	0	0	1	0	1	1
620	14.4542	1	0	0	1	0	1	0	1	1
621	52.5542	1	1	0	1	0	0	1	0	1
622	15.7417	1	0	1	1	1	0	0	1	1

1.5.2 模型构建

对训练集构建逻辑斯蒂模型。

clf = LogisticRegression()
clf.fit(train_x,train_y)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True, intercept_scaling=1, max_iter=100, multi_class=’ovr’, n_jobs=1, penalty=’l2’, random_state=None, solver=’liblinear’, tol=0.0001, verbose=0, warm_start=False)

1.5.3 模型检验

划分测试集，将编号为624-890的乘客作为测试集。

test_y = train[623:]["Survived"]
cols_to_keep = ["Fare"]
test_x = train[623:][cols_to_keep].join(dummy_Sex.ix[:, "Sex_male":]).join(dummy_Embarked.ix[:,"Embarked_Q":]).join(dummy_Parch.ix[:,"Parch_1":]).join(dummy_SibSp.ix[:,"SibSp_1":]).join(dummy_Age.ix[:,"Age_(5, 15]":]).join(dummy_Cabin.ix[:,"Cabin_U" :])
test_x['intercept'] = 1.0
test_x.head()

	Fare	Sex_male	Embarked_Q	Embarked_S	Age_(20, 35]	Age_(50, 60]	Age_(60, 100]	Cabin_U	intercept
623	7.8542	1	0	1	1	0	0	1	1
624	16.1000	1	0	1	1	0	0	1	1
625	32.3208	1	0	1	0	0	1	0	1
626	12.3500	1	1	0	0	1	0	1	1
627	77.9583	0	0	1	1	0	0	0	1

利用测试集对模型进行测试

clf.predict(test_x)

array([0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0,
       0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1,
       0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0,
       0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1,
       0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0,
       0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0,
       0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0, 0,
       1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1,
       1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1,
       1, 1, 1, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 1, 1,
       0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0], dtype=int64)

clf.predict_proba(test_x)

array([[ 0.86039834,  0.13960166],
       [ 0.85711962,  0.14288038],
       [ 0.74830885,  0.25169115],
       [ 0.84502153,  0.15497847],
       [ 0.12886629,  0.87113371],
       [ 0.86038196,  0.13961804],
       [ 0.81492416,  0.18507584],
       [ 0.74973913,  0.25026087],
       [ 0.88595841,  0.11404159],
       [ 0.60609598,  0.39390402],
       [ 0.86346251,  0.13653749],
       [ 0.61197924,  0.38802076],
       [ 0.35569986,  0.64430014],
       [ 0.86037046,  0.13962954],
       [ 0.79463014,  0.20536986],
       [ 0.57570079,  0.42429921],
       [ 0.83467975,  0.16532025],
       [ 0.85798051,  0.14201949],
       [ 0.10986907,  0.89013093],
       [ 0.56445448,  0.43554552],
       [ 0.84012224,  0.15987776],
       [ 0.15820833,  0.84179167],
       [ 0.56790934,  0.43209066],
       [ 0.85796389,  0.14203611],
       [ 0.65552637,  0.34447363],
       [ 0.86051808,  0.13948192],
       [ 0.35980506,  0.64019494],
       [ 0.86038196,  0.13961804],
       [ 0.29324608,  0.70675392],
       [ 0.86017015,  0.13982985],
       [ 0.28622388,  0.71377612],
       [ 0.28287555,  0.71712445],
       [ 0.8070549 ,  0.1929451 ],
       [ 0.86038196,  0.13961804],
       [ 0.20682467,  0.79317533],
       [ 0.85835972,  0.14164028],
       [ 0.53882734,  0.46117266],
       [ 0.80220769,  0.19779231],
       [ 0.85539757,  0.14460243],
       [ 0.69483827,  0.30516173],
       [ 0.87933359,  0.12066641],
       [ 0.83561804,  0.16438196],
       [ 0.8070549 ,  0.1929451 ],
       [ 0.85835972,  0.14164028],
       [ 0.86042952,  0.13957048],
       [ 0.87914067,  0.12085933],
       [ 0.11937883,  0.88062117],
       [ 0.2853273 ,  0.7146727 ],
       [ 0.59808311,  0.40191689],
       [ 0.90594814,  0.09405186],
       [ 0.85835972,  0.14164028],
       [ 0.86346251,  0.13653749],
       [ 0.85801214,  0.14198786],
       [ 0.86032122,  0.13967878],
       [ 0.35349566,  0.64650434],
       [ 0.52724747,  0.47275253],
       [ 0.22879217,  0.77120783],
       [ 0.28601744,  0.71398256],
       [ 0.56939306,  0.43060694],
       [ 0.85743204,  0.14256796],
       [ 0.94208727,  0.05791273],
       [ 0.82348607,  0.17651393],
       [ 0.74901495,  0.25098505],
       [ 0.94336392,  0.05663608],
       [ 0.85705258,  0.14294742],
       [ 0.85800384,  0.14199616],
       [ 0.05587819,  0.94412181],
       [ 0.5941366 ,  0.4058634 ],
       [ 0.18541791,  0.81458209],
       [ 0.84012224,  0.15987776],
       [ 0.83358085,  0.16641915],
       [ 0.87933975,  0.12066025],
       [ 0.88380587,  0.11619413],
       [ 0.87914067,  0.12085933],
       [ 0.28628812,  0.71371188],
       [ 0.48214083,  0.51785917],
       [ 0.70716252,  0.29283748],
       [ 0.05715212,  0.94284788],
       [ 0.65795297,  0.34204703],
       [ 0.25709963,  0.74290037],
       [ 0.81492001,  0.18507999],
       [ 0.83837631,  0.16162369],
       [ 0.8727473 ,  0.1272527 ],
       [ 0.3942793 ,  0.6057207 ],
       [ 0.69435145,  0.30564855],
       [ 0.25955289,  0.74044711],
       [ 0.76489311,  0.23510689],
       [ 0.11637845,  0.88362155],
       [ 0.65775927,  0.34224073],
       [ 0.63734093,  0.36265907],
       [ 0.85975561,  0.14024439],
       [ 0.8839741 ,  0.1160259 ],
       [ 0.66714496,  0.33285504],
       [ 0.07984609,  0.92015391],
       [ 0.15579323,  0.84420677],
       [ 0.81105308,  0.18894692],
       [ 0.86042952,  0.13957048],
       [ 0.24260674,  0.75739326],
       [ 0.8360098 ,  0.1639902 ],
       [ 0.85835972,  0.14164028],
       [ 0.87740579,  0.12259421],
       [ 0.59721595,  0.40278405],
       [ 0.85765731,  0.14234269],
       [ 0.72253208,  0.27746792],
       [ 0.2862853 ,  0.7137147 ],
       [ 0.83015243,  0.16984757],
       [ 0.3208549 ,  0.6791451 ],
       [ 0.08720221,  0.91279779],
       [ 0.79040078,  0.20959922],
       [ 0.86346251,  0.13653749],
       [ 0.85835972,  0.14164028],
       [ 0.85835972,  0.14164028],
       [ 0.85711962,  0.14288038],
       [ 0.53746947,  0.46253053],
       [ 0.24073084,  0.75926916],
       [ 0.86038196,  0.13961804],
       [ 0.86038196,  0.13961804],
       [ 0.65520865,  0.34479135],
       [ 0.61675979,  0.38324021],
       [ 0.04187545,  0.95812455],
       [ 0.83467975,  0.16532025],
       [ 0.86037046,  0.13962954],
       [ 0.63589211,  0.36410789],
       [ 0.7945787 ,  0.2054213 ],
       [ 0.35569986,  0.64430014],
       [ 0.5923993 ,  0.4076007 ],
       [ 0.8149159 ,  0.1850841 ],
       [ 0.18626833,  0.81373167],
       [ 0.55494501,  0.44505499],
       [ 0.85974901,  0.14025099],
       [ 0.86038196,  0.13961804],
       [ 0.26826856,  0.73173144],
       [ 0.72096103,  0.27903897],
       [ 0.86042134,  0.13957866],
       [ 0.85651789,  0.14348211],
       [ 0.86032122,  0.13967878],
       [ 0.12575524,  0.87424476],
       [ 0.8577608 ,  0.1422392 ],
       [ 0.87946251,  0.12053749],
       [ 0.83078796,  0.16921204],
       [ 0.09214503,  0.90785497],
       [ 0.85801214,  0.14198786],
       [ 0.1353402 ,  0.8646598 ],
       [ 0.81833156,  0.18166844],
       [ 0.28627693,  0.71372307],
       [ 0.77835462,  0.22164538],
       [ 0.86019807,  0.13980193],
       [ 0.85974901,  0.14025099],
       [ 0.87920886,  0.12079114],
       [ 0.18831656,  0.81168344],
       [ 0.83358085,  0.16641915],
       [ 0.56217041,  0.43782959],
       [ 0.85802213,  0.14197787],
       [ 0.59346021,  0.40653979],
       [ 0.26217247,  0.73782753],
       [ 0.81492209,  0.18507791],
       [ 0.0820547 ,  0.9179453 ],
       [ 0.26297266,  0.73702734],
       [ 0.11560723,  0.88439277],
       [ 0.65520865,  0.34479135],
       [ 0.7961241 ,  0.2038759 ],
       [ 0.86071471,  0.13928529],
       [ 0.86063609,  0.13936391],
       [ 0.35525524,  0.64474476],
       [ 0.92489299,  0.07510701],
       [ 0.71693682,  0.28306318],
       [ 0.6076947 ,  0.3923053 ],
       [ 0.8149159 ,  0.1850841 ],
       [ 0.85057636,  0.14942364],
       [ 0.6376244 ,  0.3623756 ],
       [ 0.822631  ,  0.177369  ],
       [ 0.86038196,  0.13961804],
       [ 0.87740579,  0.12259421],
       [ 0.17163368,  0.82836632],
       [ 0.35894969,  0.64105031],
       [ 0.83357894,  0.16642106],
       [ 0.26194935,  0.73805065],
       [ 0.85835972,  0.14164028],
       [ 0.26062053,  0.73937947],
       [ 0.42452126,  0.57547874],
       [ 0.71744256,  0.28255744],
       [ 0.86074419,  0.13925581],
       [ 0.86042952,  0.13957048],
       [ 0.71232894,  0.28767106],
       [ 0.35504562,  0.64495438],
       [ 0.87740579,  0.12259421],
       [ 0.11900024,  0.88099976],
       [ 0.86038523,  0.13961477],
       [ 0.87341934,  0.12658066],
       [ 0.85935323,  0.14064677],
       [ 0.60934863,  0.39065137],
       [ 0.86032122,  0.13967878],
       [ 0.67707567,  0.32292433],
       [ 0.35952192,  0.64047808],
       [ 0.751824  ,  0.248176  ],
       [ 0.8796969 ,  0.1203031 ],
       [ 0.94539356,  0.05460644],
       [ 0.10542774,  0.89457226],
       [ 0.86007975,  0.13992025],
       [ 0.88191682,  0.11808318],
       [ 0.12684285,  0.87315715],
       [ 0.93191133,  0.06808867],
       [ 0.81531115,  0.18468885],
       [ 0.84012224,  0.15987776],
       [ 0.69813211,  0.30186789],
       [ 0.8149159 ,  0.1850841 ],
       [ 0.18808428,  0.81191572],
       [ 0.22676529,  0.77323471],
       [ 0.71814943,  0.28185057],
       [ 0.83357894,  0.16642106],
       [ 0.86039834,  0.13960166],
       [ 0.85780233,  0.14219767],
       [ 0.0849913 ,  0.9150087 ],
       [ 0.86007975,  0.13992025],
       [ 0.86032122,  0.13967878],
       [ 0.84012224,  0.15987776],
       [ 0.60672195,  0.39327805],
       [ 0.85795222,  0.14204778],
       [ 0.85692031,  0.14307969],
       [ 0.29681064,  0.70318936],
       [ 0.83393869,  0.16606131],
       [ 0.85765731,  0.14234269],
       [ 0.87931473,  0.12068527],
       [ 0.95077511,  0.04922489],
       [ 0.83327556,  0.16672444],
       [ 0.8180723 ,  0.1819277 ],
       [ 0.08871631,  0.91128369],
       [ 0.93364059,  0.06635941],
       [ 0.90670657,  0.09329343],
       [ 0.18814843,  0.81185157],
       [ 0.11532953,  0.88467047],
       [ 0.3446263 ,  0.6553737 ],
       [ 0.30260559,  0.69739441],
       [ 0.20902316,  0.79097684],
       [ 0.70727922,  0.29272078],
       [ 0.49908055,  0.50091945],
       [ 0.83357894,  0.16642106],
       [ 0.85717847,  0.14282153],
       [ 0.83675021,  0.16324979],
       [ 0.17163368,  0.82836632],
       [ 0.6376244 ,  0.3623756 ],
       [ 0.85835972,  0.14164028],
       [ 0.39467085,  0.60532915],
       [ 0.2731416 ,  0.7268584 ],
       [ 0.63987502,  0.36012498],
       [ 0.85974901,  0.14025099],
       [ 0.72317603,  0.27682397],
       [ 0.86038196,  0.13961804],
       [ 0.11238481,  0.88761519],
       [ 0.67348135,  0.32651865],
       [ 0.87880937,  0.12119063],
       [ 0.2665907 ,  0.7334093 ],
       [ 0.26297533,  0.73702467],
       [ 0.85718307,  0.14281693],
       [ 0.85796389,  0.14203611],
       [ 0.86038196,  0.13961804],
       [ 0.10513251,  0.89486749],
       [ 0.29535416,  0.70464584],
       [ 0.86038196,  0.13961804],
       [ 0.35756781,  0.64243219],
       [ 0.85935323,  0.14064677],
       [ 0.86071471,  0.13928529],
       [ 0.50077687,  0.49922313],
       [ 0.85835972,  0.14164028],
       [ 0.14507275,  0.85492725],
       [ 0.26239326,  0.73760674],
       [ 0.60648726,  0.39351274],
       [ 0.8149159 ,  0.1850841 ]])

preds = clf.predict(test_x)

计算模型的混淆矩阵如下所示。

confusion_matrix(test_y,preds)

array([[157,  15],
       [ 35,  61]])

计算模型的ROC/AUC得分，并画出ROC曲线。模型的ROC/AUC得分为0.88，表明预测准确的概率为88%左右。模型预测结果较好。

pre = clf.predict_proba(test_x)
roc_auc_score(test_y,pre[:,1])

0.88114704457364346

fpr,tpr,thresholds = roc_curve(test_y,pre[:,1])
fig,ax = plt.subplots(figsize=(8,5))
plt.plot(fpr,tpr)
ax.set_title("Roc of Logistic Regression")

<matplotlib.text.Text at 0x7674a1f588>

模型预测结果分类报告如下所示。

print(classification_report(test_y,preds))

             precision    recall  f1-score   support

          0       0.82      0.91      0.86       172
          1       0.80      0.64      0.71        96

avg / total       0.81      0.81      0.81       268

总体而言，模型的拟合结果较好。

你可能感兴趣的:(Titanic数据分析报告)

用Python玩转石墨文档小海的小窝石墨文档
一、什么是石墨文档？石墨文档（Shimo）是一款在线文档编辑与协作工具，支持文档、表格、演示等多种类型的文件。其功能包括实时协作、版本管理、在线编辑和共享，广泛应用于个人、团队和企业的日常工作中。石墨文档官网二、使用场景文档自动生成：利用Python脚本自动生成合同、报告等文档，提高工作效率。数据分析报告：将数据分析结果直接写入石墨文档，以便进行分享和展示。团队协作：通过Python与石墨文档AP
数据分析-Pandas数据探查初步：离散点图 Alex_StarSky 金融风控数据分析 pandas python Visualization
数据分析-Pandas数据探查初步：离散点图数据分析和处理中，难免会遇到各种数据，那么数据呈现怎样的规律呢？不管金融数据，风控数据，营销数据等等，莫不如此。如何通过图示展示数据的规律？数据表，时间序列数据在数据分析建模中很常见，例如天气预报，空气状态监测，股票交易等金融场景。数据分析过程中重新调整，重塑数据表是很重要的技巧，此处选择Titanic数据，以及巴黎、伦敦欧洲城市空气质量监测NO2NO_
ClickHouse学习与遨游于天地 clickhouse 学习数据库
ClickHouse是由C++编写的列式存储数据库（DBMS），主要用来在线分析处理查询（OLTP），能够用Sql查询生成的实时数据分析报告。适用场景大多数是读请求、数据总是批量写入、不更新或少更新数据、每次都是读取大量的行、宽表（有大量列的表，这些列中已经冗余所需数据）、简单查询、处理单个查询需要高吞吐量、无需事务，数据一致性要求低实时分析：ClickHouse能够处理大规模数据集的实时查询和分
用Python自动生成数据分析报告 IT农民工1 python 人工智能编程语言大数据数据分析
公众号后台回复“图书“，了解更多号主新书内容作者：林骥来源：林骥很多时候，我们需要做一些重复性的工作，比如说，每个月制作类似的数据分析报告，整个框架是基本固定的，此时，我们可以采用Python来自动生成数据分析报告，把更多的时间和精力用在分析上面，而不是调整报告的格式。python-pptx是一个能够自动创建和更新PPT文件的Python库，可以用来自动生成数据分析报告。下面，我以自己的个人数据为
python3 数据分析项目案例,python数据分析报告范文 2301_81895949 oracle
这篇文章主要介绍了python3数据分析项目案例，具有一定借鉴价值，需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获，下面让小编带着大家一起了解一下。1需求分析随着科学技术的不断发展，信息流通日益方便，信息数据不断膨胀，充斥在各行各业。由于数据非常庞大，所以即使在搜索引擎存在的情况下，搜索结果的准确率也不高，这使得在网上查找关键有效信息也变为一项极具挑战性的复杂任务python编程代码画哆啦
R语言逻辑回归logistic模型分析泰坦尼克titanic数据集预测生还情况拓端研究室 R语言 R语言逻辑回归 logistic 泰坦尼克 titanic
最近我们被客户要求撰写关于逻辑回归的研究报告，包括一些图形和统计输出。相关视频：R语言逻辑回归（Logistic回归）模型分类预测病人冠心病风险逻辑回归Logistic模型原理和R语言分类预测冠心病风险实例，时长06:48逻辑回归是一种拟合回归曲线的方法，y=f(x)，当y是一个分类变量时。这个模型的典型用途是在给定一组预测因素x的情况下预测y，预测因素可以是连续的、分类的或混合的。一般来说，分类
清明假期第一天20200327The loss of Titanic~10 来而不可失者时也
早晨5:12火车到站，天没亮，阴沉沉的，下了火车才发现还下着小雨，雾蒙蒙的，车站周围的小店也黑着灯，没有开门。幸亏有爸爸开着三轮车来接我，本来约着去看牙，但走到目的地，发现只是个小门诊，没有明确的门牌，不太靠谱，就在附近逛了逛，刚买了些菜和一双鞋，三轮电车警报急需充电，在就近的充电桩充了三块钱的电，走了2公里又在喊“请充电”，可能因为天气冷的原因，电充的慢，担心返程路上没有充电桩，无奈之下只有返回
【干货】怎样写出专业数据分析报告科技州与数据州
在数据分析工作中，分析报告是数据分析成果的重要体现，也是很多企业考核数据分析师的硬指标。1数据分析报告的类型由于数据分析报告的对象、内容、时间和方法等情况不同，因此存在不同形式的报告类型。我们常见的几种数据分析报告有：专题分析报告、综合分析报告和日常数据通报等。其中最体现专业水平的是专题分析报告，其次是综合分析报告，最后是日常数据报告。由于业务部门自身就在做业务报表，为了避免重复工作，专业数据分析
数据分析报告：直播带货分析与优化(考虑退货) theskylife 数据分析数据分析数据挖掘 python
1.背景在直播带货领域赋能是我们的目标，为了实现这一目标，我们需要通过数据分析深入了解直播带货的现状，并制定优化策略。本报告将详细介绍我们的分析思路、具体的分析过程以及最终的结论和优化方向。2.思路为了实现直播带货的赋能，我们将从以下几个方面展开分析：观众行为分析：了解观众的行为模式、偏好和互动方式，为直播带货提供有针对性的内容。商品效果评估：分析不同商品在直播中的表现，找到畅销品类和提升空间。直
Titanic - 1 silent_eyes_77
本周原想探究一下seaborn绘图方面的运用，发现用在实际案例中更有效果，遂直接用Kaggel经典的Titanic案例的描述性分析部分进行研究。以下是案例的其中一部分，模型探究有待补充与更新。复习一下，完成这篇分析报告需要进行的几个步骤：一、导入数据包与数据集二、数据分析1、总体预览2、描述性统计分析：使用统计学与绘图，初步了解数据之间相关性，为构造特征工程和模型建立做准备3、数据清洗4、建模与优
Chinese Titanic survivors 俗世尘沙
DocumentaryshineslightonChineseTitanicsurvivors这部纪录片聚焦泰坦尼克号上的中国幸存者The1997blockbusterfilm"Titanic"showedaheart-wrenchingromancebetweentwoyounglovers.Butfewknowthatamongthepassengers,therewereactuallyei
kaggle：泰坦尼克号获救预测_Titanic_EDA## 卜咦
问题数据来源于Kaggle，通过一组列有泰坦尼克号灾难幸存者或幸存者的训练样本集，我们的模型能否基于不包含幸存者信息的给定测试数据集确定这些测试数据集中的乘客是否幸存。代码与数据分析导入必要的包和titanic数据image数据集基本信息将数据分为不同类别，分别为类别型数据和数字型数据类别数据：Survived,Sex,andEmbarked.Ordinal:Pclass数字型数据：Age,Far
天猫数据分析报告：2023年天猫空气炸锅小家电市场行业数据分析 jingcanmou_data 大数据人工智能物联网数据分析数据挖掘
空气炸锅是近年来在全球范围内迅速兴起的健康烹饪厨电产品。随着人们对健康饮食的关注度不断提高，空气炸锅以其健康、方便、高效的特点受到了广泛欢迎，曾经一度成为厨房小电市场的“顶流”。而在经历了高增长后，伴随着市场饱和及消费者的消费日趋理性，空气炸锅市场的增长也日渐放缓。那么，2023年度空气炸锅市场的销售表现如何呢，下面我们具体来看。根据鲸参谋电商数据分析平台的相关数据显示，2023年天猫平台上空气炸
昆山有多少外来务工人员？180多万！陌弦
不知道，大家最近有没有在朋友圈看到这样一个数据：苏州大数据分析报告。在这份大数据里，有这样一个数据。苏州的常住人口，达到了1000多万！而在这1000多万人里，你猜猜看有多少是像你我一样，在苏州打拼的外地人？先不要着急往下翻，猜猜看。你心里猜的数据是多少？五百万？六百万？七百万？嗯，猜的很接近了，大数据报告里显示，在苏州的外来人口，达到了831.8万！也就是说，你在苏州范围内，每遇到10个人里，有
matplotlib,seaborn,plotly数据可视化库这么多，应该如何选择？ Icevivina python学习特征分析可视化
在做titanic分析的过程中，看了一些大神的想法，发现在分析数据的过程中，许多大神会使用到seaborn，plotly这些库，而我等小白仅仅知道matplotlib这个唯一的数据可视化库而已。上网查找资料后整理如下：数据可视化库可以根据其应用场景来分为以下几类：基础的2D,3D图绘制库，交互信息可视化库，地图可视化库基础的2D,3D可视化主要包括了matplotlib和seaborn,其中sea
2021-06-19第二章第二节数据重构 Akai_
2.4数据合并2.4.1载入数据截屏2021-06-1913.01.24.pngtext_left_up=pd.read_csv('./titanic/data/train-left-up.csv')text_left_down=pd.read_csv('./titanic/data/train-left-down.csv')text_right_up=pd.read_csv('./titanic
给Jupyter Notebook生成的html文件加导航栏马修的小腿
前面分享过用pyecharts+jupyternotebook制作数据分析报告的文章，是我作为一个前端小白找到的便捷方式。其实熟悉前端技术的大佬肯定会笑话了，不过没关系，我说不定以后也能学会前端技术，现在能解决基本问题就行。接着上回所说，使用jupyternotebook可以制作html格式的分析报告，但是这份报告可能会很长，使用鼠标滚轮翻的话，太费手指头了，我希望能有一个导航栏。像下面这种，点那
数据分析-Pandas如何处理表格中的文本数据 Alex_StarSky 金融风控数据分析 pandas 数据挖掘字符数据处理分割搜索
数据分析-Pandas如何处理表格中的文本数据数据分析和处理中，难免会遇到文本数据，比如人名，地名，还有其他的场景描述等等。金融数据，风控数据，营销数据等等，莫不如此。如何用pandas处理文本数据呢？数据表，时间序列数据在数据分析建模中很常见，例如天气预报，空气状态监测，股票交易等金融场景。数据分析过程中重新调整，重塑数据表是很重要的技巧，此处选择Titanic数据，以及巴黎、伦敦欧洲城市空气质
【Kaggle】泰坦尼克号生存预测 Titanic 撕得失败的标签 Kaggle 机器学习 Kaggle 泰塔尼克号 Titanic 逻辑回归分类树
文章目录前言案例背景数据集介绍加载数据集探索性数据分析（EDA）可视化特征和目标值之间关系缺失值分析数据预处理数据清洗缺失值处理去除噪声并且规范化文本内容数据转换数据划分建模逻辑回归模型决策分类树模型随机森林模型梯度提升树模型预测LR完整的python代码前言官网链接：Titanic-MachineLearningfromDisaster|Kaggle资源链接：【免费】Kaggle泰坦尼克号生存预
数据处理II：数据转换 Franchen
下列数据来源Kaggle的Titanic题目特征分类定量特征：如年龄、票价等有数量关系的特征，可二值化或函数变换定性特征：如性别、几等舱等没有数量意义的特征，可哑编码或函数变换定量特征与定性特征需要分开处理二值化Binarizer定量特征二值化的核心在于设定一个阈值，大于阈值的赋值为1，小于等于阈值的赋值为0fromsklearn.preprocessingimportBinarizerbin
数据分析-Pandas如何用图把数据展示出来 Alex_StarSky 金融风控数据分析 pandas 数据挖掘数据透视 python
数据分析-Pandas如何用图把数据展示出来俗话说，一图胜千语，对人类而言一串数据很难立即洞察出什么，但如果展示图就能一眼看出来门道。数据整理后，如何画图，画出好的图在数据分析中成为关键的一环。数据表，时间序列数据在数据分析建模中很常见，例如天气预报，空气状态监测，股票交易等金融场景。数据分析过程中重新调整，重塑数据表是很重要的技巧，此处选择Titanic数据，以及巴黎、伦敦欧洲城市空气质量监测N
最新| ClickHouse入门、调优、实战一条龙全解秘籍小晨说数据数据库分布式大数据 sap uefi
Clickhouse是一个高性能且开源的数据库管理系统，主要用于在线分析处理(OLAP)业务。它采用列式存储结构，可使用SQL语句实时生成数据分析报告，另外它还支持索引，分布式查询以及近似计算等特性，凭借其优异的表现，ClickHouse在各大互联网公司均有广泛地应用。WhyClickHouse首先我们来看一下OLAP场景下的关键特征。1.大多数数据库访问都是读请求。2.数据总是以批量形式写入数据
数据库系列文章之 ClickHouse入门 Coder_Boy_ 数据库 clickhouse
clickhouse安装与简单使用Clickhouse是一个高性能且开源的数据库管理系统，主要用于在线分析处理(OLAP)业务。它采用列式存储结构，可使用SQL语句实时生成数据分析报告，另外它还支持索引，分布式查询以及近似计算等特性，凭借其优异的表现，ClickHouse在各大互联网公司均有广泛地应用。官网：https://clickhouse.com/中文官网：https://clickhous
Kaggle之旅3 旻璿gg 大数据 Kaggle python 机器学习
Kaggle之旅3文章目录Kaggle之旅3前言一、PredictsurvivalontheTitanicandgetfamiliarwithMLbasics二、开始1.基础知识构造随机森林的4个步骤2.结合教程继续总结前言今天继续Kaggle之旅，尝试Titanic-MachineLearningfromDisaster一、PredictsurvivalontheTitanicandgetfam
数据分析-Pandas如何整合多张数据表 Alex_StarSky 金融风控数据分析 pandas 数据挖掘数据整合多源表整合
数据分析-Pandas如何整合多张数据表数据表，时间序列数据在数据分析建模中很常见，例如天气预报，空气状态监测，股票交易等金融场景。数据分析过程中重新调整，重塑数据表是很重要的技巧，此处选择Titanic数据，以及巴黎、伦敦欧洲城市空气质量监测NO2NO_2NO2数据作为样例。数据分析数据分析-Pandas如何转换产生新列数据分析-Pandas如何统计数据概况数据分析-Pandas如何轻松处理时间
金融CRM系统是什么？有哪些功能和作用 TICKI™ CRM 大数据客户管理系统 SaaS
今年市场经济下行，投资趋向于保守、人们消费降级，对于金融行业来说影响很大。受经济形式的影响加上行业的数字化转型升级，金融企业都在寻求客户管理的新策略，维护好忠实客户、吸引新客户投资。小编认为CRM系统是管理客户的不二之选，金融行业CRM是什么?金融crm主要功能与作用。金融CRM是可以解决金融企业客户管理难题的CRM工具，主要功能作用是客户数据管理、销售流程管理和数据分析报告。金融行业CRM是什么
《决胜B端：产品经理升级之路》第11章蛋蛋的读书笔记
第11章B端产品的数据分析11.1数据分析的流程数据分析的四个步骤：明确主题-提出假设-验证假设-产生结论11.2数据分析的要点做好数据分析工作的核心三要素：方法工具、业务知识、细心耐心资源推荐：深入浅出统计学、深入浅出数据分析11.3数据分析报告数据分析报告的编写结构：提出论点-进行论证-陈述总结报告需要进行排版和美化，让重点更加突出，阅读更加轻松资源推荐：Excel图表之道
互联网学习坊|一份最全的渠道市场数据分析报告教程 c3569eca62db
前面我们讲到了“渠道推广方案”和“渠道分析工具”。从开始投放到获得反馈数据后，我们应该如何把这样的一堆数据分析整理清楚，得到我们一个有价值的结论，就需要我们学会写数据分析报告。这篇分享就简单的说一下。因为不管怎样的格式与内容，只要能清楚展示数据，并且有条理的分析得到结论就好。一篇数据分析报告至少包括以下几点内容：数据说明渠道列表具体情况重点数据其他影响报告小结数据说明在开始进行数据分析的时候，我们
TikTok竞品数据分析报告 VI8664956I26 python java 数据库数据库开发
【对于达人主播】·找出与自身人设定位匹配的带货类目·筛选出优质的品牌及商家·分析产品的卖点，主打人群·找出近热销爆品，洞察市场动态，做出决策·找出对标账号，借鉴提升·分析流量情况，助力团队复盘优化TikTokLIVE直播分析01实时直播热榜02直播热度榜①直播热度榜②连麦涨粉榜③直播分享榜03主播带货榜①主播带货榜②视频引流直播间榜04直播搜索05直播数据大盘商品分析实时爆款商品视频热度榜①热门带
Pandas - 常用操作山药鱼儿
说明：文章使用的数据集来源于https://www.kaggle.com/c/titanic/dataKaggle泰坦尼克号竞赛提供的数据。一.DataFrame结构DataFrame是Pandas最核心的数据结构，可以使用值为列表的字典进行构造：>>data={'a':[1,2,3],'b':[1.2,None,1.3],'c':['Alex','Bob','Chandler']}>>data{
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa