undo_try

特征工程(八)特征工程案例分析(2)—利用逻辑回归预测泰坦尼克号生存率

泰坦尼克号将乘客分为一等舱、二等舱、三等舱三个等级，等级不同决定了安全设施、娱乐设施、餐饮等的不同，对生存率有一定影响。
那是个绅士的年代，船难时，很多男士放弃逃生机会优先女士孩子逃生，然后慷慨赴死，性别年龄也是影响生存率的因素之一。　
根据背景初步判断船舱等级、乘客年龄、性别是影响生存率的因素。

一些人比其他人更有可能生存，比如妇女，儿童和上层阶级。什么样的人在泰坦尼克号中更容易存活？

下载数据地址如下：
https://www.kaggle.com/competitions/titanic/data

1、导入数据

import warnings
warnings.filterwarnings('ignore')

# 导入处理数据包
import numpy as np
import pandas as pd

# 导入数据
train_data = pd.read_csv("./titanic_data/train.csv")
test_data = pd.read_csv("./titanic_data/test.csv")

print('训练数据集:',train_data.shape,'测试数据集:',test_data.shape)

训练数据集: (891, 12) 测试数据集: (418, 11)

# 合并数据集，方便同时对两个数据集进行清洗
full_data = train_data.append(test_data,ignore_index=True)
print('合并后的数据集:',full_data.shape)

合并后的数据集: (1309, 12)

2、查看数据集的信息

# 查看数据
full_data.head()

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked
0	1	0.0	3	Braund, Mr. Owen Harris	male	22.0	1	A/5 21171	7.2500	NaN	S
1	2	1.0	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1	PC 17599	71.2833	C85	C
2	3	1.0	3	Heikkinen, Miss. Laina	female	26.0	0	STON/O2. 3101282	7.9250	NaN	S
3	4	1.0	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35.0	1	113803	53.1000	C123	S
4	5	0.0	3	Allen, Mr. William Henry	male	35.0	0	373450	8.0500	NaN	S

# 获取数据类型列的描述性统计信息
full_data.describe()

	PassengerId	Survived	Pclass	Age	SibSp	Parch	Fare
count	1309.000000	891.000000	1309.000000	1046.000000	1309.000000	1309.000000	1308.000000
mean	655.000000	0.383838	2.294882	29.881138	0.498854	0.385027	33.295479
std	378.020061	0.486592	0.837836	14.413493	1.041658	0.865560	51.758668
min	1.000000	0.000000	1.000000	0.170000	0.000000	0.000000	0.000000
25%	328.000000	0.000000	2.000000	21.000000	0.000000	0.000000	7.895800
50%	655.000000	0.000000	3.000000	28.000000	0.000000	0.000000	14.454200
75%	982.000000	1.000000	3.000000	39.000000	1.000000	0.000000	31.275000
max	1309.000000	1.000000	3.000000	80.000000	8.000000	9.000000	512.329200

describe只能查看数据类型的描述统计信息，对于其他类型的数据不显示，比如字符串类型姓名（name），客舱号（Cabin）。
这很好理解，因为描述统计指标是计算数值，所以需要该列的数据类型是数据

# 查看每一列的数据类型和数据总数
full_data.info()


RangeIndex: 1309 entries, 0 to 1308
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  1309 non-null   int64  
 1   Survived     891 non-null    float64
 2   Pclass       1309 non-null   int64  
 3   Name         1309 non-null   object 
 4   Sex          1309 non-null   object 
 5   Age          1046 non-null   float64
 6   SibSp        1309 non-null   int64  
 7   Parch        1309 non-null   int64  
 8   Ticket       1309 non-null   object 
 9   Fare         1308 non-null   float64
 10  Cabin        295 non-null    object 
 11  Embarked     1307 non-null   object 
dtypes: float64(3), int64(4), object(5)
memory usage: 122.8+ KB

我们发现数据总共有1309行。

其中数据类型列：年龄（Age）、船舱号（Cabin）里面有缺失数据：

1）年龄（Age）里面数据总数是1046条，缺失了1309-1046=263，缺失率263/1309=20%
2）船票价格（Fare）里面数据总数是1308条，缺失了1条数据

字符串列：

1）登船港口（Embarked）里面数据总数是1307，只缺失了2条数据，缺失比较少
2）船舱号（Cabin）里面数据总数是295，缺失了1309-295=1014，缺失率=1014/1309=77.5%，缺失比较大

这为我们下一步数据清洗指明了方向，只有知道哪些数据缺失数据，我们才能有针对性的处理。

3.数据清洗（Data Preparation ）

3.1 数据预处理

缺失值处理：

在前面，理解数据阶段，我们发现数据总共有1309行。

其中数据类型列：年龄（Age）、船票价格（Fare）里面有缺失数据。
字符串列：登船港口（Embarked）、船舱号（Cabin）里面有缺失数据。

这为我们下一步数据清洗指明了方向，只有知道哪些数据缺失数据，我们才能有针对性的处理。很多机器学习算法为了训练模型，要求所传入的特征中不能有空值。

如果是数值类型，用平均值取代
如果是分类数据，用最常见的类别取代
使用模型预测缺失值，例如：K-NN

# 1、对于数值类型年龄(Age)和船票价格(Fare)这两列数值类型，我们用平均值进行填充
full_data['Age'] = full_data['Age'].fillna(full_data['Age'].mean())

full_data['Fare'] = full_data['Fare'].fillna(full_data['Fare'].mean())

# 可以看到Age列和Fare列已经没有空值了
full_data.info()


RangeIndex: 1309 entries, 0 to 1308
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  1309 non-null   int64  
 1   Survived     891 non-null    float64
 2   Pclass       1309 non-null   int64  
 3   Name         1309 non-null   object 
 4   Sex          1309 non-null   object 
 5   Age          1309 non-null   float64
 6   SibSp        1309 non-null   int64  
 7   Parch        1309 non-null   int64  
 8   Ticket       1309 non-null   object 
 9   Fare         1309 non-null   float64
 10  Cabin        295 non-null    object 
 11  Embarked     1307 non-null   object 
dtypes: float64(3), int64(4), object(5)
memory usage: 122.8+ KB

# 2、填充登船港口（Embarked) 这一列
'''
出发地点:  S=英国   南安普顿  Southampton
途径地点1: C=法国   瑟堡市    Cherbourg
途径地点2: Q=爱尔兰 昆士敦    Queenstown
'''
# 可以看到S类别是最常见的，我们将缺失值填充为最频繁出现的
full_data['Embarked'].value_counts()

S    914
C    270
Q    123
Name: Embarked, dtype: int64

# 将缺失值填充为最频繁出现的S
full_data['Embarked'] = full_data['Embarked'].fillna('S')

# 可以看到Embarked列已经没有空值了
full_data.info()


RangeIndex: 1309 entries, 0 to 1308
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  1309 non-null   int64  
 1   Survived     891 non-null    float64
 2   Pclass       1309 non-null   int64  
 3   Name         1309 non-null   object 
 4   Sex          1309 non-null   object 
 5   Age          1309 non-null   float64
 6   SibSp        1309 non-null   int64  
 7   Parch        1309 non-null   int64  
 8   Ticket       1309 non-null   object 
 9   Fare         1309 non-null   float64
 10  Cabin        295 non-null    object 
 11  Embarked     1309 non-null   object 
dtypes: float64(3), int64(4), object(5)
memory usage: 122.8+ KB

# 3、填充船舱号（Cabin) 这一列
full_data['Cabin'].value_counts()

C23 C25 C27        6
G6                 5
B57 B59 B63 B66    5
C22 C26            4
F33                4
                  ..
A14                1
E63                1
E12                1
E38                1
C105               1
Name: Cabin, Length: 186, dtype: int64

# 缺失值比较多，填充为U，表示未知(unknown)
full_data['Cabin'] = full_data['Cabin'].fillna('U')


# 可以看到所有列已经没有空值了,Survived这一列是标签列，不需要进行处理
full_data.info()


RangeIndex: 1309 entries, 0 to 1308
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  1309 non-null   int64  
 1   Survived     891 non-null    float64
 2   Pclass       1309 non-null   int64  
 3   Name         1309 non-null   object 
 4   Sex          1309 non-null   object 
 5   Age          1309 non-null   float64
 6   SibSp        1309 non-null   int64  
 7   Parch        1309 non-null   int64  
 8   Ticket       1309 non-null   object 
 9   Fare         1309 non-null   float64
 10  Cabin        1309 non-null   object 
 11  Embarked     1309 non-null   object 
dtypes: float64(3), int64(4), object(5)
memory usage: 122.8+ KB

# 查看数据是否正常
full_data.head()

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked
0	1	0.0	3	Braund, Mr. Owen Harris	male	22.0	1	A/5 21171	7.2500	U	S
1	2	1.0	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1	PC 17599	71.2833	C85	C
2	3	1.0	3	Heikkinen, Miss. Laina	female	26.0	0	STON/O2. 3101282	7.9250	U	S
3	4	1.0	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35.0	1	113803	53.1000	C123	S
4	5	0.0	3	Allen, Mr. William Henry	male	35.0	0	373450	8.0500	U	S

3.2 特征提取

查看数据类型，分为3种数据类型。并对类别数据处理：用数值代替类别，并进行One-hot编码

（1）数值类型：
乘客编号（PassengerId），年龄（Age），船票价格（Fare），同代直系亲属人数（SibSp），不同代直系亲属人数（Parch）

（2）时间序列：无
（3) 分类数据：

1）有直接类别的

  乘客性别（Sex）：男性male，女性female
  登船港口（Embarked）：出发地点S=英国南安普顿Southampton，途径地点1：C=法国 瑟堡市Cherbourg，出发地点2：Q=爱尔兰 昆士敦Queenstown
  客舱等级（Pclass）：1=1等舱，2=2等舱，3=3等舱

2）字符串类型：可能从这里面提取出特征来，也归到分类数据中
```
  乘客姓名（Name）
  客舱号（Cabin）
  船票编号（Ticket）
```

3.2.1 直接类别的分类数据

# 1、将性别值映射为数值,男（male）对应数值1，女（female）对应数值0
sex_dict = {
    'male':1,
    'female':0
}

full_data['Sex'] = full_data['Sex'].map(sex_dict)
full_data.head()

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked
0	1	0.0	3	Braund, Mr. Owen Harris	1	22.0	1	A/5 21171	7.2500	U	S
1	2	1.0	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	0	38.0	1	PC 17599	71.2833	C85	C
2	3	1.0	3	Heikkinen, Miss. Laina	0	26.0	0	STON/O2. 3101282	7.9250	U	S
3	4	1.0	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	0	35.0	1	113803	53.1000	C123	S
4	5	0.0	3	Allen, Mr. William Henry	1	35.0	0	373450	8.0500	U	S

# 2、登船港口（Embarked)进行one-hot编码
'''
使用get_dummies进行one-hot编码，产生虚拟变量
'''
embarkedDf = pd.get_dummies(full_data['Embarked'],prefix='Embarked')
embarkedDf.head()

	Embarked_C	Embarked_S
0	0	1
1	1	0
2	0	1
3	0	1
4	0	1

# 在原始数据集上添加one-hot编码产生的虚拟变量
full_data = pd.concat([full_data,embarkedDf],axis=1)

'''
因为已经对Embarked进行了one-hot编码，产生了虚拟变量，因此我们把Embarked列删除

drop删除某一列代码解释:
因为drop(name,axis=1)里面指定了name是哪一列，比如指定的是A这一列，axis=1表示按行操作
那么结合起来就是把A列里面每一行删除，最终结果是删除了A这一列。
简单来说，使用drop删除某几列的方法记住这个语法就可以了: drop([列名1,列名2],axis=1)
'''
full_data.drop('Embarked',axis=1,inplace=True)

full_data.head()

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked_C	Embarked_S
0	1	0.0	3	Braund, Mr. Owen Harris	1	22.0	1	A/5 21171	7.2500	U	0	1
1	2	1.0	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	0	38.0	1	PC 17599	71.2833	C85	1	0
2	3	1.0	3	Heikkinen, Miss. Laina	0	26.0	0	STON/O2. 3101282	7.9250	U	0	1
3	4	1.0	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	0	35.0	1	113803	53.1000	C123	0	1
4	5	0.0	3	Allen, Mr. William Henry	1	35.0	0	373450	8.0500	U	0	1

# 3、客舱等级（Pclass）进行one-hot编码
# 客舱等级（Pclass）：1=1等舱，2=2等舱，3=3等舱


pclassDf = pd.get_dummies(full_data['Pclass'],prefix='Pclass')
pclassDf.head()

	Pclass_1	Pclass_3
0	0	1
1	1	0
2	0	1
3	1	0
4	0	1

# 在原始数据集上添加one-hot编码产生的虚拟变量
full_data = pd.concat([full_data,pclassDf],axis=1)

full_data.drop('Pclass',axis=1,inplace=True)

full_data.head()

	PassengerId	Survived	Name	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked_C	Embarked_S	Pclass_1	Pclass_3
0	1	0.0	Braund, Mr. Owen Harris	1	22.0	1	A/5 21171	7.2500	U	0	1	0	1
1	2	1.0	Cumings, Mrs. John Bradley (Florence Briggs Th...	0	38.0	1	PC 17599	71.2833	C85	1	0	1	0
2	3	1.0	Heikkinen, Miss. Laina	0	26.0	0	STON/O2. 3101282	7.9250	U	0	1	0	1
3	4	1.0	Futrelle, Mrs. Jacques Heath (Lily May Peel)	0	35.0	1	113803	53.1000	C123	0	1	1	0
4	5	0.0	Allen, Mr. William Henry	1	35.0	0	373450	8.0500	U	0	1	0	1

3.2.2 字符串类别的分类数据

# 1、从姓名列[Name]提取头衔
'''
注意到在乘客名字 (Name) 中，有一个非常显著的特点:
乘客头衔每个名字当中都包含了具体的称谓或者说是头衔，将这部分信息提取出来后可以作为非常有用一个新变量，可以帮助我们进行预测。
'''
full_data['Name'].head(10)

0                              Braund, Mr. Owen Harris
1    Cumings, Mrs. John Bradley (Florence Briggs Th...
2                               Heikkinen, Miss. Laina
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                             Allen, Mr. William Henry
5                                     Moran, Mr. James
6                              McCarthy, Mr. Timothy J
7                       Palsson, Master. Gosta Leonard
8    Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)
9                  Nasser, Mrs. Nicholas (Adele Achem)
Name: Name, dtype: object

'''
定义函数，从姓名中获取头衔
'''
def getTitle(name):
    str1 = name.split(',')[1]
    str2 = str1.split('.')[0]
    str3 = "".join(str2.strip())
    return str3
titleDf = pd.DataFrame()
titleDf['Title'] = full_data['Name'].map(getTitle)
titleDf

	Title
0	Mr
1	Mrs
2	Miss
3	Mrs
4	Mr
...	...
1304	Mr
1305	Dona
1306	Mr
1307	Mr
1308	Master

1309 rows × 1 columns

'''
定义以下几种头衔类别:
Officer  政府官员
Royalty  王室
Mr       已婚男士
Mrs      已婚妇女
Miss     年轻未婚女子
Master   有技能的人/教师
'''

# 姓名中头衔字符串与定义头衔类别的映射关系
title_dict = {
    "Capt": "Officer",
    "Col": "Officer",
    "Major": "Officer",
    "Don": "Royalty",
    "Sir": "Royalty",
    "Jonkheer": "Royalty",
    "Dr": "Officer",
    "Rev": "Officer",
    "the Countess": "Royalty",
    "Dona": "Royalty",
    "Mme": "Mrs",
    "Mlle": "Miss",
    "Ms": "Mrs",
    "Mr": "Mr",
    "Mrs": "Mrs",
    "Miss": "Miss",
    "Master": "Master",
    "Lady": "Royalty"
}


titleDf['Title'] = titleDf['Title'].map(title_dict)

# one-hot编码
titleDf = pd.get_dummies(titleDf['Title'])
titleDf.head()

	Miss	Mr	Mrs
0	0	1	0
1	0	0	1
2	1	0	0
3	0	0	1
4	0	1	0

# 添加one-hot编码到full_data，bing'q并且删除Name这一列
full_data = pd.concat([full_data,titleDf],axis=1)

full_data.drop('Name',axis=1,inplace=True)
full_data

	PassengerId	Survived	Sex	Age	SibSp	Parch	Ticket	Fare	Cabin	Embarked_C	...	Embarked_S	Pclass_1	Pclass_2	Pclass_3	Master	Miss	Mr	Mrs	Officer	Royalty
0	1	0.0	1	22.000000	1	0	A/5 21171	7.2500	U	0	...	1	0	0	1	0	0	1	0	0	0
1	2	1.0	0	38.000000	1	0	PC 17599	71.2833	C85	1	...	0	1	0	0	0	0	0	1	0	0
2	3	1.0	0	26.000000	0	0	STON/O2. 3101282	7.9250	U	0	...	1	0	0	1	0	1	0	0	0	0
3	4	1.0	0	35.000000	1	0	113803	53.1000	C123	0	...	1	1	0	0	0	0	0	1	0	0
4	5	0.0	1	35.000000	0	0	373450	8.0500	U	0	...	1	0	0	1	0	0	1	0	0	0
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
1304	1305	NaN	1	29.881138	0	0	A.5. 3236	8.0500	U	0	...	1	0	0	1	0	0	1	0	0	0
1305	1306	NaN	0	39.000000	0	0	PC 17758	108.9000	C105	1	...	0	1	0	0	0	0	0	0	0	1
1306	1307	NaN	1	38.500000	0	0	SOTON/O.Q. 3101262	7.2500	U	0	...	1	0	0	1	0	0	1	0	0	0
1307	1308	NaN	1	29.881138	0	0	359309	8.0500	U	0	...	1	0	0	1	0	0	1	0	0	0
1308	1309	NaN	1	29.881138	1	1	2668	22.3583	U	1	...	0	0	0	1	1	0	0	0	0	0

1309 rows × 21 columns

# 2、从Cabin列提取客舱号信息
full_data['Cabin'] = full_data['Cabin'].map(lambda c:c[0])
full_data.head()

	PassengerId	Survived	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked_C	...	Embarked_S	Pclass_1	Pclass_3	Miss	Mr	Mrs
0	1	0.0	1	22.0	1	A/5 21171	7.2500	U	0	...	1	0	1	0	1	0
1	2	1.0	0	38.0	1	PC 17599	71.2833	C	1	...	0	1	0	0	0	1
2	3	1.0	0	26.0	0	STON/O2. 3101282	7.9250	U	0	...	1	0	1	1	0	0
3	4	1.0	0	35.0	1	113803	53.1000	C	0	...	1	1	0	0	0	1
4	5	0.0	1	35.0	0	373450	8.0500	U	0	...	1	0	1	0	1	0

5 rows × 21 columns

# 进行one-hot编码
cabinDf = pd.get_dummies(full_data['Cabin'],prefix='Cabin')
cabinDf.head()

	Cabin_C	Cabin_U
0	0	1
1	1	0
2	0	1
3	1	0
4	0	1

full_data = pd.concat([full_data,cabinDf],axis=1)

full_data.drop('Cabin',axis=1,inplace=True)
full_data.head()

	PassengerId	Survived	Sex	Age	SibSp	Ticket	Fare	Embarked_C	...	Cabin_C	Cabin_U
0	1	0.0	1	22.0	1	A/5 21171	7.2500	0	...	0	1
1	2	1.0	0	38.0	1	PC 17599	71.2833	1	...	1	0
2	3	1.0	0	26.0	0	STON/O2. 3101282	7.9250	0	...	0	1
3	4	1.0	0	35.0	1	113803	53.1000	0	...	1	0
4	5	0.0	1	35.0	0	373450	8.0500	0	...	0	1

5 rows × 29 columns

# 3、建立家庭人数和家庭类别
familyDf = pd.DataFrame()

'''
家庭人数 = 同代直系亲属数(Parch) + 不同代直系亲属数(SibSp) + 乘客自己
'''


familyDf['FamilySize'] = full_data['Parch'] + full_data['SibSp'] + 1

familyDf.head()

	FamilySize
0	2
1	2
2	1
3	2
4	1

'''
家庭类别
小家庭Family_Small:     家庭人数=1
中等家庭Family_Middle:  2<=家庭人数<=4
大家庭Family_Large:     家庭人数>=5
'''


familyDf['Family_Small']  =  familyDf['FamilySize'].map(lambda cnt: 1 if cnt == 1 else 0 )
familyDf['Family_Middle'] =  familyDf['FamilySize'].map(lambda cnt: 1 if 2 <= cnt <= 4 else 0 )
familyDf['Family_Large']  =  familyDf['FamilySize'].map(lambda cnt: 1 if cnt >= 5 else 0 )


familyDf.head()

	FamilySize	Family_Small	Family_Middle
0	2	0	1
1	2	0	1
2	1	1	0
3	2	0	1
4	1	1	0

# 拼接到full_data
full_data = pd.concat([full_data,familyDf],axis=1)

full_data.head()

	PassengerId	Survived	Sex	Age	SibSp	Ticket	Fare	Embarked_C	...	Cabin_U	FamilySize	Family_Small	Family_Middle
0	1	0.0	1	22.0	1	A/5 21171	7.2500	0	...	1	2	0	1
1	2	1.0	0	38.0	1	PC 17599	71.2833	1	...	0	2	0	1
2	3	1.0	0	26.0	0	STON/O2. 3101282	7.9250	0	...	1	1	1	0
3	4	1.0	0	35.0	1	113803	53.1000	0	...	0	2	0	1
4	5	0.0	1	35.0	0	373450	8.0500	0	...	1	1	1	0

5 rows × 33 columns

# 目前的特征
full_data.shape

(1309, 33)

3.3 特征选择

# 相关性矩阵
corrDf = full_data.corr()
corrDf

	PassengerId	Survived	Sex	Age	SibSp	Parch	Fare	Embarked_C	Embarked_Q	Embarked_S	...	Cabin_D	Cabin_E	Cabin_F	Cabin_G	Cabin_T	Cabin_U	FamilySize	Family_Small	Family_Middle	Family_Large
PassengerId	1.000000	-0.005007	0.013406	0.025731	-0.055224	0.008942	0.031416	0.048101	0.011585	-0.049836	...	0.000549	-0.008136	0.000306	-0.045949	-0.023049	0.000208	-0.031437	0.028546	0.002975	-0.063415
Survived	-0.005007	1.000000	-0.543351	-0.070323	-0.035322	0.081629	0.257307	0.168240	0.003650	-0.149683	...	0.150716	0.145321	0.057935	0.016040	-0.026456	-0.316912	0.016639	-0.203367	0.279855	-0.125147
Sex	0.013406	-0.543351	1.000000	0.057397	-0.109609	-0.213125	-0.185484	-0.066564	-0.088651	0.115193	...	-0.057396	-0.040340	-0.006655	-0.083285	0.020558	0.137396	-0.188583	0.284537	-0.255196	-0.077748
Age	0.025731	-0.070323	0.057397	1.000000	-0.190747	-0.130872	0.171521	0.076179	-0.012718	-0.059153	...	0.132886	0.106600	-0.072644	-0.085977	0.032461	-0.271918	-0.196996	0.116675	-0.038189	-0.161210
SibSp	-0.055224	-0.035322	-0.109609	-0.190747	1.000000	0.373587	0.160224	-0.048396	-0.048678	0.073709	...	-0.015727	-0.027180	-0.008619	0.006015	-0.013247	0.009064	0.861952	-0.591077	0.253590	0.699681
Parch	0.008942	0.081629	-0.213125	-0.130872	0.373587	1.000000	0.221522	-0.008635	-0.100943	0.071881	...	-0.027385	0.001084	0.020481	0.058325	-0.012304	-0.036806	0.792296	-0.549022	0.248532	0.624627
Fare	0.031416	0.257307	-0.185484	0.171521	0.160224	0.221522	1.000000	0.286241	-0.130054	-0.169894	...	0.072737	0.073949	-0.037567	-0.022857	0.001179	-0.507197	0.226465	-0.274826	0.197281	0.170853
Embarked_C	0.048101	0.168240	-0.066564	0.076179	-0.048396	-0.008635	0.286241	1.000000	-0.164166	-0.778262	...	0.107782	0.027566	-0.020010	-0.031566	-0.014095	-0.258257	-0.036553	-0.107874	0.159594	-0.092825
Embarked_Q	0.011585	0.003650	-0.088651	-0.012718	-0.048678	-0.100943	-0.130054	-0.164166	1.000000	-0.491656	...	-0.061459	-0.042877	-0.020282	-0.019941	-0.008904	0.142369	-0.087190	0.127214	-0.122491	-0.018423
Embarked_S	-0.049836	-0.149683	0.115193	-0.059153	0.073709	0.071881	-0.169894	-0.778262	-0.491656	1.000000	...	-0.056023	0.002960	0.030575	0.040560	0.018111	0.137351	0.087771	0.014246	-0.062909	0.093671
Pclass_1	0.026495	0.285904	-0.107371	0.362587	-0.034256	-0.013033	0.599956	0.325722	-0.166101	-0.181800	...	0.275698	0.242963	-0.073083	-0.035441	0.048310	-0.776987	-0.029656	-0.126551	0.165965	-0.067523
Pclass_2	0.022714	0.093349	-0.028862	-0.014193	-0.052419	-0.010057	-0.121372	-0.134675	-0.121973	0.196532	...	-0.037929	-0.050210	0.127371	-0.032081	-0.014325	0.176485	-0.039976	-0.035075	0.097270	-0.118495
Pclass_3	-0.041544	-0.322308	0.116562	-0.302093	0.072610	0.019521	-0.419616	-0.171430	0.243706	-0.003805	...	-0.207455	-0.169063	-0.041178	0.056964	-0.030057	0.527614	0.058430	0.138250	-0.223338	0.155560
Master	0.002254	0.085221	0.164375	-0.363923	0.329171	0.253482	0.011596	-0.014172	-0.009091	0.018297	...	-0.042192	0.001860	0.058311	-0.013690	-0.006113	0.041178	0.355061	-0.265355	0.120166	0.301809
Miss	-0.050027	0.332795	-0.672819	-0.254146	0.077564	0.066473	0.092051	-0.014351	0.198804	-0.113886	...	-0.012516	0.008700	-0.003088	0.061881	-0.013832	-0.004364	0.087350	-0.023890	-0.018085	0.083422
Mr	0.014116	-0.549199	0.870678	0.165476	-0.243104	-0.304780	-0.192192	-0.065538	-0.080224	0.108924	...	-0.030261	-0.032953	-0.026403	-0.072514	0.023611	0.131807	-0.326487	0.386262	-0.300872	-0.194207
Mrs	0.033299	0.344935	-0.571176	0.198091	0.061643	0.213491	0.139235	0.098379	-0.100374	-0.022950	...	0.080393	0.045538	0.013376	0.042547	-0.011742	-0.162253	0.157233	-0.354649	0.361247	0.012893
Officer	0.002231	-0.031316	0.087288	0.162818	-0.013813	-0.032631	0.028696	0.003678	-0.003212	-0.001202	...	0.006055	-0.024048	-0.017076	-0.008281	-0.003698	-0.067030	-0.026921	0.013303	0.003966	-0.034572
Royalty	0.004400	0.033391	-0.020408	0.059466	-0.010787	-0.030197	0.026214	0.077213	-0.021853	-0.054250	...	-0.012950	-0.012202	-0.008665	-0.004202	-0.001876	-0.071672	-0.023600	0.008761	-0.000073	-0.017542
Cabin_A	-0.002831	0.022287	0.047561	0.125177	-0.039808	-0.030707	0.020094	0.094914	-0.042105	-0.056984	...	-0.024952	-0.023510	-0.016695	-0.008096	-0.003615	-0.242399	-0.042967	0.045227	-0.029546	-0.033799
Cabin_B	0.015895	0.175095	-0.094453	0.113458	-0.011569	0.073051	0.393743	0.161595	-0.073613	-0.095790	...	-0.043624	-0.041103	-0.029188	-0.014154	-0.006320	-0.423794	0.032318	-0.087912	0.084268	0.013470
Cabin_C	0.006092	0.114652	-0.077473	0.167993	0.048616	0.009601	0.401370	0.158043	-0.059151	-0.101861	...	-0.053083	-0.050016	-0.035516	-0.017224	-0.007691	-0.515684	0.037226	-0.137498	0.141925	0.001362
Cabin_D	0.000549	0.150716	-0.057396	0.132886	-0.015727	-0.027385	0.072737	0.107782	-0.061459	-0.056023	...	1.000000	-0.034317	-0.024369	-0.011817	-0.005277	-0.353822	-0.025313	-0.074310	0.102432	-0.049336
Cabin_E	-0.008136	0.145321	-0.040340	0.106600	-0.027180	0.001084	0.073949	0.027566	-0.042877	0.002960	...	-0.034317	1.000000	-0.022961	-0.011135	-0.004972	-0.333381	-0.017285	-0.042535	0.068007	-0.046485
Cabin_F	0.000306	0.057935	-0.006655	-0.072644	-0.008619	0.020481	-0.037567	-0.020010	-0.020282	0.030575	...	-0.024369	-0.022961	1.000000	-0.007907	-0.003531	-0.236733	0.005525	0.004055	0.012756	-0.033009
Cabin_G	-0.045949	0.016040	-0.083285	-0.085977	0.006015	0.058325	-0.022857	-0.031566	-0.019941	0.040560	...	-0.011817	-0.011135	-0.007907	1.000000	-0.001712	-0.114803	0.035835	-0.076397	0.087471	-0.016008
Cabin_T	-0.023049	-0.026456	0.020558	0.032461	-0.013247	-0.012304	0.001179	-0.014095	-0.008904	0.018111	...	-0.005277	-0.004972	-0.003531	-0.001712	1.000000	-0.051263	-0.015438	0.022411	-0.019574	-0.007148
Cabin_U	0.000208	-0.316912	0.137396	-0.271918	0.009064	-0.036806	-0.507197	-0.258257	0.142369	0.137351	...	-0.353822	-0.333381	-0.236733	-0.114803	-0.051263	1.000000	-0.014155	0.175812	-0.211367	0.056438
FamilySize	-0.031437	0.016639	-0.188583	-0.196996	0.861952	0.792296	0.226465	-0.036553	-0.087190	0.087771	...	-0.025313	-0.017285	0.005525	0.035835	-0.015438	-0.014155	1.000000	-0.688864	0.302640	0.801623
Family_Small	0.028546	-0.203367	0.284537	0.116675	-0.591077	-0.549022	-0.274826	-0.107874	0.127214	0.014246	...	-0.074310	-0.042535	0.004055	-0.076397	0.022411	0.175812	-0.688864	1.000000	-0.873398	-0.318944
Family_Middle	0.002975	0.279855	-0.255196	-0.038189	0.253590	0.248532	0.197281	0.159594	-0.122491	-0.062909	...	0.102432	0.068007	0.012756	0.087471	-0.019574	-0.211367	0.302640	-0.873398	1.000000	-0.183007
Family_Large	-0.063415	-0.125147	-0.077748	-0.161210	0.699681	0.624627	0.170853	-0.092825	-0.018423	0.093671	...	-0.049336	-0.046485	-0.033009	-0.016008	-0.007148	0.056438	0.801623	-0.318944	-0.183007	1.000000

32 rows × 32 columns

'''
查看各个特征与存活(Survived)的相关系数,倒序排列
'''
corrDf['Survived'].sort_values(ascending=False)

Survived         1.000000
Mrs              0.344935
Miss             0.332795
Pclass_1         0.285904
Family_Middle    0.279855
Fare             0.257307
Cabin_B          0.175095
Embarked_C       0.168240
Cabin_D          0.150716
Cabin_E          0.145321
Cabin_C          0.114652
Pclass_2         0.093349
Master           0.085221
Parch            0.081629
Cabin_F          0.057935
Royalty          0.033391
Cabin_A          0.022287
FamilySize       0.016639
Cabin_G          0.016040
Embarked_Q       0.003650
PassengerId     -0.005007
Cabin_T         -0.026456
Officer         -0.031316
SibSp           -0.035322
Age             -0.070323
Family_Large    -0.125147
Embarked_S      -0.149683
Family_Small    -0.203367
Cabin_U         -0.316912
Pclass_3        -0.322308
Sex             -0.543351
Mr              -0.549199
Name: Survived, dtype: float64

根据各个特征与Survived的相关系数大小，选择这几个特征作为模型的输入：

头衔（前面所在的数据集titleDf）、客舱等级（pclassDf）、家庭大小（familyDf）、船票价格（Fare）、船舱号（cabinDf）、登船港口（embarkedDf）、性别（Sex）

full_X = pd.concat(
    [
        titleDf,
        pclassDf,
        familyDf,
        full_data['Fare'],
        cabinDf,
        embarkedDf,
        full_data['Sex']
    ],axis=1
)

full_X.head()

	Miss	Mr	Mrs	Pclass_1	Pclass_3	FamilySize	...	Cabin_U	Embarked_C	Embarked_S	Sex
0	0	1	0	0	1	2	...	1	0	1	1
1	0	0	1	1	0	2	...	0	1	0	0
2	1	0	0	0	1	1	...	1	0	1	0
3	0	0	1	1	0	2	...	0	0	1	0
4	0	1	0	0	1	1	...	1	0	1	1

5 rows × 27 columns

4、构建模型

坦尼克号测试数据集因为是我们最后要提交给Kaggle的，里面没有生存情况的值，所以不能用于评估模型。
使用Kaggle泰坦尼克号项目给的训练数据集，做为我们的原始数据集（记为source），从这个原始数据集中拆分出训练数据集（记为train：用于模型训练）和测试数据集（记为test：用于模型评估）

# 原始数据集有891行
source_row = 891


# 原始数据集的特征
source_X = full_X.loc[0:source_row-1,:]
# 原始数据集的标签
source_y = full_data.loc[0:source_row-1,'Survived']


# 预测数据集特征
pred_X = full_X.loc[source_row:,:]


print('原始数据集的大小：',source_X.shape[0])
print('预测数据集的大小：',pred_X.shape[0])

原始数据集的大小： 891
预测数据集的大小： 418

# 1、拆分原始数据集
from sklearn.model_selection import train_test_split


train_X,test_X,train_y,test_y  = train_test_split(
    source_X,
    source_y,
    test_size=0.2,
    train_size=0.8
)



# 2、选择机器学习算法，我们选择最基础的逻辑回归算法
from sklearn.linear_model import LogisticRegression

lr = LogisticRegression()


# 3、训练模型
lr.fit(train_X,train_y)

# 4、评估模型，用精确率进行评估
lr.score(test_X,test_y)

0.8156424581005587

5、上传到Kaggle

# 对预测数据集进行预测
pred_y = lr.predict(pred_X)

# 转换为kaggle要求是整形
pred_y = pred_y.astype(int)


# 乘客id
passenger_id = full_data.loc[source_row:,'PassengerId']

predDf = pd.DataFrame(
    {
        'PassengerId':passenger_id,
        'Survived':pred_y
    }
)

predDf.head()

	PassengerId	Survived
891	892	0
892	893	1
893	894	0
894	895	0
895	896	1

# 保存结果
predDf.to_csv('./titanic_data/titanic_pred.csv',index=False)

你可能感兴趣的:(#,特征工程,逻辑回归,python,机器学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
python中的深拷贝与浅拷贝 anshejd70787 python
深拷贝和浅拷贝浅拷贝的时候，修改原来的对象，浅拷贝的对象不会发生改变。1、对象的赋值对象的赋值实际上是对象之间的引用：当创建一个对象，然后将这个对象赋值给另外一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用。当对对象做赋值或者是参数传递或者作为返回值的时候，总是传递原始对象的引用，而不是一个副本。如下所示：>>>aList=["kel","abc",123]>>>bLis
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS

	Miss	Mr	Mrs	Pclass_1	Pclass_3	FamilySize	...	Cabin_U	Embarked_C	Embarked_S	Sex
0	0	1	0	0	1	2	...	1	0	1	1
1	0	0	1	1	0	2	...	0	1	0	0
2	1	0	0	0	1	1	...	1	0	1	0
3	0	0	1	1	0	2	...	0	0	1	0
4	0	1	0	0	1	1	...	1	0	1	1

	Miss	Mr	Mrs	Pclass_1	Pclass_3	FamilySize	...	Cabin_U	Embarked_C	Embarked_S	Sex
0	0	1	0	0	1	2	...	1	0	1	1
1	0	0	1	1	0	2	...	0	1	0	0
2	1	0	0	0	1	1	...	1	0	1	0
3	0	0	1	1	0	2	...	0	0	1	0
4	0	1	0	0	1	1	...	1	0	1	1

	Miss	Mr	Mrs	Pclass_1	Pclass_3	FamilySize	...	Cabin_U	Embarked_C	Embarked_S	Sex
0	0	1	0	0	1	2	...	1	0	1	1
1	0	0	1	1	0	2	...	0	1	0	0
2	1	0	0	0	1	1	...	1	0	1	0
3	0	0	1	1	0	2	...	0	0	1	0
4	0	1	0	0	1	1	...	1	0	1	1