圻子-

Kaggle实战：Titanic生存预测（Top 8%）

准备入行数据分析领域，最近一直在学习数据分析的相关课程，刚刚将numpy以及pandas告一段落了，迫不及待的上Kaggle找个实战项目练练手，接下来将详细的过程记录如下。

文章目录

1.数据概览
2.缺失值处理

Embarked缺失值填充
Fare缺失值填充
Age缺失值填充

3.数据分析

Pclass对生存率的影响
Name对生存率的影响
Sex对生存率的影响
家庭规模对生存率的影响
Age对生存率的影响
Embarked对生存率的影响

4.模型建立

特征提取及哑变量编码
random_state学习曲线
max_depth学习曲线
min_samples_split学习曲线
min_samples_leaf学习曲线
min_impurity_decrease学习曲线
预测结果输出

5.不足与展望
参考文献

1.数据概览

先导入数据分析需要的基本库：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

读入数据，数据分为train.csv（训练集）和test.csv（测试集）两部分，其中测试集数据不带有标签，这里将两部分数据一次性读入并合并，将PassengerId作为数据的索引：

train_data = pd.read_csv('data/train.csv',index_col = 'PassengerId')
test_data = pd.read_csv('data/test.csv',index_col = 'PassengerId')
data_all = pd.concat([train_data,test_data],axis=0)

看一下数据的基本概况：

data_all.tail()

#1~891训练集，891~1309测试集
data_all.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1309 entries, 1 to 1309
Data columns (total 11 columns):
Age         1046 non-null float64
Cabin       295 non-null object
Embarked    1307 non-null object
Fare        1308 non-null float64
Name        1309 non-null object
Parch       1309 non-null int64
Pclass      1309 non-null int64
Sex         1309 non-null object
SibSp       1309 non-null int64
Survived    891 non-null float64
Ticket      1309 non-null object
dtypes: float64(3), int64(3), object(5)
memory usage: 122.7+ KB

各字段的含义如下：

'''
passengerId:乘客ID
survived:是否被救获
Pclass:乘客等级（舱位等级分为1/2/3等）
Name:乘客姓名
Sex:乘客性别
Age:乘客年龄
SibSp:siblings&spoused,该乘客在船上的堂兄弟妹/配偶人数
Parch:该乘客在船上的父母/孩子人数
Ticket:船票信息 
Fare:票价
Cabin:客舱
Embarked:登船港口
    出发地点：S=英国南安普顿Southampton
    途径地点1：C=法国 瑟堡市Cherbourg
    途径地点2：Q=爱尔兰 昆士敦Queenstown
'''

Cabin、Embarked、Age、Fare字段存在缺失值，Survived的缺失主要是由于我们将训练集与测试集整合在一起的缘故。接下来对缺失数据进行分析并填充。

2.缺失值处理

Cabin字段缺失数据1014条，缺失比例达77.5%，缺失比例过大，盲目填充可能会导致数据中的错误信息增加，本次分析将Cabin特征舍弃。接下来对Embarked、Fare、Age三个字段进行分别填充。

Embarked缺失值填充

原始数据中Embarked字段仅有两处缺失，将缺失的数据提取出来，看看其其他特征：

#查看Embarked缺失的两列情况
data_all.loc[data_all.loc[:,'Embarked'].isnull(),:]

缺失的两条数据ID分别为62和830，两个乘客的票号，舱位等级、票价及船舱号都相同，由此分析应该是一同上船的。现在以票价（Fare）和舱位等级（Pclass）作为突破口，假设同一处上船的票价相同。

#62号乘客和830号乘客的票价Fare都是80， Pclass都是1，那么先假设票价、客舱和等级相同的乘客是在同一个登船港口登船。
data_all.groupby(['Embarked','Pclass'])['Fare'].median()

Embarked  Pclass
C         1         76.7292
          2         15.3146
          3          7.8958
Q         1         90.0000
          2         12.3500
          3          7.7500
S         1         52.0000
          2         15.3750
          3          8.0500
Name: Fare, dtype: float64

从上述分析可以看出，从C（法国瑟堡市Cherbourg）登船的乘客票价的中位数与80最为接近，因此将Embarked的缺失字段用C填补。

#Embarked为C且Pclass为1的乘客的Fare中位数为80。因此可以将缺失的Embarked值设置为“C”
data_all['Embarked'].fillna('C',inplace = True)

Fare缺失值填充

Fare字段共缺失一条数据，看看缺失数据其他特征的情况：

#Fare值的缺失位置和相关信息
data_all.loc[data_all['Fare'].isnull(),:]

与之前的思路相同，查看从S（英国南安普顿Southampton）上船的3等舱的票价中位数：

data_all.groupby(['Embarked','Pclass'])['Fare'].median()

Embarked  Pclass
C         1         78.2667
          2         15.3146
          3          7.8958
Q         1         90.0000
          2         12.3500
          3          7.7500
S         1         52.0000
          2         15.3750
          3          8.0500
Name: Fare, dtype: float64

从S港登船的乘客，票价的中位数为8.05，用该值填充缺失值：

#S登船港口上船且Pclass为3的乘客费用Fare的中位数为8.05，因此Fare的空缺值补充为8.05。
data_all['Fare'].fillna(8.05,inplace = True)

Age缺失值填充

先看一下未填充之前Age的分布情况：

#age原始数据的分布情况
data_all['Age'].hist(bins = 10,grid = False,density = True,figsize = (10,6))

此处，因为Age的缺失数据有263条，缺失比例为20.1%，如果全部简单的采用均值填补，会使得数据的分布发生较大的变化。因此，考虑使用随机森林对缺失值进行填补。这里选择Sex,Embarked,Fare,SibSp,Parch,Pclass作为缺失值填补的预测特征。首先对非数值型数据进行哑变量编码处理。

#age先考虑用随机森林填充
#选择的预测变量Sex,Embarked,Fare,SibSp,Parch,Pclass
from sklearn.preprocessing import OneHotEncoder
data_ = data_all.copy()
X_co = data_[['Sex','Embarked']]#需要编码的变量Sex,Embarked
enc = OneHotEncoder().fit(X_co)
result = OneHotEncoder().fit_transform(X_co).toarray()
enc.get_feature_names()

array(['x0_female', 'x0_male', 'x1_C', 'x1_Q', 'x1_S'], dtype=object)

创建预测需要的特征矩阵X：

#拼接填补缺失值用的特征矩阵
X = pd.concat([data_all.loc[:,['Fare','SibSp','Parch','Pclass']],pd.DataFrame(result,index = np.arange(1,1310),columns = ['female','male','C','Q','S'])],axis=1)
X.head()

创建预测标签Y

#标签
Y = data_all['Age']

划分训练集，测试集（其中Age字段没有缺失的行的集合，为训练集；Age字段存在缺失的行的集合为测试集）

#划分测试集，训练集
Y_tr = Y[Y.notnull()]
Y_te = Y[Y.isnull()]
X_tr = X.loc[Y_tr.index,:]
X_te = X.loc[Y_te.index,:]

导入随机森林模型，训练并输出预测结果

#随机森林填补缺失值
from sklearn.ensemble import RandomForestRegressor
rfr = RandomForestRegressor(n_estimators=1000,random_state=0)#实例化
rfr.fit(X_tr,Y_tr)#训练模型
Y_te = rfr.predict(X_te)#预测结果输出
data_.loc[data_['Age'].isnull(),'Age'] = Y_te

看一下，缺失值填充前后数据分布的变化情况

plt.subplot(121)
data_all['Age'].hist(bins = 10,grid = False,density = True,figsize = (10,6))
plt.title('before fillna')
plt.subplot(122)
data_['Age'].hist(bins=10,grid = False,density = True,figsize = (10,6))
plt.title('after fillna')

20~30年龄段的数据分布占比较填充前有明显变化，25 ~ 30岁的人数占比增多，其余年龄段的分布与之前基本相同。

3.数据分析

Pclass对生存率的影响

数据分组：

print(data_all.groupby(['Pclass','Survived'])['Survived'].count())
print(data_all.groupby(['Pclass'])['Survived'].mean())

Pclass  Survived
1       0.0          80
        1.0         136
2       0.0          97
        1.0          87
3       0.0         372
        1.0         119
Name: Survived, dtype: int64
Pclass
1    0.629630
2    0.472826
3    0.242363
Name: Survived, dtype: float64

分组数据可视化：

Pclass_count = data_all.groupby(['Pclass','Survived'])['Survived'].count()
Pclass_mean = data_all.groupby(['Pclass'])['Survived'].mean()
Pclass_count.unstack().plot(kind = 'bar',figsize = (10,6),fontsize = 15,rot = 0)#分组后的多重索引数据可通过unstack方法解除一重索引。
Pclass_mean.plot(kind = 'bar',figsize = (10,6),fontsize = 15,rot =0)

Pclass_mean.plot(kind = 'bar',figsize = (15,6),fontsize = 15,rot =0)

一等舱的生存率明显高于其他两个等级的舱。三等舱的生存率还不足30%。

Name对生存率的影响

Name字段是一个比较复杂的字段，在该数据量下，名字基本不会存在重复的现象，因此若不对字段加以处理就进行分析，会对分析结果造成较大影响。仔细观察Name字段的特点，名字中的称谓（Title）存在一定的重复性，且称谓可以一定程度上表示该乘客的社会地位或职业情况，因此本次分析中选取Title来代替Name作为新的特征。

先创建一个空列表，将原始数据中Name字段的Title分隔出来并存入新的列表中

title_list = []
for i in data_all['Name']:
    title_list.append(i.split(',')[1].split('.')[0].strip())
pd.Series(title_list).value_counts()

Mr              757
Miss            260
Mrs             197
Master           61
Dr                8
Rev               8
Col               4
Major             2
Mlle              2
Ms                2
Don               1
the Countess      1
Mme               1
Dona              1
Sir               1
Jonkheer          1
Capt              1
Lady              1
dtype: int64

所有的Title共18种，我们将其做一个整合，并将提取出的Title做一个映射：

title_mapDict = {'Capt':'Officer'
                 ,"Col":"Officer"
                 ,"Major":"Officer"
                 ,"Jonkheer":"Royalty"
                 ,"Don":"Royalty"
                 ,'Dona':'Royalty'
                 ,"Sir":"Royalty"
                 ,"Dr":"Officer"
                 ,"Rev":"Officer"
                 ,"the Countess":"Royalty"
                 ,"Mme":"Mrs"
                 ,"Mlle":"Miss"
                 ,"Ms":"Mrs"
                 ,"Mr":"Mr"
                 ,"Mrs" :"Mrs"
                 ,"Miss" :"Miss"
                 ,"Master" :"Officer"
                 ,"Lady" :"Royalty"
                    }
title_ = pd.Series(title_list).str.strip().map(title_mapDict)
#注意！提取出的Title中存在空格，一定要用strip()方法去除空格后在映射，否则会失败！

看一下各Title生存人数情况

data_all['Name'] = title_
Name_count = data_all.groupby(['Name','Survived'])['Survived'].count()
print(Name_count)
Name_count.unstack().plot(kind = 'bar',figsize = (10,6),fontsize = 15,rot =0,stacked = True)

Name     Survived
Miss     0.0         116
         1.0          68
Mr       0.0         317
         1.0         200
Mrs      0.0          75
         1.0          52
Officer  0.0          37
         1.0          21
Royalty  0.0           4
         1.0           1
Name: Survived, dtype: int64

生存概率情况

Name_mean = data_all.groupby(['Name'])['Survived'].mean()
print(Name_mean)
Name_mean.plot(kind = 'bar',figsize = (10,6),fontsize = 15,rot =0)

Name
Miss       0.369565
Mr         0.386847
Mrs        0.409449
Officer    0.362069
Royalty    0.200000
Name: Survived, dtype: float64

女性的生存率相对来说高一些，而Royalty的生存率较低。接下来进一步探讨性别对生存概率的影响。

Sex对生存率的影响

生存人数情况

Sex_count = data_all.groupby(['Sex','Survived'])['Survived'].count()
print(Sex_count)
Sex_count.unstack().plot(kind = 'bar',figsize = (10,6),fontsize = 15,rot =0)

Sex     Survived
female  0.0          81
        1.0         233
male    0.0         468
        1.0         109
Name: Survived, dtype: int64

生存概率情况

Sex_mean = data_all.groupby(['Sex'])['Survived'].mean()
print(Sex_mean)
Sex_mean.plot(kind = 'bar',figsize = (10,6),fontsize = 15,rot =0)

Sex
female    0.742038
male      0.188908
Name: Survived, dtype: float64

这里就可以明显的看出，女性的生存率远高于男性。逃生的时候也是Women and Child First。

在看看不同舱位等级下男女生存概率：

#不等舱位等级，不同性别的生还概率
print('不同舱位等级的生还人数：\n',train_data.groupby(['Pclass','Sex','Survived'])['Survived'].count())
print('--------------------------')
print('不同舱位等级的生还概率：\n',train_data.groupby(['Pclass','Sex'])['Survived'].mean())

不同舱位等级的生还人数：
 Pclass  Sex     Survived
1       female  0             3
                1            91
        male    0            77
                1            45
2       female  0             6
                1            70
        male    0            91
                1            17
3       female  0            72
                1            72
        male    0           300
                1            47
Name: Survived, dtype: int64
--------------------------
不同舱位等级的生还概率：
 Pclass  Sex   
1       female    0.968085
        male      0.368852
2       female    0.921053
        male      0.157407
3       female    0.500000
        male      0.135447
Name: Survived, dtype: float64

train_data.groupby(['Pclass','Sex'])['Survived'].mean().unstack().plot(kind = 'bar',rot = 0,figsize = (10,6),fontsize = 15)
plt.xlabel('Pclass',fontdict = {'size' : 15})
plt.ylabel('Survived Rate',fontdict = {'size':15})
plt.legend(fontsize = 15)

可以看到一等舱的女性生存率高达96%，基本都存活下来了。而三等舱的男性只有13%的生还概率。（Rose获救，Jack牺牲，冥冥之中大数据看透了一切）

家庭规模对生存率的影响

原始数据中与家庭相关的字段有SibSp（该乘客在船上的堂兄弟妹/配偶人数）Parch（该乘客在船上的父母/孩子人数），我们将两个字段进行合并，创建一个新的Family字段，通过Family字段进行分析。

不同家庭规模的生存情况：

#家庭人口对生存的影响
data_all['Family'] = data_all['SibSp'] + data_all['Parch']
Family_count = data_all.groupby(['Family','Survived'])['Survived'].count()
print(Family_count)
Family_count.unstack().plot(kind = 'bar',figsize = (10,6),fontsize = 15,rot =0)

Family  Survived
0       0.0         374
        1.0         163
1       0.0          72
        1.0          89
2       0.0          43
        1.0          59
3       0.0           8
        1.0          21
4       0.0          12
        1.0           3
5       0.0          19
        1.0           3
6       0.0           8
        1.0           4
7       0.0           6
10      0.0           7
Name: Survived, dtype: int64

不同家庭规模的生存率：

Family_mean = data_all.groupby(['Family'])['Survived'].mean()
print(Family_mean)
Family_mean.plot(kind = 'bar',figsize = (10,6),fontsize = 15,rot =0)

Family
0     0.303538
1     0.552795
2     0.578431
3     0.724138
4     0.200000
5     0.136364
6     0.333333
7     0.000000
10    0.000000
Name: Survived, dtype: float64

图中可以看出，家庭规模在1-3人的存活概率比较高。

Age对生存率的影响

先看一下各年龄段的分布及生存概率情况：

#age对生存的影响
data_all.loc[data_all['Survived'] == 0,:]['Age'].hist(bins = 10,figsize = (10,6),label = 'Not Survived',grid = False)
data_all.loc[data_all['Survived'] == 1,:]['Age'].hist(bins = 10,figsize = (10,6),label = 'Survived',grid = False)
plt.legend()

本次分析中考虑将年龄进行分箱处理，分为（0,18]、(18,40]、(40,81]三个区段，先看看每个年龄段存活人数的情况

#Age_new分箱
bins = [0,18,40,81]
Age_new = pd.cut(data_all['Age'],bins)
data_all['Age_new'] = Age_new
Age_count = data_all.groupby(['Age_new','Survived'])['Survived'].count()
print(Age_count)
Age_count.unstack().plot(kind = 'bar',figsize = (10,6),fontsize = 15,rot =0)

Age_new   Survived
(0, 18]   0.0          84
          1.0          75
(18, 40]  0.0         349
          1.0         204
(40, 81]  0.0         116
          1.0          63
Name: Survived, dtype: int64

分别查看不同年龄段男女的存活情况

Age_new   Sex     Survived
(0, 18]   female  0.0          31
                  1.0          49
          male    0.0          53
                  1.0          26
(18, 40]  female  0.0          39
                  1.0         144
          male    0.0         310
                  1.0          60
(40, 81]  female  0.0          11
                  1.0          40
          male    0.0         105
                  1.0          23
Name: Survived, dtype: int64

在不同的年龄段，女性的存活概率都普遍较高。

Embarked对生存率的影响

存活人数情况

Embarked_count = data_all.groupby(['Embarked','Survived'])['Survived'].count()
print(Embarked_count)
Embarked_count.unstack().plot(kind = 'bar',figsize = (10,6),fontsize = 15,rot =0)

Embarked  Survived
C         0.0          75
          1.0          95
Q         0.0          47
          1.0          30
S         0.0         427
          1.0         217
Name: Survived, dtype: int64

存活概率情况

Embarked_mean = data_all.groupby(['Embarked'])['Survived'].mean()
print(Embarked_mean)
Embarked_mean.plot(kind = 'bar',figsize = (10,6),fontsize = 15,rot = 0)

从C港上船的人生存率明显较高。

4.模型建立

特征提取及哑变量编码

根据上述分析，我们选取Age_new、Embarked、Fare、Pclass、Sex、Family特征进行建模，其中Age_new、Embarked、Sex特征为非数值类型，需要先进行编码。

from sklearn.preprocessing import OneHotEncoder
X_code = data_all.loc[:,['Age_new','Embarked','Sex']]
ohe = OneHotEncoder().fit(X_code)
result_X_code = ohe.fit_transform(X_code).toarray()
ohe.get_feature_names()

array(['x0_(0, 18]', 'x0_(18, 40]', 'x0_(40, 81]', 'x1_C', 'x1_Q', 'x1_S',
       'x2_female', 'x2_male'], dtype=object)

创建新的特征矩阵

new_col = ['(0, 18]','(18, 40]','(40, 81]','C','Q','S','female','male']
X = pd.concat([data_all.loc[:,['Fare','Pclass','Family']],pd.DataFrame(result_X_code,columns = new_col,index = np.arange(1,1310))],axis=1)

拆分训练集、测试集

Y_train = data_all.loc[1:891,'Survived']
Y_test = data_all.loc[892:1309,'Survived']
X_train = X.loc[1:891,:]
X_test = X.loc[892:1309,:]

导入建模需要的库

from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
from sklearn.tree import export_graphviz
import graphviz

random_state学习曲线

#random_state学习曲线
score = []
for i in range(1,300):
    clf = DecisionTreeClassifier(random_state=i,criterion='entropy',max_depth=8)
    score.append(cross_val_score(clf,X_train,Y_train,cv=10).mean())

print(max(score),score.index(max(score)))
plt.plot(np.arange(1,300),score)

0.8327840199750313 15

确定random_state = 16

max_depth学习曲线

#max_depth学习曲线
score = []
for i in range(1,15):
    clf = DecisionTreeClassifier(random_state=0,criterion='entropy',max_depth=i)
    score.append(cross_val_score(clf,X_train,Y_train,cv=10).mean())

print(max(score),score.index(max(score)))
plt.plot(np.arange(1,15),score)

0.8282896379525594 7

确定max_depth = 8

min_samples_split学习曲线

#min_sample_split学习曲线
score = []
for i in range(1,15):
    clf = DecisionTreeClassifier(random_state=15,criterion='entropy',max_depth=8,min_samples_split=i)
    score.append(cross_val_score(clf,X_train,Y_train,cv=10).mean())

print(max(score),score.index(max(score)))
plt.plot(np.arange(1,15),score)

min_samples_split = 0

min_samples_leaf学习曲线

#min_sample_leaf学习曲线
score = []
for i in range(1,15):
    clf = DecisionTreeClassifier(random_state=0,criterion='entropy',max_depth=8,min_samples_leaf=i)
    score.append(cross_val_score(clf,X_train,Y_train,cv=10).mean())

print(max(score),score.index(max(score)))
plt.plot(np.arange(1,15),score)

0.8282896379525594 0

min_impurity_decrease学习曲线

#最小信息增益min_impurity_decrease
score = []
for i in np.linspace(0,0.5,20):
    clf = DecisionTreeClassifier(random_state=16,criterion='entropy',max_depth=8,min_impurity_decrease=i)
    score.append(cross_val_score(clf,X_train,Y_train,cv=10).mean())

print(max(score),score.index(max(score)))
plt.plot(np.linspace(0,0.5,20),score)

0.8327840199750313 0

预测结果输出

#预测结果
clf = DecisionTreeClassifier(random_state=16,criterion='entropy',max_depth=8)
clf.fit(X_train,Y_train)
Y_test = clf.predict(X_test)
result = pd.Series(Y_test,index=np.arange(892,1310))
result.to_csv(r'DecisionTreeClassifier.csv')

将输出结果提交到Kaggle，预测准确率0.80382，排名1167^th，进入top 8%，还是比较满意的。

5.不足与展望

本次实战练习参考了前Top 2%的大佬文章（在参考文献中列出），发现在数据处理的思路方面还是有较大的欠缺。一味追求使用强学习模型并不一定能取得更好的结果，做好数据预处理与特征选择才是王道。
本次分析中Age字段的缺失值填充存在缺陷，填充后的数据分布与原始数据存在差异。且Age字段的分箱结果并没有十分突出各年龄段的生存概率差异，这一点后续有待改进。
Name字段的映射分组没有很好的区分开样本，不同Title的样本生存概率差异不大。

参考文献

https://zhuanlan.zhihu.com/p/28802636

你可能感兴趣的:(Kaggle实战：Titanic生存预测（Top 8%）)

Spring组件初始化扩展点：BeanPostProcessor 冬天vs不冷 spring spring java 后端
目录一、概述二、BeanPostProcessor的作用三、核心方法解析1、postProcessBeforeInitialization2、postProcessAfterInitialization四、实战案例案例1：实现简单的属性打印案例2：动态代理增强（模拟AOP）五、常见应用场景六、注意事项七、总结一、概述在Spring框架中，BeanPostProcessor是一个强大的扩展接口，
Spring Boot 启动报错：Field testMapper in *** required a bean of type ‘***‘ that could not be found. 测试开发小白变怪兽服务端
SpringBoot工程构建时报错：ErrorstartingApplicationContext.Todisplaytheconditionsreportre-runyourapplicationwith'debug'enabled.2021-03-2310:10:52.451ERROR55881---[main]o.s.b.d.LoggingFailureAnalysisReporter:**
2025年 Apache SeaTunnel 2月份社区月报速递 SeaTunnel apache
SeaTunnel社区月报2025-02期“各位热爱ApacheSeaTunnel的小伙伴们，SeaTunnel社区月报来啦！”SeaTunnel正在迅猛发展，这将有利于提升数据同步的高可扩展性、高性能及高可靠性。SeaTunnelMonthlyMergeStars感谢以下小伙伴上个月为ApacheSeaTunnel做的精彩贡献（排名不分先后）：@hawk9821@fcb-xiaobo@akula
在 Linux 上使用 Docker 部署 Spring Boot 项目 ( •̀∀•́ )920 linux docker spring boot
目录1.准备工作1.1SpringBoot项目打包1.2安装Docker2.编写Dockerfile3.构建Docker镜像4.运行Docker容器5.使用DockerCompose（可选）5.1安装DockerCompose5.2编写`docker-compose.yml`5.3启动DockerCompose6.常用管理命令7.高级配置（可选）7.1设置时区7.2使用多阶段构建减少镜像体积8.验
【实操回顾】基于Apache SeaTunnel从MySQL同步到PostgreSQL——Demo方舟计划 SeaTunnel apache mysql postgresql
文章作者：马全才奥克斯集团大数据工程师编辑整理：国电南自赵鸿辉白鲸开源曾辉本文详细演示了如何通过ApacheSeaTunnel2.3.9实现**MySQL**到PostgreSQL的全量数据同步。非常感谢马全才老师花费业余时间为大家演示制作的Demo，也欢迎更多朋友贡献自己熟悉的同步场景，详细请参考社区Demo方舟活动：https://mp.weixin.qq.com/s/5gpiZZ0-8a4I
LeetCode——5840. 使字符串平衡的最小交换次数(Minimum Number of Swaps to Make the String Balanced)[中等]——分析及代码（Java）江南土豆数据结构与算法 LeetCode Java 题解
LeetCode——5840.使字符串平衡的最小交换次数[MinimumNumberofSwapstoMaketheStringBalanced][中等]——分析及代码[Java]一、题目二、分析及代码1.贪心（1）思路（2）代码（3）结果三、其他一、题目给你一个字符串s，下标从0开始，且长度为偶数n。字符串恰好由n/2个开括号‘[’和n/2个闭括号‘]’组成。只有能满足下述所有条件的字符串才能称
PyTorch 生态概览：为什么选择动态计算图框架？小诸葛IT课堂 pytorch 人工智能 python
一、PyTorch的核心价值PyTorch作为深度学习框架的后起之秀，通过动态计算图技术革新了传统的静态图模式。其核心优势体现在：动态灵活性：代码即模型，支持即时调试Python原生支持：无缝衔接Python生态高效的GPU加速：通过CUDA实现透明的硬件加速活跃的社区生态：GitHub贡献者超1.8万人，日均更新100+次二、动态计算图VS静态计算图对比#动态计算图示例（PyTorch）impo
深入理解Java工厂方法模式：原理剖析与实战应用小诸葛IT课堂 java 工厂方法模式开发语言
一、为什么要学习工厂方法模式？在软件开发中，对象创建是最常见的操作之一。当我们需要创建的对象类型存在多种可能，或者对象的创建过程较为复杂时，如果直接在业务代码中使用new关键字进行实例化，会导致以下问题：代码耦合度高难以扩展新的产品类型违反开闭原则（对扩展开放，对修改关闭）代码重复和可维护性差工厂方法模式（FactoryMethodPattern）正是为了解决这些问题而诞生的经典设计模式。它被广泛
【Vue.js 2.x源码解析】第18章从Vue源码分析计算属性与侦听属性的本质差别代码简单说教你读懂Vue2.x源码 vue.js 前端 javascript
想深入了解Vue2.x源码底层原理实现，从编译系统、渲染系统到响应式系统vue-router和vuex等实现方式可以关注『Vue.js2.x源码精讲』专栏或查看专栏目录了解详情从Vue源码分析计算属性与侦听属性的本质差别计算属性（Computed）——了解它，你就能高效利用它`defineComputed`和`createComputedGetter`侦听属性（Watch）——灵活监听变化`wat
2.8滑动窗口专题：最小覆盖子串熊峰峰 #1.每日练习算法 c++leetcode 滑动窗口哈希算法
1.题目链接LeetCode76.最小覆盖子串2.题目描述给定字符串s和t，要求找到s中最小的窗口，使得该窗口包含t的所有字符（包括出现次数）。若不存在，返回空字符串。示例：输入：s="ADOBECODEBANC",t="ABC"输出："BANC"（最短窗口包含A、B、C，且长度最短）。3.示例分析以s="ADOBECODEBANC",t="ABC"为例：滑动窗口法：right移动到索引5时，窗口
深入理解Vue 3：计算属性与侦听器的艺术 qcidyu 实战案例性能优化模板路由侦听器计算属性 Vue3
title:深入理解Vue3：计算属性与侦听器的艺术date:2024/5/30下午3:53:47updated:2024/5/30下午3:53:47categories:前端开发tags:Vue3计算属性侦听器路由模板性能优化实战案例前言Vue3的新特性简介Vue.js作为当今流行的前端框架之一，以其响应式数据绑定和组件化架构著称。随着技术的不断演进，Vue3带来了许多令人期待的新特性，这些特性
python导入不同目录下的py文件孙二羔 python python
文章已迁移至https://www.yuque.com/sunergao-koyun/pamxml/wx38h5
海思 HI 35xx u-boot+kernel+rootfs移植晓鹏-King ARM uboot Linux linux 海思 uboot kernel rootfs
PC端开发环境安装：sudo./sdk.unpack报如下错误：./sdk.unpack:7:./sdk.unpack:WARN:notfound./sdk.unpack:8:./sdk.unpack:ECHO:notfound./sdk.unpack:20:./sdk.unpack:ECHO:notfound./sdk.unpack:22:./sdk.unpack:run_command_pro
学习pytorch 阿什么名字不会重复呢学习 pytorch 人工智能
学习PyTorch是一个很好的选择，尤其是如果你对深度学习和机器学习感兴趣。以下是一个详细的学习计划，可以帮助你系统地掌握PyTorch的基本概念和应用。学习计划概览学习周期：8周（每周约4-5小时）目标：掌握PyTorch基础，能够实现简单的深度学习模型。第1周：基础知识目标：了解深度学习的基础知识，掌握Python和NumPy基础。任务：学习Python基础（数据类型、控制流、函数、类）。资源
Golang学习笔记_49——解释器模式 LuckyLay Golang学习笔记 golang 学习笔记解释器模式设计模式
Golang学习笔记_46——状态模式Golang学习笔记_47——访问者模式Golang学习笔记_48——中介者模式文章目录一、核心概念1.定义2.解决的问题3.核心角色4.类图二、特点分析三、适用场景1.金融公式引擎2.智能合约解析3.业务规则引擎四、Go语言实现示例完整实现代码执行结果五、高级应用1.表达式缓存优化2.并行解释器六、与其他模式对比七、实现建议八、典型应用一、核心概念1.定义解
Web安全攻防入门教程——hvv行动详解白帽子黑客罗哥 web安全安全 hw 护网行动网络安全
Web安全攻防入门教程Web安全攻防是指在Web应用程序的开发、部署和运行过程中，保护Web应用免受攻击和恶意行为的技术与策略。这个领域不仅涉及防御措施的实现，还包括通过渗透测试、漏洞挖掘和模拟攻击来识别潜在的安全问题。本教程将带你入门Web安全攻防的基础概念、常见攻击类型、防御技术以及一些实战方法。一、Web安全基础Web应用安全的三大核心目标（CIA三原则）机密性(Confidentialit
B/S vs C/S架构：技术选型与实战对比码农阿豪@新空间包罗万象 c语言架构开发语言
个人名片作者简介：java领域优质创作者个人主页：码农阿豪工作室：新空间代码工作室（提供各种软件服务)个人邮箱：[[email protected]]个人微信：15279484656个人导航网站：www.forff.top座右铭：总有人要赢。为什么不能是我呢？专栏导航：码农阿豪系列专栏导航面试专栏：收集了java相关高频面试题，面试实战总结️Spring5系列专栏：整理了Spring5重要知识点与
时间语义与窗口操作：Flink 流式计算的核心逻辑小诸葛IT课堂 flink 大数据
在实时数据流处理中，时间是最为关键的维度之一。Flink通过灵活的时间语义和丰富的窗口类型，为开发者提供了强大的时间窗口分析能力。本文将深入解析Flink的时间语义机制，并通过实战案例演示如何利用窗口操作实现实时数据聚合。一、Flink时间语义详解1.1三种时间概念1.1.1EventTime（事件时间）定义：事件实际发生的时间，由事件本身携带的时间戳决定应用场景：需要准确反映事件真实顺序的场景（
Web安全攻防入门教程——hvv行动详解白帽子黑客罗哥 web安全安全学习网络网络安全
Web安全攻防入门教程Web安全攻防是指在Web应用程序的开发、部署和运行过程中，保护Web应用免受攻击和恶意行为的技术与策略。这个领域不仅涉及防御措施的实现，还包括通过渗透测试、漏洞挖掘和模拟攻击来识别潜在的安全问题。本教程将带你入门Web安全攻防的基础概念、常见攻击类型、防御技术以及一些实战方法。一、Web安全基础Web应用安全的三大核心目标（CIA三原则）机密性(Confidentialit
【k8s004】 Docker 打包 K8s镜像姚毛毛-aione1.com kubernetes docker 容器
文章目录一.准备工作1.安装Docker:[官方安装文档](https://docs.docker.com/get-docker/)2.准备应用代码（示例使用Node.js应用）二.创建Dockerfile3、构建镜像（注意最后的点号）4、测试运行5、推送镜像到仓库6、Kubernetes部署文件示例7、部署到Kubernetes三、注意事项8、常用调试命令四、注意事项9、最佳实践一.准备工作1.
shell 知识点1 测试linux服务器之间ip和端口是否畅通 tigercat920 shell linux tcp/ip 服务器
运维工作中，可能会涉及新添加的服务器或者已有服务器之间的网络防火墙不通的情况，但是有的服务器可能已经开通了，有的没有开通，如果一个个去排查就比较麻烦，这个时候我们可以借助于下面这段shell脚本批量探测，并将结果输出；#!/bin/baship="192.168.1.1"#替换为你要检查的IP地址port="80"#替换为你要检查的端口号timeout=3#设置超时时间（秒）foriin`cat/
前端学习路线：从零基础到初级工程师的完整指南（2025最新版）超浪的晨前端学习
前言作为连接设计与技术的核心岗位，前端开发在数字化时代持续释放强大生命力。本路线图专为初学者设计，通过「渐进式学习路径」+「实战项目驱动」的模式，助你系统掌握现代前端开发技能体系。一、基础筑基阶段（4-6周）三大核心基石HTML5语义化标签（）表单验证与多媒体支持SEO基础与无障碍访问CSS3Flex/Grid布局（重点掌握）动画与过渡（@keyframes+transition）响应式设计（媒体
大数据开发之Kubernetes篇----安装部署Kubernetes&dashboard 豆豆总 kubernetes
Kubernetes简介由于公司有需要，需要将外后的服务外加Tensorflow模型部署加训练全部集成到k8s上，所以特意记录下这次简单部署的过程。k8s安装部署首先，我们在部署任何大型的组件前都必须要做的事情就是关闭防火墙和设置hostname了vi/etc/hostsk8s001xxx.xxx.xxx.xxk8s002xxx.xxx.xxx.xx...systemctlstopfirewall
Go 学习笔记整合进击的程序猿~ GO 容器技术数据库 golang 学习 docker 1024程序员节
包括go语言基础、Linux基础、docker、kubernetes、中间件、NoSQL等等。go语言基础：Golang基本数据结构：https://blog.csdn.net/qq_41822345/article/details/125350205Golang高级数据结构：https://blog.csdn.net/qq_41822345/article/details/125475150Go
Kubernetes（k8s）和Docker Compose本质区别愚昧之山绝望之谷开悟之坡笔记 docker kubernetes docker 容器
Kubernetes（k8s）和DockerCompose是两种不同的容器编排工具，它们有各自的特点和使用场景。Kubernetes：Kubernetes是一个开源的容器编排平台，用于自动化计算机软件的部署、扩展和管理。它支持跨多个主机集群的容器化应用程序的自动部署、扩展和管理。Kubernetes提供了高可用性、自动故障转移、自动扩展和滚动更新等功能。它不仅支持Docker容器，还支持其他容器运
K8s longdada007 容器大数据容器大数据
kubeadm部署集群k8s001k8s002k8s0031.修改hostsecho"192.168.201.135k8s01">>/etc/hostsecho"192.168.201.136k8s02">>/etc/hostsecho"192.168.201.137k8s03">>/etc/hosts2关闭防火墙查看防火墙状态firewall-cmd--state1停止firewallsyste
创建 Tauri + Vue + Typescript + Vite + Less 应用 niuiic rust vue vue typescript less rust
更多分享内容可访问我的个人博客https://www.niuiic.top/更新：本文内容已不适用于最新版本，若遇到相同问题可以继续参考。要创建项目首先按https://tauri.studio/docs/getting-started/prerequisites/配置环境，然后参考https://github.com/niuiic/develop-tools中关于tauri的内容。项目创建流程直
中国智能汽车行业市场需求趋势与发展战略规划建议报告2022-2028年版 qq_1106715599 postman
中国智能汽车行业市场需求趋势与发展战略规划建议报告2022-2028年版【撰写单位】：鸿晟信合研究院【报告目录】:第1章：智能汽车行业发展综述1.1智能汽车的界定1.1.1智能汽车的概念1.1.2智能汽车结构1.1.3智能汽车的体系架构1.1.4智能汽车核心价值分析1.1.5《国民经济行业分类与代码》中智能汽车行业归属1.2智能汽车的等级划分1.2.1美国标准1.2.2中国标准（1）驾驶自动化等级
手机租赁系统架构设计与实践解析红点聊租赁其他
内容概要如果把手机租赁系统比作一家智能便利店，那它的架构设计就是货架布局手册——既要让用户轻松找到想要的机型，还得防止有人顺走充电器不还。这套系统的心脏由四个模块组成：用户管理负责刷脸认证和信用档案，智能风控模块像全天候AI侦探扫描可疑行为，订单追踪系统化身设备定位雷达，支付接口则要像高速公路收费站般丝滑。有意思的是，系统居然能通过用户刷短视频的时长预测还款概率，这可比星座运势靠谱多了。建议初创团
RESTful API 简介与使用 tonngw restful 后端
RESTfulAPI简介RESTfulAPI是一种使用HTTP协议进行通信的API，它遵循一组规范和约定，使得客户端和服务器之间的交互变得简单和可预测。RESTfulAPI的设计原则包括资源的定义、统一的接口、无状态性、资源间的关联性以及使用不同的HTTP方法来操作资源。构建RESTfulAPI要构建一个RESTfulAPI，首先需要定义资源。资源可以是任何类型的实体，如用户、订单、文章等。每个资
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l