幼稚的人呐

Kaggle | Titanic - Machine Learning from Disaster【泰坦尼克号生存预测】 | baseline及优秀notebook总结

文章目录

- 一、数据介绍
- 二、代码
- 三、代码优化方向

一、数据介绍

Titanic - Machine Learning from Disaster是主要针对机器学习初学者开展的比赛，数据格式比较简单，为结构化数据。数据的数量较少（训练集892条，测试集419条），因此，就算找到有效的特征有良好的准确度，但很有可能因为一些小变动就让准确度下降。事实上，Public Leaderboard分数较高的notebook，未必对未知数据有良好的预测能力，可能只是过度比对测试数据碰巧得到吻合的结果罢了。在泰坦尼克号公开资料集中，每个用户有如下特征：

Survived: 是否存活（label）
PassengerId: (乘客ID)
Pclass（用户阶级）：1 - 1st class，高等用户；2 - 2nd class，中等用户；3 - 3rd class，低等用户；
Name（名字）
Sex（性别）
Age（年龄）
SibSp：描述了泰坦尼克号上与乘客同行的兄弟姐妹（Siblings）和配偶（Spouse）数目；
Parch：描述了泰坦尼克号上与乘客同行的家长（Parents）和孩子（Children）数目；
Ticket（船票号）
Fare（乘客费用）
Cabin（船舱）
Embarked（港口）：用户上船时的港口

二、代码

代码实现包含如下基本步骤：

特征处理
模型搭建
模型调参
模型集成（融合）

#!usr/bin/env python
# -*- coding:utf-8 -*-
"""
@author: liujie
@file: titanic.py
@time: 2022/09/08
@desc:Kaggle案例——泰坦尼克号
"""
import numpy as np
import pandas as pd
from xgboost import XGBClassifier
from sklearn.model_selection import KFold
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import log_loss, accuracy_score

# TODO:1.构造训练集与测试集
train = pd.read_csv("data/train.csv", sep=",", header=0)
test = pd.read_csv("data/test.csv", sep=",", header=0)
x_train = train.drop(['Survived'], axis=1)
y_train = train['Survived']
x_test = test.copy()

# TODO:2.建立特征
# 去除 PassengerId,Name, Ticket, Cabin
x_train = x_train.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1)
x_test = x_test.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1)
# 对Sex、Embarked进行label encoding
for c in ["Sex", "Embarked"]:
    le = LabelEncoder()
    le.fit(x_train[c].fillna("NA"))

    x_train[c] = le.transform(x_train[c].fillna("NA"))
    x_test[c] = le.transform(x_test[c].fillna("NA"))

# TODO:3.建立模型
xgb = XGBClassifier(n_estimators=20, random_state=2022)
xgb.fit(x_train, y_train)  # 训练
pred = xgb.predict_proba(x_test)[:, 1]  # 预测
# 将结果进行转换
pred = np.where(pred > 0.5, 1, 0)

# TODO:4.K折交叉验证
# 用 List 保存各 fold 的 accuracy 与 logloss 分数
scores_accuracy = []
scores_logloss = []

kf = KFold(n_splits=4, shuffle=True, random_state=2022)
for tr_idx, va_idx in kf.split(x_train):
    # 分为训练集与验证集
    tr_x, va_x = x_train.iloc[tr_idx], x_train.iloc[va_idx]
    tr_y, va_y = y_train.iloc[tr_idx], y_train.iloc[va_idx]
    # 建立XGBoost模型
    xgb = XGBClassifier(n_estimators=20, random_state=2022)
    xgb.fit(tr_x, tr_y)
    # 对验证集进行预测
    va_pred = xgb.predict_proba(va_x)[:, 1]
    # 评测logloss与acc
    logloss = log_loss(va_y, va_pred)
    acc = accuracy_score(va_y, va_pred > 0.5)

    scores_accuracy.append(acc)
    scores_logloss.append(logloss)

# 输出每折评价指标的平均值
logloss = np.mean(scores_logloss)
accuracy = np.mean(scores_accuracy)
print(f'logloss: {logloss:.4f}, accuracy: {accuracy:.4f}')
# logloss: 0.4300, accuracy: 0.8137

# TODO:5.调整超参数
import itertools

# 准备用于调整的超参数
param_space = {"max_depth": [3, 5, 7], "min_child_weight": [1.0, 2.0, 4.0]}
# 产生所有超参数组合
param_combinations = itertools.product(param_space["max_depth"], param_space["min_child_weight"])
# 用 List 保存各参数组合的logloss 分数
params = []
scores = []

for max_depth, min_child_weight in param_combinations:
    # 保存每个fold的分数
    scores_fold = []
    kf = KFold(n_splits=4, shuffle=True, random_state=2022)
    for tr_idx, va_idx in kf.split(x_train):
        # 分为训练集与验证集
        tr_x, va_x = x_train.iloc[tr_idx], x_train.iloc[va_idx]
        tr_y, va_y = y_train.iloc[tr_idx], y_train.iloc[va_idx]
        # 建立XGBoost模型
        xgb = XGBClassifier(n_estimators=20, max_depth=max_depth, min_child_weight=min_child_weight, random_state=2022)
        xgb.fit(tr_x, tr_y)
        # 对验证集进行预测
        va_pred = xgb.predict_proba(va_x)[:, 1]
        # 评测logloss与acc
        logloss = log_loss(va_y, va_pred)
        scores_fold.append(logloss)

    score_mean = np.mean(scores_fold)
    params.append((max_depth, min_child_weight))
    scores.append(score_mean)

# 找出评价指标最佳的组合
best_idx = np.argsort(scores)[0]
best_param = params[best_idx]
print(f'best_param={best_param},best_score={scores[best_idx]}')
# best_param=(7, 2.0),best_score=0.4212539335124341

# TODO:6.建立逻辑回归模型所需特征，为后续模型集成做准备
from sklearn.preprocessing import OneHotEncoder

x2_train = train.drop(['Survived'], axis=1)
y2_train = train['Survived']
x2_test = test.copy()

# 去除训练、测试资料中的PassengerId、Name、Ticket、Cabin
x2_train = x2_train.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1)
x2_test = x2_test.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1)

# 对类别特征进行oneHot编码
cat_cols = ['Sex', 'Embarked', 'Pclass']
ohe = OneHotEncoder(categories='auto', sparse=False)
ohe.fit(x2_train[cat_cols].fillna('NA'))

# 构建one_hot编码后的特征名
ohe_columns = []
for i, c in enumerate(cat_cols):
    # .categories_：表示该特征包含哪些类别的值
    ohe_columns += [f'{c}_{v}' for v in ohe.categories_[i]]

# 将one_hot编码后的结果保存到dataframe中
ohe_train_x2 = pd.DataFrame(ohe.transform(x2_train[cat_cols].fillna('NA')), columns=ohe_columns)
ohe_test_x2 = pd.DataFrame(ohe.transform(x2_test[cat_cols].fillna('NA')), columns=ohe_columns)

# 去除原数据中已经onehot编码的特征
x2_train = x2_train.drop(cat_cols, axis=1)
x2_test = x2_test.drop(cat_cols, axis=1)

# 将onehot编码后的dataframe与原数据合并
x2_train = pd.concat([x2_train, ohe_train_x2], axis=1)
x2_test = pd.concat([x2_test, ohe_test_x2], axis=1)

# 填充缺失值
num_cols = ['Age', 'SibSp', 'Parch', 'Fare']
for col in num_cols:
    x2_train[col].fillna(x2_train[col].mean(), inplace=True)
    x2_test[col].fillna(x2_train[col].mean(), inplace=True)

# 将Fare取对数，变为正态分布
x2_train['Fare'] = np.log1p(x2_train['Fare'])
x2_test['Fare'] = np.log1p(x2_test['Fare'])

# TODO:7.模型集成
from sklearn.linear_model import LogisticRegression

xgb_model = XGBClassifier(n_estimators=20, max_depth=7, min_child_weight=2.0, random_state=2022)
xgb_model.fit(x_train, y_train)
xgb_pred = xgb_model.predict_proba(x_test)[:, 1]

lr_model = LogisticRegression(solver='lbfgs', max_iter=300)
lr_model.fit(x2_train, y2_train)
lr_pred = lr_model.predict_proba(x2_test)[:, 1]

# 取多个模型预测结果的加权值
pred = xgb_pred * 0.8 + lr_pred * 0.2
label_pred = np.where(pred > 0.5, 1, 0)

# 将预测结果进行保存
submission = pd.DataFrame({"PassengerId": test['PassengerId'], "Survived": label_pred})
submission.to_csv("submission.csv", index=False)

三、代码优化方向

How am I doing with my score?这个notebook将参赛者们使用了什么手法，出现了什么样的分数整合起来。可进行参考。

0.77990 Gender + Class + Embarked LightGBM in Python.
这个notebook仅使用Sex，Embarked，Pclass这三个特征来进行预测；使用的模型是LightGBM。
- 对Embarked进行缺失值填充
- 对Sex与Embarked进行标签编码
- 利用网格搜索对lgb模型进行10折交叉验证，寻找最佳模型，得到预测结果
0.78468 Name-only text vectorization and PCA with a 3D interactive plot.
这个notebook仅使用Name特征来进行预测，使用的模型是KNeighborsClassifier。
- 利用单词计数+PCA来矢量化名称特征，
- 使用 KNeighborsClassifier模型并使用 GridSearchCV 对其进行调整参数，最后得到预测结果
0.78947 Gender + Class + Embarked + Age using SVM
这个notebook仅使用Sex，Embarked，Pclass、Age这三个特征来进行预测；使用的模型是SVM。
- 读取数据，并处理Embarked特征中的缺失值
- 针对Age特征，只保留年轻人，以及给Age缺失的人创建一个指标标志
- 针对Embarked，Pclass特征，采用oneHot编码；针对Sex特征，采用Lable 编码
- 使用 SVC模型并使用 GridSearchCV 对其进行调整参数，最后得到预测结果
0.79904 Neural network (keras) by Rafael Vicente Leite.
这个notebook使用ANN模型
- 读取数据
  - 提取姓名中的性别标志
  - 丢弃不相关特征’Ticket’, ‘Cabin’
  - 填充’Embarked’特征列中的缺失值
  - 对Name特征中的性别标志进行标签编码
  - 对Sex与Embarked进行标签编码
  - 得到对应性别与用户等级的平均票价与年龄，用于缺失值填充
  - 对’Embarked’, ‘Name’, 'Pclass’特征进行oneHot编码
  - 对所有特征进行标准化
- 构建ANN模型
- 模型预测和评估
- 生成提交文件
0.79904 Using ethnicity feature by Frederik Hasecke.
这个notebook使用
- 数据准备
  - 填充Embarkment、Fare、Age中的缺失值，Age填充规则比较复杂
  - 从Name特征中分析出种族
  - 将Sex、处理后Name标志、Embarked、Fare、Ethnicity、Age都进行标签编码
- 模型训练
  Gauss、KNN、Log Reg、RandomF、SVM
- 模型融合
0.80861 Simple stacking by Anisotropic stacking is ubiquitous in competitions.
这个notebook使用stacking集成方法，这种方法容易过拟合
- 数据准备
  - 构造FamilySize与IsAlone的特征
  - 填充Embarked（港口）的缺失值
  - 填充Fare的缺失值
  - 填充Age，并用其置信区间中的值(平均值加减标准差)
  - 构造Name的Title特征
  - 对Sex、Title、Embarked、Fare、Age进行分箱
- stacking
  - RandomForestClassifier, AdaBoostClassifier, GradientBoostingClassifier, ExtraTreesClassifier与SVC模型都进行5折交叉验证，保留训练集与测试集的预测值
  - 利用XGBClassifier模型，输入为预测值，输出为真实值来构建模型，得到预测结果（提交文件）
0.80861 Voting/ensembling by Nick Brooks An impressive number of models is packed in almost one hour of running time!
这个notebook使用stacking模型
- 数据加载，数据预处理及特征工程
  - 构建FamilySize、Name_length、IsAlone、Title
  - 利用姓名Title来填充Age中的缺失值
  - 用Embarked的众数来填充Embarked（港口）的缺失值
  - 用Fare的均值来填充Fare中的缺失值
  - 对Sex特征进行标签编码，对Title特征进行标签编码，并用其众数来填充缺失值
  - 对Embarked特征进行标签编码
  - 丢弃不相关特征’Ticket’, 'Cabin
  - 将连续变量缩放到-1到1之间
  - 将数据集分为训练集与测试集
- 模型训练
  - K-Nearest Neighbors
  - SGDClassifier
  - Decision Trees
  - Random Forest
  - AdaBoostClassifier
  - GradientBoostingClassifier
  - XGBClassifier
  - CatBoost
  - lgb
  - LogisticRegression
  - MLPClassifier
  - SVC
- 将上述几种模型的结果进行stacking
  - Logistic Regression
0.80861 Kaggle Titanic with Tensorflow by nme-42 It is quite an interesting kernel.
这个notebook使用DNN
- 数据加载
- 数据预处理
  - 构造船舱级别特征deck level
  - 丢弃船舱特征Cabin
  - 填充Embarked特征中的缺失值，用’N’填充表示缺失
  - 填充Fare中的缺失值，用对应Pclass的Fare的众数
  - 填充Age中的缺失值
- 特征工程
  - 构建Family Size特征
后续部分没咋见过，感兴趣自己看！
0.81339 Titanic Using Ticket Grouping by Jack Roberts.

基于规则进行预测
0.82775 Frank Sylla engineers several features.
- 数据加载
- 特征工程
  - 从Name特征中构建surname与Title特征，并对Title特征进行标签编码-TitleCat
  - 构建家庭人数(FamilySize)特征并切分后进行标签编码
  - 构建Name长度特征-NameLength
  - 填充Fare特征中的缺失值
  - 将Sex特征进行哑编码
  - 将Embarked特征与Cabin特征的第一位进行标签编码
  - 针对Cabin特征的数字部分构建CabinType特征，表示船舱号是奇数、偶数还是空
  - 构建person特征，用于区分CHILD/FEMALE ADULT/MALE ADULT，并对这个特征进行哑编码后再与元特征进行拼接
0.83253 Konstantin brings attention to feature scaling, which is essential when working with the kNN algorithm.
这个Notebook使用KNN算法，达到了非常好的效果
- 特征工程
  - 基于Name特征中构建Title特征，基于Title特征来估算Age中的缺失值
  - 构建Family_Size特征
  - 构建姓氏特征Last_Name
  - 对船票价格特征Fare中的缺失值用均值进行填充
  - 基于Last_Name、Fare、Survived、Ticket特征构建Family_Survival特征
  - 将Fare特征中的缺失值用Fare中的中位数进行填充，并先进行等位分桶，再进行标签编码
  - 将Age特征先进行等位分桶，再进行标签编码
  - 将性别特征进行标签编码
  - 将特征缩放到-1到1之间
- 模型训练
  利用Grid Search CV对KNN进行超参数调参找到KNN模型的最优参数来进行预测

参考：

《kaggle竞赛攻顶秘笈》
Titanic - Machine Learning from Disaster
How am I doing with my score?

新型铁螯合剂FOT1：靶向铁死亡治疗代谢相关脂肪性肝炎的新突破感冒发烧流鼻涕笔记
摘要：代谢相关脂肪性肝炎（MASH）严重威胁公众健康，目前治疗手段有限。本文聚焦于浙江大学王福俤、闵军霞及温州医科大学郑明华团队的最新研究。该研究通过对MASH患者人群大队列数据的分析，结合多种小鼠MASH疾病模型功能筛选，发现MASH患者肝脏铁过量，且与疾病进展呈强正相关。研究团队开发的新型铁螯合剂FOT1（FerroTerminator1，铁死终结者），在多种MASH模型中表现出色，能够有效逆
【总结】常用API架构类型软件测试 API
引言在现代软件开发中，API(应用程序编程接口)已经成为各类系统之间交互的核心。不同的API架构类型适用于不同的业务需求和技术场景，选择合适的架构可以提高系统的性能、可维护性和扩展性。本文将介绍几种常见的API架构类型，并分析它们的特点、适用场景及优缺点。1.RESTfulAPI简介REST(RepresentationalStateTransfer)是一种基于HTTP协议的架构风格，强调使用标准
04.文本标签龙哥带你学编程 #html 前端
一、文本简介1、页面组成元素1）以淘宝购物官网为例，分析网页：在淘宝购物官网的首页上，我们可以看到它是由超链接，文字，图片等元素构成。2）页面组成元素①一个静态页面绝大部分由以下四种元素组成：文本图片超链接音频和视频②思考：符合以下特点的网页是静态还是动态页面？带有音频和视频带有flash动画带有css动画带有JavaScript特效不是。动态页面和静态页面区别在于：是否用到了后端技术，以及是否与
技术革命、需求升级与商业生态迭代——基于开源AI大模型与智能商业范式的创新研究说私域人工智能开源小程序微信零售
摘要：本文以技术哲学与商业生态系统理论为分析框架，通过质性研究与案例分析法，系统阐释第三次与第四次科技革命如何通过技术范式创新引发用户需求跃迁，进而驱动商业生态系统的结构性变革。研究聚焦开源AI大模型、AI智能名片、S2B2C商城及小程序源码等前沿技术工具，解构其如何重构"技术赋权-需求进化-商业物种爆发"的价值传导链条。研究发现：技术革命通过创造新需求空间、重构价值网络拓扑结构、降低创新参与门槛
oceanbase 是不是架构比较复杂和mysql对比分析 hxsln11 金融数据库 oceanbase 架构 mysql
我先来分析用户的需求。用户的问题是关于OceanBase和MySQL的架构复杂度对比，并希望了解两者在架构上的具体差异。这是一个技术性较强的问题，用户可能是数据库开发者、架构师或者对分布式数据库感兴趣的学习者。结合上下文，用户之前已经提到过OceanBase的学习曲线较陡峭，可能是因为其分布式架构的复杂性，所以这次的问题很可能是想进一步明确OceanBase和MySQL在架构上的具体差异，以及为什
Java编程：从入门到实践 AR新视野 Java Scanner类分隔符增量开发字符串操作
背景简介本文将深入探讨Java编程中的标准类使用，特别是Scanner类的实用性和灵活性。通过实例和代码分析，我们将展示如何更有效地使用Scanner类进行用户输入处理，以及如何通过设置分隔符来接收用户输入的完整数据。此外，文章还将介绍增量开发技术在软件开发中的应用，并通过一个简单的Java程序实例，讨论如何设计和实现程序，以及如何在开发过程中考虑到用户体验。使用Scanner类获取用户输入Jav
数学建模：将现实问题抽象为数学模型 AI天才研究院 AI大模型企业级应用开发实战 AI大模型企业级应用开发实战大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1数学建模的重要性数学建模是一种将现实世界的问题抽象成数学模型的方法，通过对模型的分析和求解，可以得到问题的解决方案。数学建模在科学研究、工程技术、经济管理等领域具有广泛的应用，它可以帮助我们更好地理解现实世界的现象和规律，为决策提供依据。1.2数学建模的基本过程数学建模的基本过程包括以下几个步骤：确定问题：从现实世界中提取出一个具体的问题，明确问题的目标和约束条件。建立模型：将问
视频管理平台：应急安全生产的坚实护盾智联视频超融合平台音视频安全人工智能视频编解码网络协议
在应急安全生产中，视频管理平台作为现代科技的重要组成部分，发挥着不可替代的作用。它不仅能够实时监测生产环境，还能在事故发生时提供关键信息，帮助企业快速响应、降低损失。以下是视频管理平台在应急安全生产中的具体作用：一、实时监控与风险预警1、全方位监控：通过部署高清摄像头，覆盖生产车间、仓库、设备区等关键区域，实现无死角监控，确保安全隐患无处遁形。2、智能分析：结合AI算法，自动识别异常行为（如人员违
认识数学建模，什么是数学建模 ymchuangke 从零开始学数学建模数学建模
目录一、什么是数学建模？二、数学建模的核心思想三、数学建模的应用领域四、数学建模的基本步骤五、常用的数学建模方法和工具六、数学建模的挑战与未来发展一、什么是数学建模？数学建模（MathematicalModeling）是一种利用数学语言、结构和方法，对实际问题进行描述、简化、分析和求解的过程。其核心在于通过将复杂的现实世界问题转化为可操作的数学形式，从而利用数学理论和计算技术对其进行深入研究和解决
[BJDCTF2020]JustRE 32304353 安全汇编
打开程序发现需要进行点击获取flag拖入IDA进行分析F5挨个查看代码发现疑似falg的数据经过判断，需要点击19999次获得flag把%d带入即可获取flagflag{1999902069a45792d233ac}提交flag解题思路参考文章BUUCTF-[BJDCTF2020]JustRE1-CSDN博客
2025年美赛数学建模 ICM 问题 E：为农业腾出空间深度学习&目标检测实战项目数学建模 2025美赛 2025年数学建模美赛思路代码问题 E：为农业腾出空间 2025美赛E题
全部都是公开资料，不代写论文，请勿盲目订阅）2025年数学建模美赛期间，会发布思路和代码，赛前半价，赛前会发布往年美赛的经典案例，赛题会结合最新款的chatgpto1pro分析，会根据赛题难度，选择合适的题目着重分析，没有代写论文服务，只会发布思路和代码，因为赛制要求，不会回复私信。内容可能达不到大家预期，请不要盲目订阅。已开通200美元/月的chatgptpro会员，会充分利用chatgpto1
模拟退火算法：原理、应用与优化策略尹清雅算法
摘要模拟退火算法是一种基于物理退火过程的随机搜索算法，在解决复杂优化问题上表现出独特优势。本文详细阐述模拟退火算法的原理，深入分析其核心要素，通过案例展示在函数优化、旅行商问题中的应用，并探讨算法的优化策略与拓展方向，为解决复杂优化问题提供全面的理论与实践指导，助力该算法在多领域的高效应用与创新发展。一、引言在现代科学与工程领域，复杂优化问题无处不在，如资源分配、路径规划、机器学习模型参数调优等。
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
大数据点燃智能制造变革之火——从数据到价值的跃迁 Echo_Wish 大数据高阶实战秘籍大数据制造
大数据点燃智能制造变革之火——从数据到价值的跃迁在全球制造业向智能化转型的浪潮中，大数据已然成为点燃变革的关键火种。从车间到供应链，从设备到产品生命周期，制造业正通过大数据分析找到隐形的效率优化机会，打破传统生产模式的桎梏。作为Echo_Wish，今天我将和大家探讨大数据如何融入智能制造，助力实现生产效率和业务价值的双重飞跃。一、智能制造的核心诉求：数据驱动的决策与执行智能制造的目标是通过数据驱动
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
Swift高效解法！一文搞懂 LeetCode 236「二叉树的最近公共祖先」，助你快速拿下面试！网罗开发 Swift swift leetcode 面试
摘要最近公共祖先（LCA，LowestCommonAncestor）在二叉树、二叉搜索树（BST）等数据结构中有广泛应用，比如权限管理、网络路由、基因分析等。今天我们用Swift来解LeetCode236：「二叉树的最近公共祖先」，不仅会给出代码，还会分析它的时间复杂度、空间复杂度，并结合实际场景聊聊它的应用。问题描述给定一个二叉树，找到两个节点的最近公共祖先（LCA）。LCA的定义：“对于两个节
UI自动化测试往往在功能测试之后进行的核心原因豌豆射手^ 测试 ui 功能测试
一、流程效率：避免“过早优化浪费资源”1.功能未定型，频繁修改导致脚本维护成本高实际场景：某电商平台开发初期，前端页面按钮的ID因需求变动频繁更改。此时若投入UI自动化，需不断调整元素定位逻辑，甚至完全重写脚本。对比分析：阶段功能测试方式成本对比开发初期手动功能测试人工快速验证，适应变化，成本低。稳定期UI自动化测试代码维护成本高，反复修改会抵消效率收益。2.瀑布模型与敏捷开发的差异瀑布模型：严格
Docker 镜像优化：如何避免重复安装软件，加速服务的构建与部署花千树-010 Docker docker 容器运维
在日常开发中，我们经常遇到这样的问题：由于服务需要额外安装大量软件（如JDK、vim、curl、git等），导致Docker镜像构建时间过长，并且每次构建都需要重复安装这些依赖。今天，我们将探讨几种优化方案，通过构建中间层镜像和使用多阶段构建，从而显著提高构建和部署效率。问题分析当你在Dockerfile中直接使用aptinstall安装依赖时，通常会面临以下问题：重复安装导致构建缓慢每次构建镜像
动态规划算法求解背包问题的全面剖析 15号外媒算法
摘要本文深入剖析动态规划算法在求解背包问题中的应用，详细阐述动态规划算法的基本原理、核心要素与解题步骤。通过对0-1背包问题和完全背包问题的具体分析，展示动态规划算法在解决背包问题上的高效性与独特优势。同时，结合实际案例进行算法实现与结果分析，并探讨算法的优化策略与拓展应用，旨在帮助读者全面掌握动态规划算法求解背包问题的方法与技巧。一、引言背包问题作为组合优化领域的经典问题，在资源分配、投资决策、
揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫
LoadRunner 11 性能测试全面教程金融先生-Frank
本文还有配套的精品资源，点击获取简介：LoadRunner11（LR11）是HP开发的一款企业级性能测试工具，支持多应用程序类型的负载测试，用于性能评估、瓶颈识别和系统优化。教程详细介绍LR11的组件功能、脚本开发、场景设置、测试执行、结果分析、性能指标监测、故障诊断以及自动化测试等，提供从初级到高级的完整学习路径。1.LoadRunner11(LR11)功能概述LoadRunner11(LR11
CVPR2025 | 对抗样本&智能安全方向论文汇总 | 持续更新中~ 四口鲸鱼爱吃盐文献阅读安全 transformer 深度学习对抗样本神经网络视觉语言模型后门攻击
汇总结果来源：CVPR2025AcceptedPapers若文中出现的论文链接和GitHub链接点不开，则说明还未公布，在公布后笔者会及时添加.若笔者未及时添加，欢迎读者告知.文章根据题目关键词搜索，可能会有遗漏.若笔者出现遗漏，欢迎告知.部分文章还未公布正文，只有名称.MindtheGap：通过查询更新分析检测正在进行中的黑盒对抗攻击MindtheGap:DetectingBlack-boxAd
使用大语言模型API在AI应用中的实现 qq_37836323 人工智能语言模型自然语言处理 python
随着人工智能技术的迅速发展，大语言模型（LLM）在自然语言处理（NLP）领域的应用越来越广泛。本文将介绍如何使用大语言模型API来实现一些基础的AI应用，并提供一个简单的demo代码，帮助大家更好地理解和使用这些技术。大语言模型API简介大语言模型（如GPT-4）能够理解和生成类似人类的文本。这些模型可以应用于各种任务，包括文本生成、语言翻译、情感分析、对话系统等。为了方便国内用户访问这些强大的模
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
二分查找算法在有序数组中的解题分析与优化带给我一点小幸运算法
摘要本文深入剖析二分查找算法在有序数组中的应用，详细阐述其基本原理、实现步骤与时间复杂度，通过实际案例展示其解题过程，并针对算法在实际应用中的常见问题提出优化策略，旨在帮助读者全面掌握二分查找算法，提升解决相关问题的能力。一、引言在计算机科学领域，查找算法是解决众多问题的基础。二分查找算法作为一种高效的查找方法，在有序数组的查找场景中具有显著优势。随着数据规模的不断增大，二分查找算法相较于其他查找
利用Python爬虫获取淘宝商品评论：实战案例分析数据小爬虫@ API python 爬虫开发语言
在数字化时代，数据的价值日益凸显，尤其是对于电商平台而言，商品评论作为用户反馈的重要载体，蕴含着丰富的信息。本文将详细介绍如何利用Python爬虫技术获取淘宝商品评论，包括代码示例和关键步骤解析。淘宝商品评论的重要性淘宝商品评论不仅对消费者购买决策有着重要影响，而且对于商家来说，也是了解市场需求、改进产品和服务的重要途径。因此，获取并分析淘宝商品评论数据，对于电商运营和市场分析具有重要意义。Pyt
Python 自动探索性数据分析库———KLib 若木胡 tools python 数据分析开发语言
Python自动探索性数据分析库——KLib一、引言在当今数据驱动的时代，数据分析师和科学家们面临着海量的数据需要处理和分析。探索性数据分析（EDA）作为数据处理流程中的关键环节，旨在帮助人们快速理解数据的特征、分布、相关性等重要信息，从而为后续的深入分析、建模以及决策提供坚实的基础。Python以其丰富的生态系统和强大的功能在数据分析领域占据着重要地位，而KLib则是其中一款专注于自动探索性数据
源码篇：python生成《蔬菜店销售数据分析报告》案例 IT小本本 python python 数据分析开发语言
本文将通过Python实现一个完整的蔬菜销售数据分析项目，涵盖数据生成、清洗、分析及可视化全流程。我们将利用模拟数据生成技术创建90天的销售记录，通过Pandas进行数据处理，结合Matplotlib和Seaborn实现多样化的可视化图表，并最终生成动态交互报告。一、数据生成：模拟真实销售场景为了模拟真实的蔬菜销售数据，我们设计了包含10种蔬菜（白菜、土豆、西红柿等）的90天销售记录。数据生成逻辑
软件工程（数据字典） Rain:) 软件工程数据分析软件开发
数据字典数据字典是关于数据的信息的集合，也就是对数据流图中包含的所有元素的定义的集合。任何字典最主要的用这都是供人查阅对不了解的条目的解释，数据字典的作用也正是在软件分析和设计的过程中给人提供关于数据的描述信息。数据流图和数据字典共同构成系统的逻辑模型，没有数据字典，数据流图就不严格，然而没有数据流图，数据字典也难于发挥作用。只有数据流图和对数据流图中每个元素的精确定义放在一起，才能共同构成系统的
对比与详解：QR 分解、奇异值分解（SVD）与 Schur 分解及其他可产生正交基的方法 DuHz 机器学习人工智能信号处理算法矩阵信息与通信线性代数
对比与详解：QR分解、奇异值分解（SVD）与Schur分解及其他可产生正交基的方法在数值线性代数与矩阵分析中，常见的能产生正交（或酉）矩阵的分解方法包括QR分解、奇异值分解（SVD）、Schur分解等。这些方法虽然都会产生一个（或多个）正交矩阵，但它们在适用范围、分解形式、计算重点和应用场景等方面各不相同。本文将尽量对这些分解方法进行系统地介绍与对比。1.正交矩阵（Orthogonal/Unita
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，

Kaggle | Titanic - Machine Learning from Disaster【泰坦尼克号生存预测】 | baseline及优秀notebook总结

文章目录

一、数据介绍

二、代码

三、代码优化方向

你可能感兴趣的:(竞赛分析,kaggle,Titanic)