机器学习司猫白

kaggle入门级竞赛Spaceship Titanic LIghtgbm+Optuna调参

kaggle入门级竞赛Spaceship Titanic

简介
- 数据介绍
- - 数据集描述
  - 数据字段描述
  - - train.csv - 约三分之二（~8700）乘客的个人记录，用作培训数据。
    - test.csv - 剩余三分之一（~4300）乘客的个人记录，用作测试数据。您的任务是预测Transported该集合中乘客的价值。
    - Sample_submission.csv - 格式正确的提交文件。
- 代码
- 分类变量
- optuna算法简介

简介

欢迎来到 2912 年，需要您的数据科学技能来解开宇宙之谜。我们收到了来自四光年外的信号，情况看起来不太好。
泰坦尼克号宇宙飞船是一个月前下水的一艘星际客轮。船上载有近 13,000 名乘客，这艘船开始了它的处女航，将太阳系的移民运送到绕附近恒星运行的三颗新的宜居系外行星。
在绕行半人马座阿尔法星前往其第一个目的地（炎热的 55 Cancri E）途中，粗心的泰坦尼克号宇宙飞船与隐藏在尘埃云中的时空异常相撞。可悲的是，它遭遇了与 1000 年前同名的相似命运。虽然飞船完好无损，但几乎一半的乘客都被传送到了异次元！
为了帮助救援人员并找回失踪的乘客，您面临的挑战是使用从飞船损坏的计算机系统中恢复的记录来预测哪些乘客被异常现象运送。

帮助拯救他们并改变历史！

数据介绍

数据集描述

在本次比赛中，您的任务是预测泰坦尼克号宇宙飞船与时空异常相撞期间乘客是否被传送到另一个维度。为了帮助您做出这些预测，您将获得一组从船上损坏的计算机系统中恢复的个人记录。

数据字段描述

train.csv - 约三分之二（~8700）乘客的个人记录，用作培训数据。

PassengerId- 每位乘客都有一个唯一的 ID。每个 ID 均采用以下形式gggg_pp，其中gggg指示乘客随行的团体，并且pp是他们在团体中的编号。群体中的人通常是家庭成员，但并非总是如此。
HomePlanet- 乘客离开的星球，通常是他们永久居住的星球。
CryoSleep- 表明乘客是否选择在航程期间处于假死状态。处于冷冻睡眠状态的乘客被限制在自己的客舱内。
Cabin- 乘客所居住的舱室号码。采用以下形式deck/num/side，其中side可以是P左舷或右舷。S
Destination- 乘客将要登陆的星球。
Age- 乘客的年龄。
VIP- 旅客是否在航程中支付了特殊VIP服务费用。
RoomService, FoodCourt, ShoppingMall, Spa, VRDeck- 乘客在泰坦尼克号宇宙飞船的众多豪华设施中所支付的费用。
Name- 乘客的名字和姓氏。
Transported- 乘客是否被传送到另一个维度。这是目标，即您尝试预测的列。

test.csv - 剩余三分之一（~4300）乘客的个人记录，用作测试数据。您的任务是预测Transported该集合中乘客的价值。

Sample_submission.csv - 格式正确的提交文件。

PassengerId- 测试集中每位乘客的 ID。
Transported- 目标。对于每位乘客，预测True或False。

代码

import pandas as pd

train_data = pd.read_csv('/kaggle/input/spaceship-titanic/train.csv')
test_data = pd.read_csv('/kaggle/input/spaceship-titanic/test.csv')

train_data.shape, test_data.shape

打开数据文件，查看文件的一些基本信息，这里可用的函数有train_data.shape，train_data.head(),train_data.info()等等。

train_data.isna().sum(), test_data.isna().sum()

这里是查看数据集的缺失值。根据缺失值的数据以及类型去选择对缺失值进行删除或者填充操作。

import numpy as np
# 删除缺失值
train_data2 = train_data.dropna()
test_data2 = test_data
# 对需要转换的列进行对数转换
columns_to_transform = ['RoomService', 'FoodCourt', 'ShoppingMall', 'Spa', 'VRDeck']

# 为了避免对数运算中的负值或零，加上常数1，确保数据不为零
for col in columns_to_transform:
    train_data2[col] = np.log(train_data2[col] + 1)  # 对每一列进行对数转换，避免 log(0)
for col in columns_to_transform:
    test_data2[col] = np.log(test_data2[col] + 1)  
train_data2.shape,test_data2.shape

这里的对数转换操作是因为我提前知道这些列的分布情况，并不是很好的正态分布，因此进行对数转换能够增强模型的稳定性。

train_data2[['team', 'team_encoder']] = train_data2['PassengerId'].str.split('_', expand=True)

test_data2[['team', 'team_encoder']] = test_data2['PassengerId'].str.split('_', expand=True)
# 将该列转换为整数类型
train_data2['team'] = train_data2['team'].astype(int)
train_data2['team_encoder'] = train_data2['team'].astype(int)
test_data2['team'] = test_data2['team'].astype(int)
test_data2['team_encoder'] = test_data2['team'].astype(int)
train_data2.shape, test_data2.shape

根据字段的信息可以知道，每个 ID 均采用以下形式gggg_pp，其中gggg指示乘客随行的团体，并且pp是他们在团体中的编号。因此在这里进行了切分操作，而不是直接从特征中删除。一般的唯一标识符所含有的数据信息太少，在入模之前都是进行删除操作。

## 这里计算每个人在飞船上的总消费金额
train_data2.loc[:, 'total_fee'] = train_data2['RoomService'] + train_data2['FoodCourt'] + train_data2['ShoppingMall'] + train_data2['Spa'] + train_data2['VRDeck']
test_data2.loc[:, 'total_fee'] = test_data2['RoomService'] + test_data2['FoodCourt'] + test_data2['ShoppingMall'] + test_data2['Spa'] + test_data2['VRDeck']

# 使用 str.split() 拆分
train_data2[['deck', 'num', 'side']] = train_data2['Cabin'].str.split('/', expand=True)
test_data2[['deck', 'num', 'side']] = test_data2['Cabin'].str.split('/', expand=True)

# 删除多个列 
train_data3 = train_data2.drop(['Cabin', 'Name','PassengerId'], axis=1)
test_data3 = test_data2.drop(['Cabin', 'Name','PassengerId'], axis=1)
train_data3.drop_duplicates(inplace = True)
PassengerId=test_data2['PassengerId']
# 使用 map() 方法进行编码
train_data3['Transported'] = train_data3['Transported'].map({True: 1, False: 0})
train_data3.shape, test_data3.shape

# 准备入模，划分好目标变量和特征
train_data4=train_data3.drop(['Transported'], axis=1)
label=train_data3['Transported']

以上都是一些数据处理和特征工程的操作，大家自行查看。

from sklearn.preprocessing import OneHotEncoder
import pandas as pd

def encode_categorical_features(train_df, test_df, categorical_columns):
    """
    对指定的类别型特征进行 One-Hot 编码，并对训练集和测试集进行特征对齐。
    
    """
    encoder = OneHotEncoder(sparse_output=False, handle_unknown='ignore')  # 创建 OneHotEncoder
    train_encoded = train_df.copy()  # 使用传入的训练集数据
    test_encoded = test_df.copy()  # 使用传入的测试集数据
    
    for column in categorical_columns:
        # 对训练集进行 fit_transform
        train_encoded_array = encoder.fit_transform(train_df[[column]])
        # 对测试集使用训练集的规则进行 transform
        test_encoded_array = encoder.transform(test_df[[column]])
        
        # 将编码后的数据转换为 DataFrame
        train_encoded_df = pd.DataFrame(train_encoded_array, 
                                        columns=encoder.get_feature_names_out([column]), 
                                        index=train_df.index)
        test_encoded_df = pd.DataFrame(test_encoded_array, 
                                       columns=encoder.get_feature_names_out([column]), 
                                       index=test_df.index)
        
        # 合并编码后的数据到原始 DataFrame 中
        train_encoded = pd.concat([train_encoded, train_encoded_df], axis=1)
        test_encoded = pd.concat([test_encoded, test_encoded_df], axis=1)
        
        # 删除原始的类别型列
        train_encoded.drop(column, axis=1, inplace=True)
        test_encoded.drop(column, axis=1, inplace=True)
    
    # 确保训练集和测试集的列顺序一致
    test_encoded = test_encoded.reindex(columns=train_encoded.columns, fill_value=0)
    
    return train_encoded, test_encoded

# 需要编码的列名
encoder_columns = ['HomePlanet', 'CryoSleep', 'Destination', 'VIP', 'deck', 'num', 'side']

# 调用函数进行编码，传入指定的类别列
train_data_encoded, test_data_encoded = encode_categorical_features(train_data4, test_data3, encoder_columns)

# 查看结果维度
print("训练集维度: ", train_data_encoded.shape)
print("测试集维度: ", test_data_encoded.shape)

以上属于编码的操作，这里使用的OneHotEncoder，一般情况下，模型更想要的是数值数据，因此需要转成数值数据。object类型的编码一般是独热编码用的较多，这里就要提一下分类变量的类型。

分类变量

分类变量（Categorical Variables）是指那些数据值表示不同类别的变量。分类变量本身并没有数量上的顺序，通常用来表示某个对象或现象的类型、类别等。根据其具体的特点，分类变量可分为几种类型，且在机器学习与数据分析中，通常需要对分类变量进行编码，以便进行后续的建模和计算。

分类变量的类型
分类变量可以根据其类别结构分为两种主要类型：

（1）名义型变量（Nominal Variables）
定义：名义型变量表示不同的类别或类型，但这些类别之间没有内在的顺序关系。例如：性别（男、女）、颜色（红色、蓝色、绿色）、城市（北京、上海、广州）。
示例：
性别：男、女
城市：纽约、伦敦、东京
（2）顺序型变量（Ordinal Variables）
定义：顺序型变量不仅表示不同的类别，而且这些类别之间具有某种自然的顺序关系，但顺序间的距离不一定是均等的。顺序型变量不仅告诉我们类别的不同，还给出了这些类别之间的相对顺序。例如：教育程度（小学、中学、大专、大学）、星级评价（1星、2星、3星、4星、5星）。
示例：
教育程度：小学 < 中学 < 大专 < 本科
星级评价：1星 < 2星 < 3星 < 4星 < 5星
2. 分类变量的编码方法
在机器学习和数据分析中，由于大多数算法无法直接处理非数值型的数据，我们需要将分类变量转换为数值型变量。常见的编码方法包括：

（1）独热编码（One-Hot Encoding）
适用范围：适用于名义型变量。

原理：将每个类别转换为一个新的二进制特征列。如果某个样本属于某个类别，则该类别对应的列为1，其他列为0。每个类别都会变成一个独立的列。

示例：

假设有一个“颜色”变量，类别为：红色、蓝色、绿色。
编码后的结果：
红色蓝色绿色
1 0 0
0 1 0
0 0 1
优点：不会引入任何顺序关系，避免了不必要的模型假设。适用于类别数量较少的变量。

缺点：如果类别数目很大，编码后的数据会变得非常稀疏（维度过高）。

（2）标签编码（Label Encoding）
适用范围：适用于顺序型变量（有内在顺序的分类变量），也可以应用于名义型变量，但对于名义型变量可能会引入不必要的顺序假设。

原理：将每个类别映射为一个整数值。例如，“红色” = 0, “蓝色” = 1, “绿色” = 2。

示例：

假设有一个“教育程度”变量，类别为：小学、中学、大专、本科。
编码后的结果：
教育程度编码
小学 0
中学 1
大专 2
本科 3
优点：编码简单，维度低。

缺点：对于名义型变量使用时可能不合适，因为会误导模型认为这些数字之间存在某种顺序或距离（例如，模型可能认为"红色"比"蓝色"大）。

（3）目标编码（Target Encoding）
适用范围：适用于分类变量和回归问题，尤其是类别很多时。

原理：通过计算每个类别的目标变量（如标签）的均值或其他统计量来替代类别。例如，对于某个分类变量，每个类别的编码就是该类别对应的目标变量的平均值。

示例：

假设我们有一个“城市”变量和一个“收入”目标变量，通过计算每个城市的平均收入来替代“城市”变量。
优点：能够有效处理高基数（即类别数非常多）的情况。

缺点：可能会导致过拟合，尤其是在数据集较小的时候。

（4）频率编码（Frequency Encoding）
适用范围：适用于类别较多的变量。

原理：将每个类别用该类别在数据集中的出现频率来表示。频率高的类别对应较大的数值。

示例：

假设有一个“城市”变量，并且“纽约”出现了50次，“洛杉矶”出现了30次，“东京”出现了20次。
编码后的结果：
城市频率编码
纽约 50
洛杉矶 30
东京 20
优点：简洁，且避免了独热编码带来的高维问题。

缺点：可能丧失类别的具体信息，且频率高的类别可能在某些算法中被错误地解释为重要。

（5）二进制编码（Binary Encoding）
适用范围：适用于类别数目较多且需要减少维度的情况。

原理：首先将类别用整数编码，然后将这些整数转换为二进制数，最终将二进制数拆分成多个列。

示例：

假设有5个类别，我们首先对其进行整数编码（例如：0, 1, 2, 3, 4），然后将这些整数转换为二进制：000, 001, 010, 011, 100。
编码后的结果：
类别二进制编码
0 000
1 001
2 010
3 011
4 100
优点：相比独热编码，维度较低。

缺点：对模型来说，二进制编码可能难以解释，尤其是在类别很多时。

总结
对于名义型变量，常用的编码方式是独热编码，但如果类别很多也可以使用频率编码或目标编码。
对于顺序型变量，适合使用标签编码，因为这些变量本身存在一定的顺序关系。
对于类别数目较多的变量，除了常规的独热编码和标签编码，目标编码和频率编码也可以作为有效选择。
选择哪种编码方式，主要取决于数据的特点、所选模型以及任务的具体要求。

from sklearn.model_selection import train_test_split
from sklearn.metrics import precision_score, recall_score, f1_score, roc_auc_score
import lightgbm as lgb
import optuna
import joblib  # 用于保存模型

x = train_data_encoded
y = label

# 切分数据集
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

# 定义目标函数
def objective(trial):
    params = {
        'objective': 'binary',
        'scale_pos_weight': 0.98557,  
        'boosting_type': 'gbdt',
        'max_depth': trial.suggest_int('max_depth', 3, 10),
        'num_leaves': trial.suggest_int('num_leaves', 20, 150),
        'min_child_samples': trial.suggest_int('min_child_samples', 10, 100),
        'min_child_weight': trial.suggest_loguniform('min_child_weight', 1e-3, 10.0),
        'subsample': trial.suggest_uniform('subsample', 0.6, 1.0),
        'colsample_bytree': trial.suggest_uniform('colsample_bytree', 0.6, 1.0),
        'learning_rate': trial.suggest_loguniform('learning_rate', 1e-4, 0.1),
        'reg_lambda': trial.suggest_loguniform('reg_lambda', 1e-3, 10.0),
        'reg_alpha': trial.suggest_loguniform('reg_alpha', 1e-3, 10.0),
    }
    
    model = lgb.LGBMClassifier(**params, random_state=42)
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    f1 = f1_score(y_test, y_pred)
    return f1

# 启动优化
study = optuna.create_study(direction='maximize')
study.optimize(objective, n_trials=50)

# 使用最佳参数训练模型
best_params = study.best_trial.params
best_model = lgb.LGBMClassifier(**best_params, random_state=42)
best_model.fit(X_train, y_train)

# 保存模型
joblib.dump(best_model, "best_lightgbm_model.pkl")

# 评估
y_pred = best_model.predict(X_test)
y_proba = best_model.predict_proba(X_test)[:, 1]
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)
auc = roc_auc_score(y_test, y_proba)

# 输出结果
print("最佳参数: ", best_params)
print("查准率: {:.5f}".format(precision))
print("查全率: {:.5f}".format(recall))
print("F1分数: {:.5f}".format(f1))
print("AUC分数: {:.5f}".format(auc))
print("模型已保存为 'best_lightgbm_model.pkl'")

运行结果如下

最佳参数:  {'max_depth': 5, 'num_leaves': 64, 'min_child_samples': 49, 'min_child_weight': 2.4205967592730935, 'subsample': 0.8284617968332849, 'colsample_bytree': 0.815004121704074, 'learning_rate': 0.052056911035826305, 'reg_lambda': 0.002421309962401076, 'reg_alpha': 9.088728193209626}
查准率: 0.77869
查全率: 0.83700
F1分数: 0.80679
AUC分数: 0.88882
模型已保存为 'best_lightgbm_model.pkl'

这里选择使用lightgbm完全是本人习惯，主要是因为其运行速度较其他算法更快。大家可以选择别的模型进行尝试，或者直接使用堆叠，堆叠在竞赛中是比较玩赖的算法，将多种模型的效果可以进行叠加。
LightGBM的主要优点包括训练速度快、内存使用高效、支持类别特征、能够处理大规模数据集、支持分布式训练和GPU加速、具有灵活的调参能力、强大的可解释性以及支持多种任务类型。这些优点使得LightGBM在解决机器学习问题时，特别是在数据量较大时，成为一种非常流行和高效的工具。
这里的参数优化使用了optuna，大家也可以使用网格搜索或者遗传算法和粒子群算法进行参数优化。

optuna算法简介

Optuna 是一个自动化的超参数优化框架，旨在帮助机器学习模型在不同的超参数配置下找到最优解。它提供了高效、灵活且易于使用的超参数调优工具，适用于各种机器学习任务，包括深度学习、传统机器学习以及强化学习等。Optuna的核心特点是通过高效的算法自动化调整模型的超参数，极大地减少了人工调参的时间和工作量。

Optuna的主要特点和优势
自动化超参数优化：
Optuna 旨在通过自动化搜索超参数空间来帮助优化机器学习模型。它通过定义一个目标函数（objective function），在该函数中评估模型的性能，并通过智能搜索来找到最优的超参数组合。

高效的优化算法：
Optuna 使用基于 TPE（Tree-structured Parzen Estimator）算法的贝叶斯优化方法。TPE 是一种先进的序列模型优化方法，比传统的网格搜索和随机搜索更加高效，能够在较少的试验次数下找到优秀的超参数配置。

TPE（Tree-structured Parzen Estimator）：一种贝叶斯优化技术，它根据已评估的超参数配置的性能来逐步优化后续的超参数选择。
灵活的搜索空间定义：
Optuna 支持通过用户自定义的搜索空间来定义超参数的范围，支持离散和连续类型的参数。用户可以灵活选择各种超参数的搜索策略（如uniform、loguniform等），同时支持多种搜索空间约束。

试验和算法的分布式支持：
Optuna 支持分布式训练，通过集成分布式计算框架（如Dask或MPI），可以在多台机器或多个进程中并行化超参数优化过程，加速搜索过程。

早停机制（Pruning）：
在训练过程中，Optuna 提供了早停机制，可以提前终止那些表现不佳的试验，从而节省计算资源。Optuna可以自动监控训练过程中的指标，并根据设定的阈值决定是否停止试验，进一步提高效率。

易于集成：
Optuna 与常见的机器学习库（如 Scikit-learn, XGBoost, LightGBM, TensorFlow, PyTorch）有很好的兼容性，可以方便地与现有的工作流集成。Optuna 提供了简单易用的接口，帮助用户快速上手。

可视化：
Optuna 提供了强大的可视化工具，可以帮助用户查看超参数搜索的过程、结果以及模型的性能趋势。例如，可以绘制超参数与目标值之间的关系图，或者查看优化过程中不同超参数组合的表现。

以上就是该次竞赛的所有内容，分享给大家更多是为了交流，本人以后的内容还是以实战的项目为主，项目中用到的知识点顺便进行一些分享，本次的分享到这里就结束了。

数据文件也已经上传，点关注不迷路，以后会更新更多机器学习实战的内容

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
苦练Python第9天：if-else分支九剑 python后端前端人工智能
苦练Python第9天：if-else分支九剑前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！欢迎来到100天Python挑战第9天！今天我们不练循环，改磨“分支剑法”——ifelse三式：单分支、双分支、多分支，以及嵌套和三元运算符，全部实战演练，让
苦练Python第8天：while 循环之妙用 python后端前端人工智能
苦练Python第8天：while循环之妙用原文链接：https://dev.to/therahul_gupta/day-9100-while-loops-with-real-world-examples-528f作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb