杰某QAQ

Datawhale机器学习夏令营实践赛笔记（一）-JiemouQAQ

学习指导

官方学习手册：https://datawhaler.feishu.cn/docx/YqpgdYp4VolgvYxtE0ncWtvLnTg
ML实践教程：https://datawhaler.feishu.cn/docx/PB2nd23zyoPtvYxEfxncBwJBnDf
课程录播：https://space.bilibili.com/431850986

注：
作为一名机器学习与python小白，明确学习目的是很关键的。
本次比赛注重于实践与理论相结合，采用先练后学、边学边练的模式，解决在python学习中生啃语法而无从训练的难题，我们的学习分为精读baseline，学习算法理论，优化代码与深入三个部分。

赛题简介

官方链接：锂离子电池生产参数调控及生产温度预测挑战赛
https://challenge.xfyun.cn/topic/info?type=lithium-ion-battery&ch=bvSQT7Y
注：必读数据说明部分

一键运行：https://aistudio.baidu.com/aistudio/projectdetail/6512066?sUid=2554132&shared=1&ts=1689841007106
注：每日8G，合理使用免费资源

赛题分析：
本次比赛为数据挖掘类型的比赛，聚焦于工业场景。
本赛题实质上为回归任务，其中会涉及到时序预测相关的知识。
注：回归任务，模型选择与设定以此为准
注：时序预测，特征工程的构建与优化以此进行

通过电炉空间温度推测产品内部温度，设计烧结过程的温度场和浓度场的最优控制律：
任务输入：电炉对应17个温区的实际生产数据，分别是电炉上部17组加热棒设定温度T1-1 ~ T1-17，电炉下部17组加热棒设定温度T2-1~T2-17，底部17组进气口的设定进气流量V1-V17；
任务输出：电炉对应17个温区上部空间和下部空间17个测温点的测量温度值。
值得注意的是预测目标为34个，所以需要我们进行34次模型训练和预测。
注：参考文件，还包括序号，时间两列

同时数据规模比较小，可以快速处理数据和搭建模型，对于机器要求8g内存即可。
本次为结构化赛题，包含电炉烧结每个时间段的流量、上下部设定温度，以及预测目标上下部测量温度值。
注：数据规模是选择模型的重要因素之一

baseline精读

导入所需的库

# 导入所需的库
import pandas as pd # panda库，基础，用于处理数据的工具
import lightgbm as lgb # 机器学习模型 LightGBM，本次使用的非第三方api
from sklearn.metrics import mean_absolute_error # 评分 MAE 的计算函数，常见的评分还有MSE等
from sklearn.model_selection import train_test_split # 拆分训练集与验证集工具，常见工具
from tqdm import tqdm # 显示循环的进度条工具，可视化工具，确认代码运行效率

注：Pandas是一个功能强大且灵活的Python库，用于数据处理和分析。它提供了高性能的数据结构，特别是DataFrame（类似于Excel中的表格），使得数据操作变得简单且高效。
注：LightGBM是一个高效且快速的梯度提升树（Gradient Boosting Decision Tree）框架，由微软亚洲研究院开发。它是一种基于树（Trees）的机器学习算法，可用于分类和回归问题。类似的还有XGBoost。

数据准备

# 数据准备
train_dataset = pd.read_csv("./data/train.csv") # 读取原始训练数据。
test_dataset = pd.read_csv("./data/test.csv") # 读取原始测试数据（用于提交）。

submit = pd.DataFrame() # 定义提交的最终数据。
submit["序号"] = test_dataset["序号"] # 对齐测试数据的序号。

MAE_scores = dict() # 定义评分项。

注：如本地运行，应下载好相应的数据文件，并根据路径进行修改
注：MAE即Mean Absolute Error，平均绝对误差，相关的值还有均方根误差（Root,Mean Square Deviation,RMSE ）。MAE是预测值减去真实值的绝对值累加再除以个数，也就是预测值减去真实值的绝对值累加求平均。可参考https://blog.csdn.net/qq_36171491/article/details/123286460

模型训练

# 模型训练
pred_labels = list(train_dataset.columns[-34:]) # 需要预测的标签，为倒数34列至最后一列，对应上部温度1-17与下部温度1-17，是我们要预测的值。
train_set, valid_set = train_test_split(train_dataset, test_size=0.2) # 拆分数据集，训练量为20%，常用的有0.15-0.3

# 设定 LightGBM 训练参数，查阅参数意义：https://lightgbm.readthedocs.io/en/latest/Parameters.html
lgb_params = {
   'boosting_type': 'gbdt',     # 使用的提升方法，使用梯度提升决策树gbdt,默认。还有随机森林'rf'，正则化'dart'。
        'objective': 'regression',   # 优化目标，这里设置为'regression'，表示使用回归任务进行优化。分类问题应设定为其他参数。
        'metric': 'mae',             # 评估指标，使用MAE，表示使用平均绝对误差作为评估指标。对于回归方法还有'mse''rmse'。
        'min_child_weight': 5,       # 子节点中样本权重的最小和，用于控制过拟合。
        'num_leaves': 2 ** 5,        # 每棵树上的叶子节点数，影响模型的复杂度。默认31，此处为2的5次方32。
        'lambda_l2': 10,             # L2正则化项的权重，用于控制模型的复杂度。增加此值将使模型更加保守。推荐的候选值为：[0, 0.1, 0.5, 1]
        'feature_fraction': 0.8,     # 随机选择特征的比例，用于防止过拟合。
        'bagging_fraction': 0.8,     # 随机选择数据的比例，用于防止过拟合。默认值1，指定采样出 subsample * n_samples 个样本用于训练弱学习器。注意这里的子采样和随机森林不一样，随机森林使用的是放回抽样，而这里是不放回抽样。 取值在(0, 1)之间，设置为1表示使用所有数据训练弱学习器。如果取值小于1，则只有一部分样本会去做GBDT的决策树拟合。选择小于1的比例可以减少方差，即防止过拟合，但是会增加样本拟合的偏差，因此取值不能太低。推荐的候选值为：[0.6, 0.7, 0.8, 0.9, 1]
        'bagging_freq': 4,           # 随机选择数据的频率，用于防止过拟合。数值型，默认值0，表示禁用样本采样。如果设置为整数 z ，则每迭代 k 次执行一次采样。
        'learning_rate': 0.05,       # 学习率，控制每次迭代的步长。LightGBM 不完全信任每个弱学习器学到的残差值，为此需要给每个弱学习器拟合的残差值都乘上取值范围在(0, 1] 的 eta，设置较小的 eta 就可以多学习几个弱学习器来弥补不足的残差。推荐的候选值为：[0.01, 0.015, 0.025, 0.05, 0.1]
        'seed': 2023,                # 随机种子，用于产生随机性，保持结果的可重复性。
        'nthread' : 16,              # 并行线程数，用于加速模型训练。
        'verbose' : -1,              # 控制训练日志输出，-1表示禁用输出。
        """
        其他参数
        'max_depth':20,    #决定了树的深度，即每个叶节点所达到的最大深度。默认设置为-1，表示不限制树的深度,可能导致过拟合，建议20及以下。
        'n_estimators':200,    #表示迭代的次数（即树的数量）,默认值为100，在后面有其他参数控制
        'min_child_samples':30,    #叶节点样本的最少数量，默认值20，用于防止过拟合。
        'early_stopping_rounds':6,    #指定迭代多少次没有得到优化则停止训练，默认值为None，表示不提前停止训练。
        """
    }

no_info = lgb.callback.log_evaluation(period=-1) # 禁用训练日志输出。

注：可参考https://juejin.cn/post/6844903661160628231，https://tianchi.aliyun.com/notebook/170914

特征工程

def data_feature(data: pd.DataFrame, pred_labels: list=None) -> pd.DataFrame:
    
    data = data.copy() # 复制数据，避免后续影响原始数据。
    data = data.drop(columns=["序号"]) # 去掉”序号“特征。
    
    data["时间"] = pd.to_datetime(data["时间"]) # 将”时间“特征的文本内容转换为 Pandas 可处理的格式。
    data["month"] = data["时间"].dt.month # 添加新特征“month”，代表”当前月份“。
    data["day"] = data["时间"].dt.day # 添加新特征“day”，代表”当前日期“。
    data["hour"] = data["时间"].dt.hour # 添加新特征“hour”，代表”当前小时“。
    data["minute"] = data["时间"].dt.minute # 添加新特征“minute”，代表”当前分钟“。
    data["weekofyear"] = data["时间"].dt.isocalendar().week.astype(int) # 添加新特征“weekofyear”，代表”当年第几周“，并转换成 int，否则 LightGBM 无法处理。
    data["dayofyear"] = data["时间"].dt.dayofyear # 添加新特征“dayofyear”，代表”当年第几日“。
    data["dayofweek"] = data["时间"].dt.dayofweek # 添加新特征“dayofweek”，代表”当周第几日“。
    data["is_weekend"] = data["时间"].dt.dayofweek // 6 # 添加新特征“is_weekend”，代表”是否是周末“，1 代表是周末，0 代表不是周末。

    data = data.drop(columns=["时间"]) # LightGBM 无法处理这个特征，它已体现在其他特征中，故丢弃。

    # 交叉特征
    for i in range(1,18):
        data[f'流量{i}/上部温度设定{i}'] = data[f'流量{i}'] / data[f'上部温度设定{i}']   
        data[f'流量{i}/下部温度设定{i}'] = data[f'流量{i}'] / data[f'下部温度设定{i}']
        data[f'上部温度设定{i}/下部温度设定{i}'] = data[f'上部温度设定{i}'] / data[f'下部温度设定{i}']
        
    # 历史平移
        data[f'last1_流量{i}'] = data[f'流量{i}'].shift(1)
        data[f'last1_上部温度设定{i}'] = data[f'上部温度设定{i}'].shift(1)
        data[f'last1_下部温度设定{i}'] = data[f'下部温度设定{i}'].shift(1)

    # 差分特征
        data[f'last1_diff_流量{i}'] = data[f'流量{i}'].diff(1)
        data[f'last1_diff_上部温度设定{i}'] = data[f'上部温度设定{i}'].diff(1)
        data[f'last1_diff_下部温度设定{i}'] = data[f'下部温度设定{i}'].diff(1)
        
    # 窗口统计
    for i in range(1,18):
        data[f'win3_mean_流量{i}'] = (data[f'流量{i}'].shift(1) + data[f'流量{i}'].shift(2) + data[f'流量{i}'].shift(3)) / 3
        data[f'win3_mean_上部温度设定{i}'] = (data[f'上部温度设定{i}'].shift(1) + data[f'上部温度设定{i}'].shift(2) + data[f'上部温度设定{i}'].shift(3)) / 3
        data[f'win3_mean_下部温度设定{i}'] = (data[f'下部温度设定{i}'].shift(1) + data[f'下部温度设定{i}'].shift(2) + data[f'下部温度设定{i}'].shift(3)) / 3

    if pred_labels: # 如果提供了 pred_labels 参数，则执行该代码块。
        data = data.drop(columns=[*pred_labels]) # 去掉所有待预测的标签。
    
    return data # 返回最后处理的数据。

test_features = data_feature(test_dataset) # 处理测试集的时间特征，无需 pred_labels。

注：
（1）交叉特征：主要提取流量、上部温度设定、下部温度设定之间的关系；
（2）历史平移特征：通过历史平移获取上个阶段的信息；
（3）差分特征：可以帮助获取相邻阶段的增长差异，描述数据的涨减变化情况。在此基础上还可以构建相邻数据比值变化、二阶差分等；
（4）窗口统计特征：窗口统计可以构建不同的窗口大小，然后基于窗口范围进统计均值、最大值、最小值、中位数、方差的信息，可以反映最近阶段数据的变化情况。

训练预测

# 从所有待预测特征中依次取出标签进行训练与预测。
for pred_label in tqdm(pred_labels):
    train_features = data_feature(train_set, pred_labels=pred_labels) # 处理训练集的时间特征。
    train_labels = train_set[pred_label] # 训练集的标签数据。
    train_data = lgb.Dataset(train_features, label=train_labels) # 将训练集转换为 LightGBM 可处理的类型。

    valid_features = data_feature(valid_set, pred_labels=pred_labels) # 处理验证集的时间特征。
    valid_labels = valid_set[pred_label] # 验证集的标签数据。
    valid_data = lgb.Dataset(valid_features, label=valid_labels) # 将验证集转换为 LightGBM 可处理的类型。

    # 训练模型，参数依次为：导入模型设定参数、导入训练集、设定模型迭代次数（200）、导入验证集、禁止输出日志
    model = lgb.train(lgb_params, train_data, 200, valid_sets=valid_data, callbacks=[no_info])

    valid_pred = model.predict(valid_features, num_iteration=model.best_iteration) # 选择效果最好的模型进行验证集预测。
    test_pred = model.predict(test_features, num_iteration=model.best_iteration) # 选择效果最好的模型进行测试集预测。
    MAE_score = mean_absolute_error(valid_pred, valid_labels) # 计算验证集预测数据与真实数据的 MAE。
    MAE_scores[pred_label] = MAE_score # 将对应标签的 MAE 值 存入评分项中。

    submit[pred_label] = test_pred # 将测试集预测数据存入最终提交数据中。
     
submit.to_csv('submit_result_new.csv', index=False) # 保存最后的预测结果到 submit_result_new.csv。
print(MAE_scores) # 查看各项的 MAE 值。

提交得分

改进思路

1、过拟合现象
在代码运行的时候可以将callbacks=[no_info]去除，以查看模型运行的日志，运行结束后也可以利用代码print(MAE_scores)来打印出最终的损失，观察不难看出，模型会在一定时间后进入过拟合，因此可以尝试以一些措施来缓解这种现象。
利用lightgbm自带的early_stopping_rounds参数。
采用多折验证的方式扩大数据量，使得模型泛化能力增强。

2、参数设定
此次基线没有做精确的调参处理，因此可以调参的范围还是挺大的，常用的搜索参数策略有两种:
网格搜索（Grid Search）：这是一种传统的参数调整方法，它会测试指定参数的所有可能组合来找出最佳参数。但是，当参数空间较大时，这种方法可能会消耗大量计算资源和时间。
随机搜索（Random Search）：与网格搜索相比，随机搜索不会测试所有的参数组合，而是在参数空间中随机选择一定数量的参数组合进行测试。尽管随机搜索可能无法找到最优的参数组合，但在计算资源有限的情况下，它是一个有效的选择。

3、模型设定
我们此次基线采用的是LightGBM，我们也可以试试XGBoost, Adaboost， Catboost等等传统的模型，并且也可以使用深度学习的方法构建循环神经网络来处理此次任务，因为本质是一个时序任务，在采用机器学习的同时也可以保存模型的参数配置，尝试进行模型集成的训练。

4、特征
在特征选择方面，目前给出的特征仅仅是单独对时间处理，与对流量\上\下\部温度设定进行处理，并未结合时间与其他特征的关系，可以尝试自己构建合理的新特征。

5、后处理
对已经给出的csv文件仍然可以分析其趋势，抓住评估的关键来调整文件内容使得结果更加精确。

6、迭代步数
目前设置的迭代步数为200轮，其实这对于某些预测数据来说是不够的，可以尝试自己增大迭代步数

原理讲解

优化思路与实践

后续内容将在下一篇文章讲解，感谢阅读！

【前沿聚焦】机器学习的未来版图：从自动化到隐私保护的技术突破网罗开发人工智能 AI 大模型机器学习人工智能
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
机器学习&深度学习目录 UQI-LIUWJ 各专栏目录深度学习人工智能 1024程序员节
机器学习模型机器学习笔记：Transformer_刘文巾的博客-CSDN博客attention相关机器学习笔记：attention_UQI-LIUWJ的博客-CSDN博客机器学习笔记：ELMOBERT_UQI-LIUWJ的博客-CSDN博客机器学习笔记：ViT（论文AnImageIsWorth16X16Words:TransformersforImageRecognitionatScale）_UQ
YOLOv11-ultralytics-8.3.67部分代码阅读笔记-transformer.py 红色的山茶花 YOLO 笔记 transformer 深度学习
transformer.pyultralytics\nn\modules\transformer.py目录transformer.py1.所需的库和模块2.classTransformerEncoderLayer(nn.Module):3.classAIFI(TransformerEncoderLayer):4.classTransformerLayer(nn.Module):5.classTra
读书笔记--分布式服务架构对比及优势一望无际的大草原读书笔记服务中心后端读书笔记分布式架构共享服务
本篇是在上一篇的基础上，主要对共享服务平台建设所依赖的分布式服务架构进行学习，主要记录和思考如下，供大家学习参考。随着企业各业务数字化转型工作的推进，之前在传统的单一系统（或单体应用）模式中，每个系统都要做这些公共的功能或模块，比如用户管理，权限认证，日志，邮件，财务等等，随着企业各大应用系统的不断扩展，各垂直业务板块逐步沉淀形成各自的核心业务的数字化能力，提出了基于SOA理念的分布式服务架构，S
06-机器学习-数据预处理不会打代码呜呜呜呜机器学习机器学习人工智能
数据清洗数据清洗是数据预处理的核心步骤，旨在修正或移除数据集中的错误、不完整、重复或不一致的部分，为后续分析和建模提供可靠基础。以下是数据清洗的详细流程、方法和实战示例：一、数据清洗的核心任务问题类型表现示例影响缺失值数值型字段为空（NaN）模型无法处理缺失值，导致训练中断或偏差异常值年龄=200岁，房价=-100万扭曲统计指标（如均值），降低模型泛化性重复数据两行记录完全相同导致模型过拟合，降低
Linux学习笔记（复习版day008） ccnnlxc Liux学习复习笔记 linux 学习笔记
1.僵尸进程僵尸进程（ZombieProcess）是指那些已经终止（即完成执行）的进程，但其父进程尚未读取其退出状态信息的进程。简单来说，僵尸进程的生命周期已经结束，但它的进程描述符仍然存在于系统中，以便父进程能够获取其退出状态。处理：1.top命令查询是否有僵尸进程，此处1zombie表示有一个僵尸进程2.ps-aux|grepZ查询僵尸进程的pid,STAT状态为Z+的即为僵尸进程。3.pst
从零推导线性回归：最小二乘法与梯度下降的数学原理 Echo-Nie 机器学习机器学习线性回归人工智能梯度下降数学推导
欢迎来到我的主页：【Echo-Nie】本篇文章收录于专栏【机器学习】本文所有内容相关代码都可在以下仓库中找到：Github-MachineLearning1线性回归1.1什么是线性回归线性回归是一种用来预测和分析数据之间关系的工具。它的核心思想是找到一条直线（或者一个平面），让这条直线尽可能地“拟合”已有的数据点，通过这条直线，我们可以预测新的数据。eg：假设你想预测房价，你知道房子的大小（面积）
超实用的 30 段 Python 案例（上） Python之栈 python 开发语言
Python是目前最流行的语言之一，它在数据科学、机器学习、web开发、脚本编写、自动化方面被许多人广泛使用。它的简单和易用性造就了它如此流行的原因。如果你正在阅读本文，那么你或多或少已经使用过Python或者对Python感兴趣。在本文中，我们将会介绍30个简短的代码片段，你可以在30秒或更短的时间里理解和学习这些代码片段。1.检查重复元素下面的方法可以检查给定列表中是否有重复的元素。它使用了s
cv python_python里面cv是什么意思 weixin_40004659 cv python
OpenCV(OpenSourceComputerVisionLibrary)开放源代码计算机视觉库，主要算法涉及图像处理、计算机视觉和机器学习相关方法。OpenCV其实就是一堆C和C++语言的源代码文件，这些源代码文件中实现了许多常用的计算机视觉算法。OpenCV由一系列C函数和C++类构成，它有C，C++，Python和java接口，当前SDK(SoftwareDevelopmentKit软件
Hadoop学习笔记 --- YARN执行流程与工作原理杨鑫newlfe 数据仓库大数据挖掘与大数据应用案例 YARN Hadoop 大数据资源调度数据仓库
一、YARN简述首先介绍一下YARN在Hadoop2.0版本引进的资源管理系统，直接从MapReduceV1演化而来(由于引擎的功能缺陷)；原因是将MapReduce1中的JobTracker的资源管理和作业调度两个功能分开，分别由ResourceManager和ApplicationMaster进行实现；ResourceManager：负责整个集群的资源管理和调度ApplicationMaste
#深度学习：从基础到实践 single_ffish 深度学习 gpt 神经网络生成对抗网络 1024程序员节
深度学习是人工智能领域近年来最为火热的技术之一。它通过构建由多个隐藏层组成的神经网络模型，能够从海量数据中自动学习特征和表征,在图像识别、自然语言处理、语音识别等领域取得了突破性进展。本文将全面介绍深度学习的基础知识、主要算法和实践应用,帮助您快速掌握这一前沿技术。1.深度学习的基础1.1人工神经网络深度学习是基于人工神经网络(ArtificialNeuralNetwork,ANN)的一种机器学习
L2tp环境搭建笔记- Openwrt平台月光技术杂谈 OpenWRT 5G CPE 5G CPE 5G openwrt L2TP defaultroute VPN 虚拟局域网
L2tp环境搭建笔记-Openwrt平台安装L2tp服务配置L2tpserverL2TP客户端配置（使用配置文件）L2TP客户端配置（LUCI)客户端拔号（命令行方式）defaultroute路由问题L2TP（Layer2TunnelingProtocol）是一种工作在二层的隧道协议，是一种虚拟专用网络（VPN）协议。L2TP通常基于IPSEC作底层链路加密，并且使用PPP协议进行拔号。本文使用3
openwrt配置strongswan对接hillstone ipsec的笔记 d9394952 openwrt openwrt ipsec strongswan
一、主要参考资料：https://openwrt.org/docs/guide-user/services//ipsec/strongswan/roadwarriorhttps://openwrt.org/docs/guide-user/services//ipsec/strongswan/basichttps://openwrt.org/docs/guide-user/services//ips
机器学习入门——机器学习基本概念四月是你的机器学习
@机器学习什么是机器学习机器学习(MachineLearning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎简单来说机器学习就是机
python 基本知识达达玲玲 python 开发语言
Python：背景知识及环境安装什么是Python？Python是一种解释型、面向对象的高级编程语言。它的设计哲学强调代码的可读性和简洁性，因此被广泛应用于各种领域，包括：数据科学与机器学习：NumPy,Pandas,Matplotlib,Scikit-learn等库让Python成为了数据分析和机器学习的首选语言。Web开发：Django,Flask等框架提供了高效的Web开发解决方案。自动化：
【Python】已解决：error: subprocess-exited-with-error 屿小夏 python 开发语言 linux
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
《spring编程常见错误50例》学习笔记 Day1 qq_31273845 学习 spring
1.为什么有时候我们代码移了一下包，就扫描不到了？在构建web服务的时候，我们启动服务程度如果不设置扫描包的话，默认会扫描运行程序所在的包。如果包和应用程序不在同一个包，就会失效。这个之前知道，至于为什么？今天才了解到，我就这里复述一下：@SpringBootApplication里面会有@ComponentScan注解。参考配置如下@ComponentScan(excludeFilters={@
chatgpt赋能python：Python如何删除一个对象 atest166 ChatGpt chatgpt jvm java 计算机
Python如何删除一个对象Python是一种高级、面向对象、动态类型解释型语言，它有广泛的应用，尤其在数据分析、机器学习、人工智能和Web开发等领域。但是，在Python编程过程中，我们也可能需要删除对象。那么，Python如何删除一个对象呢？Python对象和变量在Python中，一切都是对象。对象是内存中的一块数据，有自己的身份、类型和值。变量是指向对象的引用，通过变量可以访问对象的属性和方
Prometheus学习笔记柠檬编程工作室 k8s 运维 Docker prometheus 学习笔记
Prometheus官方教程Prometheus官方下载网址Prometheus简介Prometheus是一个开源的监控和报警系统，专为大规模分布式系统设计。它能够实时地收集、存储和查询时间序列数据，广泛用于监控云原生应用、微服务架构和容器化环境（如Kubernetes）。Prometheus的关键特点：时间序列数据存储：Prometheus以时间序列的形式存储数据，数据点由时间戳、指标名称和标签
AI在电商平台商品描述生成中的应用 AI天才研究院计算 AI大模型企业级应用开发实战大数据AI人工智能 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
AI在电商平台商品描述生成中的应用关键词：人工智能、电商平台、商品描述、自然语言处理、机器学习、深度学习摘要：本文深入探讨了人工智能在电商平台商品描述生成中的应用。首先，我们回顾了人工智能的概述和电商平台的发展背景。随后，分析了商品描述在电商平台中的重要性以及存在的问题。接下来，我们重点介绍了AI在商品描述生成中的应用技术，包括自然语言处理、机器学习和深度学习等。文章还通过实战案例展示了AI商品描
使用 PyTorch 实现逻辑回归：从数据到模型保存与加载弥树子 pytorch 逻辑回归人工智能
在机器学习中，逻辑回归是一种经典的分类算法，广泛应用于二分类问题。本文将通过一个简单的示例，展示如何使用PyTorch框架实现逻辑回归模型，从数据准备到模型训练、保存和加载，最后进行预测。1.数据准备逻辑回归的核心是通过学习数据中的特征与标签之间的关系来进行分类。在本示例中，我们手动创建了一个简单的二维数据集，包含两类数据点。第一类数据点的标签为0，第二类数据点的标签为1。class1_point
【Python】已解决：（cmd进入Python环境报错）No Python at ‘C:\Users…\Python\Python39\python.exe’ 屿小夏 python linux 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
【机器学习】自定义数据集使用tensorflow框架实现逻辑回归并保存模型，然后保存模型后再加载模型进行预测加德霍克 tensorflow 逻辑回归人工智能 python 作业
一、使用tensorflow框架实现逻辑回归1.数据部分：首先自定义了一个简单的数据集，特征X是100个随机样本，每个样本一个特征，目标值y基于线性关系并添加了噪声。tensorflow框架不需要numpy数组转换为相应的张量，可以直接在模型中使用数据集。2.模型定义部分：方案1：model=tf.keras.Sequential([tf.keras.layers.Dense(1,input_sh
ERROR: Could not install packages due to an OSError: [Errno 2] No such file or directory解决方案爱编程的喵喵 Python基础课程 python pip OSError 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ERROR:Couldnotinst
安装flash-attn出现RuntimeError current installed version g++ (4.8.5) is less than mininum version解决方案爱编程的喵喵 Python基础课程 python flash-attn g++RuntimeError
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。本文主要介绍了安装flash-attn出现RuntimeErrorcurrentinstalledversiong++(4.8.5)islessthanmininumversion解决方案
【gopher的java学习笔记】代码分层之controller和service ThisIsClark gopher的java学习笔记 java 学习笔记
在Java的Web开发中，Controller层和Service层是两个至关重要的层次，它们各自承担着不同的职责，共同协作以实现复杂的应用程序功能。本文将详细介绍Java中Controller层和Service层的技术特点和作用。一、Controller层（控制层）Controller层是应用程序的入口点，负责接收用户的请求并处理。它通常处理来自前端或客户端的请求，并将请求转发给相应的Servic
【llm对话系统】RL强化学习的技术演进与RLHF kakaZhui 人工智能 chatgpt llama
一、强化学习基础知识强化学习(ReinforcementLearning,RL)是一种机器学习方法，它通过智能体(Agent)与环境(Environment)的交互来学习如何行动以最大化累积奖励(Reward)。1.核心概念:智能体(Agent):做出决策并采取行动的学习者。环境(Environment):智能体所处的外部世界，对智能体的行动做出反应。状态(State,S):对环境当前情况的描述。
[论文笔记] Megatron: mistral sliding window（ImportError: /workspace/venv/lib/python3.10/site-packag报错解决）心心喵论文笔记论文阅读
pyTorch—TransformerEngine1.2.1documentation论文：https://arxiv.org/pdf/2310.06825.pdftransformerengine的slidingwindow是用了flashatttention（新版本2以上，这里用的最新版本2.5.2）里对sliding_window的实现。所以不需要用transformerengine。直接用
python学习笔记---中文词云 DiAsdream 数据分析学习 python 学习开发语言
python学习笔记–中文词云提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加发现词云的展示还挺有意思的，比较多的应用场景是给用户打标签，社交软件应用较多。今天随便找了一些文字电影《肖申克的救赎》的一些评价，做了一个词云，其实还挺简单的。Python的学习路上真的需要这样的小成功来激发更多学习的动力。Comeon！提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章
神经网络及其架构和模型的关系爱吃瓜的猹z 大模型神经网络架构人工智能
模型、架构、神经网络之间的关系可以理解为不同层次上的概念，它们分别涵盖了机器学习系统的不同方面。具体来说：1.神经网络神经网络是一种模型类型，基于生物神经系统的启发，用于模拟人脑的学习过程。它由**多个神经元（节点）**和连接权重组成，这些神经元组织成不同的层，通过输入数据进行学习和预测。神经网络的特点：基本组成单位：神经网络的基本单位是“神经元”（或节点），每个神经元接收输入，进行加权和激活，然
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在

Datawhale机器学习夏令营实践赛笔记（一）-JiemouQAQ

Datawhale机器学习夏令营实践赛笔记（一）-JiemouQAQ

学习指导

赛题简介

baseline精读

导入所需的库

数据准备

模型训练

特征工程

训练预测

提交得分

改进思路

原理讲解

优化思路与实践

你可能感兴趣的:(机器学习,笔记)