亦世凡华、

机器学习 | 如何利用集成学习提高机器学习的性能？

初识集成学习

Bagging与随机森林

Otto Group Product(实操)

Boosting集成原理

初识集成学习

集成学习（Ensemble Learning）是一种通过组合多个基本模型来提高预测准确性和泛化能力的机器学习方法。它通过将多个模型的预测结果进行整合或投票来做出最终的预测决策。

集成学习通过建立几个模型来解决单一预测问题。它的工作原理是生成多个分类器/模型，各自独立地学习和作出预测。这些预测最后结合成组合预测，因此优于任何一个单分类的做出预测。只要单分类器的表现不太差，集成学习的结果总是要好于单分类器的。

Bagging与随机森林

Bagging（Bootstrap Aggregating）是一种常见的集成学习方法，旨在通过构建多个基本模型并对它们的预测结果进行组合来提高整体性能。

Bagging的关键思想在于通过对训练数据集的重采样，生成多个相互独立的基本模型，并利用这些模型的集体智慧来提高整体的预测准确性和泛化能力。由于每个基本模型都是在不同的数据子集上独立训练的，因此可以减小模型之间的相关性，从而减少过拟合的风险。

如下我们想把圆和方块进行分类：

接下来采样不同的数据集：

接下来训练分类器：

平均投票，获取最终结果：

主要实现过程总结：

随机森林：在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。随机森林 = Bagging + 决策树：

例如，如果你训练了5个树，其中有4个树的结果是True，1个树的结果是False，那么最终投票结果就是True

随机森林够造过程中的关键步骤(M表示特征数目)：

1）一次随机选出一个样本，有放回的抽样，重复N次(有可能出现重复的样本)

2）随机去选出m个特征，m<

在随机森林构造过程中，如果进行有放回的抽样，我们会发现，总是有一部分样本我们选不到。随机森林的Bagging过程，对于每一颗训练出的决策树gt，与数据集D有如下关系：

对于星号的部分，即是没有选择到的数据，称之为Out-of-bag(OOB)数据，当数据足够多，对于任意一组数据（n,yn）是包外数据的概率为：

由于基分类器是构建在训练样本的自助抽样集上的，只有约63.2%原样本集出现在中，而剩余的36.8%的数据作为包外数据，可以用于基分类器的验证集。经验证，包外估计是对集成分类器泛化误差的无偏估计。

1）当基学习器是决策树时，可使用包外样本来辅助剪枝，或用于估计决策树中各结点的后验概率以辅助对零训练样本结点的处理。

2）当基学习器是神经网络时，可使用包外样本来辅助早期停止以减小过拟合。

bagging集成优点：Bagging +决策树/线性回归/逻辑回归/深度学习...= bagging集成学习方法。经过上面方式组成的集成学习方法：1）均可在原有算法上提高约2%左在的泛化正确率 2）简单，方便，通用。

Otto Group Product(实操)

背景介绍：奥托集团是世界上最大的电子商务公司之一，在20多个国家设有子公司。该公司每天都在世界各地销售数百万种产品，所以对其产品根据性能合理的分类非常重要。

不过，在实际工作中，工作人员发现，许多相同的产品得到了不同的分类。本案例要求，你对奥拓集团的产品进行正确的分分类。尽可能的提供分类的准确性。其地址为：地址。

本案例中，数据集包含大约200,000种产品的93个特征。其目的是建立一个能够区分otto公司主要产品类别的预测模型。有产品共被分成九个类别（例如时装，电子产品等），如下：

id — 产品id；feat_1,feat_2,..,feat_93 - 产品的各个特征；target - 产品被划分的类别

本案例中，最后结果使用多分类对数损失进行评估。

接下来通过代码进行实现，以下是实现本次案例的相关重要操作：

数据获取：

# 导入第三方库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

获取数据集数据，对数据进行一个查看：

通过seaborn可视化库，可以看到我们数据类别不均衡

数据基本处理：

接下来通过随机欠采样获取数据：

接下来通过这段代码的作用是从imblearn库中导入RandomUnderSampler类，用于进行随机欠采样（Random Under Sampling）。如果没有该库，终端执行如下命令进行安装：

pip install imbalanced-learn -i https://pypi.mirrors.ustc.edu.cn/simple

通过图形可视化查看数据：

接下来把标签数据转化为数字：

开始分割数据：

模型训练：

通过可视化查看数据变化：

模型评估：

使用OneHotEncoder对象对y_pre进行独热编码转换。y_pre也是一个一维数组，通过reshape(-1, 1)转换为二维列向量的形式，并使用fit_transform方法进行独热编码转换。最后，将转换后的编码结果赋值给y_pre1。

rf是一个随机森林分类器对象，通过调用predict_proba方法，将测试集x_test作为输入，返回了每个样本所属于每个类别的概率估计值。

模型调优：

在机器学习中，模型调优的目的是通过对模型参数的设置和调整来提高模型的性能，接下来对模型调优的超参数进行测试：

# 模型调优——确定最优的 n_estimators
# 确定n_estimators的取值范围
tuned_parameters = range(10, 200, 10)
# 创建添加accuracy的一个numpy
accuracy_t=np.zeros(len(tuned_parameters))
# 创建添加error的一个numpy
error_t=np.zeros(len(tuned_parameters))
# 调优过程实现
for j,one_parameter in enumerate(tuned_parameters):
    rf2 = RandomForestClassifier(n_estimators=one_parameter, max_depth=10, max_features=10, min_samples_leaf=10, oob_score=True, random_state=0, n_jobs=-1)
    rf2.fit(x_train, y_train)
    # 输出accuracy
    accuracy_t[j] = rf2.oob_score_
    # 输出log_loss
    y_pre = rf2.predict_proba(x_test)
    error_t[j] = log_loss(y_test, y_pre, normalize=True)
    print(error_t)

得出的结果如下：

#优化结果过程可视化
fig,axes =plt.subplots(nrows=1,ncols=2,figsize=(20, 4), dpi=100)

axes[0].plot(tuned_parameters,error_t)
axes[1].plot(tuned_parameters,accuracy_t)

axes[0].set_xlabel("n_estimators")
axes[0].set_ylabel("error_t")
axes[1].set_xlabel("n_estimators")
axes[1].set_ylabel("accuracy_t")

axes[0].grid(True)
axes[1].grid(True)

plt.show()

经过图像展示，最后确定n_estimators=175的时候，表现效果不错

# 模型调优——确定最优的max_features
# 确定n_estimators的取值范围
tuned_parameters = range(5, 40, 5)
# 创建添加accuracy的一个numpy
accuracy_t=np.zeros(len(tuned_parameters))
# 创建添加error的一个numpy
error_t=np.zeros(len(tuned_parameters))
# 调优过程实现
for j,one_parameter in enumerate(tuned_parameters):
    rf2 = RandomForestClassifier(n_estimators=175, max_depth=10, max_features=one_parameter, min_samples_leaf=10, oob_score=True, random_state=0, n_jobs=-1)
    rf2.fit(x_train, y_train)
    # 输出accuracy
    accuracy_t[j] = rf2.oob_score_
    # 输出log_loss
    y_pre = rf2.predict_proba(x_test)
    error_t[j] = log_loss(y_test, y_pre, normalize=True)
    print(error_t)

得出的结果如下：

#优化结果过程可视化
fig,axes =plt.subplots(nrows=1,ncols=2,figsize=(20, 4), dpi=100)

axes[0].plot(tuned_parameters,error_t)
axes[1].plot(tuned_parameters,accuracy_t)

axes[0].set_xlabel("max_features")
axes[0].set_ylabel("error_t")
axes[1].set_xlabel("max_features")
axes[1].set_ylabel("accuracy_t")

axes[0].grid(True)
axes[1].grid(True)

plt.show()

经过图像展示，最后确定max_feature=15的时候，表现效果不错

# 模型调优——确定最优的max_depth
# 确定n_estimators的取值范围
tuned_parameters = range(10, 100, 10)
# 创建添加accuracy的一个numpy
accuracy_t=np.zeros(len(tuned_parameters))
# 创建添加error的一个numpy
error_t=np.zeros(len(tuned_parameters))
# 调优过程实现
for j,one_parameter in enumerate(tuned_parameters):
    rf2 = RandomForestClassifier(n_estimators=175, max_depth=one_parameter, max_features=15, min_samples_leaf=10, oob_score=True, random_state=0, n_jobs=-1)
    rf2.fit(x_train, y_train)
    # 输出accuracy
    accuracy_t[j] = rf2.oob_score_
    # 输出log_loss
    y_pre = rf2.predict_proba(x_test)
    error_t[j] = log_loss(y_test, y_pre, normalize=True)
    print(error_t)

得出的结果如下：

#优化结果过程可视化
fig,axes =plt.subplots(nrows=1,ncols=2,figsize=(20, 4), dpi=100)

axes[0].plot(tuned_parameters,error_t)
axes[1].plot(tuned_parameters,accuracy_t)

axes[0].set_xlabel("max_depth")
axes[0].set_ylabel("error_t")
axes[1].set_xlabel("max_depth")
axes[1].set_ylabel("accuracy_t")

axes[0].grid(True)
axes[1].grid(True)

plt.show()

经过图像展示，最后确定max_depth=30的时候，表现效果不错

# 模型调优——确定最优的min_sample_leaf
# 确定n_estimators的取值范围
tuned_parameters = range(1, 10, 2)
# 创建添加accuracy的一个numpy
accuracy_t=np.zeros(len(tuned_parameters))
# 创建添加error的一个numpy
error_t=np.zeros(len(tuned_parameters))
# 调优过程实现
for j,one_parameter in enumerate(tuned_parameters):
    rf2 = RandomForestClassifier(n_estimators=175, max_depth=30, max_features=15, min_samples_leaf=one_parameter, oob_score=True, random_state=0, n_jobs=-1)
    rf2.fit(x_train, y_train)
    # 输出accuracy
    accuracy_t[j] = rf2.oob_score_
    # 输出log_loss
    y_pre = rf2.predict_proba(x_test)
    error_t[j] = log_loss(y_test, y_pre, normalize=True)
    print(error_t)

得出的结果如下：

#优化结果过程可视化
fig,axes =plt.subplots(nrows=1,ncols=2,figsize=(20, 4), dpi=100)

axes[0].plot(tuned_parameters,error_t)
axes[1].plot(tuned_parameters,accuracy_t)

axes[0].set_xlabel("min_sample_leaf")
axes[0].set_ylabel("error_t")
axes[1].set_xlabel("min_sample_leaf")
axes[1].set_ylabel("accuracy_t")

axes[0].grid(True)
axes[1].grid(True)

plt.show()

经过图像展示，最后确定min_sample_leaf=1的时候，表现效果不错

由此我们确定了最有的模型数据为：

n_estimators=175；max_depth=30；max_features=15；min_samples_leaf=1

通过获得到的具体的数据，再次模型训练：

rf3 = RandomForestClassifier(n_estimators=175, max_depth=30, max_features=15, min_samples_leaf=1, oob_score=True, random_state=40, n_jobs=-1)
rf3.fit(x_train, y_train)

最终获得到的数据如下：

提交最终结果：

我们根据kaggle平台竞赛要求我们提交的格式进行对最终结果的数据处理：

这里我们先把id这一列数据删掉：

接下来对数据进行处理：

接下来我们在第一列添加一个id属性，然后把数据进行保存：

回到我们的浏览器，找到相应的位置就能看到我们保存好的文件，然后回到kaggle网站上提交作品即可：

Boosting集成原理

Boosting是一种常见的集成学习方法，它通过串行地训练多个弱分类器（或回归器）并将它们合并为一个强分类器（或回归器）。Boosting的核心思想是依次训练模型，每一次训练都会调整样本的权重，使得前一轮中被错误分类的样本在下一轮中得到更多的关注。因此，Boosting可以在弱分类器的基础上构建出准确度更高的强分类器。

简而言之：随着学习的积累从弱到强，每新加入一个弱学习器，整体能力就会得到提升。其代表算法：Adaboost，GBDT，XGBoost，LightGBM等。其训练的实现过程如下：

训练第一个学习器：

调整数据分布：

训练第二个学习器：

再次调整分布：

依次训练学习器，调整数据分布：

整体实现过程：

bagging集成与boosting集成的区别：

1）数据方面：

Bagging：对数据进行采样训练；Boosting：根据前一轮学习结果调整数据的重要性。

2）投票方面：

Bagging：所有学习器平权投票；Boosting：对学习器进行加权投票。

3）学习顺序：

Bagging的学习是并行的，每个学习器没有依赖关系；

Boosting学习是串行，学习有先后顺序。

4）主要作用：

Bagging主要用于提高泛化性能（解决过拟合，也可以说降低方差)；

Boosting主要用于提高训练精度（解决欠拟合，也可以说降低偏差）

Adaboost介绍：

GBDT介绍：

XGBoost介绍：

LightGBM介绍：

LightGBM是一个基于梯度提升决策树（Gradient Boosting Decision Tree，GBDT）的机器学习框架。它是由微软开发的高效、分布式的梯度提升框架，以速度快和高准确率而闻名。

LightGBM的设计目标是解决大规模数据集和高维特征的机器学习问题。它在传统的梯度提升决策树算法的基础上进行了优化，引入了一些创新的技术和策略，以提供更好的性能和可扩展性。

AI 计算的未来：去中心化浪潮与全球竞争格局重塑智识微光Intelligence 人工智能机器学习大数据
引言人工智能（AI）正以前所未有的速度发展，尤其是大模型训练和推理效率的提升，使得AI计算成本迅速下降，呈现出向去中心化演进的趋势。最新的DeepSeekr1模型，以仅600万美元的训练成本，达到了OpenAIo1级别的性能，表明AI技术正迈向更具普惠性的阶段。这一趋势不仅对AI产业格局产生深远影响，还将改变计算基础设施、全球科技竞争力分布，甚至可能影响人工超级智能（ASI）的未来发展。因此，AI
聊聊AI中的“蒸馏”技术自由鬼行业发展 IT应用探讨产品分析对比人工智能深度学习机器学习
一、什么是“蒸馏”技术“蒸馏”技术实际上是指知识蒸馏（KnowledgeDistillation），这是一种用于压缩和优化大模型的机器学习方法。其核心思想类似于传统蒸馏：大模型（教师模型）包含丰富的知识，而小模型（学生模型）通过学习大模型的输出，从而在保持高性能的同时降低计算成本。1.知识蒸馏的过程教师模型（TeacherModel）训练先训练一个大规模基础模型，这个模型能力很强，但计算开销大。生
AIGC时代的Vue或React前端开发 GISer_Jinger Javascript React Vue AIGC vue.js react.js
在AIGC（人工智能生成内容）时代，Vue开发正经历着深刻的变革。以下是对AIGC时代Vue开发的详细分析：一、AIGC技术对Vue开发的影响代码生成与自动化AIGC技术使得开发者能够借助智能工具快速生成和优化Vue代码。例如，通过自然语言处理模型（如ChatGPT），开发者可以描述组件的功能和样式需求，然后自动生成包含模板、脚本和样式的完整组件代码。这不仅大大提高了开发效率，还减少了人为错误的可
WSL开发环境配置（linux + python + nodejs + docker） Lilixxs 环境搭建基础设施 linux 运维服务器
配置要求及目标总体目标：完整的Linux开发环境可开发基于node.js的前端程序可开发基于python的后端程序（仅日常程序，不包含机器学习程序）可运行docker容器，用于快速搭建测试环境Linux环境要求支持centos发行版类似的操作方式和指令（如使用rpm、dnf进行软件包管理）登录用户具有root权限（执行高权限命令，输入sudo即可执行）可从国内源更新软件基本优化：内核指令优化、禁用
在亚马逊云科技上通过LangChain ReAct Agent开发金融多模态数据AI分析中台佛州小李哥 AWS技术科技 langchain 人工智能云计算亚马逊云科技 aws 数据分析
项目简介：小李哥将继续每天介绍一个基于亚马逊云科技AWS云计算平台的全球前沿AI技术解决方案，帮助大家快速了解国际上最热门的云计算平台亚马逊云科技AWSAI最佳实践，并应用到自己的日常工作里。本次介绍的是如何在亚马逊云科技机器学习托管服务AmazonSageMaker上搭建一个多模态LangChainAgent，通过ReAct逻辑让Agent通过AmazonBedrockAI模型托管服务上的大模型
大模型蒸馏与大模型微调技术有啥差别? kcarly 大模型知识乱炖杂谈大模型蒸馏大模型微调大模型 AI
大模型蒸馏与大模型微调是当前人工智能领域中两种重要的技术手段，它们在模型优化、性能提升和资源利用方面各有特点。以下将从定义、技术原理、应用场景及优缺点等方面对这两种技术进行深入对比。一、定义与基本概念大模型蒸馏（KnowledgeDistillation）蒸馏是一种将大型复杂模型（教师模型）的知识迁移到小型模型（学生模型）的技术。通过训练学生模型模仿教师模型的行为，实现模型压缩和性能保留的目标。蒸
DeepSeek大模型技术深度解析：揭开Transformer架构的神秘面纱不一样的信息安全网络杂烩 AI DeepSeek
摘要DeepSeek大模型由北京深度求索人工智能基础技术研究有限公司开发，基于Transformer架构，具备卓越的自然语言理解和生成能力。该模型能够高效处理智能对话、文本生成和语义理解等复杂任务，标志着人工智能在自然语言处理领域的重大进展。关键词DeepSeek模型,Transformer架构,自然语言,智能对话,文本生成,语义理解一、DeepSeek大模型的架构解析1.1DeepSeek大模型
《DeepSeek-R1 问世，智能搜索领域迎来新变革》黑金IT 智能搜索
DeepSeek-R1是由DeepSeek公司开发的一款创新型人工智能模型，自2024年5月7日发布以来，迅速在AI领域引起广泛关注。该模型凭借其卓越的语言理解能力、高效的数据处理能力、自适应学习能力、高安全性与可靠性以及广泛的应用场景与拓展性，在众多人工智能模型中脱颖而出。DeepSeek-R1的核心特点强大的语言理解能力：DeepSeek-R1采用先进的深度学习算法，能够精准解析复杂的语义结构
【Python TensorFlow】入门到精通极客代码玩转Python python tensorflow 开发语言人工智能深度学习
TensorFlow是一个开源的机器学习框架，由Google开发，广泛应用于机器学习和深度学习领域。本篇将详细介绍TensorFlow的基础知识，并通过一系列示例来帮助读者从入门到精通TensorFlow的使用。1.TensorFlow简介1.1什么是TensorFlow？TensorFlow是一个开源的软件库，主要用于数值计算，特别是在机器学习和深度学习领域。它提供了一个灵活的架构来定义复杂的数
Python 机器学习基础之【常用机器学习库】 NumPy 数值计算库仙魁XAN Python 机器学习基础+实战案例 python 机器学习 numpy 数值计算
Python机器学习基础之【常用机器学习库】NumPy数值计算库目录Python机器学习基础之【常用机器学习库】NumPy数值计算库一、简单介绍二、Numpy基础1、安装NumPy2、导入NumPy3、创建数组4、数组操作5、常用函数6、矩阵运算7、广播机制8、随机数三、在机器学习中使用到Numpy的简单示例1、数据预处理1.1数据归一化1.2数据标准化2、特征工程1.1多项式特征3、简单线性回归
构建高效LLM应用开发架构的关键策略 AI天才研究院计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
文章标题：构建高效LLM应用开发架构的关键策略在当今快速发展的技术世界中，人工智能（AI）已经成为推动创新的核心动力。其中，大型语言模型（LLM）的应用开发尤为引人注目。LLM通过处理和理解自然语言，为各种场景提供了强大的智能解决方案，从智能客服到内容生成，再到教育应用，都有着广泛的应用前景。然而，高效地构建LLM应用开发架构面临着诸多挑战，包括性能、可扩展性和安全性等。本文将深入探讨构建高效LL
通过命令行工作流提升工作效率的实战教程（持续更新） herosunly 大模型工作流实战教程
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了通过命令行工作流提升工作效率的实战教程，希望对使用大语言模型的同学们有所
第03课：Anaconda 与 Jupyter Notebook 红色石头Will 深度学习 PyTorch 极简入门人工智能深度学习 PyTorch
本文将为大家介绍深度学习实战非常重要的两个工具：Anaconda和JupyterNotebook。Anaconda为什么选择Anaconda我们知道Python是人工智能的首选语言。为了更好、更方便地使用Python来编写深度学习相关程序，可以使用集成开发环境或集成管理系统，最流行的比如PyCharm和Anaconda。本文我推荐使用Anaconda。之所以选择Anaconda，是因为Anacon
AI大模型在智能客服系统中的应用季风泯灭的季节 AI大模型应用技术二人工智能
目录引言1.基于大模型的智能客服系统架构2.对话生成与上下文管理对话生成上下文管理3.提高客服系统响应精度的策略1.使用专门训练的数据集2.引入实体识别和意图分类3.反馈循环和持续优化4.AI大模型在企业中的优化与调优策略1.模型微调（Fine-tuning）2.模型蒸馏（ModelDistillation）3.响应延迟优化4.持续监控与反馈结论引言随着人工智能（AI）技术的不断发展，AI大模型在
深度学习（DL/ML）学习路径 jackl的科研日常深度学习学习人工智能
最近几年，尤其是自从2016年AlphaGo打败李世石事件后，人工智能技术受到了各行业极大关注。其中以机器学习技术中深度学习最受瞩目。主要原因是这些技术在科研领域和工业界的应用效果非常好，大幅提升了算法效率、降低了成本。因而市场对相关技术有了如此大的需求。我在思考传统行业与这些新兴技术结合并转型的过程中，亦系统的回顾了深度学习及其相关技术。本文正是我在学习过程中所作的总结。我将按照我所理解的学习路
细说机器学习算法之ROC曲线用于模型评估 Melancholy 啊机器学习算法人工智能数据挖掘 python
系列文章目录第一章：Pyhton机器学习算法之KNN第二章：Pyhton机器学习算法之K—Means第三章：Pyhton机器学习算法之随机森林第四章：Pyhton机器学习算法之线性回归第五章：Pyhton机器学习算法之有监督学习与无监督学习第六章：Pyhton机器学习算法之朴素贝叶斯第七章：Pyhton机器学习算法之XGBoost第八章：Pyhton机器学习算法之GBDT第九章：Pyhton机器学
深入剖析 Scikit-learn 中的 LogisticRegression：参数调优指南夜色呦 scikit-learn 机器学习人工智能
LogisticRegression是一种广泛应用于二分类问题的机器学习算法。在scikit-learn库中，LogisticRegression类提供了一个高效且易于使用的实现。本文将深入探讨LogisticRegression的各种参数，并展示如何通过调整这些参数来优化模型的性能。1.LogisticRegression简介LogisticRegression通过使用逻辑函数将线性回归的输出映
Python从0到100（八十六）：神经网络-ShuffleNet通道混合轻量级网络的深入介绍是Dream呀 Python python 神经网络网络
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
机器学习笔记 - 将音频转换为图像进行分类的机器学习模型坐望云起深度学习从入门到精通机器学习深度学习语音识别光谱图 Whisper
一、简述语音识别技术是将音频信号转化为文本的过程。其基本原理如下：1.音频录制：首先需要对口语发音进行录制，并将其转化为数字形式的音频文件。2.预处理：对音频信号进行预处理，包括去除杂音干扰、增加音频的信噪比以及消除不必要的语音、噪声等。3.特征提取：特征提取是语音信号处理的一个重要部分，通过对音频数据进行分析，提取其中特有的频率、音调、幅度等数学特征，并转化成数字特征。4.模型训练：在特征提取完
【人工智能】基于Python的机器翻译系统，从RNN到Transformer的演进与实现蒙娜丽宁 Python杂谈人工智能人工智能 python 机器翻译
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界机器翻译（MachineTranslation,MT）作为自然语言处理领域的重要应用之一，近年来受到了广泛的关注。在本篇文章中，我们将详细探讨如何使用Python实现从传统的循环神经网络（RNN）到现代Transformer模型的机器翻译系统。文章将从机
备战美赛！2025美赛数学建模C题模拟预测！用于大家练手模拟！灿灿数模数学建模
完整的思路代码模型见文末2025美赛数学建模C题模拟题：城市交通拥堵指数的预测与管理策略背景随着全球城市化进程的加快，交通拥堵问题成为城市发展的重要挑战之一。交通拥堵不仅影响居民出行效率，还增加了能源消耗和碳排放。近年来，各大城市开始尝试通过实时数据监控和人工智能技术对交通拥堵进行预测和管理。然而，由于城市交通系统的复杂性，现有方法在实际应用中仍面临诸多挑战。任务作为一名数据分析专家，你的任务是基
AI计算的未来：中心化与去中心化的博弈智识微光Intelligence 人工智能去中心化区块链
引言人工智能（AI）技术的迅猛发展正在全球计算格局中。最新发布的DeepSeekr1模型，以远低于传统大模型的成本实现了相当水平的推理能力，甚至能够在工作站上本地运行。一次突破AI计算正在经历从中心化（云计算）到去中心化（本地推理）的重大转变。这种变化不仅影响AI产业的商业模式，还可能构建全球计算基础设施、经济利益格局，并加速人工超级智能（ASI）的到来。因此，本文将探讨人工智能训练成本的降低、推
2025年美国大学生数学建模竞赛C题思路(对每题分析) FFMXjy 数学建模学习-传统算法机器学习深度学习系列课程数学建模美赛美国大学生数学建模
2025年美国大学生数学建模竞赛C题思路开发奖牌数预测模型1.目标：建立一个模型来预测每个国家的奖牌数，特别是金牌和总奖牌数。步骤：2.使用提供的summerOly_athletes.csv和summerOly_medal_counts.csv数据。3.清理数据，处理缺失值和异常值。4.提取有用的特征，如国家、年份、项目、奖牌类型等。5.选择适当的机器学习算法，如线性回归、随机森林或梯度提升树。6
探索未来AI：飞桨大模型套件PaddleFleetX引领技术新高度窦育培
探索未来AI：飞桨大模型套件PaddleFleetX引领技术新高度PaddleFleetX飞桨大模型开发套件，提供大语言模型、跨模态大模型、生物计算大模型等领域的全流程开发工具链。项目地址:https://gitcode.com/gh_mirrors/pa/PaddleFleetX在人工智能的快速发展中，大模型已经成为推动技术创新的重要力量。如今，我们有幸向您推荐一个全新的开源项目——Paddle
【TVM教程】为 Mobile GPU 自动调优卷积网络 HyperAI超神经 TVM 人工智能机器学习 TVM 编程编译器 GPU CPU
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：LianminZheng,EddieYan针对特定设备的自动调优对于获得最佳性能至关重要。本文介绍如何调优整个卷积网络。TVM中MobileGPU的算子实现是以template形式编写的。该template有许多可调参数（tile因子
Python入门教程丨3.2 再见Excel！用Python这5个模块，我把3天工作压缩到3分钟凌小添 Python教程 python excel 开发语言
⭐还在用Excel手动算均值方差？还在为海量数据统计熬夜加班？用Python这5把「数据手术刀」写一次代码，就能直接复用，专业报告自动生成！本期内容：模块核心功能应用场景math数学计算几何、物理模拟random生成随机数据游戏、抽样测试statistics统计分析回归分析、市场调研numpy数组与矩阵运算图像处理、机器学习pandas表格数据处理与分析金融分析、数据清洗一、基础数学库1.1mat
Cursor 的 AI 模型：代码生成与理解的原理 drebander AI 编程 Cursor
引言在当今的软件开发领域，人工智能（AI）正在迅速改变开发者的工作方式。Cursor作为一款智能编程助手，通过集成先进的AI模型，为开发者提供了强大的代码生成、补全和优化功能。Cursor的核心竞争力在于其AI模型的能力，这些模型不仅能够理解代码的上下文，还能生成高质量的代码建议。本文将深入探讨Cursor使用的AI模型（如GPT系列或其他定制模型），并解析这些模型如何理解代码上下文并生成高质量的
AI对接之对话API对接指南我码玄黄 AI 探索 AI 工具教你一招人工智能 AI AI对接前端
AI对接之对话API对接指南本系列AI的API对接均以DeepSeek为例，其他大模型的对接方式类似。在人工智能领域，对话系统是连接人与机器的重要桥梁。DeepSeekAPI提供了一个强大的对话补全功能，使得开发者能够轻松地将智能对话集成到自己的应用中。本文将详细介绍如何对接DeepSeek的对话补全API，并展示几种典型的使用形式。1.API概览DeepSeek的对话补全API通过一个POST请
AI人工智能代理工作流 AI Agent WorkFlow：在物流与供应链中的应用 AI架构设计之禅大数据AI人工智能 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：在物流与供应链中的应用1.背景介绍1.1物流与供应链行业面临的挑战物流与供应链行业是现代经济的重要组成部分,涉及原材料采购、产品生产、仓储配送、销售等多个环节。随着全球化进程加快,供应链日益复杂,企业面临着成本控制、效率提升、风险管理等诸多挑战。传统的物流与供应链管理模式已难以适应市场变化,亟需引入新技术和创新方法。1.2人工智能在物流供应链中
强化学习在自动驾驶中的实现与挑战 Echo_Wish 人工智能前沿技术自动驾驶人工智能机器学习
强化学习在自动驾驶中的实现与挑战自动驾驶技术作为当今人工智能领域的前沿之一，正通过各种方式改变我们的出行方式。而强化学习（ReinforcementLearning,RL），作为机器学习的一大分支，在自动驾驶的实现中扮演了至关重要的角色。它通过模仿人类驾驶员的决策过程，为车辆提供动态、灵活的导航与控制能力。然而，强化学习在实际应用中并非一帆风顺，还面临着诸多技术和现实挑战。本文将从原理、实现与挑战
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo

机器学习 | 如何利用集成学习提高机器学习的性能？

初识集成学习

Bagging与随机森林

Otto Group Product(实操)

Boosting集成原理

你可能感兴趣的:(#,机器学习,机器学习,集成学习,Bagging,boosting,人工智能)