智源社区

《强化学习周刊》第25期：DeepMind提出无模型风险敏感强化学习、谷歌发布 RLDS数据集生态系统...

No.25

智源社区

强化学习组

强

化

学

习

研究

观点

资源

活动

关于周刊

强化学习作为人工智能领域研究热点之一，其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯，智源社区结合领域内容，撰写为第25期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐和新工具、数据集等，以飨诸位。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：李明、刘青、小胖、陈元

论文推荐

强化学习近年来取得了令人瞩目的成就，其应用于各个领域的研究也取得较大的进步，比如分层强化学习、基准偏好的强化学习、基于深度强化学习的机器人控制、无模型风险敏感强化学习、安全强化学习相关的理论及其最新应用。

本次推荐了12篇强化学习领域的相关论文，主要涉及于基准偏好的强化学习、使用深度强化学习控制的机器人杠杆操作的因果与边缘Shapley值、无模型风险敏感强化学习、基于行动-评论监督优势的推荐系统、网格世界的规则决策过程、基于强化学习和神经风格转换的跨模态三维导航、基于大邻域搜索策略学习的整数规划、通过课程引导安全的强化学习、受监督学习支持的 Riverbed Modeler 强化学习 M&S 框架、具有自动子目标识别的分层强化学习等。

标题：B-Pref: Benchmarking Preference-Based Reinforcement Learning（B-Pref：基于基准偏好的强化学习）了解详情

简介：强化学习 (RL) 需要访问奖励函数来激励正确的行为，但众对于复杂的任务很难指定这些功能。基于偏好的强化学习提供了一种替代方案：使用教师偏好的学习策略，无需预先定义奖励，从而克服与奖励工程相关的问题。然而，由于缺乏普遍采用的基准，很难量化基于偏好的强化学习的进展。本文提出了 B-Pref：一种专为基于偏好的 RL 设计的基准。该基准测试的关键挑战是提供了快速评估候选算法的能力，这使得依赖真实的人工输入进行评估变得令人望而却步。同时，将人类输入模拟为对基本真理奖励函数的完美偏好是不现实的。B-Pref 通过模拟具有各种不合理性的教师来缓解这种情况，并提出不仅针对表现而且针对这些潜在不合理性的稳健性的指标。通过使用 B-Pref 来分析算法设计选择（例如为最先进的基于偏好的 RL 算法选择信息查询）来展示 B-Pref 的实用性。本文希望 B-Pref 可以作为一个共同的起点，更系统地研究基于偏好的 RL。

论文地址：https://arxiv.org/pdf/2111.03026.pdf

标题：Causal versus Marginal Shapley Values for Robotic Lever Manipulation Controlled using Deep Reinforcement Learning（使用深度强化学习控制的机器人杠杆操作的因果与边缘Shapley值）了解详情

简介：本文研究了在生成解释时包含有关机器人系统因果关系的领域知识的影响。在使用深度强化学习训练的深度神经网络上比较了来自可解释人工智能的两种方法，流行的 KernelSHAP 和最近的因果 SHAP使用机器人操纵器控制杠杆的任务。KernelSHAP 的主要缺点是它的解释仅代表特征对模型输出的直接影响，没有考虑特征通过影响其他特征对输出可能产生的间接影响。因果 SHAP 使用部分因果顺序来改变 KernelSHAP 的采样程序以合并这些间接影响。这种部分因果排序定义了特征之间的因果关系，通过使用有关杠杆控制任务的领域知识来指定。研究表明，启用解释方法来解释间接影响并结合一些领域知识可以导致更符合人类直觉的解释。这对现实世界的机器人任务特别有利，因为在现实世界中，存在着相当大的因果关系，此外，所需的领域知识通常很容易获得。

论文地址：https://arxiv.org/pdf/2111.02936.pdf

标题：Model-Free Risk-Sensitive Reinforcement Learning（无模型风险敏感强化学习）了解详情

简介：本文扩展了时间差分 (TD) 学习以获得风险敏感、无模型的强化学习算法。这种扩展可以被视为对 Rescorla-Wagner 规则的修改，其中（S 形）刺激被认为是高估或低估 TD 目标的事件。因此，本文获得了一个随机近似规则，用于估计由具有未知均值和方差的高斯分布生成的 iid 样本的自由能。由于已知高斯自由能是对均值和方差敏感的确定性等价物，因此学习规则在风险敏感决策中具有应用。

论文地址：https://arxiv.org/pdf/2111.02907.pdf

标题：Supervised Advantage Actor-Critic for Recommender Systems（基于行动-评论监督优势的推荐系统）了解详情

简介：通过奖励信号将基于会话或顺序的推荐转换为强化学习（RL），是实现累积利润最大化的推荐系统（RS）的一个有前途的研究方向。然而，由于诸如非策略培训、巨大的行动空间和缺乏足够的奖励信号等挑战，在RS设置中直接使用RL算法是不切实际的。最近的RS的RL方法试图通过结合RL和（自）监督顺序学习来应对这些挑战，但仍有一定的局限性。针对上述问题，该文提出了负采样策略来训练RL分量，并将其与有监督序列学习相结合。称这种方法为监督负Q学习（SNQN）。基于抽样（消极）行动（项目），通过计算积极行动相对于平均情况的“优势”，这可以进一步用作学习监督序列部分的归一化权重。这导致了另一个学习框架：监督优势参与者-批评家（SA2C）。实验结果表明，该方法比现有的监督方法和自监督RL方法具有更好的性能。

论文地址：https://arxiv.org/pdf/2111.03474.pdf

标题：Regular Decision Processes for Grid Worlds（网格世界的规则决策过程）了解详情

简介：马尔可夫决策过程通常用于不确定条件下的顺序决策。然而，对于许多方面，从约束或安全规范到任务和奖励结构中的各种时态（非马尔可夫）依赖，都需要扩展。为此，近年来，人们对强化学习和时态逻辑的结合产生了兴趣，也就是说，将灵活的行为学习方法与稳健的验证和保证相结合。在本文中，描述了一个最近引入的规则决策过程的实验研究，该过程支持非马尔可夫奖励函数和转移函数。特别是，文章提供了一个用于常规决策过程的工具链、与在线增量学习相关的算法扩展、无模型和基于模型的解决方案算法的经验评估，以及在常规但非马尔可夫网格世界中的应用。

论文地址：https://arxiv.org/pdf/2111.03647.pdf

标题：Cross Modality 3D Navigation Using Reinforcement Learning and Neural Style Transfer（基于强化学习和神经风格转换的跨模态三维导航）了解详情

简介：本文介绍了使用多智能体强化学习（MARL）在医学成像的三维解剖体中执行导航。文章利用神经方式传输来创建合成计算机断层扫描（CT）代理健身房环境，并评估我们代理对临床CT体积的泛化能力。我们的框架不需要任何标记的临床数据，并且可以轻松地与多种图像翻译技术集成，从而实现跨模态应用。此外，文章仅在2D切片上对代理进行调节，为更困难的成像模式（如超声波成像）中的3D引导开辟了道路。这是在获取标准化诊断视图平面、提高诊断一致性和促进更好的病例比较过程中向用户指导迈出的重要一步。

论文地址：https://arxiv.org/pdf/2111.03485.pdf

标题：Learning Large Neighborhood Search Policy for Integer Programming（基于大邻域搜索策略学习的整数规划）了解详情

简介：文章提出了一种深度强化学习（RL）方法来学习整数规划（IP）的大邻域搜索（LNS）策略。RL策略被训练为销毁操作符，以在每个步骤中选择变量子集，该子集由IP解算器作为修复操作符重新优化。然而，可变子集的组合数量阻碍了典型RL算法的直接应用。为了应对这一挑战，本文通过将所有子集分解为每个变量的二进制决策来表示它们。然后文章设计了一个神经网络来并行学习每个变量的策略，并通过定制的actor-critic算法进行训练。本文在四个具有代表性的IP问题上对所提出的方法进行了评估。结果表明，它可以在更短的时间内找到比SCIP更好的解决方案，并且显著优于具有相同运行时间的其他LNS基线。此外，当这些政策推广到更大的问题时，这些优势明显存在。使用Gurobi进行的进一步实验还表明，该方法可以在相同的时间限制内优于这种最先进的商业求解器。

论文地址：https://arxiv.org/pdf/2111.03466.pdf

标题：Riverbed Modeler Reinforcement Learning M&S Framework Supported by Supervised Learning （受监督学习支持的 Riverbed Modeler 强化学习 M&S 框架）了解详情

简介：Riverbed Modeler 是一个有用的仿真工具，可以仿真各种标准网络模型。然而，它没有提供一个相关的工具，不适合目前正在积极进行的将机器学习应用于网络领域的研究情况。本文实施了一个框架，以在 Riverbed Modeler 环境中应用强化学习。为了有效地执行强化学习，本文提出了一种支持监督学习的强化学习结构，以使用 Riverbed Modeler 和 MATLAB 提高网络性能。通过实验评估所提出的方法与现有的强化学习环境相比缩短了学习时间。

论文地址：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9333963

标题：A Robust Approach for Continuous Interactive Actor-Critic Algorithms（一种用于连续交互式 Actor-Critic 算法的稳健方法）了解详情

简介：强化学习是指一种机器学习范式，其中智能体与环境交互以学习如何执行任务。环境的特征可能会随时间变化或受到不受控制的干扰的影响，从而阻碍智能体找到合适的策略。本文提出了一种解决动态环境中交互式强化学习问题的方法，其中建议提供有关任务和环境动态的信息。因此，智能体在接受建议的同时在受干扰的环境中学习策略。本文在车杆平衡任务的动态版本和模拟机械臂动态环境中实施此方法来组织对象。结果表明，所提出的方法允许智能体在动态、连续的状态-动作域中令人满意地完成任务。

论文地址：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9493212

标题：Hierarchical Reinforcement Learning With Automatic Sub-Goal Identification （具有自动子目标识别的分层强化学习）了解详情

简介：在强化学习中，当处理难以找到奖励点的稀疏奖励任务时，智能体可能无法有效地探索。为了解决这个问题，本文提出了一种称为分层深度强化学习的算法，通过计算机视觉自动识别子目标（HADS），该算法利用分层强化学习来缓解稀疏奖励问题，并通过利用子目标提高探索效率机制。HADS 使用计算机视觉方法自动识别子目标以进行分层深度强化学习。由于并不是所有的子目标点都是可达的，因此提出了一种去除不可达的子目标点的机制，以进一步提高算法的性能。HADS 涉及轮廓识别以从状态图像中识别子目标，其中状态图像中的一些显著状态可能被识别为子目标，其他则将根据先验知识去除。

论文地址：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9497876

标题: Safe Reinforcement Learning via Curriculum Induction (通过课程引导安全的强化学习)了解详情

简介: 在有安全要求场景中，安全强化学习（safe RL）训练一般需要引入先验条件来避免探索过程中的危险情况，但是先验条件的概率保证和平滑假设在很多场景（例如自动驾驶）中均不可行。本文提出了一种受人类教学启发的、可以不受限于这些假设的替代方法，其中，智能体（学生）在老师的自动指导下进行学习，老师会在智能体开始出现危险行为时选择不同的重置/干预动作，从而避免智能体在学习过程中违反约束。论文也是首次将课程学习引入到安全强化学习场景，老师根据智能体的的学习进度和行为数据分布，训练一个决策模型来自动选择重置/干预动作类型，从而对智能体的课程学习进行自动设计。

论文地址:https://arxiv.org/pdf/2006.12136.pdf

标题: Emergent Complexity and Zero-shot Transfer via Unsupervised Environment Design （通过无监督环境设计的新兴复杂性和零次迁移）了解详情

简介：本文工作的目的是构建一个可以在很多环境下都可以表现很好的策略模型，所以需要在强化学习训练过程中生成一系列不同的环境，自动生成环境的方法主要包括领域随机化和微对抗训练。领域随机化只能随机地构建新环境，不能根据策略模型的训练过程来动态生成难度合适的环境；而微对抗训练单纯为了构建当前策略模型表现不好的环境，容易生成不可解的环境；本文提出的Protagonist Antagonist Induced Regret Environment Design (PAIRED)算法会同时训练三个模型：类似于GAN的对抗思路，环境生成模型和反派智能体优化目标是最大化反派智能体和正派智能体的奖励差。在对抗训练过程中，环境生成模型会倾向于生成反派智能体表现好的环境，从而实现逐渐增加环境难度的自动课程学习。

论文地址: https://arxiv.org/pdf/2012.02096.pdf

综述

来自专家演示的无模型强化学习：综述了解详情

简介：来自专家演示的强化学习 (RLED) 是模仿学习与强化学习的交叉点，综合利用这两种学习方法。RLED 使用演示轨迹来提高高维空间中的样本效率。通过利用专家的演示，RLED 是一种新的有前途的行为学习方法。RLED 考虑了两种可能的知识来源来指导强化学习过程：先验知识和在线知识。这项研究侧重于通过不一定由人类提供的演示来引导的无模型强化学习的新方法。根据示范的影响对这些方法进行分析和分类。还讨论了改进方法的挑战、应用和前景

论文地址：https://link.springer.com/content/pdf/10.1007/s10462-021-10085-1.pdf

数据集

RLDS：基于强化学习生成、共享和使用数据集的生态系统了解详情

简介：本文介绍了 RLDS（强化学习数据集），一个用于在包括强化学习（RL）、从演示中学习、离线RL或模仿学习在内的顺序决策（SDMZ环境中记录、重放、操作、注释和共享数据的生态系统.。RLDS不仅使现有研究具有可重复性，并可以轻松生成新数据集，以加速新研究。通过提供标准和无损格式的数据集，它可以在更广泛的任务中快速测试新算法。RLDS 生态系统可以轻松共享数据集，而不会丢失任何信息，并且在将各种数据处理管道应用于大型数据集集合时，无需了解底层原始格式。此外，RLDS 提供了用于收集合成代理或人类生成的数据以及检查和处理收集到的数据的工具。最终，与 TFDS 的集成有助于与研究社区共享 RL 数据集。

论文地址：https://arxiv.org/pdf/2111.02767.pdf

如果你正在从事或关注强化学习研究、实现与应用，欢迎加入“智源社区-强化学习-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

扫描下方二维码，加入强化学习兴趣群。

python基于django/flask网上书城系统Django-SpringBoot-php-Node.js-flask QQ_1963288475 python django flask spring boot php laravel node.js
目录技术栈介绍具体实现截图![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/7b88ca45e7124106a000075acaf2f4e8.png)系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研
群体智能优化算法-旗鱼优化算法 (Sailfish Optimizer, SFO，含Matlab源代码） HR Zhou 算法 matlab 开发语言群体智能优化优化
摘要旗鱼优化算法（SailfishOptimizer,SFO）是一种模拟旗鱼（Sailfish）和沙丁鱼（Sardine）之间捕食关系的新型元启发式算法。通过在搜索过程中模拟旗鱼对沙丁鱼的捕食行为，以及沙丁鱼群的逃逸与防御机制，SFO平衡了全局探索与局部开发，在处理复杂优化问题时具有良好的收敛性能。本文提供了SFO的核心思路并提供了完整MATLAB代码及详细中文注释，以帮助读者快速理解并应用该算法
使用python反射，实现pytest读取yaml并发送请求南部余额 python python pytest
pytest+yamlyaml-feature:用户模块story:登录title:添加用户request:method:POSTurl:/system/user/listheaders:nullparams:nullvalidate:nullread_yaml_alldefread_yaml_all(path):withopen(path,'r',encoding='utf-8')asf:val
Github2025-03-10 开源项目周报 Top13 老孙正经胡说开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，本周(2025-03-10统计)共有13个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目7TypeScript项目2JavaScript项目2C++项目1JupyterNotebook项目1Vue项目1文档项目1Rust项目1Svelte项目1从零开始构建你喜爱的技术创建周期：2156天Star数量：253338个For
机器学习Pandas_learn3 XW-ABAP 机器学习 pandas
frompandasimportDataFrameimportnumpypaints={"车名":["奥迪Q5L","哈弗H6","奔驰GLC"],"最低报价":[numpy.nan,9.80,numpy.nan],"最高报价":[49.80,23.10,58.78]}goods_in=DataFrame(paints,index=[1,2,3])print(goods_in)goods_in_n
Python的Numpy数组np.array()基本用法详解（二）苏雨流丰 Python30Days python 开发语言 numpy array
本节主要讲授array获取元素、转置、重塑等方法"""@Date:2022-01-21@Author:苏雨流丰@lang:Python@summary:访问、获取np.array的元素"""导入numpy包importnumpyasnp初始化工作np_34_list=[[1,3,5,7],[2,4,6,8],[1,2,5,6]]np_44_list=[[1,3,5,7],[2,4,6,8],[1,
python-git- GitHub 45度看我 github
python之git-GitHub一：github原文链接二：WhatisGitHub1>创建仓库2>创建分支3>提交修改4>发起PullRequest三：理解GitHub流四：创建你的GitHub主页1>setting-->“Commitchanges”按钮五：典型的项目1>社区（TheCommunity）2>文档（TheDocs）3>Issue创建一个问题单4>PullRequest六：Git
Python基础语法（二）：条件、循环与运算符算法工程师y python 开发语言
本篇Python基础语法（二）将深入讲解编程中至关重要的条件判断、循环结构和运算符，它们是实现复杂逻辑的基石。一、条件语句（if-elif-else）条件语句用于根据不同的条件执行不同的代码块。Python中用if、elif（elseif的缩写）和else实现。1.基本语法age=18ifage（大于）、大于10>5→True=大于等于5>=5→True3)and(2<4)→Trueor任一条件为
【技术解密】本地部署 DeepSeek-V3：完整指南海棠AI实验室 “智元启示录“-AI发展的深度思考与未来展望人工智能深度学习 DeepSeek
目录引言运行环境需求下载与安装推理部署总结参考资源引言随着人工智能的快速发展，开源大模型正逐步改变着技术生态。DeepSeek-V3作为最新的开源大模型之一，不仅提供了强大的推理能力，同时也支持本地部署，使开发者可以灵活地进行自定义优化。本文将详细介绍如何在本地部署DeepSeek-V3，涵盖系统要求、安装步骤、模型转换及不同推理框架的应用。1.运行环境需求1.1硬件要求✅NVIDIAGPU（支持
人工智能伦理与可持续发展 CarlowZJ 人工智能
前言人工智能（AI）技术正在深刻地改变我们的生活和工作方式。从自动驾驶汽车到智能医疗系统，从个性化推荐到自动化决策，AI的应用无处不在。然而，随着技术的快速发展，其伦理和社会影响也引发了广泛的关注。人工智能伦理不仅涉及技术本身的公平性、透明性和安全性，还涉及到更广泛的社会、经济和环境影响。本文将探讨人工智能伦理的核心问题，并从可持续发展的角度提出应对策略。一、人工智能伦理的核心问题1.1数据隐私与
小米音频理解技术重大突破：7B模型借助DeepSeek-R1算法引领行业新篇章耶耶Norsea 网络杂烩人工智能深度学习
摘要小米公司通过采用DeepSeek-R1算法的迁移技术，在音频理解领域实现了重大突破。其7B模型在MMAU音频评测基准中表现出色，成功登顶排行榜。MMAU评测基准包含10000条音频样本，涵盖语音、环境声和音乐等多种类型，难度极高。即便如此，该模型的表现已超越人类专家的82.2%识别准确率，展现出卓越的音频理解能力。关键词小米音频突破,DeepSeek-R1算法,7B模型进展,MMAU评测基准,
TRS收益互换系统开发为何敢称“无限拓展”？模块化架构+弹性集群揭秘！ Ashlee_code 架构 python java c++c语言
《【券商震惊】传统询价3小时→TRS黑科技10分钟！盈立证券交易量暴增150%背后秘密》开篇：询价耗时3小时？券商正在被低效“慢性杀死”电话询价、邮件比价、Excel汇总——传统场外交易中，一次询价流程动辄数小时，客户流失率高达40%！TRS收益互换平台，依托DeepSeek动态定价算法与多发行方实时比价引擎，将询价响应时间从3小时压缩至10分钟，助力盈立证券交易量飙升150%，彻底改写行业游戏规
24小时响应+零宕机！TRS收益互换系统售后如何成为券商“救命稻草”？ Ashlee_code 架构 java python c++c语言
《【券商震惊】传统询价3小时→TRS黑科技10分钟！盈立证券交易量暴增150%背后秘密》开篇：询价耗时3小时？券商正在被低效“慢性杀死”电话询价、邮件比价、Excel汇总——传统场外交易中，一次询价流程动辄数小时，客户流失率高达40%！令克软件TRS收益互换平台，依托DeepSeek动态定价算法与多发行方实时比价引擎，将询价响应时间从3小时压缩至10分钟，助力盈立证券交易量飙升150%，彻底改写行
【python爬虫实战】——基于全国各城市快递网点的数据采集小L工程师 python爬虫实战爬虫网络爬虫 python selenium 开发语言数据分析数据可视化
一、项目背景随着电子商务的快速发展，快递行业成为了现代物流的重要组成部分。快递网点的分布和服务质量直接影响到用户的物流体验。为了更好地了解快递网点的分布情况、服务范围以及联系方式等信息，本项目通过爬虫技术从公开的快递信息网站上采集相关数据。‘>本文章中所有内容仅供学习交流使用，不用于其他任何目的，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关！二、项目目的和意义本项目的主要目的是通
机器学习中输入输出Tokens的概念详解爱吃土豆的程序员机器学习基础机器学习人工智能 Tokens
随着深度学习技术的快速发展，大语言模型（LargeLanguageModels,LLMs）已经成为自然语言处理（NLP）领域的一个热点研究方向。这些模型不仅能够生成高质量的文本，还能在多种任务中展现出卓越的表现，比如机器翻译、问答系统、文本摘要等。在大语言模型的工作流程中，Tokens的概念扮演着至关重要的角色。本文将详细介绍大语言模型如何使用Tokens，以及如何计算Tokens的数量。什么是T
学习Web3.0需要具备哪些基础知识？ alankuo 人工智能人工智能
学习Web3.0需要具备以下基础知识：一、计算机科学基础1.编程知识-了解至少一种编程语言，如Python、JavaScript等。这将有助于理解Web3.0应用程序的开发和智能合约的编写。-熟悉编程概念，如变量、数据类型、控制结构、函数等。2.数据结构和算法-掌握常见的数据结构，如数组、链表、栈、队列、树、图等，以及它们的操作和应用。-了解基本的算法，如排序、搜索、递归等，以及它们的时间和空间复
LLM-PowerHouse: 一站式大型语言模型定制训练与推理指南 Nifc666 语言模型人工智能自然语言处理 whisper langchain gpt 开源软件
LLM-PowerHouse:解锁大型语言模型的潜力在人工智能和自然语言处理领域,大型语言模型(LargeLanguageModels,LLMs)正在掀起一场革命。随着GPT、BERT等模型的出现,LLMs展现出了惊人的能力,可以执行各种复杂的语言任务。然而,如何有效地训练和使用这些强大的模型仍然是一个挑战。针对这一需求,GitHub上的LLM-PowerHouse项目应运而生,为开发者、研究人员
深入理解C++编程：从内存管理到多态与算法实现嵌入式Jerry C++c++算法开发语言
C++是一门功能强大的编程语言，广泛应用于系统编程、游戏开发和高性能计算等领域。本文将通过一系列经典问题，深入探讨C++的核心知识点，包括内存管理、多态（结合函数重载与覆盖）、多线程、TCP/IP模型、软链接与硬链接的区别，以及常见算法实现。每个知识点都配有详细的代码示例和解释，帮助你更好地理解和掌握。1.内存管理：内存泄露与检测什么是内存泄露？内存泄露是指程序在动态分配内存后，未能正确释放已不再
PyTorch中，将`DataLoader`加载的数据高效传输到GPU 大霸王龙 pytorch 人工智能 python
一、数据加载到GPU的核心步骤数据预处理与张量转换若原始数据为NumPy数组或Python列表，需先转换为PyTorch张量：X_tensor=torch.from_numpy(X).float()#转换为浮点张量y_tensor=torch.from_numpy(y).long()#分类任务常用长整型显式指定设备：通过.to(device)将数据移至GPU（需提前定义device对象）：devi
【sklearn 01】人工智能概述 @金色海岸人工智能 sklearn python
一、人工智能，机器学习，深度学习人工智能指由人类制造出的具有智能的机器。这是一个非常大的范围，长远目标是让机器实现人工智能，但目前我们仍处在非常初始的阶段，甚至不能称为智能机器学习是指通过数据训练出能完成一定功能的模型，是实现人工智能的手段之一，也是目前最主流的人工智能实现方法深度学习则是机器学习的分支，超过8层的神经网络模型就叫深度学习，深度即层数。深度学习目前在语音、图像等领域取得很好的效果
C/C++每日一练：实现选择排序風清掦 C/C++~每日一练 c语言 c++算法
选择排序选择排序是一种简单直观的排序算法，时间复杂度为，其中n是数组长度，不适合大数据集的排序，适合于元素较少且对性能要求不高的场景。选择排序的基本思想是：每次从未排序部分选择最小的元素，将其放到已排序部分的末尾。这样经过多轮操作后，整个数组会被逐步排好序。具体步骤如下：初始化：将第一个元素作为已排序区，剩余部分作为未排序区。遍历未排序区：从未排序区间找出最小的元素，记下其位置。交换位置：将找到的
C/C++每日一练：实现冒泡排序風清掦 C/C++~每日一练算法 c语言 c++排序算法
题目要求编写一个程序，实现冒泡排序算法。给定一个由n个整数组成的数组，要求通过冒泡排序对数组从小到大进行排序。输入：一个整数数组，长度为n，数组中的元素可能是正数或负数。输出：按照升序排序后的数组。做题思路冒泡排序是一种简单直观的排序算法。其基本思想是通过多次遍历数组，逐步将未排序部分中的最大或最小元素“冒泡”到数组的一端，直到整个数组有序。冒泡排序的步骤如下：从数组的第一个元素开始，依次比较相邻
cmd运行python脚本找不到包_命令行执行python模块时提示包找不到的问题 weixin_39788960
庄稼人不是专职python开发的道友，虽然与python相识已多年，可惜相识不相知，只是偶尔借助pydev写一些简单的小工具。多年来，一直困惑于这样一个问题：同样的工程，同样的代码，使用pydev可以运行任意一个python脚本，而使用命令行运行却不行？命令行下(或者双击执行)总是提示“ImportError:Nomodulenamedxxx”？pydev究竟做了什么魔术呢？长话短说，以上面工程为
Python报错：moduleNotFoundError:No module named ‘exceptions‘ 南浔Pyer 报错解决 Python编程
报错如下：使用pipinstalldocx安装模块docx后，发现不能正常使用，并报错：fromexceptionsimportPendingDeprecationWarningModuleNotFoundError:Nomodulenamed'exceptions'解决方法卸载原来安装的docxpipuninstalldocx安装python-docx模块即可pipinstallpython-d
Python如何设置工作目录飞起来fly呀 Python python 开发语言
在Python编程中，正确设置工作目录是文件系统操作的关键步骤之一。工作目录影响到相对路径的解析，确保程序能正确访问所需的文件和资源。为方便大家理解和使用，这里详细介绍如何在Python中利用os模块设置工作目录，并以此实现更灵活的文件操作。使用os模块设置工作目录Python的os模块提供了操作系统相关的功能，包括目录和文件操作。你可以用这个模块来更改当前的工作目录，以匹配你项目的需要。1.设置
【人工智能】【Python】在Scikit-Learn中使用决策树算法（ID3和CART） SmallBambooCode 机器学习人工智能 python 算法 scikit-learn 决策树机器学习 ai
importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.treeimportDecisionTreeClassifier,plot_tree#加载数据集iris=load_iri
Day65 | 灵神 | 二分查找：红蓝染色法为了前进而后退，为了走直路而走弯路刷题记录数据结构算法学习笔记二分查找 c++
Day65|灵神|二分查找：红蓝染色法灵神讲解的非常好建议大家去听听灵神的，二分查找就是常忘常学常新，我之前学过很多次二分，但这次还是有新的理解，我把可能比较难理解的点写到了下面，大家没看懂视频的地方可以看看我写的当然主要的其实是check函数，在本题中就是大于等于target这个条件，估计灵神下个视频会讲吧二分查找红蓝染色法【基础算法精讲04】_哔哩哔哩_bilibili文章目录Day65|灵神
算法每日一练 (13) 张胤尘算法每日一练算法数据结构
欢迎来到张胤尘的技术站技术如江河，汇聚众志成。代码似星辰，照亮行征程。开源精神长，传承永不忘。携手共前行，未来更辉煌文章目录算法每日一练(13)全排列II题目描述解题思路解题代码`c/c++``golang``lua`官方站点：力扣Leetcode算法每日一练(13)全排列II题目地址：全排列II题目描述给定一个可包含重复数字的序列nums，按任意顺序返回所有不重复的全排列。示例1：输入：nums
Python 3.14版本的彩蛋
使用3.14版本的Python创建一个虚拟环境，会看到在虚拟环境的bin目录中，不仅有python3、python3.14等常规文件，竟然还存在一个特殊的文件thon。/tmp/venv/bin$lltotal72...-rwxr-xr-x1useruser290BMar510:57pip3.14*lrwxr-xr-x1useruser10BMar510:57python@->python.exe
差异中寻找共识：浅析中美欧AIGC服务商的标识义务人工智能
2025年1月7日，西藏日喀则地震中一张被广泛传播的图片“被压在废墟下的小男孩”被证明是AI合成图片，[1]这随即引发了社会对于人工智能生成物（ArtificialIntelligenceGeneratedContent，以下简称“AIGC”）的广泛讨论。随着AI大模型生成逼真图像、音频与视频的能力日益增强，人类作品与AIGC之间的界限愈发模糊。如不加以管控，则会产生“真相侵蚀”（TruthDec
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro

《强化学习周刊》第25期：DeepMind提出无模型风险敏感强化学习、谷歌发布 RLDS数据集生态系统...

你可能感兴趣的:(算法,大数据,python,机器学习,人工智能)