doubleZ7

边境的悍匪—机器学习实战：第十八章强化学习

第十八章强化学习

文章目录

第十八章强化学习
前言
一、主要内容
- 1、学习优化奖励
- 2、策略搜索
- 3、OpenAI Gym介绍
- 4、神经网络策略
- 5、评估动作：信用分配问题
- 6、策略梯度
- 7、马尔克夫决策过程
- 8、时序差分学习
- 9、Q学习
- 10、实现深度Q学习
- 11、深度Q学习的变体
- 12、TF-Agents库
- 13、一些流行的RL算法概述
二、课后练习
三、总结

前言

强化学习同样是一个很古老在很早之前就已经提出来的思想，目前主要应用与游戏领域，并且已经在该领域取得了不错的成绩，达到了超越人类的水平。它与一般的有监督学习不同，没有标签的概念，而只有奖励机制，通过给智能体反馈正向或者反向的奖励来约束智能体找到一个最优解，并且它要比有监督学习的训练复杂，值得高兴的是目前科学家们已经提出了可以简化构建一个强化学习系统的各种技术与框架。现在就让我们来看看吧。

一、主要内容

1、学习优化奖励

在强化学习中，用于观察环境做出决策的系统称之为智能体，智能体做出的决策应用与环境之后会获得奖励，奖励的正负取决于策略之后获得的回报（一般情况下奖励越大说明决策越优，反之亦然）。智能体的工作就是通过不断的试错，找到一个对于环境A做出决策X获得最大的奖励。

2、策略搜索

智能体用来决策对应环境A做出决策X的算法成为策略。智能体需要完成的就是在整个策略了空间内寻找一个应对当前环境最好的策略，这个过程就称为策略搜索。
策略搜索的方式有很多种，对于策略空间较小的情况，我们可以使用暴力所有的方式多次尝试不同的值，直到获得最优解。还可以使用遗传算法，先尝试多条策略筛选出较优的几条，然后保存较优策略了并加上其变体生成第二代继续筛选，以此类推。还可以使用策略梯度，通过评估策略参数有关的奖励梯度来调整参数，根据奖励的多少来调整参数优化的方向。

3、OpenAI Gym介绍

我们在训练一个智能体时有一个关键的前提，就是需要为智能体提供一个训练的环境。例如训练的是一个游戏的智能体则需要为它提供一个游戏的模拟器，如果训练的是一个行走的机器人那么就需要为智能体提供一个真是的陆地环境。但显然这样的方式并不完全可行，需要很大的投入和训练成本。OpenAI Gym的问世就是为了解决这一问题，它是一个工具包，提供了很多的模拟环境供我们训练一个智能体。

4、神经网络策略

神经网络策略的思想与硬编码策略的思想是一样的，观察者的观察结果作为输入，执行的操作作为输出，神经网络会输出每个动作的概率，最后根据输出的概率随机选择一个动作执行。

5、评估动作：信用分配问题

以往我们在训练一个机器学习或者是神经网络模型时有损失函数，我们可以通过观察损失函数的值就能够判断模型做出的决策是否是好的。但是在强化学习中我们只有奖励机制，我们只有在完成一个任务之后才会知道任务的结果，我们没有办法知道在完成任务时所做的众多动作中，哪些是好的哪些是坏的，更没有办法将最终结果的奖励分配到每个一个动作上。
一种常见的用于评估动作的办法是根据一个动作完成后获得的奖励总和（动作回报）来评估一个动作。为了屏蔽会出现一些特殊的情况来干扰我们最后做出的判断，我们必须运行多个回合并归一化所有动作的回报，这样我们就可以看出所有的动作的优劣。

6、策略梯度

策略梯度算法（PG）是跟随朝着回报更高的梯度来优化策略的参数。
PG有一个常见的变体（REINFORCE），它会让智能体多次参加游戏并计算每个步骤的梯度。多个回合之后将梯度向量与动作的优势相乘，最后计算所有梯度向量的均值执行梯度下降。不过由于这个算法需要多个回合才能估算每个动作的优势，所以它的样本效率极低无法应用与更加复杂更大的任务。

7、马尔克夫决策过程

马尔克夫决策过程（MDP）的基础是马尔克夫链，它是由固定数量的状态组成，每一个步骤会从一个状态切换到另一个转态（包括当前状态），每个状态切换的概率的固定的，切换过程随机选择状态。

马尔克夫决策过程基于马尔克夫链，智能体在做出决策时可以根据每个动作的概率选择所有可能的动作中的一个，完成状态转换后会返回一定的奖励，智能体要做的就是找到一个随着时间的推移最大化奖励的策略。

8、时序差分学习

时序差分学习（TD）用于解决在马尔克夫决策过程中需要不断的经历才知道状态转换的概率以及转换之后的奖励问题。它使用探索策略来探索MDP并且随着他的发展会根据观察到的转变和奖励来更新状态的估计值。

9、Q学习

Q学习是Q值迭代算法对最初位置转移概率和奖励情况的一种改进。它的工作方式是观察智能体的活动，逐步改善其对Q值的估算，一旦找到准确的Q值的估算值，那么最佳的策略就是最高Q值动作。

探索策略
Q学习是通过观察智能体的活动来估算Q值，所以需要智能体充分了解MDP才能有不错的效果，但是智能体探索MDP的过程非常的漫长。这个时候我们就可以使用ε贪婪策略，它会使得智能体以概率ε随机行动，随着探索的时间越长Q值越准确，它也会花费更多的时间来探索MDP有趣的部分，同时也会花费一定的时间来探索MDP中未知的部分。
近似Q学习和深度Q学习
Q学习的弊端在于它无法很好的扩展到具有许多状态和动作的大型MDP，解决的办法是使用一些可管理的参数找到一个可以求出近似任何状态S的Q值函数，直白点说就是能找到一个算法可以根据任何一个状态输出他的Q值估算值，这就称为近似Q学习。当我们把这个Q值估算的算法换为DNN时，这时的Q学习称为深度Q学习，这时的DNN称为深度Q网络（DQN）。

10、实现深度Q学习

实现深度Q学习我们需要一个深度Q网络为每一个可能的动作都输出一个近似的Q值。为了使得深度Q网络可以选择动作，我们需要让智能体使用ε贪婪策略来探索环境，并且我们在训练深度Q网络的过程中不仅使用新的经验来训练，而是会把所有的经验都放在混冲去每次训练迭代都从中抽取一批次来训练。
深度学习算法面临着一个主要的问题，随着智能体探索环境他会更新策略，但是在新环境中学到的东西会破坏先前在其他环境中学到的东西，导致强化学习训练的不稳定，以及对超参数的值与随机种子的巨大敏感性。

11、深度Q学习的变体

固定Q值的目标
为了解决深度Q学习算法不稳定的问题，提出了深度Q学习的变体，这个变体由两个深度Q网络组成，一个用于学习并移动智能体，另一个负责定义目标的目标模型。
双DQN
后来研究人员发现，负责定义目标的网络往往会高估Q值，所以他们建议在选择下一个状态的最佳动作时，使用线性模型而不是目标模型，并且仅仅使用目标模型来估计这些最佳动作的Q值。
优先经验重播
我基础的深度Q学习中，经验的采样是从重播缓冲区随机采样一个批次，在科学家的优化后经验采样时，在重播缓冲区会优先采样重要的经验，不过这样也存在着过拟合的风险，可以通过降低重要经验的权重来降低过拟合的风险。
竞争DQN
在竞争DQN中，模型同时估算状态值和每个可能的动作的优势。由于最佳动作的优势应为0，因此模型从所有的预测中的优势减去最大的预测优势。

12、TF-Agents库

简介
TF-Agents是一个基于TensorFlow的强化学习库，它提供了许多的现成的环境。它支持PyBullet库，DeepMind的DM Control库和Unity的ML-Agents库。它实现了许多的RL算法以及各种组件并且支持自定义组件。
环境规范
使用TF-Agents环境时，它提供了观察、动作和时间步骤的规范，包括其形状、数据类型和名称，以及其最大值最小值。
环境包装器
TF-Agents提供了几个环境包装器，他们包装了一个环境，将每个调用转发给该环境还添加了一些额外的功能。
训练架构
TF-Agents的训练架构通常分为两个并行的部分。一部分是驱使者，观察者和重播缓冲区。驱使者使用收集的策略操作来探索环境，然后收集轨迹发给观察者，由观察者保存至重播缓冲区。另一部分是智能体，智能体从重播缓冲区中提取了一批次的轨迹并训练一些网络。这个训练架构的中心思想就是一部分探索环境，收集轨迹。另一部分学习并更新收集的策略。

13、一些流行的RL算法概述

目前有一些比较流行的强化学习算法，例如：Actor-Critic算法，Asynchronous Advantage Actor-Critic，Advantage Actor-Critic，Soft Actor-Critic，Proximal Policy Optimization，Curiosity-based exploration。每个算法各有特色，我们可以根据自己的实际情况选择合适的算法。

二、课后练习

1. 你如何定义强化学习？它与常规的有监督学习或无监督学习有何不同？
强化学习是机器学习的一个领域，旨在创建能够在环境中采取行动的智能体，从而使奖励随着时间的推移而最大化。RL与常规有监督学习和无监督学习之间有很多差异。下面是一些差异：
·在有监督学习和无监督学习中，目标通常是在数据中找到模式并使用它们来进行预测。在强化学习中，目标是找到一个好的策略。
·与有监督学习不同，强化学习没有明确为智能体给出“正确”的答案。它必须通过反复试验错误来学习。
·与无监督学习不同，有一种通过奖励的有监督形式。我们不告诉智能体如何执行任务，但是会告诉智能体其成功或失败。
·强化学习代理需要在探索环境、寻找获得奖励的新方法以及利用已经知道的奖励来源之间找到适当的平衡。相反，有监督学习和无监督学习系统通常不需要担心探索。它们只是根据给定的训练数据。
·在有监督学习和无监督学习中，训练实例通常是独立的（实际上，它们通常是随机混洗的）。在强化学习中，连续观察通常不是独立的。智能体在继续前进之前可能会在环境的同一区域中停留一段时间，因此连续的观察结果将非常相关。在某些情况下，重播存储（缓冲区）用于确保训练算法能得到相当独立的观察结果。

2. 你能想到本章中未提到的RL的三种可能的应用吗？对于每一个来说，环境是什么？什么是智能体？有哪些可能的动作？有什么奖励？
除了第18章中提到的，这里还有一些强化学习的可能应用：
音乐个性化
环境是用户的个性化网络广播。智能体是决定该用户接下来要播放什么歌曲的软件。它可能的操作是播放目录中的任何歌曲（必须选择用户喜欢的歌曲）或播放广告（必须选择会引起用户兴趣的广告）。每次用户听一首歌曲，它都会得到很小的奖励；每次用户收听广告，它会得到更大的奖励；当用户跳过歌曲或广告时，它会得到负面奖励；如果用户离开，则得到更大的负面奖励。
市场营销
环境是你公司的营销部门。智能体是一种软件，它根据给定的个人资料和历史购买记录来定义应将邮件发送给哪个客户（对于每个客户，它有两个可能的操作：发送或不发送）。它为邮件的成本给予负面奖励，为该活动产生的估计收入给予正面奖励。
产品交付
让智能体控制一批货车，确定它们应该在仓库取什么货，应该去的地方，应该卸什么货，等等。对于按时交付的每种产品，它将获得正面奖励；而对于延迟交付的产品，它将获得负面奖励。

3. 折扣因子是多少？如果你修改折扣因子，最优策略会改变吗？
估计动作的值时，强化学习算法通常会汇总该动作带来的所有奖励，将更多的权重分配给即时奖励，将较少的权重分配给以后的奖励（考虑到某项动作对近期未来的影响大于遥远未来的影响）。为了对此建模，通常在每个时间步长应用折扣因子。例如，在折扣因子为0.9的情况下，当你估算操作的值时，在两个时间步长之后收到的100的奖励仅计为0.92×100=81。你可以将折扣因子视为衡量相对于当前的未来价
值的量度：如果它非常接近1，则未来的值几乎与现在的值相同；如果接近0，则仅是立即获得的奖励很重要。当然，这会对最优策略产生巨大影响：如果你看重未来，你可能愿意为最终回报的前景承担很多当即的痛苦；如果你不看重未来，则只会抓住你可以找到的任何可以立即获得的回报，从不对未来进行投资。

4. 你如何衡量强化学习智能体的性能？
要衡量强化学习智能体的性能，你可以简单地汇总它所获得的奖励。在模拟环境中，你可以运行许多个回合，查看其平均获得的总奖励（可以查看最小值、最大值、标准差等）。

5. 什么是贡献分配问题？什么时候发生？如何缓解呢？
信用分配问题是这样的事实：当强化学习智能体收到奖励时，它没有直接的方法来知道其先前的哪些行为促成了该奖励。这通常在动作和所得奖励之间存在较大延迟时发生（例如，在Atari的Pong游戏中，从智能体击球到获胜之间可能有几十个时间步长）。解决它的一种方法是在可能的情况下为智能体提供短期奖励。这通常需要有关任务的先验知识。例如，如果我们想建立一个会下棋的智能体，不是仅仅在赢得比赛时才给予奖励，我们可以在每次吃掉对手的一个棋子时给予奖励。

6. 使用重播缓冲区有什么意义？
智能体通常可以在其环境的同一区域中停留一段时间，因此在这段时间内，其所有的经历都非常相似。这可能会在学习算法中引入一些偏差。它可能会针对此环境区域调整其策略，但是一旦移出该区域，它的性能会不好。要解决此问题，你可以使用重播存储。智能体不使用最近的学习经历，而将基于过去的经历的缓冲来学习（也许这就是我们晚上做梦的原因：重播我们白天的经历并更好地学习？）。

7. 什么是异策略（off-policy）RL算法？
异策略RL算法学习最佳策略的值（即如果智能体采取最佳行动，则每个状态可以预期的折扣奖励总和），而智能体遵循不同的策略。Q学习是这种算法的一个很好的示例。相反，同策略的算法学习智能体实际执行的策略的值，包括探索和利用。

三、总结

以上就是强化学习所有的内容，强化学习是一种独立于有监督无监督学习之外的一种人工智能体学习模式。我们对上文做一个总结就是：

强化学习没有一个准确的标签提供模型做损失函数的计算，而只有智能体在完成一个动作之后得到的奖励，根据动作完成之后状态的反馈来确定奖励的好坏。
强化学习所要做的就是让智能体能够根据观察到的状态X给出一个能获得最大奖励的动作，这一行为称为策略探索。
马尔科夫决策过程更像是一个由很多状态以及状态转换过程的树，智能体一旦了解了当前任务的这个马尔科夫决策过程就可以针对特有的环境做出决策判断。
Q学习的中心思想就是给每个动作一个Q值类衡量动作的好坏，当智能体探索完整个决策空间之后就只需找到Q值最大的组合即可。
深度Q学习就是把衡量Q值的大小的决策交由深度神经网络来完成。
TF-Agents是一个基于TensorFlow的强化学习库，提供了很多的环境以及强化学习算法，并且所有的组件支持自定义。

对文章有任何疑惑或者想要和博主一起学机器学习一起进步的朋友们可以添加群号：666980220。需要机器学习实战电子版或是思维导图的也可以联系我。祝你好运！

项目地址: 码云地址

算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
图神经网络：挖掘关系数据中的宝藏
图神经网络：挖掘关系数据中的宝藏在浩瀚的数据海洋中，蕴藏着一类特殊而强大的资源——关系数据。它们不是孤立的点，而是相互连接、彼此影响的复杂网络：社交平台上朋友的朋友、电商系统中商品与用户的互动、蛋白质分子内原子的结合、城市交通网中的道路连接……这些数据天然以图的形式存在，节点代表实体，边则承载着实体间千丝万缕的关系。传统的数据挖掘工具面对这些盘根错节的结构往往力不从心，而图神经网络（GNN）的崛起
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
Python桌面应用开发的未来——智能化工具与大模型赋能 IronwoodStag78
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！标题：Python桌面应用开发的未来——智能化工具与大模型赋能随着人工智能技术的飞速发展，传统软件开发模式正在被重新定义。Python作为一门功能强大且灵活的语言，在桌面应用开发领域一直占据重要地位。然而，面对日益复杂的用户需求和快速变化的技术环境，如何提升开发效率、降低开发门槛，成为开发者亟需解决的问题
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI产品经理需要了解的算法知识 AI劳模人工智能产品经理 AI产品经理 AI产品经理入门零基础入门产品经理算法语言模型
1、自然语言生成（NLG）自然语言生成（NaturalLanguageGeneration，简称NLG）是一种人工智能技术，它的目标是将计算机的数据、逻辑或算法产生的信息转换成人类可读的自然语言文本。换句话说，NLG能让机器“学会”写文章、报告、故事或者其他任何形式的文字，就像人类作家那样。这项技术使得机器能够理解复杂的数据并将其转化为易于理解的语言，以适应不同的受众和情境。应用实例：金融报告自动
【Python】OpenAI API 宅男很神经 python 开发语言
【Python与OpenAIAPI深度探索：从基础到未来】第一章：OpenAIAPI概览与核心概念1.1OpenAIAPI是什么？能做什么？OpenAIAPI(ApplicationProgrammingInterface，应用程序编程接口)是一套允许开发者通过编程方式访问和使用OpenAI开发的各种先进人工智能模型的服务。这些模型经过海量数据的训练，能够在多种任务上达到甚至超越人类水平。通过AP
Python：操作 Word 对齐方式 Thomas Kant Python python word c#
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】Python：操作Word对齐方式详解（左对齐/右对齐/居中/两端对齐）在日常办公自动化中，我们经常需要对Word文档中的段落设置对齐方式，如左对齐、右对齐、居中、两端对齐等。本文将带你使用python-docx库
TestCafe ➜ Playwright fixture 架构迁移指南 Thomas Kant 自动化测试 playwright testcafe typescript 测试架构
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】
医疗金融预测与语音识别中的模型优化及可解释性技术突破智能计算研究中心其他
内容概要随着人工智能技术的纵深发展，模型优化与可解释性技术正在重塑医疗诊断、金融预测及语音识别领域的应用范式。在医疗领域，基于自适应学习的动态参数调整机制，结合迁移学习的跨场景知识复用，显著提升了疾病筛查模型的泛化能力；而金融预测场景中，联邦学习框架通过分布式数据协作，在保障隐私安全的前提下，实现了风险预测模型的多维度优化。语音识别领域则依托边缘计算架构，将模型压缩技术与实时推理引擎结合，有效解决
【大模型与机器学习解惑】什么是A/B测试，为何进行A/B测试？
以下内容将围绕机器学习中的A/B测试展开，从概念与背景到实施细节、示例代码、优化思路和未来建议，并在最后给出一个整体的“输出目录”供参考。目录什么是机器学习的A/B测试为何要进行A/B测试A/B测试的实施流程示例代码与详细解释优化方向与未来建议结语1.什么是机器学习的A/B测试A/B测试（也常被称作对照试验、SplitTest）最早多用于互联网产品的功能或界面迭代中，指的是将用户或样本随机分为两组
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi

边境的悍匪—机器学习实战：第十八章 强化学习

第十八章 强化学习