Liuyc-Code boy

2021李宏毅机器学习课程-YouTube第十部分、强化学习Reinforcement Learning - RL

第十部分、强化学习Reinforcement Learning - RL

- - 1.Reinforcement Learning
  - - 1）RL基本步骤
    - 2）控制Actor输出的行为
    - 3）actor倾向确定
    - - `1.Version 1`
      - `2.Version 2`
      - `3.Version 3`
  - 2.梯度下降策略（Policy Gradient）
  - - 1）On-policy v.s. Off-policy
    - 2）Exploration
  - 3.评估动作（Actor-Critic）
  - - 1）Value function
    - 2）评估V^θ(s)
    - - `1.Monte-Carlo (MC) based approach`
      - `2.Temporal-difference (TD) approach `
      - `3.MC v.s. TD`
      - `4.Version 3.5`
      - `5.Version 4（Advantage Actor-Critic）`
    - 3）Actor-Critic训练技巧
    - 4）直接用Critic觉得采取哪一个action
  - 4.额外定义reward让机器去学习（Reward Shaping）
  - - 1）Reward Shaping - Curiosity*
  - 5.没有回报（No Reward: Learning from Demonstration）
  - - 1）模仿学习（Imitation Learning）
    - 2）逆强化学习（Inverse Reinforcement Learning）

1.Reinforcement Learning

强化学习(RL)也是有监督学习的一种，前面提到的sulf-supervised learning和Auto-encoder虽然说是无监督学习但一种，但是处理思想其实也是有监督，只不过类别标签不需要人标出，由机器自己就可以产生。

和机器学习一样，强化学习的过程也是输入一个环境的信息(Observation)输出一个对应的行为(Action)，并且都每次把行为作用在环境之后会得到一个回报(Reward)。

经典的例子就是下围棋的AlphaGo。

回顾机器学习第三步，第一步是寻找一个有未知数的function，第二部是定义损失函数，第三步是定义优化器去更新参数。

1）RL基本步骤

强化学习的步骤也是和机器学习一样的三步组成的。

例如，下图是一个用RL做的打游戏的例子，第一步定义函数就是定义RL的Actor，这个部分包含了各种的未知的参数等待我们去学习。

第二步，定义Loss，在RL中从开始执行各种动作到游戏结束称为一个episode，每一步所有的reward加起来就是Total reward也叫return（R）。这个R就是我们的训练目标，我们希望他越大越好，所以我们可以拿-R作为我们的Loss。

注意：reward指的是每次action后的即时回报，而return是所有reward的总和。而且每次得到reward不仅仅是由action决定，也和前一个状态的环境有关。

第三步，定义优化器optimization，由于每次的行为和环境互动的结果都是随机的，而reward和environment对我们来说都相当于是黑箱并且可能也有随机性，所以如何设计优化器是一个强化学习的关键问题。

RL的随机性指的是在testing的时候，当我们使用同样的actor输入，最终的输出是不一样的。而我们在train模型的时候固定的random seed目的是让模型训练的初始化参数是一致的。

回想在GAN中学的部分我们通过将generator和discriminator连接起来，调节generator的参数期望discriminator的输出越大越好。

同理RL中我们也是将actor和reward + environment连接起来，通过调节actor使得reward+environment的输出越大越好。

而GAN和RL不同的是discriminator是一个network，我们也可以通过调整参数的方式进行优化，而RL中的reward+environment不是network无法去优化。

2）控制Actor输出的行为

假设我们想要让一看到S图片就选择a^的行为，即向左走，可以通过我们Actor得出的行为的结果和向左走的正确情况结果做对比，计算两个的交叉熵(cross-entropy)，得到一个损失值e，让e越小，我们的行为就越接近left。

反之，如果不想让机器在看到情况s向左走，就对求-e，交叉熵求得的e越小，-e反而就越大，行为就越远离left。

综合左图的想法，我们可以得出右图的操作，即想让环境s做行为a^{，不想让s’做行为a}’，那么我们就想要e₁小，e₂大，即L = e₁ - e₂越小越好。

这种想法其实就是supervised learning

而实际上，我们在采取action的时候可以加上动作的倾向，如下图右图所示（左图是上面的例子的结果），右图所示就是当我们看到s1的时候我们倾向于去做A1，看到s3的时候倾向于去做A3，但是做A1的倾向大于做A3的倾向，同理不做AN的倾向也大于不做A2的倾向。

注意：不希望看到si执行Ai不是说什么也不执行，而是可以执行Ai之外的其他动作，当然也可以选择原地不动。

难点就是：如何确定A，以及什么action应该执行，什么不应该执行。

3）actor倾向确定

Version 0

最简单的方式（并不是一个好的版本，只是一个短视的版本，没有考虑到当前的动作对后续的事件也有联系）就是我们随机初始化一些actor来和s进行互动，然后拿产生点reward作为A，如果reward>0那么就倾向于做，反之倾向于不做。

注意：往往需要多个episodes才能得到较为全面的结果

`1.Version 1`

将执行完a之后的所有的reward加起来来评估一个actor的好坏。

但是问题是假设游戏非常长，我们把功劳都归功于a1或者a2或者其他，这是不合理的，例如采取a1之后也许rN得到了比较好的reward，但是这不应该归功于a1（离得太远了）。

`2.Version 2`

即根据距离添加γ，距离越远乘的γ越多，产生的影响越小

`3.Version 3`

如果我们不想让距离近的r产生比较大的影响，那么就是在A上做文章，其实不同的强化学习文章就是在A中做改动

比如说我们考虑也许reward>0但是其实他也是不好的动作。

例如，考试拿了60分，除了自己之外全班都是40分，那么60分就是一个高分。反之除了自己全班都是80分，那么60分就是一个低分。

做法就是在所有的累计的reward之后减去一个b，这个b就是RL中的一个baseline的概念，目的是让r非常大的保持正，让r小的保持负，即让结果有正有负

2.梯度下降策略（Policy Gradient）

先随机初始化参数θ⁰
任意的进行一些actor，得到一堆{si,ai}
用Ai进行评价看这个动作是好的还是不好的
然后计算损失
更新参数

注意：和一般的机器学习模型的执行过程不同的是，RL手机资料进行循环的部分是在下图画圈的部分执行的，也就是如果T=400，那么需要收集资料400次。之后我们更新一次参数，然后就要继续去重新收集资料才能更新下一次参数。

所以RL的过程往往是非常耗时的。

这是由于，在RL中也许前一步的结果是后面某一步的原因，就是说θ^i-1可能是后续的经验，但是并不一定是用来更新参数的内容。

简单来说就是同一个θ^i-1对于θⁱ的actor来说可能是好的也可能是不好的。

所以，我们收集资料的actor和被训练和environment互动的actor最好是同一个，actor更新之后再重新去收集和训练。

1）On-policy v.s. Off-policy

On-policy

On-policy指的是收集资料的actor和训练和environment互动的actor是同一个。

Off-policy

Off-policy指的是收集资料的actor和训练和environment互动的actor不是同一个，采取某些方法使得两者不一致。

Off-policy要求我们的actor知道自己的actor和跟环境互动的actor是有不同的。

经典的Off-policy方法是Proximal Policy Optimization (PPO)

上图是一个直观的例子，例如，美国队长是做示范的和环境互动的actor，告诉我们勇敢告白不会失败，但是我们拿自己的actor去勇敢告白，可能就很壮烈。

2）Exploration

由于对于相同的输入，我们的输出结果会由于和环境互动的随机性导致输出结果不一致，我们可以期望随机性大一点，使得我们能够收集到更多的资料。

而Exploration就是增加随机性的方式，

有的人直接认为加大最终分配actor的可能性，让一些可能性小的actor也被采取到（enlarge output entropy）
有的人在参数上添加噪声，使得收集的结果更加丰富（Add noises onto parameters）

在我们train强化学习的时候如果我们没有添加随机性的话，最终可能不会train出比较好高的结果。

3.评估动作（Actor-Critic）

1）Value function

Value function要做的工作就是未卜先知

当我们遇到一个environment场景s
采取了actor为θ
那么我们需要估算出后续（一直到底）的reward乘以各自的γ之后累加的G’是多少

2）评估V^θ(s)

`1.Monte-Carlo (MC) based approach`

MC观察actor对环境完整的互动之后得到的G‘，目标是当我们看到某个场景s，输入V^θ之后得到的V^θ(s)要与G’越接近越好。即，直接拿训练资料来做Value function

`2.Temporal-difference (TD) approach`

TD不需要我们actor完整的环境，而是只训练一部分的资料就可以来更新参数V^Π(s)。

如果我们观察MC中的V^θ(s_t)与V^θ(s_t+1)之间是有关系的，由于我们没有V^θ(s_t)与V^θ(s_t+1)的标准答案，但是我们可以通过这两个相减，得出要尽可能接近r_t的大小。

`3.MC v.s. TD`

下图是在当前例子下使用MC和TD计算在γ=1的情况下，进行8个episodes之后，V^θ(s_a)以及V^θ(s_b)的值。

对于V^θ(s_b)无可争议的是8个episodes中出现六次，所以平均3/4

而对于V^θ(s_a)如果使用MC就等于0，如果使用TD就等于3/4。

这两个结果都是对的，只是背后的假设不同。

TD中假设的sb的reward与sa没有什么关系，
而用MC他认为sb会由于sa的出现而产生reward=0

`4.Version 3.5`

与之前的version 3类似，在做归一化的时候减去一个b，使得结果有正有负，但是version 3.5使用V^θ(s)来作为b。

由于随机性的原因所以我们看到st的时候不一定会执行At，所以我们会算出多个At，我们最终取平均值就是V^θ(s_t)

如果G’ > V^θ(s_t) 即，At>0，那么我们采取at最终得到的结果是好的，是大于平均值的
如果G’ < V^θ(s_t) 即，At<0，那么我们采取at最终得到的结果是坏的，是小于平均值的

`5.Version 4（Advantage Actor-Critic）`

由于version 3.5最后是用at执行的结果去和平均值做差，也许不合理，所以我们在version 4的时候使用平均值和平均值做差得到最终的At

下图中采取at的V^θ(s_t)可以通过之后st+1，一直执行到最后的V^θ(s_t+1)，再根据V^θ(s_t)和V^θ(s_t+1)的关系式+rt得到Gt‘

如果V^θ(s_t+1)+rt > V^θ(s_t)即，At>0，那么我们采取at得到的结果是好的，是大于平均值的。
如果V^θ(s_t+1)+rt < V^θ(s_t)即，At<0，那么我们采取at得到的结果是坏的，是小于平均值的。

3）Actor-Critic训练技巧

我们在训练前期不管是Actor还是Critic都是Network，所以我们可以共用部分网络架构，而在后续输出的时候再各自定义，比如对一个场景图象进行处理，我们开始都用CNN的架构。

Actor是一个Network，输入是一个环境s，输出是每一个动作的分数
Critic是一个Network，输入是一个环境s，输出是一个数值代表接下来到最后会得到的reward

4）直接用Critic觉得采取哪一个action

著名方法就是** Deep Q Network (DQN)**

下图是一篇论文中使用了七种DQN最后再结合起来的结果。

4.额外定义reward让机器去学习（Reward Shaping）

引入reward shaping的原因是，我们有些实际问题也许除了某几个reward是比较大的值之外，其他都是0，这种情况下机器没有办法去学习。

例如，操作机械臂拧螺丝，除非机械臂真正的拿起螺丝并且拧进去，reward才是一个positive的值，其他时候机械臂都是在空中挥舞，所以reward都是0。

这种情况下我们就需要人为的设定一些额外的reward来引导机器学习。

VizDoom https://openreview.net/forum?id=Hk3mPK5gg¬eId=Hk3mPK5gg，这是RL做游戏的例子。

其中第一名就是使用reward shaping概念来做的。下图中定义了一些加分以及扣分的内容，例如第一行机器玩家只要活着就会不断扣分，就是让机器去强迫一直去战斗。

右图是reward shaping的另一个例子，我们想要让机器人把板子插到棍子上，可以认为规定一个板子到棍子的距离作为reward，但是后两个图机器人只是拿着板子在棍子周围晃，虽然有时reward比较好但是这并不是我们想要的，所以定义reward需要我们对问题非常的熟悉。

1）Reward Shaping - Curiosity*

给机器加上好奇心，也就是当机器遇见**”有意义新“**的情况的时候就加分。

一个马里奥的例子（并没有告诉马里奥什么是通关，而是只让马里奥不断地去探索新东西最终也能通过一些关卡）：Source of video: https://pathak22.github.io/noreward-rl/

“无意义的新”：例如图像的杂讯不断变化，对于机器来说也是新东西，但这就属于无意义的新。

5.没有回报（No Reward: Learning from Demonstration）

由于reward只有在类似游戏这种场景中比较容易定义出来，但是在真实的情况中定义reward是非常困难的，比如无人驾驶。

当我们定义了不合适的reward的时候就会产生比较奇怪的结果，例如《机械公敌》的电影中人类定义机器人不可以伤害人类，但是最终由机器学习得到的行动是把人类监禁起来，因为人类会伤害自己。

1）模仿学习（Imitation Learning）

假设actor仍然可以和环境s进行互动，并且s会给actor返回响应，但是并不会得到reward。

我们的想法就是让人去和环境进行互动，并把互动结果存储下来，作为Expert(专家)的示范。然后让机器凭借着人类的示范以及和环境的互动进行学习。

右图所示的是这种模仿学习存在的一些问题，例如做无人驾驶的时候，机器模仿专家们的开车情况进行转弯，由于专家们没有模拟过快撞墙时怎么办，所以在汽车的学习的数据集中就没有模仿过这种情况。

所以，其实机器并不需要完全复制人类的行为，例如下面的影片：https://www.youtube.com/watch?v=j2FSB3bseek

2）逆强化学习（Inverse Reinforcement Learning）

IRL和原来的RL的过程相反，我们想要从环境和专家的示范中反推reward function应该长什么样。

逆向RL的原则是：老师永远是最好的
基本思想是
- 先定义一个actor（什么都不会）
- actor和environment互动进行学习来获取一些知识
- 定义一个reward function，并且老师和环境进行互动给出的reward要高于actor和环境互动给出的reward
- 不断重复这个过程最后输出结果

IRL整个过程就如下图左图所示，不断重复actor和环境互动，但是保证每次actor和环境互动的reward都要低于expert和环境互动的reward，最终就可以学出来一个reward function。

这个过程其实就类似于一个右图所示的**GAN**的过程

GAN中的generator会产生比较差的图片
discriminator会根据真实的图片给真实图片高分，给generator产生的图片低分
generator就会去update参数，然后想方设法骗过discriminator
而discriminator也会不断的update参数，期望能够更大化真实图片与generator产生图片的差距

人们常用IRL来训练机械手臂

当我们没有用IRL来训练的时候，如这个视频所示：https://www.youtube.com/watch?v=DEGbtjTOIB0，影片想表达的就是如果我们想要通过人类写程式的方式来操控一个机械手臂完成某些功能，往往是很复杂的一件事。

如果使用IRL的技术来示范给机械手臂一个行为，然后让机械手臂去自己做，如这个影片所示：http://rll.berkeley.edu/gcl/

更厉害的就是我们可以给机械手臂一些图片，让机械手臂去做出图片中的行为。这个过程机器自己会自己暗自生成一些图片，最终能够实现图片中的功能。

注意：使用IRL的时候，机器并不是单纯的模仿人类的行为，也许机器解决问题的步骤和人类是不一致的。如果我们想要让机器青出于蓝而胜于蓝的话，我们可以让机器先通过IRL学得一个reward function，然后在这个reward function上添加限制（添加认为的reward）最终实现比人类做的更好。

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
Python桌面应用开发的未来——智能化工具与大模型赋能 IronwoodStag78
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！标题：Python桌面应用开发的未来——智能化工具与大模型赋能随着人工智能技术的飞速发展，传统软件开发模式正在被重新定义。Python作为一门功能强大且灵活的语言，在桌面应用开发领域一直占据重要地位。然而，面对日益复杂的用户需求和快速变化的技术环境，如何提升开发效率、降低开发门槛，成为开发者亟需解决的问题
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj

2021李宏毅机器学习课程-YouTube第十部分、 强化学习Reinforcement Learning - RL

第十部分、 强化学习Reinforcement Learning - RL