王伟王胖胖

李宏毅机器学习系列-强化学习之Q-Learning

李宏毅机器学习系列-强化学习之Q-Learning

评判家(Critic)
怎么衡量$V^\pi(s)$
- 蒙特卡洛法(MC)
- 时序差分算法(TD)
- MC和TD对比
另一种评判$Q^\pi(s,a)$
Q-Learning
- 目标网络的训练
- 探索
- 缓存(Replay Buffer)
- 算法
总结

评判家(Critic)

评判家基于价值的一种学习方式，我们前面说的是基于策略的。
评判家在评判什么呢，他不想策略决定我们要用什么action，而是去评价某一个actor $\pi$ 有多好。
他有一个状态价值函数 $V^\pi(s)$ ，就是评价在给定一个actor $\pi$ 时，看到某个s状态后，一直玩到游戏结束，累计奖励的期望是多少，其实就是输入一个s，输出一个数值：

举个例子，比如下面的，第一个状态下的V是比较高的，因为他还有好多外星人没打，第二个就稍微小一点了，防护罩也没了，怪也近了：

其实V这个函数是衡量某一个actor的好坏，因为你想上面的第一张图，同样这个状态，如果是一个好的actor可能可以全部收割，那分数就高了，但是如果是个不好的，都不会移动，不会专门打，那就惨了，所以V跟actor是有关的。

比如棋魂里的例子，以前的啊光用大马步飞是不太好的，因为以前没什么经验，也就对应的actor不怎么样，会影响后面的奖励，但是现在的阿光变强了，用大马步飞可能就比较合适，不同的actor在不同的状态，会影响后面的累计奖励的期望。比如说当你还是小孩的时候，别想着要开车，开车会很惨的，当你18岁成年了，那你可以开车了，开的稳稳的：

怎么衡量 $V^\pi(s)$

蒙特卡洛法(MC)

这个方法就可以看成一个回归问题，从某个 $s_a$ 时候到游戏最后的累计奖励为 $G_a$ ,从某个 $s_b$ 时候到游戏最后的累计奖励为 $G_b$ ,我们希望模型输出的V跟他们越接近越好。但是这个方法就是要把游戏给玩完，有些游戏很长，就尴尬了：

时序差分算法(TD)

因为蒙特卡洛法要把游戏玩完才算，这样很耗时，收集样本就比较困难，那么看看时序差分算法，他不需要把游戏玩完，只需要在某个 $s_t$ 下，采取 $a_t$ ，获得 $r_t$ ，转到 $s_{t+1}$ 即可。我们可以得到前一个的估计V是后一个的估计V+上前一个的奖励，即 $V^\pi(s_t)=V^\pi(s_{t+1})+r_t$ ，然后我们实际做的就是让模型输出前后两个V，求他们的差，让差和前一个状态的奖励越接近越好，貌似也是一个回归问题：

MC和TD对比

我们知道MC是要把游戏玩完为止的，因为游戏一般都具有随机性，每一步的奖励都可能是随机的，所以最后的累计奖励可能是不一样的，所以会导致比较大的方差。而TD只是某一个状态的奖励，方差相对较小，但是 $V^\pi(s_{t+1})$ 可能会不准确，那样就会有影响：

举个例子，比如下面的8次游戏：

我们可以算 $V^\pi(s_{b})=3/4$ 这个没有问题但是 $V^\pi(s_{a})$ 呢，用MC方法算起来就是0，因为最后得到的奖励是0，如果用TD的话，应该是 $V^\pi(s_{a})=V^\pi(s_{b})+3/4+0=3/4$ ，所以用不同的方法来计算是不同的，也就是说不同的方法可能有不同的假设，比如MC可能就是假设 $s_b$ 受到了 $s_a$ 的影响，使得奖励是0了，但是 $s_b$ 的期望是3/4，可能刚好是运气不好巧合了，这个时候用TD来算 $V^\pi(s_{a})=3/4$ 。

另一种评判 $Q^\pi(s,a)$

再来看看另外一种评判价值函数 $Q^\pi(s,a)$ ，他的假设即是在s状态下，用actor $\pi$ ，强制采取行为a之后的累计奖励的期望值：

这个通常有两种形式，其实就对应的行为是连续的还是离散的，比如左边的就是连续的行为，输出就是一个值，右边的是离散的，输出的是对应行为得值：

然后我们看下估计Q函数的例子，玩乒乓球，有三个动作，不动，向上，向下。可以看到第一个图，球离绿色条还远的时候，其实采取哪个都可以，价值都差不多，但是第二个图，球已经在上面了，采取向上才能碰到球，估计值是最正的，其他都是负的，第三张图也是一样，第四章球已经远离了，采取哪个都一样：

Q-Learning

我们看看Q-Learning是怎么做的，首先可以找一个actor $\pi$ ，然后和环境做互动，收集一些数据，然后用TD或者MC的方法去训练一个 $Q^\pi(s,a)$ ，之后就可以找到一个新的actor $\pi'$ ，要比 $\pi$ 好，然后用他来替代 $\pi$ ，然后继续跟环境互动，这样循环。至于什么叫好后面会说，为什么找到的肯定比 $\pi$ 好后面也会证明：

那我们现在来讨论下，actor $\pi'$ 更好是怎么衡量的。我们所说的更好，其实是在所有的状态s下， $\pi'$ 的累计奖励的期望值不比 $\pi'$ 小，也就是下面这个式子。我们知道Q的a是假设强制选的，但是更最大的可能不是同一个a，另外我们要求的是max，如果是连续的a的话可能不太好求，离散的简单了，带进去看哪个大就可以。其实没有另外一个模型 $\pi'$ ，这个是根据Q求出来的：

接下来就是要证明在所有的状态s下，$V^{\pi’}(s) >=V^{\pi}(s) $，下面是证明的步骤，我希望还是听听老师讲的，用文字比较难讲，我就说下思路，思路就是把Q写成期望的形式，转换出V，然后继续用V的不等式缩放，最后会发现所要证明的：

目标网络的训练

你真正在做的时候其实就是是训练两个网络，一个是作为目标的，你希望训练的估计值和目标的估计值越接近越好，也就是一个回归问题，通常我们会固定住目标网络，然后训练很多次，然后把训练好的参数复制给目标网络，然后继续训练，损失函数可以是均差：

探索

探索的问题，也就是说，你每次都会去使得Q值最大的行为，就不会去探索其他新的行为，这样就好比你去餐馆吃饭，你点了一个菜，觉得好吃，以后可能都只会点这一个菜，或许其他的菜会更好吃。所以为了解决这个问题，有两种方法，一种是设一个值，用来随机选取a，这个值会随着训练而减小，因为训练了多了，你可能尝试了很多a，你会知道到底哪个a可以使得Q最大。另外一种方法叫做玻尔兹曼探索，把采取的行为a变成一种概率，就算可以使得Q大的a也只概率大，其他的a也是有可能被采取到的：

缓存(Replay Buffer)

这个就是用一个缓存区，把很多的actor $\pi$ 采样的信息都放进去，里面的信息是来自不同的 $\pi$ 的，然后满了会把老的清楚掉：

那么在每次迭代，我们都会取一个批次，然后更新，其实就是off-policy，但是这样有没想过每一批数据里面不一定都是 $\pi$ 的，而我们要学习的是 $Q^\pi$ ，这样会不会有问题，一种解释是说，我们想要我们的数据越不一样越好，另外一种说是因为是off-policy，可以不是同一个 $\pi$ ：

算法

最后看下算法,其实就是前面说的总结，先初始化两个网络Q和 $\hat Q$ ，一个是训练网络，一个是目标网络，参数可以一样，然后每个轮次迭代多次，每次迭代用贪心算法找出一些 $s^t,a^t,r^t,s_{t+1})$ ，放入缓存，然后从缓存里取出一批数据，然后设定目标，目标就是奖励和下一个状态最大的 $\hat Q$ 值的和，对应一个a，然后把这个a和对应的s输入Q网络中，使得Q值和y越接近越好，经过多次迭代后，把Q的参数复制给 $\hat Q$ ：

总结

本篇主要介绍强化学习的Q-learning算法，介绍了蒙特卡罗，时序差分等方法，和一些相关的技巧和要注意的地方，虽然比较复杂，但是多看几遍还是可以理解的。

好了，今天就到这里了，希望对学习理解有帮助，大神看见勿喷，仅为自己的学习理解，能力有限，请多包涵，图片来自李宏毅课件，侵删。

你可能感兴趣的:(李宏毅机器学习,强化学习,深度学习,强化学习之Q-Learning,Q-Learning,深度学习,强化学习)

Git分布式版本控制系统之SSH协议访问饶子文 git 分布式
目录前言：我来公司上班day1正文：Git的SSH协议访问步骤一.安装Git软件二.SSH密钥生成三.添加SSH公钥到远端仓库四.配置Git使用SSH协议来连接远程仓库五.使用Git命令进行测试结尾：前言：我来公司上班day1回顾我的毕业季，那是一段充斥着投递简历和准备面试的青葱岁月。都说23年学计算机，如同49年入国军。但已经投入过多的沉没成本的在计算机上的我也别无选择，在历经浪潮般的简历投递和
Vue3初学之商品的增，删，改功能 fmdpenny Web前后端技术 javascript vue.js 开发语言
用一个商品的后台管理进行增，删，改的实现。案例进行学习：新增商品编辑删除取消确定import{ref}from'vue';import{ElMessageBox}from'element-plus';constgoodsList=ref([{id:1,name:'商品1',price:100,stock:50},{id:2,name:'商品2',price:200,stock:30}]);cons
“上海慧眼”超高层建筑的稳定之魂 doubt。知识图谱
“摩羯”“普拉桑”“苏力”不断来袭，作为我国最高的大楼，高达632米的上海中心大厦，是如何做到稳固不倒的？“上海慧眼”阻尼器发挥着至关重要的作用，"慧眼"本质上是一种摆式电涡流调谐质量阻尼器。其核心是一个大质量物体，惯性是这个物体作用的的关键。这个物体由配重物和吊索构成，类似巨型复摆。重达1000吨，距离地面583米，其单边摆幅的极限为2米，在正常情况下，阻尼器的摆动幅度非常小，但在强风等极端条件
【Java用法】Java设计模式之（三）原型模式（Prototype Pattern） No8g攻城狮 Java设计模式设计模式 java 后端
目录一、原型模式简介1.1、原型模式简介1.2、原型模式角色1.3、原型模式优缺点1.4、原型模式使用场景1.5、浅拷贝与深拷贝二、原型模式实现2.1代码客户端2.2浅拷贝代码2.3深拷贝代码三、原码分析一、原型模式简介1.1、原型模式简介原型模式使用原型实例指定创建对象的种类，并且通过拷贝原型对象创建新的对象。Prototype模式提供了一个通过已存在对象进行新对象创建的接口（clone），cl
spring boot源码解析之SpringApplication启动流程 crayon-shin-chan #spring-boot surprise spring java spring boot linux python
1.启动入口我们一般的启动SpringBoot应用方式为：@SpringBootApplicationpublicclassMyApplication{publicstaticvoidmain(String[]args){SpringApplication.run(MyApplication.class,args);}}这里使用静态方法启动，传入参数为启动类、命令行参数实际此处使用的是以下方法：p
【AI论文】PaSa：一款用于全面学术论文搜索的大型语言模型（LLM）代理东临碣石82 人工智能语言模型自然语言处理
摘要：我们推出了PaSa，这是一款由大型语言模型驱动的高级论文搜索代理。PaSa能够自主做出一系列决策，包括调用搜索工具、阅读论文以及选择相关参考文献，从而最终为复杂的学术查询提供全面且准确的结果。我们使用强化学习方法和一个合成数据集AutoScholarQuery对PaSa进行了优化，该数据集包含3.5万个细粒度的学术查询以及来自顶级人工智能会议出版物的相应论文。此外，我们还开发了RealSch
在 PyTorch 训练中使用 `tqdm` 显示进度条 weixin_48705841 pytorch 人工智能 python
在PyTorch训练中使用tqdm显示进度条在深度学习的训练过程中，实时查看训练进度是非常重要的，它可以帮助我们更好地理解训练的效率，并及时调整模型或优化参数。使用tqdm库来为训练过程添加进度条是一个非常有效的方式，本文将介绍如何在PyTorch中结合tqdm来动态显示训练进度。1.安装tqdm库首先，如果你还没有安装tqdm，可以通过pip命令进行安装：pipinstalltqdmtqdm是一
【在 PyTorch 中使用 tqdm 显示训练进度条，并解决常见错误TypeError: ‘module‘ object is not callable】 weixin_48705841 人工智能
在PyTorch中使用tqdm显示训练进度条，并解决常见错误TypeError:'module'objectisnotcallable在进行深度学习模型训练时，尤其是在处理大规模数据时，实时了解训练过程中的进展是非常重要的。为了实现这一点，我们可以使用tqdm库，它可以非常方便地为你提供进度条显示。1.什么是tqdm？TQDM是一个快速、可扩展的Python进度条库。它可以用来显示迭代的进度，帮助
hvie SQL优化之where子句过滤模式三生暮雨渡瀟瀟 hive调优 hive
本篇文章来源于《Hive性能调优实现》。在HiveSQL里面经常用到的过滤方法就是使用where子句，例如：explainselect*fromstudent_tb_seqwheres_age=19ands_namelike'%红%'ands_scorein(100,50,22);where子句在执行计划中以filter操作表示，代码如下：STAGEPLANS:Stage:Stage-1MapRe
深度学习模型开发文档 Ares代码行者深度学习
深度学习模型开发文档1.简介2.深度学习模型开发流程3.数据准备3.1数据加载3.2数据可视化4.构建卷积神经网络(CNN)5.模型训练5.1定义损失函数和优化器5.2训练过程6.模型评估与优化6.1模型评估6.2超参数调优7.模型部署8.总结参考资料1.简介深度学习是人工智能的一个分支，利用多层神经网络从数据中提取特征并进行学习。它被广泛应用于图像识别、自然语言处理、语音识别等领域。本文将以构建
RocketMQ源码之消息刷盘分析小虾米 ~ RocketMQ rocketmq
前言刷盘是将内存中的消息写入磁盘，分为同步刷盘和异步刷盘。同步刷盘指一条消息写入磁盘才返回成功，异步刷盘指写入内存就返回成功，稍后异步线程刷盘。在创建CommitLog对象的时候，会初始化刷盘服务：//代码位置：org.apache.rocketmq.store.CommitLogpublicCommitLog(finalDefaultMessageStoredefaultMessageStore
无人设备遥控器之指令加密篇 SKYDROID云卓小助手人工智能网络计算机视觉目标检测嵌入式硬件
一、加密背景与必要性随着无人机技术的飞速发展，无人机在军事、民用等领域的应用日益广泛。然而，无人机遥控指令的传输过程中存在着被截获、分析、伪造和篡改的风险，这对无人机的安全飞行构成了严重威胁。因此，对遥控指令进行加密处理，以提高其安全性和可靠性，显得尤为重要。二、加密方法与技术序列密码加密：采用一次一密的序列密码加密方案，确保每次传输的遥控指令都是唯一的，从而大大增加了截获者破解的难度。结合加解密
深度学习环境配置指南！（Windows、Mac、Ubuntu全讲解） Charmve #AI学习指导：从入门到进阶软件安装环境配置计算机视觉实战文档详细开放源码 cuda linux gpu anaconda ubuntu
关注“迈微AI研习社”，内容首发于公众号作者：伍天舟、马曾欧、陈信达入门深度学习，很多人经历了从入门到放弃的心酸历程，且千军万马倒在了入门第一道关卡：环境配置问题。俗话说，环境配不对，学习两行泪。如果你正在面临配置环境的痛苦，不管你是Windows用户、Ubuntu用户还是苹果死忠粉，这篇文章都是为你量身定制的。接下来就依次讲下Windows、Mac和Ubuntu的深度学习环境配置问题。一、Win
LeetCode100之搜索旋转排序数组(33)--Java xiao--xin Leetcode 算法 leetcode 数据结构 java 二分查找
1.问题描述整数数组nums按升序排列，数组中的值互不相同。在传递给函数之前，nums在预先未知的某个下标k（0nums[nums.length-1]&&targetnums[nums.length-1]){left=mid+1;continue;}......}如果我们已经完全在我们确定的二分查找范围之内了，就按照正常的二分判断进行查找即可。while(leftnums[nums.length-
MarsCode算法题之简单四则运算解析器 xiao--xin 豆包MarsCode算法题 java 开发语言 MarsCode 算法数据结构
1.问题描述小F面临一个编程挑战：实现一个基本的计算器来计算简单的字符串表达式的值。该字符串表达式有效，并可能包含数字（0-9）、运算符+、-及括号()。注意，字符串中不包含空格。除法运算应只保留整数结果。请实现一个解析器计算这些表达式的值，且不使用任何内置的eval函数。示例1输入：expression="1+1"输出：2示例2输入：expression="3+4*5/(3+2)"输出：7示例3
LeetCode100之找到字符串中所有字母异位词(438)--Java xiao--xin Leetcode java 算法数据结构 hash leetcode
1.问题描述给定两个字符串s和p，找到s中所有p的异位词的子串，返回这些子串的起始索引。不考虑答案输出的顺序。示例1输入:s="cbaebabacd",p="abc"输出:[0,6]解释:起始索引等于0的子串是"cba",它是"abc"的异位词。起始索引等于6的子串是"bac",它是"abc"的异位词。示例2输入:s="abab",p="ab"输出:[0,1,2]解释:起始索引等于0的子串是"ab
联邦学习中客户端发送的梯度是vector而不是tensor wzx_Eleven 联邦学习机器学习网络安全人工智能
在联邦学习中，当本地使用神经网络或深度学习模型时，训练的梯度通常是与模型参数（权重和偏置）相对应的梯度数据。具体来说，梯度的类型和形状取决于模型的结构（例如，卷积神经网络、全连接网络等），以及模型的层数、每层的神经元数量等因素。1.梯度类型：梯度是一个张量：在神经网络中，梯度通常是一个张量（tensor），每一层的梯度张量的形状和该层的权重形状相匹配。具体来说，梯度是损失函数对每个参数的偏导数，表
数据管理之数据存储剑客狼心数据库管理员数据库数据挖掘
一、数据存储如何操作1.1数据存储与操作的目标：1）在整个数据生命周期中管理数据的可用性：说白了就是数据保存了，别人需要用的时候能找到。2）确保数据资产的完整性：录入的数据不能乱，比如年龄录成负数这种错误。数据被修改时必须有规则，不能随便乱改。3）管理数据交易事务的性能：意思是当系统对数据进行操作（比如存、取、改、删）时，要保证这些操作能快速完成，不卡顿、不失败。简单总结：第一条是保证数据“随时能
编写五子棋的完整python代码_Python 大作业之五子棋游戏(附代码) weixin_39656513
Python大作业——五子棋游戏姓名：吴欣学号：姓名：张雨清学号：一游戏介绍：我们设计的是五子棋游戏，支持两人一个鼠标对下，黑方用左键单击，白方用右键单击，谁先下均可，落子无悔，下过的棋子对方点击后不会变色，程序可自行判断输赢并在五子连珠时弹出结果对话框，游戏双方需遵守不在空地点击和一次下一子的规则。二游戏代码设计：代码均为原创，没有借鉴和抄袭，首先是用户GUI界面设计，点击start进入游戏界面
从System Prompt来看GPT-3.5到GPT-4的进化 herosunly 大模型 system prompt gpt-3 chatgpt gpt4 gpt4o
大家好，我是herosunly。985院校硕士毕业，现担任算法t研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了从SystemPrompt来看GPT-3.5到GPT-4的进化之路，希
R语言机器学习算法实战系列（十九）特征选择之Monte Carlo算法（Monte Carlo Feature Selection）生信学习者1 R语言机器学习实战 r语言机器学习算法数据分析数据挖掘数据可视化人工智能
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍原理步骤下载数据加载R包导入数据数据预处理数据分割MCFS运行MCFS-ID过程混淆矩阵重要特征的RI最小阈值距离与共同部分收敛特征重要性排序选择重要特征构建特征依赖图提取重要特征基于重要特征构建随机森林模型混淆矩阵评估模型AUC曲线刻画模型在训练和测试数据集的表现总结系统信息介绍特征选择（FeatureSel
IT行业中的SSE、SE、BSE、PE、PL各自是什么意思？ GSDjisidi 1024程序员节大数据职场和发展 c语言 php java
在IT行业中，SSE、SE、BSE、PE、PL各自具有特定的含义，它们通常代表不同的职位或角色。以下是对这些缩写的详细解释：SSE（SeniorSoftwareEngineer）：含义：高级软件工程师。职责：根据开发进度和任务分配，完成相应模块软件的设计、开发、编程任务；进行程序单元、功能的测试，查出软件存在的缺陷并保证其质量；进行编制项目文档和质量记录的工作；维护软件使之保持可用性和稳定性。SE
一篇文章让你学会Java之格式化输出凭君语未可 Java java 开发语言
这里写目录标题一、格式化输出方法1.使用`String.format()`方法语法：示例：2.使用`System.out.printf()`方法语法：示例：3.使用`Formatter`类示例：代码分析：二、常见的格式说明符：1.整数类型格式化说明符2.浮点类型格式化说明符3.字符串格式化说明符4.日期和时间格式化说明符5.百分号格式化说明符6.其他格式化控制符三、常用的格式化选项：1.宽度（Wi
TiDB系列之：TiDB数据库账号权限，创建TiDB账号，创建数据库，创建表，插入数据快乐骑行^_^ 数据库 TiDB系列 TiDB数据库账号权限创建TiDB账号创建数据库创建表插入数据
TiDB系列之：TiDB数据库账号权限，创建TiDB账号，创建数据库，创建表，插入数据一、TiDB账号权限二、创建TiDB账号三、创建数据库，创建表，插入数据一、TiDB账号权限TiDB账号权限可以分为系统级权限和对象级权限两种，具体如下：系统级权限：ALLPRIVILEGES：拥有所有权限。CREATEUSER：创建用户。DROPUSER：删除用户。RELOAD：重新加载系统配置。SUPER：超
Redis学习笔记之Redis数据结构与内部编码、单线程架构 dog~south~south 学习笔记 redis 缓存
一、Redis数据结构与内部编码1、Redis数据结构有哪些？StringHashlistsetzset等等2、数据结构与内部编码的关系数据结构是用户能接触的接口内部编码是数据结构的内部实现每种数据结构都有两种及以上的内部编码多种内部编码实现可以在不同的场景下发挥各自的优势二、Redis的单线程架构redis是单线程来处理命令的一条命令从客户端到服务端不会立刻被执行，所有命令都会进入一个队列中，然
python之enumerate函数 Yong_zhi python学习 python
文章目录一、enumerate函数介绍：二、语法三、我个人的一些学习尝试用python实现与enumerate函数同等功能一、enumerate函数介绍：在Python中，enumerate函数是一个用于将一个可迭代对象转换成一个enumerate对象的函数，同时也在循环中同时迭代元素和索引值。二、语法enumerate(iterable,start=0)参数说明iterable:必选参数，表示可
内附源码｜头部基模企业信赖之选——DMS+Lindorm智能搜索方案数据库阿里云data+ai
本文为数据库「拥抱Data+AI」系列连载第6篇，该系列是阿里云瑶池数据库面向各行业Data+AI应用场景，基于真实客户案例&最佳实践，展示Data+AI行业解决方案的连载文章。本篇针对企业构建智能搜索服务的痛点，介绍如何利用阿里云Data+AI解决方案构建一站式AI搜索服务，深入分析了DMS+Lindorm的智能搜索解决方案。1、智能搜索成为信息消费的趋势近两年，AI大模型的迅速崛起为搜索产品注
MySQL-事务隔离级别与MVCC 事务快照视图mysqlmvcc
大家好，我是半夏之沫一名金融科技领域的JAVA系统研发我希望将自己工作和学习中的经验以最朴实，最严谨的方式分享给大家，共同进步写作不易，期待大家的关注和点赞关注微信公众号【技术探界】前言本篇文章首先会对数据库事务的几个基础概念进行说明，主要是事务ACID模型，并发事务带来的问题和事务隔离级别。然后在此基础上，会对MySQL的InnoDB引擎中的一致性非锁定读取（ConsistentNonlocki
AI人工智能深度学习算法：高并发场景下深度学习代理的性能调优 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1深度学习代理的兴起近年来，随着人工智能技术的飞速发展，深度学习在各个领域都取得了显著的成果。特别是在自然语言处理、图像识别、语音识别等领域，深度学习模型的性能已经超越了传统方法。为了更好地将深度学习技术应用于实际场景，深度学习代理应运而生。深度学习代理是一种将深度学习模型封装起来，并提供对外接口的服务。它可以接收来自客户端的请求，将请求数据输入到深度学习模型中进行推理，并将推理结
scrapy学习之爬虫练习平台爬取 LLLibra146 爬虫 python
本文章首发于个人博客，链接为：https://blog.d77.xyz/archives/35dbd7c9.html前言为了练习Scrapy，找了一个爬虫练习平台，网址为：https://scrape.center/，目前爬取了前十个比较简单的网站，在此感谢平台作者提供的练习平台。环境搭建开始爬取前，首先要先把环境搭建起来，Pycharm新建项目learnscrapy和对应的虚拟环境，安装好Scr
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他