@RichardWang

离线强化学习(Offline RL)系列3: (算法篇) IQL(Implicit Q-learning)算法详解与实现

[更新记录]

论文信息：Ilya Kostrikov, Ashvin Nair, Sergey Levine: “Offline Reinforcement Learning with Implicit Q-Learning”, 2021; arXiv:2110.06169.

本篇论文由伯克利Sergey Levine团队的Ilya Kostrikov以第一作者提出，发表在ICLR2022顶会上,并被确定为Poster，接收意见是：“This paper proposes a new paradigm — called in-sample Q learning — to tackle offline reinforcement learning. Based on the novel idea of using expectile regression, the proposed algorithm enjoys stable performance by focusing on in-sample actions and avoiding querying the values of unseen actions. The empirical performance of the proposed algorithm is appealing, outperforming existing baselines on several tasks. The paper is also well written.”

摘要：目前基于策略约束和正则化的离线强化学习算法非常广泛，它们直接正面去解决OOD之外的动作分布，使得Learned policy能够很好的逼近行为策略，本文提出的 IQL(Implicit Q-learning) 直接没有去学习OOD之外的动作，而是用已知的state-action进行学习，通过使用SARSA style的方式重构策略和值函数（引入Expectile Regression） $L$ ，在策略的抽取方面采用了AWR(Advantage Weighted Regression)方式抽取，直接确定 $Q$ 值如何随着不同的动作而变化，并借助随机动态对未来结果进行平均，而不是确定 $Q$ 值如何随着不同的未来结果而变化.结果表明，该算法可以达到SOTA的效果。

文章目录

1. 问题及背景简介
- 1.1 Multi-step DP
- 1.2 Single-step DP
- 1.3 Offline RL 优化目标
- 1.4 期望回归(Expectile Regression)
2. IQL原理部分
- 2.1 值函数构造(Expectile Regression构造)
- 2.2 策略函数构造(Policy Extraction by AWR)
- 2.3 伪代码
3. 实验结果分析
4. 代码实现
5. 关于OpenReview审稿意见
6. 项目部署过程
参考文献
OfflineRL推荐阅读

1. 问题及背景简介

在前几篇博文[BCQ、BEAR、BRAC、TD3+BC、CQL、REM]中，这些方法都面临了OOD问题，为了解决这些问题，作者们都从station-action的轨迹优化着手，通过使用函数近似，行为克隆、支撑集、随机Q值函数等方面不断让学习策略（learned policy）和行为策略（behavior policy）距离变小或者处在一个范围内，不管从Policy Constraint还是regulization方面都达到了不错的效果。

于是，本文的作者就发出疑问：

这也是本篇论文要解决的一个核心问题。在开始前我们先说两个概念 Multi-step DP和 Single-step DP，以及前序工作。

1.1 Multi-step DP

最近提出的离线 RL 方法的很大一部分是基于约束或正则化的近似动态规划（例如，Q-learning 或 actor-critic 方法），constraint或regulizaion用于限制与行为策略的偏差。我们将这些方法称为“多步动态规划(Multi-step DP)”算法，因为它们对多次迭代执行真正的动态规划，因此如果提供高覆盖率数据，原则上可以恢复最优策略。通常情况下Multi-step DP问题也可以分为：

显式密度模型(explicit density model)：BRAC，BCQ，BEAR等
隐式差异约束（implicit divergence constraints）：AWAC，CRR，AWR等

1.2 Single-step DP

与Multi-step DP相比，有一种方法依赖于单步策略迭代的方法，即对行为策略的价值函数或 $Q$ 函数进行拟合，然后提取相应的贪心策略，或者完全避免价值函数并利用行为克隆目标。我们将这些统称为“单步（Single-step DP）”方法。这些方法也避免了query看不见的station-action，因为它们要么根本不使用价值函数，要么学习行为策略的价值函数。

下图是一个关于one-step和multi-step的对比：

1.3 Offline RL 优化目标

我们知道对于离线强化学习来说，优化的TD目标为：

$L_{T D}(\theta)=\mathbb{E}_{\left(s, a, s^{\prime}\right) \sim \mathcal{D}}\left[\left(r(s, a)+\gamma \max _{a^{\prime}} Q_{\hat{\theta}}\left(s^{\prime}, a^{\prime}\right)-Q_{\theta}(s, a)\right)^{2}\right]$

其中公式中的 $Q_{\hat{\theta}}(\cdot)$ 表示target network的值函数，且 $\pi(s)= \arg \max_{a} Q_{\theta}(s,a)$ ，那么就可以发现对于处于OOD之外的动作对 $a^{'}$ ，就会计算得到一个错误的 $Q_{\hat{\theta}}(s^{'},a^{'})$ , 从而通过 $\max$ 导致了Overestimate, 且这个误差会不断地增大而导致learned策略变废。

于是作者就根据 SARSA style重新构造了一个损失函数：
$L(\theta)=\mathbb{E}_{\left(s, a, s^{\prime}, a^{\prime}\right) \sim \mathcal{D}}\left[\left(r(s, a)+\gamma Q_{\hat{\theta}}\left(s^{\prime}, a^{\prime}\right)-Q_{\theta}(s, a)\right)^{2}\right]$

对两个公式进行对比发现少了 $\max$ 操作，也就是说这里不在query 处于OOD之外的动作，只对分布内的数据学习（处于fixed Dataset $D$ ）。

那么如果假设 $D$ 的容量无限，且没有采样误差，则应满足最优参数（贝尔曼最优方程）

于是作者为了估计在支持数据分布动作上（support of the data distribution）的最大 $Q$ 值, 在不查询学习到的 $Q$ 函数的情况下通过使用期望回归(Expectile Regression)，目标定义如下：

说到这里，作者只是解释如何处理OOD之外的数据，那么实际的策略、值函数等更新过程到底是啥样的？

1.4 期望回归(Expectile Regression)

【可跳过】(但建议看一看)

下面是一张关于Expectile Regression和Quantiles Regression之间的区别。

在论文中的定义如下（和图中的基本没差别）：
$\underset{m_{\tau}}{\arg \min } \mathbb{E}_{x \sim X}\left[L_{2}^{\tau}\left(x-m_{\tau}\right)\right]$

$L_{2}^{\tau}(u)=|\tau-\mathbb{1}(u<0)| u^{2}$
作者的目标是去预测条件期望回归，即找到最小函数下的 $m_{\tau}(x)$

$\underset{m_{\tau}(x)}{\arg \min } \mathbb{E}_{(x, y) \sim \mathcal{D}}\left[L_{2}^{\tau}\left(y-m_{\tau}(x)\right)\right]$

通过实验，作者得出了不同的 $\tau$ 对应的函数，并在二维分布上实验得到图(right)

这里我在看文章时纳闷，为什么这个所谓的 Expectile Regression 要比直接的MSE以及quantiles好用，后来看了审稿意见，审稿人也提出了对应疑问

下面是作者给出的回复：总之就是我使用不同的 $\tau$ 效果就是好，有点Incremental的感觉。

具体的关于相关的分析如下：

2. IQL原理部分

作者在文章产生了IQL与普通算法的最大的区别在于这里：

译：我们的目标不是估计随机转换（stochastic transitions）产生的值的分布，而是估计状态值函数相对于随机动作的期望值。这是一个非常不同的统计数据：我们的目标不是确定 $Q$ 值如何随着不同的未来结果而变化，而是确定 $Q$ 值如何随着不同的动作而变化，同时随机动态（stochastic dynamics.）的对未来结果进行平均。

2.1 值函数构造(Expectile Regression构造)

下面是作者根据1.4中将的Expectile Regression构造Loss函数
$L(\theta)=\mathbb{E}_{\left(s, a, s^{\prime}, a^{\prime}\right) \sim \mathcal{D}}\left[L_{2}^{\tau}\left(r(s, a)+\gamma Q_{\hat{\theta}}\left(s^{\prime}, a^{\prime}\right)-Q_{\theta}(s, a)\right)\right]$

其中的 $L_{2}^{\tau}$ 表示为Expectile Regression函数，作者在不同的 $\tau$ 下进行对比实验，最终得出当 $\tau=0.9$ 时效果最佳，相比如MSE性能提升3倍多。

另外作者对值函数和状态值函数分别分开的进行了构造，其中separate value function和 Q-function 的计算过程如下：

$L_{V}(\psi)=\mathbb{E}_{(s, a) \sim \mathcal{D}}\left[L_{2}^{\tau}\left(Q_{\hat{\theta}}(s, a)-V_{\psi}(s)\right)\right]$

$L_{Q}(\theta)=\mathbb{E}_{\left(s, a, s^{\prime}\right) \sim \mathcal{D}}\left[\left(r(s, a)+\gamma V_{\psi}\left(s^{\prime}\right)-Q_{\theta}(s, a)\right)^{2}\right]$

备注：这里作者说一个大的target value不能代表一个好的action，

于是提出单独的网络来表示值函数，且该网络只近似于（函数逼近）对动作分布的期望（这里作者参考了Behavioral Modelling Priors for Offline Reinforcement Learning）中的 $V$ 的定义 $\text { with } \hat{V}^{\pi_{i}}(s)=\mathbb{E}_{a \sim \pi_{i}(\cdot \mid s)}\left[\hat{Q}\left(s, a ; \phi_{i-1}\right)\right]$

2.2 策略函数构造(Policy Extraction by AWR)

构造了值函数候，下一步就是构造策略函数，作者在这里提出了使用AWR中的策略抽取（policy extraction）的方法,数学表达如下：

$L_{\pi}(\phi)=\mathbb{E}_{(s, a) \sim \mathcal{D}}\left[\exp \left(\beta\left(Q_{\hat{\theta}}(s, a)-V_{\psi}(s)\right)\right) \log \pi_{\phi}(a \mid s)\right]$

这里我找到了AWR的抽取方法，具体的伪代码如下：

从伪代码可以看出，作者构造的 $L_{\pi}(\phi)$ 和AWR基本相似，接下来就是算法的执行过程。

2.3 伪代码

下图是本文的核心代码，

作者表明：可以简单地通过修改 SARSA style的 TD backup 损失函数来做到这一点，而无需在目标值 $Q$ 中使用样本外(OOD)操作。 一旦这个 $Q$ 函数收敛，就可以使用优势加权行为克隆提取相应的策略。 ,另外作者在文中强调：

3. 实验结果分析

4. 代码实现

在代码实现部分，作者使用了JAX实现ikostrikov implicit_q_learning，这个比较独特。

当然作者也比较贴心，提供了基于RLkit的pytorch实现版本： Github: pytorch based RLkit

"""
        QF Loss
        """
        q1_pred = self.qf1(obs, actions)
        q2_pred = self.qf2(obs, actions)
        target_vf_pred = self.vf(next_obs).detach()

        q_target = self.reward_scale * rewards + (1. - terminals) * self.discount * target_vf_pred
        q_target = q_target.detach()
        qf1_loss = self.qf_criterion(q1_pred, q_target)
        qf2_loss = self.qf_criterion(q2_pred, q_target)

        """
        VF Loss
        """
        q_pred = torch.min(
            self.target_qf1(obs, actions),
            self.target_qf2(obs, actions),
        ).detach()
        vf_pred = self.vf(obs)
        vf_err = vf_pred - q_pred
        vf_sign = (vf_err > 0).float()
        vf_weight = (1 - vf_sign) * self.quantile + vf_sign * (1 - self.quantile)
        vf_loss = (vf_weight * (vf_err ** 2)).mean()

        """
        Policy Loss
        """
        policy_logpp = dist.log_prob(actions)

        adv = q_pred - vf_pred
        exp_adv = torch.exp(adv / self.beta)
        if self.clip_score is not None:
            exp_adv = torch.clamp(exp_adv, max=self.clip_score)

        weights = exp_adv[:, 0].detach()
        policy_loss = (-policy_logpp * weights).mean()

        """
        Update networks
        """
        if self._n_train_steps_total % self.q_update_period == 0:
            self.qf1_optimizer.zero_grad()
            qf1_loss.backward()
            self.qf1_optimizer.step()

            self.qf2_optimizer.zero_grad()
            qf2_loss.backward()
            self.qf2_optimizer.step()

            self.vf_optimizer.zero_grad()
            vf_loss.backward()
            self.vf_optimizer.step()

        if self._n_train_steps_total % self.policy_update_period == 0:
            self.policy_optimizer.zero_grad()
            policy_loss.backward()
            self.policy_optimizer.step()

5. 关于OpenReview审稿意见

本篇论文的审稿意见非常的充实，通过作者和审稿人的讨论，最后审稿人给论文做了分数修改，同时作者也做了很多的修改与补充

查看全部意见与Rebuttal： https://openreview.net/forum?id=68n2s9ZJWF8

6. 项目部署过程

参考文献

[1]. Ilya Kostrikov, Ashvin Nair, Sergey Levine: “Offline Reinforcement Learning with Implicit Q-Learning”, 2021; arXiv:2110.06169.
[2]. Arthur Charpentier, Quantile and Expectile Regresions, Erasmus School of Economics, May 2017, Access
[3]. Hajo Holzmann, Bernhard Klar: “Expectile Asymptotics”, 2015; arXiv:1509.06866.
[4]. David Brandfonbrener, William F. Whitney, Rajesh Ranganath, Joan Bruna: “Offline RL Without Off-Policy Evaluation”, 2021; arXiv:2106.08909.
[5]. Noah Y. Siegel, Jost Tobias Springenberg, Felix Berkenkamp, Abbas Abdolmaleki, Michael Neunert, Thomas Lampe, Roland Hafner, Nicolas Heess, Martin Riedmiller: “Keep Doing What Worked: Behavioral Modelling Priors for Offline Reinforcement Learning”, 2020, ICLR 2020; arXiv:2002.08396.

OfflineRL推荐阅读

离线强化学习(Offline RL)系列3: (算法篇) CQL 算法详解与实现
离线强化学习(Offline RL)系列3: (算法篇) TD3+BC 算法详解与实现（经验篇）
离线强化学习(Offline RL)系列3: (算法篇) REM(Random Ensemble Mixture)算法详解与实现
离线强化学习(Offline RL)系列3: (算法篇)策略约束 - BRAC算法原理详解与实现(经验篇)
离线强化学习(Offline RL)系列3: (算法篇)策略约束 - BEAR算法原理详解与实现
离线强化学习(Offline RL)系列3: (算法篇)策略约束 - BCQ算法详解与实现
离线强化学习(Offline RL)系列2: (环境篇)D4RL数据集简介、安装及错误解决
离线强化学习(Offline RL)系列1：离线强化学习原理入门

Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO 深度学习计算机视觉人工智能
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）工业相机使用YoloV8模型实现打架检测工业相机通过YoloV8模型实现打架检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）工业相机使用YoloV8模型实现人脸的检测工业相机通过YoloV8模型实现人脸识别检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO c#人工智能计算机视觉开发语言
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）工业相机使用YoloV8模型实现人物识别工业相机实现YoloV8模型实现人物识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
美嫺读书笔记美嫺
家长希望孩子快人一步，固有提前训练，欲揠苗助长。其实，从能力发展的过程来看，不必让孩子提前"预习"，顺其自然是最好的法则之一。人类有许多与生俱来的能力，每个年龄阶段自然就会掌握那个技能，就如走路一样。支配儿童心理发展的因素有两个:一个是成熟，另一个是学习。美国著名儿童心理学家格塞尔著名的——双胞胎爬梯实验表明:儿童的心理主要是一个自然成熟的过程，孩子的成长是受到生理和心理成熟机制制约的，教育并不能
2023-03-25 快乐有我_c00f
大荔县心理咨询协会郭亚婵坚持分享第838天：学习摘录1、学校社会工作包括以下含义：（1）学校社会工作服务的提供者应该具有专业资格。（2）学校社会工作服务应该遵循相关的价值理念。（3）学校社会工作服务应该集科学性、技术性及艺术性于一体。（4）学校社会工作服务应该整合政府及社会资源。（5）学校社会工作以全体学生为服务对象。（6）学校社会工作服务以帮助学生获得幸福人生及促进社会进步为目标。2、学校社会工
[学习] Hilbert变换：从数学原理到物理意义的深度解析与仿真实验（完整实验代码）极客不孤独学习概率论信号处理 python 数学建模
Hilbert变换：从数学原理到物理意义的深度解析与仿真实验文章目录Hilbert变换：从数学原理到物理意义的深度解析与仿真实验一、数学原理二、作用与物理意义1.构造解析信号2.相位移动特性3.应用场景三、仿真实验实验1：正弦信号的Hilbert变换实验2：调幅信号的Hilbert变换四、结论Hilbert变换是信号处理领域中一项经典而强大的工具，广泛应用于瞬时频率分析、调制解调、相位提取等场景。
给内在小孩的信喜欢书写的心理咨询师
亲爱的小英我爱你！我看到你了，我看到你那么爱学习，可是家里却总是打击你，数落你，我看到你的委屈难过和伤心。我特别心疼你，我特别想帮助你，因为我看到你你那么爱学习，那么懂事，我多么想把你抱在怀里好好爱你啊！我多想好好爱你，告诉你，你是那么宝贵你是那样珍贵，我是多么爱你(ɔˆ³(ˆ⌣ˆc)你多么值得被爱，你值得拥有美好的一切！我爱你！永远爱你！我爱你，我爱你，我爱你！我爱你，我永远爱你！爱你的大艳春亲
DP学习笔记(8):完全背包求方案数，01背包求具体方案
完全背包求方案数常规分析在上一篇我们学习了01背包求方案数，今天我们学习完全背包求方案数。首先我们要区分一下01背包和完全背包的区别，01背包中的物品只有一个只有选或不选，完全背包中的物品有无限件实际有m/w[i]件，可以多选。我们在学习01背包求方案数时，要将j倒序来避免多选问题，在完全背包上我们需要多选，所以将j改为正序循环就可以满足我们的需求核心的状态和状态转移方程都是一样的状态:dp[j]
(新手友好)MySQL学习笔记(11):索引（前缀索引，聚簇索引，覆盖索引，最左前缀原则，索引设计原则，索引使用原则，索引失效的常见场景）李白洗一夜学习笔记
目录前缀索引聚簇索引覆盖索引（索引覆盖）最左前缀原则索引设计原则索引使用原则索引失效的常见场景前缀索引索引开头的部分字符，可以大大节约索引空间，提高索引效率。如TEXT数据类型必须使用前缀索引，因为MySQL不允许索引这些列的完整长度。InnoDB索引最大长度为767字节。最简单的理解就是在索引表中存储的不是索引字段的完整字段值，而是索引字段的前一部分字段值，比如：createindexIn_sn
DP学习笔记(7):有依赖背包，背包求方案数李白洗一夜学习笔记算法
有依赖背包常规分析有依赖背包特点:有主件，有附件，每种物品只有一件设主件的重量main_w[N]价值main_c[N],附件的重量sec_w[N][N],价值sec_c[N][N]那么01背包是不是可以看作特殊的有依赖背包，全是主件，没有附件的有依赖背包01背包的状态转移方程if(j>=w[i])dp[j]=max(dp[j],dp[j-w[i]]+c[i])是不是就可以看成只选主件的有依赖背包的
上班族下班做什么兼职比较好？适合晚上做的副业兼职高省张导师
经常有姐妹和我说，一边在家带娃一边没收入，觉得心好慌，还有一些上班族，其实很不喜欢眼前的工作，但又不得不继续干，无奈又无助。如果不是我自己做了自由职业，我还真的不知道，原来除了上班打工，赚钱的方式还可以有那么多种方式。尤其是现在人人都是自媒体的年代，只要你有一项技能，多花点心思去学习和琢磨，在家做个小副业赚点额外收入，是完全没问题的。说实话，自由职业真的很爽！我现在的目标除了定赚多少钱，另一个就是
能力重塑：如何将‘不擅长’转化为高薪职业的敲门砖高省飞智导师
脑子不好的人赚钱并不是一件容易的事情，但是仍然有一些机会和途径可以尝试。以下是一些建议：1.手工艺品：一些手工艺品如编织、陶艺、木工等可以作为消遣和赚钱的方式。可以在网上或当地市场上销售自己的作品，或者参加手工艺品市集和展览会。2.写作或编辑：如果你有较好的文字功底和语言表达能力，可以尝试写作或编辑工作。可以在网络上写博客、文案、新闻稿等，或者为出版社或媒体机构担任编辑或校对工作。3.社交媒体管理
耿向顺：别向往什么全民素质教育，高考才是寒门学子的最佳出路耿向顺1
这是“耿向顺”账号矩阵开通以来的第183篇原创文章，关于农村素质教育。1我在我的微博后台，收到这样一个私信，让我内心一震，感慨万千：“耿老师您好，我是一名高二学生，我看了您写的那篇关于农村教育的文章，觉得非常能触动我。我和您一样，也是来自农村的，从小父母就外出打工，他们唯一告诉我的事情就是要好好学习，可我我学习成绩不好，每天感觉自己浑浑噩噩的，提不起学习兴趣，语文数学学了有什么用？我讨厌考试，我恨
亲亲爱日记营打卡第53天 26418cad0b32
2021-3-5阴雨天昨晚专注力老师团队组织了年后第一场集体备课，在首席导师秋霞老师专业、灵活的带领下团队老师们真的创意无限，试想如果能够将这一套培训课程做成学生必修课，通过这种方式进行授课并且将学生的底层能力激发和提升，我猜想学生在学习生涯绝对是轻松、快乐，实现自动自发爱上学习，想想这画面确实让人振奋。当晚接到任务今天晚上初级班的课由我来担任主讲老师时，确实有一份紧张，因为这是一个新班，而且用新
来自初学者的一个简易扫雷游戏潘同学爱学习游戏程序人生
初学C语言一个月，与大家分享一下，我的学习成果，希望能够得到大佬的指导。一、小游戏中运用到所学知识1.变量的初始化，赋值，改变2.printf和scanf的使用3.if语句的判断，switch语句的选择4.循环语句的使用5.数组和函数二、扫雷游戏实现前的想法1.扫雷游戏的规则游戏的目的找出所有的雷（点开所有的非雷方块）基本游戏规则在游戏棋盘上通过输入坐标的方式点开一个方格，若此方格为雷则游戏结束，
2018.12.14学仿诗陳境墨
2018年12月14日晚星期五阴【亲子读经】《易经》《唐诗》《诗经》《新概念英语》【养生】159换食第三天（今天中午和晚上加青菜）【学习】华老师的历史早课，听完后之前对吕后的那种感觉可恶的心理没有了，以前觉得她也是很专横的女人，现在有了更多的同情。女人很多时候都是被逼出来的。【生活随记】今天又是简简单单的一天。早上问浚铠晚上要吃什么？他说随便，我说那就鱿鱼吧，他说有鱿鱼就可以了，不用其他菜。汤呢？
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现动物分类（C#源码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习计算机视觉人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现动物分类（C#源码，UI界面版））工业相机使用YoloV8模型实现动物分类工业相机实现YoloV8模型实现动物分类的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实
咨询前应注意这几点孙丽_cdb3
孙丽中级十期坚持分享第240天1.咨询范围的设置。做咨询前，咨询师要简单了解孩子的情况，最多谈十分钟就可以了，先了解是不是咨询的范畴，异常的(如抑郁、精神分裂等)就要转介，人际关系、学习、婚姻等对生活和工作有影响的、正常的才是咨询的范畴。然后根据自己的咨询专长(是不是属于自己的菜)，再来做决定。如何判断要好好学习变态心理学。2.地点的设置。做咨询时一定要跟家长说一句话：＂一定要征得孩子同意，!＂孩
【ESP32设备通信】-使用Modbus RTU读取传感器数据视觉与物联智能物联网全栈开发实战嵌入式硬件 ModBus ModBus RTU ESP32 物联网传感器单片机
使用ModbusRTU读取传感器数据文章目录使用ModbusRTU读取传感器数据1、什么是Modbus2、什么是ModbusRTU3、用于RS-485通信的MAX485模块4、RS485温湿度传感器5、硬件准备与接线6、代码实现在本文中，我们将深入研究ModbusRTU协议，并学习如何使用ESP32实现该协议，以便通过RS485从从设备读取传感器数据。为了简化和加深理解，我们将重点介绍一个基于Mo
【嵌入式开发——ARM】2ARM汇编指令芒果柚 arm开发汇编 c语言嵌入式硬件
intel和ARM公司都有自己的指令集，也就是说对应的汇编格式是不同的，不过好在目前基本很少在汇编语言层面编程了，最次也是在C语言级编程，要不说C语言是高级语言呢，很多人觉得难，无非是指针觉得头疼，但其实指针是个极其好用而且不难的工具，其本质就是地址，这也帮助C语言天然契合嵌入式，对指针有困惑的同学，可以翻看我之前的博客，专门有一篇介绍指针。虽然我们编程用的是C语言，实际在编译代码时，最终还是要先
通俗易懂：什么是决策树？淦暴尼算法 python 决策树算法机器学习
1.引言：决策树就像“选择题”你是否曾经在生活中做过“选择题”？比如：今天要不要带伞？晚饭吃什么？该不该买那件心仪已久的商品？其实，我们的大脑经常会像“决策树”一样，通过一连串问题和判断，逐步缩小选择范围，最终做出决定。**决策树（DecisionTree）**就是这样一种模拟人类决策过程的机器学习模型。它通过“提问-分支-决策”的方式，把复杂问题拆解成一系列简单的判断，广泛应用于分类（如判断邮件
「RIA学习力」《第五项修炼》No.06，央央快乐幸福的央央
今天的内容来自《第5章心灵的转变》正负反馈和延迟系统思考的积木块有两种不同类型的反馈过程：正反馈和负反馈。正反馈（或放大反馈）过程是增长的引擎。只要你处在增长的局面，一定就有正反馈作用。正反馈过程也可以产生加速的衰减，很小的衰减被放大成越来越严重的衰减，就像金融恐慌时银行财产的衰减情况一样。负反馈（稳定反馈）起作用时，就有以目标为导向的表现。如果目标是稳定不动，那么负反馈的作用就像车上的刹车装置。
2021年10月15日晚上学习分享杜娟A
尊敬的老师，同学们大家晚上好！我叫杜娟，是河南龙华牧业有限公司的一位高管，我们从事的是肉种鸡养殖业。今天我分享的主题是“我是如何合理安排我的学习时间的”？我是2018年10月中旬在庹燕的引领下，有幸加入东方书院，在书院学习一年，感觉自己的写作能力提高了，处理问题的方法也比原来多了，脾气变得也柔软了，家庭也更加幸福了，但是后来由于种种原因中断一年多，我深感后悔和愧疚。学习中断后我就越来越感觉得自己的
java毕业设计-基于Javaweb的家常小菜烹饪学习管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿刘 vue spring boot 毕业设计 java 课程设计学习
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费开题报告、任务书、全bao定制+
若辰日记001 若辰读书
Hi你好呀你能看到这篇文，说明在图文打开率越来越低的今天，你还对我不离不弃，特别特别感谢你，隔空笔芯啦从今天开始，我会在公众号更新日记。为什么想写日记？给自己列几条理由：1、昨天参加线下学习，看到波波老师每天写日记，受到了极大的触动，有人说，哎呀那肯定是团队给他写的。其实你如果熟悉一个人，了解一个人，就会知道他的风格是怎样的，文字或许会说谎，风格不会。以前在HW工作，董事会经常发布老板讲话的文章，
java毕业设计源码案例-基于ssm+协同过滤的个性化小说推荐系统设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 项目帮 springboot java 计算机毕设 java 课程设计开发语言
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
常用的Modbus、Profibus、EtherCAT和OPC UA协议介绍 qq_25467441 网络
常用的Modbus、Profibus、EtherCAT和OPCUA协议介绍_opc协议和modbus协议-CSDN博客1、Modbus协议协议概述：Modbus是一个串行通信协议，用于连接工业设备。它是一种请求/响应协议，使用客户端/服务器模型。主要分Modbus-RTU、Modbus-ASCII、Modbus-TCP。传输方式：可以通过RTU（远程终端单元）或ASCII（美国标准信息交换码）方式
AI 大模型重塑软件开发流程万花丛中一抹绿人工智能
一、AI大模型的定义与发展历史AI大模型是基于海量数据训练的深度学习模型，具备强大的自然语言理解、逻辑推理和知识生成能力。在软件开发领域，以GPT-4、CodeLlama、GitHubCopilotX为代表的大模型，能理解代码语法、语义及业务逻辑，实现代码生成、漏洞检测等复杂任务。其发展可追溯至2017年，谷歌提出Transformer架构，为大模型奠定了核心基础。2018年，GPT-1问世，参数
随笔：2021-11-21 磐孚菩提树下
回想自己加入的变现学院有一年了，从中自己多多少少也学到了许多的知识，但是也有自己不足的地方。没有做好自己的社群营销裂变，没有组建好自己的团队，也没有自己的社群组织。从中得到了：几个关系不错的朋友，学到了做社群的思路，也扩大了自己的知识的边界。计划从今天开始，把这个社群组织重新拾起来，继续开始自己的学习。
2023-3-21晨间日记 13724-HelenHan88 Helen穗穗
今天在昆明第二天起床：05:50就寝：22:00天气：晴朗心情：平静纪念日：春分春光浪漫时，醉却山河间任务清单昨日完成的任务，最重要的三件事：1、08:50的动车一路从广州抵达昆明站2、美美的逛了一晚上的夜市，悠闲惬意3、没洗澡就睡着了(^^)改进：提前沟通，能去更多的地方？习惯养成：心平气和周目标·完成进度10%名单罗列学习·信息·阅读早读～分享健康·饮食·锻炼徒步忘记打卡了人际·家人·朋友很快
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name