*pprp*

【深度强化学习】1. 基础部分

文章目录

强化学习纲要-基础部分
- 强化学习应用案例
- 强化学习在做什么？
- 基本要素
- 分类
- - 1. 按照Agent有没有对环境建模来分类
  - 2. 按照Agent的决策方式来分类
- 时序决策过程
- 动作空间
- 智能体主要组成部分
- - 1. Policy
  - 2. Value Function
  - 3. Model
- Exploration and Exploitation
- 知识点补充
- 致谢
- 参考内容

强化学习纲要-基础部分

【DataWhale打卡】第一天：学习周博磊讲的强化学习结合《深入理解AutoML和AutoDL》这本书中的强化学习的章节总结了基础部分。

参考资料：https://github.com/zhoubolei/introRL

先导课程：线性代数、概率论、机器学习/数据挖掘/深度学习/模式识别

编程基础：Python, PyTorch

强化学习应用案例

alpha-go、alpha-zero围棋战胜李世石。
王者荣耀绝悟AI 就是强化学习技术应用在MOBA游戏的一个典型例子。
可以将股票的买卖看作强化学习问题，如何操作能让收益极大化。
Atari等电脑游戏。
机器人，比如如何让机械臂自己学会给一个杯子中倒水、抓取物体。
DeepMind让Agent学习走路。
训练机械臂通过手指转魔方。
训练Agent穿衣服。

强化学习在做什么？

强化学习和监督学习有很大的区别：

监督学习需要提供数据和对应的标签，训练数据和测试数据是独立同分布的，从而进行模式和特征的学习。
强化学习不同，强化学习没有直接的标签进行指导，并且数据不是独立同分布的，前后数据有比较强的关系。强化学习可以在环境中进行探索和试错，根据实验的结果提取经验，从而学习到最佳策略。

	监督学习	无监督学习	强化学习
输出值	标签	无	奖励值
标签/奖励	人类提供标注	无标签	延迟奖励
经验	无	无	有
损失值	有	无	无
输入	独立同分布	独立同分布	前后依赖

强化学习的目标是训练一个agent，能够在不同的情况做出最佳的action，从而让系统给出的reward值最大化。

流程如下：agent会观察环境得到observation，然会采取一个action，环境受到这个action的作用，会反馈给agent一个reward，同时环境给出的observation也发生了改变。循环往复，agent目标是为了从环境中获得最高reward奖励。

存在两大主体，智能体Agent和环境Environment，整个过程是序列化的：
$S_t-A_t-R_t-S_{t+1}-A_{t+1}-R_{t+1}-S_{t+2}\dots$
智能体目标就是最大化奖励函数 $G_t$ :
$G_t=R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+\dots=\sum_{k=0}^\infin \gamma^k R_{t+k+1}$
也就是说当前时序为t的时候，最大化奖励函数就是从当前一直到最后一个状态（完成一个episode）所获取的所有Reward。 $\gamma$ 是一个0-1之间的数，叫做奖励衰减因子。如果等于0，代表这个Agent只考虑当前即时结果，不考虑目标长远。如果等于1，代表这个Agent考虑的是长远利益，放眼整体。

强化学习的特点：

输入的数据是序列化、前后有依赖的，并不是独立同分布的。
没有监督信息，每一步没有被告诉应该做什么。
Trial-and-error exploration，exploration和exploitation之间的平衡：
- exploration: 代表探索环境，尝试一些新的行为，这些行为有可能会带来巨大的收益，也可能减少收益。
- exploitation: 就采取当前已知的可以获得最大收益的action。
Reward Delay效应，当采取一个action以后，并不会立刻得到反馈，需要等待一段时间或者等结束之后才会有反馈。

基本要素

环境的状态：用符号S表示， $S_t$ 代表t时刻下处于的某一个状态。
个体的动作：用符号A表示， $A_t$ 代表t时刻个体采取的动作。
环境的奖励：用符号R表示， $R_{t+1}$ 表示t时刻个体在 $S_t$ 状态下，采取动作 $A_t$ 得到的奖励。
智能体agent策略：用符号 $\pi$ 表示，agent会根据 $\pi$ 表示的策略来选择动作。
价值函数：用符号 $V^{\pi}(s)$ 表示，agent在面临状态S的情况下，如果采用策略 $\pi$ 后进行动作的价值，是一个期望函数。 $V^{\pi}(s)=E_{\pi}(R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+...|S_t=s)$
奖励衰减因子：用符号 $\gamma$ 来表示，是一个0-1之间的数，用于约束距离时间较远的reward所占的比重。

分类

1. 按照Agent有没有对环境建模来分类

强化学习主要分为动态规划、蒙特卡罗法、时序差分法。强化学习中，从一个状态s转化到另外一个状态s’不仅和当前状态s和动作a有关，还与之前的状态有关。但是考虑这么多状态会导致模型非常复杂，所以引入马尔可夫性来简化问题，也就是一个假设 $H$ , 即转化到下一个状态s‘的概率仅仅与当前的状态s有关，而和之前的状态没有关系。

解决马尔科夫决策过程有两个分类，见上图，需要解释的是Model-based方法和Model-Free方法。

Model-based方法代表这个问题中，必须能够获得环境的状态转化方程，需要对环境进行建模，比如在仿真环境中训练机械手臂。agent学习的模型可以提高对状态转移函数和奖励函数的估计的准确性。这样就可以通过动态规划算法求解。

有模型的强化学习方法可以对环境建模，使得该类方法具有独特魅力，即“想象能力”。在免模型学习中，智能体只能一步一步地采取策略，等待真实环境的反馈；而有模型学习可以在虚拟世界中预测出所有将要发生的事，并采取对自己最有利的策略。

Model-Free方法代表不需要对环境进行建模，只需要经验，也就是实际或者仿真的与环境进行交互的整个样本序列。免模型学习通常属于数据驱动型方法，需要大量的采样来估计状态、动作及奖励函数，从而优化动作策略。免模型学习的泛化性要优于有模型学习，原因是有模型学习算需要对真实环境进行建模，并且虚拟世界与真实环境之间可能还有差异，这限制了有模型学习算法的泛化性。

判断方法：在Agent执行动作前，看其能否对下一步的状态和回报做出预测，如果可以预测那就是model-based方法，如果不能，那就是model-free的方法。

Q: 有模型强化学习和免模型强化学习有什么区别？

A: 针对是否需要对真实环境建模，强化学习可以分为有模型学习和免模型学习。

有模型学习是指根据环境中的经验，构建一个虚拟世界，同时在真实环境和虚拟世界中学习；
免模型学习是指不对环境进行建模，直接与真实环境进行交互来学习到最优策略。

from: https://blog.csdn.net/ppp8300885/article/details/78524235

Q: Q-learning也是对下一步的状态和奖励在做预测吗？

A: 无模型的RL是不会显式对Reward function和transition function进行建模, Q-learning的Q值更新是用的: 当前返回的reward(真实值)+下一步状态Q值(这个是异策略估计的), 这个reward是执行完a动作后的真实值, 并不是自己拟合的reward function给出的. AlphaGo为啥是model-based, 因为他依赖蒙特卡罗树去估计棋局未来的演化(transition function)和赢率(reward function)

2. 按照Agent的决策方式来分类

从Agent的决策方式来看，可以分为三种：

Value-Based方法中，Agent学习的目标是价值函数，隐式地学习了策略（因为策略是从价值函数中推算出来的），常见的算法有SARSA、Q-Learning
Policy-Based方法中，Agent学习的目标就是策略，给一个状态s，直接求出输出动作地概率。策略可以分为两类：确定性策略和随即策略。常见算法就是策略梯度蒜贩。
Actor-Critic方法中，结合了以上两种方法，将策略函数和价值函数都学习了，吸取了两者的优点。

一个常用的强化学习问题解决思路是，先学习环境如何工作，也就是了解环境工作的方式，即学习得到一个模型，然后利用这个模型进行规划。

时序决策过程

State和Observation并不是等价的概念：

引入历史的概念，历史是观测、行为、奖励的序列：
$H_t = O_1,R_1,A_1,\dots,A_{t-1},O_t,R_t$
Agent采取的当前动作会依赖之前的历史，所以整个游戏的状态可以看做关于历史的函数：
$S_t=f(H_t)$
状态（state）s是对环境的整体描述，不会有其他隐藏的信息。观测（observation）o是状态的部分描述，可能会遗漏一些信息。

举个例子：在机器手臂抓杯子的案例中:

观测可以是通过摄像头得到的RGB像素值矩阵，来表示一个视觉的观测。

状态则是机器手臂每个关节的角度和速度的表示。

环境状态和智能体状态：
$S_t^e=f^e(H_t) \\ S_t^a=f^a(H_t)$
当满足 $O_t=S_t^a=S_t^e$ 的时候，称这种状态为Full Observability,agent可以观测环境的全部状态，也就是马尔可夫决策过程MDP。

同时也有Partial Observation, agent无法观测环境中的全部状态，只能看到部分状态比如说Atari游戏中只能观测到屏幕上的像素，无法获取小球位置（这个状态就不可见）。这种问题是部分可见的马尔可夫决策过程POMDP。

动作空间

不同的环境/游戏可以采取的动作不同。有效动作的集合经常被称为动作空间(action space)。像 Atari 和 Go 这样的环境有离散动作空间(discrete action spaces)

在其他环境，比如在物理世界中控制一个 agent，在这个环境中就有连续动作空间(continuous action spaces) 。

智能体主要组成部分

RL Agent组成部分有policy函数（负责选取下一步动作）、价值函数（对当前状态进行评估，估计以后的收益大概有多少）、模型（表示了Agent对这个环境状态进行了理解）

1. Policy

Policy决定了Agent的行为，根据看到的状态，得到应该采取的行为。主要分为两种：

随机性策略：stochastic policy: 也就是说输出的action是一个概率分布，通过对概率分布进行采样，得到真实采取的行为。 $\pi(a|s)=P(A_t=a|S_t=s)$
确定性策略：deterministic policy, 就是说只采取它的极大化，采取最有可能的动作。 $a*=argmax_a\pi(a|s)$

Q: 既然有确定性策略，采取能让奖励极大化的action不就可以了，为什么要加入随机性呢？

A: 引入随机性是为了更好的探索环境，随机性可能会带来负面收益，但是也可能会带来巨大的正面收益，为了探索这种可能性，所以随机性策略更好。

2. Value Function

价值函数是期望，在看到当前状态s的时候，直到游戏结束期望获得的reward值就是价值函数 $V^\pi(s)$ 。
$V_\pi(s)=E_\pi[G_t|S_t=s]=E_\pi[\sum_{k=0}^{\infin}\gamma^kR_{t+k+1}|S_t=s]$
以上公式中的 $\gamma$ 上文已经讲过了，是奖励衰减因子。因为希望能够在尽可能短的时间内，得到更多的奖励。

当然价值函数只考虑s也是不足的，Q函数综合考虑了状态和动作的影响，代表在当前状态s下，采取动作a以后的期望得到的奖励值。
$Q_\pi(s,a)=E_\pi[\sum_{k=0}^{\infin}\gamma^k R_{t+k+1}|S_t=s,A_t=a]$

3. Model

模型决定了下一个状态是什么，下一步的状态取决于当前的状态和当前采取的行动。主要由两部分组成：

概率函数 $P_{ss'}^a=P[S_{t+1}=s'|S_t=s,A_t=a]$ ,表示从s状态采取动作a以后会转移s‘状态上。
奖励函数 $R_s^a=E[R_{t+1}|S_t=s,A_t=a]$ , 表示当前状态采取某个行为以后的奖励的期望值。

有了Model也就代表可以用Model-based方法进行求解，可以使用动态规划的方法求解问题。

Exploration and Exploitation

在强化学习里面，Exploration 和Exploitation 是两个很核心的问题。

Exploration 是说我们怎么去探索这个环境，通过尝试不同的行为来得到一个最佳的策略，得到最大奖励的策略。
Exploitation 是说我们不去尝试新的东西，就采取已知的可以得到很大奖励的行为。

因为在刚开始的时候强化学习 agent 不知道它采取了某个行为会发生什么，所以它只能通过试错去探索。所以 Exploration 就是在试错来理解采取的这个行为到底可不可以得到好的奖励。Exploitation 是说我们直接采取已知的可以得到很好奖励的行为。所以这里就面临一个 trade-off，怎么通过牺牲一些短期的 reward 来获得行为的理解。

知识点补充

Rollout：从游戏当前帧，生成很多局游戏，让当前的Model和环境交互，得到很多的观测（轨迹）,得到最终的最终reward，从而可以训练agent。

致谢

感谢DataWhale的工作人员的组织，以及群友的耐心解答，感谢！（鞠躬）

https://github.com/cuhkrlcourse/RLexample

https://github.com/datawhalechina/leedeeprl-notes

参考内容

https://blog.csdn.net/ppp8300885/article/details/78524235

https://datawhalechina.github.io/leedeeprl-notes/#/chapter1/chapter1

Xilinx系ZYNQ学习笔记（二）ZYNQ入门及点亮LED灯贾saisai FPGA学习学习笔记 fpga开发
系列文章目录文章目录系列文章目录前言简单介绍简称xc7z020型号FPGAZYNQ实操通用IO点亮LED灯硬件逻辑基础前言简单入门一下ZYNQ是何种架构，如何编程，至于深入了解应该要分开深入学习Linux和FPGA简单介绍其基本架构都是在同一个硅片上集成FPGA和CPU，并通过高速、高带宽的互联架构连接起来。ARM的顺序控制、丰富外设，开源驱动、FPGA的并行运算、高速接口、灵活定制、数字之王的特
新手如何使用 Milvus 巴依老爷coder 数据库 milvus 向量数据库数据库
一文带你入门Milvus：详细指南新手如何使用Milvus：详细指南一、Milvus简介主要特点应用领域二、安装Milvus安装DockerCompose基于DockerCompose安装Milvus服务端安装attu-可视化界面工具三、快速入门安装PythonSDK连接数据库方式1方式2（方式1的封装）数据库操作核心概念集合操作数据操作插入数据精准查询数据-get条件查询数据-query查询数据
如何用3个月零基础入门网络安全？_网络安全零基础怎么学习白帽黑客啊一学习 web安全安全 python 网安入门
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包前言写这篇教程的初衷是很多朋友都想了解如何入门/转行网络安全，实现自己的“黑客梦”。文章的宗旨是：1.指出一些自学的误区2.提供客观可行的学习表3.推荐我认为适合小白学习的资源.大佬绕道哈！基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包一、自学网络安全学习的误区和陷阱1.不要试图先成为一名程序员（以编程为基础的学习）
Github上神仙级大模型项目：大语言模型(LLM)入门学习路线图，三个月让你从大模型基础到精通！ AI大模型-大飞 github 语言模型学习人工智能 AI大模型程序员 AI
Github项目上有一个大语言模型学习路线笔记，它全面涵盖了大语言模型的所需的基础知识学习，LLM前沿算法和架构，以及如何将大语言模型进行工程化实践。这份资料是初学者或有一定基础的开发/算法人员入门活深入大型语言模型学习的优秀参考。这份资料重点介绍了我们应该掌握哪些核心知识，并推荐了一系列优质的学习视频和博客，旨在帮助大家系统性地掌握大型语言模型的相关技术。大语言模型（LargeLanguageM
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
模型优化驱动产业应用创新智能计算研究中心其他
内容概要当前模型优化技术的迭代正沿着多维路径快速演进，其核心驱动力在于突破算法性能与产业需求间的适配瓶颈。以自适应学习机制与迁移学习框架为基础的优化策略，显著提升了模型在跨场景应用中的泛化能力，而超参数自动调优技术则通过PyTorch、TensorFlow等主流框架的接口标准化，降低了复杂模型的开发门槛。在部署层面，边缘计算与联邦学习的协同应用不仅缩短了金融预测、医疗影像分析等场景的响应延迟，更通
【第1章＞第6节】CMAC小脑模型神经网络的理论学习与MATLAB仿真 fpga和matlab #第1章·神经网络学习 matlab CMAC 小脑模型神经网络人工智能
目录1.使用软件和版本2.CMAC小脑模型神经网络概述2.1CMAC网络结构2.2CMAC地址映射2.3学习过程3.CMAC网络的MATLAB编程实现4.分辨率，重叠度，学习率对CMAC网络的训练性能影响分析4.1分辨率4.2重叠度4.3学习率5.视频操作步骤演示欢迎订阅FPGA/MATLAB/Simulink系列教程《★教程1:matlab入门100例》《★教程2:fpga入门100例》《★教程
Java：从入门到创新 java
Java：从入门到创新一、Java简介Java是一种广泛使用的高级编程语言，自1995年首次发布以来，一直深受开发者的喜爱。它由SunMicrosystems公司开发，后来被Oracle公司收购。Java的设计目标是简单、健壮、安全且跨平台，这些特性使其在企业级应用开发中占据重要地位。二、Java的主要特点（一）简单易学Java的语法与C语言和C++语言很接近，但丢弃了C++中一些复杂且容易出错的
基于roop/insightface将视频中包含指定人脸的视频片段提取并合并成新视频阆遤 python roop pytorch insightface
利用insightface.app.FaceAnalysis提最一个视频中包含指定人脸的视频片段，并将其合并成一个新视频，使用“buffalo_l”模型，模型需安装在代码当前目录下的.\models中。需要roop或其他支持pytorch、insightface、moviepy的环境。pytorch安装请见我其他文章。#cython:language_level=3str#-*-coding:ut
31天Python入门——第9天:再学函数安然无虞 Python手把手教程 python 开发语言后端 pyqt
你好，我是安然无虞。文章目录再学函数1.变量在函数中的作用域2.函数的参数传递.补充学习:不定长参数*args和**kwargs3.值传递和引用传递补充学习:把函数作为参数传递4.匿名函数5.python中内置的常用函数zip()map()filter()all()any()6.函数练习再学函数1.变量在函数中的作用域变量的作用域是指变量的作用范围.局部变量:在函数体或局部范围内声明的变量称为局部
Scrapy 入门教程 zru_9602 爬虫 scrapy
Scrapy入门教程Scrapy是一个用于爬取网站数据的Python框架，功能强大且易于扩展。本文将介绍Scrapy的基本概念、安装方法、使用示例，并展示如何编写一个基本的爬虫。1.什么是Scrapy？Scrapy是一个开源的、用于爬取网站数据的框架，主要特点包括：高效、异步的爬取机制强大的XPath和CSS选择器解析能力内置中间件，支持代理、去重等功能易于扩展，适用于各种爬虫需求2.安装Scra
关于pytorch3d的安装诚威_lol_中大努力中人工智能 pytorch 人工智能 python
更新1：2025_2_04今天发现，原来的pytorch3d不见了，在我的aaa1环境中。重新安装，我发现最好用的还是去github下载最新的pytorch3d的zip，unzip之后，进去pipinstall-e.然后安装成功！1、参考文章1：windows安装PyTorch3D详细指南-哔哩哔哩(bilibili.com)这篇文章巨好2、参考文章2：pytorch3d/INSTALL.mdat
《MySQL 入门教程》第 30 篇数据库索引不剪发的Tony老师 MySQL入门教程 mysql 索引 create index drop index
文章目录30.1创建索引30.2查看索引30.3修改索引30.4删除索引数据库索引（Index）就像书籍后面的关键字索引，按照关键字进行排序，并且提供了指向具体内容的页码。索引可以用于提高数据库的查询性能；但是索引需要占用额外的磁盘空间，修改数据时也需要进行索引的维护。了解并适当利用索引对于数据库的优化至关重要，本篇我们介绍MySQL索引的管理。关于B-树索引的原理以及利用索引优化SQL语句的详细
Vue.js 模板语法全解析：从基础到实战应用予安灵前端 vue.js 前端 javascript vue生命周期 vue指令 vue项目结构 vue插值
引言在Vue.js的开发体系中，模板语法是构建用户界面的核心要素，它让开发者能够高效地将数据与DOM进行绑定，实现动态交互效果。通过对《Vue.js快速入门实战》中关于Vue项目部署章节（实际围绕Vue模板语法展开）的深入研读，我们将全面剖析Vue项目结构、应用程序实例、生命周期、插值、指令以及自定义指令等关键内容，并通过实战案例加深理解。1.Vue项目详解项目目录结构以常见的vite-app项目
C语言动态顺序表的实现しかし118114 数据结构数据库 c语言经验分享数据结构链表
目录（一）静态顺序表（二）动态顺序表顺序表是数据结构的入门，本篇文章将详细介绍动态顺序表的增删改补。我们先了解一下静态顺序表。（一）静态顺序表静态顺序表是顺序表的一种，由于静态顺序表的大小固定，很容易溢出或浪费空间，所以我们一般不用静态顺序表。所有顺序表的实现都是基于数组实现的，其实顺序表是顺序表的pro版，可以装更多的数据。#defineTypedataint//这里定义的顺序表是int类型的/
java简单的小程序_编写一个简单的入门java小程序雷幺幺 java简单的小程序
1.创建一个java程序的步骤a打开editplus软件，选择左上角的file选项，在弹出来的菜单中选择new然后再从弹出来的菜单中选择normaltextb按住ctrl+s快捷键，保存。1选择要保存的位置2给文件命名(以大写的字母开头)3选择文件的后缀，以.java后缀结尾c进行代码的编写，所有字符我们必须都是英文输入状态下的d打开控制台(win+r在弹出左下角的命令行中输入cmd)e找到jav
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
Flowable 6.6.0应用指南 - Flowable UI应用安装月满闲庭 #应用指南中英文对照版
培训视频推荐CSDN上提供了Flowable6.6.0的系列培训视频课程，欢迎有兴趣的朋友前往学习。《Flowable流程入门课程》《Flowable流程高级课程》《Flowable从入门到精通》Flowable6.6.0用户指南相关文档下载BPMN用户指南第一部分-中文PDF精编版BPMN用户指南第二部分-中文PDF精编版BPMN用户指南第三部分-中文PDF精编版应用程序指南-中文PDF精编版应
入门级带你实现一个安卓智能家居APP（2）kotlin版本一粒程序米 android kotlin 智能家居 WiFi 单片机
前言上一篇写过java版本的实现，这一篇就写一下kotlin版本的吧。效果展示本APP是通过tcp/ip协议与连了WiFi的单片机通信。其实除了主活动类和新建项目时有一丢丢不同，其他的都是一样的哈~第一步：你得会一点点kotlin基础，建议看一本书，是郭霖大神些的《第一行代码》第三版，里面除了安卓的基础教学，还有kotlin的。第二步：建议看一本书，是郭霖大神些的《第一行代码》，先入门安卓基础。不
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
【深入理解 SpringBoot3】第一弹：SpringBoot3 快速入门敖云岚 spring boot 后端 java
一、SpringBoot是什么SpringBoot帮我们简单、快速地创建一个独立的、生产级别的Spring应用大多数SpringBoot应用只需要编写少量配置即可快速整合Spring平台以及第三方技术。特性：直接嵌入Tomcat、Jetty或Undertow（无需部署war包）提供可选的starter（场景启动器）简化应用的整合实现按需的自动配置Spring以及第三方库（约定大于配置）：appli
【零基础入门】一篇弄懂nn.Sequential以及ModuleList的使用（呕心沥血版）十二月的猫 PyTorch深度学习 pytorch 零基础入门
个人主页：十二月的猫-CSDN博客系列专栏：《PyTorch科研加速指南：即插即用式模块开发》CSDN博客十二月的寒冬阻挡不了春天的脚步，十二点的黑夜遮蔽不住黎明的曙光目录1.前言2.Sequential类的使用2.1序列容器简单注入2.2序列容器字典注入2.3序列容器函数注入2.4序列容器修改2.5序列容器删除3.nn.ModuleList()的使用3.1定义模型3.2使用模型4.总结1.前言《
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
《Hello 算法》火了！！！一本写给算法初学者的入门算法书籍遇码分享算法 hello hello算法算法书籍
曾经也放出豪言壮语，决心要刷遍力扣上的所有算法题目。然而现实就很快啪啪的打脸。不知道多少人和我有过一样的经历。在读到《Hello算法》的序中，作者靳宇栋给了我们一个“台阶”。随后就表达了针对我们的现状，他特地写了《Hello算法》这本书，代表广大算法初学者表示感激涕零。《Hello算法》为什么适合入门动画图解、一键运行的数据结构与算法教程全书采用动画图解，内容清晰易懂、学习曲线平滑，引导初学者探索
【QT入门】 Qt槽函数五种常用写法介绍不吃~香菜 QT入门 qt 开发语言槽函数信号槽
声明：该专栏为本人学习Qt知识点时候的笔记汇总，希望能给初学的朋友们一点帮助(加油！)往期回顾：【QT入门】实现一个简单的图片查看软件-CSDN博客【QT入门】图片查看软件(优化)-CSDN博客【QT入门】lambda表达式(函数)详解-CSDN博客【QT入门】Qt槽函数五种常用写法介绍一、信号槽基本概念Qt的信号槽是一种用于处理事件和通信的机制，是Qt框架中的一个重要特性。信号槽机制使得对象之间
【QT入门】qmake和cmake的简单区别不吃~香菜 QT入门 qt 开发语言学习 qmake cmake
声明：该专栏为本人学习Qt知识点时候的笔记汇总，希望能给初学的朋友们一点帮助(加油！)往期回顾：【QT入门】Windows平台下QT的编译过程-CSDN博客【QT入门】VS2019+QT的开发环境配置-CSDN博客【QT入门】VS2019和QTCreator如何添加第三方模块-CSDN博客【QT入门】qmake和cmake的简单区别qmake和cmake是两种常用的构建工具，用于自动化构建C++项
C#入门学习记录（五）轻松掌握条件分支与循环语句 FAREWELL00075 c#学习前端
前言编程就像给计算机写一份"烹饪指南"，而条件分支和循环就是这份指南中的关键指令。想象你要教机器人做蛋糕：条件分支："如果没有鸡蛋了，就去超市买"（做决定）循环："重复搅拌面糊100次"（重复动作）本文会用简单易懂的语言和比喻，带你掌握C#中这两个核心概念。新手友好，放心食用！一、条件分支：让程序学会"做选择"1.if-else语句（基础版选择器）if(今天下雨){Console.WriteLin
深度学习篇---对角矩阵&矩阵的秩&奇异矩阵 Ronin-Lotus 程序代码篇深度学习篇深度学习矩阵人工智能线性代数
文章目录前言一、对角矩阵（DiagonalMatrix）1.1定义1.2特性行列式运算简化1.3应用领域深度学习信号处理量子力学经济学二、矩阵的秩（RankofaMatrix）2.1定义2.2特性满秩降秩影响2.3应用领域深度学习图像压缩推荐系统控制理论三、奇异矩阵（SingularMatrix）3.1定义3.2特性秩不足行列式为零3.3应用领域深度学习正则化损失函数结构工程统计学数值计算四、跨领
DeepSeek、Grok 与 ChatGPT 三巨头：技术架构与应用场景的全方位解析云策量化 Deepseek chatgpt deepseek grok
前言在当今人工智能领域，DeepSeek、Grok和ChatGPT作为语言模型的三巨头，各自凭借独特的技术架构和广泛的应用场景，在自然语言处理领域占据着重要地位。本文将对这三款模型的技术架构和应用场景进行全方位解析，以期为读者提供深入的了解和有价值的参考。一、技术架构（一）DeepSeekDeepSeek是由DeepSeek团队开发的一款大型语言模型，其技术架构基于深度学习中的Transforme
OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比