平凡之路_cyy

强化学习(1)-Daviad Silver强化学习课程脉络整理

强化学习-Daviad Silver强化学习课程脉络整理

1.lecture1 introduction

1.1 强化学习简介
1.2 强化学习类别
1.3 强化学习的主要问题

2.lecture2 Markov Decision Process

2.1 MP,MRP,MDP
2.2 Bellman Eqution--贝尔曼方程
2.3 Bellman Eqution--贝尔曼期望方程
2.4 最优策略
2.5 最优值函数
2.6 Bellman Optimal Equation

3 lecture3 Planning by Dynamic Programming

3.1 策略迭代估计->策略改进
3.2 价值迭代--找最优策略

4.lecture4 Model Free Prediction

4.1 蒙特卡洛学习--完全采样
4.2 时序差分TD(n)--不完全采样
4.3 TD( $\lambda$ )

5.lecture5 Model Free Control

5.1 SARSA
5.2 Q-learning

6. Value Function Approximation

6.1 DQN-Deep Q learning

7.lecture7 Policy Gradient

7.1 Actor and Critics

1.lecture1 introduction

1.1 强化学习简介

强化学习是机器学习的一个分支，没有监督信号判断学习的好坏，只有reward 信号引导学习过程。

强化学习的目标是：学习一个决策策略，使得agent与环境交互所获得的累计奖励最大。

强化学习基本要素
Agent	决策智能体，主要完成在环境中处于某一状态下的动作决策，策略是可以学习的。
Reward- $R_t$	t时刻的奖励，标量，用于反映agent t时刻动作的优劣（长期奖励的一个衡量）
Enviroment	环境，接收Agent的动作，依据物理特性状态转换（转换是不受Agent控制的），并反馈给agent 一个 $R_t$
State	状态信息：环境状态(一般不可用)，agent 状态(强化学习算法可以使用的状态)

老鼠训练的例子：agent状态不表示不同，依据统计规律得出的预测也不同补图
环境状态和agent 状态的区别：

Agent 主要成分
state	agent 状态-强化学习算法可以使用的状态，
action	agent的在每一个状态下能够执行的动作(走子，浇水)
policy	状态到动作的映射：确定策略 $a=\pi(s)$ 、不确定策略 $\pi(a\\|s)=P[A=a\\|S_t=s]$
value function	评价当前状态的优劣(对未来奖励的预测)，是基于策略的
model	状态转移概率： $P_{s,s'}^a=P[S_{t+1}\\|S_t=s,A_t=a]$ 、奖励： $R_s^a=E[R_{t+1}\\|S_t=s,A_t=a]$

1.2 强化学习类别

分类1


value based	无策略函数，策略由价值函数 $V_{\pi}$ 间接得到(贪心策略？)
policy based	动作由策略函数决定，没有 $V_{\pi}$
Actor-critic	策略函数与价值函数同时存在，两者结合

分类2


model based	环境模型已知道，状态转移概率，奖励函数
model free	环境模型未知

model 是环境物理规律的建模，model常常不事先已知，需要agent基于历史信息对model进行建模，这种情况下的强化学习为 model free learning。

1.3 强化学习的主要问题

主要问题1
学习	环境未知，agent
规划

主要问题2
探索
利用

主要问题3
预测	给定MDP+策略求状态价值
控制	给定MDP，求最优价值函数V

2.lecture2 Markov Decision Process

2.1 MP,MRP,MDP

三大过程
Markov Process	，马尔可夫状态转移图
Markov Reward Process	$\gamma$
Markov Decision Process	$\gamma$

状态的马尔可夫性质：某一状态包含了所有相关的历史信息，可以决定未来。（下一时刻的状态完全由本时刻的状态决定）

MRP关键概念
S	状态空间–agent所有状态的集合( $s_1,s_2,s_3,....\,s_n$ )
$p_{s,s'}$	状态转移矩阵–其中的元素为 $p_{s,s'}=p[s_{t+1}\\|S_t=s]$
$R_s$	某一状态s在下一个时刻能够获得的奖励的期望值 $R_s=E[R_{t+1}\\|S_t=s]$
$\gamma$	衰减系数–后续经历状态的奖励对于当前return的呈现衰减影响
$G_t$	return 收益/回报 --（一条马尔可夫链）从t 时刻开始所有 $R_t$ 的衰减总和
V(s)	价值函数–某一状态/动作的长期价值 $V(s)=E[G_t\\|S_t=s]$ ,从s出发的所有链条的 $G_t$ 的期望

$R_s$ 确定到达这个状态他就能获得的一个奖励，不管后续去了哪里，那就是下一个状态需要关系的事情了, $R_s$ 一般未知，我们只能收到环境给的 $R_t$ 的反馈，类似于k 摇臂赌博机中每个摇臂的期望奖励是 $R_s$ ,每次反馈的奖励是 $R_t$

MDP关键概念
S	状态空间–agent所有状态的集合( $s_1,s_2,s_3,....\,s_n$ )
A	动作空间–agent所有状态的集合( $a_1,a_2,a_3,....\,a_m$ )
$p_{s,s'}^a$	元素为 $p_{s,s'}^a=p[s_{t+1}\\|S_t=s,A_t=a]$
$R_s^a$	$R_s^a=E[R_{t+1}\\|S_t=s,A_t=a]$
$\pi$	概率集合/概率分布函数 : $\pi(a\\|s)$

$\pi(a|s)$ 给定a, 不同的s会构成一个概率密度函数，找一个s使 $\pi(a|s)$ 最大。==好像没啥用 ==

$\pi(a|s)$ 给定s,不同的a会构成一个概率密度函数，找一个a使 $\pi(a|s)$ 最大。状态s下最有可能的动作选择

策略相关的概念	涉及到策略就是要对动作求期望
$p^{\pi}_{s,s'}$	策略 $\pi$ 下，状态s->s’的状态转移概率: $p^{\pi}_{s,s'}=\sum_{a\in A}\pi(a\\|s)p_{s,s'}^a$
$R_s^{\pi}$	策略 $\pi$ 下，状态s 的reward: $R^{\pi}_{s}=\sum_{a\in A}\pi(a\\|s)R^a_s$
$V_{\pi}(s)$	策略 $\pi$ 下，状态s 的价值: $v_{\pi}(s)=E_\pi [G_t\\|S_t=s]$
$q_{\pi}(s,a)$	策略 $\pi$ 下，状态s 的动作价值: $q_{\pi}(s,a)=E_\pi[G_t\\|S_t=s,A_t=a]$

$p^{\pi}_{s,s'}$ ：策略 $\pi$ 下的状态转移概率：状态 $s$ 下可选的动作有很多个，各个动作转向 $s^{'}$ 的概率相加。无法直接在马尔可夫图上表示出来吧

$V_{\pi}(s)$ 基于策略 $\pi$ 下状态s的策略价值函数，为从状态s出发，能获得回报 $G_t$ 的期望( $G_t$ 是通过策略 $\pi$ 产生的马尔可夫链求期望得出)。

$q_{\pi}(s,a)$ 与 $V_{\pi}(s)$ 就相差一个在特定动作下，所以可以通过对 $q_{\pi}(s,a)$ 求期望，得到 $V_{\pi}(s)$ 。

2.2 Bellman Eqution–贝尔曼方程

$V(s)-G_t$ 的迭代关系–只涉及到MRP，没有动作空间

$v(s)=E[R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+....|S_t=s]\\ =E[R_{t+1}|S_t=s]+\gamma E[R_{t+2}+\gamma R_{t+3}+...|S_t=s]\\ =E[R_{t+1}|S_t=s]+\gamma E[G_{t+1}|S_t=s]\tag{0}$

第二部分收获的期望，等于收获期望的期望，不是很明白
$v(s)=R_s+\gamma E[v(S_{t+1})|S_t=s]\tag{1}$

$S_{t+1}$ 下一时刻的状态，依据下一时刻状态分布求其期望：
$v(s)=R_s+\gamma \sum_{s'\in S}p_{ss'}v(s')\tag{2}$

写成矩阵的形式可以解析求解v：
$V=R+\gamma PV\\=>V=(I-\gamma P)^{-1}RV=R+\gamma PV\\=>V=(I-\gamma P)^{-1}R\tag{3}$

2.3 Bellman Eqution–贝尔曼期望方程

在策略 $\pi$ 下的贝尔曼方程
$v_\pi(s)=\mathbb{E}[R_{t+1}+\gamma v_{\pi}(S_{t+1})|S_t=s]\tag{4}$

$q_\pi(s,a)=\mathbb{E}[R_{t+1}+\gamma v_{\pi}(S_{t+1})|S_t=s，A_t=a]\tag{5}$

两者之间的递推公式
$v_{\pi}(s)=\sum_{a\in A}\pi(a|s)q_\pi(s,a)\tag{6}$

$q_\pi(a,s)=R_s^a+\gamma \sum_{s'\in S}P^a_{ss'}v^\pi(s')\tag{7}$

引入动作后，状态价值v(s)与动作挂钩，现下的动作价值q(a,s) 通过动作状态转移 $P^a_{ss'}$ 和下一个时刻的状态价值v(s’) 计算

2.4 最优策略

策略 $\pi$ 的所有状态价值都大于该状态在其他策略下的价值。策略是一个离散的动作概率集合，调整动作概率选择，就可以达到最优策略。最优策略可能不止一个，所有最优策略具有相同的价值很函数和动作价值函数。
$\pi>=\pi'\ \ if\ \ v_\pi(s)>=v_{\pi'}(s),\forall s\tag{8}$

最优策略求解：选择/求解最大化行为价值函数对应的动作（在状态s下该执行什么动作）
$\pi_*(a|s)=1\ \ if \ \ a=\arg \max_{a\in A}q_*(s,a) \ \ else \ \ 0\tag{9}$

2.5 最优值函数

状态s的最优价值函数：状态s 在所有策略下价值函数的最大值。（最优策略对应的价值/动作价值函数，最优策略的定义）
$v_*(s)=\max_{\pi}v_\pi(s)\tag{10}$

最优动作状态值函数所有策略在该状态该动作下价值的最大值
$q_*(s,a)=\max_{\pi}q_\pi(s,a)\tag{11}$

2.6 Bellman Optimal Equation

最优状态价值：一个状态的最优价值= 最优策略 $\pi$ 下,从状态 $s$ 出发可采取的所有行为 $a$ ,行为价值最大值。
$v_*(s)=\max_{\pi}\max_{a}q_{\pi}(s,a)=\max_a q_*(s,a)\tag{12}$

最优行为价值函数，定义式：
$q_\pi(a,s)=R_s^a+\gamma \sum_{s'\in S}P^a_{ss'}v^\pi(s')\tag{13}$

式子（12）带入定义式：
$q_{*}(s,a)=R_s^a+\gamma \sum_{s'\in S} p^a_{ss'} \max_{a'}q_*(s'a')\tag{14}$
两者之间的迭代关系

3 lecture3 Planning by Dynamic Programming

已知：模型(P已知)+策略
求解：该策略价值函数、最优策略价值函数

DP–RL
DP	最优子问题(递归求解-自顶向下递归，自底向上递归)+子问题重复出现(tabel 记录)
RL	Bellman方程提供了递归求解表达式

1）递归表达式（状态转移方程）： $q_\pi(a,s)=R_s^a+\gamma \sum_{s'\in S}P^a_{ss'}v^\pi(s')$

2）更新(table)V(s) : $v_*(s)=\max_a q_*(s,a)$

3.1 策略迭代估计->策略改进

Step1: 策略迭代估计-- 给定策略下迭代更新价值函数，利用（12）式贝尔曼期望方程来更新。
$v_{k+1}(s)=\sum_{a\in A}\pi(a|s)[R^a_s+\gamma \sum_{s'\in S}P^a_{ss'}v_k(s')]\tag{15}$

其中 $v_k(s')$ 为上一轮迭代中s所有可能的下一状态s’的价值。

Step2: 策略改进–在当前策略下选取使后继状态价值增加的行为–动作选择

3.2 价值迭代–找最优策略

（不需要策略）

通过（22）式贝尔曼最优方程来求解
$v_{*}(s)=\max_{a\in A}(R^a_s+\gamma\sum_{s'\in S}P^a_{ss'}v_{*}(s'))\tag{16}$
– $v_{*}(s')$ 为下一个时刻状态的最优值，认为上一步的v是 $v_*$ ，max 的过程在进行动作选择

全部是迭代计算。

4.lecture4 Model Free Prediction

条件：模型未知(P未知)
估计：该策略价值函数、最优策略价值函数

本章需要回顾的一些公式：

1）采样数据 $x_1,x_2,...x_n,....$ 均值的在线更新公式（如下）。作用–用新的采样值 $x_k$ 更新均值 $\mu_{k-1}$ ：
$\mu_k=\frac{1}{k}\sum_{i=1}^{k}x_k\\=\frac{1}{k}(x_k+\sum_{i=1}^{k-1}x_i)\\=\frac{1}{k}(x_k+(k-1)\mu_{k-1})\\=\mu_{k-1}+\frac{1}{k}(x_k-\mu_{k-1})\tag{17}$

2）价值函数的定义式： $V(s_t)=E[G_t\|S_t=s]$

3） $G_t$ 的衰减和定义式子： $G_t=R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3,...,}$

4）贝尔曼方程递归求解价值函数： $V(s_t)=R_s+\gamma V(s_{t+1})$

4.1 蒙特卡洛学习–完全采样

在给定策略下，从一系列完整的Episode 中估计得到所有状态的价值函数。
（核心：状态价值使用采样Episode均值估计，而非所有的全Episode期望计算）
（完全说的是Episode是一条完整的链子）

增量式蒙特卡洛更新：
$N(s_t)=N(s_t)+1\\ v(s_t)=v(s_t)+\frac{1}{N(s_t)}(G_t-V(s_t))\tag{18}$

其中， $G_t$ 需要通过一条完整的Episode。

不明白 $\frac{1}{N(s_t)}$ 只是用 $\alpha$ 来表示，还是就使用一个固定的 $\alpha$

4.2 时序差分TD(n)–不完全采样

在给定策略下，从一系列不完整的Episode 中估计得到所有状态的价值函数。
主要区别：3)式更新式中的 $G_t$ 的近似求解:
$G_t=R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3,...,}\approx G_t^{(n)}=R_{t+1}+...+\gamma ^n V(s_{t+n})$

其中， $V(s_{t+1})$ 下一状态 $s_{t+1}$ 价值的非精确求解。

增量式时序差分更新：
$N(s_t)=N(s_t)+1\\ v(s_t)=v(s_t)+\frac{1}{N(s_t)}(R_{t+1}+\gamma V(s_{t+1})-V(s_t))\tag{18}$

$R_{t+1}+\gamma V(s_{t+1})$ 称为TD target, $R_{t+1}+\gamma V(s_{t+1})-V(s_t)$ 称为TD error。

依据 $G_t$ 中 $R_{t+i}$ 的计算步长，TD算法可以分为TD(n)算法，TD(n)算法表示n+1步return 计算。

4.3 TD( $\lambda$ )

结合蒙特卡洛更新和时序差分更新的优点，融合不同的n步return。
$G_t^{\lambda}=(1-\lambda)\sum_{n=1}^{\infty}\lambda^{n-1}G_t^{n}$

TD( $\lambda$ )前向更新式（理论计算）：
$v(s_t)=v(s_t)+\alpha(G_t^{\lambda}-V(s_t))\tag{18}$

TD( $\lambda$ )反向更新式（实际计算）–引入效用迹的概念，没有很明白：
$\delta_t=R_{t+1}+\gamma V(s_{t+1})-V(s_t)\\ v(s_t)=v(s_t)+\alpha \delta_t E_t(s)$

一个状态的效用： $E_t(s)=\gamma \lambda E_{t-1}(s)+1(s_t=s)$

5.lecture5 Model Free Control

条件：模型未知(P未知)
估计：该策略价值函数、最优策略价值函数（基于贪心策略来进行一些改进）

	不基于模型的两种策略
on policy learning	基于已有策略，更新价值，改进策略	sarsa
off policy learning	基于先验策略 $\mu$ ，更新价值，改进策略 $\pi$	Q-learning

5.1 SARSA

给定s --> 依据π产生a --> 环境反馈r,状态转换s’ --> 继续依据π产生a’ --> 计算Q(s’,a’) --> 更新q(s,a)

$Q(s,a)<-Q(s,a)+\alpha (R+\gamma Q(s',a')-Q(s,a))$

5.2 Q-learning

给定s --> 依据 $\mu$ 产生a --> 环境反馈r,状态转换s’ --> 依据π产生a’ --> 计算Q(s’,a’) --> 更新q(s,a)

$Q(s,a)<-Q(s,a)+\alpha (R+\gamma Q(s',a')-Q(s,a))$

$\mu=\epsilon - greedy$
$\pi = greedy$
本质：在状态s下，依据 $\mu=\epsilon - greedy$ 策略得到的行为a,可计算Q值，并将其朝着 s’ 状态下具有最大的Q值方向做一定比例的更行新。（因为用的时greedy 策略）

可以使得 $\epsilon - greedy$ 最终变成一个更优策略，但是

6. Value Function Approximation

6.1 DQN-Deep Q learning

用神经网络计算Q值，目标让 $Q_{\theta}(s,a)$ 和（sars’a’）计算出来的 $r+\gamma \max Q(s',a')$ 的误差平法和最小，优化参数 $\theta$ 使得Q值计算准确。

DQN 算法要点：
1.依据 $\epsilon-greedy$ 策略产生t时刻的行为
2.将大量的经历数据 $s_t,a_t,r_{t+1}s_{t+1})$ 存在内存里
3.从经历数据中随机抽取mini-batch $(s, a, r, a^{'})$
4.维护两个神经网络：net1,net2,一个网络固定参数用来产生目标值，另一个用来评估策略。更新参数
$L(w)=\mathbb{E}_{s,s,r,s'}[(Q(s,a|w)-(r+\gamma \max_{a'}Q(s',a'|w^-)))]$

其中 $w$ 在一个mini-batch中更新， $w^-$ 为上一轮更新的参数。

7.lecture7 Policy Gradient

直接将策略参数化为状态和行为的函数，利用累计奖励最大化来训练策略参数。
重要概念：似然比
$\nabla_{\theta}\pi_{\theta}(s,a)=\pi_{\theta}(s,a)\frac{\nabla_{\theta}\pi_{\theta}(s,a)}{\pi_{\theta}(s,a)}=\pi_{\theta}(s,a) \nabla_{\theta}\log\pi_{\theta}(s,a)$

7.1 Actor and Critics

Actor and Critics 算法出发点：相对准确估计状态价值，来指导策略更新。

1.在A-C算法中用critic来估计行为价值：
$Q_w(s,a)\approx Q^{\pi_{\theta}}(s,a)$

2.在A-C算法中用actor执行策略 $\pi_{\theta}$ ,使得critic估计的行为价值计算的累计回报最大：(对所有的s求期望)

$J=\mathbb{E}[Q(s_0,a)]=\sum_{s}\sum_{a}\pi(a|s)Q(s,a)$

策略更新梯度：
$\nabla_{\pi}J=\sum_{s}\nabla_{\theta}\log\pi_{\theta}(s,a)Q_w(s,a)$

a2c:advantage 的概念

初始OpenCV 指尖下的技术 OpenCV opencv 人工智能计算机视觉
OpenCV是一个功能强大、应用广泛的计算机视觉库，它为开发人员提供了丰富的工具和算法，可以帮助他们快速构建各种视觉应用。随着计算机视觉技术的不断发展，OpenCV也将会继续发挥重要的作用。OpenCV提供了大量的计算机视觉算法和图像处理工具，广泛应用于图像和视频的处理、分析以及机器学习领域。所以学习人计算机视觉或者图像处理方面的知识，OpenCV是一个要重点学习的工具库。首先介绍一下OpenCV
机器学习结合伏羲模型高精度多尺度气象分析与降尺度实现 Hardess-god WRF 算法人工智能
随着人工智能的发展，机器学习技术在气象预报领域展现出巨大潜力。本文详细探讨如何结合机器学习（ML）和伏羲模型进行高精度多尺度气象模拟分析，并提供详细的实现步骤和相关代码。1.研究目标与技术路线目标：结合机器学习模型与伏羲气象模式，实现区域和局地高精度降尺度。技术路线：伏羲模型提供大尺度气象数据和预报使用机器学习模型（如CNN、LSTM、XGBoost）进行降尺度2.数据准备与处理2.1气象数据获取
基于ChatGPT、GIS与Python机器学习的地质灾害风险评估、易发性分析、信息化建库及灾后重建高级实践 weixin_贾防洪评价风险评估滑坡泥石流地质灾害
第一章、ChatGPT、DeepSeek大语言模型提示词与地质灾害基础及平台介绍【基础实践篇】1、什么是大模型？大模型（LargeLanguageModel,LLM）是一种基于深度学习技术的大规模自然语言处理模型。代表性大模型：GPT-4、BERT、T5、ChatGPT等。特点：多任务能力：可以完成文本生成、分类、翻译、问答等任务。上下文理解：能理解复杂的上下文信息。广泛适配性：适合科研、教育、行
人脸识别的一些代码饿了就干饭 CV相关人脸识别
1、cv2入门函数imread及其相关操作2、（详解）opencv里的cv2.resize改变图片大小Python3、机器学习之人脸识别face_recognition使用4、使用face_recognition进行人脸校准5、简单的人脸识别通用流程示意图（这个看着写的挺好的）6、face_recognition和图像处理中left、top、right、bottom解释7、使用pillow库对图片
探索Python中的集成方法：Stacking Echo_Wish Python 笔记 Python 算法 python 开发语言
在机器学习领域，Stacking是一种高级的集成学习方法，它通过将多个基本模型的预测结果作为新的特征输入到一个元模型中，从而提高整体模型的性能和鲁棒性。本文将深入介绍Stacking的原理、实现方式以及如何在Python中应用。什么是Stacking？Stacking，又称为堆叠泛化（StackedGeneralization），是一种模型集成方法，与Bagging和Boosting不同，它并不直
【Python】 Stacking: 强大的集成学习方法音乐学家方大刚 Python python 集成学习开发语言
我们都找到天使了说好了心事不能偷藏着什么都一起做幸福得没话说把坏脾气变成了好沟通我们都找到天使了约好了负责对方的快乐阳光下的山坡你素描的以后怎么抄袭我脑袋想的薛凯琪《找到天使了》在机器学习中，单一模型的性能可能会受到其局限性和数据的影响。为了解决这个问题，我们可以使用集成学习（EnsembleLearning）方法。集成学习通过结合多个基模型的预测结果，来提高整体模型的准确性和稳健性。Stacki
Stacking算法：集成学习的终极武器 civilpy 算法集成学习机器学习
Stacking算法：集成学习的终极武器在机器学习的竞技场中，集成学习方法以其卓越的性能而闻名。其中，Stacking（堆叠泛化）作为一种高级集成技术，更是被誉为“集成学习的终极武器”。本文将带你深入了解Stacking算法的原理和实现，并提供一些实战技巧和最佳实践。1.Stacking算法原理探秘Stacking算法的核心思想是训练多个不同的基模型，并将它们的预测结果作为新模型的输入特征，以此来
集成学习（上）：Bagging集成方法万事可爱^ 机器学习修仙之旅 #监督学习集成学习机器学习人工智能 Bagging 随机森林
一、什么是集成学习？在机器学习的世界里，没有哪个模型是完美无缺的。就像古希腊神话中的"盲人摸象"，单个模型往往只能捕捉到数据特征的某个侧面。但当我们把多个模型的智慧集合起来，就能像拼图一样还原出完整的真相，接下来我们就来介绍一种“拼图”算法——集成学习。集成学习是一种机器学习技术，它通过组合多个模型（通常称为“弱学习器”或“基础模型”）的预测结果，构建出更强、更准确的学习算法。这种方法的主要思想是
【集成学习】：Stacking原理以及Python代码实现 Geeksongs 机器学习 python 机器学习深度学习人工智能算法
Stacking集成学习在各类机器学习竞赛当中得到了广泛的应用，尤其是在结构化的机器学习竞赛当中表现非常好。今天我们就来介绍下stacking这个在机器学习模型融合当中的大杀器的原理。并在博文的后面附有相关代码实现。总体来说，stacking集成算法主要是一种基于“标签”的学习，有以下的特点：用法：模型利用交叉验证，对训练集进行预测，从而实现二次学习优点：可以结合不同的模型缺点：增加了时间开销，容
windows使用ssh-copy-id命令的解决方案爱编程的喵喵 Windows实用技巧 windows ssh ssh-copy-id 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了windows使用ssh-copy-
PyTorch基础知识讲解（一）完整训练流程示例苏雨流丰机器学习 pytorch 人工智能 python 机器学习深度学习
文章目录Tutorial1.数据处理2.网络模型定义3.损失函数、模型优化、模型训练、模型评价4.模型保存、模型加载、模型推理Tutorial大多数机器学习工作流程涉及处理数据、创建模型、优化模型参数和保存训练好的模型。本教程向你介绍一个用PyTorch实现的完整的ML工作流程，并提供链接来了解这些概念中的每一个。我们将使用FashionMNIST数据集来训练一个神经网络，预测输入图像是否属于以下
机器学习中的贝叶斯网络：如何构建高效的风险预测模型 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术文章目录机器学习中的贝叶斯网络：如何构建高效的风险预测模型1.背景介绍2.基本概念术语说明2.1马尔科夫随机场（MarkovRandomField）2.2条件随机场（ConditionalRandomField，CRF）2.3变量elimination算法2.4贝叶斯网络3.核心算法原理和具体操作步骤以及数学公式讲解3.1原理介绍1.贝叶斯网络基础2.贝叶斯网络构建风险
使用 Milvus 进行向量数据库管理与实践 qahaj milvus 数据库 python
技术背景介绍在当今的AI与机器学习应用中，处理和管理大量的嵌入向量是一个常见的需求。Milvus是一个开源向量数据库，专门用于存储、索引和管理深度神经网络以及其他机器学习模型生成的大规模嵌入向量。它的高性能和易用性使其成为处理向量数据的理想选择。核心原理解析Milvus的核心功能体现在其强大的向量索引和搜索能力。它支持多种索引算法，包括IVF、HNSW等，使其能够高效地进行大规模向量的相似性搜索操
物理学不存在了？诺贝尔物理学奖颁给了人工智能资讯新鲜事人工智能
2024年10月8日，瑞典皇家科学院宣布，将2024年诺贝尔物理学奖授予美国普林斯顿大学教授约翰·J·霍普菲尔德（JohnJ.Hopfield）和加拿大多伦多大学教授杰弗里·E·辛顿（GeoffreyE.Hinton），以表彰他们“在人工神经网络机器学习方面的基础性发现和发明”。辛顿在接受电话采访时表示：“完全没想到”。实话实说，在结果出来前，大家也都没想到。因为在外界预测里，今年的诺贝尔物理学奖
PHP 爬虫实战：爬取淘宝商品详情数据 EcomDataMiner php 爬虫开发语言
随着互联网技术的发展，数据爬取越来越成为了数据分析、机器学习等领域的重要前置技能。而在这其中，爬虫技术更是不可或缺。php作为一门广泛使用的后端编程语言，其在爬虫领域同样也有着广泛应用和优势。本文将以爬取斗鱼直播数据为例，介绍php爬虫的实战应用。准备工作在开始爬虫之前，我们需要做一些准备工作。首先，需要搭建一个本地服务器环境，推荐使用WAMP、XAMPP等集成化工具，方便部署PHP环境。其次，我
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
模拟退火算法：原理、应用与优化策略尹清雅算法
摘要模拟退火算法是一种基于物理退火过程的随机搜索算法，在解决复杂优化问题上表现出独特优势。本文详细阐述模拟退火算法的原理，深入分析其核心要素，通过案例展示在函数优化、旅行商问题中的应用，并探讨算法的优化策略与拓展方向，为解决复杂优化问题提供全面的理论与实践指导，助力该算法在多领域的高效应用与创新发展。一、引言在现代科学与工程领域，复杂优化问题无处不在，如资源分配、路径规划、机器学习模型参数调优等。
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
机器学习是怎么一步一步由神经网络发展到今天的Transformer架构的？ yuanpan 机器学习神经网络 transformer
机器学习和神经网络的发展经历了一系列重要的架构和技术阶段。以下是更全面的总结，涵盖了从早期神经网络到卷积神经网络之前的架构演变：1.早期神经网络：感知机（Perceptron）时间：1950年代末至1960年代。背景：感知机由FrankRosenblatt提出，是第一个具有学习能力的神经网络模型。它由单层神经元组成，可以用于简单的二分类任务。特点：输入层和输出层之间直接连接，没有隐藏层。使用简单的
奇异值分解（SVD）文弱_书生乱七八糟神经网络人工智能
奇异值分解(SVD)介绍奇异值分解(SVD)，这是最强大的矩阵分解技术之一。SVD广泛应用于机器学习、数据科学和其他计算领域，用于降维、降噪和矩阵近似等应用。与仅适用于方阵的特征分解不同，SVD可以应用于任何矩阵，使其成为一种多功能工具。在这里煮啵将分解SVD背后的理论，通过手动计算示例进行分析，并展示如何在Python中实现SVD。在本节结束时，您将清楚地了解SVD的强大功能及其在机器学习中的应
yum install locate出现Error: Unable to find match: locate解决方案爱编程的喵喵 Linux解决方案 linux locate yum 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了yuminstalllocate出现
【人工智能机器学习基础篇】——深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理猿享天开人工智能数学基础专讲人工智能机器学习无监督学习降维
深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理在当今数据驱动的世界中，数据维度的增多带来了计算复杂性和存储挑战，同时也可能导致模型性能下降，这一现象被称为“维度诅咒”（CurseofDimensionality）。降维作为一种重要的特征提取和数据预处理技术，旨在通过减少数据的维度，保留其主要信息，从而简化数据处理过程，并提升模型的性能。本文将深入探讨两种广泛应用于无监督学习中的降
Flink启动任务 swg321321 flink 大数据
Flink以本地运行作为解读例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Flink前言StreamExecutionEnvironmentLocalExecutorMiniClusterStreamGraph二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
【机器学习】建模流程 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能线性回归逻辑回归
1、数据获取1.1来源数据获取是机器学习建模的第一步，常见的数据来源包括数据库、API、网络爬虫等。数据库是企业内部常见的数据存储方式，例如：MySQL、Oracle等关系型数据库，以及MongoDB等非关系型数据库，它们能够存储大量的结构化和非结构化数据API（应用程序编程接口）提供了从外部获取数据的便捷方式，例如：社交媒体平台的API可以获取用户发布的内容和互动信息网络爬虫则适用于从网页中提取
机器学习课堂4线性回归模型+特征缩放木尘152132 机器学习线性回归 python
一、实验2-2，线性回归模型，计算模型在训练数据集和测试数据集上的均方根误差代码：#2-2线性回归模型importpandasaspdimportnumpyasnpimportmatplotlib.pyplotasplt#参数设置iterations=3000#迭代次数learning_rate=0.0001#学习率m_train=3000#训练样本的数量flag_plot_lines=False
【机器学习】模型拟合 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能欠拟合过拟合
1、欠拟合1.1现象欠拟合是机器学习和统计建模中的一种常见问题，表现为模型无法充分捕捉数据中的潜在规律和模式。无论是训练数据还是测试数据，模型的预测误差都居高不下。在实际应用中，欠拟合的模型往往显得过于简单和粗糙，无法对数据进行有效的拟合和描述。1.2原因模型过于简单是导致欠拟合的主要原因：例如，使用直线去拟合具有明显曲线趋势的数据，或者使用低阶多项式去拟合高阶的复杂函数关系。这种情况下，模型的表
基于Python的智能决策支持系统：实现智能化决策的关键要素 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
文章目录基于Python的智能决策支持系统：实现智能化决策的关键要素11.背景介绍2.核心概念与联系数据收集与预处理模型构建与训练决策规则生成与优化决策结果评估与反馈3.核心算法原理具体操作步骤数据挖掘算法机器学习算法优化算法4.数学模型和公式详细讲解举例说明线性回归模型最小二乘法5.项目实践：代码实例和详细解释说明6.实际应用场景金融领域医疗领域供应链管理智能制造7.工具和资源推荐编程语言和开发
下一代模型技术演进与场景应用突破智能计算研究中心其他
内容概要当前模型技术正经历多维度的范式跃迁，可解释性模型与自动化机器学习（AutoML）成为突破传统黑箱困境的核心路径。在底层架构层面，边缘计算与量子计算的融合重构了算力分配模式，联邦学习技术则为跨域数据协作提供了安全可信的解决方案。主流框架如TensorFlow和PyTorch持续迭代优化能力，通过动态参数压缩与自适应超参数调优策略，显著提升模型部署效率。应用层创新呈现垂直化特征，医疗诊断模型通
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息