汀、人工智能

强化学习从基础到进阶-常见问题和面试必知必答[3]：表格型方法：Sarsa、Qlearning；蒙特卡洛策略、时序差分等以及Qlearning项目实战

【强化学习原理+项目专栏】必看系列：单智能体、多智能体算法原理+项目实战、相关技巧（调参、画图等、趣味项目实现、学术应用项目实现

专栏详细介绍：【强化学习原理+项目专栏】必看系列：单智能体、多智能体算法原理+项目实战、相关技巧（调参、画图等、趣味项目实现、学术应用项目实现

对于深度强化学习这块规划为：

基础单智能算法教学（gym环境为主）
主流多智能算法教学（gym环境为主）
- 主流算法：DDPG、DQN、TD3、SAC、PPO、RainbowDQN、QLearning、A2C等算法项目实战
一些趣味项目（超级玛丽、下五子棋、斗地主、各种游戏上应用）
单智能多智能题实战（论文复现偏业务如：无人机优化调度、电力资源调度等项目应用）

本专栏主要方便入门同学快速掌握强化学习单智能体|多智能体算法原理+项目实战。后续会持续把深度学习涉及知识原理分析给大家，让大家在项目实操的同时也能知识储备，知其然、知其所以然、知何由以知其所以然。

声明：部分项目为网络经典项目方便大家快速学习，后续会不断增添实战环节（比赛、论文、现实应用等）

专栏订阅（个性化选择）：
- 强化学习原理+项目专栏大合集-《推荐订阅☆☆☆☆☆》
- 强化学习单智能体算法原理+项目实战《推荐订阅☆☆☆☆》
- 强化学习多智能体原理+项目实战《推荐订阅☆☆☆☆☆》
- 强化学习相关技巧（调参、画图等《推荐订阅☆☆☆》）
- tensorflow_gym-强化学习:免费《推荐订阅☆☆☆☆》
- 强化学习从基础到进阶-案例与实践：免费《推荐订阅☆☆☆☆☆》

强化学习从基础到进阶-常见问题和面试必知必答[3]：表格型方法：Sarsa、Qlearning；蒙特卡洛策略、时序差分等以及Qlearning项目实战

1.核心词汇

概率函数和奖励函数：概率函数定量地表达状态转移的概率，其可以表现环境的随机性。但是实际上，我们经常处于一个未知的环境中，即概率函数和奖励函数是未知的。
Q表格：其表示形式是表格，其中表格的横轴为动作（智能体的动作），纵轴为环境的状态，每一个坐标点对应某时刻智能体和环境的状态，并通过对应的奖励反馈选择被执行的动作。一般情况下，Q表格是一个已经训练好的表格，不过我们也可以每执行一步，就对Q表格进行更新，然后用下一个状态的Q值来更新当前状态的Q值（即时序差分方法）。
时序差分（temporal difference，TD）方法：一种Q函数（Q值）的更新方式，流程是使用下一步的Q值 $Q(s_{t+1},a_{t+1})$ 来更新当前步的Q值 $Q(s_t,a_t)$ 。完整的计算公式如下： $Q(s_t,a_t) \leftarrow Q(s_t,a_t) + \alpha [r_{t+1}+\gamma Q(s_{t+1},a_{t+1})-Q(s_t,a_t)]$ 。
Sarsa算法：一种更新前一时刻状态的单步更新的强化学习算法，也是一种同策略学习算法。该算法由于每次更新Q函数时需要知道前一步的状态、动作、奖励以及当前时刻的状态、将要执行的动作，即 $s_{t}$ 、 $a_{t}$ 、 $r_{t+1}$ 、 $s_{t+1}$ 、 $a_{t+1}$ 这几个值，因此被称为 Sarsa 算法。智能体每进行一次循环，都会用 $s_{t}$ 、 $a_{t}$ 、 $r_{t+1}$ 、 $s_{t+1}$ 、 $a_{t+1}$ 对前一步的Q值（函数）进行一次更新。

2.常见问题汇总

2.1 构成强化学习的马尔可夫决策过程的四元组有哪些变量？

状态、动作、状态转移概率和奖励，分别对应 $(S, A, P, R)$ ，后面有可能会加上折扣因子构成五元组。

2.2 请通俗地描述强化学习的“学习”流程。

可以将强化学习的“学习”流程类比于人类的学习流程。人类学习就是尝试每一条路，并记录尝试每一条路后的最终结果。在人类尝试的过程中，其实就可以慢慢地了解到哪一条路（对应于强化学习中的状态概念）会更好。我们用价值函数 $V (s)$ 来定量表达该状态的优劣，然后用Q函数来判断在什么状态下做什么动作能够得到最大奖励，在强化学习中我们用Q函数来表示状态-动作值。

2.3 请描述基于Sarsa算法的智能体的学习过程。

对于环境和智能体。两者每交互一次以后，智能体都会向环境输出动作，接着环境会反馈给智能体当前时刻的状态和奖励。那么智能体此时会进行两步操作：

（1）使用已经训练好的Q表格，对应环境反馈的状态和奖励选取对应的动作进行输出。

（2）我们已经拥有了 $s_{t}, a_{t}, r_{t+1}, s_{t+1}, a_{t+1})$ 这几个值，并直接使用 $a_{t+1}$ 更新我们的Q表格。

2.4 Q学习算法和Sarsa算法的区别是什么？

Sarsa算法是Q学习算法的改进（这句话可参考论文 “On-Line Q-Learning Using Connectionist Systems”的摘要部分），详细描述如下。

（1）首先，Q学习是异策略的时序差分学习方法，而 Sarsa 算法是同策略的时序差分学习方法。

（2）其次，Sarsa算法在更新Q表格的时候所用到的 $a^{'}$ 是获取下一个Q值时一定会执行的动作。这个动作有可能是用 $\varepsilon$ -贪心方法采样出来的，也有可能是 $\mathrm{max}_Q$ 对应的动作，甚至是随机动作。

（3）但是Q学习在更新Q表格的时候所用到的Q值 $Q (S^{'}, a^{'})$ 对应的动作不一定是下一步会执行的动作，因为下一步实际会执行的动作可能是因为进一步的探索而得到的。Q学习默认的动作不是通过行为策略来选取的，它默认 $a^{'}$ 为最佳策略对应的动作，所以Q学习算法在更新的时候，不需要传入 $a^{'}$ ，即 $a_{t+1}$ 。

（4）更新公式的对比（区别只在目标计算部分）。

Sarsa算法的公式： $r_{t+1}+\gamma Q(s_{t+1}, a_{t+1})$ 。

Q学习算法的公式： $r_{t+1}+\gamma \underset{a}{\max} Q\left(s_{t+1}, a\right)$ 。

总结起来，Sarsa算法实际上是用固有的策略产生 { $S, A, R, S^{'}, A^{'}$ } 这一条轨迹，然后使用 $Q(s_{t+1},a_{t+1})$ 更新原本的Q值 $Q(s_t,a_t)$ 。但是Q学习算法并不需要知道实际上选择的动作，它默认下一个动作就是Q值最大的那个动作。所以Sarsa算法的动作通常会更加“保守胆小”，而对应的Q学习算法的动作会更加“莽撞激进”。

2.5 同策略和异策略的区别是什么？

Sarsa算法就是一个典型的同策略算法，它只用一个 $\pi$ ，为了兼顾探索和开发，它在训练的时候会显得有点儿“胆小怕事”。它在解决悬崖寻路问题的时候，会尽可能地远离悬崖边，确保哪怕自己不小心向未知区域探索了一些，也还是处在安全区域内，不至于掉入悬崖中。

Q学习算法是一个比较典型的异策略算法，它有目标策略（target policy），用 $\pi$ 来表示。此外还有行为策略（behavior policy），用 $\mu$ 来表示。它分离了目标策略与行为策略，使得其可以大胆地用行为策略探索得到的经验轨迹来优化目标策略。这样智能体就更有可能探索到最优的策略。

比较Q学习算法和Sarsa算法的更新公式可以发现，Sarsa算法并没有选取最大值的操作。因此，Q学习算法是非常激进的，其希望每一步都获得最大的奖励；Sarsa算法则相对来说偏保守，会选择一条相对安全的迭代路线。

3.面试必知必答

3.1 友善的面试官：同学，你能否简述同策略和异策略的区别呢？

同策略和异策略的根本区别在于生成样本的策略和参数更新时的策略是否相同。对于同策略，行为策略和要优化的策略是同一策略，更新了策略后，就用该策略的最新版本对数据进行采样；对于异策略，其使用任意行为策略来对数据进行采样，并利用其更新目标策略。例如，Q学习在计算下一状态的预期奖励时使用了最大化操作，直接选择最优动作，而当前策略并不一定能选择到最优的动作，因此这里生成样本的策略和学习时的策略不同，所以Q学习算法是异策略算法；相对应的Sarsa算法则是基于当前的策略直接执行一次动作选择，然后用动作和对应的状态更新当前的策略，因此生成样本的策略和学习时的策略相同，所以Sarsa算法为同策略算法。

3.2 友善的面试官：能否细致地讲一下Q学习算法，最好可以写出其 $Q (s, a)$ 的更新公式。另外，它是同策略还是异策略，原因是什么呢？

Q学习是通过计算最优动作价值函数来求策略的一种时序差分的学习方法，其更新公式为

$\leftarrow Q(s, a) + \alpha [r(s,a) + \gamma \max_{a'} Q(s', a') - Q(s, a)]$

其是异策略的，由于Q更新使用了下一个时刻的最大值，因此其只关心哪个动作使得 $Q(s_{t+1}, a)$ 取得最大值，而实际上到底采取了哪个动作（行为策略），Q学习并不关心。这表明优化策略并没有用到行为策略的数据，所以说它是异策略的。

3.3 友善的面试官：好的，看来你对于Q学习算法很了解，那么能否讲一下与Q学习算法类似的Sarsa算法呢，最好也可以写出其对应的 $Q (s, a)$ 更新公式。另外，它是同策略还是异策略，为什么？

Sarsa算法可以算是Q学习算法的改进，其更新公式为

$\leftarrow Q(s, a) + \alpha [r(s,a) + \gamma Q(s', a') - Q(s, a)]$

其为同策略的，Sarsa算法必须执行两次动作得到 $(s, a, r, s^{'}, a^{'})$ 才可以更新一次；而且 $a^{'}$ 是在特定策略 $\pi$ 的指导下执行的动作，因此估计出来的 $Q (s, a)$ 是在该策略 $\pi$ 下的Q值，样本生成用的 $\pi$ 和估计的 $\pi$ 是同一个，因此是同策略。

3.4 友善的面试官：请问基于价值的方法和基于策略的方法的区别是什么？

（1）生成策略上的差异，前者确定，后者随机。基于价值的方法中动作-价值对的估计值最终会收敛（通常是不同的数，可以转化为0～1的概率），因此通常会获得一个确定的策略；基于策略的方法不会收敛到一个确定的值，另外他们会趋向于生成最佳随机策略。如果最佳策略是确定的，那么最优动作对应的值函数的值将远大于次优动作对应的值函数的值，值函数的大小代表概率的大小。

（2）动作空间是否连续，前者离散，后者连续。基于价值的方法，对于连续动作空间问题，虽然可以将动作空间离散化处理，但离散间距的选取不易确定。过大的离散间距会导致算法取不到最优动作，会在最优动作附近徘徊；过小的离散间距会使得动作的维度增大，会和高维度动作空间一样导致维度灾难，影响算法的速度。而基于策略的方法适用于连续的动作空间，在连续的动作空间中，可以不用计算每个动作的概率，而是通过正态分布选择动作。

（3）基于价值的方法，例如Q学习算法，是通过求解最优价值函数而间接地求解最优策略；基于策略的方法，例如REINFORCE等算法直接将策略参数化，通过策略搜索、策略梯度或者进化方法来更新参数以最大化回报。基于价值的方法不易扩展到连续动作空间，并且当同时采用非线性近似、自举等策略时会有收敛问题。策略梯度具有良好的收敛性。

（4）另外，对于价值迭代和策略迭代，策略迭代有两个循环，一个是在策略估计的时候，为了求当前策略的价值函数需要迭代很多次；另一个是外面的大循环，即策略评估、策略提升。价值迭代算法则是一步到位，直接估计最优价值函数，因此没有策略提升环节。

3.5 友善的面试官：请简述一下时序差分方法。

时序差分算法是使用广义策略迭代来更新Q函数的方法，核心是使用自举，即价值函数的更新使用下一个状态的价值函数来估计当前状态的价值。也就是使用下一步的Q值 $Q(s_{t+1},a_{t+1})$ 来更新当前步的Q值 $Q(s_t,a_t) $。完整的计算公式如下：

$Q(s_t,a_t) \leftarrow Q(s_t,a_t) + \alpha [r_{t+1}+\gamma Q(s_{t+1},a_{t+1})]$

3.6 友善的面试官：请问蒙特卡洛方法和时序差分方法是无偏估计吗？另外谁的方差更大呢？为什么？

蒙特卡洛方法是无偏估计，时序差分方法是有偏估计；蒙特卡洛方法的方差较大，时序差分方法的方差较小，原因在于时序差分方法中使用了自举，实现了基于平滑的效果，导致估计的价值函数的方差更小。

3.7 友善的面试官：能否简单说一下动态规划方法、蒙特卡洛方法和时序差分方法的异同点？

相同点：都用于进行价值函数的描述与更新，并且所有方法都基于对未来事件的展望计算一个回溯值。

不同点：蒙特卡洛方法和时序差分方法属于免模型方法，而动态规划属于有模型方法；时序差分方法和蒙特卡洛方法，因为都是免模型的方法，所以对于后续状态的获知也都是基于试验的方法；时序差分方法和动态规划方法的策略评估，都能基于当前状态的下一步预测情况来得到对于当前状态的价值函数的更新。

另外，时序差分方法不需要等到试验结束后才能进行当前状态的价值函数的计算与更新，而蒙特卡洛方法需要与环境交互，产生一整条马尔可夫链并直到最终状态才能进行更新。时序差分方法和动态规划方法的策略评估不同之处为免模型和有模型，动态规划方法可以凭借已知转移概率推断出后续的状态情况，而时序差分方法借助试验才能知道。

蒙特卡洛方法和时序差分方法的不同在于，蒙特卡洛方法进行了完整的采样来获取长期的回报值，因而在价值估计上会有更小的偏差，但是也正因为收集了完整的信息，所以价值的方差会更大，原因在于其基于试验的采样得到，和真实的分布有差距，不充足的交互导致较大方差。而时序差分方法则相反，因为它只考虑了前一步的回报值，其他都是基于之前的估计值，因而其价值估计相对来说具有偏差大方差小的特点。

三者的联系：对于TD( $\lambda$ )方法，如果 $\lambda = 0$ ，那么此时等价于时序差分方法，即只考虑下一个状态；如果 $\lambda = 1$ ，等价于蒙特卡洛方法，即考虑 $T - 1$ 个后续状态直到整个试验结束。

linux深度学习问题汇总不想改代码备忘录 linux python 深度学习 pytorch 人工智能 1024程序员节
目录一、异常问题1.segementationfault(coredump)2.Illegalinstruction(coredumped)3.死锁4.掉卡二、通用方法1.查看重启记录2.系统性能监控3.后台执行命令4.异常日志三、深度学习技术1.普通网络改DDP训练，单机多卡，pytorch四、专业内容方法1.微调diffusion类模型本文记录一些在使用linux服务器进行深度学习时遇到的问题
提升首屏加载的秘密武器：一文讲透 CDN 加速核心逻辑网罗开发实战源码前端 json javascript
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
量化AI价值的30个关键指标 mao_feng 人工智能 AI
摘要：量化AI的战略价值人工智能（AI）成功集成到业务运营中超越了单纯的技术部署;它需要一种严格、可量化的方法来展示其价值。本报告系统地分类并解释了评估AI优势的基本指标，从核心模型性能到总体战略和道德考虑因素。必须制定多方面的衡量策略，将技术AI指标与运营效率、客户体验、财务绩效、战略优势和负责任的AI实践等有形业务成果直接联系起来。稳健的关键绩效指标（KPI）不仅仅是问责制的工具;它们是持续改
Django REST framework - 限流 djangopython
概述就像权限控制一样，限流用于决定是否授权请求。限流表示一种临时状态，用于控制客户端可以向API发送请求的速率。就像权限控制一样，可以使用多个限流策略。例如，你的API可能对未认证请求设置严格的限流策略，而对已认证请求设置宽松的限流策略。如果不同部分的API由于某些服务资源消耗较高，需要施加不同的限制，也可以使用多个限流策略。此外，还可以同时使用突发流量限流和持续流量限流，例如将用户限制为每分钟最
信创软件的架构、设计、推进实施策略等参考极创信息 java 面试大数据
随着软硬件基础设施的推进和完善，各类信创生态的软件应用可能会成为新的热点。产品型软件VS项目型软件一、产品型开发产品型软件开发是以开发和销售可复制的标准化软件产品为目标，通常面向广泛的市场用户。开发完成后，产品可以被多个客户购买和使用。特点:通用性：产品设计追求广泛适用性，能够满足多个客户的共性需求。可复用性：一次开发，重复销售。市场驱动：以市场调研和用户反馈为主要驱动，持续改进。版本管理：定期发
【AI】AI大模型发展史：从理论探索到技术爆发不想当程序汪的第N天 AI 人工智能
一、早期探索阶段—理论与技术奠基1.1符号主义与连接主义的博弈20世纪50-70年代，符号主义AI主导研究方向，通过专家系统模拟人类逻辑推理，但受限于计算能力和数据规模。80年代连接主义AI兴起，以神经网络为核心，反向传播算法的提出为深度学习奠定基础。1.2神经网络初步实践1980年：卷积神经网络（CNN）雏形诞生1998年：LeNet-5模型成功应用于手写数字识别，成为首个商用深度学习模型关键局
如何设计一个聊天系统？
设计一个聊天系统涉及多个模块，包括消息传输、用户管理、存储策略、状态同步、高可用等。下面我从系统设计角度为你分层展开一个具备扩展性与高可用能力的聊天系统设计方案：✅一、需求定义（可根据实际调整）1.1基础功能用户注册/登录一对一私聊群聊离线消息消息撤回/删除在线状态显示多端同步（Web、移动、桌面）1.2非功能需求高并发（百万连接）实时性（RTT<100ms）高可用/可扩展消息可靠性保证支持水平扩
【AI大模型】23、构建你的西部世界：AI小镇具身智能实战指南无心水 AI大模型人工智能 AI小镇搭建具身智能实战智能体系统架构提示语工程优化虚拟社会构建 AI大模型
引言：从代码到虚拟社会的奇妙旅程在人工智能领域，具身智能的发展正引领着一场新的革命。当我们谈论构建一个类似《西部世界》的虚拟社会时，我们不仅在创造一个数字游乐场，更是在探索智能体如何在模拟环境中展现出类似人类的认知、社交和决策能力。本文将带领你踏上一段激动人心的旅程，从底层架构到上层应用，全面解析如何利用提示语工程构建一个充满活力的AI小镇。想象一下，你将成为这个虚拟世界的造物主，通过精心设计的提
如何确保京东商品数据采集的准确性和及时性？电商数据girl 电商ERP项目接口京东API接口数据库 java 开发语言 python 大数据爬虫
为确保京东商品数据的准确性和及时性，需从数据源选择、采集策略优化、反爬机制应对、数据验证等多维度实施系统性方案。以下是具体措施：一、确保数据准确性的核心方法1.优先选择官方可靠数据源使用京东开放平台API：官方API（如商品详情接口、价格接口）直接对接京东数据库，数据误差率极低。需注意按接口规范申请权限（如商品数据需通过“商品API”获取），避免因非官方渠道解析导致字段错位（如误将促销价识别为原价
九章数学体系：定义域无界化——AI鲁棒性的“隐形杀手“ 九章数学体系数学建模拓扑学人工智能神经网络
九章数学体系：定义域无界化——AI鲁棒性的"隐形杀手"摘要传统人工智能模型在面对边缘场景时常常表现出鲁棒性不足的问题，本文深入分析发现，这种现象的本质根源在于模型缺乏显式的定义域约束，导致无界化假设成为影响AI鲁棒性的"隐形杀手"。文章系统阐述了无界假设如何引发对抗样本脆弱性和数值不稳定等核心问题，并引入九章数学体系的定义域约束理论，为解决这些问题提供了全新的数学视角和工程实现路径。研究表明，通过
从单一设备到万物互联：鸿蒙生态崛起的未来之路王子良. 经验分享 harmonyos 华为
目录一、引言：开启智能时代的钥匙二、鸿蒙生态概述：跨设备协同的核心价值三、开发者机遇与挑战：抓住鸿蒙崛起的机会四、鸿蒙生态崛起的前景：万物互联的未来五、开发者在鸿蒙生态中的实践机遇与挑战1.跨设备开发的机遇2.与人工智能和物联网结合的创新空间3.持续创新与生态完善的挑战六、鸿蒙生态未来的多维发展：智能硬件与大数据的深度结合1.智能硬件与大数据的结合2.在智能家居与城市管理中的应用3.行业领域的深度
OpenCV让Python实现人脸特征点检测 Python编程之道 Python编程之道 opencv python 人工智能 ai
OpenCV让Python实现人脸特征点检测关键词：OpenCV、Python、人脸检测、特征点定位、计算机视觉、Dlib、深度学习摘要：本文将深入探讨如何使用OpenCV和Python实现人脸特征点检测。我们将从基础概念开始，逐步介绍人脸检测和特征点定位的核心算法原理，包括传统的Haar级联检测器和基于深度学习的Dlib面部特征点检测器。文章将提供详细的代码实现和数学原理讲解，并通过实际项目案例
考取华为HCIE-AI有什么用？博睿谷IT99_ 华为人工智能华为认证职业规划
在人工智能技术重塑各行各业的浪潮中，掌握核心AI能力成为专业人士的制胜关键。华为推出的HCIE-AISolutionArchitect（华为认证ICT专家-AI解决方案架构师），正是面向这一领域顶尖人才设立的最高级别认证。主要是为了培养和认证掌握人工智能解决方案架构、设计与应用知识，具备大模型业务场景分析、大模型训练与微调、模型推理部署能力的专家级人才。一、HCIE-AI：专家级能力的权威认证HC
多模态实操第一弹：多模态AI是什么？能做什么？江凯吴杰多模态的尝试人工智能
多模态AI专栏第一期：多模态人工智能概述与应用你是否想过，AI如何像人一样同时"看、听、说"？本期专栏将带你深入了解多模态AI的核心原理、发展脉络、关键技术、典型应用，并为后续实战打下坚实基础。最后，我们将详细介绍本系列所用的ERIT数据集及其任务背景。目录1.什么是多模态AI？2.多模态AI的发展历程3.多模态AI的核心技术4.多模态AI的应用场景5.多模态AI的挑战与机遇6.专栏预告与ERIT
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等深度科研 Yolo566Q chatgpt 语言模型数据分析
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等 xiao5kou4chang6kai4 人工智能深度学习机器学习 rnn 语言模型 lstm 深度学习机器学习人工智能 DeepSeek
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
十分钟了解人工智能的过去、现在与未来 ithadoop 人工智能人工智能
十分钟了解人工智能的过去、现在与未来人工智能(AI)作为重塑人类社会的技术革命，正以前所未有的速度改变着我们的工作方式、生活方式和思维方式。从1943年人工神经元模型的提出，到2025年AI应用场景的全面爆发，AI发展经历了多个关键阶段。在接下来的十分钟里，我们将通过图文解说，快速了解AI从萌芽到现在的历程，以及未来可能带来的机遇与挑战。一、人工智能的过去：从理论奠基到技术突破1.萌芽阶段(194
分布式系统的强一致性基石：Raft共识算法深度解析与技术实现 LCG元 Python 信息系统共识算法 python 区块链
目录一、Raft设计哲学与核心概念1.1可理解性设计三原则1.2核心数据结构定义二、核心机制实现解析2.1领导选举机制2.2日志复制机制三、异常处理与工程优化3.1典型故障场景处理3.2性能优化策略四、工业级实现关键代码4.1日志一致性检查4.2状态机应用逻辑五、Raft与其他协议对比六、生产环境最佳实践在分布式系统领域，Raft算法通过强领导者模型和模块化分解设计，将复杂的一致性难题转化为可落地
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模 asyxchenchong888 chatgpt 语言模型机器学习
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等科研应用科研的力量人工智能 ChatGPT chatgpt 语言模型数据分析
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
前端使用Axios时的跨域问题 itanly 前端
跨域问题的本质跨域问题源于浏览器的同源策略（Same-OriginPolicy），该策略限制了不同源（协议、域名、端口任一不同）之间的资源交互。Axios作为HTTP客户端，在浏览器环境中受此策略约束。后端配置CORS最标准的解决方案是后端配置CORS（跨域资源共享）。以下是Node.jsExpress框架的示例配置：constexpress=require('express');constcor
探索 AI 系统提示与模型资源库：`system-prompts-and-models-of-ai-tools` 几道之旅人工智能智能体及数字员工人工智能
在当今的人工智能领域，系统提示和工具模型的优化与应用对于提升AI助手的性能和响应质量至关重要。x1xhlol开源的system-prompts-and-models-of-ai-tools仓库为开发者们提供了一个丰富的资源集合，涵盖了多种AI工具的系统提示、工具和模型。仓库概述这个仓库包含了超过7500行的代码和文档，详细介绍了多个知名AI工具的系统提示和相关模型，其中包括FULLv0、Curso
2025年抖音面试：抖音生活服务连锁生态治理运营专家面试王国平字节跳动职位面试攻略面试生活人工智能产品运营职场和发展大数据
目录一、抖音生活服务平台概述1.1平台背景与发展现状1.2平台战略发展方向二、连锁生态在抖音平台的特点与挑战
深入理解栈的合法弹出序列验证算法
引言在计算机科学中，栈(Stack)是一种非常重要的数据结构，它遵循"后进先出"(LIFO)的原则。栈在编程语言实现、算法设计、系统调用等方面有着广泛的应用。今天，我们将深入探讨一个关于栈的经典问题：如何验证一个给定的弹出序列是否是某个压入序列的合法弹出序列。这个问题看似简单，却蕴含着栈操作的精髓，也是许多算法面试中的常见题目。问题描述给定两个整数序列，第一个序列表示栈的压入顺序，请判断第二个序列
2025年中总结 Just Jump 人生经历思考反思认知方法 2025年中总结
2025年中总结。一如往年惯例，总结近半年工作中的体悟和经验。一、把大而难的事拆解成小而具体的小目标。专注解决小目标，每周迭代交付，先完成再完善。1.1把大任务拆解成具体可执行的小目标2025年5月起我开始做大模型相关的技术调研、技术升级和开发工作。传统的机器学习、深度学习算法和大模型的算法在技术知识上还是有很大的差异的。想要快速转型使用大模型做开发、训练，是需要些时间和精力投入的，这并不是一个简
从“能讲”到“非你不可”的创始人IP超级定位策略|创客匠人创客匠人老蒋创客匠人商业思维知识变现创始人IP
一、定位偏差：知识变现困境的根源许多知识创业者面临这样的矛盾：内容专业度高却无人问津，努力输出却难以变现。创客匠人创始人老蒋在接触无数教育工作者后发现，核心问题在于缺乏“非你不可”的定位逻辑。70多岁的孙老师为听媛姐课程从千里之外赶来，正是因为课程定位精准切中了他的需求痛点——这印证了一个事实：用户买单的不是“内容”本身，而是“解决自身问题的唯一性方案”。二、超级定位的底层逻辑：打造用户心智中的“
AI人工智能中LSTM在视频行为识别的应用
AI人工智能中LSTM在视频行为识别的应用关键词：LSTM、视频行为识别、深度学习、时序建模、计算机视觉、神经网络、动作识别摘要：本文将深入探讨LSTM（长短期记忆网络）在视频行为识别领域的应用。我们将从基础概念出发，逐步讲解LSTM如何解决视频时序建模的挑战，分析其核心算法原理，并通过实际代码示例展示LSTM在行为识别中的具体实现。文章还将探讨当前的应用场景、工具资源以及未来发展趋势，为读者提供
SafeMimic：迈向安全自主的人-到-机器人模仿移动操作三谷秋水智能体机器学习人工智能安全机器人人工智能机器学习
25年6月来自德州Austin分校的论文“SafeMimic:TowardsSafeandAutonomousHuman-to-RobotImitationforMobileManipulation”。机器人要想成为高效的家居助手，必须学会仅通过观察人类操作即可完成新的移动操作任务。仅凭人类的单个视频演示进行学习极具挑战性，因为机器人需要首先从演示中提取需要完成的任务及其方法，将策略从第三人称视角
多模态AI：让机器像人一样“全感官”理解世界 Echo_Wish 前沿技术人工智能人工智能
多模态AI：让机器像人一样“全感官”理解世界咱们人类理解世界，从来不是只靠单一感官：眼睛看到画面，耳朵听到声音，皮肤感受到温度，嘴巴尝到味道，甚至鼻子闻到气味。正是这多感官的“多模态”输入，构筑了我们对复杂世界的深刻认知。而人工智能领域的多模态学习（MultimodalLearning），正是让机器拥有“多感官”理解能力的技术突破。今天，我想跟大家聊聊：多模态学习为何重要？当前有哪些创新模型？如何
2-感知机学习算法罗东琦统计学习笔记
感知机模型感知机学习策略学习算法算法收敛性对偶形式与线性SVM的异同感知机（perceptron）是一个线性二分类模型，其目的是寻找一个超平面将正负示例划分开，属于判别模型，也是神经网络与SVM的基础。感知机模型假设输入空间为χ⊆Rnχ⊆Rn，输出空间为Υ⊆{+1,−1}Υ⊆{+1,−1}。输入x∈χx∈χ表示实例的特征向量，输出y∈Υy∈Υ表示实例的类别。则下面的函数f(x)=sign(w⋅x+
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p

强化学习从基础到进阶-常见问题和面试必知必答[3]：表格型方法：Sarsa、Qlearning；蒙特卡洛策略、时序差分等以及Qlearning项目实战

强化学习从基础到进阶-常见问题和面试必知必答[3]：表格型方法：Sarsa、Qlearning；蒙特卡洛策略、时序差分等以及Qlearning项目实战

1.核心词汇

2.常见问题汇总

2.1 构成强化学习的马尔可夫决策过程的四元组有哪些变量？

2.2 请通俗地描述强化学习的“学习”流程。

2.3 请描述基于Sarsa算法的智能体的学习过程。

2.4 Q学习算法和Sarsa算法的区别是什么？

2.5 同策略和异策略的区别是什么？

3.面试必知必答

3.1 友善的面试官：同学，你能否简述同策略和异策略的区别呢？

3.2 友善的面试官：能否细致地讲一下Q学习算法，最好可以写出其 Q ( s , a ) Q(s,a) Q(s,a) 的更新公式。另外，它是同策略还是异策略，原因是什么呢？

3.3 友善的面试官：好的，看来你对于Q学习算法很了解，那么能否讲一下与Q学习算法类似的Sarsa算法呢，最好也可以写出其对应的 Q ( s , a ) Q(s,a) Q(s,a) 更新公式。另外，它是同策略还是异策略，为什么？

3.4 友善的面试官：请问基于价值的方法和基于策略的方法的区别是什么？

3.5 友善的面试官：请简述一下时序差分方法。

3.6 友善的面试官：请问蒙特卡洛方法和时序差分方法是无偏估计吗？另外谁的方差更大呢？为什么？

3.7 友善的面试官：能否简单说一下动态规划方法、蒙特卡洛方法和时序差分方法的异同点？

你可能感兴趣的:(#,面试,人工智能,强化学习,深度学习,蒙特卡洛策略)

3.2 友善的面试官：能否细致地讲一下Q学习算法，最好可以写出其 $Q (s, a)$ 的更新公式。另外，它是同策略还是异策略，原因是什么呢？

3.3 友善的面试官：好的，看来你对于Q学习算法很了解，那么能否讲一下与Q学习算法类似的Sarsa算法呢，最好也可以写出其对应的 $Q (s, a)$ 更新公式。另外，它是同策略还是异策略，为什么？