ClownXu1130

强化学习之最基础篇（算法实现及基础案例学习）

本博客接着上一篇“强化学习之最基础篇”而来，是基于上一篇的博客进一步的探究，因为前一篇博客完全是对于基本概念的介绍以及基本算法的熟悉，这一篇便是偏应用，讲理论的算法加以实现，并且跑了一个小游戏从而感受一下强化学习的魅力。

背景：在PA公司实习期间，由于公司每周都会有分享会，大家轮着来分享自己的研究学习成果（我感觉其实很不错），然后就轮到了我，临危受命，老大让我这次分享强化学习，此前对此我一无所知，于是硬着头皮来了，就产生了上一篇的博客，上一篇分享之后老大又从工程方面想我发问，比如强化学习相对于传统的监督、半监督的优势在哪？它适合是什么样的数据集？怎样将强化学习应用于实际工作中？所以老大就是老大，处处都是从工程角度出发考虑问题，可以让我学习一波，就这样我开始了第二次小组每周分享会。

任务：实现强化学习算法，跑一个案例，分析强化学习的优势等等

废话说明：由于公司小组分享会是以ppt+讲解的形势呈现，所以本次博客内容主要来自于ppt截图（ps:我知道你对我很无奈），鉴于ppt内容过于简介，于是该解释之处我也有些许说明，总的来说此博客更像是本人的笔记，而非分享大家的博客，可能是我太懒吧，没去仔细整理，不过有问题还是可以探讨交流的，毕竟我也是菜鸟！；另外分享内容过于简单，内容较少，其实也就是一个DQN大致的介绍和基本的演示，并没有深度的算法分析和实现解析，让大家失望了，所以博客的结尾会有彩蛋（我的学习基本依赖于周志华老师的西瓜书（链接）以及莫烦大神的强化学习系列课程（链接），以下内容基本上来源于他们）。

开始吧！：

1、

2、

由于此次所演示案例使用算法为新的算法（前一次博客并未提及，于是在算法实现及案例分析之前先介绍一下基本的算法知识作为引入）
上一篇中大致介绍了Sarsa算法，我们可以看上图中的左侧的Sarsa算法，算法第6行状态值函数的估计和第4行动作的执行都是用了第5行产生的动作a’，也就是说状态值函数Q和动作执行是利用相同的动作来进行的，所以Sarsa也称为同策略学习算法。
不同于左侧的Sarsa算法，右侧的Q-learning算法在状态值函数Q的估计和动作的执行时是采用了不同的动作a进行的，具体的看算法第6行是用第5行产生的动作a（当前策略下最优的动作a）来进行状态值函数的估计，而算法第4行在执行动作时时重新计算出新的动作（当前策略加上ε-贪心算法）来执行，也就是说该算法在状态值函数的估计和动作执行时所采用的动作是不同的，因此Q-learning也称为异策略学习算法。
差异：我们可以看出两种算法其实基本类似，除了上面所提到的差别，那么这么做是为什么呢？（这里借用莫烦大神的话，后面再说说他的niubility）从算法来看, 这就是他们两最大的不同之处了. 因为 Sarsa 是说到做到型, 所以我们也叫他 on-policy, 在线学习, 学着自己在做的事情. 而 Q learning 是说到但并不一定做到, 所以它也叫作 Off-policy, 离线学习. 而因为有了 maxQ, Q-learning 也是一个特别勇敢的算法.为什么说他勇敢呢, 因为 Q learning 机器人永远都会选择最近的一条通往成功的道路, 不管这条路会有多危险. 而 Sarsa 则是相当保守, 他会选择离危险远远的, 拿到宝藏是次要的, 保住自己的小命才是王道. 这就是使用 Sarsa 方法的不同之处.

3、

在上面的简单分析中，我们使用表格来表示Q(s,a)，但是这个在现实的很多问题上是几乎不可行的，因为状态实在是太多。使用表格的方式根本存不下。我们是不可能通过表格来存储状态的。我们有必要对状态的维度进行压缩，解决办法就是价值函数近似Value Function Approximation，于是它就可以对连续状态空间的值函数进行学习了。

4、

为什么叫近似?因为我们并不知道Q值的实际分布情况，本质上就是用一个函数来近似Q值的分布，所以，也可以说是也将更方便的进行Q-Learning中动作的选择与Q值更新

5、

DQN简单来说就是Q-learning+CNN
训练是一个最优化问题，最优化一个损失函数，目标是让损失函数最小化，即通过反向传播使用梯度下降的方法来更新神经网络的参数。所以，要训练Q网络，我们要能够为Q网络提供有标签的样本。
所以，我们把目标Q值作为标签不就完了？我们的目标不就是让Q值趋近于目标Q值吗？
大家回想一下Q-Learning算法，Q值的更新依靠什么？依靠的是利用Reward和Q计算出来的目标Q值。

6、

7、

cartpole视频播放链接
cartpole : 一个杆通过一个未被驱动的接头连接到一个手推车上，手推车沿一条无摩擦的轨道移动。系统通过施加+1或-1的力量来控制。钟摆开始直立，目标是防止它倒下。杆的每个时间步都提供+1的奖励。当杆子距离垂直方向超过15度时，情节结束，或者车子从中心移动超过2.4个单位。

8、

我们可以看到，不同于传统的监督学习等损失函数的曲线（平滑且损失不断递减，强化学习的损失函数是一个纠结的曲线，损失函数的波动很大，这正是因为强化学习在不断探索环境并根据感知到的环境来执行动作时所带来的损失波动（也会因为引入的动作执行随机性带来的损失函数值波动），也体现出了强化学习与监督学习、半监督学习等的区别

9、

mountaincar视频播放链接
mountaincar : 是一个动力不足的车辆必须在陡峭的山坡上行驶的问题。由于重力比汽车发动机强，即使在全油门时，汽车也不能简单地加速陡坡。汽车坐落在一个山谷中，必须学习如何在对面的山坡上行驶，才能在最右边的山顶上进入目标。该领域已被用作各种强化学习论文的测试平台。
山车问题虽然相当简单，但是通常被应用，因为它需要一个强化学习代理来学习两个连续变量：位置和速度。对于车辆的任何给定状态（位置和速度），代理人都有可能向左行驶，向右行驶或根本不使用发动机。在问题的标准版本中，agent在每一个没有达到目标的时间步骤都会收到负面报酬。在初始成功之前，agent没有关于目标的信息。

10、

分析类似于8

11、

补充

博客总结：博客分享过于简单，无奈自身水平有限，且接触时间过短，但是还是感受到了强化学习的魅力，相信自己只要认真专研还是可能有希望的（一个强化学习小白的自我鼓励，哈哈哈）
莫烦大神强化学习课程系列链接：
（莫烦大神是真大神，有自己的python学习课程，而且讲解有代码有视频，有留言会回复，所以后续感兴趣的伙伴可以关注一下他，毕竟我菜鸟带不动大家，下面是有关DQN的此次分享的链接）
什么是 DQN
DQN 算法更新 (Tensorflow)
DQN 神经网络 (Tensorflow)
DQN 思维决策 (Tensorflow)
OpenAI gym 环境库

你可能感兴趣的:(强化学习)

SFT（监督微调）和RLHF（基于人类反馈的强化学习）的区别钟小宇 LLM 人工智能语言模型
SFT（监督微调）和RLHF（基于人类反馈的强化学习）的区别STF（SupervisedFine-Tuning）和RLHF（ReinforcementLearningfromHumanFeedback）是两种不同的模型训练方法，分别用于不同的阶段和目的。以下是它们的主要区别：1.方法概述STF（监督微调）：定义：STF是指在已经预训练好的模型基础上，使用标注好的数据进一步训练模型，使其在特定任务上
评测系统的神经架构搜索优化 AI天才研究院 ChatGPT 计算 DeepSeek R1 &大数据AI人工智能大模型 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
评测系统的神经架构搜索优化关键词评测系统神经架构搜索优化强化学习人工智能摘要本文将探讨评测系统的神经架构搜索优化这一主题。首先，我们将介绍评测系统的基本概念和重要性，然后深入解析神经架构搜索优化的基本原理和算法。接下来，我们将探讨神经架构搜索优化的应用场景和实战案例分析，最后进行总结和展望。第1章：引言1.1评测系统的重要性评测系统在各个领域都有着广泛的应用，如教育、工业、金融等。它的主要作用是对
强化学习原理与代码实战案例讲解 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1什么是强化学习？强化学习（ReinforcementLearning,RL）是机器学习的一个重要分支，它关注的是智能体（Agent）如何在环境中通过与环境交互来学习最优的行为策略。与其他机器学习方法不同，强化学习并不依赖于预先标注的数据，而是通过试错的方式来学习。想象一下，你正在训练一只小狗学习坐下。你不会给它看成千上万张“坐下”的照片，而是会给它一些指令，比如“坐下”，如果它照
强化学习在连续动作空间的应用：DDPG与TD3 AI天才研究院计算 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA 计算 AI大模型应用
1.背景介绍1.1强化学习简介强化学习（ReinforcementLearning，简称RL）是一种机器学习方法，它通过让智能体（Agent）在环境（Environment）中与环境进行交互，学习如何根据观察到的状态（State）选择动作（Action），以最大化某种长期累积奖励（Reward）的方法。强化学习的核心问题是学习一个策略（Policy），即在给定状态下选择动作的映射关系。1.2连续动
翻译Deep Learning and the Game of Go（14）第十二章采用actor-critic方法的强化学习 idol_watch 围棋与深度学习
本章包括:利用优势使强化学习更有效率用actor-critic方法来实现自我提升AI设计和训练Keras的多输出神经网络如果你正在学习下围棋，最好的改进方法之一是让一个水平更高的棋手给你复盘。有时候，最有用的反馈只是指出你在哪里赢棋或输棋。复盘的人可能会给出这样的评论，“你下了30步后已经远远落后了”或“在下了110步后，你有一个获胜的局面，但你的对手在130时扭转了局面。”为什么这种反馈是有帮助
【DeepSeek】一文详解GRPO算法——为什么能减少大模型训练资源？ FF-Studio DeepSeek R1 算法
GRPO，一种新的强化学习方法，是DeepSeekR1使用到的训练方法。今天的这篇博客文章，笔者会从零开始，层层递进地为各位介绍一种在强化学习中极具实用价值的技术——GRPO（GroupRelativePolicyOptimization）。如果你是第一次听说这个概念，也不必慌张，笔者会带领你从最基础的强化学习背景知识讲起，一步步剖析其来龙去脉，然后再结合实例讲解GRPO在实际应用中的思路和操作示
揭秘DeepSeek内幕：清华教授剖析AI模型技术原理大模型. 人工智能 chatgpt 安全 agi gpt 大模型 deepseek
从ChatGPT到各种新兴的AI模型，每一次技术突破都能引发广泛的关注和讨论——而最近AI界的“新宠”，无疑是DeepSeek。在本文中，清华大学长聘副教授将深入剖析DeepSeekR1背后的大规模强化学习技术及其基本原理，并进一步展望大模型技术未来的发展方向。1、透过DeepSeekR1，看大模型技术的发展趋势今天我将从宏观角度为大家介绍DeepSeekR1所代表的大规模强化学习技术，及其基本原
DeepSeek正重构具身大模型和人形机器人赛道！ Robot251 重构机器人人工智能科技自动驾驶
中国人工智能公司DeepSeek（深度求索）以“低成本、高效率、强开放”的研发范式横空出世，火遍并震撼全球科技圈；DeepSeek展现出来的核心竞争力，除了低成本及推理能力，更重要的是开源模型能力追赶上了最新的闭源模型；而对具身智能领域影响最大的当属于其开源大模型DeepSeek-R1。2024年1月20日，公司发布全球首个完全通过强化学习训练的专注于推理任务的高性能语言模型DeepSeek-R1
DeepSeek-R1-Zero 与 DeepSeek-R1 的异同与优劣分析 AI生成曾小健 Deepseek原理与使用人工智能
DeepSeek-R1-Zero与DeepSeek-R1的异同与优劣分析一、相同点核心训练方法：两者均基于强化学习（RL），采用GroupRelativePolicyOptimization（GRPO）算法，通过组内样本的奖励相对比较优化策略模型。目标均为提升语言模型的复杂推理能力（如数学、代码、科学推理）。基础模型：均以DeepSeek-V3-Base作为初始模型，共享相同的架构
《深度Q网络优化：突破高维连续状态空间的束缚》人工智能深度学习
在人工智能的发展历程中，深度Q网络（DQN）作为强化学习与深度学习融合的关键成果，为解决复杂决策问题开辟了新路径。但当面对高维连续状态空间时，DQN会出现训练不稳定、收敛速度慢等问题，严重限制了其应用范围。如何优化DQN以适应高维连续状态空间，成为当下研究的热点。深度Q网络基础回顾深度Q网络结合了深度学习强大的特征提取能力与Q学习的决策优化思想。在传统强化学习中，Q学习通过Q表记录每个状态-动作对
DQN的原理和代码实现 SmallerFL NLP&机器学习 DQN 强化学习深度学习
文章目录1.概述2.DQN的训练步骤2.1初始化2.2训练循环2.3终止条件2.4评估3.代码示例1.概述深度Q网络（DeepQ-Network,DQN）是强化学习中的一种重要算法，由GoogleDeepMind于2013年提出。DQN结合了Q学习和深度学习，通过使用神经网络来近似Q值函数，解决了传统Q学习在高维状态空间中的问题。2.DQN的训练步骤2.1初始化环境：定义环境（例如，Atari游戏
DQN原理和代码实现 KPer_Yang 机器学习机器学习人工智能
参考：王树森《强化学习》书籍、课程、代码1、基本概念折扣回报：Ut=Rt+γ⋅Rt+1+γ2⋅Rt+2+⋯+γn−t⋅Rn.U_t=R_t+\gamma\cdotR_{t+1}+\gamma^2\cdotR_{t+2}+\cdots+\gamma^{n-t}\cdotR_n.Ut=Rt+γ⋅Rt+1+γ2⋅Rt+2+⋯+γn−t⋅Rn.动作价值函数：Qπ(st,at)=E[Ut∣St=st,At=
强化学习在机器人控制中的应用：从理论到实践 Echo_Wish 前沿技术人工智能机器人
强化学习在机器人控制中的应用：从理论到实践大家好，我是你们熟悉的人工智能与Python领域自媒体创作者Echo_Wish。今天我们来聊聊一个炙手可热的话题——强化学习在机器人控制中的应用。近年来，随着人工智能技术的飞速发展，机器人在各个领域的应用越来越广泛。而强化学习作为一种重要的机器学习方法，为机器人控制提供了强有力的技术支持。接下来，让我们一起探讨强化学习在机器人控制中的原理和实践，并通过具体
X-R1 项目代码文件的详细剖析并精读rewards、grpo、x_grpo_trainer（src/x_r1）仙人掌_lz 人工智能人工智能深度学习学习
这个项目名为[X-R1](https://github.com/dhcode-cpp/X-R1)，是一个基于强化学习的训练框架，旨在构建一个易于使用、低成本的训练框架，以加速ScalingPost-Training的开发。以下是对该项目的详细解释：项目结构项目的主要目录结构如下：X-R1/├──.gitignore├──LICENSE├──Makefile├──README.md├──requir
Python深度学习代做目标检测NLP计算机视觉强化学习 matlabgoodboy 计算机视觉 python 深度学习
了解您的需求，您似乎在寻找关于Python深度学习领域的代做服务，特别是在目标检测、自然语言处理（NLP）、计算机视觉以及强化学习方面。以下是一些关于这些领域的概述以及寻找相关服务的建议。1.Python深度学习代做概述目标检测：目标检测是计算机视觉中的一个重要任务，旨在识别图像或视频中的特定对象，并确定它们的位置。Python中的深度学习框架（如TensorFlow、PyTorch）和计算机视觉
Bengio新作Aaren：探索Transformer性能与RNN效率的融合 AI记忆深度学习论文与相关应用 transformer rnn 深度学习 Aaren Bengio
论文链接：https://arxiv.org/pdf/2405.13956一、摘要总结：本文提出了一种新的注意力机制，名为Aaren，它将注意力视为一种特殊的递归神经网络（RNN），能够高效地计算其多对一RNN输出。Aaren不仅能够并行训练，而且能够在推理时高效地更新新令牌，仅需要常数内存。实验表明，Aaren在四个流行的序列问题设置（强化学习、事件预测、时间序列分类和时间序列预测）的38个数据
先进制造aps专题二十九基于ai智能体的生产排程和工厂生产仿真引擎的设计 lijianhua_9712 aps ai智能体仿真引擎
上文中，我们说，通常的做法是，可以先通过排产仿真引擎产生生产计划，再在工厂仿真引擎里仿真执行，这样可以预先分析计划和执行的差异情况并进行调整优化这里的产生生产计划，仿真生产执行和数据分析都是人工进行的这些工作可以让ai智能体来做，从而实现整套流程的自动化和智能化我们可以在强化学习框架中结合排产仿真/工厂生产仿真框架，在强化学习框架的准备函数里启动排产仿真引擎获得生产计划，并导入到工厂仿真引擎里执行
DeepSeek R1：引领未来教育革命的自适应学习路径规划系统 Coderabo DeepSeek R1模型企业级应用学习人工智能机器学习算法 python 深度学习
自适应学习路径规划概述自适应学习路径规划是指通过分析用户的学习行为和需求，动态调整学习内容和顺序，以提供个性化、高效的学习体验。在当今快速发展的教育科技领域，这一概念变得尤为重要。随着人工智能技术的进步，特别是深度学习和强化学习的应用，我们能够更加精准地识别学习者的需求，并据此设计出最适合他们的学习路径。利用先进的算法和模型来实现对学习路径的智能化管理。该系统能够实时监控学习者的进度，根据其表现调
Deepseek背后的强化学习RL入门理解和Python脚本实现大F的智能小课人工智能
强化学习简单原理强化学习是一种让智能体通过与环境的交互来学习最优行为策略的方法。想象一下，你有一只小狗，你想让它学会自己找到回家的路。你可以给小狗一些奖励（比如小零食），当它做出正确的动作（比如向家的方向走）时，就给它奖励；当它走错方向时，就不给奖励。小狗会逐渐学会哪些动作能获得奖励，从而找到回家的路。强化学习中的智能体就像是这只小狗，环境就是小狗所处的世界，奖励就是你给它的零食。在强化学习中，智
DeepSeek正重构人形机器人和具身大模型赛道！ Robot251 重构机器人人工智能科技大数据自动驾驶
中国人工智能公司DeepSeek（深度求索）以“低成本、高效率、强开放”的研发范式横空出世，火遍并震撼全球科技圈；DeepSeek展现出来的核心竞争力，除了低成本及推理能力，更重要的是开源模型能力追赶上了最新的闭源模型；而对具身智能领域影响最大的当属于其开源大模型DeepSeek-R1。2024年1月20日，公司发布全球首个完全通过强化学习训练的专注于推理任务的高性能语言模型DeepSeek-R1
【AI论文】使用大型推理模型进行竞技编程东临碣石82 人工智能
摘要：我们的研究表明，将强化学习应用于大型语言模型（LLMs）能显著提升复杂编码和推理任务的性能。此外，我们将两个通用推理模型——OpenAI的o1模型和o3模型的一个早期检查点——与一个特定领域的系统o1-ioi进行了比较。o1-ioi采用了为参加2024年国际信息学奥林匹克竞赛（IOI）而手工设计的推理策略。我们使用o1-ioi实时参加了2024年IOI竞赛，并凭借手工制定的测试时策略取得了第
【必看】凭啥？DeepSeek如何用1/179的训练成本干到GPT-4o 98%性能大F的智能小课人工智能算法
一、DeepSeek降低训练成本的核心方法1.1创新训练方法DeepSeek通过独特的训练方案显著降低了训练成本。其核心策略包括减少监督微调（SFT）步骤，仅依赖强化学习（RL）技术。DeepSeek-R1-Zero版本完全跳过SFT，仅通过RL进行训练。尽管初期计算开销较大，但添加少量冷启动数据后，训练稳定性和模型推理能力大幅提升。此外，DeepSeek还采用了组相对策略优化（GRPO）算法替代
书籍-《强化学习数学基础》强化学习数学人工智能
书籍：MathematicalFoundationsofReinforcementLearning作者：赵世钰出版：Springer编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《强化学习数学基础》01书籍介绍本书对基本概念、核心挑战和经典强化学习算法进行了数学但易于理解的介绍。它旨在帮助读者理解算法的理论基础，提供对其设计和功能的见解。整个过程中包括许多说明性示例。数学内容经过精心设计，以
强化学习算法：蒙特卡洛树搜索 (Monte Carlo Tree Search) 原理与代码实例讲解杭州大厂Java程序媛 DeepSeek R1 &AI人工智能与大数据 java python javascript kotlin golang 架构人工智能
强化学习算法：蒙特卡洛树搜索(MonteCarloTreeSearch)原理与代码实例讲解关键词：蒙特卡洛树搜索,强化学习,决策树,搜索算法,博弈策略,应用场景,代码实现1.背景介绍1.1问题由来强化学习（ReinforcementLearning,RL）是人工智能领域的一个核心分支，专注于通过与环境交互，学习最优策略以实现特定目标。传统的强化学习算法，如Q-learning、SARSA等，通常依
普惠AI 如何在 Anolis OS 8 上部署生产可用的 DeepSeek 推理服务操作系统人工智能开源
背景介绍DeepSeek-R1DeepSeek-R1在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩OpenAIo1正式版。DeepSeek-R1-Distill-Qwen则是通过DeepSeek-R1的输出，基于Qwen大语言模型，经过模型蒸馏的小模型，其中32B和70B模型在多项能力上实现了对标OpenAIo
手把手教学，DeepSeek-R1微调全流程拆解 AI生成曾小健 windows
手把手教学，DeepSeek-R1微调全流程拆解原创极客见识GeekSavvy2025年02月09日09:02广东DeepSeek通过发布其开源推理模型DeepSeek-R1颠覆了AI格局，该模型使用创新的强化学习技术，以极低的成本提供与OpenAI的o1相当的性能。更令人印象深刻的是，DeepSeek已将其推理能力提炼成几个较小的模型。这篇文章，我们将使用其蒸馏版本之一引导大家完成DeepSee
对DeepSeek-R1通过强化学习提升大型语言模型推理能力的技术原理解析一只贴代码君语言模型人工智能自然语言处理学习 AI编程开发语言
强化学习基础•基本概念：强化学习是一种机器学习方法，智能体（模型）通过与环境进行交互，根据环境反馈的奖励信号来学习最优的行为策略。•关键要素：包括环境（模型所处的推理任务场景）、状态（模型在推理过程中的当前情况，如已有的推理步骤、已知信息等）、动作（模型在当前状态下做出的推理决策，如选择何种推理方法、如何组织语言等）、奖励（根据模型的动作和结果给予的反馈，如推理正确给予正奖励，错误给予负奖励或无奖
【专题】DeepSeek颠覆性在于实现AI平权、惊艳世界，算力与应用将迎来结构性变化报告汇总PDF洞察（附原数据表）数据挖掘深度学习机器学习算法
全文链接：https://tecdat.cn/?p=39811在如今科技飞速发展的时代，人工智能对全球产业格局的重塑起着关键作用。DeepSeek-R1的出现是个大事件，它在技术创新方面，通过独特的强化学习与蒸馏技术，在性能上逼近国际领先模型。文末682份DeepSeek、大模型、AI行业研究报告最新趋势已分享在交流群，阅读原文进群和500+行业人士共同交流和成长。同时，它的训练和使用成本大幅降低
DeepSeek R1 简易指南：架构、本地部署和硬件要求 deepseek
从DeepSeek-R1-Zero到DeepSeek-R1，代表了研究中的一个重要学习历程。DeepSeek-R1-Zero证明了纯粹的强化学习是可行的，而DeepSeek-R1则展示了如何将监督学习与强化学习相结合，从而创建出能力更强、更实用的模型。DeepSeek团队近期发布的DeepSeek-R1技术论文展示了其在增强大语言模型推理能力方面的创新实践。该研究突破性地采用强化学习（Reinfo
『大模型笔记』国外大神对DeepSeek R1的科普！ AI大模型前沿研究大模型笔记笔记 Deepseek deepseek R1 Deepseek v3 GPT O1 GPT O3
国外大神对DeepSeekR1的科普！文章目录一、Explainer:What'sR1&EverythingElse?时间线推理与Agent推理模型≠Agent推理为什么重要推理需要变得廉价R1的重要意义AI的发展走势预训练规模扩张的路走不通了推理阶段的规模定律缩小模型体量（新的规模定律？）强化学习（新的规模定律？）模型蒸馏（新的规模定律？）2025年的预测地缘政治：Distealing结论讨论二
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他