深入浅出强化学习编程实战第4页

8个Python爬虫高效数据抓取技巧

本文将深入浅出地介绍8个高效的Python爬虫技巧，帮助初学者提升数据抓取能力，从简单的网页内容提取到复杂的动态网站抓取，逐步解锁爬虫高级技能。

程序员小鱼_·2025-03-03 15:07

DeepSeek-R1 技术报告解读：用强化学习激发大模型的推理潜能

文章目录1.背景2.DeepSeek-R1训练流程2.1DeepSeek-R1-Zero：纯强化学习2.2DeepSeek-R1：冷启动+多阶段训练3.蒸馏小模型3.1蒸馏流程与优势3.2蒸馏vs.直接

跑起来总会有风·2025-03-03 14:04

强化学习与网络安全资源-论文和环境

TableofContentsRL-EnvironmentsPapersBooksBlogpostsTalksMiscellaneous↑EnvironmentsPentestingTrainingFrameworkforReinforcementLearningAgents(PenGym)TheARCDPrimary-levelAITrainingEnvironment(PrimAITE)CSL

AI拉呱·2025-03-03 14:03

【实战篇】DeepSeek + Cline 编程实战：从入门到“上头”

今天咱们来好好唠唠这个超火的组合——DeepSeek+Cline，看看它们在编程实战里到底能发挥多大的威力。要是你还在为写代码时的各种问题烦恼，那这篇文章绝对能帮到你！

再见孙悟空_·2025-03-03 13:50

基础篇（二）从监督学习到强化学习：机器学习的不同范式

从监督学习到强化学习：机器学习的不同范式在机器学习的广阔领域中，监督学习和强化学习是两种最重要的范式。它们各自有其独特的特点和应用场景，但也存在紧密的联系。

带上一无所知的我·2025-03-03 11:39

数据界的达克摩斯之剑----深入浅出带你理解网络爬虫(First)

目录一.引言二.网络爬虫产生的背景三.爬虫背后的相关技术和原理1.插入URL的概念解析2.常见的几种URL格式四.网络爬虫的分类1.通用网络爬虫2.增量式网络爬虫3.DeepWeb爬虫一.引言网络爬虫是一种自动获取网页内容的程序或技术。它就像一只“小蜘蛛”，在互联网上爬行，抓取各种信息。想象一下，网络就像一张大网，上面有无数的网页，而爬虫就是在这张网上穿梭的“小虫子”。它可以根据预设的规则和目标，

web18285997089·2025-03-03 09:18

量子位招聘 | DeepSeek帮我们改的招聘启事

岗位面向：社招、应届毕业生，所有岗位均可实习——表现出色均可转正加分项：乐于探索AI新工具，善用AI新工具；拥有解读论文的能力，能深入浅出讲解原理；有写代码能力；量子位长期读者。加入我们，你可以获得：

·2025-03-03 01:32

大模型入门指南：从零开始，轻松掌握AI核心概念

本文主要参考了抖音上文哲老师讲的AI科普课程（课程名为「文哲讲AI」，内容深入浅出，非常推荐观看），同时结合了一些科普文章和DeepSeek提供的检索知识

·2025-03-02 21:57

《深入浅出TCP之4TCP是一种流协议》

4TCP是一种流协议数据是以字节流的形式传递给接收者，没有固有的报文或报文边界分概念。send通常只是将数据复制到主机的tcp/ip栈中，就返回了，由tcp来决定需要立即发送多少数据（取决于，发送窗口，拥塞窗口，MSS等）tcp会记录它发送了多少字节，以及确认的字节，但它不会记录这些字节是如何分组的变长报文，一般在每条报文前面加上一个首部，这个首部至少包含报文的长度，首先读取定长的报文头部，从首部

kaydxh·2025-03-02 20:06

Matlab 大量接单

机器学习、深度学习、强化学习、仿真、复现、算法、神经网络、建模、图像识别、数据挖掘、数据获取、爬虫、数据分析、目标检测、算法创新、因子分析、相关分析、方差分析、判别分析、方程分析、线性回归、中介

matlabgoodboy·2025-03-02 17:45

强化学习的数学原理-六、随机近似与随机梯度下降

代码来自up主【强化学习的数学原理-作业】GridWorld示例代码（已更新至DQN、REINFORCE、A2C）_哔哩哔哩_bilibiliSGD、GD、MGD举例：#先初始化一个列表，未来要在这100

儒雅芝士·2025-03-02 15:24

模型优化之强化学习（RL）与监督微调（SFT）的区别和联系

强化学习（RL）与监督微调（SFT）是机器学习中两种重要的模型优化方法，它们在目标、数据依赖、应用场景及实现方式上既有联系又有区别。

搏博·2025-03-02 10:08

DeepSeek R1 详解：思维链、强化学习和蒸馏

目录思维链强化学习蒸馏DeepSeek是如何做到的?

前网易架构师-高司机·2025-03-02 05:58

强化学习探索与利用：多臂老虎机的UCB与Softmax策略

）上置信界（UCB，UpperConfidenceBound）软max策略（Softmax）算法对比与评估实验与结果总结与展望参考文献引言多臂老虎机问题（Multi-ArmedBandit,MAB）是强化学习领域中的一个经典问题

海棠AI实验室·2025-03-01 23:42

量子位招聘 | DeepSeek帮我们改的招聘启事

岗位面向：社招、应届毕业生，所有岗位均可实习——表现出色均可转正加分项：乐于探索AI新工具，善用AI新工具；拥有解读论文的能力，能深入浅出讲解原理；有写代码能力；量子位长期读者。加入我们，你可以获得：

·2025-03-01 22:33

程序员未来的出路：行业趋势与职业发展分析

深入研究深度学习、强化学习等前沿技术。成为AI架构师或数

guzhoumingyue·2025-03-01 19:46

强化学习——基本概念

何为强化学习机器学习的一大分支强化学习（ReinforcementLearning）是机器学习的一种，它通过与环境不断地交互，借助环境的反馈来调整自己的行为，使得累计回报最大。

AI大模型探索者·2025-03-01 17:06

本地大模型编程实战(27)初探langgraph的流式输出

对于LLM(大语言模型)，流式传输已成为一种越来越受欢迎的功能。其理念是在LLM生成令牌时就快速返回，而不是等待创建完整响应后再返回全部内容。对于简单的场景，流式传输实际上非常容易实现，但当涉及到智能体之类的应用时，它会变得复杂，这些智能体有自己的运行逻辑，可能会阻止我们尝试进行流式传输。本文将探讨langchain的流式输出，后面将实现智能体最终结果的流式输出。本次演练将全部使用qwen2.5:

火云牌神·2025-03-01 15:22

本地大模型编程实战(09)自制聊天机器人(3)

文章目录准备自动裁剪聊天历史聊天机器人定义提示词模板定义state构建app测试流式输出总结代码本文将实现一个比较完善的聊天机器人的主要功能。包括：使用LangGraph构建聊天机器人自动裁剪聊天历史管理聊天会话的方法以流的方式输出回复我们将同时使用llama3.1和deepseek做演示。由于langchain可能对不同大模型支持程度不同以及其它限制，所以这个对比并不能说明哪个模型更好。准备在正

火云牌神·2025-03-01 15:52

本地大模型编程实战(11)与外部工具交互(2)

文章目录准备定义工具方法创建提示词生成工具方法实参以`json`格式返回实参自定义`JsonOutputParser`返回`json`调用工具方法定义通用方法用链返回结果返回结果中包含工具输入总结代码在使用LLM(大语言模型)时，经常需要调用一些自定义的工具方法完成特定的任务，比如：执行一些特殊算法、查询天气预报、旅游线路等。很多大模型都具备使用这些工具方法的能力，Langchain也为这些调用提

火云牌神·2025-03-01 15:52

本地大模型编程实战(25)用langgraph实现基于SQL数据构建的问答系统(4)

本文将演练使用基于langgraph链，对结构化数据库SQlite进行查询的方法。该系统建立以后，我们不需要掌握专业的SQL技能，可以用自然语言询问有关数据库中数据的问题并返回答案。使大语言模型(LLM)查询结构化数据与非结构化文本数据有所不同。查询非结构化数据时，通常需要将待查询的文本嵌入到向量数据库中；而查询结构化数据的方法则是让LLM编写和执行DSL（例如SQL）进行查询。在用langcha

火云牌神·2025-03-01 14:47

侯捷C++课程学习笔记：深入探索C++内存管理机制

侯捷老师作为C++教育界的泰斗，其课程深入浅出，实战性强，引领我们开发者真正理解C++的精髓。在学习侯捷C++系列课程的过程中，我受益匪浅，尤其是在内存管理这一核心领域，更是有了系统而深刻的认识。

清水白石008·2025-03-01 05:38

一个游戏程序员的学习资料【转载】

想起写这篇文章是在看侯杰先生的《深入浅出MFC》时,突然觉得自己在大学这几年关于游戏编程方面还算是有些心得，因此写出这篇小文,介绍我眼中的游戏程序员的书单与源代码参考。

Snail -Bernoulli·2025-02-28 22:48

量子位招聘 | DeepSeek帮我们改的招聘启事

岗位面向：社招、应届毕业生，所有岗位均可实习——表现出色均可转正加分项：乐于探索AI新工具，善用AI新工具；拥有解读论文的能力，能深入浅出讲解原理；有写代码能力；量子位长期读者。加入我们，你可以获得：

·2025-02-28 21:40

量子位招聘 | DeepSeek帮我们改的招聘启事

岗位面向：社招、应届毕业生，所有岗位均可实习——表现出色均可转正加分项：乐于探索AI新工具，善用AI新工具；拥有解读论文的能力，能深入浅出讲解原理；有写代码能力；量子位长期读者。加入我们，你可以获得：

·2025-02-28 21:39

【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述2运行结果2.1有/无策略奖励2.2训练结果12.2训练结果23参考文献4Python代码、数据、文章1概述文献来源：根据微电网或微能源网是否与主电网相连接，可将其分为并网型和独立型2种。本文以并网型微能源网为研究对象，研究其并网运行的能量管理与优化问题。目前，

@橘柑橙柠桔柚·2025-02-28 19:58

深入详解人工智能机器学习：强化学习

目录强化学习概述强化学习的基本概念定义关键组件强化学习过程常用算法应用示例示例代码代码解释应用场景强化学习核心概念和底层原理核心概念底层原理总结强化学习概述强化学习（ReinforcementLearning

猿享天开·2025-02-28 15:58

机器学习：强化学习的epsilon贪心算法

强化学习（ReinforcementLearning,RL）是一种机器学习方法，旨在通过与环境交互，使智能体（Agent）学习如何采取最优行动，以最大化某种累积奖励。

田乐蒙·2025-02-28 15:25

DeepSeek R1 简单指南：架构、训练、本地部署和硬件要求

DeepSeek推出的LLM推理新策略DeepSeek最近发表的论文DeepSeek-R1中介绍了一种创新的方法，通过强化学习（RL）提升大型语言模型（LLM）的推理能力。

爱喝白开水a·2025-02-28 07:52

深入浅出 Pinia：下一代 Vue 状态管理库的核心实践与设计哲学

引言：为什么需要状态管理？在现代前端开发中，随着应用复杂度提升，组件间的数据共享和状态管理成为关键挑战。传统的组件间通信（如props/emit）在跨层级组件或大型应用中显得力不从心，而Vue生态早期的Vuex虽然解决了这一问题，但随着TypeScript的普及和CompositionAPI的推出，开发者对状态管理工具提出了更高要求——这便是Pinia诞生的背景。第一部分：Pinia基础概念1.1

斯~内克·2025-02-28 04:31

扑克强化学习：DouZero/douzero/dmc/dmc.py （train）

deftrain(flags):"""Thisisthemainfuntionfortraining.Itwillfirstinitilizeeverything,suchasbuffers,optimizers,etc.Thenitwillstartsubprocessesasactors.Then,itwillcalllearningfunctionwithmultiplethreads.""

强化学习曾小健·2025-02-28 03:54

深入浅出 Vue.js：从基础到进阶的全面总结

深入浅出Vue.js：从基础到进阶的全面总结Vue.js是一个用于构建用户界面的渐进式框架。它不仅易于上手，还能通过其强大的生态系统支持复杂的应用开发。

多年以后_·2025-02-28 02:11

智能路径规划：从数学建模到算法优化的理论与实践

从经典的Dijkstra算法到前沿的强化学习方法，路径规划技术的发展始终依赖于数学建模与算法优化的深度结合。

木子算法·2025-02-28 00:59

【人工智能算法】人工智能算法都包括什么？请详细列出和解释

请详细列出和解释1.机器学习算法（MachineLearningAlgorithms）监督学习算法（SupervisedLearning）无监督学习算法（UnsupervisedLearning）强化学习算法

资源存储库·2025-02-27 22:08

腿足机器人之十三-强化学习PPO算法

腿足机器人之十三-强化学习PPO算法腿足机器人位姿常用强化学习算法PPO算法核心原理PPO算法的创新设计PPO算法典型流程优势函数对于复杂地形适应性（如楼梯、碎石路），传统的腿足机器人采用基于模型的控制器

shichaog·2025-02-27 22:05

微调 LLM （RLHF + DPO）

微调LLM（RLHF+DPO）使用强化学习（RL）根据人类反馈微调大语言模型（即RLHF）的方法，以及一种更有效的改进方法（即DPO）。

·2025-02-27 21:56

深入拆解Nightingale(一)

我想关键应该其中细节并没有很了解，另一方面也听大佬说‘阅读优秀的源代码是软件工程师提高自己编程能力和学习开源框架的最佳手段之一’，所有我打算写一系列关于夜莺监控在源码级别的分析，希望能做到深入拆解的地步并且深入浅出的表达出来

weixin_47028810·2025-02-27 21:24

2025，AI变现有哪些机遇与挑战？

技术路线上，也不再局限于算力堆叠，而是探索强化学习、符号推理、类脑计算等新路径。并且，投入更小、更垂直的小模型涌现，为特定领域的应用提供了更高效的解决方案。

Imagination官方博客·2025-02-27 19:41

Python并发编程实战：用concurrent.futures榨干CPU性能的终极指南

Python并发编程实战：用concurrent.futures榨干CPU性能的终极指南引言：从“单线程苦力”到“并发指挥官”你是否遇到过这样的场景？

清水白石008·2025-02-27 07:46

Python 网络编程实战：手把手教你打造高效 HTTP 服务器！

随着互联网的普及和发展，越来越多的应用需要通过网络进行数据传输和通信。作为开发者，掌握网络编程的技能是非常重要的。Python是一门非常适合进行网络编程的语言，它拥有简单易用的库，可以帮助我们快速实现高效的网络服务。在本篇文章中，我们将通过实际案例，手把手教你使用Python创建一个高效的HTTP服务器。通过这个实例，你将掌握Python网络编程的基本概念、使用常用的网络库以及如何优化网络服务的性

威哥说编程·2025-02-27 06:03

DeepSeek R1、Kimi k1.5与OpenAI o1：技术架构、性能对比及应用前景深度剖析

深度拆解技术架构DeepSeekR1：强化学习驱动的革新之路DeepSeekR1的核心在于对

WilsonShiiii·2025-02-27 00:48

深入解析 DeepSeek R1：强化学习如何驱动大模型推理能力的进化

引言在AI竞赛日益激烈的时代，DeepSeek-AI推出了DeepSeekR1，试图以强化学习（RL）直接训练推理能力，而非仅依赖传统的监督微调（SFT）。

海棠AI实验室·2025-02-26 23:07

ThinkJSON:通过强化学习让大型语言模型（LLM）严格遵守JSON模式

作者：BhavikAgarwal,IshanJoshi,ViktoriaRojkova机构：MasterControlAIResearch链接：arXiv:2502.14905v1本文提出了一种轻量级强化学习框架

AI仙人掌·2025-02-26 20:17

【深入浅出：Core-JS Legacy 的降级兼容指南】

深入浅出：Core-JSLegacy的降级兼容指南️背景与核心概念为什么需要Polyfill？随着ECMAScript标准的快速迭代（ES6/ES2015+），现代浏览器对新特性的支持存在碎片化问题。

Gazer_S·2025-02-26 13:54

深度求索：解析DeepSeek R1与V3模型的技术差异

DeepSeekR1与V3模型的技术差异引言模型定位与核心能力DeepSeekV3应用场景及示例DeepSeekR1应用场景及示例模型架构与训练方法DeepSeekV3的架构特点DeepSeekR1的强化学习策略性能表现与基准测试

walkskyer·2025-02-26 05:53

OpenAI: 人工智能领域的领军企业

自成立以来,OpenAI在自然语言处理、计算机视觉、强化学习等多个人工智能领域取得了突破性进展,推出了一系列广受关注的AI模型和产品。OpenAI的发展历程OpenAI由埃隆·马斯克、山姆

2401_87458718·2025-02-26 02:35

基于“蘑菇书”的强化学习知识点（十三）：第三章的代码：MonteCarlo.ipynb及其涉及的其他代码的更新以及注解（gym版本＞= 0.26）（一）

第三章的代码：MonteCarlo.ipynb及其涉及的其他代码的更新以及注解（gym版本＞=0.26）（一）摘要摘要本系列知识点讲解基于蘑菇书EasyRL中的内容进行详细的疑难点分析！具体内容请阅读蘑菇书EasyRL！对应蘑菇书附书代码——MonteCarlo.ipynb在MonteCarlo.ipynb目录下面创建envs文件夹，然后下载racetrack.py和track.txt放到envs

墨绿色的摆渡人·2025-02-26 01:32

DeepSeek强化学习（Reinforcement Learning）基础与实践

引言强化学习（ReinforcementLearning,RL）是机器学习的一个重要分支，专注于训练智能体（Agent）在环境中通过试错来学习最优策略。

Evaporator Core·2025-02-25 23:44

机器学习笔记——特征工程

本笔记介绍机器学习中常见的特征工程方法、正则化方法和简要介绍强化学习。

好评笔记·2025-02-25 22:37

论文学习3：深度学习增强的光声成像（PAI）的最新进展（综述）

2.DL方法的原理介绍DL的子集：监督学习、无监督学习和强化学习。详细说明代表性DL架构：卷积神经网络（CNN）、U-形神经网络（U-Net）和

superace7911·2025-02-25 15:50

推荐频道

深入浅出强化学习编程实战

8个Python爬虫高效数据抓取技巧

DeepSeek-R1 技术报告解读：用强化学习激发大模型的推理潜能

强化学习与网络安全资源-论文和环境

【实战篇】DeepSeek + Cline 编程实战：从入门到“上头”

基础篇（二）从监督学习到强化学习：机器学习的不同范式

数据界的达克摩斯之剑----深入浅出带你理解网络爬虫(First)

量子位招聘 | DeepSeek帮我们改的招聘启事

大模型入门指南：从零开始，轻松掌握AI核心概念

《深入浅出TCP之4TCP是一种流协议》

Matlab 大量接单

强化学习的数学原理-六、随机近似与随机梯度下降

模型优化之强化学习（RL）与监督微调（SFT）的区别和联系

DeepSeek R1 详解：思维链、强化学习和蒸馏

强化学习探索与利用：多臂老虎机的UCB与Softmax策略

量子位招聘 | DeepSeek帮我们改的招聘启事

程序员未来的出路：行业趋势与职业发展分析

强化学习——基本概念

本地大模型编程实战(27)初探langgraph的流式输出

本地大模型编程实战(09)自制聊天机器人(3)

本地大模型编程实战(11)与外部工具交互(2)

本地大模型编程实战(25)用langgraph实现基于SQL数据构建的问答系统(4)

侯捷C++课程学习笔记：深入探索C++内存管理机制

一个游戏程序员的学习资料【转载】

量子位招聘 | DeepSeek帮我们改的招聘启事

量子位招聘 | DeepSeek帮我们改的招聘启事

【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

深入详解人工智能机器学习：强化学习

机器学习：强化学习的epsilon贪心算法

DeepSeek R1 简单指南：架构、训练、本地部署和硬件要求

深入浅出 Pinia：下一代 Vue 状态管理库的核心实践与设计哲学

扑克强化学习：DouZero/douzero/dmc/dmc.py （train）

深入浅出 Vue.js：从基础到进阶的全面总结

智能路径规划：从数学建模到算法优化的理论与实践

【人工智能算法】人工智能算法都包括什么？请详细列出和解释

腿足机器人之十三-强化学习PPO算法

微调 LLM （RLHF + DPO）

深入拆解Nightingale(一)

2025，AI变现有哪些机遇与挑战？

Python并发编程实战：用concurrent.futures榨干CPU性能的终极指南

Python 网络编程实战：手把手教你打造高效 HTTP 服务器！

DeepSeek R1、Kimi k1.5与OpenAI o1：技术架构、性能对比及应用前景深度剖析

深入解析 DeepSeek R1：强化学习如何驱动大模型推理能力的进化

ThinkJSON:通过强化学习让大型语言模型（LLM）严格遵守JSON模式

【深入浅出：Core-JS Legacy 的降级兼容指南】

深度求索：解析DeepSeek R1与V3模型的技术差异

OpenAI: 人工智能领域的领军企业

基于“蘑菇书”的强化学习知识点（十三）：第三章的代码：MonteCarlo.ipynb及其涉及的其他代码的更新以及注解（gym版本 ＞= 0.26）（一）

DeepSeek强化学习（Reinforcement Learning）基础与实践

机器学习笔记——特征工程

论文学习3：深度学习增强的光声成像（PAI）的最新进展（综述）

基于“蘑菇书”的强化学习知识点（十三）：第三章的代码：MonteCarlo.ipynb及其涉及的其他代码的更新以及注解（gym版本＞= 0.26）（一）