E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
强化学习(第二版)
OpenAI: 人工智能领域的领军企业
自成立以来,OpenAI在自然语言处理、计算机视觉、
强化学习
等多个人工智能领域取得了突破性进展,推出了一系列广受关注的AI模型和产品。OpenAI的发展历程OpenAI由埃隆·马斯克、山姆
2401_87458718
·
2025-02-26 02:35
人工智能
基于“蘑菇书”的
强化学习
知识点(十三):第三章的代码:MonteCarlo.ipynb及其涉及的其他代码的更新以及注解(gym版本 >= 0.26)(一)
第三章的代码:MonteCarlo.ipynb及其涉及的其他代码的更新以及注解(gym版本>=0.26)(一)摘要摘要本系列知识点讲解基于蘑菇书EasyRL中的内容进行详细的疑难点分析!具体内容请阅读蘑菇书EasyRL!对应蘑菇书附书代码——MonteCarlo.ipynb在MonteCarlo.ipynb目录下面创建envs文件夹,然后下载racetrack.py和track.txt放到envs
墨绿色的摆渡人
·
2025-02-26 01:32
基于“蘑菇书”的强化学习知识点
强化学习
蘑菇书
DeepSeek
强化学习
(Reinforcement Learning)基础与实践
引言
强化学习
(ReinforcementLearning,RL)是机器学习的一个重要分支,专注于训练智能体(Agent)在环境中通过试错来学习最优策略。
Evaporator Core
·
2025-02-25 23:44
强化学习
#
DeepSeek快速入门
人工智能
python
数据库
tornado
强化学习
deepseek
机器学习笔记——特征工程
本笔记介绍机器学习中常见的特征工程方法、正则化方法和简要介绍
强化学习
。
好评笔记
·
2025-02-25 22:37
补档
机器学习
笔记
人工智能
AIGC
深度学习
计算机视觉
面试八股
论文学习3:深度学习增强的光声成像(PAI)的最新进展(综述)
2.DL方法的原理介绍DL的子集:监督学习、无监督学习和
强化学习
。详细说明代表性DL架构:卷积神经网络(CNN)、U-形神经网络(U-Net)和
superace7911
·
2025-02-25 15:50
基于机器学习的光声图像处理
机器学习
图像处理
初学者推荐学习AI的路径
学习人工智能的路径可以分为基础知识、编程技能、机器学习、深度学习、数据处理与可视化、自然语言处理(NLP)、计算机视觉(CV)、
强化学习
、实践项目和持续学习几个阶段。
ProgramHan
·
2025-02-25 09:05
学习
人工智能
深度学习与搜索引擎优化的结合:DeepSeek的创新与探索
目录引言1.传统搜索引擎的局限性2.深度学习在搜索引擎中的作用3.DeepSeek实现搜索引擎优化的关键技术3.1神经网络与搜索引擎优化3.2自然语言处理与查询理解3.3深度
强化学习
与搜索结果排序4.DeepSeek
m0_74825634
·
2025-02-25 01:37
面试
学习路线
阿里巴巴
深度学习
搜索引擎
人工智能
用人类反馈微调大模型,InstructGPT 让 GPT-3 脱胎换骨
接着,我们收集模型输出的排名数据集,使用人类反馈
强化学习
对这个经过监督学习训练的模型进
·
2025-02-24 23:50
人工智能
DeepSeek 和 Qwen 模型快速部署指南
模型大小总参数量6710亿(671B),MoE架构,每个token激活370亿参数总参数量与V3相当,基于DeepSeek-V3-Base,采用类似的MoE架构训练方法包含预训练、监督微调(SFT)和
强化学习
moton2017
·
2025-02-24 18:47
深度学习
运维
模型部署
DeepSeek
Qwen
大型语言模型
LLM
人工智能
AI
深度
强化学习
算法在金融交易决策中的优化应用【附数据】
金融数据分析与建模专家金融科研助手|论文指导|模型构建✨专业领域:金融数据处理与分析量化交易策略研究金融风险建模投资组合优化金融预测模型开发深度学习在金融中的应用擅长工具:Python/R/MATLAB量化分析机器学习模型构建金融时间序列分析蒙特卡洛模拟风险度量模型金融论文指导内容:金融数据挖掘与处理量化策略开发与回测投资组合构建与优化金融风险评估模型期刊论文✅具体问题可以私信或查看文章底部二维码
算法与数据
·
2025-02-24 01:22
算法
机器学习基础
了解机器学习的基本概念,如监督学习、无监督学习、
强化学习
、模型评估指标(准确率、召回率、F1分数等)。
dringlestry
·
2025-02-23 21:50
机器学习
人工智能
人工智能:从基础到前沿
2.2人工智能的历史2.3人工智能的分类3.机器学习3.1机器学习概述3.2监督学习3.3无监督学习3.4
强化学习
4.深度学习4.1深度学习概述4.2神经网络基础4.3卷积神经网络(CNN)4.4循环神经网络
顾漂亮
·
2025-02-23 12:15
人工智能
深度学习
windows
深入浅出机器学习:概念、算法与实践
目录引言机器学习的基本概念什么是机器学习机器学习的基本要素机器学习的主要类型监督学习(SupervisedLearning)无监督学习(UnsupervisedLearning)
强化学习
(ReinforcementLearning
倔强的小石头_
·
2025-02-23 11:43
AI
机器学习
算法
人工智能
ε-贪心算法:在探索与利用之间寻找平衡
ε-贪心算法:在探索与利用之间寻找平衡在
强化学习
领域,智能体需要在环境中采取行动以最大化累积奖励。这个过程涉及到两个关键的决策因素:探索(exploration)和利用(exploitation)。
Chen_Chance
·
2025-02-23 09:22
贪心算法
算法
清华大学DeepSeek PPT
第二版
Deepseek赋能职场应用
清华大学团队再次更新《Deepseek入门到精通》2.0版本赋能职场应用,教你如何轻松在多场景应用deepseek下载地址:夸克网盘分享同样还有第一版:夸克网盘分享另外分享多个2025最新AI课程下载地址:夸克网盘分享还有其他更多AI资料工具以及其他资料书籍:https://r4ssdwcygu.feishu.cn/docx/Ghgbd6Ne9oZg61xqFIgcc5s6nYd
johnny_hhh
·
2025-02-23 07:10
人工智能
线代好学吗?
快期末考了,这两天的学期效率比在家高了几倍,这一周都在学习线代,在宿舍,自习室,图书馆都拿着一本太原理工大学线性代数
第二版
在那里翻,感觉线性代数这个东西挺有意思,挺灵活的,在这里,我总结一下一点关于线性代数的知识
Vacant Seat
·
2025-02-22 20:13
C++:使用 SFML 创建
强化学习
迷宫场景
在
强化学习
中,迷宫通常作为一种环境,供智能体(Agent)在其中进行探索和学习。通过设计合适的环境,我们可以训练模型让其通过迷宫找到最优路径。
煤炭里de黑猫
·
2025-02-22 16:10
c++
开发语言
DeepSeek赋能智能交通流量预测与优化:告别拥堵的未来
DeepSeek凭借其强大的时空预测模型和
强化学习
框架,为交通流量预测和信号优化提供了全新的解决方案。它能够整合多源数据,包括地磁传感
人工智能专属驿站
·
2025-02-22 13:19
计算机视觉
人工智能
DeepSeek的架构设计
临港等多地超算中心构建混合集群,10万+GPU卡规模(含H100/A100等),通过自研RDMA网络实现μs级延迟能效优化:采用液冷+余热回收技术,PUE<1.1,算力密度达50kW/机柜故障自愈:基于
强化学习
的节点健康预测系统
程序猿000001号
·
2025-02-22 06:24
DeepSeek
架构设计
什么是语料清洗、预训练、指令微调、
强化学习
、内容安全; 什么是megatron,deepspeed,vllm推理加速框架
什么是语料清洗、预训练、指令微调、
强化学习
、内容安全目录什么是语料清洗、预训练、指令微调、
强化学习
、内容安全语料清洗预训练指令微调
强化学习
内容安全什么是megatron,deepspeed,vllm推理加速框架语料清洗语料清洗是对原始文本数据进行处理的过程
ZhangJiQun&MXP
·
2025-02-21 19:45
教学
2021
论文
2024大模型以及算力
人工智能
机器学习课程的常见章节结构
以下是机器学习课程的常见章节结构,结合了搜索结果中的信息:1.机器学习基础知识机器学习的定义与分类监督学习、无监督学习、半监督学习、
强化学习
机器学习的产生与发展机器学习的历史与现代应用经验误差与过拟合过拟合与欠拟合的概念及解决方案评估方法与性能度量交叉验证
zhangfeng1133
·
2025-02-21 14:24
机器学习
分类
学习
机器学习(一) 本文(3万字) | 机器学习概述 |
机器学习)1.1特点1.2对象1.3目的1.4方法1.5步骤2.基本分类2.1监督学习2.1.1输入空间、特征空间和输出空间2.1.2概率分布2.1.3假设空间2.1.4问题的形式化2.2无监督学习2.3
强化学习
小酒馆燃着灯
·
2025-02-21 08:05
机器学习
人工智能
深度学习
目标检测
vscode
pytorch
python
(九万字)面向2025年BOSS直聘人工智能算法工程师高频面试题解析
面向2025年BOSS直聘人工智能算法工程师高频面试题解析1.机器学习(ML)理论解析机器学习是让计算机从数据中学习规律的一套方法论,包含监督学习、无监督学习和
强化学习
等范式。
快撑死的鱼
·
2025-02-20 17:15
人工智能
回归
python
pytorch
DeepSeek与ChatGPT:AI语言模型的全面对决
为不同需求场景提供选择参考:一、核心技术对比维度DeepSeekChatGPT架构设计混合专家系统(MoE)+自研深度优化架构Transformer架构(GPT-3.5/4系列)训练策略万亿token中文语料预训练+领域
强化学习
多语言混合训练
金枝玉叶9
·
2025-02-20 12:01
程序员知识储备1
程序员知识储备2
程序员知识储备3
chatgpt
人工智能
语言模型
muzero 算法原理
Muzero算法是一种通用的
强化学习
算法,它可以在没有预先设定策略的情况下进行学习。它通过模拟整个游戏进程来自我学习,并通过回报函数来评估每一步的决策。
战神哥
·
2025-02-20 11:45
剑指Offer(
第二版
)面试题10:斐波那契数列
(尊重劳动成果,转载请注明出处:http://blog.csdn.net/qq_25827845/article/details/71933891冷血之心的博客)
温柔狠角色
·
2025-02-20 06:06
面试题
笔试题
剑指Offer
剑指Offer
斐波那契数列
跳台阶
DeepSeek技术跟踪和本地部署实践
春节期间,我也紧跟技术潮流,跟踪学习了并部署了一下DeepSeek,应该说DeepSeek是中国人在AI领域一次技术创新,甚至超越,给各大AI公司提供了一条全新的赛道,其推出的
强化学习
等技术提醒大家AI
一望无际的大草原
·
2025-02-19 16:46
人工智能
学习笔记
deepseek
大模型
技术跟踪
deepseek
AI架构师必知必会系列:
强化学习
在金融领域的应用
文章目录AI架构师必知必会系列:
强化学习
在金融领域的应用1.背景介绍1.1问题的由来1.2研究现状1.3研究意义1.4本文结构2.核心概念与联系1.
强化学习
交易系统的总体架构2.
强化学习
模型训练流程3.
AI天才研究院
·
2025-02-19 09:45
AI实战
AI大模型企业级应用开发实战
DeepSeek
R1
&
大数据AI人工智能大模型
大数据
人工智能
语言模型
AI
LLM
Java
Python
架构设计
Agent
RPA
基于基于
强化学习
(Q-Learning)用于底层动态频谱接入(DSA)认知无线电网络的资源分配研究(Matlab代码实现)
欢迎来到本博客❤️❤️博主优势:博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。⛳️座右铭:行百里者,半于九十。本文目录如下:目录⛳️赠与读者1概述一、动态频谱接入(DSA)的基本原理与挑战1.DSA的核心机制2.关键挑战二、Q-Learning在DSA资源分配中的应用框架1.算法原理2.典型应用场景三、关键参数与模型设计1.状态空间定义2.动作空间设计3.奖励函数设计四、研究进展与优化方法1.
长安程序猿
·
2025-02-19 07:01
网络
matlab
开发语言
【自学笔记】机器学习基础知识点总览-持续更新
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录机器学习重点知识点总览一、机器学习基础概念二、机器学习理论基础三、机器学习算法1.监督学习2.无监督学习3.
强化学习
四、机器学习处理流程五
Long_poem
·
2025-02-19 02:23
笔记
机器学习
人工智能
强化学习
:原理、概念与代码实践
一、引言
强化学习
(ReinforcementLearning)作为机器学习的一个重要分支,旨在通过智能体(agent)与环境的交互,学习到最优的行为策略,以最大化长期累积奖励。
AndrewHZ
·
2025-02-19 01:07
深度学习新浪潮
人工智能
深度学习
强化学习
机器学习
算法
deepseek
如何训练LLM“思考”(像o1和DeepSeek-R1一样, 高级推理模型解析
2024年9月,OpenAI发布了它的o1模型,该模型基于大规模
强化学习
训练,赋予了它“高级推理”能力。不幸的是,他们是如何做到这一点的细节从未被公开披露。
果冻人工智能
·
2025-02-18 22:06
AI员工
人工智能
chatgpt
深度学习
SFT(监督微调)和RLHF(基于人类反馈的
强化学习
)的区别
SFT(监督微调)和RLHF(基于人类反馈的
强化学习
)的区别STF(SupervisedFine-Tuning)和RLHF(ReinforcementLearningfromHumanFeedback)
钟小宇
·
2025-02-18 18:11
LLM
人工智能
语言模型
评测系统的神经架构搜索优化
评测系统的神经架构搜索优化关键词评测系统神经架构搜索优化
强化学习
人工智能摘要本文将探讨评测系统的神经架构搜索优化这一主题。
AI天才研究院
·
2025-02-18 13:50
ChatGPT
计算
DeepSeek
R1
&
大数据AI人工智能大模型
java
python
javascript
kotlin
golang
架构
人工智能
大厂程序员
硅基计算
碳基计算
认知计算
生物计算
深度学习
神经网络
大数据
AIGC
AGI
LLM
系统架构设计
软件哲学
Agent
程序员实现财富自由
强化学习
原理与代码实战案例讲解
1.背景介绍1.1什么是
强化学习
?
强化学习
(ReinforcementLearning,RL)是机器学习的一个重要分支,它关注的是智能体(Agent)如何在环境中通过与环境交互来学习最优的行为策略。
AI天才研究院
·
2025-02-18 05:53
AI大模型企业级应用开发实战
DeepSeek
R1
&
大数据AI人工智能大模型
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
强化学习
在连续动作空间的应用:DDPG与TD3
1.背景介绍1.1
强化学习
简介
强化学习
(ReinforcementLearning,简称RL)是一种机器学习方法,它通过让智能体(Agent)在环境(Environment)中与环境进行交互,学习如何根据观察到的状态
AI天才研究院
·
2025-02-18 00:02
计算
AI大模型应用入门实战与进阶
大数据
人工智能
语言模型
AI
LLM
Java
Python
架构设计
Agent
RPA
计算
AI大模型应用
书籍-《掌握Transformer:从BERT到大模型和Stable Diffusion(
第二版
)》
书籍:MasteringTransformers:TheJourneyfromBERTtoLargeLanguageModelsandStableDiffusion,2ndEdition作者:SavaşYıldırım,MeysamAsgari-Chenaghlu出版:PacktPublishing编辑:陈萍萍的公主@一点人工一点智能下载:书籍下载-《掌握Transformer:从BERT到大模型
·
2025-02-18 00:36
翻译Deep Learning and the Game of Go(14)第十二章 采用actor-critic方法的
强化学习
本章包括:利用优势使
强化学习
更有效率用actor-critic方法来实现自我提升AI设计和训练Keras的多输出神经网络如果你正在学习下围棋,最好的改进方法之一是让一个水平更高的棋手给你复盘。
idol_watch
·
2025-02-17 22:16
围棋与深度学习
【DeepSeek】一文详解GRPO算法——为什么能减少大模型训练资源?
GRPO,一种新的
强化学习
方法,是DeepSeekR1使用到的训练方法。
FF-Studio
·
2025-02-17 20:19
DeepSeek
R1
算法
揭秘DeepSeek内幕:清华教授剖析AI模型技术原理
在本文中,清华大学长聘副教授将深入剖析DeepSeekR1背后的大规模
强化学习
技术及其基本原理,并进一步展望大模型技术未来的发展方向。
大模型.
·
2025-02-16 19:23
人工智能
chatgpt
安全
agi
gpt
大模型
deepseek
DeepSeek正重构具身大模型和人形机器人赛道!
2024年1月20日,公司发布全球首个完全通过
强化学习
训练的专注于推理任务的高性能语言模型DeepSeek-R1
Robot251
·
2025-02-16 17:12
重构
机器人
人工智能
科技
自动驾驶
系统集成项目管理工程师教程
第二版
系统集成项目管理工程师教程
第二版
目录第1章信息化知识第2章信息系统集成及服务管理第3章信息系统集成专业技术知识第4章项目管理一般知识第5章项目立项管理第6章项目整体管理第7章项目范围管理第8章项目进度管理第
月梦工作室
·
2025-02-16 12:05
系统集成项目管理工程师专栏
系统集成项目管理工程师
软考高级《系统架构设计师》知识点(四)
嵌入式技术
第二版
新增内容嵌入式系统:以应用为中心、以计算机技术为基础,并将可配置与可裁减的软、硬件、集成于一体的专用计算机系统,需要满足应用对功能、可靠性、成本、体积和功耗等方面的严格要求。
Ritchie里其
·
2025-02-16 05:39
系统架构
DeepSeek-R1-Zero 与 DeepSeek-R1 的异同与优劣分析
DeepSeek-R1-Zero与DeepSeek-R1的异同与优劣分析一、相同点核心训练方法:两者均基于
强化学习
(RL),采用GroupRelativePolicyOptimization(GRPO)
AI生成曾小健
·
2025-02-16 04:34
Deepseek原理与使用
人工智能
《深度Q网络优化:突破高维连续状态空间的束缚》
在人工智能的发展历程中,深度Q网络(DQN)作为
强化学习
与深度学习融合的关键成果,为解决复杂决策问题开辟了新路径。
·
2025-02-15 18:22
人工智能深度学习
DQN的原理和代码实现
文章目录1.概述2.DQN的训练步骤2.1初始化2.2训练循环2.3终止条件2.4评估3.代码示例1.概述深度Q网络(DeepQ-Network,DQN)是
强化学习
中的一种重要算法,由GoogleDeepMind
SmallerFL
·
2025-02-15 15:23
NLP&机器学习
DQN
强化学习
深度学习
DQN原理和代码实现
参考:王树森《
强化学习
》书籍、课程、代码1、基本概念折扣回报:Ut=Rt+γ⋅Rt+1+γ2⋅Rt+2+⋯+γn−t⋅Rn.U_t=R_t+\gamma\cdotR_{t+1}+\gamma^2\cdotR
KPer_Yang
·
2025-02-15 14:20
机器学习
机器学习
人工智能
强化学习
在机器人控制中的应用:从理论到实践
强化学习
在机器人控制中的应用:从理论到实践大家好,我是你们熟悉的人工智能与Python领域自媒体创作者Echo_Wish。今天我们来聊聊一个炙手可热的话题——
强化学习
在机器人控制中的应用。
Echo_Wish
·
2025-02-15 13:08
前沿技术
人工智能
机器人
X-R1 项目代码文件的详细剖析并精读rewards、grpo、x_grpo_trainer(src/x_r1)
这个项目名为[X-R1](https://github.com/dhcode-cpp/X-R1),是一个基于
强化学习
的训练框架,旨在构建一个易于使用、低成本的训练框架,以加速ScalingPost-Training
仙人掌_lz
·
2025-02-15 12:34
人工智能
人工智能
深度学习
学习
Python深度学习代做目标检测NLP计算机视觉
强化学习
了解您的需求,您似乎在寻找关于Python深度学习领域的代做服务,特别是在目标检测、自然语言处理(NLP)、计算机视觉以及
强化学习
方面。以下是一些关于这些领域的概述以及寻找相关服务的建议。
matlabgoodboy
·
2025-02-15 10:43
计算机视觉
python
深度学习
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他