E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
多智能体强化学习MARL
GitHub本周Python热门项目盘点|AI开发者的宝藏库
项目1:MetaGPT地址:github.com/geekan/MetaGPT描述:首个
多智能体
框架,模拟AI软件公司,用自然语言编程实现复杂任务。推荐理由:一周狂揽3k+星!
BillyXie23
·
2025-03-13 11:20
python
人工智能
开发语言
github
开源
不同用户群体设计的Manus试用申请理由模板
Manus的「
多智能体
调度」与「跨平台工具调用」功能能显著提升研究效率,例如:自动化筛选并分析1000+份上市公司ES
xinxiyinhe
·
2025-03-13 07:15
人工智能
人工智能
Chebykan wx 文章阅读
sigmoid函数的超层叠近似[3]多层前馈网络是通用近似器[5]注意力是你所需要的[6]深度残差学习用于图像识别[7]视觉化神经网络的损失景观[8]牙齿模具点云补全通过数据增强和混合RL-GAN[9]
强化学习
やっはろ
·
2025-03-13 02:44
深度学习
anaconda 创建环境失败 解决指南
昨天晚上突然有在那台电脑上使用Camel-AI部署
多智能体
协同需求,便戳开了电脑,问题也随之而来。
Midsummer-逐梦
·
2025-03-13 01:08
解决方案
anaconda
conda
bug
用物理信息神经网络(PINN)解决实际优化问题:全面解析与实践
实验表明,PINN相比传统数值方法及
强化学习
(RL)/遗传算法(GA),在收敛速度、解的稳定性及物理保真度上均实现突破性提升。关键词:物理信息神经网络;优化任务;深度学习;
强化学习
;航天器轨道一、
青橘MATLAB学习
·
2025-03-12 14:23
深度学习网络设计
人工智能
深度学习
物理信息神经网络
强化学习
django allauth 自定义登录界面
起因,目的:为什么前几天还在写
强化学习
,今天又写django,问就是:客户需求>个人兴趣。问题来源:allauth默认的登录界面不好看,这里记录几个问题。
waterHBO
·
2025-03-12 13:19
django
python
django
数据库
sqlite
python
笔记
经验分享
人工智能机器学习算法分类全解析
目录一、引言二、机器学习算法分类概述(一)基于学习方式的分类1.监督学习(SupervisedLearning)2.无监督学习(UnsupervisedLearning)3.
强化学习
(ReinforcementLearning
power-辰南
·
2025-03-12 07:08
人工智能
人工智能
机器学习
算法
python
怎么定义世界模型,Sora/Genie/JEPA 谁是世界模型呢?(1)
其实世界模型在ML领域不是什么新概念,远远早于Transfomer这些东西被提出来,因为它最早是
强化学习
RL领域的,在20世纪90年代由JuergenSchmiduber实验室给提出来的。
周博洋K
·
2025-03-11 23:52
分布式
人工智能
深度学习
自然语言处理
机器学习
OPPO机器学习算法岗(AI智能体)内推
专注于以端设备为中心的AI智能体研究与应用,研究方向包括但不限于智能体与
多智能体
框架、大模型推理与规划、大模型工具使用等。
飞300
·
2025-03-11 23:19
人工智能
业界资讯
《Natural Actor-Critic》译读笔记
《NaturalActor-Critic》摘要本文提出了一种新型的
强化学习
架构,即自然演员-评论家(NaturalActor-Critic)。
songyuc
·
2025-03-11 11:21
笔记
LLM Weekly(2025.02.17-02.23)
Grok发布了Grok3Beta,通过
强化学习
、扩展计算和多模态理解提供卓越的推理能力。Grok3和Grok3mini在学术基准上取得了高分,其中Grok3在AIME’25上获得了93.3%的分数。
UnknownBody
·
2025-03-11 01:59
LLM
Daily
LLM
Weekly
人工智能
自然语言处理
大话机器学习三大门派:监督、无监督与
强化学习
以武侠江湖为隐喻,系统阐述了机器学习的三大范式:监督学习(少林派)凭借标注数据精准建模,擅长图像分类等预测任务;无监督学习(逍遥派)通过数据自组织发现隐藏规律,在生成对抗网络(GAN)等场景大放异彩;
强化学习
安意诚Matrix
·
2025-03-10 15:44
机器学习笔记
机器学习
人工智能
使用DeepSeek来构建LangGraph Agent
随着DeepseekR1的发布,我们不得不把目光聚焦在这个能赶超多个顶流大模型的模型身上,它主要是其在后训练阶段大规模使用了
强化学习
技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。
乔巴先生24
·
2025-03-09 21:59
人工智能
python
人机交互
当深度学习遇见禅宗:用东方智慧重新诠释DQN算法
引言:代码与禅的碰撞♂️在某个调试代码到凌晨三点的夜晚,我突然意识到:
强化学习
的过程,竟与佛家修行惊人地相似。智能体在环境中探索
带上一无所知的我
·
2025-03-09 21:28
智能体的自我修炼:强化学习指南
深度学习
算法
人工智能
DQN
Manus平替来了!CAMEL-AI开源OWL,开源框架中排名第一,上线一天获得3.3K stars!
OWL是一个前沿的
多智能体
协作框架,推动任务自动化的边界,构建在CAMEL-AIFramework。具体可以看公众号今天推送的第二篇文章~OWL的愿景是彻底变革AI智能体协作解决现实任务的方式。
AIGC Studio
·
2025-03-09 20:49
AIGC
AIGC前沿
人工智能
自然语言处理
AIGC
计算机视觉
语言模型
Manus超详细介绍,看这一篇就够了
技术架构
多智能体
协作系统Manus采用规划代理、执行代理和验证代理的分工机制,模拟人类工作流程,提升复杂任务的处理效率。规划代理采用蒙特卡洛树搜索
大模型零基础教程
·
2025-03-08 23:19
人工智能
自然语言处理
算法
agi
开源
Manus要邀请码?来试试 OpenManus:纯开源AI Agent 神器+简单三步上手实战指南
与传统AI助手不同,它通过
多智能体
架构在云端虚拟机中运行,能自主调用浏览器、代码
大F的智能小课
·
2025-03-08 14:22
DeepSeek技术解析和实战
大模型理论和实战
人工智能
深度学习
机器学习
就在刚刚!马斯克决定将“地球上最聪明的人工智能”Grok-3免费了!
Grok-3的核心优势在于其大规模
强化学习
(RL)优化,能够在几秒到几分钟内进行深度推理,适应复杂任务的需求。配备的D
源代码杀手
·
2025-03-08 12:16
AI技术快讯
人工智能
python
机器学习入门知识
二、机器学习的基本类型1.监督学习2.无监督学习3.半监督学习4.
强化学习
三、机器学习的工作流程四、常见的机器学习算法五、机器学习的评价指标六、机器学习中的过拟合与欠拟合七、机器学习的应用八、学习机器学习的资源前言随着人工智能的发展
十五境剑修
·
2025-03-08 09:33
机器学习
人工智能
特斯拉FSD不同版本的进化
特斯拉,FSD,自动驾驶,深度学习,计算机视觉,
强化学习
,神经网络,模型训练1.背景介绍特斯拉自2016年推出Autopilot以来,一直致力于开发全自动驾驶系统,其目标是实现完全无人驾驶,让汽车能够像人类一样感知周围环境
AI智能涌现深度研究
·
2025-03-07 19:35
AI大模型应用入门实战与进阶
java
python
javascript
kotlin
golang
架构
人工智能
阿里深夜开源QwQ-32B模型,仅需1/10的成本即可比肩R1满血版
大规模
强化学习
(RL)有潜力超越传统的预训练和后训练方法来提升模型性能。近期的研究表明,
强化学习
可以显著提高模型的推理能力。
伪_装
·
2025-03-07 13:45
LLM
python
大模型
LLM
2024年图灵奖公布:两位AI先锋因
强化学习
获奖
纽约时报》报道,全球最大的计算机专业人士协会计算机协会(ACM)周三宣布,将2024年图灵奖授予安德鲁·巴托(AndrewBarto)博士和理查德·萨顿(RichardSutton)博士,以表彰他们在
强化学习
方面的研究
吴脑的键客
·
2025-03-07 13:15
人工智能
人工智能
chatgpt
(24-1)DeepSeek中的
强化学习
:DeepSeek简介
在人工智能的浩瀚星空中,DeepSeek犹如一座巍峨的科技丰碑,熠熠生辉,引领着大模型时代的风云变幻。DeepSeek以卓越的创新精神和前沿的技术架构,突破常规极限,将海量知识与智能推理完美融合,展现出惊人的计算力与思维深度。4.1DeepSeek简介DeepSeek是一家成立于2023年的中国人工智能初创公司,专注于开发高效且经济的大型语言模型。其核心技术包括多头潜在注意力(Multi-head
码农三叔
·
2025-03-07 12:33
强化学习从入门到实践
transformer
人工智能
大模型
架构
强化学习
DeepSeek
详解:Grok中文版 _Grok 3 国内中文版本在线使用
借助深度学习与
强化学习
等先进技术,GrokAI具备自我学习的能力,可以通过不断的训练来优
·
2025-03-06 18:35
人工智能
【大模型学习】第八章 深入理解机器学习技术细节
SupervisedLearning)1.定义与工作原理2.常见任务3.应用场景示例:房价预测二、无监督学习(UnsupervisedLearning)1.定义与工作原理2.常见任务3.应用场景示例:客户细分三、
强化学习
好多渔鱼好多
·
2025-03-06 16:57
AI大模型
机器学习
AI
大模型
人工智能
AI语言模型的技术之争:DeepSeek与ChatGPT的架构与训练揭秘
的基础概述1.1DeepSeek简介1.2ChatGPT简介第二章:模型架构对比2.1Transformer架构:核心相似性2.2模型规模与参数第三章:训练方法与技术3.1预训练与微调:基础训练方法3.2
强化学习
与奖励建模
m0_74825466
·
2025-03-06 06:29
面试
学习路线
阿里巴巴
chatgpt
人工智能
语言模型
自然语言模型(NLP)介绍
例如,DeepSeek通过
强化学习
提升推理能力,其混合专家架构(MoE)显著优化了计算效率。二、核心技术解析1.DeepSeek模型架构混合专家模型(MoE):DeepSeek-V3采用Mo
Liudef06
·
2025-03-06 04:11
Stable
Diffusion
自然语言处理
人工智能
双盲机制(信念,欲望):模型上下文通常会包含所有信,双盲机制屏蔽:每个智能体分别进行独立的模型调用
如何让人工智能生成的说服性对话更接近真实的日常交流目录如何让人工智能生成的说服性对话更接近真实的日常交流**一、核心创新点解析****1.双盲对话生成机制****2.因果心理理论指导****3.
多智能体
协作框架
ZhangJiQun&MXP
·
2025-03-05 23:31
教学
2021
AI
python
2024大模型以及算力
人工智能
android
python
自然语言处理
pycharm
Search-o1:智体搜索增强的大型推理模型
大型推理模型(LRM)(例如OpenAI-o1)已通过大规模
强化学习
展示长步推理能力。然而,它们的扩展推理过程通常会受到知识不足的影响,从而导致频繁出现不确定性和潜在错误。
三谷秋水
·
2025-03-05 22:53
机器学习
大模型
人工智能
人工智能
深度学习
机器学习
强化学习
实践 openai gymnasium CartPole-v1 DQN算法实现
前言最近在学习
强化学习
,大致过了一遍
强化学习
的数学原理(视频)。视频讲的很好,但是实践的部分总是感觉有点匮乏(毕竟解决gridworld方格世界(GitHub)的问题的很难给人特别大的
abstcol
·
2025-03-05 14:12
强化学习
深度学习
机器学习
神经网络
强化学习
是否能够在完全不确定的环境中找到一个合理的策略,还是说它只能在已知规则下生效?
强化学习
(ReinforcementLearning,RL)是机器学习的一个重要分支,广泛应用于机器人控制、自动驾驶、游戏策略和金融决策等领域。
concisedistinct
·
2025-03-05 12:58
人工智能
人工智能
强化学习
清华大学DeepSeek PPT第二版深度解读:人工智能前沿技术解析
第二版PPT从以下方面实现全面升级:AI前沿技术覆盖:涵盖大模型、深度
强化学习
等领域最新研究进展工业级实践案例:新增多个企业级项目解决方案案例三维知识框架:从算法原理→代码实现→工程部署的全链路解析下载建议
qudongmofashi
·
2025-03-05 09:04
人工智能
PyTorch 中结合迁移学习和
强化学习
的完整实现方案
结合迁移学习(TransferLearning)和
强化学习
(ReinforcementLearning,RL)是解决复杂任务的有效方法。
小赖同学啊
·
2025-03-05 07:54
人工智能
pytorch
迁移学习
人工智能
【机器学习】Reinforcement Learning-
强化学习
基本概念
1、Q值与V值1.1Q值和V值的定义Q值:也称为动作价值函数,评估动作的价值,它代表了智能体选择这个动作后,一直到最终状态奖励总和的期望,表示为Q(s,a),其中s是状态,a是动作。V值:评估状态的价值,也称为状态价值函数,表示为V(s),其中s是状态。它代表了智能体在这个状态下,一直到最终状态的奖励总和的期望。V值与动作无关只与状态有关。Q值和V值的概念是一致的,都是衡量在马可洛夫树上某一个节点
长相忆兮长相忆
·
2025-03-05 02:42
深度学习
人工智能
算法
机器学习
SFT与RLHF的关系
在大模型训练中,SFT(监督微调)和RLHF(基于人类反馈的
强化学习
)是相互关联但目标不同的两个阶段,通常需要结合使用以优化模型性能,而非互相替代。
一只积极向上的小咸鱼
·
2025-03-04 11:12
人工智能
蚂蚁技术研究院发布推理大模型
强化学习
框架,邀请开发者共同助力 AGI 生态
2月25日,蚂蚁技术研究院正式开源
强化学习
框架AReaL(AntReasoningRL)。AReaL源自开源项目ReaLHF,旨在训练每个人都可以复现和贡献的大型推理模型(LRM)。
·
2025-03-04 10:52
开源开源项目介绍
DeepSeek-R1:通过
强化学习
激励大型语言模型的推理能力
DeepSeek-R1-Zero是一个通过大规模
强化学习
(RL)训练而成的模型,无需监督微调(SFT)作为初步步骤,展示了卓越的推理能力。
AI专题精讲
·
2025-03-03 22:05
大模型专题系列
语言模型
人工智能
自然语言处理
【任务分配】拍卖的
多智能体
系统动态分散任务分配【含Matlab源码 13035期】
⛄一、拍卖的
多智能体
系统动态分散任务分配拍卖的
多智能体
系统动态分散任务分配是指利用拍卖机制来实现多个智能体之间的
Matlab武动乾坤
·
2025-03-03 21:22
Matlab路径规划(进阶版)
matlab
基于 MetaGPT 自部署一个类似 MGX 的
多智能体
协作框架
MGX(由MetaGPT团队开发的mgx.dev)是一个收费的
多智能体
编程平台,提供从需求分析到代码生成、测试和修复的全流程自动化功能。
Just_Paranoid
·
2025-03-03 16:16
技术流Clip
MetaGPT
MGX
Agent
AIGC
DeepSeek
DeepSeek-R1 技术报告解读:用
强化学习
激发大模型的推理潜能
文章目录1.背景2.DeepSeek-R1训练流程2.1DeepSeek-R1-Zero:纯
强化学习
2.2DeepSeek-R1:冷启动+多阶段训练3.蒸馏小模型3.1蒸馏流程与优势3.2蒸馏vs.直接
跑起来总会有风
·
2025-03-03 14:04
ai
AI编程
论文阅读
强化学习
与网络安全资源-论文和环境
TableofContentsRL-EnvironmentsPapersBooksBlogpostsTalksMiscellaneous↑EnvironmentsPentestingTrainingFrameworkforReinforcementLearningAgents(PenGym)TheARCDPrimary-levelAITrainingEnvironment(PrimAITE)CSL
AI拉呱
·
2025-03-03 14:03
web安全
安全
基础篇(二)从监督学习到
强化学习
:机器学习的不同范式
从监督学习到
强化学习
:机器学习的不同范式在机器学习的广阔领域中,监督学习和
强化学习
是两种最重要的范式。它们各自有其独特的特点和应用场景,但也存在紧密的联系。
带上一无所知的我
·
2025-03-03 11:39
智能体的自我修炼:强化学习指南
机器学习
人工智能
基础篇
Matlab 大量接单
机器学习、深度学习、
强化学习
、仿真、复现、算法、神经网络、建模、图像识别、数据挖掘、数据获取、爬虫、数据分析、目标检测、算法创新、因子分析、相关分析、方差分析、判别分析、方程分析、线性回归、中介
matlabgoodboy
·
2025-03-02 17:45
matlab
开发语言
强化学习
的数学原理-六、随机近似与随机梯度下降
代码来自up主【
强化学习
的数学原理-作业】GridWorld示例代码(已更新至DQN、REINFORCE、A2C)_哔哩哔哩_bilibiliSGD、GD、MGD举例:#先初始化一个列表,未来要在这100
儒雅芝士
·
2025-03-02 15:24
python
numpy
机器学习
模型优化之
强化学习
(RL)与监督微调(SFT)的区别和联系
强化学习
(RL)与监督微调(SFT)是机器学习中两种重要的模型优化方法,它们在目标、数据依赖、应用场景及实现方式上既有联系又有区别。
搏博
·
2025-03-02 10:08
深度学习
人工智能
机器学习
架构
transformer
DeepSeek R1 详解:思维链、
强化学习
和蒸馏
目录思维链
强化学习
蒸馏DeepSeek是如何做到的?
前网易架构师-高司机
·
2025-03-02 05:58
2025年最新-深度学习+AI
DeepSeek和AI工具
深度学习
Deepseek
强化学习
探索与利用:多臂老虎机的UCB与Softmax策略
)上置信界(UCB,UpperConfidenceBound)软max策略(Softmax)算法对比与评估实验与结果总结与展望参考文献引言多臂老虎机问题(Multi-ArmedBandit,MAB)是
强化学习
领域中的一个经典问题
海棠AI实验室
·
2025-03-01 23:42
智元启示录
深度学习
人工智能
机器学习
USB
Softmax
程序员未来的出路:行业趋势与职业发展分析
深入研究深度学习、
强化学习
等前沿技术。成为AI架构师或数
guzhoumingyue
·
2025-03-01 19:46
AI
python
强化学习
——基本概念
何为
强化学习
机器学习的一大分支
强化学习
(ReinforcementLearning)是机器学习的一种,它通过与环境不断地交互,借助环境的反馈来调整自己的行为,使得累计回报最大。
AI大模型探索者
·
2025-03-01 17:06
人工智能
ai
深度学习
机器学习
语言模型
淘天业务技术2024年度热门文章盘点
1.Agent调研--19类Agent框架对比本文主要探讨了19类Agent框架的对比,介绍了单智能体和
多智能体
框架的特点与应用,详细分析了几种主流的Agent框架,分别从任务规划、模型选择、执行任务等方面进行了阐述
阿里巴巴淘系技术团队官网博客
·
2025-02-28 23:55
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他