E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
动手强化学习
Deepseek成功启示:从 TRPO 到 GRPO训练LLM
本文将深入探讨LLMs的训练过程,特别是
强化学习
(ReinforcementLearning,RL)(深度解析DeepSeekR1:
强化学习
与知识蒸馏的协同力量)在这一领域的应用,从TRP
大模型之路
·
2025-02-08 20:03
强化学习
大模型(LLM)
人工智能
LLM
强化学习
deepseek
GRPO
TRPO
机器学习模型创建的数学原理
1模型工作原理机器学习学习模型主要分为监督学习、无监督学习、半监督学习和
强化学习
,本文聚焦探讨目前应用最为广泛的监督学习问题,下午如未特殊指明,机器学习特指有监督学习机器学习。
HadesZ~
·
2025-02-08 15:04
机器学习笔记
机器学习
算法
人工智能
动手
写ORM框架 - GeeORM第一天 database/sql 基础
文章目录1初识SQLite2database/sql标准库3实现一个简单的log库4核心结构Session本文是7天用Go从零实现ORM框架GeeORM的第一篇。介绍了SQLite的基础操作(连接数据库,创建表、增删记录等)。使用Go语言标准库database/sql连接并操作SQLite数据库,并简单封装。代码约150行1初识SQLiteSQLiteisaC-languagelibrarytha
程序员林北北
·
2025-02-08 15:32
数据库
sql
jvm
golang
数据结构
动手
学图神经网络(12):MovieLens上的链接回归
MovieLens上的链接回归在MovieLens数据集上进行评分预测的实践过程,包括数据处理、模型构建、训练以及评估等步骤,预测用户对电影的评分(即边的属性值)。环境设置使用pip安装pyg-lib、pytorch_geometric、sentence_transformers、fuzzywuzzy、captum等。importtorchprint(torch.__version__)impor
段智华
·
2025-02-08 11:07
图神经网络
图神经网络
力扣77题组合
示例:输入:n=4,k=2输出:[[2,4],[3,4],[2,3],[1,2],[1,3],[1,4],]思路:1.
动手
写一下,是如何组合的,然后可以发现,可以类似一棵树,选择一个数,往下,继续选择下一个数
zzxdddd
·
2025-02-08 10:25
力扣
一切皆是映射:
强化学习
在医疗诊断中的应用:挑战与机遇
《一切皆是映射:
强化学习
在医疗诊断中的应用:挑战与机遇》关键词
强化学习
,医疗诊断,图像识别,数据预处理,算法优化摘要随着医疗技术的发展,医疗诊断的准确性和效率越来越受到关注。
AI天才研究院
·
2025-02-08 07:28
AI大模型企业级应用开发实战
Python实战
DeepSeek
R1
&
大数据AI人工智能大模型
java
python
javascript
kotlin
golang
架构
人工智能
大厂程序员
硅基计算
碳基计算
认知计算
生物计算
深度学习
神经网络
大数据
AIGC
AGI
LLM
系统架构设计
软件哲学
Agent
程序员实现财富自由
DeepSeek-R1深度报告:基于Python
强化学习
的前沿长链推理模型揭秘与实战——兼谈SEO优化与实用经验分享
【DeepSeek-R1深度报告:基于Python
强化学习
的前沿长链推理模型揭秘与实战——兼谈SEO优化与实用经验分享】配合此文章使用,效果更佳:DeepSeek-R1深度报告——50道相关面试题——深刻理解相关概念
快撑死的鱼
·
2025-02-08 05:19
算法工程师面试宝典(面试必备)
python
搜索引擎
开发语言
DeepSeek模型与OpenAI模型原理和技术架构的异同分析
DeepSeek模型与OpenAI模型原理和技术架构的异同分析一、模型原理(一)DeepSeekR1DeepSeekR1的核心原理是基于
强化学习
(RL)的训练方式,其创新之处在于不依赖任何监督微调(SFT
程序猿000001号
·
2025-02-08 04:10
DeepSeek
大模型
【论文阅读】DeepSeek-R1:通过
强化学习
激励LLMs的推理能力 | DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL
DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearningDeepSeek-R1:通过
强化学习
激励LLMs的推理能力
AI天才研究院
·
2025-02-07 22:05
DeepSeek
R1
&
大数据AI人工智能大模型
DeepSeek
计算
论文阅读
deepseek
agi
ai
llm
agent
cot
深入浅出 DeepSeek-Coder-V2 是如何打破闭源模型封锁的
今天,我们就从模型架构、训练数据、
强化学习
优化三
fertiland
·
2025-02-07 17:33
人工智能
深度学习
SRMT:一种融合共享记忆与稀疏注意力的多智能体
强化学习
框架
在人工智能(AI)和
强化学习
(RL)领域的发展进程中,长期记忆维持和决策优化一直是核心技术难点。传统
强化学习
模型在经验回溯方面存在局限性,这显著制约了其在复杂动态环境中的应用效果。
·
2025-02-07 13:28
【Elasticsearch】Elasticsearch:aggregation介绍
文章目录1.概述2.关于ElasticFacets的一点背景3.准备数据4.
动手
实践5.例子MetricAggregationsBucketAggregations内嵌BucketAggregations1
九师兄
·
2025-02-07 10:47
elasticsearch
聚合
CentOS 7.3 Linux系统安装过程介绍
在学习Linux系统的过程中,我们需要安装一个Linux系统以供操练和实践,多
动手
多实
dvlinker
·
2025-02-07 04:35
开源组件及数据库技术
C/C++实战专栏
Linux
CentOS
安装
KNN算法:从思想到实现(附代码)
本文将详细介绍KNN的核心概念、使用方法及其在sklearn中的实现,并展示如何自己
动手
编写一个简单的KNN算法。新样本寻找K个最近邻分类问题:多数表决回归问题:均值计算KNN核心思想如何做一个样
lihuayong
·
2025-02-07 03:29
人工智能
机器学习算法
KNN算法
分类问题
回归问题
[论文笔记] Deepseek技术报告
1.总体概述背景与目标报告聚焦于利用
强化学习
(RL)提升大型语言模型(LLMs)的推理能力,旨在探索在不依赖大规模监督微调(SFT)的情况下,模型如何自我进化并形成强大的推理能力。
心心喵
·
2025-02-06 22:53
论文笔记
论文阅读
人工智能
Python视频制作引擎Manim安装教程2024版(科学概念可视化)_下载mainm引擎
三、入门学习视频我们在看视频学习的时候,不能光动眼动脑不
动手
,比较科学的学习方法是在理解之后运用它们
m0_61067876
·
2025-02-06 15:13
程序员
python
开发语言
它在
强化学习
中的作用是什么?
“若要得到救赎,必先承受痛苦。”作者主页:追光者♂个人简介:[1]计算机专业硕士研究生[2]2023年城市之星领跑者TOP1(哈尔滨)[3]2022年度博客之星人工智能领域TOP4[4]阿里云社区特邀专家博主[5]CSDN-人工智能领域优质创作者无限进步,一起追光!!!
追光者♂
·
2025-02-06 14:34
百题千解计划(项目
实战
案例)
Record
StudyRecord
postgraduate
Master
WorkRecord
深度Q网络
强化学习
深度学习与搜索引擎优化的结合:DeepSeek的创新与探索
目录引言1.传统搜索引擎的局限性2.深度学习在搜索引擎中的作用3.DeepSeek实现搜索引擎优化的关键技术3.1神经网络与搜索引擎优化3.2自然语言处理与查询理解3.3深度
强化学习
与搜索结果排序4.DeepSeek
云边有个稻草人
·
2025-02-06 10:37
热门文章
深度学习
搜索引擎
人工智能
DeepSeek
AI协助探索AI新构型自动化创新的技术实现
一、AI自进化架构的核心范式1.元代码生成与模块化重构-代码级自编程:基于神经架构搜索的
强化学习
框架,AI可通过生成元代码模板(框架的抽象层定义)自动组合功能模块。
liron71
·
2025-02-06 10:35
人工智能
自动化
神经网络
国家超算平台上线DeepSeek - R1系列模型:开启AI新征程
它用了
强化学习
训练,推理的时候会反复思考验证,思维链能有好几万字长。在数学、代码编写和复杂逻辑推理这些方面,表现相当厉害
CodeJourney.
·
2025-02-06 08:25
数据库
人工智能
算法
人工智能
AI大模型探秘:核心能力与应用场景深度解析
AI:包含很多术语,如:模式识别、自然语言处理、神经网络、机器学习、深度学习、
强化学习
、人类反馈
强化学习
等。类比:AI是电力–吴恩达。
程序员辣条
·
2025-02-06 08:53
人工智能
java
AI大模型
大模型
spring
一个聚合搜索网站——老马知搜
偶然看到别人的一个需求,好像自己也挺需要的,于是自己
动手
做了一个。
笑容为你
·
2025-02-06 05:30
DeepSeek-R1:通过
强化学习
提升大型语言模型推理能力的探索
DeepSeek-R1:通过
强化学习
提升大型语言模型推理能力的探索在人工智能领域,大型语言模型(LLMs)的发展日新月异,其在自然语言处理和生成任务中的表现逐渐接近人类水平。
kaichu2
·
2025-02-06 03:07
论文翻译
DeepSeek
第十章 Python编程基础——Python 学习资源与进阶方向
动手
实践:学完知识点立刻写代码,巩固记忆。权威学习资源官方文档Python官方文档:https://docs.python.org/3/优点:最权威的参考手册,涵盖所有语法和标准库。适合
你把貂蝉藏哪了
·
2025-02-06 00:14
Python
python
开发语言
Vue演练场基础知识(七)插槽
为学习Vue基础知识,我
动手
操作通关了Vue演练场,该演练场教程的目标是快速体验使用Vue是什么感受,设置偏好时我选的是选项式+单文件组件。
暗暗那
·
2025-02-05 22:06
vue.js
javascript
前端
免费搭建个人博客——hexo搭建教程
一番搜索后,在知乎上找到了一个hexo个人博客建立教程,非常详细地介绍了如何从0到1搭建hexo博客,就
动手
跟着这位博主的教程做了。
暗暗那
·
2025-02-05 22:06
github
node.js
bash
经验分享
笔记
机器学习在金融领域的应用
个性化服务需求1.2机器学习的兴起1.2.1大数据时代的到来1.2.2计算能力的提升1.2.3算法的不断创新2.核心概念与联系2.1机器学习的定义与分类2.1.1有监督学习2.1.2无监督学习2.1.3
强化学习
AI天才研究院
·
2025-02-05 17:01
大数据AI人工智能
AI大模型企业级应用开发实战
计算
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
LLM 算法工程师的速成指南:微调、
强化学习
微调与偏好微调
OpenAI近期在直播中,提到了两个新的概念:①
强化学习
微调(ReinforcementFine-Tuning):仅需少量高质量数据(数十到数千个),模型即可通过
强化学习
处理复杂任务。
大模型玩家
·
2025-02-05 16:24
算法
机器学习
深度学习
chatgpt
人工智能
ai
大模型
一切皆是映射:元学习中的神经架构搜索(NAS)
元学习神经架构搜索NAS遗传算法
强化学习
演化算法一切皆是映射:元学习中的神经架构搜索(NAS)在人工智能的广阔领域中,神经架构搜索(NeuralArchitectureSearch,简称NAS)是一颗璀璨的明星
杭州大厂Java程序媛
·
2025-02-05 16:22
计算机软件编程原理与应用实践
java
python
javascript
kotlin
golang
架构
人工智能
机器学习,深度学习,神经网络,深度神经网络
深度学习的算法又分很多种,比较典型的四种:卷积神经网络—CNN,循环神经网络—RNN,生成对抗网络—GANs,深度
强化学习
—RL。机器学习和深度学习的
武昌库里写JAVA
·
2025-02-05 12:52
面试题汇总与解析
java
学习
开发语言
课程设计
spring
boot
DeepSeek-R1全面超越OpenAI o1:开源大模型训练范式革新
OpenAI早期专注于
强化学习
(RL),但在Transformer结构问世后,迅速调整方向,借助Google的开源研究开发出强大的LLM。然而,尽
·
2025-02-05 02:16
前端javascript
OpenAI 模型与 DeepSeek 模型使用的
强化学习
有何不同
OpenAI模型与DeepSeek模型使用的
强化学习
有何不同阅读时长:15分钟发布时间:2025-02-04近日热文:全网最全的神经网络数学原理(代码和公式)直观解释欢迎关注知乎和公众号的专栏内容LLM
·
2025-02-04 18:02
人工智能
【大模型应用开发
动手
做AI Agent】第二轮思考:模型决定计算
【大模型应用开发
动手
做AIAgent】第二轮思考:模型决定计算关键词:大模型,AIAgent,模型决定计算,模型优化,计算优化,硬件加速,效率提升1.背景介绍随着深度学习技术的飞速发展,大模型在自然语言处理
AGI大模型与大数据研究院
·
2025-02-04 16:30
大数据AI人工智能
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
DeepSeek R1 AI 论文翻译
DeepSeek-R1-Zero是一个通过大规模
强化学习
(RL)训练的模型,且在此过程中未使用监督微调(SFT)作为预处理步骤,展现出了显著的推理能力。
·
2025-02-04 14:27
后端java
人工智能机器学习基本概念详解
本文将详细探讨机器学习的基本概念,包括监督学习、无监督学习、
强化学习
及其应用示例。一、机器学习的基本概念1.1数据数据是机器学习的基础。机器学习模型通过分析数据来识别模式和
猿享天开
·
2025-02-04 13:07
人工智能基础知识学习
机器学习
人工智能
利用 OpenAI GPT、LangChain 和 Streamlit 创建自己的 PDF 问答系统
每日推荐一篇专注于解决实际问题的外文,精准翻译并深入解读其要点,助力读者培养实际问题解决和代码
动手
的能力。
hj_caas
·
2025-02-04 13:01
每日外文推荐
gpt
langchain
pdf
DeepSeek- R1 原理介绍
DeepSeek-R1是由DeepSeek公司推出的一款基于
强化学习
(RL)的开源推理模型,其核心原理和特点如下:1.核心技术与架构
强化学习
驱动:DeepSeek-R1是首个完全通过
强化学习
训练的大型语言模型
kcarly
·
2025-02-04 08:50
大模型知识乱炖
杂谈
DeepSeek
R1
原理介绍
DeepSeek R1 AI 论文翻译
DeepSeek-R1-Zero是一个通过大规模
强化学习
(RL)训练的模型,且在此过程中未使用监督微调(SFT)作为预处理步骤,展现出了显著的推理能力。
老马啸西风
·
2025-02-04 06:04
java
构建由局部观测、分布式决策与全局奖励协同作用的多智能体
强化学习
系统
传统的单智能体
强化学习
(RL)模型难以直接适用于这种场景,因此需要多智能体
强化学习
(MARL)的方法。1.2将问题转化为部分可观测马尔可夫决策过
由数入道
·
2025-02-04 05:30
分布式
强化学习
智能体
动手
学PyTorch建模与应用:从深度学习到大模型
在人工智能时代,机器学习技术日新月异,深度学习是机器学习领域中一个全新的研究方向和应用热点,它是机器学习的一种,也是实现人工智能的必由之路。深度学习的出现不仅推动了机器学习的发展,而且促进了人工智能技术的革新,已经被成功应用在语音识别、图像分类识别、地球物理、大语言模型等领域,具有巨大的发展潜力和价值。本书是一本带领读者快速学习PyTorch并将其运用于深度学习建模方向的入门指南,重点介绍了基于P
王国平
·
2025-02-04 00:51
pytorch
人工智能
数据分析
python
数据挖掘
机器学习笔记——特征工程、正则化、
强化学习
本笔记介绍机器学习中常见的特征工程方法、正则化方法和简要介绍
强化学习
。
好评笔记
·
2025-02-04 00:48
机器学习笔记
机器学习
人工智能
AI
AI编程
算法工程师
DeepSeek R1 AI 论文翻译
DeepSeek-R1-Zero是一个通过大规模
强化学习
(RL)训练的模型,且在此过程中未使用监督微调(SFT)作为预处理步骤,展现出了显著的推理能力。
·
2025-02-03 20:09
后端java
AIGC与虚拟身份及元宇宙的未来:虚拟人物创作与智能交互
云边有个稻草人-CSDN博客目录引言一、AIGC在元宇宙中的作用1.1AIGC与虚拟人物创作1.1.1生成虚拟人物外观1.1.2个性化虚拟角色设计1.2AIGC与虚拟角色的行为与交互1.2.1行为生成与
强化学习
云边有个稻草人
·
2025-02-03 19:38
热门文章
AIGC
算法
笔记
Reinforcement Learning 通过
强化学习
激励大型语言模型的推理能力
主要技术:1.
强化学习
(RL)核心是
强化学习
技术,像训练小狗一样,当模型做出正确的推理步骤或得到正确的
davenian
·
2025-02-03 18:56
评论
语言模型
人工智能
深度学习
DeepSeek
C++计算精解【21】
文章目录
动手
做汇编解释器【4】COCO/R概述变量赋值的ATG生成的代码框架参考文献
动手
做汇编解释器【4】COCO/R概述Coco/R是一个用于构造词法分析器(LexicalAnalyzers)和语法分析器
sakura_sea
·
2025-02-03 18:24
游戏引擎与高性能计算
c++
开发语言
基于“蘑菇书”的
强化学习
知识点(一):奖励函数(Reward Function)和价值函数(Value Function)的区别
奖励函数(RewardFunction)和价值函数(ValueFunction)的区别摘要1.定义与目标奖励函数(RewardFunction)价值函数(ValueFunction)2.核心区别3.具体示例场景:迷宫导航问题(1)奖励函数的设计(2)价值函数的计算对比结果4.关系与协同作用总结摘要本系列知识点讲解基于蘑菇书EasyRL中的内容进行详细的疑难点分析!具体内容请阅读蘑菇书EasyRL!
墨绿色的摆渡人
·
2025-02-03 17:20
基于“蘑菇书”的强化学习知识点
强化学习
蘑菇书
线性回归的简单实现
本文是《
动手
学深度学习》的笔记文章目录线性回归的简单实现生成随机数据集读取数据初始化模型参数定义模型定义损失函数定义优化算法训练模型线性回归的简洁实现生成数据集读取数据定义模型初始化模型参数定义损失函数定义优化算法训练模型线性回归的简单实现用了
SkaWxp
·
2025-02-03 14:58
深度学习
深度学习
机器学习
mxnet
gluon
初入机器学习
也为大家提供一些个人的思考一切仅供参考概念辨析深度学习:本质是建模,将训练得到的模型作为系统的一部分使用侧重于发现样本集中隐含的规律难点是认识并了解模型,合理设置初始模型,要对建模对象有比较深刻的认识依赖大量的准确训练样本
强化学习
辰尘_星启
·
2025-02-03 14:54
机器学习
人工智能
深度学习
python
mxnet
基于CNN(一维卷积Conv1D)+LSTM+Attention 实现股票多变量时间序列预测(PyTorch版)
食品饮料、运动健身、交通运输、环境科学、社交媒体以及文本和图像处理等诸多领域,讨论了各种复杂的深度神经网络思想,如卷积神经网络、循环神经网络、生成对抗网络、门控循环单元、长短期记忆、自然语言处理、深度
强化学习
矩阵猫咪
·
2025-02-03 12:42
cnn
lstm
pytorch
注意力机制
卷积神经网络
长短期记忆网络
Attention
Python 浅拷贝 深拷贝
看《流畅的Python》8.3节默认做浅拷贝,自己
动手
实践。书中提到的网站http://pythontutor.com是一个可视化编程的网站。csdn不支持图片粘贴,我也是服了,图片全没了。。。
MIPS71
·
2025-02-03 12:36
Python
上一页
2
3
4
5
6
7
8
9
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他