E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
自然语言推理
大语言模型原理与工程实践:手把手教你训练 7B 大语言模型 自动化训练框架
大语言模型原理与工程实践:手把手教你训练7B大语言模型自动化训练框架关键词:大语言模型、7B模型、自动化训练、深度学习、神经网络、
自然语言
处理、分布式计算文章目录大语言模型原理与工程实践:手把手教你训练
AI天才研究院
·
2025-03-01 07:24
AI大模型企业级应用开发实战
DeepSeek
R1
&
大数据AI人工智能大模型
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
全网国内外总结Prompt&LLM论文,开源数据&模型,AIGC应用(持续更新,收藏查看)
垂直领域大模型Agent和指令微调等训练框架开源指令,预训练,rlhf,对话,agent训练数据梳理AIGC相关应用prompt写作指南和5星博客等资源梳理Prompt和LLM论文细分方向梳理Prompt是在
自然语言
处理
代码讲故事
·
2025-03-01 07:54
智能工具
Prompt
LLM
AIGC
模型
开源
数据集
深度学习
Transformer 代码剖析1 - 数据处理 (pytorch实现)
引言Transformer架构自《AttentionIsAllYouNeed》论文发表以来,在
自然语言
处理领域引起了巨大的变革。
lczdyx
·
2025-03-01 06:18
Transformer代码剖析
人工智能
transformer
深度学习
pytorch
python
BERT模型深入理解——
自然语言
处理的里程碑
1BERT的诞生背景2018年谷歌团队发布了BERT(BidirectionalEncoderRepresentationsfromTransformers)模型,在
自然语言
处理领域引领了技术性的革命。
cufewxy2018
·
2025-03-01 06:47
自然语言处理
bert
人工智能
Amazon SageMaker 批量转换中的 JSON 处理技巧
背景介绍AmazonSageMaker提供了强大的批量转换功能,允许我们对大量数据进行
推理
。这在处理大规模数据集时非常有用。然而,当我们尝试将批量策略从SingleRecord切换到MultiRec
t0_54coder
·
2025-03-01 03:50
json
个人开发
如何使用Anyscale平台运行、微调和扩展大语言模型(LLMs)
技术背景介绍在处理大规模的
自然语言
处理任务时,我们常常需要一个可靠且经济高效的解决方案来运行和管理LLMs。Anyscale提供了一个强大的接口,能够简化这一过程。结合LangChain,我们
eahba
·
2025-03-01 03:49
语言模型
人工智能
自然语言处理
python
计算机毕业设计 ——jspssm508Springboot 的旅游管理
近年来,花花更是将触角延伸至AI领域,对于机器学习、
自然语言
处理、智能推荐等前沿技术都有独到的见解和实践经验。
奔强的程序
·
2025-03-01 03:17
课程设计
旅游
人类驾驶的人脑两种判断模式(反射和预判)-->自动驾驶两种AI模式
另一种模式是物理时空图式
推理
模式,判断是基于预判预测,人脑把物理世界的物理动态时空规则(规律)图像已经编码为脑内符号(语言或图式)系统,通过预判预测的思维链
推理
过程(语言符号或物理时空图式的
推理
运算,映射
推理
出了物理世界的后续时空图像
liron71
·
2025-03-01 02:14
人工智能
机器学习
利用OllamaLLM模型实现多模态文本生成
在
自然语言
处理领域,结合图像和文本的多模态模型越来越受到关注。O
bavDHAUO
·
2025-03-01 02:42
python
DeepSeek技术全景解析:架构创新与行业差异化竞争力
深度优化的MoE架构:结合256个路由专家与1个共享专家,实现稀疏激活机制(每个Token仅激活8个专家),在代码生成任务中
推理
速度提升40%。混合模态支持:支持文本、代码、数学符号
二进制coder
·
2025-03-01 01:40
人工智能
架构
AGI
AI
DeepSeek入门:安装与配置
,以下是不同版本的硬件要求:DeepSeek-R1-1.5B:CPU:最低4核(推荐Intel/AMD多核处理器)内存:8GB+硬盘:3GB+存储空间(模型文件约1.5-2GB)显卡:非必需(纯CPU
推理
梦落青云
·
2025-03-01 01:08
deepseek
大模型研究:DeepSeek三个版本(初级中级高级)资源要求说明
DeepSeek-LLM6.7B三个版本模型所需硬件资源的介绍:DeepSeek-LLM6.7B最小最基础版本1.内存(RAM)非量化运行时,由于模型参数数量相对较少,大约需要13GB-14GB的系统内存来加载模型和进行基本
推理
程序猿学长
·
2025-03-01 01:08
大模型
人工智能
语言模型
DeepSeek 最新发布 DeepEP:一款用于 MoE 模型训练和
推理
的开源 EP 通信库
采用Mixture-of-Experts(MoE)架构的大型语言模型在没有相应计算量增加的情况下显著提升了模型容量。然而,这种方法也引入了一些挑战,尤其是在GPU之间的通信方面。在MoE模型中,对于任何给定的token,只有一部分专家是活跃的,因此在设备之间高效地交换数据至关重要。传统的全对全(all-to-all)通信方法可能会造成瓶颈,增加延迟,并导致GPU资源利用不足。在对延迟敏感的场景中,
强哥之神
·
2025-03-01 01:37
人工智能
LLM
机器学习
Latent
Space
语言模型
deepseek
一文了解:部署 Deepseek 各版本的硬件要求
我们先看一下DeepSeek的部分通用版本(如下图),然后再介绍一下最近火热的R1
推理
版本的各规格的硬件要求。最后,会给出R1的各主流版本的资源参考列表(文末)。模型名参数大小文件格式标签公司
强哥之神
·
2025-03-01 00:04
人工智能
语言模型
AI代理
智能体
大模型
deepseek
继清华大学DeepSeek资料后,北京大学也出了内容主攻提示词和应用场景
以下是文件的主要内容摘要:1.DeepSeek-R1模型详解技术特性:DeepSeek-R1是一款专注于复杂
推理
任务的
推理
模型,擅长数学、编程和
自然语言
推理
任务。
心灵宝贝
·
2025-03-01 00:04
deepseek
谁说消费级硬件不能玩 DeepSeek - R1 微调?手把手教你进阶AI玩家
一、大规模人工智能模型的微调DeepSeek最新的R1模型在
推理
性能方面树立了新的标杆,在保持开源的同时,可与专有模型相媲美。DeepSeek-R1的蒸
硅基创想家
·
2025-02-28 22:51
#
大模型-DeepSeek系列
人工智能
DeepSeek
大模型微调
大模型
GPU
DeepSeek五天开源5大杀器实测:训练成本砍半+
推理
速度起飞,算法圈已疯(附删库跑路教程)
FlashMLA让
推理
速度飙升40%,DeepEP根治MoE通信癌,FP8核弹库DeepGEMM暴力提效,DualPipe+EPLB把GPU榨到一滴不剩,3FS化身数据闪电侠!
AI仙人掌
·
2025-02-28 22:18
人工智能
深度学习
人工智能
大模型
算法
开源
一文看懂 Claude 3.7 Sonnet,为什么是第一个融合
推理
模式的 AI 模型
Claude3.7Sonnet是Anthropic最新发布的AI模型,发布过程中,最突出最吸引眼球的特点是首个“融合
推理
”模型。什么是融合
推理
模型?
董董灿是个攻城狮
·
2025-02-28 22:45
人工智能
Bedrock Claude Chat: 基于AWS Bedrock和Claude的智能聊天机器人
BedrockClaudeChat:智能聊天的新选择在人工智能和
自然语言
处理技术飞速发展的今天,智能聊天机器人正在各行各业得到广泛应用。
2401_87458778
·
2025-02-28 21:14
aws
机器人
云计算
用DeepSeek-API构建智能工作流的5大范式革新
DeepSeek-API发现,可以为工作流引擎提供以下前沿实践方案:范式一:动态决策路由系统▍理念革新传统局限:固定审批路径无法应对复杂业务场景,人工判断耗时且标准不统一智能突破:基于DeepSeek-API的
自然语言
理解能力
·
2025-02-28 21:09
deepseek程序员
DeepSeek开源周Day1:FlashMLA引爆AI
推理
性能革命!
项目地址:GitHub-deepseek-ai/FlashMLA开源日历:2025-02-24起每日9AM(北京时间)更新,持续五天!一、开源周震撼启幕继上周预告后,DeepSeek于北京时间今晨9点准时开源「FlashMLA」,打响开源周五连发第一枪!作为专为Hopper架构GPU(H800/H100)优化的高效解码内核,该项目一经发布便引爆社区:上线45分钟斩获400+Star,3小时突破2.
歌刎
·
2025-02-28 18:48
每周追踪AI框架新动态
最前沿的大模型训练部署实践手册
DeepSeek
人工智能
深度学习
AIGC
NLP
DeepSeek
【AI论文】SongGen:用于文本到歌曲生成的单阶段自回归Transformer模型
现有方法通常采用多阶段生成流程,导致训练和
推理
过程繁琐。在本文中,我们提出了SongGen,一个完全开源的单阶段自回归Transformer模型,专为可控歌曲生成而设计。
东临碣石82
·
2025-02-28 15:58
人工智能
回归
transformer
饿了么算法工程师-AIGC岗内推
1、紧跟业界最新
自然语言
处理技术动态,深入研发并努力创新,特别是在LLM、多模态理解和LLMAgent领域。
飞300
·
2025-02-28 15:26
AIGC
业界资讯
自然语言
处理入门:从基础概念到实战项目
自然语言
处理入门:从基础概念到实战项目一、引言
自然语言
处理(NaturalLanguageProcessing,简称NLP)是人工智能的重要分支,旨在让计算机能够理解、生成和处理人类语言。
范范0825
·
2025-02-28 14:22
自然语言处理
人工智能
微软发布 Phi-4 迷你模型,适合本地部署ChatBot
Phi-4-mini-instruct是一个轻量级的开放模型,它建立在合成数据和经过筛选的公开网站基础上,重点关注高质量、
推理
密集的数据。该模型属于Phi-4模型系列,支持128K标记上下文长度。
吴脑的键客
·
2025-02-28 13:43
人工智能
microsoft
人工智能
开源
AIGC
自然语言处理
语言模型
Elasticsearch:使用阿里云 AI 服务进行向量化和重新排名
阿里云人工智能搜索是一种将高级人工智能功能与Elasticsearch工具相结合的解决方案,利用QwenLLM/DeepSeek-R1系列提供高级
推理
和分类模型。
·
2025-02-28 11:17
实现一个 RDMA 用户态驱动程序
实际上,高性能、易维护、易定制的网络基础设施对于提升AI训练、
推理
的效率是至关重要的一环。
·
2025-02-28 11:17
自然语言
处理系列(5)——情感分析的原理与实战
自然语言
处理系列(5)——情感分析的原理与实战情感分析(SentimentAnalysis)是
自然语言
处理中的一项经典任务,目的是通过分析文本,判断其表达的情感倾向性。
DoYangTan
·
2025-02-28 10:24
自然语言处理
人工智能
transformer中seq_len参数的设置
在
自然语言
处理任务里,文本会被拆分成一个个的单词、子词或者字符,这些元素构成了一个序列。seq_len就是对这个序列中元素数量的上限规定,它决定了模型输入和输出的维度。二、具体使用输入处理文本
yuweififi
·
2025-02-28 10:49
transformer
深度学习
人工智能
【LangChain编程:从入门到实践】实现多模态代理
【LangChain编程:从入门到实践】实现多模态代理作者:禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词:LangChain编程,多模态代理,
自然语言
处理
AI天才研究院
·
2025-02-28 08:29
DeepSeek
R1
&
大数据AI人工智能大模型
AI大模型企业级应用开发实战
AI大模型应用入门实战与进阶
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
DeepSeek R1 简单指南:架构、训练、本地部署和硬件要求
DeepSeek推出的LLM
推理
新策略DeepSeek最近发表的论文DeepSeek-R1中介绍了一种创新的方法,通过强化学习(RL)提升大型语言模型(LLM)的
推理
能力。
爱喝白开水a
·
2025-02-28 07:52
人工智能
AI大模型
DeepSeek
R1
DeepSeek
算法
人工智能训练
大模型部署
Empowering LLMs with Logical Reasoning: 从“语言大师”到“逻辑大师”的进化之路
开篇:语言模型的“逻辑盲区”近年来,大语言模型(LLMs)在
自然语言
处理(NLP)任务中取得了令人瞩目的成就。从生成流畅的文章到翻译复杂的句子,这些模型似乎无所不能。
步子哥
·
2025-02-28 07:19
人工智能
深度解析:大模型开源的真与假
目录大模型企业开闭源策略各异开源大模型的定义与现状开源内容的局限性通常开放的内容实际未开放的关键内容法律与商业模式的约束开源许可证的重要性大模型的定制许可证及其限制性条款商业公司对开源大模型的策略和目的建立生态系统吸引开发者提升品牌形象保持竞争优势技术创新和改进技术与协助开发的挑战训练和
推理
过程的资源需求差异微调和衍生模型的技术实现及其局限性开源大模型在协作开发中的局限总结大模型的发展开启了
rs勿忘初心
·
2025-02-28 05:39
#
AI大模型
大模型
开源闭源对比
开源闭源区别
AI提示词终极秘籍:用「COT+分步法」让ChatGPT智商暴涨300%
当别人能用一句话得到媲美资深研究员的分析报告,而你的查询却得到敷衍回答时,很可能是因为缺少两个AI思维激活器:✅COT(ChainofThought):让AI学会像人类一样分步
推理
✅Step-by-Step
曦紫沐
·
2025-02-28 05:08
提示词
人工智能
提示词
游戏语音趋势解析,社交互动有助于营造沉浸式体验
语音交互的新架构出现2024年标志着对话语音AI取得了突破,出现了结合STT→LLM→TTS模型来聆听、
推理
和回应对话的协同语音系统。
网易数智
·
2025-02-28 03:22
IM即时通讯
游戏
人工智能
音视频
实时音视频
信息与通信
语音识别
阿里重磅模型深夜开源;DeepSeek宣布开源DeepGEMM;微软开源多模态AI Agent基础模型Magma...|网易数智日报
阿里重磅模型深夜开源:表现超越Sora、Pika,消费级显卡就能跑2月26日,25日深夜阿里云视频生成大模型万相2.1(Wan)正式宣布开源,此次开源采用Apache2.0协议,14B和1.3B两个参数规格的全部
推理
代码和权重全部开源
网易数智
·
2025-02-28 03:16
网易数智日报
开源
人工智能
大数据
业界资讯
ai
AIGC
DeepSeek智能引擎:高效重塑创作与开发
该架构通过动态路由机制,使模型在处理复杂任务时能够自动调用最适配的专家模块,相较于传统单体模型,其
推理
效率提升约40%,同时保持90%以上的参数利用率。
智能计算研究中心
·
2025-02-28 02:44
其他
跨框架模型演进与行业应用路径
同时,针对模型优化技术领域,深入探讨迁移学习、超参数调优及模型压缩等方法的创新突破,揭示其在降低计算资源消耗、提升
推理
效率方面的关键作用。在行业
智能计算研究中心
·
2025-02-28 02:44
其他
使用DashVector作为LangChain中的VectorStore插件
这使得DashVector在需要高效处理和搜索向量数据的应用中非常有价值,特别是在
自然语言
处理和推荐系统等领域。本篇文章将展示如何在LangChain生态系统中利用DashVector。
dgay_hua
·
2025-02-28 01:40
langchain
python
使用Hugging Face Text Embeddings Inference进行文本嵌入
推理
在
自然语言
处理中,文本嵌入是一个重要的技术,它将文本转换为可以由机器学习算法处理的数字向量。
dgay_hua
·
2025-02-28 01:40
python
通过vLLM部署LLM模型到生产环境中
它是一个专为大模型
推理
设计的开源框
MichaelIp
·
2025-02-28 01:04
人工智能实验室
大语言模型
人工智能
python
AIGC
自然语言处理
语言模型
prompt
llama
Objective-C实现NLP中文分词(附完整源码)
尽管Objective-C在
自然语言
处理(NLP)领域并不常见,但通过合理的算法设计和数据结构,可以实现基本的中文分词功能。
源代码大师
·
2025-02-27 23:15
Objective-C实战教程
自然语言处理
objective-c
中文分词
字节的豆包和Kimi 的优劣势对比
自研模型聚焦复杂逻辑
推理
与代码生成,垂直领域优化。长文本处理支持
eso1983
·
2025-02-27 23:14
java
python
算法
最全中文对话数据集(不定期更新)
随着人工智能技术的发展,
自然语言
处理(NLP)领域中的对话系统逐渐成为研究的热点。为了提升对话系统的性能,需要大量的高质量对话数据来训练和优化模型。
数据猎手小k
·
2025-02-27 22:06
人工智能
大数据
DeepSeek全栈接入指南:从零到生产环境的深度实践
其核心能力体现在:1.1.1多模态智能引擎
自然语言
处理:支持文本生成(NLG)、语义理解(NLU)、情感分析等计算机视觉:提供图像分类、目标检测、OCR识别等CV能力语音交互:包含语音识别(ASR)、语音合成
量子纠缠BUG
·
2025-02-27 21:30
DeepSeek部署
AI
DeepSeek
人工智能
深度学习
机器学习
微调 LLM (RLHF + DPO)
一、GPT-3与InstructGPT2020年,OpenAI发布了GPT-3,这是一种大型语言模型(LLM),只需查看几个示例即可执行任意
自然语言
处理(NLP)任务。
·
2025-02-27 21:56
人工智能
两天速通力扣HOT100[DAY2] (55~100)
两天速通力扣HOT100[DAY2](55~100)本题解旨在以最简单的语言总结hot100各题思路,为每一题提供一个思考入口,但想要手撕出来,需要自己认真
推理
细节。
WynnLu
·
2025-02-27 21:29
算法
leetcode
c++
浅析 DeepSeek 开源的 FlashMLA 项目
趁热浏览一下:GitHub-deepseek-ai/FlashMLA一、概述传统的注意力计算方法在面对变长序列或长序列
推理
时
X.Cristiano
·
2025-02-27 20:18
FlashMLA
DeepSeek
深度学习
Ollama本地私有化部署通义千问大模型Qwen2.5
目录Qwen2.5介绍Qwen2.5新闻Ollama介绍Linux安装Ollama一键安装Ollama手工安装Ollama卸载OllamaOllama运行Qwen2基于Transformers进行
推理
本文复现环境
ErbaoLiu
·
2025-02-27 20:17
数据分析&大模型
机器学习&大模型
自然语言处理&大模型
大模型
LLM
Qwen2.5
Qwen2
Ollama
注意力机制(Attention Mechanism)详细分类与介绍
注意力机制(AttentionMechanism)是近年来在深度学习中非常流行的一种技术,特别是在
自然语言
处理(NLP)、计算机视觉等任务中,具有显著的效果。
Jason_Orton
·
2025-02-27 20:46
分类
数据挖掘
人工智能
上一页
11
12
13
14
15
16
17
18
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他