大规模语言模型（LLM）第8页

谈谈DeepSeek-v3在算力约束下的出色工作

加完班挤点时间读个论文吧.Deepseek-v3仅用了2048块H800GPU就超越了Llama3405B模型,要知道Meta训练Llama3可是用了16384块H100,而DSv3的训练成本非常低在所有人追求更大规模集群的时候

强化学习曾小健·2025-02-28 22:19

deepseek 的离线部署-AI大模型

官方网址官方地址：OllamaOllama目前支持以下大语言模型：libraryOllama下载地址：https://ollama.com/download/ollama-linux-amd64.tgz

passion_flower_·2025-02-28 22:17

一文看懂 Claude 3.7 Sonnet，为什么是第一个融合推理模式的 AI 模型

传统的大语言模型（LLM）通常有两种工作方式

董董灿是个攻城狮·2025-02-28 22:45

通过Bedrock Access Gateway解决方案快速访问Amazon Bedrock的多种大语言模型

其中，Anthropic公司的Claude3是在AmazonBedrock新上线的大型语言模型（LargeLa

国外VPS测评·2025-02-28 21:14

【llm对话系统】大模型源码分析之 LLaMA 模型的 Masked Attention

在大型语言模型（LLM）中，注意力机制（AttentionMechanism）是核心组成部分。

kakaZhui·2025-02-28 20:03

第九章 Spring AI API中文版 - Ollama Embeddings API

Ollama嵌入通过Ollama，您可以在本地运行各种大型语言模型（LLMs），并从中生成嵌入。SpringAI通过OllamaEmbeddingClient支持Ollama文本嵌入。

明爷们儿·2025-02-28 18:52

【AI测试学习】AnythingLLM+Ollama+DeepSeek部署私人知识库

1.搭建DeepSeek大语言模型1.1Ollama大预言模型部署Ollama简化了大型语言模型的运行，让每个人都能在本地轻松体验AI的强大，打开浏览器-下载Ollama-输入命令-搞定，这是本地部署大语言模型的全新方式

艳Yansky·2025-02-28 16:37

传奇服务器遭遇袭击，广大玩家需密切关注

受此影响，多台传奇服务器遭遇大规模拒绝服务攻击（DDoS），导致大量玩家无法正常登录游戏。目前

·2025-02-28 16:54

低代码革命：基于DeepSeek微调模型实现前端代码自动生成与私有JS API调用的实战指南

摘要本文探讨如何微调DeepSeek平台的大语言模型，以实现前端代码的智能生成与自建JavaScriptAPI库的无缝调用。

Light60·2025-02-28 15:58

饿了么算法工程师-AIGC岗内推

飞300·2025-02-28 15:26

2025年，值得关注的LLM大趋势

随着人工智能技术不断进步，大语言模型正在改变各行各业的运作方式。从代码生成到语言学习应用，GenAI已经渗透到我们日常生活的方方面面。

AI小白熊·2025-02-28 15:25

阿里架构师推荐的消息中间件万字文档：RocketMQ+RabbitMQ+KafKa

RocketMQRocketMQ是阿里开源的消息中间件，目前也已经孵化为Apache顶级项目，它是纯Java开发，具有高吞吐量、高可用性、适合大规模分布式系统应用的特点。

xiaohao718·2025-02-28 14:53

DeepSeek掘金——DeepSeek R1架构和训练过程图解

它目前在LLM领域很流行，并且表现优于开源和闭源模型。为了让一切变得简单，我们将使用手绘流程图和简单的计算来帮助从头开始澄清DeeoSeek-R1的核心概念。事实上，我们将在整个博客

不二人生·2025-02-28 12:09

氢储技术难点分析及未来展望

氢储能作为长时储能和跨季节储能的重要技术路径，具有能量密度高、可大规模存储和灵活应用等优势，但其技术难点仍集中在制氢、储运、应用效率及系统整合等环节，以下是具体分析：一、制氢环节的技术难点电解水制氢效率与成本效率低

DOMINICHZL·2025-02-28 12:36

大模型调优方法：提示工程、RAGs 与微调对比

前言每一个搭建大语言模型应用的AI工程师都会面临一个难题，如何选择一个合适调优方法。就算是强大的预训练LLM也可能无法直接满足项目中的特定需求。

AI大模型探索者·2025-02-28 11:03

Hive 面试题

Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。

昨夜为你摘星·2025-02-28 11:59

讯飞星火 VS 文心一言：谁是中文大语言模型的TOP1？

本篇博客就测评一下这两个在中文圈最受好评的大语言模型，顺便辅以ChatGPT为参考。大家一起来看看到底谁是中文大语言模型的TOP1？

沉迷单车的追风少年·2025-02-28 09:44

【有啥问啥】深入了解 FlashMLA：Hopper GPU 的高效 MLA 解码内核

深入了解FlashMLA：HopperGPU的高效MLA解码内核简介在人工智能(AI)领域，特别是大型语言模型(LLM)领域，对计算效率和速度的需求持续增长。

有啥问啥·2025-02-28 09:12

C++ 游戏开发入门

C++能够直接操作内存，在处理复杂的游戏逻辑、大规模数据运算（如物理模拟、图形渲染中的大量计算）以及优化游戏性能方面有着卓越的表现。同时，丰富的类库

安年CJ·2025-02-28 08:05

Geo3D城市引擎大规模建筑植被渲染

import*asGeo3Dfrom"../src";importInitHelperfrom"./InitHelper";//3D场景初始化constsceneControl=InitHelper.init3D();constcontainer=document.querySelector("#map")asHTMLElement;container&&sceneControl.render(c

苹果园dog·2025-02-28 07:22

DeepSeek R1 简单指南：架构、训练、本地部署和硬件要求

DeepSeek推出的LLM推理新策略DeepSeek最近发表的论文DeepSeek-R1中介绍了一种创新的方法，通过强化学习（RL）提升大型语言模型（LLM）的推理能力。

爱喝白开水a·2025-02-28 07:52

Empowering LLMs with Logical Reasoning: 从“语言大师”到“逻辑大师”的进化之路

让大语言模型（LLMs）既能说会道，又能逻辑严谨，是AI发展的下一座高峰。”开篇：语言模型的“逻辑盲区”近年来，大语言模型（LLMs）在自然语言处理（NLP）任务中取得了令人瞩目的成就。

步子哥·2025-02-28 07:19

月之暗面改进并开源了 Muon 优化算法，对行业有哪些影响？

1.显著降低大模型训练成本，推动技术普惠算力需求锐减：Muon通过引入权重衰减和一致的RMS更新，解决了原始Muon在大规模训练中的稳定性问题，使

互联网之路.·2025-02-28 05:11

镜像解决，向量数据库Milvus报错

它支持针对TB级向量的增删改操作和近实时查询，适用于大规模向量数据的存储和检索。

zwzscnds·2025-02-28 04:32

利用DSPy优化LangChain RAG系统的实战指南

利用DSPy优化LangChainRAG系统的实战指南技术背景介绍DSPy是一个用于大语言模型（LLMs）的出色框架，它引入了一个自动编译器，能够教会模型如何执行你程序中的声明性步骤。

scaFHIO·2025-02-28 04:01

GPT-4提示词冠军如何写 prompt：CO-STAR 框架、文本分段、系统提示

©上下文：为任务提供背景信息通过为大语言模型（LLM）提供详细的背景信息，可以帮助它精确理解讨论的具体场景，确保提供的反馈具有相关性。

天涯倦客的美丽人生·2025-02-28 04:58

使用LangChain与GPT4All模型进行交互

核心原理解析GPT4All是基于大型语言模型（LLMs）的开源项目，通过训练大量干净的数据，能够生成高质量的对话和回答。LangChain是一种用于简化与

bavDHAUO·2025-02-28 04:28

前言：什么是大模型微调

预训练模型通常在大规模的通用数据上训练，具备广泛的语言理解和生成能力。通过微调，我们可以让模型更好地适应特定的领域或任务，例如情感分析、问答系统、文本生成等。2.为什么需要微调？

伯牙碎琴·2025-02-28 04:26

游戏语音趋势解析，社交互动有助于营造沉浸式体验

语音交互的新架构出现2024年标志着对话语音AI取得了突破，出现了结合STT→LLM→TTS模型来聆听、推理和回应对话的协同语音系统。

网易数智·2025-02-28 03:22

【数据挖掘】NumPy

在数据挖掘中，NumPy被广泛应用于数据预处理、特征工程、算法实现等方面，尤其是在处理大规模数据时，因其提供的高效运算和矩阵操作的能力，极大地提升了数据处理的效率。

dundunmm·2025-02-28 03:49

大模型替代程序猿？不可能，绝对不可能！进化路线来了来！！！

大模型后端开发面试指南：技术体系构建与实践路线一、背景说明随着大模型（LLM）技术进入工业化落地阶段，行业对大模型后端开发工程师的需求呈现爆发式增长。

XiaoDuofCSDN·2025-02-28 03:48

ZeRO分布式训练策略

ZeRO通过三级分片策略消除内存冗余，实现超大规模模型训练。其核心演进路线分为三个阶段：1.1ZeRO-1：优化器状态分片分片对象：优化器参数（如Ad

AIGC_ZY·2025-02-28 02:13

Redis分布式缓存面试题

2.扩展性水平扩展：通过增加节点，分布式缓存可以轻松扩展，处理更大规模的数据和请求。负载均衡：数据分布在不同节点上，避免单点瓶颈，提升系统整体吞吐量。

hxj..·2025-02-28 01:38

通过vLLM部署LLM模型到生产环境中

文章目录1使用vLLM部署模型2部署过程2.1准备GPU环境2.2安装vLLM依赖项3使用vLLM部署模型并启动服务3.1部署开源模型3.2部署微调模型4测试服务是否正常运行5评估服务性能1使用vLLM部署模型本地部署模型主要包含下载模型、编写模型加载代码和发布为支持API访问的应用服务这三个步骤。这个过程通常伴随较高的人工部署成本，vLLM可以用来简化这一流程。它是一个专为大模型推理设计的开源框

MichaelIp·2025-02-28 01:04

UnionLLM——通过统一接口调用国内外所有LLM的Python开源工具包

这是一个通过与OpenAI兼容的统一方式调用各种国内外各种大语言模型和Agent编排工具的轻量级开源工具包。

everfly·2025-02-28 00:57

数据湖构建

数据湖与传统的数据仓库不同，它能够存储结构化、半结构化和非结构化数据，支持大规模数据的整合、存储、查询和分析。

HaoHao_010·2025-02-28 00:25

在 Ubuntu 22.04 上搭建 Dify 应用的完整指南

Dify是一款开源的AI应用开发平台，支持快速构建基于大语言模型（如GPT-3、ChatGLM等）的应用。本教程将详细演示如何在Ubuntu22.04系统上部署Dify。

jdfklaakjsdf·2025-02-27 23:16

手把手教你用Docker部署Dify平台，打造可视化LLM应用环境

“Dify是一款开源的大语言模型(LLM)应用开发平台。它融合了后端即服务（BackendasService）和LLMOps的理念，使开发者可以快速搭建生产级的生成式AI应用。

脱泥不tony·2025-02-27 22:40

在Ubuntu系统上部署Dify（开源大语言模型应用开发平台）

在Ubuntu系统上部署Dify（开源大语言模型应用开发平台）环境准备Dify部署接入本地模型（如Ollama）安装Ollama运行模型并接入Dify环境准备系统要求Ubuntu20.04/22.04，

[shenhonglei]·2025-02-27 22:09

AI产品怎样才能打造出像人类一样聪明和有情商？

AI天才研究院·2025-02-27 22:06

最全中文对话数据集（不定期更新）

因此，构建大规模、高质量的中文对话数据集成为了一个迫切的需求。一、研究意义1、推动中文NLP发展：大规模高质量的中文对话数据集能够为中文自然语言处理领域的研究提供基础

数据猎手小k·2025-02-27 22:06

ELMo ，LM：一串词序列的概率分布probability distribution over sequences of words

语言模型（LanguageModel），语言模型简单来说就是一串词序列的概率分布。

强化学习曾小健·2025-02-27 22:05

远程办公2.0：如何通过技术实现全球化团队协作？

远程办公2.0时代：从“被迫适应”到“主动进化”的未来工作革命——前沿技术与趋势预测全解析引言：一场不可逆的全球工作革命2020年的一场疫情，让全球职场人第一次大规模体验了远程办公的“生存模式”，而五年后的今天

·2025-02-27 21:30

微调 LLM （RLHF + DPO）

微调LLM（RLHF+DPO）使用强化学习（RL）根据人类反馈微调大语言模型（即RLHF）的方法，以及一种更有效的改进方法（即DPO）。

·2025-02-27 21:56

让 LLM 来评判 | 设计你自己的评估 prompt

设计你自己的评估prompt这是让LLM来评判系列文章的第三篇，敬请关注系列文章:基础概念选择LLM评估模型设计你自己的评估prompt评估你的评估结果奖励模型相关内容技巧与提示通用prompt设计建议我总结的互联网上通用

·2025-02-27 21:49

阿里AI通义千问api python开发文档

通义千问说明支持的领域/任务：aigc通义千问大语言模型以用户文本形式的指令（prompt）以及不定轮次的对话消息作为输入，并基于这些信息生成回复作为输出。

淘小白_TXB2196·2025-02-27 20:52

大语言模型：数据分析报告自动化的未来趋势

目录写在开头1.数据分析报告的传统挑战时间消耗技术壁垒错误风险可扩展性问题更新频率限制用户交互和定制化不足整合新技术的挑战2.大语言模型在报告生成中的作用自动化文本生成增强准确性和丰富性实时数据处理能力提高可访问性和用户交互

theskylife·2025-02-27 20:50

脑洞大开！用DeepSeek辅助AI绘图！

（文末附多款可以免费使用的AI绘图工具）一、DeepSeek&AI绘图作为语言模型，DeepSeek本身没有直接绘图的能力，换个思路，让DeepSeek按照我们的想法去创造绘图提示词，我们再讲提示词提供给

二哥不像程序员·2025-02-27 20:49

LangChain入门：使用Python和通义千问打造免费的Qwen大模型聊天机器人

前言LangChain是一个用于开发由大型语言模型（LargeLanguageModels，简称LLMs）驱动的应用程序的框架。

闯江湖50年·2025-02-27 20:45

AI之DeepSeek

DeepSeek是一个开源的基于深度学习的搜索引擎，用于在大规模数据中进行高效的内容检索和相似度搜索。

james二次元·2025-02-27 18:01

推荐频道

大规模语言模型（LLM）