大规模语言模型（LLM）

根据每月流量和市场份额排名前20 的AI工具列表

ChatGPT：由OpenAI研发，是一款对话式大型语言模型。它能够理解自然语言输入，生成连贯且符合逻辑的回复。

开心的AI频道·2025-02-02 19:54

DeepSeek 使用的核心技术预测

1.大规模预训练模型架构Transformer变种与优化：基于Transformer架构进行改进，可能引入稀疏注意力机制（如Longform

eso1983·2025-02-02 18:22

LLM - 大模型 ScallingLaws 的设计 100B 预训练方案(PLM) 教程(5)

欢迎关注我的CSDN：https://spike.blog.csdn.net/本文地址：https://spike.blog.csdn.net/article/details/145356022免责声明：本文来源于个人知识与公开资料，仅用于学术交流，欢迎讨论，不支持转载。ScalingLaws(缩放法则)是大模型领域中，用于描述模型性能(Loss)与模型规模N、数据量D、计算资源C之间关系的经验规

ManonLegrand·2025-02-02 18:21

微调特定于域的搜索的文本嵌入：附Python代码详解

微调特定于域的搜索的文本嵌入：附Python代码详解阅读时长：20分钟发布时间：2025-02-02近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM架构专栏知乎

·2025-02-02 14:07

AI大模型基于LLM的Agent架构图解

AIAgent主要依托LLM模型和具体的业务场景来调用相应的工具来完成任务目标，智能化程度和行业贴合度会更明显。典型案例有什么？智能核保应用，如果解决方案搭载AIAgent能力，

AI产品经理·2025-02-02 14:51

什么是LLM？看这一篇就够了！

本文主要介绍大语言模型（LargeLanguageModel，简称LLM）。

Python程序员罗宾·2025-02-02 14:50

【llm对话系统】大模型 Llama 源码分析之并行训练方案

1.引言训练大型语言模型(LLM)需要巨大的计算资源和内存。为了高效地训练这些模型，我们需要采用各种并行策略，将计算和数据分布到多个GPU或设备上。

kakaZhui·2025-02-02 13:14

【llm对话系统】大模型 Llama 源码分析之 LoRA 微调

1.引言微调(Fine-tuning)是将预训练大模型(LLM)应用于下游任务的常用方法。然而，直接微调大模型的所有参数通常需要大量的计算资源和内存。

kakaZhui·2025-02-02 13:14

【llm对话系统】大模型 Llama 源码分析之 Flash Attention

1.写在前面近年来，基于Transformer架构的大型语言模型(LLM)在自然语言处理(NLP)领域取得了巨大的成功。

kakaZhui·2025-02-02 13:43

使用Elasticsearch和SelfQueryRetriever实现智能电影检索

在这篇文章中，我们将结合Elasticsearch和SelfQueryRetriever，展示如何通过语言模型实现智能电影查询。

hgSdaegva·2025-02-02 13:43

使用 ChatPremAI 和 LangChain 构建高级聊天模型功能

##使用ChatPremAI和LangChain构建高级聊天模型功能###技术背景介绍随着生成式AI的快速发展，诸如ChatGPT等大型语言模型逐渐成为开发智能应用的核心组件。

hgSdaegva·2025-02-02 13:42

llama.cpp LLM_CHAT_TEMPLATE_DEEPSEEK_3

`LLAMA_VOCAB_PRE_TYPE_DEEPSEEK3_LLM`2.`staticconststd::mapLLM_CHAT_TEMPLATES`3.

Yongqiang Cheng·2025-02-02 12:10

【自然语言处理（NLP）】基于Transformer架构的预训练语言模型：BERT 训练之数据集处理、训练代码实现

文章目录介绍BERT训练之数据集处理BERT原理及模型代码实现数据集处理导包加载数据生成下一句预测任务的数据从段落中获取nsp数据生成遮蔽语言模型任务的数据从token中获取mlm数据将文本转换为预训练数据集创建

道友老李·2025-02-02 12:04

分布式数据库应用实践：架构设计与性能优化

它能够在多台服务器之间分散数据存储和处理任务，从而解决传统集中式数据库在处理大规模数据和高并发访问时的瓶颈问题。

一ge科研小菜鸡·2025-02-02 08:08

向量语义（Vector Semantics）与表征学习（Representation Learning）详解

传统的NLP方法（如基于规则的语言模型）需要人为定义单词的语义规则，而向量语义方法则通过分析单词在大量文本中的使用模式来学习其语义。

苏西月·2025-02-02 07:54

【llm对话系统】大模型 Llama、Qwen 和 ChatGLM 的网络结构和训练方法对比

1.引言近年来，大型语言模型(LLM)取得了令人瞩目的进展，其中Llama、Qwen和ChatGLM是三个备受关注的开源模型。

kakaZhui·2025-02-02 07:54

LLM的实时性：迈向毫秒级响应的AI

LargeLanguageModel(LLM),实时性,响应时间,微服务架构,并行处理,知识图谱,优化算法,延迟最小化1.背景介绍大型语言模型(LLM)在自然语言处理领域取得了令人瞩目的成就，展现出强大的文本生成

AI大模型应用之禅·2025-02-02 06:47

FastExcel的使用

FastExcel的主要功能高性能读写：FastExcel专注于性能优化，能高效处理大规模Excel数据，显著降低内存占用。简单易用：提供简洁直观的API，易于集成和使用。流式

码农~明哥·2025-02-02 03:36

Aligner：自动修正AI的生成结果，北大推出残差修正模型对齐技术

微信公众号｜搜一搜：蚝油菜花快速阅读技术背景：Aligner是北京大学团队提出的大语言模型对齐技术，通过学习对齐答案与未对齐答案之间的修正残差来提升模型性能。

蚝油菜花·2025-02-02 01:22

大语言模型丨ChatGPT-4o深度科研应用、论文与项目撰写、数据分析、机器学习、深度学习及AI绘图（BP神经网络、支持向量机、决策树、随机森林、变量降维与特征选择、群优化算法等）

赵钰老师·2025-02-02 01:50

[系统安全] 六十一.恶意软件分析 (12)LLM赋能Lark工具提取XLM代码的抽象语法树（初探）

您可能之前看到过我写的类似文章，为什么还要重复撰写呢？只是想更好地帮助初学者了解病毒逆向分析和系统安全，更加成体系且不破坏之前的系列。因此，我重新开设了这个专栏，准备系统整理和深入学习系统安全、逆向分析和恶意代码检测，“系统安全”系列文章会更加聚焦，更加系统，更加深入，也是作者的慢慢成长史。换专业确实挺难的，逆向分析也是块硬骨头，但我也试试，看看自己未来四年究竟能将它学到什么程度，漫漫长征路，偏向

Eastmount·2025-02-02 01:20

如何使用Spark Streaming

一、什么叫SparkStreaming基于SparkCore，大规模、高吞吐量、容错的实时数据流的处理二、SparkStreaming依赖org.apache.sparkspark-streaming_

会探索的小学生·2025-02-02 00:46

spark streaming python_Spark入门：Spark Streaming简介(Python版)

SparkStreaming是构建在Spark上的实时计算框架，它扩展了Spark处理大规模流式数据的能力。

weixin_39531582·2025-02-01 23:12

开源LLMs导览：工作原理、顶级LLM列表对比

万俟淋曦·2025-02-01 23:11

揭秘大语言模型：什么是LLM大模型？

前言自从去年chatgpt横空出世以来，它火爆也让大语言模型这个词变的很流行，到底什么是大语言模型，今天从初学者的角度介绍一下大语言模型的基本概念、组成部分和基本工作流程等。

AGI-杠哥·2025-02-01 23:11

【AI知识点】三种不同架构的大语言模型（LLMs）的区别

【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】在自然语言处理（NLP）中，预训练语言模型（LLMs,LargeLanguageModels）通常基于不同的架构，如仅编码器的模型（Encoder-only

AI完全体·2025-02-01 23:09

LearnLM: Improving Gemini for Learning

本文是LLM系列文章，针对《LearnLM:ImprovingGeminiforLearning》的翻译。

UnknownBody·2025-02-01 22:04

大模型开发流程及架构

一、主要内容●以大语言模型为功能核心●利用大语言模型的强大理解能力和生成能力●结合特殊的数据或业务逻辑来提供独特功能的应用二、明确目标●大模型作为一个调用工具，不需要知道太多的原理，不需要优化模型能力●

寒夜灬星辰·2025-02-01 20:12

大模型开发流程及项目实战

一、大模型开发整理流程1.1、什么是大模型开发我们将开发以大语言模型为功能核心、通过大语言模型的强大理解能力和生成能力、结合特殊的数据或业务逻辑来提供独特功能的应用称为大模型开发。

辣椒种子·2025-02-01 19:38

LitGPT - 20多个高性能LLM，具有预训练、微调和大规模部署的recipes

文章目录一、关于LitGPT二、快速启动安装LitGPT高级安装选项从20多个LLM中进行选择三、工作流程1、所有工作流程2、微调LLM3、部署LLM4、评估LLM5、测试LLM6、预训练LLM7、继续预训练

伊织产研·2025-02-01 19:38

Meta首席科学家Yann LeCun预言：5年内AI架构将颠覆，当前大模型的4大核心缺陷

✨引言：一场颠覆AI行业的预言在2025冬季达沃斯“技术辩论”现场，Meta首席AI科学家、图灵奖得主杨立昆（YannLeCun）抛出一个震撼观点：“当前的大语言模型（LLM）范式将在3-5年内被淘汰。

机器小乙·2025-02-01 18:30

【AI人工智能】DeepSeek R1：你需要知道的一切

的所有你需要知道的一切内容，请坚持认真读完，必有收获：DeepSeekR1简要概述主要特点与能力开源与可访问性模型架构强化学习训练变体与精简模型使用案例与应用从专有模型迁移到开源模型1.DeepSeekR1简要概述大语言模型

大名顶顶·2025-02-01 17:22

【数据仓库】

雪花模型4.3星座模型数据仓库与数据库的区别数据仓库的应用场景数据仓库的优缺点分析数据仓库的未来趋势总结1.什么是数据仓库数据仓库（DataWarehouse,DW）是一种用于分析和报告的数据库系统，专门为大规模

三日看尽长安花·2025-02-01 17:49

深入探索Llama.cpp：在LangChain中使用llama-cpp-python

深入探索Llama.cpp：在LangChain中使用llama-cpp-python随着大语言模型（LLMs）的普及，开发者需要更有效的方法来部署和使用这些模型。

dfvcbipanjr·2025-02-01 16:10

DeepSeek R1 简易指南：架构、培训、本地部署和硬件要求

CSS技巧与案例详解vue2与vue3技巧合集VueUse源码解读DeepSeek团队近期发布的DeepSeek-R1技术论文展示了其在增强大语言模型推理能力方面的创新实践。

·2025-02-01 16:49

使用Ollama本地化部署DeepSeek

1、Ollama简介Ollama是一个开源的本地化大模型部署工具，旨在简化大型语言模型（LLM）的安装、运行和管理。

·2025-02-01 16:48

LLM-预训练：深入理解 Megatron-LM（2）原理介绍

最近在基于Megatron-LM的代码来训练大语言模型，本人觉得Megatron的代码很具有学习意义，于是大量参考了网上很多对Megatron代码的解读文章和NVIDAMegatron团队公开发布的2篇论文

u013250861·2025-02-01 15:05

如何在本地电脑上安装和使用 DeepSeek R-1

简介似乎每个人都在谈论DeepSeekR-1是中国人工智能公司DeepSeek开发的全新开源人工智能语言模型。一些用户声称，其推理能力与OpenAI的o1相当，甚至更好。

知识大胖·2025-02-01 15:33

啥是CSD?

CSD是一种全新的休闲方法，通常选址于城市之间的交通枢纽上，多以主题公园、超大规模商业中间(如奥特莱斯)、大型酒店餐饮文娱业为主要业态构成经济中心，最重要的是有必要具有区域内

asdsad12311·2025-02-01 15:32

玩转大语言模型——使用GraphRAG+Ollama本地构建知识图谱（完全本地化，不依赖OpenAI）

系列文章目录玩转大语言模型——使用langchain和Ollama本地部署大语言模型玩转大语言模型——ollama导入huggingface下载的模型玩转大语言模型——langchain调用ollama

艾醒(AiXing-w)·2025-02-01 15:31

自定义 LLM：LangChain与文心一言擦出火花

自定义LLM自定义LLM需要实现以下必要的函数：_call：它需要接受一个字符串、可选的停用词，并返回一个字符串。

AI领航者·2025-02-01 15:31

pytorch基于GloVe实现的词嵌入

1.GloVe介绍基于词的共现信息（不像Word2Vec使用滑动窗口预测）适合较大规模的数据（比Word2Vec更稳定）学习出的词向量能捕捉语义信息（如类比关系）importtorchimporttorch.nnasnnimp

纠结哥_Shrek·2025-02-01 15:31

【大模型应用开发动手做AI Agent】Plan and Solve策略的提出

Plan-and-Solve策略的提出关键词：大模型，AIAgent，Plan-and-Solve，智能体，策略学习，强化学习，自然语言处理1.背景介绍随着人工智能技术的飞速发展，大模型（LargeLanguageModel，LLM

杭州大厂Java程序媛·2025-02-01 14:22

Java 分布式与微服务架构：现代企业应用开发的新范式

传统的单体架构在应对大规模用户访问、复杂业务逻辑和频繁的功能迭代时，逐渐暴露出诸多问题。Java分布式与微服务架构应运而生，为解决这些问题提供了有效的方案。

来恩1003·2025-02-01 10:52

聊聊AI中的“蒸馏”技术

1.知识蒸馏的过程教师模型（TeacherModel）训练先训练一个大规模基础模型，这个模型能力很强，但计算开销大。生

自由鬼·2025-02-01 09:15

LLM主要类别架构

LLM主要类别架构介绍LLM主要类别LLM本身基于transformer架构。

大模型微调实战·2025-02-01 08:36

基于深度学习的大规模模型训练

基于深度学习的大规模模型训练涉及训练具有数百万甚至数十亿参数的深度神经网络，以处理复杂的任务，如自然语言处理、计算机视觉和语音识别。

SEU-WYL·2025-02-01 07:56

深度解读大语言模型中的Transformer架构

一、Transformer的诞生背景传统的循环神经网络（RNN）和长短期记忆网络（LSTM）在处理自然语言时存在诸多局限性。RNN由于其递归的结构，在处理长序列时容易出现梯度消失和梯度爆炸的问题。这导致模型难以捕捉长距离的依赖关系，对于复杂的自然语言文本，无法有效地学习到上下文的关键信息。LSTM虽然在一定程度上缓解了梯度消失的问题，但依然存在梯度不稳定的情况。而且，RNN和LSTM在计算过程中，

老三不说话、·2025-02-01 05:16

LLM应用架构实战：基于LangChain的企业级最佳实践

前言随着ChatGPT等大语言模型的广泛应用，越来越多的企业开始将LLM整合到其业务系统中。然而，从概念验证(PoC)到生产环境的转换过程中，往往会遇到诸多技术挑战。

LLM教程·2025-02-01 05:44

构建高效LLM应用开发架构的关键策略

文章标题：构建高效LLM应用开发架构的关键策略在当今快速发展的技术世界中，人工智能（AI）已经成为推动创新的核心动力。其中，大型语言模型（LLM）的应用开发尤为引人注目。

AI天才研究院·2025-02-01 05:12

推荐频道