bert语言模型第2页

使用大语言模型API在AI应用中的实现

随着人工智能技术的迅速发展，大语言模型（LLM）在自然语言处理（NLP）领域的应用越来越广泛。

qq_37836323·2025-03-21 19:47

国外7个最佳大语言模型 (LLM) API推荐

大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。

幂简集成·2025-03-21 19:15

【深度学习】DeepSeek模型介绍与部署

原文链接：DeepSeek-V31.介绍DeepSeek-V3，一个强大的混合专家(MoE)语言模型，拥有671B总参数，其中每个token激活37B参数。

Nerous_·2025-03-21 19:15

【NLP】 API在大语言模型中的应用

大语言模型（LargeLanguageModels,LLMs）通过API（应用程序接口）为开发者提供了便捷的调用方式，使其能够快速集成自然语言处理能力到各类应用中。

Nerous_·2025-03-21 18:13

谷歌：对比学习将LLM转为嵌入模型

GeneralizableEmbeddingsfromGemini来源：arXiv,2503.07891摘要在本报告中，我们介绍了Gemini嵌入，这是一种最先进的嵌入模型，它利用了Gemini、Google最有能力的大型语言模型的力量

大模型任我行·2025-03-21 13:59

一、大语言模型微调 vs. 大语言模型应用

一、大语言模型微调vs.大语言模型应用1.微调（Fine-Tuning）的含义与特点定义与作用微调指在预训练好（通用）的基础模型上，通过在特定领域或任务的数据集上进一步训练来调整模型参数，使其在该领域任务中获得更优表现

AI Echoes·2025-03-21 13:54

ollama 基本使用教程

模型管理下载预训练模型运行模型查看已安装模型删除模型从Modelfile创建自定义模型4.高级功能服务器模式与API多会话管理环境变量配置5.常见问题与技巧加速模型下载查看日志模型参数调整模型导出与分享Ollama是一个开源的大型语言模型服务工具

海上彼尚·2025-03-21 12:17

如何用大模型评估大模型——PAI-Judge裁判员大语言模型的实现简介

背景：为什么需要一个「裁判员大语言模型」？随着大模型（LLM）技术的爆发式应用，如何快速、客观评估模型回复质量成为行业痛点。

·2025-03-21 12:08

《深度剖析：BERT与GPT——自然语言处理架构的璀璨双星》

在自然语言处理（NLP）的广袤星空中，BERT（BidirectionalEncoderRepresentationsfromTransformers）与GPT（GenerativePretrainedTransformer

·2025-03-21 12:07

Hugging Face预训练GPT微调ChatGPT（微调入门！新手友好！）

HuggingFace是⼀家专注于NLP领域的AI公司，开发了⼀个名为Transformers的开源库，该开源库拥有许多预训练后的深度学习模型，如BERT、G

y江江江江·2025-03-21 10:31

cherry-studio - 多模型支持的跨平台 AI 桌面助手

GitHub：https://github.com/CherryHQ/cherry-studio更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AI一款支持多种大语言模型服务的跨平台桌面客户端

小众AI·2025-03-21 10:57

智见未来：多大模型协同的数据分析新范式

个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着大语言模型（LLM）的快速发展，ChatGPT、DeepSeek、Grok等AI模型在数据分析和洞察生成方面展现出巨大潜力。

一ge科研小菜菜·2025-03-21 09:15

如何评估大语言模型生成文本的质量？

目录如何评估大语言模型生成文本的质量？

gs80140·2025-03-21 08:42

Adam-mini：深度学习内存效率新突破

在训练十亿参数级别的大语言模型（LLM）时，Adam-mini实现了49.6%的吞吐量提升，并减少了33%的

XianxinMao·2025-03-21 08:42

使用提示词进行信息抽取的实用方法

在大规模语言模型（LLM）中进行信息抽取时，我们不一定需要工具调用功能。通过精心设计的提示词（prompt）可以指导模型输出特定格式的信息，然后对其进行解析以生成结构化数据。

scaFHIO·2025-03-21 08:38

【无标题】

在大语言模型（LLM）进行自回归（autoregressive）文本生成时，每次生成新token，都需要基于过去的上下文重新计算self-attention机制中的Key（K）和值（V）。

gs80140·2025-03-21 06:19

【BERT和GPT的区别】

BERT采用完形填空（MaskedLanguageModeling,MLM）与GPT采用自回归生成（AutoregressiveGeneration）的差异，本质源于两者对语言建模的不同哲学导向与技术目标的根本分歧

调皮的芋头·2025-03-21 05:17

NLU-预训练模型-2018：Bert（二）【“Masked LM”缺点：①预训练与微调不一致；②忽略了掩码位置间的依赖关系】【复杂度：O(n^2·d)；n：输入序列长度（规定最长512）】

五、BERT中的词嵌入1、为什么要使用BERT的嵌入使用BERT从文本数据中提取特征，即单词和句子的嵌入向量。我们可以用这些词和句子的嵌入向量做什么？

u013250861·2025-03-21 04:08

多家车企接入DeepSeek，AI汽车战争爆发，谁站上风口，谁会下牌桌？

其中东风汽车宣布旗下自主品牌已完成DeepSeek全系列大语言模型接入工作，并将于近期陆续搭载应用于包括东风岚图、东风猛士、东风奕派、东风风神、东风纳米在内的东风自主品牌车型。

高工智能汽车·2025-03-21 04:35

在LangChain中传递运行时值给工具

在大多数情况下，这些参数不应该由LLM（大语言模型）控制，因为这样可能存在安全风险。因此，我们需要一种机制，让LLM只控制那些它需要控制的参数，而其他参数则由应用逻辑来固定。

bavDHAUO·2025-03-21 03:31

基于知识图谱的个性化智能教学推荐系统(文档+源码)

「已注销」·2025-03-21 03:29

Qwen2-Audio：通义千问音频大模型技术解读

引言：从llm到mlm（audio）大型语言模型（LLM）的发展日新月异，它们在文本理解、生成、推理等方面展现出惊人的能力。

kakaZhui·2025-03-21 01:41

【AI论文】RWKV-7“鹅”模型，具备富有表现力的动态状态演化能力

摘要：我们推出RWKV-7“鹅”，这是一种全新的序列建模架构，同时发布的还有预训练语言模型。

东临碣石82·2025-03-21 00:02

Dify 项目开源大模型应用开发平台

Dify是一款开源的大语言模型（LLM）应用开发平台，旨在简化生成式AI应用的创建、部署和持续优化流程。

魔王阿卡纳兹·2025-03-20 23:30

基于Python的金融领域AI训练数据抓取实战（完整技术解析）

项目背景与需求分析场景描述为训练一个覆盖全球金融市场的多模态大语言模型（LLM），需实时采集以下数据：全球30+主要证券交易所（NYSE、NASDAQ、LSE、TSE等）的上市公司公告企业财报PDF文档及结构化数据社交媒体舆情数据

海拥✘·2025-03-20 23:57

探索 Tavily Search API：为 AI 提供快速准确的搜索结果

引言在当今的技术时代，AI代理（如大型语言模型）日益需要实时、准确和事实性强的搜索结果。TavilySearchAPI就是为此而生的。

nseejrukjhad·2025-03-20 23:53

使用 Tavily 搜索 API 获取实时精确搜索结果

技术背景介绍Tavily搜索API是一个专为AI代理（如大型语言模型）而设计的搜索引擎。它能够快速提供实时、准确且事实性强的搜索结果。

fgayif·2025-03-20 23:22

Bjarne Stroustrup's FAQ

BjarneStroustrup'sFAQModifiedFebruary5,2008Thesearequestionsthatpeopleaskmeoften.Ifyouhavebetterquestionsorcommentsontheanswers,[email protected]berthatIcan'tspendallofm

win32asn·2025-03-20 21:10

效果媲美GPT4V的多模态大型语言模型MiniCPM-V-2_6详细介绍

MiniCPM-V-2.6概述1.1模型背景MiniCPM-V-2.6是由nuoan开发的一款达到GPT-4V级别的多模态大型语言模型（MLLM）。

我就是全世界·2025-03-20 19:54

开源模型应用落地-qwen模型小试-调用Qwen2-7B-Instruct-进阶篇（十二）

无论是语言模型还是多模态模型，均在大规模多语言和多模态数据上进行预训练，并通过高质量数据进行后期微调以贴近人类偏好。

开源技术探险家·2025-03-20 19:23

LangChain入门：使用Python和通义千问打造免费的Qwen大模型聊天机器人

前言LangChain是一个用于开发由大型语言模型（LargeLanguageModels，简称LLMs）驱动的应用程序的框架。

南七小僧·2025-03-20 18:44

大规模语言模型从理论到实践分布式训练的集群架构

大规模语言模型从理论到实践分布式训练的集群架构作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，大规模语言模型

AI智能涌现深度研究·2025-03-20 18:14

【论文阅读】MMedPO：用临床感知多模态偏好优化调整医学视觉语言模型

MMedPO：用临床感知多模态偏好优化调整医学视觉语言模型1.背景2.核心问题：3.方法：3.实验结果与优势4.技术贡献与意义5.结论MMedPO:AligningMedicalVision-LanguageModelswithClinical-AwareMultimodalPreferenceOptimizationMMedPO

勤奋的小笼包·2025-03-20 17:10

大模型时代的知识焦虑

从智能客服的温声细语，到AI绘画的妙笔生花，再到自动驾驶的日趋成熟，大型语言模型、图像模型等人工智能技术以前所未有的姿态，渗透进我们生活的方方面面。

机载软件与适航·2025-03-20 16:29

【十自然语言处理项目实战】【10.2 数据收集与预处理】

作为一个曾把BERT训成人工智障的老司机，这就把五年掉坑经验熬成一锅十全大补汤！

再见孙悟空_·2025-03-20 13:39

复旦：过程奖励优化多模态推理

AnEffectiveProcessRewardModelforMultimodalReasoning来源：arXiv,2503.10291摘要我们引入了VisualPRM，这是一种具有8B参数的高级多模态过程奖励模型（PRM），它通过Best-of-N（BoN）评估策略提高了现有多模态大型语言模型

大模型任我行·2025-03-20 13:59

实战LLM强化学习——使用GRPO（DeepSeek R1出圈算法）

通过不断优化决策策略，DRL能在大量数据中学习最佳行为，尤其是大型语言模型（LLM）在任务中展现出的巨大潜力。

大富大贵7·2025-03-20 10:10

AI学习指南RAG篇(24)-RAGFlow的社区与开源贡献

RAGFlow通过结合大型语言模型（LLMs）的强大生成能力和高效的信息检索系统，为用户提供了一种全新的交互体验。本文将鼓励读者参与到RAGFlow的开源社区中，共同推动技术的发展和创新。

俞兆鹏·2025-03-20 10:07

Deno入门教程：Node.js 的替代品

以下内容主要基于BertBelder[2]和RyanDahl[3]的最新演讲。0、进入主题之前，先说一下Deno

xiaoweids·2025-03-20 10:05

设计模式-单一职责原则

该原则由罗伯特·C·马丁（RobertC.Martin）于《敏捷软件开发：原则、模式和实践》一书中给出的。马丁表

qq_26920109·2025-03-20 09:31

有了大模型为何还需要Agent智能体

Agent（智能体）是一种能感知环境、自主决策、执行动作的智能实体，当它与大语言模型（如通义千问QWen、GPT）结合时，形成一种**“增强型AI系统”**。

全栈你个大西瓜·2025-03-20 09:59

DeepSeek智能政务大脑：城市服务知识库构建全指南——从RAG架构到民生场景落地实践

系统需具备：自然语言理解能力（NLU）异构知识整合能力政策法规精准解读能力多轮对话上下文管理应急服务联动机制1.2DeepSeek技术栈选择基于DeepSeek-Large语言模型构建核心系统，

Coderabo·2025-03-20 07:42

deepseek具体应用场景

以下是基于证据的详细总结：金融领域DeepSeek在金融领域的应用表现突出，例如通过其大语言模型（如DeepSeekLLM67Bt）提供数学、逻辑推理等能力，帮助金融机构提升服务效率。

ahyouxiang·2025-03-20 06:06

五、AIGC大模型_09手动实现ReAct_Agent

前言在上一章节中，我们了解到：create_react_agent是LangGraph提供的一个预构建方法（fromlanggraph.prebuiltimportcreate_react_agent），它可以将语言模型

学不会lostfound·2025-03-20 05:59

DeepSeek爆火，背后模型竟藏着这些秘密！

DeepSeek，全称杭州深度求索人工智能基础技术研究有限公司，是一家专注于开发先进大语言模型（LLM）和相关技术的企业。它成

qq_23519469·2025-03-20 04:49

Ai时代初期全球不同纬度的层级辐射现象

大语言模型的训练方式（预训练→多任务学习→强化学习

龙胥伯·2025-03-20 04:48

自定义Retriever的实现方法

技术背景介绍在许多大语言模型（LLM）应用中，检索器（Retriever）用于从外部数据源获取信息。

vaidfl·2025-03-20 03:17

如何缓存聊天模型响应以提高效率

技术背景介绍在开发基于大型语言模型（LLM）的应用程序时，API调用的成本和响应速度是需要考虑的两个重要因素。尤其是在开发过程中，重复请求相同的文本生成可能会增加额外的成本和延迟。

scaFHIO·2025-03-20 03:46

如何在一行代码中初始化各种AI模型

技术背景介绍在开发大语言模型(LLM)应用时，用户有时需要选择不同的模型提供商和具体模型。这通常需要一定的逻辑来根据用户配置初始化不同的聊天模型。

qahaj·2025-03-20 03:16

使用Tiktoken进行文本分割：优化大语言模型的输入

引言在处理大语言模型时，因其对输入的token数量有限制，文本分割成为一个至关重要的任务。为了确保生成的文本块不会超过模型的token限制，我们需要使用与模型相同的tokenizer来计数和分割文本。

bhawfgrcbtwny·2025-03-20 03:15

推荐频道

bert语言模型