大规模语言模型（LLM）第9页

LLM Weekly（2025.03.03-03.09）

尽管参数较少，但通过整合类似智能体的推理和反馈机制，QwQ-32B的表现可与更大规模的模型相媲美。该模型可在HuggingFace平台上获取。

UnknownBody·2025-03-13 16:29

Java操作Neo4J实例：简单易学的后端数据库

Neo4J是一种图形数据库，广泛应用于存储和处理大规模的图形数据。它提供了一种高效的方式来表示和查询复杂的关系网络。在本文中，我们将学习如何使用Java来操作Neo4J数据库。

OyLinux·2025-03-13 16:59

OpenInfra 基金会董事会宣布加入 Linux 基金会意向，增强开源全球影响力

引言：此联盟标志着云原生开源合作进入新时代，整合全球最活跃、最具影响力的开源项目美国2025年3月12日早上，致力于通过开源推动大规模创新的非营利性组织Linux基金会宣布，开源基础设施基金会（OpenInfraFoundation

·2025-03-13 15:51

“iOS 11不再信赖WoSign证书”公众号运营者如何应对

事件分析微信把“iOS11不再信赖WoSign证书”推送给所有微信公众平台，这种做法显然是欠妥当的，之前公众号从来没推送过“不信任XX证书”之类的公告，不知道为什么这次会突然大规模推送。

·2025-03-13 15:16

第二十八个问题-Dify、RAG-Flow、FastGPT 核心特点对比

Dify、RAG-Flow、FastGPT核心特点对比以下基于搜索结果，从功能定位、技术架构、适用场景等维度总结三者的核心特点：1.Dify定位：开源的LLM应用开发平台，强调低代码与快速构建生成式AI

释迦呼呼·2025-03-13 15:18

使用Argostranslate模型进行翻译（python）

Windowsmyenv\Scripts\activate#macOS/Linuxsourcemyenv/bin/activate#安装argostranslatepipinstallargostranslate2.下载语言模型

一只小铁柱·2025-03-13 13:38

普通人怎么利用GPT赚钱之创建自动化工具

对于普通人来说，利用GPT（GenerativePre-trainedTransformer）这样的语言模型来创建自动化工具，并通过这些工具赚钱，已经成为一种切实可行的方法。

贫苦游商·2025-03-13 11:24

分布式并行策略概述

大规模时通

灵海之森·2025-03-13 10:11

基于大模型的Text2SQL微调的实战教程(二)

本文主要介绍了基于大模型的Text2SQL微调的实战教程(二)，希望对学习大语言模型的

herosunly·2025-03-13 09:36

开启AI开发新时代——全解析Dify开源LLM应用开发平台

开启AI开发新时代——全解析Dify开源LLM应用开发平台在人工智能迅速发展的今天，如何快速将创意转化为高效可用的应用成为开发者亟待解决的问题。

gs80140·2025-03-13 09:36

突破：海量倾斜高斯OPGS Cesium高效渲染！

针对城市级地理场景渲染卡顿问题，今年我们研发团队再次取得新进展，成功在Cesium平台上实现了大规模OPGS成果的高效渲染，为实景三维可视化注入了全新活力。大面积OPGS成果在Cesiu

大势智慧·2025-03-13 09:34

从Swish到SwiGLU：激活函数的进化与革命，qwen2.5应用的激活函数

RMSNorm1.什么是swiGLUSwiGLU（Swish-GatedLinearUnit）是一种结合了Swish激活函数和GLU（GatedLinearUnit）门控机制的激活函数，广泛应用于现代大型语言模型中

KangkangLoveNLP·2025-03-13 09:02

LLM - 白话AI Agent

文章目录一、AIAgent：让大模型从"思考者"变为"行动者"二、Agent的基本工作原理三、Agent系统的基本组成四、Agent面临最大的挑战五、Java版智能体实战：竞品分析助手一、AIAgent：让大模型从"思考者"变为"行动者"大模型已经非常强大，能够生成内容、回答问题甚至协助编程。那为什么我们还需要AIAgent？简单的说，大模型就像一个“超级大脑”，知识丰富、能力强大，但它的问题是“

小小工匠·2025-03-13 09:30

整理：4篇论文介绍实时语义分割的未来，Transformer架构下的性能与效率平衡

在Transformer架构推动下，计算机视觉领域致力于打造一个极为强大且通用的大规模模型，它能处理物体检测、图像分割等多种任务。

mslion·2025-03-13 08:25

LLM填坑：训练自己的分词器-Tokenizer

说明：文本搬运以下文章，略微调整，有需求可参考原文。paper:https://zhuanlan.zhihu.com/p/625715830code:Chatterbox/example/TrainTokenizersExample/train_tokenizers.pyatmain·enze5088/Chatterbox·GitHubHuaggingface教程：

微风❤水墨·2025-03-13 08:53

LLM填坑：训练自己的分词器-Tokenizer 2

本文记录另外一个例子，例子中涉及如何手动配置config，实现与Huaggingface兼容。merges.txtmerges文件存放的是训练tokenizer阶段所得到的合并词表结果，就是tokenizer.json中，model.merges下的内容。tokenizer_config.json分词器的配置信息，定义了分词器的版本、额外添加的标记（tokens）、结构/代码和模型参数等信息，比如

微风❤水墨·2025-03-13 08:53

Spring Boot HikariCP数据库连接池入门

阿里大规模采用Druid。当然，如下有一些资料，胖友可以阅读参考：《Druid连接池介绍》《为什么HikariCP被号称为

Ase5gqe·2025-03-13 07:49

整理：开启新征程！四篇文章助力 AI，告别 “3D理解困难户”

近年来，人工智能的发展让大语言模型（MLLM）变得越来越强大，它们可以理解和处理文字、图片、视频等多种信息，在很多领域都有很好的应用。然而，当这些模型需要理解3D（立体）场景时，仍然面临一些困难。

mslion·2025-03-13 07:17

RAG(检索增强生成)系统实践与调优

在人工智能领域，检索增强生成（RetrievalAugmentedGeneration,RAG）是一种结合信息检索和生成式人工智能的技术，它通过从外部数据源中检索相关信息，来辅助大语言模型（LargeLanguageModel

python_知世·2025-03-13 07:16

分子动力学仿真软件：GROMACS_（1）.GROMACS基础知识

GROMACS以其高效、灵活和强大的功能而闻名，支持大规模并行计算，适用于从小分子到复杂生物体系的多种应用场景。1.1GROMACS的历史和发展GROMAC

kkchenjj·2025-03-13 07:15

训练大模型LLM选择哪种开发语言最好

训练大型语言模型（LLM）时，选择合适的编程语言主要取决于效率、生态支持、开发便利性以及特定需求（如性能优化或硬件适配）。

大0马浓·2025-03-13 05:09

使用 UpTrain 提升 LLM 应用效果的实战指南

随着大语言模型（LLM）的广泛应用，如何评估和改进这些应用的性能成为了一个关键问题。

qahaj·2025-03-13 04:30

大语言模型（LLM）的微调与应用

一、微调与应用的核心区别目标差异微调（Fine-tuning）：针对预训练模型进行参数调整，使其适应特定任务或领域（如医疗问答、法律文本分析）。需通过有监督微调（SFT）或低秩适配（LoRA）等技术优化模型权重。应用（Application）：基于现有模型的能力构建实际系统（如智能客服、文档摘要），侧重于工程化集成和交互设计，通常不修改模型参数，而是通过Prompt工程、RAG（检索增强生成）或A

AI Echoes·2025-03-13 03:50

人工智能AI通用分级标准方法

以下是对人工智能通用分级标准的详细分析：1.OpenAI的五级分级标准OpenAI于2024年7月发布了通用人工智能（AGI）的五级分级标准，旨在追踪大型语言模型在AGI方面的进展。

魔王阿卡纳兹·2025-03-13 02:13

InternVL：论文阅读 -- 多模态大模型(视觉语言模型)

XiaoJ1234567·2025-03-12 23:20

开源模型应用落地-qwen模型小试-Qwen-Agent（十一）

一、前言Qwen-Agent是一个利用开源语言模型Qwen的工具使用、规划和记忆功能的框架。其模块化设计允许开发人员创建具有特定功能的定制代理，为各种应用程序提供了坚实的基础。

开源技术探险家·2025-03-12 22:47

LLM大模型技术实战6：一文总结大模型微调方法

大模型会成为AI时代的一项基础设施。作为像水、电一样的基础设施，预训练大模型这样的艰巨任务，只会有少数技术实力强、财力雄厚的公司去做。绝大多数人，是水、电的应用者。对这部分人来说，掌握如何用好大模型的技术，更加重要。用好大模型的第一个层次，是掌握提示词工程(PromptEngineering)用好大模型的第二个层次，是大模型的微调(FineTuning)，这也是今天这篇文章的主题。为什么要对大模型

AIG暴躁猫叔·2025-03-12 22:16

Adapter-Tuning：高效适配预训练模型的新任务

1.引言近年来，预训练语言模型（PLM）如BERT、GPT和T5在自然语言处理（NLP）任务中取得了巨大成功。

花千树-010·2025-03-12 22:15

vLLM 部署大语言模型的系统选择策略

核心选型原则指标权重说明CUDA支持⭐⭐⭐⭐⭐直接影响GPU加速性能，需确保系统与NVIDIA驱动和CUDA工具链的兼容性软件源时效性⭐⭐⭐⭐系统需提供较新的Python、PyTorch等AI框架版本，避免依赖冲突长期支持(LTS)⭐⭐⭐⭐生产环境需规避因系统版本过期导致的安全漏洞和兼容性问题社区生态⭐⭐⭐活跃的开发者社区能快速解决部署问题，降低运维成本企业级支持⭐⭐需要SLA保障的商业场景需考虑

由数入道·2025-03-12 22:15

VLRMBench ：一个涵盖数学推理、幻觉理解、多图像理解等多种任务的视觉-语言奖励模型基准测试数据集

一、研究背景近年来，随着大语言模型和大视觉-语言模型的快速发展，它们在多模态任务中取得了显著进展，广泛应用于医学影像、遥感、自动

·2025-03-12 22:23

2024-05-21 问AI: 介绍一下大语言模型的推理过程。

文心一言大语言模型的推理过程是一个复杂而精细的序列，它结合了深度学习和自然语言处理的技术，旨在理解和生成人类可以理解的自然语言文本。

BigSharkTech 必杀技·2025-03-12 22:14

LangChain教程 - Agent -之 ZERO_SHOT_REACT_DESCRIPTION

LangChain提供了AgentType.ZERO_SHOT_REACT_DESCRIPTION，它结合了ReAct（Reasoning+Acting）策略，使得LLM可以基于工具的描述智能选择合适的工具进行推理和执行

花千树-010·2025-03-12 21:40

Doris集群启停脚步

ApacheDoris是一个基于MPP（大规模并行处理）架构的高性能、实时的分析型数据库。

江畔独步·2025-03-12 20:01

【AI论文】SEAP: 无训练稀疏专家激活修剪，解锁大型语言模型的潜力

摘要：大型语言模型在各种自然语言处理任务中取得了显著成功，然而其在推理过程中的高计算成本仍然是一个主要瓶颈。

东临碣石82·2025-03-12 19:53

00后用DeepSeek直播1天卖出3.3亿；Manus披露基座模型是Claude和阿里千问；X平台遭受大规模网络攻击|极客头条

「极客头条」——技术人员的新闻圈！CSDN的读者朋友们好，「极客头条」来啦，快来看今天都有哪些值得我们技术人关注的重要新闻吧。整理|郑丽媛出品|CSDN（ID：CSDNnews）一分钟速览新闻点！美的回应“强制18点20下班”：严禁形式主义加班，身体力行践行“反内卷”字节被曝曾想收购Manus团队，因出价低被拒传小米人形机器人Cyberone即将量产，官方回应：消息不实被网友获取运行代码后，Man

极客日报·2025-03-12 19:52

【安当产品应用案例100集】040-TDE保护私有模型文件

1.引言随着大语言模型（LLM,LargeLanguageModel）在各行各业的广泛应用，其安全性和隐私保护变得尤为重要。

安当加密·2025-03-12 18:19

51-52 CVPR 2024 | Generalized Predictive Model for Autonomous Driving，自动驾驶通用预测模型

作者提出了通用的大规模自动驾驶视频预测模型GenAD，在实现过程中，进一步提出了迄今为止最大的自动驾驶场景训练数据集OpenDV-2K。

深圳季连AIgraphX·2025-03-12 18:18

AI双轨革命：DeepSeek与Manus

一、技术架构与核心能力DeepSeek：知识型“最强大脑”技术架构：基于混合专家模型（MoE），参数规模达6710亿，专注于语言模型的极致优化，擅长知识推理、文本生成与专业问题解答。

·2025-03-12 18:44

vLLM框架：使用大模型推理框架

vLLM专为高效部署大规模语言模型设计，尤其适合高并发推理场景，关于对vLLM的介绍请看这篇博文。以下从安装配置、基础推理、高级功能、服务化部署到多模态扩展逐步讲解。

CITY_OF_MO_GY·2025-03-12 17:12

HBase2.6.1部署文档

HBase通常应用于需要快速随机读写、低延迟访问以及高吞吐量的场景，例如大规模日志处理、社交网络数据存储等。HBase特性列存储模型：HBase的数据是按列族存储的，适合高稀疏数据。行键分区

CXH728·2025-03-12 17:10

数据清洗级可视化中，Pandas&numyp的主要作用

此外，Pandas还支持数据类型转换、异常值处理等数据清洗任务，以及时间序列图、柱状图和折线图等基本数据可视化方法NumPy专注于数值计算，提供了高效的数组操作功能，适用于大规模数

Test-Sunny·2025-03-12 16:09

算力服务器主要是指什么？

算力服务器对于人工智能领域来说，在深度学习模型的训练和推理过程中扮演着非常重要的角色，算力服务器可以执行大规模的矩阵计算，加速神经网络的训练和推理过程，帮助企业使得模型训练的时间大幅度缩短。

wanhengidc·2025-03-12 16:38

使用LangChain构建强大的对话机器人：详细指南

我们将从环境设置开始，逐步讲解如何使用语言模型、提示模板、对话历史管理等关键技术，最终展示如何使用L

m0_57781768·2025-03-12 16:05

DeepSeek开源周：面向大模型训练的三个工具包

在2025年的开源周中，DeepSeek推出了一系列旨在优化大规模模型训练效率的工具。

花生糖@·2025-03-12 15:28

DeepSeek开源第一弹！突破H800性能上限，FlashMLA重磅开源

FlashMLA通过优化MLA解码和分页KV缓存，能够提高LLM（大语言模型）推理效率，尤其是在H100/H800这样的高端GPU上发挥出极致性能。

开源项目精选·2025-03-12 14:54

MindSearch: 革新人工智能搜索引擎的未来

MindSearch:革新人工智能搜索引擎的未来在人工智能和大语言模型快速发展的今天,搜索引擎领域正迎来新的变革。由上海人工智能实验室开发的MindSearch项目,正是这场变革中的佼佼者。

2401_87189860·2025-03-12 14:22

Phi-4-multimodal：图、文、音频统一的多模态大模型架构、训练方法、数据细节

它的设计体现了小型语言模型在多模态任务上的潜力模型架构Phi-4-Multimodal的基础是Phi-4-Mini语言模型，这是一个3.8亿参数的模型，设计为高效处理文本任务

余俊晖·2025-03-12 12:40

大模型微调：定义、方法、应用与未来展望

预训练模型通常在大规模的通用数据上进行训练，学习到广泛的知识和语言模式，但这些知识往往缺乏针对性。例如，在自然语言处理中，预训练模型可能无法准确理解特定领域的专业术语或逻辑。

软件职业规划·2025-03-12 11:33

9.3 智谱AI大模型生态爆发！中文准确率89.2%+代码生成67.3%，全面碾压GPT-4！

1.WebGLM：联网检索增强大模型智谱AI于2022年推出的WebGLM是基于GLM-10B打造的检索增强生成（RAG）模型，其创新性地将大语言模型与搜索引擎深度整合，构建了独特的四阶段处理架构：

少林码僧·2025-03-12 10:27

计算机一级第15套题答案,全国计算机一级B选择题(15套附答案)..doc

A)晶体管B)电子管C)中、小规模集成电路D)大规模和超大规模集成电路D(3)二进制数110000转换成十六进制数是?A)77B)D7C)7D)30A(4)与十进制数4625等值的十六进制数是?

weixin_39968823·2025-03-12 10:54

推荐频道

大规模语言模型（LLM）