飞桨PaddlePaddle

文心大模型：知识增强的NLP模型详解

文心大模型首场技术开放日已经圆满结束。在本次活动中，文心大模型背后的“技术天团”首次集中亮相，分享大模型技术发展趋势洞察、文心大模型最新技术突破及产业应用实践，为技术爱好者带来一场干货满满的AI技术盛宴。

本篇文章整理自百度技术委员会主席吴华《文心大模型：知识增强的NLP模型详解》直播分享。

文心大模型简介

大家好，我是吴华，今天给大家带来的是文心·NLP大模型的解读。

预训练大模型已经成为人工智能的新方向，通过从无标注大数据中自监督学习能得到预训练大模型。在应用中，我们能够用少量任务数据取得非常好的效果，而且它的泛化能力很强，用在各个任务中通用性很好。

预训练大模型能够充分地挖掘大规模无标注数据的潜力，从海量数据中学习知识与规律，就像我们人类的通识教育。从出生开始，我们接受的都是通识教育，到上大学以后，才接受专业教育。在应用大模型以后，通过大模型加任务数据微调的方式，能获得非常好的效果，这已经成为了新的研发范式。

拥有了预训练大模型后，我们可以从之前的手工调参依赖AI专家的阶段进入大规模可复制的大工业落地阶段。

这是我们文心大模型的全景图，包括NLP大模型、CV大模型和跨模态大模型，在此基础上，我们开发了大模型的开发工具、轻量化工具和大规模部署工具，而且我们支持零门槛的AI开发平台以及全功能AI开发平台。

现在，让我来解读文心·NLP大模型的发展历程。在这个发展过程中，我们有三条主线：

第一条主线是文心ERNIE，我们发布了文心ERNIE 3.0以及文心·ERNIE 3.0 Titan模型，并且在SuperGLUE和GLUE都超过了人类排名第一的水平。

第二条主线是文心ERNIE在跨模态、跨语言以及长文档、图模型等方面获得了非常好的发展，在各种榜单尤其是视觉语言相关的榜单上获得第一。

第三条主线是对话生成大模型文心PLATO的发布，对话的流畅性得到了很大提升。

去年，我们发布了三个新的大模型，鹏城·百度文心大模型、文心ERNIE-ViLG模型和文心PLATO-XL大模型，分别是文心ERNIE的系列模型和对话生成模型。

知识增强大模型文心ERNIE

接下来，首先让我们解读知识增强大模型文心ERNIE。

文心ERNIE：持续学习框架

我们先看文心ERNIE的持续学习框架，在文心ERNIE的框架中，我们不断从不同的数据和知识上学习，而且在不断地构建新任务，比如文本分类任务、问答任务、完形填空任务等。大模型从不同任务中持续学习，使能力得到持续提升，从而拥有更多知识。

在这个基础上，我们研发了知识增强的预训练模型，这个模型主要有三个特色：

能够从大规模知识图谱和海量无结构数据中学习，突破异构数据统一表达的瓶颈问题。
能够融合自编码和自回归结构，既可以做语言理解，也可以做语言生成。
基于飞桨4D混合并行技术，能够更高效地支持超大规模模型的预训练。

首先，我们来看第一个特色，从大规模知识图谱和海量无结构数据中学习。从这个例子可以看出，我们同时输入大规模图谱和相应无标注、无结构化的文本，通过文本的Mask，能够推理这个知识图谱里的关系，从而使这个模型具有知识推理能力。在右图的知识问答过程图可以看到，ERNIE具有增强的知识推理能力。

第二个特色是我们融合了自编码和自回归的结构，使模型既可以做语言理解，也可以做语言生成。在做语言理解时，我们可以让模型拥有上下文相关的信息，从而做语言理解。在生成的时候，由于模型只看到了上文，所以只能基于自回归的方式学习。因此，在一个框架中同时能够拥有语言理解和语言生成两种能力非常重要。

第三个特色是基于飞桨的4D混合并行。4D混合并行是指训练的时候同时有4种不同并行方式：数据并行、模型并行、流水线并行和分组参数切片。这四种技术支持了文心大规模的模型训练，因此我们能够节省50%的时间，同时在千亿模型上完成3750亿Token的训练，使我们拥有大规模的文心ERNIE模型。

在这三个特色的基础上，我们发布了全球首个知识增强的千亿大模型，拥有2600亿的参数，在60多项的NLP任务上取得了世界领先。同时，在这个模型上的实际应用中我们能把参数压速到99%，使这个模型的效果得到了大幅提升。

拥有了这样的模型，我们的语言理解能力得到了显著提升，尤其是拥有领先的复杂知识推理能力，相比GPT-3，文心ERNIE在复杂知识推理能力上有8个百分点的绝对提升。

相比较于没有知识增强的大规模模型，我们在实体问答和知识预测，尤其是有多步推理的任务上拥有更好的效果。基于鹏城·百度文心大模型，模型能够依据用户的需求定制文本生成能力，从而自动生成关键词以呈现不同的风格，并且通过可信度计算，使生成的文本具有事实一致性。在这样的能力下，我们拥有了多种场景化的文本生成能力，比如：小说续写、歌词创作、诗歌写作等。

我们在国际排行榜SuperGLUE上是第一名。在当时夺冠的这个模型序列中，我们的模型参数相对来说是非常少的，只有15亿参数，而T5是110亿参数，GPT-3是1750亿参数。虽然文心ERNIE参数相对少，但效果非常好，这也说明知识是能够提升学习效率的。

在Fine-tuning任务上，文心ERNIE可以用在不同任务中，用任务数据做微调。文心ERNIE在21类54个Fine-tuning任务中取得领先。这些任务分布很广泛，有语言理解、语言生成、知识推理等。同时，文心ERNIE在零样本和小样本学习的能力也非常好，尤其是在文本分类、阅读理解、知识推理、指代消解等任务中取得全面领先。

众所周知，大模型的训练成本及使用成本非常高，在实际业务落地应用中面临着相当大的挑战。首先，对千亿模型进行知识蒸馏需要耗费非常高的计算资源，而且，如果从千亿的规模蒸馏到几亿或几千万的数据量，差距过大，影响蒸馏的效果。针对这个问题，我们提出了在线蒸馏的框架，能够降低计算资源的消耗。同时，我们采取辅助蒸馏的方式，首先从千亿规模蒸馏到几十亿，然后到几亿。通过这个过程，我们能使模型蒸馏的效率和效果都得到很好的提升。

从这个实际应用案例中能看到，我们实现了搜索15亿的大模型无损蒸馏，并把这个模型应用在搜索排序的场景中。实际上，在这个过程中，我们将多个教师模型进行蒸馏，使效果得到了非常大的提升。

刚才介绍了文心ERNIE的学习框架以及学习效果。接下来，我将针对知识增强大模型里其他的跨语言大模型、跨模态大模型以及图模型进行解读。

跨语言大模型文心ERNIE-M

在跨语言的学习过程中，中文和英文这类语种的语料资源较为丰富，然而对于很多小语种来说，比如泰语，我们的资源是不够丰富的。那么，如何利用资源丰富的语种来帮助资源缺乏的语种实现性能提升呢？我们采用了用少量平行语料和大量非平行语料通过回译的机制进行学习的方式来实现。

在这个过程中，我们使用统一模型建模了96种语言，并在5类语言任务上刷新世界最好结果。例如在自然语言推断、语义相似度、阅读理解、命名实体识别、跨语言检索等任务中，我们都获得了极大提升，同时在权威跨语言理解榜单XTREME上获得了第一。

看一个例子，我们通过用非平行语料来学习各个语种中语义的关联，同时将标注丰富语种中的知识（比如中文中一些命名实体的标注）通过跨语言模型迁移到其他语种中，从而实现语言知识的迁移，并提高其他语种下游任务的效果。

跨模态大模型文心ERNIE-ViL

在文心ERNIE-ViL中，我们在跨模态模型中首次引入了场景知识。引入场景知识的目的是为了理解图像中细粒度的语义，比如说房子、车子和人之间的关系，以及车的颜色等。通过构建场景图的方式，模型能够对图像进行细粒度的语义理解，从而在跨模态任务上取得最好的效果，比如视觉问答、视觉常识推理、图像检索等。我们在权威视觉常识推理任务VCR榜单上也排名第一。

来看一个例子，左边图中一共有几位运动员？我们看到的一共有六个人，到底有几个运动员呢？我们选择了C，这是正确答案。在这个过程中模型要给出解释，为什么在6个人之中只有5个是运动员？模型要判断其中一个是裁判。这个其实就是通过视觉推理来获得的。这就是在场景图里加入知识，通过它的文字信息去构建场景图，使得模型能够理解图中细粒度的语义。

跨模态大模型文心ERNIE-ViLG

我们也发布了全球最大规模的中文跨模态生成大模型文心ERNIR-ViLG。这个模型的特点是在一个模型中能同时兼顾文本到图像的生成，以及图像到文本的生成，通过跨模态的语义对齐算法，实现双向生成。现在模型参数规模已经达到了百亿级，并且在效果上领先于OpenAI DALL·E。

来看一些例子，在文本生成图像中，模型可以对一些风景图生成得非常写意。在图像生成文本，模型能很好地为图像加上标签，使读起来更加赏心悦目。

图模型文心ERNIE-Sage

除了跨模态和跨语言的模型，我们也在应用中发现很多场景是有关联知识的。为了建模这些关联知识，我们提出了文心ERNIE-Sage的图模型。基于这个模型，我们能在搜索中通过文档的Title和Query，去构建Query与Title、Query和Query之间的关系，同时也能通过知识图谱的知识去增强这种关联。

为了解决在应用中长尾数据稀疏的问题，我们加入了知识图谱的信息以及其他的领域知识信息，以便能够更好地增强图模型知识之间的关联，以及通过图学习、预训练方法的加持，来提升文本图语义的理解，这样的模型被我们广泛用在搜索、地图等应用中。在地图中，我们能够建模POI之间的关系，通过图的模式能够使用户的搜索效率提升，很好地纠错地图语义的理解。

通过文心ERNIE技术与平台全景图，我们可以看到文心ERNIE通过不断学习不同的任务，获得了大幅的效果提升。比如，我们应用了文心ERNIE 3.0系列模型，在这个基础上有多个维度的基础模型，如长文本、多粒度、轻量化等。同时，除了刚才说的跨模态图模型、跨语言等模型以外，我们还有很多任务模型、领域模型，比如生成模型、相似度语义模型、信息抽取模型、检索模型和纠错模型等。在医疗、法律、金融等领域上，我们也发布了相应的模型。

在应用中，我们支持面向用户和客户的多种应用，目前文心ERNIE已经支持了数百家企业以及5万多开发者，覆盖金融、互联网、电商、通信、人力资源、教育、能源等行业，也希望将来有更多的开发者跟我们一起更好地构建文心ERNIE生态。

对话生成模型文心PLATO

接下来，为大家解读对话生成模型文心PLATO。我们知道在对话生成中，尤其在开放域的对话生成中，需要对用户的任何话语进行连贯且有意义的回复。在这个过程中，任何上文序列都应该有合理的答复且存在多个合理的答复。基于这个现象，我们提出了隐变量的大规模对话生成模型。

我们提出的隐变量和角色建模，能够很好地建模，针对上文生成多样化的回复。首先我们采用统一的Unified Transformer结构高效地构建理解与生成任务。也就是说，在对话生成的过程中，首先要理解上文然后才能生成回复，所以，我们采用了Unified Transformer结构。在这个过程中，我们发现如果采用隐变量，学习参数是非常多的。所以我们采用课程学习，由浅入深，开始的时候，采用标准的Transformer结构，没有隐变量，在此基础上再采用隐变量的方式学习，使模型生成多样化的回复。

基于这样的框架，去年我们发布了全球首个百亿参数的预训练对话生成模型文心PLATO-XL，它的特点是规模大、效果好、能耗低。从下图左侧可以看出，在参数规模还不是很大的情况下，跟参数规模非常大的效果相比，文心PLATO-XL也能取得相对好的结果，而在能耗方面成本更低。

我们知道，即使拥有对话生成的能力，对话的复杂性仍然非常高。我们希望系统具有长期记忆能力，同时希望系统说的话前后一致。也就是说，系统在上面说的话和在下面要说的话要有一致性，不能一会是个小学生，一会已经是大学生了。

此外，在开放域的聊天对话过程中，没有信息量的回复非常多。这时就要引入知识，怎么建模知识也是非常重要的一个能力。同时，在一些应用中需要做对话推荐，比如推荐商品、音乐等。

在这几方面，我们得到了比较好的结果，比如人设稳定、长期记忆的能力都在80%以上，知识问答的准确率达到90%，推荐的成功率在90%左右。

首先来看，我们是如何建设具有长期记忆能力的画像一致性的。我们建设了一个画像相关的知识库，用画像知识去触发检索，检索回来的知识加入生成模型中，生成画像一致的回复，把画像一致性从10%左右提高到了80%以上，并且已经在实际业务中落地应用。

在知识增强对话方面，我们采用了两种方式：一种是知识外用，一种是知识内化。

知识外用指的是我们把知识作为一个库，外挂在生成模型之外，通过检索的方法，检索知识加入生成模型中，能够很好地增强回复生成的信息量。知识内化是指我们把各种异构的数据、知识加入到这个聊天语料中一起训练，然后把知识信息学到模型参数中。通过这样的方法，我们能够把知识的准确率提升到90%以上。

举个例子，在医疗领域的对话中，我们用医疗图谱来指导生成。我们采用了两步生成方式，第一步通过上下文的方式生成一个流畅的句子，但是里面的知识可能是不准确的，这个时候利用知识图谱，也就是利用医疗知识图谱修正里面的知识错误，使生成回复中知识的准确率相对提高60%，达到80%以上。这样一个知识增强模型生成的回复，能够保持知识的准确率处于一个相对比较高的水平。

刚才提到，我们在有些任务中需要有对话推荐，如推荐一首音乐、推荐一本书，推荐一个地方去旅游等，这些都需要在对话中满足，也采用了两种方法：一种是层次化的内容规划，另外一种是通过数据增强的方式实现。我们也建立了多种跨类型的对话数据集，并且这些数据集已经发布。通过这样的方法，使多轮对话的合适度和推荐的成功率在90%以上。

文心PLATO已经全方位开放，希望跟大家一起共建基础生态。我们有开源的KNOVER对话框架，其最新的代码都是开源、开放的。我们还开放了多种对话任务的数据集，供开发者提升和验证自己的对话技术。目前，开放数据下载次数有三万多，开发者也有三万多，尤其是在最近几年，我们也在举行对话相关的比赛，今年在语言与智能技术竞赛中也有一个知识对话的比赛，欢迎大家来参加。

百度语言与知识技术开放平台

最后，简单总结一下，我们构建了文心NLP大模型的技术和平台，也跟学术界、工业界很多伙伴一起共建了千言数据集。我们有中文文本知识标注的框架，在这个底座的基础上，也开放了很多能力引擎，比如：文本的标签、问答能力等等。在这样的能力引擎基础上，我们有足够的知识图谱构建和应用能力，因为百度拥有一个非常大的开放域知识图谱，在这个基础上，能够进行知识的生产、组织以及应用。

在这个能力引擎平台和知识中台上，我们能够支持各种场景定制，比如，智能文档分析、对话理解、定制与服务平台、智能创作、机器翻译开放平台、内容审核平台等，所有这些平台都可以支持各种互联网应用和工业应用。

今天我的解读就到这里，谢谢大家。

关注【AI大模型】公众号

后台回复【知识增强】获取本次分享PPT

更多阅读

精彩回顾来啦！百度文心大模型技术开放日

百度文心大模型驱动AI规模化应用，落地场景数量居业内首位

百度文心大模型「技术天团」首次亮相！首场技术开放日、AI创意派决赛来啦

关注【飞桨PaddlePaddle】公众号
获取更多技术内容~

【技术解密】本地部署 DeepSeek-V3：完整指南海棠AI实验室 “智元启示录“-AI发展的深度思考与未来展望人工智能深度学习 DeepSeek
目录引言运行环境需求下载与安装推理部署总结参考资源引言随着人工智能的快速发展，开源大模型正逐步改变着技术生态。DeepSeek-V3作为最新的开源大模型之一，不仅提供了强大的推理能力，同时也支持本地部署，使开发者可以灵活地进行自定义优化。本文将详细介绍如何在本地部署DeepSeek-V3，涵盖系统要求、安装步骤、模型转换及不同推理框架的应用。1.运行环境需求1.1硬件要求✅NVIDIAGPU（支持
人工智能伦理与可持续发展 CarlowZJ 人工智能
前言人工智能（AI）技术正在深刻地改变我们的生活和工作方式。从自动驾驶汽车到智能医疗系统，从个性化推荐到自动化决策，AI的应用无处不在。然而，随着技术的快速发展，其伦理和社会影响也引发了广泛的关注。人工智能伦理不仅涉及技术本身的公平性、透明性和安全性，还涉及到更广泛的社会、经济和环境影响。本文将探讨人工智能伦理的核心问题，并从可持续发展的角度提出应对策略。一、人工智能伦理的核心问题1.1数据隐私与
机器学习中输入输出Tokens的概念详解爱吃土豆的程序员机器学习基础机器学习人工智能 Tokens
随着深度学习技术的快速发展，大语言模型（LargeLanguageModels,LLMs）已经成为自然语言处理（NLP）领域的一个热点研究方向。这些模型不仅能够生成高质量的文本，还能在多种任务中展现出卓越的表现，比如机器翻译、问答系统、文本摘要等。在大语言模型的工作流程中，Tokens的概念扮演着至关重要的角色。本文将详细介绍大语言模型如何使用Tokens，以及如何计算Tokens的数量。什么是T
情感分析任务的概述阿你不是 python 开发语言
一、情感分析的概述1、什么是情感分析情感分析，也称为情感分类，是一种自然语言处理的任务，用于分析文本、语音或其他形式的数据中所包含的情感倾向。其目标是判断数据表达的情感是积极的（Positive）、消极的（Negative）还是中立的（Neutral），或者进一步细化为更复杂的情感类别（如愤怒、喜悦、悲伤等）。2、情感分析的主要应用场景1）商业领域：情感分析主要进行产品评价分析，从客户和买家的评价
AI时代如何引流 alankuo 人工智能
AI时代引流可以从以下几个方面着手：利用AI精准定位与个性化营销精准客户画像：借助AI整合多维度数据，涵盖客户的年龄、性别、地理位置、消费习惯、浏览历史等，深度挖掘后绘制精准的客户画像，明确潜在客户特征与需求，让营销活动更具针对性。个性化内容创作：运用AI的自然语言处理功能，依据客户特点和需求生成个性化的营销内容，如广告文案、产品推荐等。以电商平台为例，可针对不同用户生成符合其喜好的商品推荐文案。
LLM-PowerHouse: 一站式大型语言模型定制训练与推理指南 Nifc666 语言模型人工智能自然语言处理 whisper langchain gpt 开源软件
LLM-PowerHouse:解锁大型语言模型的潜力在人工智能和自然语言处理领域,大型语言模型(LargeLanguageModels,LLMs)正在掀起一场革命。随着GPT、BERT等模型的出现,LLMs展现出了惊人的能力,可以执行各种复杂的语言任务。然而,如何有效地训练和使用这些强大的模型仍然是一个挑战。针对这一需求,GitHub上的LLM-PowerHouse项目应运而生,为开发者、研究人员
输入：0.5元/百万tokens（缓存命中）或2元（未命中）输出：8元/百万tokens 杏花春雨江南缓存
这句话描述了一种定价模型，通常用于云计算、API服务或数据处理服务中，根据资源使用情况（如缓存命中与否）来收费。以下是对这句话的详细解释：1.关键术语解释Tokens：在自然语言处理（NLP）或数据处理领域，Token通常指文本的最小单位（如一个单词或一个字符）。在这里，Tokens是计费的单位。缓存命中（CacheHit）：当请求的数据已经在缓存中时，称为缓存命中。缓存命中通常意味着更快的响应速
【sklearn 01】人工智能概述 @金色海岸人工智能 sklearn python
一、人工智能，机器学习，深度学习人工智能指由人类制造出的具有智能的机器。这是一个非常大的范围，长远目标是让机器实现人工智能，但目前我们仍处在非常初始的阶段，甚至不能称为智能机器学习是指通过数据训练出能完成一定功能的模型，是实现人工智能的手段之一，也是目前最主流的人工智能实现方法深度学习则是机器学习的分支，超过8层的神经网络模型就叫深度学习，深度即层数。深度学习目前在语音、图像等领域取得很好的效果
【人工智能】【Python】在Scikit-Learn中使用决策树算法（ID3和CART） SmallBambooCode 机器学习人工智能 python 算法 scikit-learn 决策树机器学习 ai
importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.treeimportDecisionTreeClassifier,plot_tree#加载数据集iris=load_iri
差异中寻找共识：浅析中美欧AIGC服务商的标识义务人工智能
2025年1月7日，西藏日喀则地震中一张被广泛传播的图片“被压在废墟下的小男孩”被证明是AI合成图片，[1]这随即引发了社会对于人工智能生成物（ArtificialIntelligenceGeneratedContent，以下简称“AIGC”）的广泛讨论。随着AI大模型生成逼真图像、音频与视频的能力日益增强，人类作品与AIGC之间的界限愈发模糊。如不加以管控，则会产生“真相侵蚀”（TruthDec
迷雾渐开：美国AIGC可版权性剖析及案例梳理人工智能
当地时间2025年1月29日，美国版权局（U.S.CopyrightOffice,USCO）发布了版权和人工智能相关法律和政策报告的第二部分——《版权和人工智能：可版权性》（以下简称“《USCO可版权性报告》”）[1]，旨在探讨人工智能生成内容（AIGC）的可版权性问题。该报告明确指出，美国版权局认为现有的版权法足以解决AIGC问题，因此无需制定新的立法。具体而言，该报告在此前美国版权局于2023
智能体平台架构深度剖析：从底层到应用的全链路解析人工智能
在当今人工智能飞速发展的时代，智能体平台作为承载和驱动智能应用的关键基础设施，其架构设计至关重要。一个优秀的智能体平台架构，能够高效整合各类资源，实现智能体的灵活构建与稳定运行，为多样化的应用场景提供强大支持。稳固根基：基础资源层与并行平台层基础资源层是整个智能体平台的基石。其中，GPU和服务器构成了强大的计算硬件支撑，确保平台能够应对复杂的计算任务。而数据与OSS（对象存储服务）则如同智能体的“
美国首例AI训练数据版权案：从汤森路透诉罗斯案看AI训练数据的“合理使用” 人工智能
随着人工智能（AI）技术的快速发展和广泛应用，复杂的版权问题也随之而来。2025年2月11日，美国特拉华州联邦地区法院对汤森路透（ThomsonReuters）诉罗斯（Ross）案作出部分简易判决，认定被告罗斯公司未经授权使用受版权保护的作品训练AI法律检索工具的行为构成版权侵权，且不属于合理使用。[1]这是美国首个就AI训练数据作出实质性判决的案件。本文将重点分析其合理使用论述中对于“转换性目的
【人工智能基础2】Tramsformer架构、自然语言处理基础、计算机视觉总结 roman_日积跬步-终至千里人工智能习题人工智能自然语言处理计算机视觉
文章目录七、Transformer架构1.替代LSTM的原因2.Transformer架构：编码器-解码器架构3.Transformer架构原理八、自然语言处理基础1.语言模型基本概念2.向量语义3.预训练语言模型的基本原理与方法4.DeepSeek基本原理九、计算机视觉七、Transformer架构1.替代LSTM的原因处理极长序列时，效率下降：虽然LSTM设计的初衷是解决长期依赖问题，即让模型
怎么做一个AI产品经理？ AI筑梦师 AI产品经理人工智能产品经理
AI产品经理全面进化：在人工智能迅猛发展的时代，产品经理的角色正经历前所未有的转型。从传统的需求捕捉者到技术与商业紧密结合的创新推动者，AI产品经理肩负着将前沿AI技术转化为解决用户痛点的产品的重要任务。随着大数据、云计算和大模型技术的不断成熟，产品经理不仅需要具备敏锐的市场洞察，还必须深刻理解AI技术本质，跨界整合技术、数据与业务优势，从而推动产品的持续创新与落地。本文将全面解析AI产品经理的角
LORA 微调大模型：从入门到入土大模型. 人工智能开发语言 gpt agi 架构大模型
在当今人工智能领域，预训练的大模型已经成为推动技术发展的核心力量。然而，在实际项目中，我们往往会发现这些预训练模型虽然强大，但直接就去应用于一些特定的任务时，往往无法完全满足需求。这时，微调就成为了必不可少的一步。而在众多微调方法中，LORA全名(Low-RankAdaptation)以高效性和实用性，逐渐成为了许多开发者训练模型的首选项。作为一名小有经验的咸鱼开发者，我深知在实际项目中高效的进行
AI人工智能中的概率论与统计学原理与Python实战：Python实现概率模型 AI天才研究院 AI实战 AI大模型企业级应用开发实战大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的不断发展，概率论与统计学在人工智能领域的应用越来越广泛。概率论与统计学是人工智能中的基础知识之一，它们在机器学习、深度学习、自然语言处理等领域都有着重要的作用。本文将介绍概率论与统计学的核心概念、算法原理、具体操作步骤以及Python实现方法，并通过具体代码实例进行详细解释。2.核心概念与联系2.1概率论与统计学的区别概率论是一门数学学科，它研究随机事件发生的可能性。
二值逻辑、三值逻辑到多值逻辑的变迁（含示例）搏博人工智能原理算法人工智能机器学习线性代数图像处理数据分析
二值逻辑、三值逻辑到多值逻辑的变迁是一个逻辑体系不断拓展和深化的过程，反映了人们对复杂现象和不确定性问题认识的逐步深入。前文，我们已经探讨过命题逻辑与谓词逻辑，了解了如何用符号语言从浅入深地刻画现实世界。具体可以看我的CSDN文章：人工智能的数学基础之命题逻辑与谓词逻辑（含示例）-CSDN博客人工智能中用到的逻辑可概括地划分为两大类。第一类是经典命题逻辑和一阶谓词逻辑，第二类是泛指除经典逻辑之外的
ollama下载的DeepSeek的模型(Model)文件在哪里？(C盘下) 神秘泣男子常见AI大模型部署与应用 Ollama部署LLM 人工智能 ollama llama 自然语言处理机器学习
目录一、下载大模型（DeepSeek）2.安装Ollama3.检查安装是否成功二、拉取大模型（DeepSeek）1.打开命令行2.下载模型3.测试下载4.等待下载完成三.模型存放路径这个位置！！在人工智能快速发展的今天，大语言模型已经成为许多人探索和使用的热门技术。而Ollama作为一款轻量级的本地大模型运行工具，让我们能够在个人电脑上体验各种强大的AI模型，如DeepSeek系列。不少用户在安装
AIGC从入门到实战：可能消失的职业和新出现的机会 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AIGC从入门到实战：可能消失的职业和新出现的机会作者：禅与计算机程序设计艺术1.背景介绍人工智能生成内容（AIGC）正在迅速改变我们的世界。从文本、代码到图像和音乐，AIGC正在各个领域展示其强大的能力，并开始挑战传统的创意产业。本篇文章将深入探讨AIGC的概念、技术原理、应用场景以及其对未来职业的影响，并为读者提供入门AIGC的实用指南。1.1AIGC的兴起AIGC的兴起得益于近年来人工智能技
Collab-Overcooked:专注于多智能体协作的语言模型基准测试平台数据集
2025-02-27，由北京邮电大学和理想汽车公司联合创建。该平台基于《Overcooked-AI》游戏环境，设计了更具挑战性和实用性的交互任务，目的通过自然语言沟通促进多智能体协作。一、研究背景近年来，基于大型语言模型的智能体系统在复杂任务分解和规划方面展现出巨大潜力，成为自然语言处理领域的研究热点。然而，随着研究的深入，人们发现单个智能体在处理复杂任务时存在局限性，而多智能体系统通过协作能够显
内容创作者必备！Deepseek赋能，让创作更高效小焱创作 AI改变未来人工智能人工智能写作 ai写作深度学习神经网络 ai chatgpt
内容创作者必备！DeepSeek赋能，让创作更高效在当今信息爆炸的时代，内容创作已成为自媒体博主们展现才华、吸引粉丝的重要途径。然而，面对日益增长的竞争压力和不断变化的用户需求，如何高效、高质量地产出内容成为了摆在我们面前的一大挑战。幸运的是，随着人工智能技术的飞速发展，一款名为DeepSeek的智能工具应运而生，为内容创作者提供了强大的赋能。本文将深入探讨DeepSeek的基本概念、深层次解读、
开源模型应用落地-Qwen2-VL-7B-Instruct-vLLM-OpenAI API Client调用开源技术探险家开源大语言模型-新手试炼深度学习 AI编程 AIGC
一、前言学习Qwen2-VL，为我们打开了一扇通往先进人工智能技术的大门。让我们能够深入了解当今最前沿的视觉语言模型的工作原理和强大能力。这不仅拓宽了我们的知识视野，更让我们站在科技发展的潮头，紧跟时代的步伐。Qwen2-VL具有卓越的图像和视频理解能力，以及多语言支持等特性。学习它可以提升我们处理复杂视觉信息的能力，无论是在学术研究中分析图像数据、解读视频内容，还是在实际工作中进行文档处理、解决
ChatGPT、DeepSeek、Grok 三者对比：AI 语言模型的博弈与未来一ge科研小菜菜人工智能人工智能
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着人工智能技术的飞速发展，AI语言模型已经成为人机交互、内容创作、代码生成、智能问答等领域的重要工具。其中，ChatGPT（OpenAI）、DeepSeek（中国团队研发）和Grok（xAI，ElonMusk旗下公司）是当前三大具有代表性的AI语言模型。它们在技术架构、应用场景、用户体验、生态开放性等多个维度各具特色，并针对不同的用户需
Ollama 基本概念 Mr_One_Zhang 学习Ollama ai
Ollama是一个本地化的、支持多种自然语言处理（NLP）任务的机器学习框架，专注于模型加载、推理和生成任务。通过Ollama，用户能够方便地与本地部署的大型预训练模型进行交互。1.模型（Model）在Ollama中，模型是核心组成部分。它们是经过预训练的机器学习模型，能够执行不同的任务，例如文本生成、文本摘要、情感分析、对话生成等。Ollama支持多种流行的预训练模型，常见的模型有：deepse
【go从入门到精通】探秘struct结构体转json为什么需要首字母大写？前网易架构师-高司机 golang从入门到精通 golang json go 结构体首字母大写 golang从入门到精通 go从入门到精通
目录作者简介：问题抛出分析结论作者简介：高科，先后在IBMPlatformComputing从事网格计算，淘米网，网易从事游戏服务器开发，拥有丰富的C++，go等语言开发经验，mysql，mongo，redis等数据库，设计模式和网络库开发经验，对战棋类，回合制，moba类页游，手游有丰富的架构设计和开发经验。并且深耕深度学习和数据集训练，提供商业化的视觉人工智能检测和预警系统（煤矿，工厂，制造业
为什么转行大模型行业？深度解析职业变革与技术红利大模型入门教程大模型学习语言模型人工智能 AI 大模型程序员大模型入门
引言2023年ChatGPT的爆发式发展，标志着AI大模型技术正式进入大众视野。这一技术不仅重塑了人工智能的边界，更催生了全新的职业赛道。从传统算法工程师到互联网从业者，越来越多的人开始将目光投向大模型领域。本文将深入探讨这一现象背后的核心动因，并结合行业现状、技术趋势与职业发展路径，为从业者提供系统性分析。一、行业变革：传统岗位萎缩与大模型崛起传统技术岗位的困境以推荐算法为例，随着移动互联网流量
DeepSeek 与云原生后端：AI 赋能现代应用架构一ge科研小菜菜后端人工智能后端
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言在当今快速发展的互联网时代，云原生（CloudNative）架构已成为后端开发的主流趋势。云原生后端的核心目标是利用云计算的弹性、可扩展性和高可用性，为现代应用提供稳定可靠的后端支持。而人工智能（AI）技术的发展，使得智能化成为云原生后端的新趋势。DeepSeek作为新一代AI技术，在云原生后端的自动化运维、智能资源调度、安全增强和高效数
AI 大模型应用数据中心建设：高性能计算与存储架构 AI智能涌现深度研究 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
AI大模型、数据中心、高性能计算、存储架构、分布式训练、GPU加速、数据管理1.背景介绍近年来，人工智能（AI）技术取得了飞速发展，特别是深度学习模型的突破性进展，催生了一系列基于大规模数据训练的强大AI模型，例如GPT-3、BERT、DALL-E等。这些AI大模型在自然语言处理、计算机视觉、语音识别等领域展现出强大的应用潜力，但也对计算资源和数据存储提出了极高的要求。传统的计算架构难以满足AI大
人工智能直通车系列24【机器学习基础】（机器学习模型评估指标（回归））浪九天人工智能直通车开发语言 python 机器学习深度学习神经网络人工智能
目录机器学习模型评估指标（回归）1.均方误差（MeanSquaredError,MSE）2.均方根误差（RootMeanSquaredError,RMSE）3.平均绝对误差（MeanAbsoluteError,MAE）4.决定系数（CoefficientofDetermination,R2）机器学习模型评估指标（回归）1.均方误差（MeanSquaredError,MSE）详细解释均方误差是回归问
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D

文心大模型：知识增强的NLP模型详解

文心大模型简介

知识增强大模型 文心ERNIE

对话生成模型 文心PLATO

百度语言与知识技术开放平台

更多阅读

你可能感兴趣的:(自然语言处理,人工智能,数据挖掘)

知识增强大模型文心ERNIE

对话生成模型文心PLATO