jinniulema

【论文笔记】BioGPT: generative pre-trained transformer for biomedical text generation and mining

BioGPT: generative pre-trained transformer for biomedical text generation and mining

论文题目：BioGPT: generative pre-trained transformer for biomedical text generation and mining

论文地址：BioGPT: generative pre-trained transformer for biomedical text generation and mining | Briefings in Bioinformatics | Oxford Academic (oup.com)

代码：microsoft/BioGPT (github.com)

期刊：Briefings in Bioinformatics

Received: June 16, 2022. Revised: August 5, 2022. Accepted: August 23, 2022

摘要

预训练的语言模型在生物医学领域引起了越来越多的关注，这是受其在一般自然语言领域的巨大成功的启发。在自然语言领域的预训练语言模型的两个主要分支，即BERT（及其变体）和GPT（及其变体）中，第一个分支已经在生物医学领域得到了广泛的研究，如BioBERT和PubMedBERT。虽然它们在各种鉴别性的下游生物医学任务上取得了巨大的成功，但由于缺乏生成能力，限制了它们的应用范围。文章提出了BioGPT，一个针对特定领域的生成性Transformer语言模型，在大规模生物医学文献上进行了预训练。文章在六个生物医学自然语言处理任务上评估了BioGPT，并证明文章的模型在大多数任务上都优于以前的模型。在BC5CDR、KD-DTI和DDI端到端关系提取任务上分别得到44.98%、38.42%和40.76%的F1得分，在PubMedQA上得到78.2%的准确率，创造了一个新的记录。关于文本生成的案例研究进一步证明了BioGPT在生物医学文献上的优势。

一、简介

主要有两种预训练语言模型：类似BERT的模型和类似GPT的模型

类似BERT的模型：主要用于序列分类和序列标注
类似GPT的模型：主要用于生成式任务，如摘要生成、知识三元组生成

直接将通用领域nlp模型应用到生物领域会导致模型性能下降，因此常常训练一个针对于生物领域的预训练模型，如BioBERT和PubMedBERT。然而，以前的工作主要集中在BERT模型上，它更适合于理解任务，而不是生成任务。相比之下，GPT模型在生成任务上显示了它们的能力，但在直接应用于生物医学领域时，表现出较差的性能。

BioGPT遵循Transformer语言模型主干，并在15M PubMed摘要上从头开始预训练。

作者将BioGPT应用于六个生物医学NLP任务：BC5CDR、KD-DTI和DDI的端到端关系抽取，在PubMedQA上的问答，在HoC上的文档分类，以及文本生成。

为了适应下游任务，作者精心设计并分析了目标序列格式和提示，以更好地建模任务。

二、相关工作

在生物领域的预训练模型

BioBERT
BLUE benchmark【Transfer learning in biomedical natural language processing: An evaluation of BERT and ELMo on ten benchmarking datasets】论文中模型，在BERT的基础上再对PubMed文本和MIMIC-III的临床笔记进行预训练。
SciBERT【SciBERT: A pretrained language model for scientific text】没有采用在BERT的基础上进一步预训练，而是在大型科学文献（主要是生物和计算机文献）上从头训练。
PubMedBERT【Domain-specific language model pretraining for biomedical natural language processing】直接在14M PubMed 摘要上预训练，证明了在单词表更适合生物医学领域的特定领域数据上从头开始进行预训练是一个更好的策略。

所有这些工作都表明，与原始的BERT相比，在大量生物医学文献语言处理任务上有了改进，而没有一个是用于生物医学生成任务。

下游任务

6个下游任务都可以被表述为文本生成/挖掘任务。

Relation extraction 关系抽取

经典的基于管道的方法[23,33,34]将任务分解为几个独立的子任务，这些子任务需要额外的中间注释和信息，这些信息可能会遭受缺乏中间注释数据和错误积累的影响。

联合提取方法的目的是从文本中联合提取实体和它们之间的关系

序列标注方法通过对文本中的单词标注不同的标签来解决这一任务，以标注出所有提到的实体，然后通过分类器进行它们之间的关系分类[35-38]

表格填充方法将任务制定为由自身的笛卡尔积构成的表格，并预测标注对之间的关系[39-41]

这些方法可能会受到以前的标签过程和费力的中间标注（即命名实体识别）造成的错误积累的影响。

但是，许多联合抽取方法仍然需要额外的实体信息，本工作中，作者专注于端到端的关系抽取，将任务制定为文本生成任务，只将文本作为输入，并以端到端的方式生成关系三元组，而没有额外的中间标注。

Question answering 问答

典型方法是预测原文的一个片段作为答案，或者为较简单的任务预测一个标签（例如，是或不是），并预先定义分类答案。

Document classification 文档分类

文件分类是将文件归入预定的类别（单标签或多标签）

三、预训练方法

从数据集、词表和模型三个角度描述BioGPT

Dataset

论文【Domain-specific language model pretraining for biomedical natural language processing】中指出对于特定领域，在领域数据上从零训练至关重要。作者只考虑了领域内数据，具体而言是PubMed网站上的2021年前的数据。

Vocabulary

论文【Domain-specific language model pretraining for biomedical natural language processing】也指出，域内单词表是至关重要的，作者在收集的域内语料库中学习单词表。

Model

GPT-2作为backbone

实际上，作者采用 $GPT\text{-}2_{medium}$ 作为主干网络，它有24层，1024个隐藏层大小和16个注意力头，总共有355M个参数，而BioGPT有347M个参数（差异只来自于不同的单词表量所导致的不同的嵌入大小和输出投影大小

Training criteria

让 $D=\{x_{i}\}_{i}$ 代表序列的集合，序列 $x_{i}$ 是由 $n_{i}$ 个tokens构成的，即 $x_{i}=(s_1,s_2,...s_{n_{i}})$ ，训练目标就是使得负样本对数似然函数最小。
$\mathrm{min~}-\frac1{|\mathcal{D}|}\sum_{i=1}^{|\mathcal{D}|}\sum_{j=1}^{n_i}\log P(s_j|s_{j-1},s_{j-2},\cdots,s_1).$

四、微调方法

本节内容介绍如何将预训练的BioGPT适应于下游任务：端到端关系抽取，问答以及文档分类。这些任务的输入都是序列，但是它们有着不同的输出格式。为了将BioGPT用于这些任务，需要将标签转换为序列。

作者将标签转换为自然语言的序列，而不是使用其他工作中探讨的特殊标注的结构化格式

端到端关系抽取

找到文本中的所有三元组<头实体，尾实体，关系>，例子包括提取药物-靶点相互作用、化学-疾病-关系和药物-药物相互作用。

作者为三元组设计了三种简单自然语言序列样式：

‘subject verb object’ (svo) ，分别对应头实体，关系，尾实体
‘subject is the rel.noun of object’ (is-of) ，rel.noun 是关系的名词形式
‘the relation between subject and object is rel.noun’（rel-is）

如果一个输入文件有多个关系三元组，根据它们在文件中出现的顺序进行排序，并使用分号将它们串联起来。

自然语言处理形式的句子可以用正则表达式转换回三元组，用户还可以根据任务自定义格式。

问答

任务描述:给出一个问题，一个参考背景和一个答案，目标是确定是否可以从参考背景中推理出问题的答案。标签属于是、不是或可能的范畴。

具体格式：

source: question: question text. context: context text. answer: answer text.
target: the answer to the question given the context is yes.

文档分类

给定一个文档文本，目标是对该文档的类型进行分类。

目标序列使用‘the type of this document is label’格式。

基于提示的微调

GPT-3使用**硬提示（手动设计的离散语言短语）**来为不同的任务生成。虽然硬提示可以达到令人满意的性能，但设计特定任务的提示是很费力的，而且人们发现，不同的提示会导致不同的性能。

作者采用软提示：利用连续嵌入（虚拟token）来引导预训练语言模型，直接在文本前附加几个虚拟token作为提示。这种连续嵌入是随机初始化的，并在下游任务上进行端到端的学习，以达到特定任务的效果。软提示没有直接加在source input的前面，而是在source和target之间。

问题：图片左部training部分为什么输入的序列尾部也有target？

五、实验部分

在四个任务上的六个数据集上进行了评估：

end-to-end relation extraction：BC5CDR、KD-DTI、DDI
question answering： PubMedQA
document classificaiton： HOC
text generation： self-created dataset

$GPT\text{-}2_{medium}$ 作为模型骨干backbone

使用BPE来学习token并构建词表，而不是使用 $GPT\text{-}2$ 的词表

8个NVIDIA V100 GPU上预训练

在单个NVIDIA V100 GPU上进行微调实验

在推理过程中，对于文本生成任务采用==beam search== 策略，beam=5，而对于其他任务采用==greedy search==策略。

端到端关系抽取

模型将文本作为输入并直接生成三元组，主要与REBEL(一种基于seq2seq模型的端到端三元组提取方法)作比较。

BC5CDR

BC5CDR：chemical-disease-relation extraction

$REBEL_{pt}$ 是对REBEL模型的增强，在额外的从维基百科创建的大型关系三元组数据集上进行了预训练。

seq2rel也是一种端到端关系抽取方法，并且是在训练和验证机上训练的，而在训练和验证集上训练的BioGPT记为 $BioGPT_{pt}$

GLRE是一种采用pipeline方式的关系提取模型，该方法需要NER信息作为中间标注。(gt+pred)代表训练时需要的实体信息是真实的，而在推理时使用开源的NER工具生成；而(pred+pred)代表训练和推理时都采用开源的NER工具生成。

有两个发现

基于pipeline的方法GLRE在使用开源工具标记的NER而不是ground truth的NER时明显下降，这很符合实际情况
与REBEL相比，BioGPT有很大的提高，提高了8.28%

KD-DTI

KD-DTI: drug-target-interaction

DDI

DDI：drug-drug-interaction

问答

PubMedQA，任务目标是给出yes/no/maybe

只评估了分类的准确性

文档分类

HoC(Hallmarks of Cancers语料库)

文本生成

作者还对预训练的BioGPT在生物医学领域的文本生成能力，以及一般领域的GPT-2在生物医学领域的表现如何感到好奇。

作者从KD-DTI测试集中提取三元组中的所有实体，然后对于每个药物/目标名称，将其作为前缀提供给语言模型，让模型以其为条件生成文本。然后，调查所生成的文本是否有意义和流畅。

给予相对常见的名称作为输入，GPT-2可以生成与该词和生物医学有关的有意义的和流畅的文本，而BioGPT则生成更具体和专业的描述。
当给出一些不常见的名字时，GPT2不能生成有意义的描述，而BioGPT仍然能生成具体的描述。
给定非常不常见或者特定领域名称，GPT-2不能产生任何信息性的文本，BioGPT仍能生成相关度高的描述

另外也输入了一些感兴趣的关键词来生成文本，并对GPT-2和BioGPT做对比，BioGPT也是表现更好。

总的来说，在各种生物医学NLP任务中，对域内生物医学文献从头开始进行预训练的BioGPT比一般域的GPT-2表现更好，并且在各自的任务中比以前的大多数方法表现更好，在六个任务中的四个任务中达到最先进水平。

六、消融实验

对==标签的提示设计和目标序列格式==进行了消融研究。

Target sequence format目标序列格式

之前的采用结构化表示

、、是三种特殊标记，分别代表头实体、尾实体和关系的开始。在使用编码器-解码器框架时，两个分离的模块被用来处理输入（由编码器）和生成答案（由解码器）。这两个模块可以被训练来适应两种不同类型的序列（自然语言序列和结构化序列）。

而在BioGPT中使用了统一的模块来编码上下文并生成答案。从直觉上讲，保持输入和答案之间的格式一致性会更好。

通过比较，自然语言的格式比结构化格式更好。所有格式中，rel-is格式在F1方面表现最好，提供了一个语义上更流畅和清晰的描述。

Prompt design提示设计

在KD-DTI提取任务上进行了人工设计的硬提示和连续嵌入的软提示的对比实验。表现最好的是长度为13个虚拟token的连续嵌入。

不同的人工设计的硬提示导致不同的性能，更有指导意义和信息丰富的提示会获得更好的性能
连续嵌入的软提示比硬提示更好
软提示的性能与长度大致无关

总结

作者提出了BioGPT，采用GPT-2作为backbone，在15M PubMed语料库上进行了从头开始的预训练。

作者仔细设计并对比了用于下游任务的提示和目标序列格式。

作者将BioGPT用于端到端关系抽取任务、问答任务、文档分类任务和文本生成任务，总体而言，BioGPT性能更优。

相关论文

[1906.05474] Transfer Learning in Biomedical Natural Language Processing: An Evaluation of BERT and ELMo on Ten Benchmarking Datasets (arxiv.org)
Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing | ACM Transactions on Computing for Healthcare
[1903.10676] SciBERT: A Pretrained Language Model for Scientific Text (arxiv.org)
[2010.13415v1] TPLinker: Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking (arxiv.org)
GraphRel: Modeling Text as Relational Graphs for Joint Entity and Relation Extraction - ACL Anthology
ngle-stage Joint Extraction of Entities and Relations Through Token Pair Linking (arxiv.org)](https://arxiv.org/abs/2010.13415v1)
GraphRel: Modeling Text as Relational Graphs for Joint Entity and Relation Extraction - ACL Anthology

不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
《当人工智能遇上广域网：跨越地理距离的通信变革》程序猿阿伟人工智能
在数字化时代，广域网作为连接全球信息的纽带，让数据能够在不同地区的网络之间流动。然而，地理距离给广域网数据传输带来诸多挑战，如高延迟、低带宽、信号衰减和不稳定等问题。幸运的是，飞速发展的人工智能技术为解决这些难题提供了新的方向，开启了广域网传输的新篇章。广域网传输面临的地理挑战广域网覆盖范围极为广泛，可连接不同城市、国家甚至跨越洲际，这使得数据传输要跨越漫长的地理距离。以跨国公司的广域网为例，其总
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
NLP高频面试题（十）——目前常见的几种大模型架构是啥样的 Chaos_Wang_ NLP常见面试题自然语言处理架构人工智能
深入浅出：目前常见的几种大模型架构解析随着Transformer模型的提出与发展，语言大模型迅速崛起，已经成为人工智能领域最为关注的热点之一。本文将为大家详细解析几种目前常见的大模型架构，帮助读者理解其核心差异及适用场景。1.什么是LLM（大语言模型）？LLM通常指参数量巨大、能够捕捉丰富语义信息的Transformer模型，它们通过海量的文本数据训练而成，能够实现高度逼真的文本生成、复杂的语言理
深度学习 | pytorch + torchvision + python 版本对应及环境安装 zfgfdgbhs 深度学习 python pytorch
目录一、版本对应二、安装命令（pip）1.版本（1）v2.5.1~v2.0.0（2）v1.13.1~v1.11.0（3）v1.10.1~v1.7.02.安装全过程（1）选择版本（2）安装结果参考文章一、版本对应下表来自pytorch的github官方文档：pytorch/vision:Datasets,TransformsandModelsspecifictoComputerVisionpytor
机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
《今日AI-人工智能-编程日报》-源自2025年3月20日小亦编辑部每日AI-人工智能-编程日报人工智能大数据
一、AI行业动态英伟达新一代AI芯片Rubin发布计划英伟达宣布其新一代AI芯片Rubin将于2026年下半年推出，下下一代AI芯片架构命名为Feynman，计划于2028年登场。同时，英伟达还推出了RTXPRO6000系列Blackwell专业卡，拥有24064核心、96GB显存和最高600W功耗。OpenAI星际之门数据中心建设进展OpenAI的首个数据中心“星际之门”预计于2026年中在德克
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
AIOps：解决企业IT挑战的智能利器雅菲奥朗认证培训 AIOps SRE 可观测性
前言：在当今数字化的时代，企业IT基础设施和应用程序规模不断扩大，面临着日益复杂的挑战。在这种情况下，AIOps人工智能运维成为解决企业IT运维困境的智能利器。AIOps与可观测性密切相关，可观测性是实现AIOps的基础。通过收集、监视和理解系统数据，AIOps能够自动化运维任务、实时监控系统状态、预测潜在问题，从而提高效率和稳定性。AIOps尤其适用于IT运维部门，这是一个迫切需要此类技术的群体
使用AIOps进行更好的事件管理茵赛飞3D CAD数据转换软件 pagerduty devops 人工智能运维
DevOps为科技界带来了更加协作和高效的工作流程。随着AIOps的集成，自动化更进一步，使用人工智能为团队提供更快的根本原因分析和算法降噪。主要从采用AIOps中受益的主要领域之一是事件管理。AIOps可以帮助DevOps团队自动化工作流程，以实现更智能、更高效的事件管理，从而腾出时间让IT运营团队成员专注于创新以改善用户体验。在本文中，我们将了解AIOps如何从检测和识别到响应改进事件管理，以
AI大模型编程能力对比：Deepseek&Claude&Gemini 黑夜路人（heiyeluren） AI人工智能人工智能 ai AIGC 语言模型
在当今快速发展的技术领域，人工智能（AI）模型在编程和数据处理方面的应用越来越广泛。不同的AI模型因其独特的设计理念和技术优势，适用于不同的编程任务和场景。本文将对三种主流的AI模型——DeepSeekv3、GeminiFlash2.0和Claude3.5Sonnet的编程能力进行详细对比，帮助读者根据具体需求选择最合适的工具。同时对DeepSeekv3、GeminiFlash2.0和Claude
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
Linux部署模型报错OSError: Error no file named pytorch_model.bin, tf_model.h5, model.ckpt.index or flax_mod dkgee linux pytorch 运维
报错内容：OSError:Errornofilenamedpytorch_model.bin,tf_model.h5,model.ckpt.indexorflax_model.msgpackfoundindirectory主要原因是transformer版本不对，需要升级pipinstall--upgradehuggingface_hubpipinstalltransformers[torch]其
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
国产模型能否挑战 GPT-4？一文拆解 DeepSeek-V3 架构与实战应用 AI筑梦师人工智能学习框架架构深度学习 python agi 人工智能 tensorflow
✳️一、引言✅1.1DeepSeek-V3发布背景与定位随着大模型技术的快速演进，从GPT-3到GPT-4，全球在通用人工智能方向取得了长足进展。但与此同时，开源社区始终缺乏一个真正兼顾性能、效率、中文能力和实用性的高质量大模型。DeepSeek-V3的推出正是在这个背景下的一次关键突破。DeepSeek-V3是由中国团队DeepSeek开发的第三代大语言模型，它具备以下几个核心特性：开源可商用：
Agent、RAG、LangChain的概念及作用北极冰雨大模型人工智能
Agent：概念：在人工智能中，Agent通常指的是能够执行任务或做出决策的实体，可以是简单的程序，也可以是复杂的系统，如自动化客服助手、推荐系统等，甚至可以是软件代理、机器人或虚拟助手等各种形式。作用：它能利用内置的大语言模型来做出规划，决定执行哪些步骤，以及每个步骤需要调用哪些工具（如RAG），之后调用相应的工具，最终完成任务。例如，在客服问答场景中，Agent可以根据用户的问题，规划出需要查
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
DeepSeek多语言AI高效应用实践智能计算研究中心其他
内容概要在人工智能技术快速迭代的背景下，DeepSeek系列模型凭借混合专家架构（MoE）与670亿参数规模，在多语言处理、视觉语言理解及复杂任务生成领域实现了突破性进展。本文系统性拆解其技术架构设计逻辑，聚焦论文写作、代码生成、SEO关键词拓展三大核心场景，分析模型在高生成质量、低使用成本维度的差异化优势。技术维度DeepSeekProver传统单模态模型多语言支持97种语言动态切换单一语种优化
AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
英伟达常用GPU参数速查表，含B300..... Ai17316391579 深度学习服务器人工智能机器学习服务器电脑计算机视觉深度学习神经网络
英伟达常用GPU参数速查表，收藏备用：含RTX5090、RTX4090D、L40、L20、A100、A800、H100、H800、H20、H200、B200、B300、GB300.....专注于高性能计算人工智能细分领域kyfwq001#5090##4090##英伟达“新核弹”B200发布##英伟达##英伟达B300##GPU##服务器##显卡##英伟达H800/A800芯片将禁售#
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出

【论文笔记】BioGPT: generative pre-trained transformer for biomedical text generation and mining

BioGPT: generative pre-trained transformer for biomedical text generation and mining

摘要

一、简介

二、相关工作

在生物领域的预训练模型

下游任务

Relation extraction 关系抽取

Question answering 问答

Document classification 文档分类

三、预训练方法

Dataset

Vocabulary

Model

Training criteria

四、微调方法

端到端关系抽取

问答

文档分类

基于提示的微调

五、实验部分

端到端关系抽取

BC5CDR

KD-DTI

DDI

问答

文档分类

文本生成

六、消融实验

Target sequence format目标序列格式

Prompt design提示设计

总结

相关论文

你可能感兴趣的:(nlp,transformer,深度学习,人工智能)