PKUMOD

论文导读 | 使用预训练语言模型作为知识库的可能性

引言

近年来，预训练语言模型在NLP领域展现出了强大的能力而被广泛采用，成为了解决NLP问题的“银弹”。借助大规模数据集、以Transformer为代表的深度神经网络模型、以及设计好的自监督预训练（pre-train）任务，预训练语言模型展现出了强大的泛化能力，经过微调（fine-tune）后在各个下游任务中得到了优秀的成果，其强大性能让人对其学习到的内容产生了兴趣：预训练语言模型是否真的在预训练过程中学习到了“知识”呢？

最近也有工作提出了prompt范式，通过构建的prompt语句，将特定的下游任务转换为预训练语言模型的预训练任务（如Mask Language Model）从而得到结果，这种形式有点类似于从知识库中使用一定的查询语句找出对应的答案。因此，有研究者开始探索是否能将预训练语言模型作为“知识库”使用。本文针对自然语言处理中的预训练语言模型如何通过预训练建模“知识”、推导知识，以及预训练语言模型是否能作为知识库这三方面进行了简单的论文导读。

预训练语言模型简述

预训练语言模型的其实可以追溯到静态词向量的研究。从最初的One-Hot向量、词袋模型、tf-idf到后来的Word2Vec[1]、FastText[2,3]等方法，研究者通过建模token的统计概率信息，或者上下文的统计概率信息来对语言进行统计学建模。

例如，上图为word2vec提出的两种经典方法CBOW与Skip-gram，它们分别通过“使用周围的词来预测中心词”以及“使用中心词来预测周围的词”这两种方法，使用滑动窗口的方法对窗口大小长度的序列进行上下文建模，最终在训练过程中通过梯度下降的方法优化句子中每个词的词嵌入（embedding）。相比于最初的One-Hot向量表示、词袋模型、tf-idf等传统统计学方法，word2vec等静态词向量方法能够更好地考虑到词的上下文语义信息，同时可以减少传统方法遇到的维度灾难问题。但是，这种静态的词嵌入表示方法也有不少的缺点，最典型的问题是词与词嵌入是一对一的表示，无法正确表示在不同上下文中出现的一词多义信息，即便到了后来研究者提出了一些效果更好的模型（Glove[4]）也没能解决这种静态词向量的固有问题。

为了解决上述静态词嵌入表示的问题，研究者提出了基于语言模型嵌入（Embedding from LanguageModels, ELMo）的方法[5]，使用长短时记忆神经网络（LSTM）分别对文本的正向和反向进行语言模型建模：

通过语言模型任务进行预训练后，迁移到其它NLP任务中进行微调，在多个benchmark数据集上都得到了显著的提升：

同时，作者也通过实验对ELMo的消岐能力进行了分析，发现ELMo能够有效地区分多义词。自此以ELMo为代表的各种预训练语言模型开始不断出现，并不断提升各个NLP子任务的效果。

2017年Google提出了用于机器翻译任务的Transformer[6]，Transformer基于多头自注意力机制实现，解决了之前LSTM类型模型无法很好处理长距依赖的问题并且更易于进行并行运算，在预训练语言模型领域也展现出了强大的能力，之后的预训练语言模型代表作BERT[7]、GPT[8]均是基于Transformer模型构建的。

Google于2018提出的BERT是预训练语言模型的经典之作。BERT由多层Transformer Encoder模块堆叠构成，作者为其设置了两种预训练任务：Masked Language Model（MLM）与Next Sentence Prediction（NSP），采用两阶段预训练-微调范式，如下图所示：

其中，MLM来自于完形填空任务（Cloze），将一句完整的话中间的某些token抹去，让模型通过上下文来还原该token；NSP为句子对匹配任务，将两个句子拼接后传入模型中，让模型判断这两个句子是否在原语料中为连续关系。得益于这两个预训练任务，BERT在token层面与sentence层面都能通过大规模的无标注语料进行自监督训练，从而获得优秀的预训练模型参数，在迁移至下游NLP任务微调时，可以取得非常好的效果。

在BERT的基础上，研究者们对预训练语言模型的可能性进行了进一步的探索：有使用更大的预训练数据集的、有定义更合理的预训练任务的、以及还有各种尝试引入外部知识强化预训练语言模型的（如K-BERT[9]、thu-ERNIE[10]等）、还有引入特定语种的语言特性的（如baidu-ERNIE[11]、BERTwwm[12]等）、以及最近出现的通过提示（prompt）指导预训练语言模型从而提升效果减少训练数据的工作。邱锡鹏老师等对预训练语言模型进行了详尽的综述[13]，下表展示了部分典型的预训练语言模型的模型架构、预训练任务、语料、参数量等信息：

THUNLP实验室也对预训练模型的过去、现在及将来进行了总结与展望[14]，下图展示了部分典型预训练语言模型的“族谱”：

在预训练语言模型的训练过程中，模型通过自监督学习任务在非常大规模的语料库上进行了训练，除了学习到了语言模型之外，是否也能通过学习捕获到一定的规律，从而掌握文本中所蕴涵的事实类知识呢？如果预训练语言模型能掌握一些知识，应该如何从模型中把需要的知识查询出来呢？研究者们对此进行了探索性的研究。

LanguageModels as Knowledge Bases?

此工作[15]由Facebook完成，发表在EMNLP 2019。作者从MLM预训练任务出发，认为以BERT为代表的预训练语言模型可能学习到了事实类的知识（以主谓宾三元组形式存在）。例如，给定一句话“但丁于1265年出生在[MASK]”，通过MLM可以让模型从隐式表示中找出被mask掉的内容是什么。如果MLM模型成功将被隐去的内容还原，就相当于预训练语言模型包含了这条知识(但丁,出生于,佛罗伦萨)。相比之下，在传统的知识图谱上查询此知识需要先将原文本进行信息抽取构建三元组存储在知识库中，然后再构建查询，这些步骤都需要非常复杂的NLP pipeline，可能会产生错误积累从而影响效果。由此，作者设定了探针测试实验，探索预训练语言模型作为知识库的能力和潜力。下图为作者设定的两种查询事实类知识的方式（通过知识库查询以及通过预训练语言模型预测）：

LAMAProbe 数据集构造

作者将设定的探针测试命名为LAMA(LAnguage Model Analysis)Probe，用来检测语言模型中包含了多少的事实类与常识类的知识。作者收集了GoogleRE等知识源，通过构造模板将知识三元组构造成模型能接收的完形填空的形式。例如，GoogleRE中包含“place of birth”关系的数据，作者定义了“[S] was born in [O]”这样的模板用于填充。同理，对于常识类的知识，作者也定义了类似的模板，设定包含常识类三元组的数据将宾语mask掉，例如对于“CapableOf”（有...能力）的常识类数据，作者构造为“[S] can [O]”。下表展示了部分作者构造的数据形式：

通过上述的操作，并对数据进行筛选（排除掉不符合MLM范式的多token类型的数据等）后整合得到了最终的LAMA探针测试数据集。

实验

为了评估预训练语言模型在LAMA上的效果，作者设定了几个baseline用于对比：

1. Freq：直接根据主语和关系对在测试集中找出可能匹配上的宾语，并按照宾语的出现频次进行排名。

2. RE：作者引入了前人基于LSTM-Att构建的，在维基数据集上训练的关系抽取模型。此模型也包含两种情况，在得到宾语时进行实体链指的RE模型记为REo，直接进行字面值匹配的RE模型记为REn。

3. DrQA：一个流行的开放域问答系统。

下表展示了使用不同模型（包括ELMo、TransformerXL、BERT以及设定的baseline模型）在LAMA探针实验中得到的结果：

由表中的LM大列可以看到，预训练语言模型确实能重构部分的事实类与常识类知识。可以看到最后一列（Bl，即BERT-large）的效果相较于其它LM-based的方法普遍较好，说明BERT-large相比于ELMo、TransformerXL等预训练语言模型包含了更多的事实类与常识类的知识，作者也推测了这可能与BERT-large预训练的数据量大也有关系。当然，这样的无监督MLM得到的结果还是比不上有监督的特定方法，尤其在SQuAD上与DrQA baseline的差距还相当大。

小结

此工作主要是探索性质的，作者也没有对于预训练语言模型在预训练阶段捕获知识的能力进行详尽的测试（可以通过在LAMA数据集上预训练或continuous learning实现），而是着重探究了已经训练好的预训练语言模型中包含的事实类或常识类知识，并且从文章结构上看作者更加偏向于如何构造和分析LAMA这样的探针测试。从结果上看，虽然指标并不高，但可以说明预训练语言模型是有一定从大规模语料中提炼这些知识的能力的。但此文的限制也相当多，例如需要人工精心构建的模板、提前将不合适的类型或数据筛去等。

How Much Knowledge Can You Pack Into the Parameters of a Language Model?

此工作[16]由Google提出，发表于EMNLP 2020。此文使用了Google自家的T5预训练语言模型[17]作为基础模型。T5模型将所有NLP任务都归结转化为了text-to-text的任务，包括相似度等任务也是以seq2seq的方式生成的结果。而传统的MLM任务在T5中以类似Span Boundary Detection的形式存在，如下图所示：

在一般的问答任务中，通常会提供一个问题与一段包含问题答案的文档，通过模型在文档中找到问题的答案。而此工作基于T5 text-to-text的范式，以“闭卷”（closed-book）的形式在没有对应答案的上下文的情况下直接向模型输入问题以获取对应的答案。这样的问题设定可以说是在考验预训练语言模型在fine-tune的过程中能学到什么，以及考验模型能存储住多少知识。

实验

此文直接使用了QA任务中常用的几个数据集：NQ、WebQuestion和TriviaQA。在这几个数据上，作者使用T5模型进行text-to-text的微调，将问题做为输入并将字面量答案作为预测目标。进行fine-tune后，在测试集上进行评估，得到结果如下表所示：

可以看到，T5通过此方法在“闭卷”问答中可以得到和“开卷”问答模型相当的结果，这说明通过fine-tune是可以将“知识”输入预训练语言模型并存储的。

小结

此文的结论与LAMA类似，都是通过MLM或者text-to-text QA这些具体的任务探索了预训练语言模型存储知识的能力。而此文在QA任务数据集上能取得与“开卷”模型相当的SOTA效果，更是证明了将预训练语言模型作为知识库的潜力。这样端到端通过预训练语言模型在QA任务数据集上微调的形式可以避免复杂的QA pipeline设计，其效果也许还有进一步提升的空间。

oLMpics- On what Language Model Pre-training Captures

此文[18]通过设定多种探针任务，针对“预训练语言模型究竟能捕获到什么信息”这一设问进行了验证。作者为了验证不同的预训练语言模型在不同的“知识”形式、不同“知识推理”上下文情况下的能力，提出了如下几个任务：

• Always-Never：测定模型对从“绝不会”（Never）到“总是会”（Always）这样的频次或常识情况下的回答能力；

• Age Comparison：测定模型对年龄的数字比较大小的能力；

• Object Comparison：测定模型对尺寸等数字比较大小的能力；

• Antonym Negation：测定模型对反义词的表达能力；

• Property Conjunction：测定模型对概念中属性的结合的能力；

• Taxonomy Conjunction：测定模型感知不同概念的共性、共同类别的能力；

• EncyclopedicComposition：测定模型回答知识库问答的能力；

• Multi-Hop Composition：测试模型进行多步推理（multi-hop reasoning）的能力。

所有的探测任务都以选择题的形式输入模型，如上表所示，Example列中列出了各个任务的具体示例，Human列中列出了人类在测评对应任务中的表现，Setup列中的字段表示该任务会以怎样的形式进行设定。此文使用了两种设定：MC-MLM - 多选完形填空，适用于答案集较少的情况；MC-QA - 多选问答题，适用于答案和问题差别较大且更为复杂的情况。

实验

此文对BERT、BERT-wwm、RoBERTa三种模型的base或者large版本进行了测评，针对前面提到的8种任务分别进行了fine-tuning和定量计算。最终，作者将不同模型、不同任务的完成情况总结为一张表格：

表格中的“勾”表示该模型在对应任务中有着较高的准确率，“半勾”表示有着一定的准确率，未打钩则表示该模型在对应任务中无法得到明显的效果。

小结

从结果上看，预训练语言模型是可以在部分上述设定的任务中取得一定效果的。较为突出的是RoBERTa Large模型，体现出了较强的能力。但是，在Always-Never任务、百科类推理任务和多跳推理任务中，没有任何一个模型能得到有效的效果。总体上看，在作者的任务设定下，预训练语言模型在知识推理中得到的结果差强人意，其效果与模型和任务组织形式有着明显的相关性。也许在更大规模的预训练语言模型，或更符合预训练语言模型的推理任务设定下，可以让效果更加明显。

Knowledgeableor Educated Guess? Revisiting Language Models as Knowledge Bases

此文[19]是软件所韩先培老师组发表在ACL 2021的工作。作者对设定的“将预训练语言模型作为知识库使用”这一前提进行了探索性实验，主要围绕着prompt范式下从预训练语言模型中获取知识的性能与效果来源进行了实验与分析。

作者根据现有工作，将通过提示语从预训练语言模型中获取知识的方式分为了三大类：

1. 基于提示语的知识抽取，通过如“Jobs was born in [MASK]”这样的MLM任务直接获取知识；

2. 基于实例的类比知识抽取，通过形如“Obama was born in Hawaii. [SEP]Jobs was born in [MASK]”这样的类比提示语来提升获取知识的效果；

3. 基于上下文的知识抽取，构建形如“Jobs lives in California.[SEP] Jobs was born in [MASK]”的提示语，通过上下文来引导知识的获取。

现有工作通过这些提示语的组织形式可以得到良好的效果，作者对它们良好性能的来源提出了质疑，并设计实验分别对这几种通过提示语获取预训练语言模型知识的方式进行了分析。

实验

如上文所述，作者针对不同的提示语构建方式分别定义了几组实验。

1. 基于提示语的知识抽取

作者使用LAMA与WIKI-UNI两个分布不同的数据集，使用相同的提示语通过MLM进行知识获取，如下图所示：

在图(a)中，可以看到LAMA与WIKI-UNI的答案分布完全不一致，但在图(b)中，作者使用相同的提示语就会得到相似的答案分布，这说明了这种基于MLM的知识抽取形式的效果更加依赖于提示语的设计。后续作者还进行了定量的计算，也支持这个结论。

2. 基于示例的类比知识抽取

前人工作发现了在构建提示语时，可以通过一些示例来引导MLM的填充，并提升模型的性能。作者对此在LAMA数据集上构建了测试实验，将示例的实体进行同类别替换。

实验结果显示，在加入示例后，整体知识抽取的效果得到了提升，但如果是将已有的实例的实体替换为同样类别的实体，并不能给模型带来更好的效果。因此，可以得出结论：通过向提示语中加入示例，可以提升模型预测类型的能力，但不能提升模型得到具体的答案实体的效果。

3. 基于上下文的知识抽取

如前面的例子所示：“Jobs lives in California. [SEP]Jobs was born in [MASK]”这样的提示语实际上泄露了答案：California。作者发现这样的现象后，在LAMA上构建实验，将上下文中的答案也进行遮掩，以排除潜在的答案泄露问题。

实验结果如上表所示，在遮罩掉上下文的答案之后，仍然可以获得一定的效果提升。作者提出猜想，可能是把上下文中的答案遮罩之后，模型仍然可以通过MLM的形式重建上下文中的答案，从而造成隐式的答案泄露。为了证明这个猜想，作者将数据集根据是否可以根据上下文重建遮罩答案划分成了两组，如下表所示：

可以发现，在上下文无法重建答案时，根据上下文构建提示语并不能带来很大的效果提升；而如果上下文可以重建答案，则无论是否将泄露的答案遮罩掉，这样的上下文提示语都能带来较大的效果提升。这样的结果也说明了基于上下文构建提示语的知识抽取的优良效果，很大程度上是依赖于显式或者隐式的答案泄露。

根据上面的实验，作者也得出了总体的结论：

基于提示语的知识抽取方法的效果会受到提示语偏差的影响；基于示例的类比知识抽取主要是依赖示例中对应实体的类型的指导提升效果；基于上下文的知识抽取的效果提升主要是依赖上下文中可能存在的答案泄露。

小结

作者通过探索性实验发现，与预训练语言模型知识获取准确性相关的主要因素是提示语的构建，包括提示语偏差、类别指导和答案泄露几种非预期的行为导致了预训练语言模型作为知识库的性能提升，因此在目前的情况下，还不能claim“预训练语言模型可以替代知识库”这一结论。

总结

在本文介绍的这几篇论文中，可以发现现在研究者们仍然是将预训练语言模型作为黑盒进行研究的，主要通过构建不同的探针任务来经验性的判定预训练语言模型学习知识、获取知识的手段与效果。如果后续能对预训练语言模型的机制进行更具体的探讨，以及对fine-tune或prompt等获取知识的方法进行更精细的建模，可能会得到更加可信、更加无偏的结果，这样才能进一步研究或探讨将预训练语言模型代替知识库的可能性。

参考文献

[1] Efficient Estimation ofWord Representations in Vector Space, ICLR 2013

[2] Bag of Tricks for Efficient Text Classification, EACL 2017
[3] Enriching Word Vectors with Subword Information, TACL 2017
[4] GloVe: Global Vectors for Word Representation, EMNLP 2014
[5] Deep Contextualized Word Representations, NAACL 2018
[6] Attention Is All You Need, NIPS 2017
[7] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,NAACL 2019
[8] Improving Language Understanding by Generative Pre-Training, 2018
[9] K-BERT: Enabling Language Representation with Knowledge Graph, AAAI 2020
[10] ERNIE: Enhanced Language Representation with Informative Entities, ACL2019
[11] Ernie: Enhanced representation through knowledge integration, 2019
[12] Pre-Training with Whole Word Masking for Chinese BERT, 2019
[13] Pre-trained Models for Natural Language Processing: A Survey, ScienceChina Technological Sciences 2020
[14] Pre-Trained Models: Past, Present and Future, 2021
[15] Language Models as Knowledge Bases?, EMNLP 2019
[16] How Much Knowledge Can You Pack Into the Parameters of a Language Model?,EMNLP 2020
[17] Exploring the Limits of Transfer Learning with a Unified Text-to-TextTransformer, JMLR 2020
[18] oLMpics - On what Language Model Pre-training Captures, ACL 2020
[19] Knowledgeable or Educated Guess? Revisiting Language Models as KnowledgeBases, ACL 2021

Python领域制造业的Python应用 Python编程之道 Python编程之道 python 开发语言 ai
Python在制造业中的应用：从自动化到智能制造关键词：Python、制造业、工业自动化、数据分析、机器学习、物联网、智能制造摘要：本文深入探讨Python编程语言在制造业中的广泛应用。从基础的自动化脚本到复杂的智能制造系统，Python凭借其丰富的库生态系统和易用性，正在重塑现代制造业。我们将分析Python在制造业中的核心应用场景，包括设备监控、质量控制、预测性维护和供应链优化等，并通过实际案
【机器学习】探索未来科技的前沿：人工智能、机器学习与大模型 AIGC零基础入门小白 AI大模型大模型教程人工智能机器学习科技 AI大模型 AIGC AI教程大模型教程
文章目录引言一、人工智能：从概念到现实1.1人工智能的定义1.2人工智能的发展历史1.3人工智能的分类1.4人工智能的应用二、机器学习：人工智能的核心技术2.1机器学习的定义2.2机器学习的分类2.3机器学习的实现原理2.4机器学习的应用2.5机器学习的示例代码2.6解释代码三、大模型：推动AI前沿发展的关键技术3.1大模型的定义3.2大模型的发展历程3.3深度学习与神经网络3.4大模型的优势与挑
Python 爬虫实战：自动化获取学术会议数据（会议安排、论文提交等） Python爬虫项目 python 爬虫自动化智能家居数据分析开发语言运维
1.引言学术会议是研究人员获取最新科研成果、发表论文、交流思想的重要平台。对于研究者而言，掌握最新的会议安排、论文提交截止日期、会议议程以及演讲嘉宾等信息至关重要。然而，学术会议信息通常分散在不同的官方网站上，人工查找和整理这些数据既费时又容易遗漏。为了提高效率，我们可以使用Python爬虫自动化获取学术会议数据，包括：会议名称、日期、地点论文提交截止日期会议议程及嘉宾信息论文录用结果重要通知及相
什么是“针织衫”？什么是“毛衣”？弄错了会丢脸吗？以斯帖_850c
导读：针织衫和毛衣有什么不同？随着时代潮流变迁，而产生的时尚用语。“如果弄错了会被认为是丢人吗？”关于针织衫和毛衣，下面就来一边看不同的衣服，一边来解说不同的类型吧！在搞清针织衫与毛衣的区别前，首先来了解什么是针织？什么是针织？如果要将针织的概念用专业的语言来说，恐怕会越搞越糊涂。现在就用通俗易懂的语言，来简单的描述，针织，就是用一根线，通过钩针排列织成一块面料或一个圆筒状的布料。如大家所常见的T
现代人工智能综合分类：大模型时代的架构、模态与生态系统司南锤 economics 人工智能分类数据挖掘
目录引言：人工智能的第四次浪潮与新分类的必要性第一节：大型模型范式的基础支柱1.1规模化假说：算力、数据与算法的三位一体1.2“涌现能力”之谜：当“更多”变为“不同”1.3自监督学习（SSL）革命第二节：大型模型的技术分类学2.1Transformer：现代人工智能的架构基石2.2架构分化：一种功能性分类2.3提升效率与规模：专家混合模型（MoE）2.4超越Transformer：下一代架构的探索
子图同构算法-VF2（java实现） xitianxiaofeixue java 数据结构
子图同构算法-VF2（java实现）最近在项目中用到了子图同构算法VF2，自己查找的时候发现csdn上没有太详细的博客，所以在这里记录一下。内容主要来自一篇论文（A(Sub)GraphIsomorphismAlgorithmforMatchingLargeGraphs）一、什么是VF2算法 VF2算法是一种子图同构算法，而子图同构我们可以这样定义：假设有两个图H=(VH,EH)H=(VH,EH
人工智能入门指南：从基础概念到实际应用
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。https://www.captainbed.cn/north文章目录1.**人工智能的基本概念**1.1什么是人工智能？1.2人工智能的分类2.**人工智能的核心技术**2.1机器学习（MachineLearning）2.1.1机器学习的类型2.1.2机器学习流程2.2深度学习（DeepLearni
Java与机器学习的邂逅：Weka框架入门指南墨夶 Java学习资料1 java 机器学习数据挖掘
在这个数据驱动的时代，机器学习已经成为各行业创新和优化的关键技术。而Java，作为一门成熟且广泛应用的编程语言，在企业级应用开发中占据着重要地位。将二者结合起来，利用Java实现机器学习算法，不仅可以充分发挥其强大的生态系统优势，还能为开发者提供一个高效、稳定的开发环境。今天，我们将带您走进Java与机器学习的世界，探索如何使用Weka这一著名的机器学习库来开启您的智能之旅。Weka简介及其优势什
机器学习基础：从数据到智能的入门指南
一、何谓机器学习在我们的日常生活中，机器学习的身影无处不在。当你打开购物软件，它总能精准推荐你可能喜欢的商品；当你解锁手机，人脸识别瞬间完成；当你使用语音助手，它能准确理解你的指令。这些背后，都离不开机器学习的支撑。机器学习是一门让计算机能够从数据中学习并改进的学科。随着传感器技术的飞速发展，我们身边充满了各种传感器，如手机中的摄像头、麦克风，交通监控中的传感器等，它们收集了海量的数据。这些数据就
Sequential Thinking：AI深度思考的新范式及其与CoT、ReAct的对比分析码字的字节人工智能 Sequential CoT ReAct
引言：AI深度思考的演进与SequentialThinking的崛起在人工智能技术快速发展的今天，AI模型的思考能力正经历着从简单应答到深度推理的革命性转变。这一演进过程不仅反映了技术本身的进步，更体现了人类对机器智能认知边界的持续探索。早期的大语言模型虽然能够生成流畅的文本，但在处理复杂问题时往往表现出"浅思考"的局限性——答案可能看似合理，却缺乏严谨的推理过程和系统性考量。例如，2022年的一
深度学习模块实践手册（第十二期）加油吧zkf 目标检测目标检测模块解析与实践深度学习人工智能计算机视觉目标检测 python
56、Ghost模块论文《GhostNet:MoreFeaturesfromCheapOperations》1、作用：Ghost模块是一种轻量级的特征提取模块，旨在通过廉价操作生成更多特征图，减少计算量的同时保持模型性能。传统卷积神经网络在生成特征图时存在大量冗余计算，Ghost模块通过将特征图生成过程分解为两个步骤，有效减少了计算复杂度，特别适合移动端和嵌入式设备部署。2、机制Ghost模块的机
算法工程师必看！个性化信息流推荐算法系统的架构设计与优化实战指南
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】推荐算法系统实战全系列精品课【陈敬雷】文章目录推荐算法系统系列二算法工程师必看！个性化信息流推荐算法系统的架构设计与优化实战指南更多技术内容总结推荐算法系统系列二算
新闻资讯|基于springboot的新闻资讯系统设计与实现(附项目源码+论文+数据库） code.song spring boot 数据库后端
私信或留言即免费送开题报告和任务书（可指定任意题目）目录一、摘要二、相关技术三、系统设计四、数据库设计五、核心代码六、论文参考七、源码获取一、摘要传统信息的管理大部分依赖于管理人员的手工登记与管理，然而，随着近些年信息技术的迅猛发展，让许多比较老套的信息管理模式进行了更新迭代，文章信息因为其管理内容繁杂，管理数量繁多导致手工进行处理不能满足广大用户的需求，因此就应运而生出相应的新闻资讯系统。本新闻
深度学习模块实践手册（第十一期）加油吧zkf 目标检测目标检测模块解析与实践深度学习人工智能计算机视觉目标检测 python
46、缩放点积注意力模块论文《AttentionIsAllYouNeed》1、作用：缩放点积注意力（ScaledDot-ProductAttention）是Transformer模型的核心组件，旨在解决序列建模中长距离依赖关系捕捉的问题。传统的循环神经网络（RNN）在处理长序列时存在梯度消失或爆炸的问题，且并行性较差。该模块通过计算查询（Query）、键（Key）和值（Value）之间的相似度，实
大模型或多模态在能源系统优化调度中的应用 u013250861 LLM 能源人工智能
1.大模型在电力调度中的应用GAIA-电力调度大语言模型项目描述:专为电力调度设计的大语言模型，能够处理运行调整、运行监控和黑启动等任务技术特点:基于LLaMA2微调，专门针对电力系统领域优化论文:“Alargelanguagemodelforadvancedpowerdispatch”(NatureScientificReports,2025)GitHub:暂未公开源代码，但论文中提到了完整的技
【深度强化学习】MIP-DQN 实现案例（完整Python代码）
目录MIP-DQN算法概述建模基础训练阶段（Training）部署阶段（OnlineExecution）DNN网络转化为MIP表达式性能指标完整Python代码实现主函数：random_generator_battery模型函数：MIP_DQN基础/专用库包安装模型运行（完整Python代码）参数设置函数：Parameters参考本博客根据论文《Optimalenergysystemschedul
【DL经典回顾】激活函数大汇总（四）（Softmax & Softplus附代码和详细公式）夺命猪头 python 机器学习人工智能神经网络 numpy
激活函数大汇总（四）（Softmax&Softplus附代码和详细公式）更多激活函数见激活函数大汇总列表一、引言欢迎来到我们深入探索神经网络核心组成部分——激活函数的系列博客。在人工智能的世界里，激活函数扮演着不可或缺的角色，它们决定着神经元的输出，并且影响着网络的学习能力与表现力。鉴于激活函数的重要性和多样性，我们将通过几篇文章的形式，本篇详细介绍两种激活函数，旨在帮助读者深入了解各种激活函数的
基于NanoDet的健身姿势纠正系统开发 YOLO实战营人工智能 NanoDet 深度学习计算机视觉 ui
1.引言在现代健身行业中，正确的运动姿势至关重要，不仅能提升训练效果，还能预防运动损伤。尤其是在进行一些高强度的力量训练时，如深蹲、俯卧撑等，错误的姿势可能导致肌肉不平衡或关节损伤。传统的健身姿势纠正方式依赖教练的人工指导，但随着人工智能技术的发展，使用计算机视觉和深度学习技术来进行姿势纠正，逐渐成为一种高效且可扩展的解决方案。本文将详细介绍如何基于NanoDet（一个轻量化目标检测模型）开发一个
大模型算法工程师技术路线全解析：从基础到资深的能力跃迁 Mr.小海大模型算法数据挖掘人工智能机器学习深度学习机器翻译 web3
文章目录大模型算法工程师技术路线全解析：从基础到资深的能力跃迁一、基础阶段（0-2年经验）：构建核心知识体系与工程入门数学与机器学习基础编程与深度学习框架NLP与Transformer入门二、进阶阶段（2-4年经验）：深化模型技术与工程落地能力大模型预训练与微调技术预训练原理：数据与任务的协同设计微调工具：参数高效适配与工程优化对齐实践：价值观优化与实证效果分布式训练与框架工具并行策略：多维度协同
Go与Python在数据管道与分析项目中的抉择：性能与灵活性的较量真智AI 人工智能 python go
你正在设计一个全新数据管道或启动一个分析项目，此时你或许正在思考该选择Python还是Go。五年前，这甚至不是个值得讨论的问题——你会毫不犹豫地选择Python，故事到此为止。然而，近年来Go在数据领域，尤其是在数据基础设施和实时处理方面，正逐渐被更多人采用。实际上，这两种语言都已在现代数据技术栈中找到了各自的定位。Python依然非常适合机器学习和数据分析，而Go则逐步成为高性能数据基础设施的首
Python爬虫实战：从新浪财经爬取股票新闻的完整实现 Python爬虫项目 python 爬虫开发语言数据分析 php
第一部分：爬虫概述1.1什么是爬虫？爬虫是指通过程序模拟浏览器的行为，自动化地抓取网络上的数据。通过爬虫技术，能够从各种网站上提取信息，广泛应用于数据采集、数据分析、机器学习等领域。1.2新浪财经简介新浪财经是中国最大的财经信息平台之一，提供股票、基金、债券、外汇等多方面的财经新闻和数据。在股票领域，新浪财经提供了大量的股票行情、实时数据、新闻报道等信息，因此爬取新浪财经的股票新闻对于投资分析和决
AI 智能运维，重塑大型企业软件运维：从自动化到智能化的进阶实践 AI、少年郎人工智能运维自动化
一、引言：企业软件运维的智能化转型浪潮在数字化转型加速的背景下，大型企业软件架构日益复杂，微服务、多云环境、分布式系统的普及导致传统运维模式面临效率瓶颈。AI技术的渗透催生了智能运维（AIOps）的落地，通过机器学习、大模型、智能Agent等技术，实现从"人工救火"到"智能预防"的范式转变。本文结合头部企业实践，解析AI在运维领域的核心应用场景、技术架构及未来趋势，特别针对基础运维中流程重构、技术
Spring AI 概述与功能简介 drebander AI 编程 spring 人工智能 java
SpringAI是一个由Spring团队开发的开源框架，旨在为人工智能（AI）和机器学习（ML）提供一个成熟且高效的开发平台。它将Spring生态系统的设计理念应用于AI开发，尤其强调模块化、可移植性以及简洁的集成。SpringAI提供了丰富的功能，涵盖从AI模型的调用到与数据库的集成等多个方面，帮助开发者构建和管理AI驱动的应用程序。1.SpringAI背景SpringAI的背景源于Spring
Spring AI从入门到精通：构建智能Spring应用的全面指南 java干货仓库 Spring 八股文汇总大模型 spring 人工智能 java
随着人工智能技术的快速发展，将大语言模型（LLM）与企业应用集成已成为趋势。SpringAI作为Spring官方推出的AI集成框架，为开发者提供了便捷、标准化的方式来构建智能应用。本文将从基础概念到高级应用，全面介绍SpringAI的核心功能与实践技巧。一、SpringAI概述1.1什么是SpringAI？SpringAI是VMware于2023年推出的开源框架，旨在简化大语言模型（LLM）与Sp
在二分类任务中如何处理包含中文的类别特征 Dush32 分类数据挖掘人工智能机器学习数据分析
在机器学习中，处理类别特征（CategoricalFeatures）是常见的任务，特别是在中文数据中，很多类别特征如省份、城市等都是字符串类型。如何将这些类别变量转换为模型可以理解的数值格式，是每个数据科学家都必须面对的挑战。在这篇文章中，我们将探讨两种常见的类别特征编码方法：astype('category')和LabelEncoder，并比较它们在二分类任务中的效果。我们以“省份”这一类别特征
基于用户画像的商品推荐系统 Dush32 机器学习人工智能 python 推荐算法
随着人工智能和大数据技术的进步，产品推荐系统成为了现代广告与电商平台中不可或缺的部分。通过深度挖掘用户的行为数据，能够为广告主提供精准的用户画像，从而更高效地推荐相关产品，提升购买转化率。本项目基于科大讯飞AI营销云大赛的赛题，目的是利用用户画像进行产品推荐，预测用户是否会购买相应商品。我们使用了机器学习的二分类模型，通过分析用户的性别、年龄、常驻地、机型等信息，来判断用户的付费行为。项目目标：本
第113期【读书分享】读《给教师的建议》部分章节感悟蒋卫波语文名师工作室
作者简介：李美玲，女，1999年参加工作，一级教师，本科学历。现在五泉镇中心校任教，从教21年来一直用“爱心、耐心、细心”教育孩子，孩子们喜欢她、家长们信任她，她曾获得示范区“优秀教师”“优秀辅导员”“先进个人”“优秀巾帼志愿者”“优秀班主任”“师德标兵”等荣誉称号！她撰写的多篇教学论文在省、市级、区级刊物中发表，同时积极参与省市级课题研究，成绩显著。假期暇闲时间，拜读苏霍姆林斯基大师的《给教师建
AI原生应用领域多租户的技术架构剖析 AI天才研究院 AI-native 架构人工智能 ai
AI原生应用领域多租户技术架构深度剖析元数据框架标题：AI原生应用多租户技术架构：从隔离性到智能化的分层设计与实践关键词：AI原生应用、多租户架构、数据隔离、模型共享、云原生租户管理摘要：本文系统解析AI原生应用场景下多租户技术架构的核心设计逻辑，覆盖从数据层到模型层的全栈隔离与共享机制。通过第一性原理推导，结合云原生、机器学习生命周期管理（MLOps）等技术范式，提出包含租户上下文管理、动态资源
对话新希望CDO李旭昶：立足核心诉求，积极拥抱人工智能
“转型焕新，希望无限。”整理|王娴编辑|云舒出品｜极新4月12日，在「2024飞书先进生产力峰会|成都站」活动中，新希望首席数字官李旭昶先生做了主题为“转型焕新，希望无限”的分享。上次见他是4个月前，当时我们聊了1个多小时，内容涉及数字化转型、人工智能、管理、技术商业等话题。今天顺着他分享的内容，将这篇对话分享出来。随着信息科技的发展，我国传统企业在过去几年中逐步进行数字化转型，利用先进的科学技术
基于STM32单片机车牌识别系统摄像头图像处理设计的论文 weixin_112233 单片机单片机 stm32 图像处理
摘要本设计提出了一种基于32单片机的车牌识别系统摄像头图像处理方案。该系统主要由STM32F103RCT6单片机核心板、2.8寸TFT液晶屏显示、摄像头图像采集OV7670、蜂鸣器以及LED电路组成。在车牌识别过程中，STM32F103RCT6单片机核心板发挥着关键的控制作用。摄像头图像采集OV7670负责获取车辆的图像信息，能够清晰地捕捉车牌区域。采集到的图像数据传输至单片机进行处理，通过一系列
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓

论文导读 | 使用预训练语言模型作为知识库的可能性

你可能感兴趣的:(知识图谱论文导读,自然语言处理,机器学习,人工智能)