lwgkzl

【BERT,GPT+KG调研】Pretrain model融合knowledge的论文集锦

总述：本文调研近年来bert与knowledge的融合的工作，对于每一篇工作，大概的介绍他们融合knowledge的方式，并且进行自己的点评。

文章列表：

1. Align, Mask and Select: A Simple Method for Incorporating Commonsense Knowledge into Language Representation Models arxiv 2019

motivation：把struct knowledge融合到bert的参数当中，利用conceptNet（大型常识知识图谱）的知识来训练bert的参数，使得融合知识的bert在推理型数据集上具有较好的表现。

model：构造一个蕴含常识的QA数据集，并且利用bert在这个数据集上进行pretrain，得到蕴含knowledge的QA的参数。

如上图，首先从ConceptNet中选取一个三元组T，然后根据该三元组在wikipedia中选取包含T中两个实体的句子，然后随机mask掉其中一个实体。接着将含有mask的这句话作为一个问题，通过随机选取一些实体（当然要包括原实体）来作为答案候选，就这样构造了一个QA的数据样例（即，一个问题，多个候选答案）

为了增加数据集的难度，他在构造错误答案的时候有一个trick，就是根据T中未被mask掉的那个实体节点选取其相邻节点作为错误候选。就这样，根据整个conceptNet，它创建了一个大型的QA数据集（包含约60w条数据），然后用原来bert的参数在该QA数据集上进行QA任务的pretrain，就这样完成了对bert参数进行知识的灌入，因为在训练的过程中， bert必须学习到两个实体之间的关系，才有可能选出正确的答案。

experiment：分为推理性的数据集（需要knowledge）以及一般的数据集（不需要太多knowledge）

推理性数据集： CommonsenseQA（CSQA）， WinogradSchemaChallenge（WSC）

一般数据集： GLUE（通用的英文文本理解任务）

可以看到，经过常识QA pretrain的bert参数，在推理任务中远远超过了bert，在也保持了一般的语言规律。 BERT_CS是本文的模型。

然而，到目前为止，其实都还是不公平的对比，因为原生的bert并没有在利用conceptNet以及wiki sentence的信息。本文还有一个分离实验：

可以看到， bert+MLM(即原来bert的参数，在这个新建的QA数据集上用bert的预训练范式（masked language model），也就是直接把一句话中的对应实体mask掉，表现也有58.8, 所以感觉其实知识的融入的效果也没有很高)

点评：

通过改变bert的输入来引入外部知识，并没有改变bert的结构，并且效果也有一定的提升。全文基于一个很简单的idea，就是改变mask的方式，改变输入，或许从输入的角度来讲，可以构造更精巧的输入结构，让bert学到相关的knowledge。

目前这种方式只考虑了实体建两两的关系，并没有考虑到整个知识图谱的结构，有一定局限性，属于较为早期的工作。

2. Common Sense or World Knowledge? Investigating Adapter-Based Knowledge Injection into Pretrained Transformers. emnlp2020 workshop

motivation:

1. 往bert里面融入知识的工作还比较少

2. 现有的融合方式有两种，一种是在含有knowledge的语句中pretrain，一种是结合一个kg的loss然后和lm model重新pretrain。前者会使得bert在fintuning的时候忘记之前学到的语法信息，后者所需的计算时间复杂度太高（因为要重新pretrain整个模型）

model:

通过在bert的模型基础上加一个Adapter，然后在含领域知识的语料上训练的时候，只pretrain Adapter的参数，然后保持bert的参数不变，这样就可以在不同的语料上pretrain adapter从而使得bert具有较强的迁移能力，也保存了bert原本学到了词汇分布。

本文的adapter比较简单，就是两个线性层，一个加到transformer的multi-head attention的后面，一个加到transformer的FF层后面。

然后在领域知识语料训练的时候保持bert的参数不变，在下游任务fintuning的时候， bert和adapter一起更新。

experiment:

在GLUE上做了实验，在大部分不需要常识的数据集上表现一般，但是在两个需要尝试推理的数据集上（NLI dataset）表现非常好，作者还分析了原因。

OM-Adapt是在OMCS.语料上pretrain的模型， CN-Adapt是在conceptNet上pretrain的模型，可以看到，两者在NLI数据上表现的非常优秀，因为这两个数据集需要专门的knowledge才能做。

然后作者观察到Table3中，在CS（commonse knowledge）领域的表现有所下降，作者分析是说：在常识推理中，推理的过程并不仅仅需要常识，还需要用到高纬度的推理，包含习语的了解等。（但是并没有解释为什么原来bert还做的好一些）

点评：

Adapter较为早期的作品了，出发点非常好，可惜实现的有点简单，然后并没有利用kg的网络结构，他把conceptNet作为语言去pretrain的。

3. QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question Answering. arxiv 2021

motivation：

现在的LM+kg的模型在QA方面有几个挑战： 1. 如何根据文本内容检索到一张子图，并且对子图进行裁剪使得子图的节点数目保持适当的数量。

2. 如何结合query的文本与检索得到的子图进行联合推理

本文就这两点进行了摸索，并且提出1. 根据相关性分数对子图进行修剪 2. 联合GNN结合query context的embedding来进行推理。

model：

4. Semantics-aware BERT for Language Understanding. AAAI2020

motivation：

现在bert对文本的编码并没有考虑到多种语义关系，所以作者单独用一个工具将文本中的语义信息（动词，名词之类的）抽取出来作为额外的输入，最后结合bert的输出然后进行分类

model：

这个模型其实很好看，左边是bert，不过由于抽取的语义信息是word级别的，所以要把bert抽取的bpe格式的词汇还原成word级别的，所以作者过了一个cnn。

右边就是把句子过了一个sematic role抽取器（之前的工作）然后把抽取出来的这种语义序列过GRU（有点离谱哦）得到语义序列的表达，最后将语义序列的表达和bert抽取出来的文本的表达结合在一起进行分类。模型还算比较通俗易懂的。

experiment：

在GULE上进行评测，这个模型只需要fintuning就好，不需要重新pretrian，因为相当于额外加了一些文本信息。然后在各项任务上比原生的bert效果要好。

不过比较离谱的是：作者后面将semantic role抽取的语义信息给随机加了0.2， 0.4的噪声，发现结果变化不大， ummm这居然也能解释。

点评：

模型motivation非常清晰，也针对motivation明确的做了改进，其实就是bert+其他文本信息，最后两条通道拼接了一下，实验表示在BERT的基础上有一定效果。这种paper还是比较好看（看得快）呀

5. Knowledge Enhanced ContextualWord Representations. EMNLP2019

motivation:

没有kg和bert一起训练的模型，然后本文通过KAR的技术，实现了bert在pretrain的过程中融合KG的信息。

model:

模型比较复杂。

首先有一个span的概念，其实就是句子中的实体，这些实体在检索的时候会对应多个候选entity。

和一般的pretrain model一样，过一层transformer得到一个向量H，因为实体节点的embedding维度可能和H不一致，所以将H投影到Hproj。

然后对于这句话，使用已有的entity selector选择句子中对应的实体位置，并且将这些实体位置的embedding过一层pooling之后得到一个向量，所有的实体向量拼起来得到一个矩阵，矩阵大小为（span个数， embedding维度）

用这个矩阵做self-attention得到attention weight，然后用这个weight与kg中对应的entity相乘，得到某一个span的entity的distribution。

然后将小于某个阈值的entity weight消去，对剩下的entity通过求得的distribution进行加权得到一个新的span的表达

用这个span的表达和原来span的表达相加得到最终span的表达。

最后用Hproj与这些span做一次self-attention得到最终的表达H'.

experiment: 在很多数据集上表现都还行，比bert要好一些。

点评：模型过于复杂，而且并没有认真解释每一处设计的用意，就是整个模型并不make sense。

只是不停的attention，搞来搞去搞这么复杂，最后结果也感觉一般。不是我喜欢的风格。不过他这种融合kg的方式也可以参考一下。其实不算是kg，只能说是加强了bert中实体的表达。

6. Towards Medical Machine Reading Comprehension with Structural Knowledge and Plain Text. EMNLP20

motivation:

1. 现在medical MRC的数据集太少，所以本文提出了一个新的数据集

2. bert在特定领域的mrc还做的不太好，尤其是医疗领域，因为医疗的这种问答并没有指定某一个段落中存在答案。

model:

模型整体上来说较为简单：首先左边是检索对应的evidence（包含了query中实体的一个句子），然后结合evidence得到一个特征。（用BM25算法来进行检索）

右边是融合KG的部分，从query句子中获取entity，然后根据这个entity在kg中检索得到对应的三元组，根据三元组改成句子，然后把这些句子拼在作为第二个特征，然后用结合这两者最终得到分类的特征。

当然以上只是从大体上来出发介绍这个模型，实际上论文在抽取特征的时候也是用了很多attention的。

experiment:

可以看到，在bertbase和bert-large的基础上有一定的进步。

点评：有一个很好的benchmark，中文的医疗文本数据很少，本文的数据集看上去质量很高。模型算比较传统的模型了，没有太多亮点，也是靠attention来讲故事。

7. Exploiting Structured Knowledge in Text via Graph-Guided Representation Learning EMNLP2020

motivation：

bert融合知识的模型有两类，第一类是检索类的，不改bert模型，直接检索子图然后获取knowledge，这种在测试的过程中需要检索子图，且依赖检索过程中的对齐精度。并且对子图的表达也是浅层模型（TransE），表达能力有限。

第二类模型是将kg的三元组联合成一个句子，然后mask这种句子中的entity用来训练，这样会使得模型过拟合这种完成kg的任务，且这种联合的句子并不具备语法的多样性。

model：

模型主要有两点改进：

a. kg-guided entity masking

和第一篇文章一样，也是通过kg的三元组，然后检索相关的句子，然后mask句子中kg entity的对应的部分来训练模型，不过本文对mask的部位做了一点要求，要求mask的entity是低频的，并且mask的实体之间需要具备一定的推理能力（在kg中的推理路径不能太长，也不能太短）

2. distractor-suppressed ranking:

对于一个句子，以及其被kg entity匹配的部分，首先获取到模型中这一字段的表达，然后这一段对应一个kg entity E，把E的表达与这一字段的表达看成一个正样本，从kg中负采样一些兄弟节点出来作为负样本，然后用contrasting learning的方式来学习这三个表达。

experiment：

数据集：

在普通的QA任务上主要和预训练语言模型比较（bert，robert）加了这个范式之后有一定提点。

在kg completion的任务中主要和bert-kg进行比较，其实提升也不大.jpg

点评：很精细化的模型，主要改进点在mask entity的细节，然后distractor-suppressed ranking的方式其实也不是新套路，就是利用lm中的表达与kg entity的表达做对比学习，好在实验比较充分，但是模型整体提点也不高。

8. K-BERT: Enabling Language Representation with Knowledge Graph AAAI20

motivation：

通过修改pretrain 范式来结合knowledge太耗时间，一般来说bert相当于一个普通人，可以执行各项语言学上任务（GLEU）。

但是如果这个普通人要做专业领域的事情，就应该只需要学习专业领域的知识，而非把这个人回炉重造，即bert不需要重新pretrain，而是只需要结合kg来做就好了。

model：

整个模型的创意非常简单，但是又非常新颖。就是对于一句话，把话语中出现的kg entity在kg中的所有关系全部列举在这一句话中，如上图所示，tim cook is visiting beijing now, 变成了tim cook ceo apple is visiting beijing capital china is_a city now.

这样变化一下之后，就把knowledge融合进了这句话里面。但是这样融合一般人就读不懂了，这对模型的精度也是有损失的。为了防止这种情况，作者使用了两个措施分别为：soft-position index以及visible matrix

soft-position是指对于句子中同一个entity的不同kg联系，其position位置保持一致。 visible matrix是指对entity的形容中，只能看到同一个branch的内容。

experiment：

用了12个中文数据集，还自创了一个医疗知识图谱（可以follow）

baseline就和bert比较了，在bert的基础上有一定提升。

点评：很巧妙的一个思路，不过整体来看，对kg的利用还略显粗糙，但是相对于其他paper而言，这已经是一篇极好的工作了。

10.

List把特定元素排在第一位 inner_peace8 Java 总结集合 List把特定元素排在第一位
人工智能，零基础入门！http://www.captainbed.net/inner有的时候会有这样的需求，就是从数据库查出来的list要做一些处理，比如部门成员列表，产品要求你把部门经理排在第一位，这个时候就可以用集合工具类下的自带方法，做法：需要遍历集合，找到这个元素在集合中的位置，然后使用Collections.swap(list,o,i)（O：为元素目前所在位置，i：为要放置的位置）方法来
每天五分钟深度学习框架pytorch：搭建谷歌的Inception网络模块每天五分钟玩转人工智能深度学习框架pytorch 深度学习 pytorch 网络人工智能机器学习 Inception
本文重点前面我们学习了VGG，从现在开始我们将学习谷歌公司推出的GoogLeNet。当年ImageNet竞赛的第二名是VGG，而第一名就是GoogLeNet,它的模型设计拥有很多的技巧，这个model证明了一件事：用更多的卷积，更深的层次可以得到更好的结构GoogLeNet的网络结构如图所示就是GoogLeNet的网络结构，在这个网络结构中我们可以看到红色框起来的地方，他就是Inception块，
AIGC从入门到实战：揭秘 Midjourney 的提示词写作技巧 AI架构设计之禅 DeepSeek R1 &大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AIGC从入门到实战：揭秘Midjourney的提示词写作技巧作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，人工智能生成内容（AIGC）逐渐成为可能。AIGC指的是利用人工智能技术自动生成文本、图像、音乐等内容。在AIGC领域，Midjourney是一个备受关注的技术，它能够根据用户输入的提示
DeepSeek对AI领域的变革性影响分析报告芝士AI吃鱼人工智能 DeepSeek OpenAI
一、引言近年来，人工智能（AI）技术加速演进，而中国开源大模型DeepSeek的崛起，标志着全球AI竞争进入新阶段。其凭借低成本、高性能、开源生态三大核心优势，迅速成为行业焦点。本报告从技术、产业、投资、就业及未来趋势等维度，全面解析DeepSeek对AI领域的深远影响，为集团战略布局提供参考。二、技术突破：算法效率与成本革命架构创新：MOE与MLA技术优化DeepSeek采用混合专家系统（MoE
使用opencv实现深度学习的图片与视频的超分辨率人工智能研究所人工智能之计算机视觉 opencv 深度学习视频超分辨率图片超分辨率
图片超分辨率什么是视频与图片的超分辨率，总结一下便是给一张分辨率比较低的图片，进行超分辨率的处理后，生成比较清晰的高分辨率的图片，上图图片完美解释了超分辨率的过程，由于不同的算法不同，处理的结果也不相同，本期我们介绍一下如何进行图片的超分辨率的处理。·EDSR模型图像超分辨率EDSR：EnhancedDeepResidualNetworksforSingleImageSuper-Resolutio
强化学习原理与代码实战案例讲解 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1什么是强化学习？强化学习（ReinforcementLearning,RL）是机器学习的一个重要分支，它关注的是智能体（Agent）如何在环境中通过与环境交互来学习最优的行为策略。与其他机器学习方法不同，强化学习并不依赖于预先标注的数据，而是通过试错的方式来学习。想象一下，你正在训练一只小狗学习坐下。你不会给它看成千上万张“坐下”的照片，而是会给它一些指令，比如“坐下”，如果它照
OpenCV机器学习（1）人工神经网络 - 多层感知器类cv::ml::ANN_MLP 村北头的码农 OpenCV opencv 机器学习人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::ml::ANN_MLP是OpenCV库中的一部分，用于实现人工神经网络-多层感知器（ArtificialNeuralNetwork-Multi-LayerPerceptron,ANN-MLP）。它提供了一种方式来创建和训练多层感知器模型，以解决分类、回归等
Pytorch实现mnist手写数字识别 Zn要学习 python
>-**本文为[365天深度学习训练营]中的学习记录博客**>-**原作者：[K同学啊]**我的环境：语言环境：Python3.8编译器：JupyterLab深度学习环境：torch==1.12.1+cu113torchvision==0.13.1+cu113一、前期准备1.设置GPU如果设备上支持GPU就使用GPU,否则使用CPUimporttorchimporttorch.nnasnnimpo
《DeepSeek训练算法：开启高效学习的新大门》人工智能深度学习
在人工智能的浪潮中，大语言模型的发展日新月异。DeepSeek作为其中的佼佼者，凭借其独特的训练算法和高效的学习能力，吸引了众多目光。今天，就让我们深入探究DeepSeek训练算法的独特之处，以及它是如何保证模型实现高效学习的。一、独特的架构基础DeepSeek以Transformer架构为基石，但并非简单沿用，而是进行了深度创新。Transformer架构的核心是注意力机制，这让模型在处理序列数
运用python制作一个完整的股票分析系统大懒猫软件 python 开发语言 django beautifulsoup
使用python制作一个股票分析系统，可以通过股票价格走势动态界面，实时动态监测不同类型股票的变化情况。以下是一个完整的股票分析系统开发指南，包括股票价格走势动态界面和实时监测功能。这个系统将结合网络爬虫、数据分析、机器学习和可视化技术，帮助你实时监测不同类型股票的变化情况。1.系统功能概述数据采集：使用网络爬虫技术从财经网站采集股票数据。数据处理：计算技术指标（如KDJ、BOLL）并进行数据预处
《探秘AI绿色计算：降低人工智能硬件能耗的热点技术》程序猿阿伟人工智能
在人工智能飞速发展的当下，其硬件能耗问题愈发凸显。据国际能源署预测，人工智能的能源消耗可能大幅增长。因此，降低人工智能硬件能耗，实现绿色计算，已成为行业关键课题。以下是一些正在崭露头角的热点技术。新型硬件架构与材料计算随机存取内存（CRAM）：明尼苏达大学的研究团队开发的CRAM，能让数据完全在内存阵列内处理，无需离开计算机存储信息的网格，打破了传统冯·诺依曼体系结构中计算与内存之间的壁垒，可将人
Google Cloud技术学习总结谭俊杰Jerry 人工智能
GoogleCloudPlatform（GCP）是由Google提供的一套云计算服务，帮助企业和开发者利用Google的基础设施来构建、部署和扩展应用程序。GCP提供了广泛的服务，涵盖计算、存储、数据分析、机器学习和网络等领域。以下是GoogleCloud的技术总结：核心服务计算服务GoogleComputeEngine：提供虚拟机（VM）实例，支持自定义配置，适合各种工作负载。GoogleKub
本地部署DeepSeek模型技术指南 Evaporator Core apache Doris 人工智能 deepseek
DeepSeek模型是一种先进的深度学习模型，广泛应用于自然语言处理、计算机视觉等领域。为了充分利用DeepSeek模型的强大功能，许多开发者和研究人员选择在本地环境中部署该模型。本文将详细介绍如何在本地环境中部署DeepSeek模型，包括环境准备、模型下载、配置、优化以及代码实现等内容。通过本文的指导，您将能够在本地成功部署并运行DeepSeek模型。1.环境准备在部署DeepSeek模型之前，
使用Python中的LangChain库优化消息长度：从聊天历史到模型性能的全面指南 m0_57781768 python langchain easyui
使用Python中的LangChain库优化消息长度：从聊天历史到模型性能的全面指南在现代人工智能应用中，大语言模型（LLM）扮演着越来越重要的角色，尤其是在对话系统、智能助理和其他自然语言处理任务中。然而，所有的模型都有一个有限的上下文窗口，意味着它们可以处理的输入令牌（tokens）数量是有限的。当我们需要处理较长的对话历史或复杂的任务链时，如何管理传递给模型的消息长度变得至关重要。在这篇文章
DeepSeek R1蒸馏版模型部署的实战教程 herosunly DeepSeek从入门到精通 deepseek 大模型人工智能实战教程
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委，编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。授权多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。
如何在Java中设计大规模稀疏数据处理架构省赚客app开发者 java 架构开发语言
如何在Java中设计大规模稀疏数据处理架构大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！在大数据时代，稀疏数据在各个领域变得越来越常见，例如推荐系统、自然语言处理、图像处理等。稀疏数据通常包含大量零值或空值，直接使用传统的数据处理架构可能导致效率低下，内存和计算资源浪费。因此，设计一个高效的稀疏数据处理架构成为Java开发者面临的关键挑战。本文将探讨如何在Java中
DeepSeek R1 vs ChatGPT o1 实测 7 大场景终极对决网络安全我来了人工智能 AI chatgpt
R1vso1：7大场景终极对决引言你需要的不是「最好」，而是「最合适」想象一下，你面前有两把瑞士军刀：一把刀锋锐利但功能单一，另一把功能繁多但需要时间磨合。你会怎么选？人工智能模型的选择也是如此。DeepSeekR1和ChatGPTo1就像这两把军刀，它们的胜负不在绝对强弱，而在场景适配。根据实测数据，我们将通过编程、教育、创意等7个战场，解剖这两大AI巨头的真实战斗力。一、语言战场当AI成为「读
【AI日记】24.10.30 做项目的一些前期准备工作 AI完全体 AI日记人工智能机器学习自然语言处理 langchain 日记读书学习资源
【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】【AI日记】工作工作1内容：看AI大佬访谈B站地址：SamAltman最新5月播客长篇访谈|@All-In播客2024.5.11时间：1.5小时评估：继续工作2内容：思考如何开始自己的RAG项目时间：0.5小时决定：采用搭积木的方法来做自己的RAG项目。从最基础的开始，不断学习各种RAG和NLP相关的技术，然后不断加入到自己的项目中，而不
强化学习在连续动作空间的应用：DDPG与TD3 AI天才研究院计算 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA 计算 AI大模型应用
1.背景介绍1.1强化学习简介强化学习（ReinforcementLearning，简称RL）是一种机器学习方法，它通过让智能体（Agent）在环境（Environment）中与环境进行交互，学习如何根据观察到的状态（State）选择动作（Action），以最大化某种长期累积奖励（Reward）的方法。强化学习的核心问题是学习一个策略（Policy），即在给定状态下选择动作的映射关系。1.2连续动
书籍-《机器学习的秘密：它是如何工作的以及它对你的意义》机器学习深度学习人工智能
书籍：SecretsOfMachineLearning:HowItWorksAndWhatItMeansForYou作者：TomKohn出版：WorldScientificPublishingCoPteLtd编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《机器学习的秘密：它是如何工作的以及它对你的意义》01书籍介绍在众多关于机器学习和人工智能的技术文献及充满恐慌的书籍中，《机器学习的秘密》犹
大语言模型（LLM）如何实现上下文的长期记忆？
引言大语言模型（LargeLanguageModels,LLMs），如GPT-4、Claude和LLaMA等，已经在自然语言处理领域展现出卓越的能力。然而，它们在实际应用中常常面临一个核心问题：如何实现上下文的长期记忆？传统LLM的上下文长度通常受限于计算资源和架构设计（如注意力机制），这限制了其处理长文档或保持复杂对话连续性的能力。本篇文章将深入探讨大语言模型的上下文记忆问题，分析其技术难点，并
从取代到增强：AI如何与人类协作，共同创造未来海棠AI实验室人工智能理论与学术深度学习人工智能
人工智能（AI）的飞速发展正在改变全球各行各业。它不仅承诺提高效率、加速创新，还带来了前所未有的可能性。然而，随着这一技术的崛起，许多人开始担心：AI是否会取代人类？这个疑问在很多传统上被认为是“人类专属”的领域中尤为突出，尤其是在创意、决策和情感交流等方面。但如果我们将AI的发展方向从“取代”转向“增强”呢？如果我们将AI视为人类的强大协作伙伴，而不是冷冰冰的竞争对手，会有什么样的未来？这是我们
用AI提升电商平台的客户体验：从个性化推荐到智能客服 Echo_Wish 人工智能前沿技术人工智能
用AI提升电商平台的客户体验：从个性化推荐到智能客服随着电商行业的竞争日益激烈，如何在海量商品中脱颖而出，吸引和保持客户的关注，成为平台生存和发展的关键。而在这场竞争中，人工智能（AI）正在发挥着越来越重要的作用。AI不仅可以优化电商平台的后台操作，还能在前端提供更为个性化、智能化的客户体验，让消费者感受到前所未有的便捷与高效。本文将从个性化推荐、智能客服、智能搜索等方面，详细探讨如何通过AI技术
python 学习曲线函数_如何使用学习曲线来诊断你的LSTM模型的行为？（附代码）... weixin_39576066 python 学习曲线函数
LSTM是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。在自然语言处理、语言识别等一系列的应用上都取得了很好的效果。《LongShortTermMemoryNetworkswithPython》是澳大利亚机器学习专家JasonBrownlee的著作，里面详细介绍了LSTM模型的原理和使用。该书总共分为十四个章节，具体如下：第一章：什么是LSTMs？第二章：怎么样训练
transformer概述沉墨的夜 transformer 深度学习人工智能
Transformer架构的提出，不仅在自然语言处理（NLP）领域掀起了革命，也在多个深度学习任务中获得了广泛应用。自2017年由Vaswani等人提出以来，Transformer经历了多次优化和扩展，成为深度学习领域的基石。以下是Transformer架构的演进历程、作用和意义、架构详情以及未来发展趋势的详细阐述。Transformer架构的演进历程(1)Transformer的起源（2017年
【开源向量数据库】Milvus简介 IT古董开源数据库 milvus
Milvus是一个开源、高性能、可扩展的向量数据库，专门用于存储和检索高维向量数据。它支持近似最近邻搜索（ANN），适用于图像检索、自然语言处理（NLP）、推荐系统、异常检测等AI应用场景。官网：https://milvus.io/1.Milvus的特点（1）高性能支持数十亿级向量数据，查询速度快。使用近似最近邻（ANN）索引算法，如HNSW、IVF-FLAT、IVF-PQ、SCANN等。（2）分
【漫话机器学习系列】041.信息丢失（dropout） IT古董漫话机器学习系列专辑机器学习人工智能深度学习
信息丢失（Dropout）Dropout是一种广泛应用于神经网络训练中的正则化技术，旨在减少过拟合（overfitting），提高模型的泛化能力。虽然"信息丢失"（dropout）这个术语在某些情况下可能引起误解，指的并非是数据的丢失，而是训练过程中故意“丢弃”神经网络中的部分神经元。这种做法可以避免模型过于依赖于某些特定的神经元，从而提高模型在新数据上的表现。Dropout的工作原理在神经网络的
第二章：12.3 建立表现基准望云山190 基准性能水平人工智能机器学习
背景介绍语音识别是一种常见的机器学习应用，用户通过语音输入代替键盘输入，系统需要将语音转换为文本。在这个过程中，算法的性能可以通过训练误差和交叉验证误差来评估。误差定义训练误差（Jtrain）：指算法在训练数据集上无法正确转录的音频片段的百分比。在这个例子中，训练误差是10.8%，意味着算法在训练数据上犯了10.8%的错误。交叉验证误差（Jcv）：指算法在未见过的数据（交叉验证集）上无法正确转录的
Ai时代，搞钱的6种方法大耳朵爱学习人工智能 AI大模型大模型产品经理自然语言处理深度学习语言模型
随着人工智能（Ai）技术的迅速发展，越来越多的人意识到它不仅是一种前沿科技，更是一种变革性力量，为我们打开了赚钱的新大门。无论你是创业者、自由职业者，还是打算给自己的业务注入新活力，利用Ai赚钱都是一种值得尝试的选择。本文将结合当前最热门的Ai工具，为你提供6种高效、实用的搞钱思路。——1——内容创作：用Ai做你的创意助手1.1自媒体内容创作利用Ai模型，你可以轻松撰写公众号文章、知乎回答、短视频
第二章：12.4 学习曲线望云山190 深度学习机器学习人工智能
学习曲线的基本概念学习曲线是展示机器学习模型性能如何随着训练数据量增加而变化的图表。它们可以帮助我们理解模型在不同数据量下的表现，以及模型是否过拟合或欠拟合。二阶模型的学习曲线交叉验证错误（Jcv）：这条绿色曲线表示模型在未见过的数据上的表现。它反映了模型的泛化能力，即模型对新数据的预测能力。训练错误（Jtrain）：这条红色曲线表示模型在训练数据上的表现。它反映了模型对训练数据的拟合程度。学习曲
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include

【BERT,GPT+KG调研】Pretrain model融合knowledge的论文集锦

1. Align, Mask and Select: A Simple Method for Incorporating Commonsense Knowledge into Language Representation Models arxiv 2019

2. Common Sense or World Knowledge? Investigating Adapter-Based Knowledge Injection into Pretrained Transformers. emnlp2020 workshop

3. QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question Answering. arxiv 2021

4. Semantics-aware BERT for Language Understanding. AAAI2020

5. Knowledge Enhanced ContextualWord Representations. EMNLP2019

6. Towards Medical Machine Reading Comprehension with Structural Knowledge and Plain Text. EMNLP20

7. Exploiting Structured Knowledge in Text via Graph-Guided Representation Learning EMNLP2020

8. K-BERT: Enabling Language Representation with Knowledge Graph AAAI20

你可能感兴趣的:(NLP,机器学习,人工智能,深度学习,自然语言处理)