是算法不是法术

【论文阅读】开放域问答论文总结，文本召回与问答的另一种思路

【论文总结】开放域问答，纯文本召回与精排的另一种思路

前言
SCIVER: Verifying Scientific Claims with Evidence
- 任务介绍
- 数据样例
- 开放域问答
Reading Wikipedia to Answer Open-Domain Questions (2017)
- Document Retriever
- Document Reader
- 个人总结
Dense Passage Retrieval for Open-Domain Question Answering (2020)
- Encoders
- Training
- End-to-end QA System
- 个人总结
Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering (2020)
- Encoder
- Decoder
- result
- 个人总结
DISTILLING KNOWLEDGE FROM READER TO RETRIEVER FOR QUESTION ANSWERING (2021)
- Reader
- CROSS-ATTENTION SCORE
- Retriever
- Training
- Result
- 个人总结
题外话

前言

这篇文章是年前欠下来的，当时在选择比赛的项目时，SDP @NAACL 的第二项任务SCIVER: Verifying Scientific Claims with Evidence，和开放域问答系统类型非常相似，因此调研了一些开放域问答的经典文献和SOTA方法，在这里做一个总结。通过这4篇论文，可以对开放域问答任务的研究方向有一个基本的了解，从统计特征到可训练特征再到无样本学习，从span抽取到直接生成。

涉及论文：

Reading Wikipedia to Answer Open-Domain Questions
Dense Passage Retrieval for Open-Domain Question Answering
Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering
DISTILLING KNOWLEDGE FROM READER TO RETRIEVER FOR QUESTION ANSWERING

SCIVER: Verifying Scientific Claims with Evidence

任务介绍

Due to the rapid growth in scientific literature, it is difficult for scientists to stay up-to-date on the latest findings. This challenge is especially acute during pandemics due to the risk of making decisions based on outdated or incomplete information. There is a need for AI systems that can help scientists with information overload and support scientific fact checking and evidence synthesis.

在SCIVER共享任务中，我们将构建以下形式的系统：

以科学主张为输入
识别大型语料库中的所有相关摘要
将其标记为支持或驳回
选择句子作为标签的证据

关键步骤

识别大型语料库中的相关：考虑到效率和运行时间的要求，当我们得到一个query (此处为科学主张）后我们无法将大型语料库中成千上万的句子分别做一次分类识别，因此我们需要现根据query对语料库中相关的文档进行召回，尽可能减少我们的候选集。
选择句子作为标签的证据：对少量候选集中的文档中的句子进行精细分类，来判断其时候可用以支持或驳回主张。

数据样例

       {
         "id": 52,
         "claim": "ALDH1 expression is associated with poorer prognosis for breast cancer primary tumors.",
         "evidence": {
            "11": [                     // 2 evidence sets in document 11 support the claim.
               {"sentences": [0, 1],    // Sentences 0 and 1, taken together, support the claim.
                "label": "SUPPORT"},
               {"sentences": [11],      // Sentence 11, on its own, supports the claim.
                "label": "SUPPORT"}
            ],
            "15": [                     // A single evidence set in document 15 supports the claim.
               {"sentences": [4], 
                "label": "SUPPORT"}
            ]
         },
         "cited_doc_ids": [11, 15]
       }

开放域问答

上述任务其实是NLP中经典问题：开放域问答的变体，开放域问答以wikipedia知识回答为例，其思路分两个步骤，1. 首先从大量的文章里检索出相关的文章，2. 从相关的文章里定位到答案。
解决该类问题的关键是如何设计一个高效的召回系统，以及如何从召回少量候选集中精准锁定关键句子。

Reading Wikipedia to Answer Open-Domain Questions (2017)

作为开放域问答的经典论文，Danqi Chen提出的DrQA，搭建了开放域问答解决系统的基本框架：
(1) the Document Retriever module for finding relevant articles and
(2) a machine comprehension model, Document Reader, for extracting answers from a single document or a small collection of documents.

Document Retriever

TF-IDF: 通过构建问题和文档的TF-IDF特征向量，计算两者的相似度来作为召回标准。为了提高召回的速度和内存效率，n-grams词组往往包含更多的词语顺序信息，作为召回特征也更加明确。因此作者通过Murmur Hash3将bigrams映射到 2^24 桶中, 以此提高检索效率。
具体实现上，每次召回5篇最相关的维基百科文档交给Document Reader处理。
此外，作者还比较了Okapi BM25、 word embeddings space + 余弦相似度等方式构建问题和文章召回特征的方式，结果表现更差。
召回实验结果：

Document Reader

Paragraph encoding： ${p1, . . . , pm} = RNN({p˜1, . . . , p˜m})$ ,通过BiLSTM对召回文档的段落进行encoding，pi为作为BiLSTM的前后隐藏单元的concat输出。p˜i为构建的输入token的特征，具体如下：
1. Word embeddings: 300-dimensional Glove word embeddings trained from 840B Web crawl data. 作者固定了词向量的embedding在模型训练时只fine-tune前1000高频的词向量，原因在于认为像what, how, which 这种高频的提问词可能对于QA systems来说更加关键。
2. Exact match: 作者使用了01向量的embedding来标记段落中的哪些词是与问题完全匹配的，并在后续实验中证明了这个特征的有效性。
3. Token features: 添加了 Token的part-of-speech (POS) and named entity recognition (NER) tags and its (normalized) term frequency (TF).等人工特征。
4. Aligned question embedding: 在每个输入token中融合该token与question的attention特征，具体实现如下： $\sum_{j}a_{ij}^2E(q_j)$ 其中: $a_{ij} =\frac{exp (α(E(p_i)) · α(E(q_j )))} {\sum_{j'}exp (α(E(p_i)) · α(E(q_j' )))}$ ， $E(q_j)$ 是question每个token的embedding， $E(p_i)$ 是段落中每个token的embedding，α(·) 是单个dense层接非线性激活函数Relu。与Exact match这一特征不同是，Aligned question embedding可以捕获到段落token与问题token中的近义词/词义关系，如(e.g., car and vehicle).
Question encoding：question的encoding较为简单，通过简单的循环神经网络提取 Question token 的embedding特征使用单一向量作为question feature ${q1, . . . , ql} → q.$
$\sum_{j}b_jq_j$ 其中: $=\frac{exp(w · q_j)}{ \sum_{j}exp(w · q_j')}$ w为需要学习的参数。相当于让模型学习如何将question中的token embedding根据在question中的重要性进行加权平均。
训练阶段，将上述得到的Paragraph vector {p1, . . . , pm} 和 question vector作为输入，对每个Paragraph token的最后output结合question vector作coress-attention后进行两次二分类，来判断其是否为答案的起点或终点。 $Pstart(i) ∝ exp (p_iW_sq)$ $Pend(i) ∝ exp (p_iW_eq)$
推理阶段，我们考虑所有长度<=15的span, $s c o r e = P s t a r t (i) \times P e n d (i^{'})$ ，并且考虑到分数在多个段落之间比较的兼容性，作者使用非归一化指数，并在所有可能的span中使用argmax进行最终预测。
reader实验结果：

个人总结

DrQA的Retriever突出简单的特性，使用TF-IDF捕捉bigram统计特征，不需要经过训练，只需要预先计算好每篇文档的特征向量即可进行快速检索，但这也带来了一定的问题，简单的词频统计特征无法捕捉到潜在语意上的相关性，不好解决棘手的抽象问题。尽管这种方式具有良好的泛化能力，但是针对特定领域的QA召回，我们仍然通过训练模型，来增强召回性能。
Reader部分，2017还是传统神经网络的时代，encoding部分使用了简单的bilstm，因此为了更加丰富的表达token的信息和其与问题的关联性信息等，我们需要制作大量额外的人工特征。
但这并不影响DrQA给后续开放领域问答研究带来的Retriever + Reader重要的框架思路。

Dense Passage Retrieval for Open-Domain Question Answering (2020)

Danqi Chen卷土重来！文章通过引入Bert等预训练语言模型，在QA系统的Retriever部分大作文章，构建的DPR召回系统针对训练Retriever模型提出了精妙的负采样设计和训练方法。极大程度地提升了开放领域问答文档召回部分的准确性。Dense Passage Retrieval用可训练的embedding低维连续的稠密向量代替了原本TF-IDF等稀疏向量表示。

Encoders

通过两个独立的bert分别编码question和passage，以bert最后一层CLS输出768纬特征作为向量表示，通过计算两者之间的点积作为相关性评价： $sim(q, p) = E_Q(q)^TE_P (p)$ ，这一方法与本人之前复现的Sentence-BERT极为相似，当模型训练完成后，我们可以通过提取所有语料库中的passage的特征向量并通过FAISS保存来加快query的查询速度，在博客末尾也提及了使用两个独立的bert分别编码的思考点所在。

Training

模型训练阶段：对于每一个匹配的QP训练样本，我们设置 $q_i,p_i^+,p_1^-,p_2^-,p_n^-$ ，其中包括一个正passage样本和n个负passage样本。损失函数如下：

负采样：对于每一组训练样本的构建，正样本是给定的，重点在于如何进行负采样选择合适的负样本，太简单的负样本会使Retriever训练不充分而导致欠拟合，召回效果差。在一般的推荐系统当中，我们会倾向于同时设置hard样本和soft样本来丰富模型的召回能力。本文中，作者考虑了三种类型的负样本，并对不同组合进行了测试：
1. Random: any random passage from the corpus;
2. BM25: top passages returned by BM25 which don’t contain the answer but match most question tokens;
3. Gold: positive passages paired with other questions which appear in the training set.
In-batch negatives: batch negatives的方法大家应该不陌生，简单来说就是通过batch内的样本互为negatives来加快模型训练效率。如果不使用该方法，我们需要预先生成m组正样本+mn组负样本，由于mn的存在使得模型的训练效率降低，如果形成batch negatives，在batch中模型只需要对每一个样本进行一次正向传播，即可同时完成所有正负样本的loss计算。具体来说我们传入一个batch 一共B组QP对，通过一次正向传播加矩阵乘积我们可以得到 $S = QP^T$ 一个 $(B \times B)$ 相关性矩阵每一行代表一个Question和Passage的相关性得分，对于每一个Question来说，包含1个正样本，B-1个负样本。效率上通过B计算复杂度得到了B^2的样本对效果，并且省去了前期样本构建的工作。
理解了In-batch negatives的方法上述结果图也会比较好理解，最好的样本构建方法为为每一个question构建一个positive passage和一个BM25最大的negative passage，设置batch_size=128，因此对于每一个question来说最终会有127个Gold negative passage和128个BM25 negative passage作为负样本。
It has been shown to be an effective strategy for learning a dual-encoder model that boosts the number of training example。

Term-matching methods like BM25 are sensitive to highly selective keywords and phrases, while DPR captures lexical variations or semantic relationships better. 考虑到两种召回模式的优势，作者尝试了模型融合，其中BM25 + DPR为BM25和DPR的召回结果的融合， $u n i o n S c o r e = B M 25 (q, p) + 1.1 * s i m (q, p)$

End-to-end QA System

The passage selection model serves as a reranker through crossattention between the question and the passage。答案选择模型作为精排模型服务于召回模型召回的文章。
Reader模型的设计其实较为多样，文章并没有展开详细讨论，在Bert框架下可以通过第一篇文章中的cross-attention来联系question和候选的passage的特征信息，也可以参考本人之前复现的机器阅读理解baseline进行设计。
具体的文章设置了span首尾评估和passage selected组合评估指标：

其中 $Pi ∈ R^{L×h} (1 ≤ i ≤ k)$ 是每篇文章的bert最外层特征向量， $Pˆ=[P^{[CLS]}_1, . . . , P^{[CLS]}_k ] ∈R^{h×k}$ $w_{start}$ , $w_{end}$ , $w_{selected}$ 是需要学习的参数。
$P_{start,i}(s) × P_{end,i}(t)$ 表示该span的得分，而 $P_{selected}(i)$ 表示该文章的得分。
对于每一组正样本，从前100名Retriever召回的Passage中随机选择23个负样本进行训练。

个人总结

对比DrQA的Retriever，DPR更加关心question与passage之间的潜在语意关系，并通过融合BM25和DPR，在文本召回的准确性上远远超过传统的统计特征模型。
合理的负采样方法配合In-batch negatives训练方法，确保模型能有效区别正负样本的同时，提高了模型的计算与训练效率，设计巧妙但又易于实现。
对于文本召回相关任务来说，DPR是一个简洁且巧妙的baseline。

Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering (2020)

之前开放域问答系统的Reader部分的设计，往往是对Retriever召回的文档进行再次精排，通过span分类任务抽取相应的answer，在一步中如何处理和比较不同文档之间的span预测是一个难题，而且按token进行二分类任务存在棘手的正负类别不平衡问题。如何能让模型同时考虑所有召回文本，并且自己学会识别答案，如图所示该论文提出了Fusion-in-Decoder模型将Reader的工作从分类变成了Seq2seq。

Encoder

Reader是一个sequence-to-sequence的网络结构, 使用了T5或者Bart等预训练模型。
对于每一个Retriever召回的Passage，将Question与Passage通过特殊的Token连接构建成[ $q u e s t i o n :$ , $t i t l e :$ , $c o n t e x t :$ ] 的格式，分别通过encoder编码成一个全局特征矩阵 $∈(\sum_{k}l_k)*d$ 其中 $l_k$ 是第k个召回Passage输入长度，d 为encoder的hidden dimension。
之后Decoder处理特征X，通过自回归输出答案A。

Decoder

与传统的transformer的decoder相似，每一个block中先做一次输出的self-attention，之后的通过 $Q = W_QH, K = W_KX, V = W_VX$ 来计算cross-attention，具体计算公式与transformers一致，不再展开叙述。其中X为encoder输出的最后的特征表示，H为decoder中上一个self-attention的输出。

result

随着encoder输入的召回文章数量的提高，decoder的输出与答案的match程度也随之升高，在50左右达到较高平稳峰值，这说明Fusion-in-Decoder能有效的结合来自多个Passage的信息。

模型在开放域问答公开数据集上达到了SOTA，这也证明了用Seq2seq的方式来生成答案是一个有效的方法。

个人总结

没错，就是这么简单，就是这么一个颠覆性的认知加上一个小小的改动，Fusion-in-Decoder可以说是完全套用了transfomers的模型结构，在对Retriever召回的Passage的处理上采取了如此暴力美学的方法，直接全部encode然后concat在一起丢到decoer里面让模型去学。简单，粗暴，有效。
个人比较好奇的是这个方法在Train的时候encoder是跟着一起train的吗，还是freeze的。个人理解应该是freeze的。

DISTILLING KNOWLEDGE FROM READER TO RETRIEVER FOR QUESTION ANSWERING (2021)

开放域问答系统中的Retriever的训练，往往是有监督的，这需要我们为模型提供大量的样本数据，这篇文章利用知识蒸馏的技术，让Retriever去学习Reader的attention score，这样的方法并不需要标注好的query和documents对。

Reader

Reader部分直接沿用了Fusion-in-Decoder模型，通过Fusion-in-Decoder模型检索候选文章输出答案时产生的attention矩阵来指导Retriever进行学习。
这其实是一件非常直觉又有趣的事情，Retriever本应该作为Reader的老师，告诉Reader应该看哪些文章，并从中得出答案。但相反，由于Reader已经提前知道了答案，如果Reader阅读范围足够广，我们可以通过attention矩阵来映射Reader在生成答案时把注意力放在了哪些文章上，并以此告诫Retriever，下次召回时应该召回类似的文章。

CROSS-ATTENTION SCORE

根据Fusion-in-Decoder论文提到的，decoder中的cross-attention计算公式如下： $Q = W_QH, K = W_KX, V = W_VX$

作者假设 $α_{:,j}$ 可以用来度量第 j 个key token对于模型通过value计算下一个特征表示的重要性，并以此作为与该key token对应文档的重要性的代表——the more the tokens in a text segment are attended to, the more relevant the text segment is to answer the question.
因此通过对attention score进行聚合，我们可以得到各个Passage的相关性分数 $G_{q,pk})1≤k≤n$ ，具体来说分数G是聚合了decoder中该文档所有key token的pre-attention scores $α_{0,:}$ 得到的。作者比较了不同的mean_max和选取不同层attention score的聚合方法。最后表面简单的对所有层，所有token的attention score作平均效果最佳。

作者通过一个简单的实验证明了 $G_{q,pk}$ 是一个优秀的Passage相关性的评估指标：100篇由DPR召回的文档，使用DPR分数选择前10篇，召回性能从48.2EM降低到了42.9EM，但如果根据 $G_{q,pk}$ 选择前10篇最重要的文档，召回性能仅从48.2EM降低到了46.8EM。

Retriever

Retriever的模型结构设计与DPR相似，只是将两个独立的Bert编码器减少到了一个共享参数的特征编码器。
损失函数的设计上，由于Retriever不再是拟合一个二分类问题，而是拟合Reader产生的注意力分布，因此需要最小化 $S_θ(q, p)$ 与 $G_{q,p}$ 之间的KL离散：

同时作者还比较了MSE、max-margin loss等其他损失函数，最终KL离散的训练效果最佳。

Training

iterative pipeline:
1. Train the reader R using the set of support documents for each question $D^0_q$ .
2. Compute aggregated attention scores $(G_{q,p})_{q∈Q,p∈D^0_q}$ with the reader R.
3. Train the retriever E using the scores $(G_{q,p})_{q∈Q,p∈D^0_q}$ .
4. Retrieve top-passages with the new trained retriever E.
文章使用了Bert作为retriever，T5作为reader。
之所以这一套QA循环训练系统不需要给到retriever E标注好的数据对，是因为在训练过程中我们只需要初始化好最开始的support documents集合，通过对R的训练指导E的下一步的召回，即可实现自我迭代。
关键点1: 如何初始化support documents，实验表明，通过BM25初始化每一个Question的support documents优于通过预训练的Bert进行相似度计算进行初始化。并且我们可以发现尽管通过预训练的Bert进行初始化召回，在未开始跌倒时文档的召回效率巨差无比，但随着迭代的进行retriever的召回能力快速回温，这也证明了这一套iterative pipeline的有效性。

关键点2: 每轮迭代开始时，重新初始化reader-T5的权重，并保留retriever-Bert的权重继续训练。文章并没有对这样的做法做出解释，猜测有两个作用：
1. reader-T5的训练相对于retriever-Bert来说更加容易，尽管我们初始化了reader-T5，但由于retriever-Bert的性能越来越强，召回的文章越来越准确，reader-T5也会更快的收敛，这一定程度上平衡了两个模块的训练进程，防止一方陷入过拟合后导致系统崩溃。
2. 通过初始化reader-T5，文章通过监控reader-T5和retriever-Bert的注意力/打分对文章排名的差异性来监控retriever-Bert的训练进程，当reader-T5和retriever-Bert对文章排名结果相近且稳定时，认为系统已经训练充分，停止迭代。

Result

通过BM25初始化召回达到了SOTA，通过DPR初始化召回则得到了更高的性能。
证明了不需要大量有监督的文档数据我们也可以训练一个非常强大的retriever模型。

个人总结

本论文仅使用问题答案样本对就实现了开放域问答的SOTA，这归功于其精彩蒸馏思路将原本两个独立的训练模块Reader和Retriever进行连接，Pipeline的思路减少了模块之间的误差传递，使得整个系统更加一体化。并且文章对于损失函数、初始化方法、attention score的进行了大量的对比实验，组合出了一套完整的训练方案。
如果我们把Reader视为精排，Retriever视为召回，这种通过精排模块指导召回模块训练的方法非常值得借鉴。
本文从侧面反映了Transformer架构中，attention机制的可解释性，利用模型的attention模块的中间输出，我们可以获取更多其他的有效信息。

题外话

DISTILLING KNOWLEDGE FROM READER TO RETRIEVER FOR QUESTION ANSWERING这篇文章的方法可拓展性强吗？由于其Reader模块采用的是Seq2Seq结构配合问答，是否存在特殊性？适用于其他的召回 + X 系统吗（排序/打分等）
其实最近也比较流行用NLG完成NLU任务的论文，All NLP Tasks Are Generation Tasks: A General Pretraining Framework，GPT Understands, Too等。这种召回+生成框架迁移的根本难点在于我们如何针对不同的任务类型进行设计不同的“Decoder”。值得研究～

深度学习：让机器学会“思考”的魔法 AI极客Jayden　 AI 深度学习
文章目录引言：从“鹦鹉学舌”到“举一反三”一、深度学习是什么？1.定义：机器的“大脑”2.核心思想：从数据中“悟”出规律二、深度学习的“大脑”结构：神经网络1.神经元：深度学习的基本单元2.神经网络：多层“神经元”的组合3.深度：为什么需要多层？三、深度学习如何“学习”？1.训练过程：从“笨拙”到“熟练”2.损失函数：衡量“错误”的尺子3.反向传播：从错误中“反思”四、深度学习的“超能力”1.图像
群体智能优化算法-模拟退火优化算法（Simulated Annealing, SA，含Matlab源代码） HR Zhou 算法模拟退火算法机器学习 matlab 群体智能优化优化人工智能
摘要模拟退火（SA）算法是一种基于物理退火过程的全局优化算法，其核心思想来源于热力学中的退火过程：将材料加热到高温后再缓慢冷却，使其分子结构趋于最低能量状态，从而获得稳定结构。SA算法利用Metropolis准则来决定接受新的解，以一定概率接受劣解，从而避免陷入局部最优。SA具有收敛速度快、计算复杂度低、适用于连续优化问题等特点，被广泛应用于组合优化、函数优化、神经网络训练等领域。算法介绍1.主要
2025年第二届机器学习与神经网络国际学术会议(MLNN 2025) 分享学术科研与论文的禁小默机器学习神经网络人工智能
重要信息官网：www.icmlnn.org时间：2025年4月22-24日地点：中国-重庆简介2025年第二届机器学习与神经网络国际学术会议（MLNN2025）围绕学习系统与神经网络的核心理论、关键技术和应用展开讨论，涵盖深度学习、计算机视觉、自然语言处理、强化学习等多个子领域，通过特邀报告、主题演讲、海报展示等形式，展示相关领域的最新研究成果和技术创新。征稿主题神经网络机器学习深度学习算法及应用
万字深度解析：DeepSeek-V3为何成为大模型时代的“速度之王“？羊不白丶大模型算法
引言在AI军备竞赛白热化的2024年，DeepSeek-V3以惊人的推理速度震撼业界：相比前代模型推理速度提升3倍，训练成本降低70%。这背后是十余项革命性技术的叠加创新，本文将为您揭开这艘"AI超跑"的性能密码。DeepSeek-V3的技术路径证明：计算效率的本质是知识组织的效率。其MoE架构中2048个专家的动态协作，恰似人脑神经网络的模块化运作——每个专家不再是被动执行计算的"劳工"，而是具
神经网络中层与层之间的关联 iisugar 神经网络深度学习计算机视觉
目录1.层与层之间的核心关联：数据流动与参数传递1.1数据流动（ForwardPropagation）1.2参数传递（BackwardPropagation）2.常见层与层之间的关联模式2.1典型全连接网络（如手写数字分类）2.2卷积神经网络（CNN，如图像分类）2.3循环神经网络（RNN/LSTM，如文本生成）2.4Transformer（如机器翻译）3.层间关联的核心原则3.1数据传递的“管道
第二十一篇：伦理/道德Ethics flying_1314 NLP ethics 伦理/道德隐私偏见双重用途
目录什么是伦理/道德？我们为什么要关心？为什么道德很难？学习成果大纲反对NLP道德检查的论据我们应该审查科学吗？H5N1透明度不是更好吗？AIvs.Cybersecurity核心NLP伦理概念偏见词嵌入中的偏差双重用途OpenAIGPT-2隐私GDPRAOL搜索数据泄露小组讨论提示自动刑期预测自动简历处理语言社区分类打包带走~什么是伦理/道德？我们应该如何生活——苏格拉底•正确的做法是什么？•为什
Pytorch深度学习教程_9_nn模块构建神经网络 tRNA做科研深度学习保姆教程深度学习 pytorch 神经网络
欢迎来到《深度学习保姆教程》系列的第九篇！在前面的几篇中，我们已经介绍了Python、numpy及pytorch的基本使用，进行了梯度及神经网络的实践并学习了激活函数和激活函数，在上一个教程中我们学习了优化算法。今天，我们将开始使用pytorch构建我们自己的神经网络。欢迎订阅专栏进行系统学习：深度学习保姆教程_tRNA做科研的博客-CSDN博客目录1.理解nn模块：(1)使用nn.Sequent
如何使用Langchain加载AZLyrics网页到可用文档格式 dgay_hua langchain python
##技术背景介绍在处理歌词数据时，尤其是从网页上获取歌词文本内容，用于自然语言处理或文本分析是常见的需求。AZLyrics是一个提供歌词的主要平台，为我们提供了大量的歌词数据。如果我们可以将这些网页内容自动加载到结构化的文档格式中，将极大地提升我们处理和分析歌词的效率。##核心原理解析Langchain提供了一种简单的方式来将网页内容转换为可用的文档格式。通过使用其文档加载器（DocumentLo
图神经网络实战——分层自注意力网络盼小辉丶图神经网络从入门到项目实战神经网络人工智能深度学习
图神经网络实战——分层自注意力网络0.前言1.分层自注意力网络1.1模型架构1.2节点级注意力1.3语义级注意力1.4预测模块2.构建分层自注意力网络相关链接0.前言在异构图数据集上，异构图注意力网络的测试准确率为78.39%，比之同构版本有了较大提高，但我们还能进一步提高准确率。在本节中，我们将学习一种专门用于处理异构图的图神经网络架构，分层自注意力网络(hierarchicalself-att
基于 PyTorch 的 MNIST 手写数字分类模型欣然～ pytorch 分类人工智能
一、概述本代码使用PyTorch框架构建了一个简单的神经网络模型，用于解决MNIST手写数字分类任务。代码主要包括数据的加载与预处理、神经网络模型的构建、损失函数和优化器的定义、模型的训练、评估以及最终模型的保存等步骤。二、依赖库torch：PyTorch深度学习框架的核心库，提供了张量操作、自动求导等功能。torch.nn：PyTorch的神经网络模块，包含了各种神经网络层、损失函数等。torc
使用Titan Takeoff进行高效的自然语言处理模型推理 scaFHIO 自然语言处理人工智能 python
在自然语言处理(NLP)领域，每一家企业都在寻求更高效的模型训练和推理解决方案。TitanML的平台通过训练、压缩和推理优化帮助企业构建和部署更佳、更小、更便宜、更快速的NLP模型。特别是其推理服务器TitanTakeoff，使得在本地硬件上轻松部署大语言模型(LLMs)成为可能。技术背景介绍TitanTakeoff是TitanML提供的一项服务，它允许用户在本地硬件上运行推理工作负载。支持大多数
探索Google AI聊天模型的集成和使用 qahaj 人工智能 python
随着人工智能的飞速发展，GoogleAI的聊天模型提供了强大的自然语言处理能力，可以应用于多种场景中。本文将为你介绍如何通过GoogleAI和LangChain库来使用这些聊天模型。技术背景介绍GoogleAI提供了一系列强大的聊天模型，这些模型具备不同的功能和参数设置。它们不仅可以通过GoogleAI服务访问，还可以通过GoogleCloudVertexAI以企业级功能使用。在本文中，我们将重点
石油储运生产 2D 可视化，组态应用赋能工业智慧发展智慧园区智慧城市 big data 人工智能大数据物联网网络
当前，国际油价低位徘徊导致各国石油化工行业投资大幅缩减，石油化工建设行业竞争环境日趋严峻，施工企业的利润空间也被不断压缩。内外交困的环境下，促使企业采取更有效的管理手段来提高效率和降低成本。石油工业大数据具有无限潜力与价值，将大数据与数据挖掘技术应用其中，不仅可以提升石油行业工业化水平，而且对其智慧化发展起到强有力的推动作用。图扑软件-构建先进2D和3D可视化所需要的一切图扑软件采用自主研发的HT
高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
机器学习——分类、回归、聚类、LASSO回归、Ridge回归（自用）代码的建筑师模型学习模型训练机器学习机器学习分类回归正则化项 LASSO Ridge 朴素
纠正自己的误区：机器学习是一个大范围，并不是一个小的方向，比如：线性回归预测、卷积神经网络和强化学都是机器学习算法在不同场景的应用。机器学习最为关键的是要有数据，也就是数据集名词解释：数据集中的一行叫一条样本或者实例，列名称为特征或者属性。样本的数量称为数据量，特征的数量称为特征维度机器学习常用库：Numpy和sklearn朴素的意思是特征的各条件都是相互独立的机器学习（模型、策略、算法）损失函数
【论文阅读】Persistent Homology Captures the Generalization of Neural Networks Without A Validation Set 开心星人论文阅读论文阅读
将神经网络表征为加权的无环图，直接根据模型的权重矩阵构造PD。计算相邻batch的权重矩阵PD之间的距离。比较同调收敛性与神经网络的验证精度变化趋势摘要机器学习从业者通常通过监控模型的某些指标来估计其泛化误差，并在训练数值收敛之前停止训练，以防止过拟合。通常，这种误差度量或任务相关的指标是通过一个验证集（holdoutset）来计算的。因为这些数据没有直接用于更新模型参数，通常假设模型在验证集上的
NLP高频面试题（十）——目前常见的几种大模型架构是啥样的 Chaos_Wang_ NLP常见面试题自然语言处理架构人工智能
深入浅出：目前常见的几种大模型架构解析随着Transformer模型的提出与发展，语言大模型迅速崛起，已经成为人工智能领域最为关注的热点之一。本文将为大家详细解析几种目前常见的大模型架构，帮助读者理解其核心差异及适用场景。1.什么是LLM（大语言模型）？LLM通常指参数量巨大、能够捕捉丰富语义信息的Transformer模型，它们通过海量的文本数据训练而成，能够实现高度逼真的文本生成、复杂的语言理
卷积神经网络 - 理解卷积核的尺寸 k×k×Cin 谦亨有终 AI学习笔记 cnn 人工智能神经网络深度学习机器学习
卷积神经网络中，每个卷积核的尺寸为k×k×Cin，这一设计的核心原因在于多通道输入的数据结构和跨通道特征整合的需求。以下是详细解释：1.输入数据的结构输入形状：假设输入数据为三维张量，形状为H×W×Cin，其中：H：高度（Height）W：宽度（Width）Cin：通道数（Channelsin）多通道的物理意义：对于RGB图像，Cin=3（红、绿、蓝三通道）。对于中间层的特征图，Cin可能为64、
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
小白学AI量化：DeepSeek+Python构建强大的金融数据挖掘与多维分析机器人老余捞鱼 AI顾投高级策略 AI探讨与学习人工智能 python 金融 deepseek
作者：老余捞鱼原创不易，转载请标明出处及原作者。写在前面的话：在机构主导的量化交易时代，普通投资者如何用一杯奶茶的钱（15元/天）打造专业级智能量化产品？本文将为您揭秘一个革命性的解决方案——基于国产大模型DeepSeek和Python构建的智能数据挖掘分析机器人。它不仅适用于通用网页数据抓取，更能深度应用于金融领域，精准捕捉市场信号。本文“干货”很多，请务必耐心读完。一、颠覆认知的性价比革命1.
数据挖掘实战-基于机器学习的垃圾邮件检测模型艾派森数据挖掘实战合集数据挖掘机器学习人工智能 python
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
When Large Language Models Meet Speech: A Survey on Integration Approaches UnknownBody LLM Daily Survey Paper 语言模型人工智能自然语言处理
主要内容研究背景：大语言模型（LLMs）在自然语言处理领域取得显著进展，其与语音的融合具有广泛应用前景，但缺乏相关集成方法的综述。文章将语音与LLMs集成方法分为基于文本、基于潜在表示和基于音频令牌三大类。集成方法基于文本的集成：通过级联集成、LLM重打分和LLM生成式错误纠正等方式，利用文本作为LLMs的输入和输出，处理语音相关任务，但存在信息损失和准确性与多样性平衡的问题。基于潜在表示的集成：
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
【第1章＞第6节】CMAC小脑模型神经网络的理论学习与MATLAB仿真 fpga和matlab #第1章·神经网络学习 matlab CMAC 小脑模型神经网络人工智能
目录1.使用软件和版本2.CMAC小脑模型神经网络概述2.1CMAC网络结构2.2CMAC地址映射2.3学习过程3.CMAC网络的MATLAB编程实现4.分辨率，重叠度，学习率对CMAC网络的训练性能影响分析4.1分辨率4.2重叠度4.3学习率5.视频操作步骤演示欢迎订阅FPGA/MATLAB/Simulink系列教程《★教程1:matlab入门100例》《★教程2:fpga入门100例》《★教程
AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts

【论文阅读】开放域问答论文总结，文本召回与问答的另一种思路

【论文总结】开放域问答，纯文本召回与精排的另一种思路

前言

SCIVER: Verifying Scientific Claims with Evidence

任务介绍

数据样例

开放域问答

Reading Wikipedia to Answer Open-Domain Questions (2017)

Document Retriever

Document Reader

个人总结

Dense Passage Retrieval for Open-Domain Question Answering (2020)

Encoders

Training

End-to-end QA System

个人总结

Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering (2020)

Encoder

Decoder

result

个人总结

DISTILLING KNOWLEDGE FROM READER TO RETRIEVER FOR QUESTION ANSWERING (2021)

Reader

CROSS-ATTENTION SCORE

Retriever

Training

Result

个人总结

题外话

你可能感兴趣的:(NLP,自然语言处理,神经网络,数据挖掘)