每天都必须加油鸭

【KBQA综述-0】Complex Knowledge Base Question Answering: A Survey

Complex Knowledge Base Question Answering: A Survey（2021年10月）

前言
这是一篇对于复杂问题KBQA领域的详细综述，其工作主要集中在以下方面：

文章总结了当前复杂问题知识库问答领域所面临的一些难题，以及针对这些难题现存的思路和解决方法；
针对上一问题中提出的思路和方法分门别类，对于当前复杂问题KBQA领域的研究方向进行了梳理，并且对各研究方向上所用的主要算法、模型、表现进行了总结；
对在复杂问题KBQA中常用的知识库和数据集进行了介绍。

当前复杂问题知识库问答面临的问题

当前基于语义解析方法的解析器很难覆盖多样且复杂的问题，如把含多跳推理、约束关系和数字操作的问题。
复杂问题中更多的关系和主语使得在解析的过程中，对潜在逻辑形式的搜索空间大大增加。通常在解析的过程中，对于不同的实体会有枚举所有SPO的操作，这样也就很容易理解搜索空间的增大了。
无论对于基于语义解析的方法还是基于信息检索的方法，问题理解都是一个先导步骤。当问题变得复杂之后，模型就需要更加强大的自然语言理解能力和生成能力。
由于人工标记问题路径（从主体实体到答案实体的路径）的代价十分高昂，所以这一类的数据也就很稀少，这为模型的训练带来了问题，造成模型的训练通常在一个弱监督信号的条件下进行。

具体来说，复杂问题的知识问答分为两类：基于语义解析的知识库问答，基于信息检索的知识库问答。基于语义解析的知识库问答在拿到问题之后通过对问句的语义进行分析，构建出形式化的查询，通常是SPARQL语句，然后去知识库中查找答案。基于信息检索的知识库问答，在拿到问句之后根据问句中的实体在知识库中找出相应的子图，然后构建出主题实体到答案的路径，进而求解出答案。这篇文章对于两种方法具体化的分为了几个功能模块，并对每个功能模块面对的挑战进行了介绍。

论文章节内容：

介绍
背景知识，包含任务制定、基础知识等
可用的数据集以及这些数据集是如何构建的
介绍两种针对复杂知识问答的主流方法
针对两种主流方法，指出他们各自面对的典型挑战以及相应的解决方法
讨论了几个最近的研究趋势
总结本文的贡献

文章目录

一、知识库问答基础知识
- 1. 知识库介绍
- 2. 知识库问答任务的公式化定义
- 3. 传统方法
- 4. KBQA系统评估指标
二、常用数据集
三、基于语义解析的复杂问题知识库问答
四、基于语义解析的复杂问题知识库问答面对的问题和解决方法
- 1. 概括
- 2.复杂语句的语义和句法理解
- - 1）基于Seq2seq
  - 2）基于树结构或者图结构的逻辑形式候选排序
  - 3）解决状态转换构建候选查询图方法忽视问题语义结构的问题
- 3. 解析复杂问题
- 4. 在大搜索空间中落地
- 5.在弱监督信号中训练
- 6. 用到的模型和实现方法
五、当前一些新的研究方向

一、知识库问答基础知识

1. 知识库介绍

常用的大规模知识库有：Freebase [1], DBPedia [2], Wikidata [3] and YAGO [4]

知识库中的知识通常是三元组的格式
为了支持结构化查询，大规模开放知识库都是用RDF描述的，而SPARQL是常用来检索操作知识库的查询语言
不同的知识库有不同的构建目的、多变的配置、不同的模式设计。例如，Freebase由社区成员从很多资源收集而来，包括Wikipedia；YAGO将Wikipedia和WordNet作为知识源，涵盖了更加一般的概念的分类；WikiData是一个多语言知识库，它整合了多知识库资源，覆盖率和质量都很高。

对于知识库更加详细的对比可以看这里。

2. 知识库问答任务的公式化定义

知识库的公式化表达

$\mathcal{G} = \{|e,e^{'} \in \varepsilon, r \in \mathcal{R} \}$

其中， $< e, r, e^{^{'}} >$ 代表一个主语 $e$ 和谓词 $e^{'}$ 之间存在关系 $r$ 。 $\varepsilon$ 代表知识库中实体的集合， $\mathcal{R}$ 代表知识库中关系的集合。
问答任务的公式化定义
问题： $\{w_1,w_2, \cdots, w_m\}$ ，其中 $w_i$ 是问句中第 $i$ 个单词的token。
预测答案： $\tilde{\mathcal{A}}_q$ , 真实答案： ${\mathcal{A}}_q$
用于训练模型的数据集： $\mathcal{D}=\{(q,{\mathcal{A}}_q)\}$

当前的研究假设 ${\mathcal{A}}_q$ 提取自知识库的实体集 $\varepsilon$ 。这里要注意，对于简单问句，其答案实体往往和主题实体是直接相连的，其真是答案 ${\mathcal{A}}_q$ 真包含于实体集 $\varepsilon$ 。然而，对于复杂问句，其答案实体往往有多个而且离主题实体有好几跳的距离，甚至其答案是这些实体的聚合。

3. 传统方法

如下图所示是对简单问题的知识库问答框架，通常分为两步。

第一步是寻找问句中的主题实体，目的在于将一个问题和知识库中有关联的实体连接起来。在这个过程中，命名实体识别、消歧和链接都是在这一步完成。这一步通常用一些现成的实体链接工具，如：S-MART [24], DBpedia Spotlight [25], and AIDA [26]. 这里有实体链接工具的介绍。

第二步是用问题 $q$ 作为一个答案预测模型的输入，用这个模型来预测答案 $\tilde{\mathcal{A}}_q$ 。

论文中还讲了其他的方法，这里不一一赘述，详细可看论文。

值得一提的是，简单问题的知识库问答基本已经解决，这篇文章讲述了简单问题知识库问答的情况，而且附有源码，我个人认为是了解简单问答的一个很好的资料。相信对简单问答有了一些了解之后，对复杂问答的理解也会有帮助。

4. KBQA系统评估指标

总的说，对于一个KBQA系统的评估，可以从三方面进行：可靠性、健壮性、系统和用户的交互。

可靠性
评估指标有四个：准确率、召回率、F1值、Hits@1

准确率： $\frac{|\mathcal{A}_q \cap \tilde{\mathcal{A}_q}|}{|\tilde{\mathcal{A}_q|}}$

召回率: $\frac{|\mathcal{A}_q \cap \tilde{\mathcal{A}_q}|}{|\mathcal{A}_q|}$

F1 值 : $F_1 = \frac{2*Precision*Recall}{Precision + Recall}$

Hits@1:

这里的Hits@1是Hits@n中的n取1时的指标，而Hits@n是知识图谱嵌入中的常用指标，在知识图谱嵌入中n通常取3或者10。Hits@1有时会用在KBQA任务中。

Hits@n，主要用于三元组链接预测，假设有一个三元组的正例，目前已知三元组的主题实体，然后对这个三元组进行预测。进行了1次预测，这一次预测得到了m（n $\frac{M}{N}$

假设有两个正例
```
Jack   born_in       Italy
Jack   friend_with   Thomas
```
进行了两次预测
```
s        p         o            score   rank
Jack   born_in   Ireland        0.789      1
Jack   born_in   Italy          0.753      2  *
Jack   born_in   Germany        0.695      3
Jack   born_in   China          0.456      4
Jack   born_in   Thomas         0.234      5

s        p         o            score   rank
Jack   friend_with   Thomas     0.901      1  *
Jack   friend_with   China      0.345      2
Jack   friend_with   Italy      0.293      3
Jack   friend_with   Ireland    0.201      4
Jack   friend_with   Germany    0.156      5
```
其中后面带星的是正例。则：
```
Hits@3= 2/2 = 1.0
Hits@1= 1/2 = 0.5
```
健壮性
当前的很多KBQA数据集都是基于模板产生而缺乏多样性；
训练数据的规模因为人工标注的高代价而受到限制；
现在是数据爆炸的时代，训练数据集不可能覆盖所有的范围。

因此，提高模型的健壮性一直是一个重要的话题，如何使得模型可以覆盖不包含在训练集内的模式元素和领域是一个重要的研究方向。
系统和用户的交互
一个好的问答系统应该跟用户有良好的交互，当前离线的试验评估受到比较大的重视，然而和用户的交互这一方面收到了忽略。事实确实如此，此处不多余赘述、

二、常用数据集

此部分对复杂问题知识库问答中常用的数据集进行介绍分析。

原文中的章节对各个数据集的来源以及构建时的特殊性进行了详细的介绍，感兴趣可以去阅读原文。如果作为使用者，文中的TABLE 1已经足够：

其中LF\CO\NL\NU的含义如下：
LF：数据集是否提供类似SPARQL的逻辑形式（Logic Forms)
CO：数据集中是否含有包含约束（Constraints）的问题
NL：数据集的生成过程中是否雇佣人工对问题进行同意改写（NL, Natural Language)
NU：数据集中是否包含需要数字操作（Numerical operations）的问题，数字操作例如比较、排序等

三、基于语义解析的复杂问题知识库问答

在文章中是对基于语义解析的知识库问答和基于信息检索的知识库问答两种主要思路都进行了介绍，这里只看基于语义解析的方法，对基于信息检索的方法感兴趣可以去看原文。

总的来说，基于语义分析的方法执行的是一个 $p a rse - t h e n - e x c u t e$ 的流程，基于信息检索的方法执行的是一个 $re t r i e v e - an d - r ank$ 的流程。

此处只讨论语义解析的知识库问答流程。

第一步：完整的理解问题中的语义信息，这一步经常使用LSTM,GRU,当前使用BERT也很多，最终得到的是包含语义信息的编码后的问题
$\tilde{q} = Question\_Understanding(q)$

第二步：将第一步得到的编码后的问题作为输入，生成逻辑形式，提取问题中的逻辑结构信息。这一步可以通过序列生成或者对候选打分获得。实践中经常采用Seq2seq模型和基于特征的打分模型。（逻辑形式到底是什么样的形式？）
$Logical_Parsing ( q ~ ) \bar{l_q}=\text{Logical\_Parsing}(\tilde{q})$

第三步：将第二步得到的逻辑形式，针对具体的知识库进行实例化，生成可以在知识库中执行的查询 $l_q$ ，这个 $l_q$ 可以转化为SPARQL形式。值得一提的是， $l_q$ 中必然包含 $e_q$ ，这里的 $e_q$ 是通过实体链接得到的。在很多模型中，是将第二步和第三步结合在一起的。（实体链接在哪一步执行？）
$KB_Grounding ( l q ˉ , G ) l_q = \text{KB\_Grounding}(\bar{l_q},\mathcal{G})$

第四步：执行第三步得到的形式化查询得到预测答案
$KB_Execution ( l q ) \tilde{\mathcal{A_q} } = \text{KB\_Execution}(l_q)$

注意：

虽然没有特别说明，但是实体链接是在第一步中进行的，通过实体链接和关系检测找到实体和关系，从而根据找到的关系构建第二步的逻辑结构；
第三步的实例化是用实体链接中找到的实体；
在实践中，第二步的逻辑结构可以通过人工制定模板或者构建查询树等形式，例如对一跳问题提供一个逻辑形式，对两跳问题提供另一种逻辑形式；
当前复杂问题知识库问答的研究大多集中于第二步，努力提高第二步的效果，对于第二步来说，提升模型语义解析能力和设计更好的逻辑形式是提升性能的关键方法；
第一步的语义提取和实体链接等技术当前已经较为成熟。

四、基于语义解析的复杂问题知识库问答面对的问题和解决方法

1. 概括

前面已经将基于语义分析的知识库问答流程大致分为了四个阶段：Question understanding, Logical parsing, KB grounding, KB execution。不同的部分都面临相对的问题，概括的将有以下几个方面：

当问题的语义和句法更加复杂之后，问题理解（Question Understanding) 变得更加困难。
复杂问题更加多样化，逻辑解析（Logical parsing）很难覆盖全面。同时，复杂问题中更多的实体和关系使得搜索空间大大增加，从而降低分析的效率。
手动标注数据的成本太高，所以导致基于语义解析的方法缺乏良好的训练数据，只能在弱监督信号的条件下训练。

论文接着从四个方面对当前的研究情况进行总结，概括如下表，接下来我将详细说明。

2.复杂语句的语义和句法理解

作为SP-based的第一步，问题理解模块讲非结构化的转化为编码的问题，这对下游的分析有很大的作用，而复杂问题相对于简单问题更加难以提取其语义。

1）基于Seq2seq

为了更好的理解复杂自然语言问题，很多现存的方法依靠句法解析，例如基于依存性的【13】、【64】、【68】和AMR【72】，这样使得问题的成分与逻辑形式元素有更好的匹配。
为了减少对于复杂问题句法分析的不正确性，【73】利用基于骨架的分析法来获得复杂问题的主干部分，这样的一个主干包含一个具有几个待扩展分支的简单问句。例如，句子“What movie that Miley Cyrus acted in had a director named Tom Vaughan?”的主干是"What movie had a director?"，原句子中的定语从句则是分支。在这样一个骨架结构中，只有简单问题将被进一步解析，这样更有可能得到准确的解析结果。

2）基于树结构或者图结构的逻辑形式候选排序

【74】提出了一个新颖的打分模型，在这个模型中利用查询图结构和注意力权重明确的比较谓词和自然语言问题。具体来说，文中提出了一个细粒度的槽匹配机制，这个机制用于在核心推理链上对问题和每一个谓词进行跳宽度的语义匹配。
相较于捕捉问题和一个简单关系链之间的语义关联，【75】聚焦于查询的结构特征并以查询问题匹配的方式执行KBQA。他们用了一个结构感知编码器来为一个查询中的实体或关系上下文建模，从而提升查询和问题的匹配度。相似的，【77】使用了两个Tree-LSTMs[94]来分别为问题的依存关系树、候选查询的树结构进行建模，并且利用二者之间的结构相似性做综合排名。

3）解决状态转换构建候选查询图方法忽视问题语义结构的问题

传统方法采取状态转换策略来生成候选查询图。这种策略忽视了问题本身的结构性，这样讲导致一大批不合格的查询进入候选集。

为了过滤这些不合格的查询，【76】提出了预测问题的查询结构并以此限制候选查询生成的方法。具体来说，他们设计了一系列的操作来生成对一些类型的占位符，这些类型包括：数字操作，谓词，实体。在这之后，他们借助知识库将这些未实例化的逻辑形式落地，从而产生可执行的逻辑形式。通过这样的两阶段操作，含有非匹配结构的非法逻辑形式会被高效的过滤出去。

论文列表：

3. 解析复杂问题

为了生成一个可执行的逻辑形式，传统方法第一步利用现存的解析器讲一个问题转换为CCG派生，这个CCG派生可以通过在知识库中寻找相应的关系和实体与其谓词和论据相匹配，进而生成具体的SPARQL查询。

然而，由于这些方法存在本体错误匹配的问题，只能被当做复杂问题问答中的次优先级方法。因此，利用知识库的的结构来进行精准的解析就是必须的，这种精准的解析表现出来的是和知识库的事实高度一致。为了适应复杂问题的组合型，研究者提出了不同的逻辑表达形式作为解析的目标。

由于在前面的步骤已经得到了主题实体，【78】从主题实体出发，设计了三种查询模版作为解析的目标。如下图所示，前两种模板返回跟主题实体‘Titanic’相距一跳或者两跳距离的实体。第三种模版返回跟主题实体的距离在两跳以上以及被其他实体限制的实体。这种方法虽然可以成功解析几种类型的复杂问题，但是它受到覆盖面有限这一缺陷的约束。【79】与此论文类似，他集中精力设计可以处理时态问题的模板。
【36】提出了将查询图作为表达解析的目标。一个查询图是一种图形式的逻辑形式，它和知识库模式相匹配，并且可以转化为一个可执行的SPARQL。查询图包含试题，变量和函数，他们分布对应问题中提到的固定实体，要查询的变量、聚合操作。就像图5所示，从主题实体出发的推断链首先被确定，然后约束实体和聚合操作被附加到路径链上，从而使得可以适应更加复杂的问题。不同于与定义的模板，查询图不受跳数以及约束数量的限制。这一方法在复杂问题知识问答任务中展现了强大的表达能力，但这一方法的缺陷是尚不能处理长尾类型的复杂问题。
基于对长尾问题的更多观察，【64】尝试通过增加句法提示来增加查询图的结构复杂性，进而可以提升查询图的公式，【12】尝试应用更多的聚合操作，例如合并、共指消解等来适应复杂问题。
Tips
CCG(combinatory categorial grammars，组合范畴文法)，CCG的作用是提供一个从自然语言的语法到语义的转化，能够作为将自然语言转换为数据库查询结构的工具。具体内容较多，在ReadPaper的相关知识中有介绍的PPT，后面需要再仔细学习。

共指消解：将现实世界中同一实体的不同描述合并到一起。

论文列表：

4. 在大搜索空间中落地

为了得到可执行的逻辑形式，知识库链接模块利用知识库将可能的逻辑形式实例化。知识库中的一个实体常常关联到成百上千个实体，在这样的情况下进行知识库链接和搜索的时间代价以及计算复杂度都是极高的。相比于在一步之中枚举逻辑形式，研究者们尝试在多步中生成复杂查询。

【80】提出先将复杂问题分为几个简单问题，将这些简单问题解析为简单逻辑形式。然后将这些简单逻辑形式进行拼接或者组合从而得到最终的逻辑形式。这种 decompose-execute-join 的方式有效的缩减了搜索空间。【81】类似的提出通过利用扩展的指针网络([55])来识别通过连接或合成获得的最终答案，从而减少了人工注释。

除了采用分解复杂问题从而得到子问题的方法，有很多学者采用了 expand-and rank 的方法来缩小搜索空间，通过一种以迭代方法扩展逻辑形式的方法。具体来说，第一个迭代中找出与主题实体只有一条距离的实体作为候选实体，然后通过比较问题和逻辑形式的语义相似性来给这些候选实体打分，然后得分较高的一部分实体将继续扩展，而低分的将被舍弃。接下来，得高分的逻辑形式将会被继续扩展，这样就能够得到更加复杂的查询图。每当找到最佳的查询图，这一过程就会停止。

【47】首先使用逐条贪婪搜索扩展最可能查询图。
【82】提出了一种增量式序列匹配模块，可以迭代地解析问题，而不需要在每个搜索步骤中重新访问生成的查询图。
【83】不同于以上提出的线性方法，这样的线性方法只有在多条关系上效率较高。在这篇论文中在每个迭代中定义了三个动作：扩展、连接、聚合，其分别对应多条推理、约束关系和数值运算。

论文列表：

5.在弱监督信号中训练

【63】，【86】为了解决训练数据的有限性和不充分性，基于强化学习的优化被用来最大化期望奖励。

使用强化学的方式，在基于语义解析的方法中只能在完全解析后的逻辑形式执行之后得到反馈，这会导致严重稀疏的正奖励和虚假推理问题。为了解决这些问题，一些研究工作采用了句法分析评价的整形策略。

【84】通过附加反馈，当预测的答案和事实是同一类型时，给模型奖励。除了来自最终预测的奖励，再语义分析过程中的即时奖励也可能会帮助解决这一问题。
【86】将查询图生成问题转为一个层次化决策问题，并且提出来一个基于选择的层次框架来为低层次的agent提供奖励。在决策过程中的选择时，高等级的agent在中间步骤为低等级的agent设定目标。同时，为了检测低等级的agent的中间状态是否达到了高等级agent的目标，他们评估所给的问题和生成的三元组的语义相似度。
【63】为了加速和稳定训练过程，这篇文章提出通过迭代最大似然训练过程来保持pseudo-gold program。训练的过程包含两部分，第一步，利用BEAM搜索机制来查找 pseudo-gold programs，第二步，在历史上发现的最好的program的监督下优化模型。【87】提出了一个相似的想法，通过将个生成的逻辑形式和缓存中存储的得到最高经历的逻辑形式进行对比来评估生成的逻辑形式。为了在开发和探索之间取得平衡，他们提出了接近奖励和新奇奖励来鼓励记住过去的高奖励逻辑形式并产生新的逻辑形式，通过这样一种两种方式来分别减轻虚假推理。将这种奖励与终端奖励相结合，模型可以再学习阶段获得密集的反馈。

论文列表：

6. 用到的模型和实现方法

五、当前一些新的研究方向

自学习的KBQA
更加强健的KBQA系统（能应对数据集分布之外分别的问题）
更加广泛的知识库
对话式的KBQA

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文

【KBQA综述-0】Complex Knowledge Base Question Answering: A Survey

文章目录

一、知识库问答基础知识

1. 知识库介绍

2. 知识库问答任务的公式化定义

3. 传统方法

4. KBQA系统评估指标

二、常用数据集

三、基于语义解析的复杂问题知识库问答

四、基于语义解析的复杂问题知识库问答面对的问题和解决方法

1. 概括

2.复杂语句的语义和句法理解

1）基于Seq2seq

2）基于树结构或者图结构的逻辑形式候选排序

3）解决状态转换构建候选查询图方法忽视问题语义结构的问题

3. 解析复杂问题

4. 在大搜索空间中落地

5.在弱监督信号中训练

6. 用到的模型和实现方法

五、当前一些新的研究方向

你可能感兴趣的:(复杂问题知识库问答,人工智能,python,深度学习,自然语言处理)