Maka_uir

Read + Verify: Machine Reading Comprehension with Unanswerable Questions 论文阅读笔记

原文链接：http://cn.arxiv.org/pdf/1808.05759

Read + Verify: Machine Reading Comprehension with Unanswerable Questions

本篇文章创新点：

1 提出了reader - vertify 结构，首先生成一个答案，再验证答案的合理性
2 提出了三种模型
3 提出了两个独立的loss函数作为辅助

摘要部分

没有答案的情况也是机器阅读理解的任务之一，目的是在无法推断答案的情况下不进行回答。之前的工作主要集中在预测没有答案的概率来判断是否有答案，然后他们并没有通过考虑判断答案的合理性性来判断答案是否存在，因此作者提出一种read-then-vertify的模型，它不仅能够利用神经网络从候选答案中进行抽取，并且产生无答案概率，而且利用一个答案验证器来决定预测的答案是否来源于输入的片段。此外，引入两个新的loss函数来辅助reader模型能够更好的解决答案抽取过程中没有答案的情况。然后再SQuAD数据集上取得了优异的结果。

一、简介部分

首先感谢前人的工作。然而，当前所研究方法基于一个重要的假设就是在文章的范围内必定存在一个正确的答案。因此，模型只需要根据问题选择一个最合理的文章范围，而不需要检查答案是否存在。最近SQuAD 2.0提出测试问题答案并且解决没有答案的情况，为了处理无法回答的问题，系统必须学会识别大量的语言现象，如否定、反义词和问题之间的实体变化。

之后就是related work，存在的问题就是前人的工作没有验证所生成的答案是否合理，为了解决上述问题，本文提出了一种新的“read-then-vertify”系统。如图1所示，我们的系统由两个部分组成：

(1)一个用于提取候选答案和检测无法回答问题的无答案阅读器;
(2)一个用于决定提取的候选答案是否合法的答案验证器

主要工作主要集中在以下三个方面：

首先，我们在现有的阅读器上增加了两个辅助的loss函数，这两个函数能够使模型更好的抽取答案，并且也能够检测没有答案的情况。由于在后续的验证阶段总是需要一个答案，因此对于不能回答的答案reader模型也要抽取一个答案。然而，以前的方法并没有解决答案不存在时候的情况。作者通过引入一个独立的损失函数来解决这个问题，该损失函数目的在于问题答案的提取，而不考虑答案的存在清理。为了不与无答案检测过程相冲突，利用一个多头网络生成两个得分，其中一个得分是对没有答案概率进行标准化，另一对用于辅助损失函数。此外，我们还提出了另一种没有答案时候的损失函数，以进一步减轻冲突，方法是将重点放在无答案检测任务上，而不考虑答案抽取任务。

其次，除了一般的阅读理解过程，作者还引入了一个额外的答案验证环节，旨在通过比较回答句和问题，找到支持答案的佐证。这是基于一种常识性的认识，无法回答的问题通常出现在一些段落词和问题词之间。以图1为例，在将文章片段“诺曼底，法国的一个地区”与问题进行比较后，我们可以很容易地确定没有答案存在，因为问题要求一个不可能的条件。我们研究了三种用于回答验证模型的体系结构。第一个是序列模型，它把两个句子作为一个长序列，而第二种方法则是在两个句子之间进行交互推理。最后是一个混合模型，它结合了上述两个模型的优点并进一步提高。

最后，我们在SQuAD 2.0(Rajpurkar et al.， 2018)上评估了我们的系统，这是一个增加了无法回答问题的阅读理解基准。我们最好的reader model在开发集上的F1得分为73.7和69.1，无论有没有使用ELMo embeddings (Peters et al.， 2018)。结合答案验证器，整个系统分别提高到74.8 F1和72.3 F1。此外，最好的系统在测试集上的得分为74.2 F1，在提交时超过了之前的所有方法。

二、背景部分

2.1 问题综述

给定上下文和问题，机器不仅需要找到问题的答案，还需要检测无法回答的情况。文章和问题表示为一个词条序列，记为P = x_p, Q = x_q，其中l_p为文章长度，l_q为问题长度。我们的目标是通过预测产生一个答案A ，由文章中的一段文字组成:A = x_p x_p 在 l_a 与 l_b 范围内，la和lb表示答案边界，如果没有答案返回一个空字符串。（这个与MS数据集不同，答案是抽取的，那个是生成的和抽取相结合的）

2.2 无答案抽取模型

为了预测答案的范围，目前的方法首先将文章和问题做embedding并编码成两个大小相同的向量。然后他们利用各种attention机制，如bi-attention(Seo et al.， 2017)或reattention (Hu et al.， 2018a)，构建文章和问题的相似性特征，分别记为U = u_i 和 V = v_j。总结一下就是利用指针网络(Vinyals et al.， 2015)对表示答案边界的短文词进行打分(Wang et al.， 2017)。

其中 α和β是一个范围得分，表示答案的开始和结束。为了进一步检测问题的答案是否存在，以前的方法 (Levy et al.,2017; Clark and Gardner, 2018) 除了预测答案范围的分布以外还进一步预测没有答案的概率。具体地说，一个共享的softmax函数可以对有无答案的预测和范围预测的概率进行标准化，产生一个综合的无答案损失，定义为:

a和b是数据中给出的开始和结束位置,δ是1代表有答案，0则代表没有答案。在测试时，一旦归一化的无答题分数超过某个阈值，就会发现问题是没有答案的。

三、方法部分

在本节中，我们描述了我们提出的read-then-verify模型。该系统首先使用神经网络提取候选答案，并检测问题是否无法回答。然后利用答案验证器进一步验证预测答案的合理性。我们用两种新的辅助损失函数来帮助模型提升准确性，并研究了三种不同的结构来验证答案

3.1 Reader with Auxiliary Losses

虽然之前的no answer reader 能够共同学习答案抽取和有无答案检测，但是每个任务都存在两个问题。对于答案的提取，之前的方法中，没有人通过训练reader去寻找没有答案问题的情况。在我们的系统中，reader需要提取一个似乎可信的答案，然后反馈给接下来的问题验证阶段。由于span分数和no-answer分数之间共享loss，可能会引发冲突。由于这些标准化分数的总和总是1，一个大了另一个就会减小，反之亦然。因此， Clark and Gardner (2018)提出答案提取的不准确的loss可能会导致对没有答案检测的不精确预测。针对以上问题，我们提出了两个辅助损耗，在不互相干扰的情况下独立优化和增强每个任务的性能。

Independent Span Loss:

这种损失的目的是关注回答的抽取。在这项任务中，要求模型为所有可能的问题选取候选答案。因此，除了可回答的问题外，我们还将不可回答的案例作为积极的例子，并将似是而非的答案视为标准答案。为了不与无答案检测冲突，我们建议使用多头指针网络另外生产一对跨度分数α和β

多头机制共享相同的网络架构，但是参数不同。

然后，我们将独立的跨度损失定义为：

其中a和b是真实回答边界。最后的范围概率是使用两个softmax简单平均得到的。

Independent No-Answer Loss

尽管使用了一个多头指针网络来防止冲突问题，但由于没有答案的概率z是用span分数标准化得到的，所以仍然可以对答案存在检测产生影响。因此，我们考虑更加偏向答案存在检测的预测。这是通过引入一个独立的loss实现的 :

其中σ是sigmod活函数。通过这个loss，我们期望该模型在不考虑共享loss的操作情况下，对有无答案的预测更加理想。

最后，我们将上述损失函数合并如下：

γ和λ两个超参控制两个辅助的损失函数。

3.2 Answer Verifier

提取答案后，使用回答验证器将回答句与问题进行比较，来判断支持答案的局部文本信息。在这里，我们将回答句定义为包含标准答案或似是而非答案的上下文句。我们为验证任务探索了三种不同的体系结构(如图2所示):

(1)将输入作为长序列的顺序模型;
(2)将两个句子相互编码的交互模型;
(3)将这两种方法都考虑在内的混合模型

Model-I: Sequential Architecture

在模型A中，我们将标注答案和问题以及提取的答案转换输入序列。然后我们采用最近提出的Finetuned Transformer模型(Radford et al.， 2018)来完成这项任务。该模型是一种多层Transformer decoder(Liu et al.， 2018a)，它首先在一个大的未标记的文本语料库上训练语言建模目标，然后对特定的目标任务进行精细训练。具体来说，给定一个回答句S、一个问题Q和一个提取的答案A，我们将两个句子与答案连接起来，并在两者之间添加分隔符以得到[S;Q;＄;A]。该序列也可以表示为一系列Token X，然后通过multi head self attention 进行编码，然后根据位置进行feed-forward编码

其中X为vocab中序列的索引，W_e 为令牌嵌入矩阵，Wp为位置嵌入矩阵，n为层数。然后将最后一个隐层输入到线性投影层，然后使用softmax函数输出有无答案概率y：

使用标准的交叉熵作为loss:

Model-II: Interactive Architecture

由于Answer Verifier需要对两个句子之间的关系进行建模，因此我们还考虑了一种基于交互的方法，它有以下几层:

Encoder:我们使用Glovd 来做embedding(Pennington et al.， 2014)，并且同时对字符进行了embedding。我们运行一个双向LSTM (BiLSTM) (Hochreiter和Schmidhuber, 1997)来编码字符并连接最后两个隐藏状态，以获得character embedding。此外，我们还使用二进制特性来表示一个单词是否是答案的一部分。然后，所有嵌入和特性一起被一个权重共享的BiLSTM连接和编码，生成两组上下文表示:

其中l_s为回答句长度，且[·;·]表示连接。

然后应用mean- max pooling(平均最大池化层)生成两个句子的表示。然后将所有的汇总向量连接到一个前馈分类器中，该分类器由带有gelu激活的投影层和softmax输出层组成，产生无答案概率。与之前一样，我们优化了负对数似然目标函数

Model-III: Hybrid Architecture

为了探索如何将模型A和模型B提取的特征进行集成以获得更好的表示能力，我们研究了上述两种模型的组合，即Model-C。我们将两个模型的输出向量合并成一个联合表示。然后使用统一的前馈分类器输出无答案概率。来探索一下两个模型综合的效果。在实践中，我们使用一个简单的连接来合并两个信息源。

实验部分

我们的no answer reader 使用是上下文段落进行训练，而answer接受的是oracle回答句的训练。模型A遵循无监督预处理和监督优化的过程。也就是说，首先使用语言建模目标对大型未标记文本语料库进行优化，以初始化其参数。然后将参数调整到与监督目标相适应的答案验证任务。对于ModeB，我们直接用监督损失来训练它。然而，ModelC包含两个不同的体系结构，它们需要不同的培训过程。因此，我们使用model A和model B的预训练参数初始化modelC，然后对整个模型进行微调，直到收敛

在测试阶段，reader首先会预测出候选的答案，以及无答案的概率。然后，answer verfity 验证所提取的答案及其句子，并输出句子级别的概率，一旦联合无答案概率(计算为上述两种概率的平均值)超过某个阈值，就会发现问题是无法回答的。我们调优这个阈值以最大化开发集上的F1得分，并报告EM(精确匹配)和F1指标。我们还使用精度度量(ACC)来评估无应答检测的性能，默认情况下其阈值设置为0.5

实验设置

我们使用Reinforced Mnemonic Reader阅读器(RMR) (Hu et al.， 2018a)作为我们的基础阅读器，它是SQuAD1.1数据集中的最先进的阅读理解模型之一。使用了其默认参数，训练了无应答目标和我们的辅助损失。ELMo(嵌入语言模型)(Peters et al.， 2018)被单独列在我们的实验配置中。的hyper-parameterγ是设置为0.3,λ= 1。至于答案验证器，我们使用Radford et al.(2018)的原始配置来进行模型A。对于ModelB，使用学习率为 0.0008 的Adam optimizer (Kingma and Ba, 2014)，将隐藏层的size设置为300，使用dropout (Srivastava et al.， 2014) 0.3，防止过度拟合。读取器的批处理大小为48，模型A的批处理大小为64，模型V为32。我们使用Glove(Pennington et al.， 2014) 100D嵌入用于阅读器，300D嵌入用于ModelB和ModelC。我们使用nltk标记来预处理段落和问题，以及分割的句子。段落和句子被截断，分别不超过300字和150字。

实验结果

总结部分

我们提出了一种“先读后验证”的系统，当一个问题没有答案的时候，这个系统可以避免回答。我们首先引入两个辅助损失，帮助读者分别专注于答案提取和无答案检测，然后使用一个答案验证器来验证预测答案的合法性，其中考察了三种不同的体系结构。我们的系统在团队2.0数据集上取得了最先进的成果，在提交时(2018年8月23日)超过了所有以前的方法。展望未来，我们计划为答案验证模型设计新的网络结构，该模型需要用更复杂的推理来处理问题

延伸阅读文章：

https://arxiv.org/pdf/1806.03822.pdf Know what you don’t know: unanswerable questions for squad SQuAD 2.0 版本

https://arxiv.org/pdf/1802.05365.pdf Deep contextualized word representations （ELMo embeddings）文章中用到了

无答案预测：

http://www.aclweb.org/anthology/K/K17/K17-1034.pdf Zero-shot relation extraction via reading comprehension.

http://cn.arxiv.org/pdf/1710.10723 Simple and Effective Multi-Paragraph Reading Comprehension

文本蕴含

https://arxiv.org/pdf/1606.01933.pdf A Decomposable Attention Model for Natural Language Inference

答案预测

http://tcci.ccf.org.cn/conference/2018/papers/106.pdf Modeling Answer Validation for Machine Reading Comprehension

（LeetCode）Java 求解最长回文子串南淮北安冲刺大厂之 Java 刷题笔记 leetcode 字符串动态规划 java 算法
文章目录一、题解二、常规理解三、简单理解四、总结一、题解给定一个字符串s，找到s中最长的回文子串。你可以假设s的最大长度为1000。示例1：输入:“babad”输出:“bab”注意:“aba”也是一个有效答案。示例2：输入:“cbbd”输出:“bb”二、常规理解思路就是创建一个二维数组，boolean[][]flag,flag[i][j]表示字符串第i到j是否是回文。边界：字符串长度为1是为TRU
Java 数据类型详解：从初学者到理解底层原理超浪的晨 java合集开发语言 java 后端
作为一名Java开发工程师，你可能已经对数据类型有了一定的了解。但无论你是刚入门的新手，还是想系统回顾基础知识的老手，这篇文章都将帮助你全面、深入地掌握Java中的数据类型。一、什么是数据类型？在Java中，数据类型（DataType）决定了变量可以存储什么类型的数据，以及该变量占用多少内存空间。Java是一种静态类型语言，也就是说，在声明变量时必须指定其数据类型。Java的数据类型可以分为两大类
STM32定时器详细教程楠离啊 c语言 stm32 嵌入式硬件单片机
STM32定时器1.引言STM32微控制器以其丰富的外设和强大的性能，在嵌入式领域得到了广泛应用。其中，定时器作为其核心外设之一，在实现精确时间控制、波形生成、事件测量等方面发挥着不可替代的作用。本教程将深入探讨STM32定时器的分类、工作原理、主要寄存器配置以及常见应用，旨在帮助读者全面理解并熟练运用STM32定时器。2.STM32定时器分类STM32系列微控制器通常包含以下三类定时器：基本定时
194、Django Channels实战：构建实时WebSocket应用多多的编程笔记 django websocket sqlite
DjangoChannels：实现WebSocket与实时通信本文将向您介绍Python开发框架Django中的一个重要组件——DjangoChannels，它使得在Django中实现WebSocket通信变得轻而易举。通过阅读本文，您将了解WebSocket的概念、DjangoChannels的工作原理以及如何在实际项目中使用它来实现实时通信。1.WebSocket：实现快速双向通信在介绍Dja
QML Property属性语法 Little-Hu QML 数据库开发语言 QML
QML作为Qt框架中的声明式UI语言，其property属性是构建动态用户界面的核心要素。property不仅是存储数据的容器，更是实现数据绑定、组件通信和状态管理的基石。本文将全面剖析QML中property属性的语法特性、使用场景和最佳实践，帮助开发者深入理解并高效运用这一重要机制。一、Property属性基础1.属性定义与声明在QML中，property属性用于存储对象的状态信息，其基本声明
JWT鉴权的流程和原理 hwg985 八股-java基础 Java 鉴权 JWT
文章目录1\.JWT的原理：它是什么构成的？a)第一部分：Header(头部)b)第二部分：Payload(载荷)c)第三部分：Signature(签名)2\.JWT的鉴权流程3\.JWT的优缺点优点：缺点：好的，我们来详细、清晰地介绍一下JWT（JSONWebToken）的鉴权流程和其背后的原理。这是一个在现代Web应用和API安全中非常核心的概念。我将用一个通俗的比喻来帮助你理解：传统的Ses
LinkedList数据结构链表辞暮尔尔-烟火年年集合数据结构链表
LinkedList在Java中是一个实现了List和Deque接口的双向链表。它允许我们在列表的两端添加或删除元素，同时也支持在列表中间插入或移除元素。在分析LinkedList之前，需要理解链表这种数据结构：链表：链表是一种动态数据结构，由一系列节点组成，每个节点包含数据部分和指向列表中下一个节点的引用。双向链表：每个节点都有两个链接，一个指向前一个节点，另一个指向后一个节点。LinkedLi
JVM垃圾回收算法全解析：从基础到GC调优实战 Java大师兄学大数据AI应用开发 AI人工智能与大数据应用开发 AI实战 jvm 算法 ai
JVM垃圾回收算法全解析：从基础到GC调优实战关键词：JVM、垃圾回收算法、基础原理、GC调优、实战应用摘要：本文将全面深入地解析JVM垃圾回收算法，从最基础的概念开始讲起，帮助读者理解垃圾回收的本质和原理。接着详细介绍各种常见的垃圾回收算法，并用通俗易懂的方式解释其工作机制。之后通过实战案例展示如何进行GC调优，让读者不仅了解理论知识，还能掌握实际应用技能。最后对垃圾回收的未来发展趋势进行探讨，
虚拟数据室：数据管理的创新解决方案办公效能师人工智能网络大数据
在当今数字化驱动的商业世界里，数据已然成为企业最具价值的资产之一。从机密的商业计划、敏感的财务报表，到关乎知识产权的研发资料，海量且多样的数据贯穿于企业运营的每一个环节。然而，传统的数据管理方式在面对日益增长的数据量、复杂的协作需求以及严苛的安全监管要求时，显得力不从心。此时，虚拟数据室作为一种创新的数据管理解决方案，正以前沿的科技手段和卓越的管理效能，重塑数据管理格局，为企业筑牢数据根基、释放数
python 会议室预约系统解决方案_会议预约系统_智能会议预约管理系统_轻松实现会议管理解决方案... weixin_39779032 python 会议室预约系统解决方案
随着社会的发展，会议预约管理系统在近年来呈现高速发展，但是各种等级层次不齐。现代办公会议室是组织的公共资源，会议室及其附属的设备构成召开会议的基础环境。广州朗歌公司以提高会议效率为焦点，以会议全过程管理为理念，开发了会议预定管理系统产品。会议室预约管理系统的目标是为会议的准备提供便捷的服务，实时动态的将会议室预定信息，传递到每个会议室门口、大厅及楼梯口等公共通道的显示屏上，实现会议信息发布引导功能
ALLinSSL：一站式SSL证书管理解决方案 ivwdcwso 安全 ssl 网络协议网络安全运维证书
引言在当今互联网安全日益重要的背景下，SSL证书已成为保护网站安全的必备工具。然而，管理多个SSL证书常常是一项繁琐且容易出错的任务。ALLinSSL应运而生，它提供了一个一站式的SSL证书管理解决方案，大大简化了证书的申请、安装和更新过程。本文将深入介绍ALLinSSL的特性、使用方法以及它如何revolutionizeSSL证书管理。ALLinSSL是什么？ALLinSSL是一个综合性的SSL
【网络安全】SSL/TLS协议运行机制详解秋说 ssl 网络网络安全
未经许可，不得转载。文章目录为什么使用SSL/TLSSSL/TLS的历史SSL/TLS运行过程握手过程详解1、客户端请求（ClientHello）2、服务器回应（ServerHello）3、客户端回应4、服务器的最后回应互联网通信的安全性，几乎完全依赖于SSL/TLS协议。理解这一协议的工作机制，对于确保网络安全至关重要。为什么使用SSL/TLS如果不使用SSL/TLS，HTTP通信将完全以明文形
STM32中断系统完全指南：从NVIC原理到实战应用阿牛的药铺 STM32裸机开发 stm32 单片机嵌入式硬件
STM32中断系统完全指南：从NVIC原理到实战应用一、中断基础：嵌入式系统的"紧急通道"中断是STM32微控制器中最重要的机制之一，它允许处理器在正常运行程序时，对外部事件或内部条件做出即时响应。想象一下，当你正在看书时，突然电话铃声响起，你会先做个书签标记当前阅读位置，然后接听电话，通话结束后再回到原位置继续阅读——这就是中断的生动比喻。在STM32中，中断的工作流程可分为三个阶段：中断响应：
AI时代的人类增强：道德考虑与身体增强的未来发展机遇分析机遇挑战 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战 Agentic AI 实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
AI时代的人类增强：道德考虑与身体增强的未来发展机遇分析机遇挑战关键词：人工智能、身体增强、道德考虑、未来发展、机遇挑战摘要：本文将探讨AI时代人类增强的各个方面，包括道德考虑和身体增强技术的未来发展机遇与挑战。通过详细分析AI技术基础、身体增强技术、道德哲学及社会影响，本文旨在为读者提供对这一前沿领域的深入理解和前瞻性思考。目录大纲AI时代的人类增强：道德考虑与身体增强的未来发展机遇分析机遇挑战
Android阴影效果的艺术与实现：从入门到精通大模型大数据攻城狮 android 安卓动画 canvas paint android阴影安卓面试 android面经
目录1.阴影的本质：为什么它对UI如此重要？2.深入MaterialDesign：理解Z轴与阴影层次3.兼容老版本：用Drawable实现阴影4.高级技巧：自定义OutlineProvider5.用Canvas绘制自定义阴影：解锁无限可能6.阴影性能优化：让丝滑体验飞起来7.JetpackCompose中的阴影实现：拥抱现代化8.动态阴影动画：打造炫酷交互效果9.RecyclerView中的阴影实
【深入理解Linux锁机制】五、衍生自旋锁 dong__ge 深入理解Linux驱动程序开发 #Linux内核锁 Linux锁机制 Linux锁内核锁 Linux驱动开发 Linux
系列文章：我的圈子：高级工程师聚集地【深入理解Linux锁机制】一、内核锁的由来【深入理解Linux锁机制】二、中断屏蔽【深入理解Linux锁机制】三、原子操作【深入理解Linux锁机制】四、自旋锁【深入理解Linux锁机制】五、衍生自旋锁【深入理解Linux锁机制】六、信号量【深入理解Linux锁机制】七、互斥体【深入理解Linux锁机制】八、完成量
FFmpeg、WebAssembly 和 WebGL 在 Web 端的结合应用醉方休 ffmpeg wasm webgl
FFmpeg、WebAssembly和WebGL在Web端的结合应用这三个技术组合可以创建强大的浏览器端多媒体处理解决方案，下面我将详细介绍它们如何协同工作。1.FFmpeg与WebAssemblyFFmpeg.wasm项目概念：将FFmpeg编译为WebAssembly在浏览器中运行特点：完全在浏览器中执行视频/音频处理无需服务器转码保护用户隐私（数据不离客户端）基本使用示例import{cre
Fiber是什么? 醉方休 react.js
对React的Fiber架构的理解需要从React的核心目标与面临的挑战说起。它本质上是React16引入的全新协调（Reconciliation）引擎，旨在解决React15及之前版本在处理大型应用和复杂更新时遇到的根本性性能瓶颈和用户体验问题。核心理解：Fiber是什么？虚拟的底层数据结构：Fiber是对React组件、DOM节点或其他UI元素的轻量级、链式表示的JavaScript对象。每个
邻近巷道爆破振动模拟与可视化：计算力学的工程应用碳酸的唐动态规划数学建模
引言隧道爆破施工是现代工程建设中常用的方法，但爆破产生的振动会对周围结构和地质环境产生影响。本文介绍一个基于Python的邻近巷道爆破振动模拟系统，该系统通过数值计算模拟爆破引起的应力波传播过程，并提供多种可视化方式展示振动效应。本研究对于理解爆破振动机理、评估爆破安全距离以及优化爆破参数具有重要意义。理论基础爆破应力波传播模型爆破引起的应力波在岩体中的传播可通过弹性波动理论描述。在均匀介质中，应
分布式数据库设计——分布式数据库的基础概念庄小焱数据库域数据库
摘要分布式数据库设计系列将分为四个大的部分。将从以下四方面让大家对分布式数据库的设计和使用有深入的理解。模块一，分布式数据历史演变及其核心原理。从历史背景出发，讲解了分布式数据库要解决的问题、应用场景，以及核心技术特点。模块二，分布式数据库的高性能保证——存储引擎。这是专栏的亮点内容，简要展示了现代数据库的存储引擎，比如典型存储引擎、分布式索引、数据文件与日志结构存储、事务处理。其中，我会特别介绍
虚拟机与容器技术详解：VM、LXC、LXD与Docker AnsonNie 笔记 docker 容器运维
虚拟机与容器技术详解：VM、LXC、LXD与Docker引言虚拟化技术是现代IT基础设施的核心，它通过抽象硬件资源提高利用率并实现环境隔离。目前主流的虚拟化方案可分为两类：虚拟机（VM）和容器技术。虚拟机模拟完整的硬件环境，而容器则共享主机操作系统内核，二者各有优势。本文将详细解析虚拟机、LXC、LXD和Docker的技术原理、差异及2025年最新发展动态，帮助读者理解如何根据场景选择合适的虚拟化
在python中function啥类型_Python中function和method
这两个概念已经有很多人解释过了，从本文的『参考』中就可以看出来。之所以还要写一篇这个主题，主要是为了用自己的语言表述一下，并且尽可能的讲的清楚一点。泛泛地说，function是一般意义上的函数，即对一段代码的封装，并由一个地址(函数名)来调用。method通常是面向对象的概念，即method是属于一个类或类的对象的。method是与类或类的对象相关的函数。下面讲一下我对这两个概念的更具体的理解。如
【Note】《深入理解Linux内核》 Chapter 15 ：深入理解 Linux 页缓存 CodeWithMe 读书笔记 linux linux 缓存 spring
《深入理解Linux内核》Chapter15：深入理解Linux页缓存关键词：页缓存、address_space、radixtree、page、writeback、dirtypage、mmap、文件系统缓存、文件I/O性能优化、directI/O一、页缓存是什么？为什么重要？1.1定义页缓存（pagecache）是Linux内核用于缓存文件内容的内存区域，避免每次文件读写都访问磁盘。1.2页缓存的
Cursor Rules优化实战：构建高效稳定的AI代码生成规范体系｜得物技术得物技术人工智能
一、背景随着AI辅助编程工具的普及，CursorIDE已经成为越来越多开发者的选择。然而，在实际使用过程中，我们发现了一个关键问题：如何让AI真正理解项目需求并生成高质量、一致性的代码？答案在于构建一套系统化的AI协作规范。与传统的代码规范不同，AI协作规范需要考虑更多维度：如何让AI准确理解业务逻辑和技术要求如何确保生成代码的架构一致性和质量标准如何在团队中推广和维护统一的开发模式如何避免规范冲
操作系统NUMA架构下的内存一致性优化操作系统内核探秘架构 perl 开发语言 ai
操作系统NUMA架构下的内存一致性优化关键词：NUMA架构、内存一致性、缓存一致性、多核处理器、性能优化、操作系统调度、内存访问延迟摘要：本文深入探讨了NUMA(Non-UniformMemoryAccess)架构下的内存一致性优化问题。我们将从基础概念出发，逐步分析NUMA架构的特点、内存一致性的挑战，以及操作系统层面的优化策略。通过实际代码示例和性能分析，帮助读者理解如何在高性能计算环境中有效
ESP32 PWM开发对比：底层驱动 VS Arduino封装，谁更适合你？小_楠_天_问嵌入式硬件 Arduino esp32 esp32-s3 单片机 PWM底层开发 ESP-IDF
ESP32PWM开发对比：底层驱动VSArduino封装，谁更适合你？在ESP32的开发中，我们常常需要通过PWM（脉宽调制）控制LED灯的亮度、马达速度、蜂鸣器音调等。本篇文章将通过一个具体案例——呼吸灯效果，深入对比底层驱动方式（ESP-IDF原生API）与Arduino封装函数方式，帮助你理解它们之间的差异与各自适用的场景。我之前使用的是Arduino封装进行的PWM开发，但发现esp32开
深入理解 grep 命令：从基础匹配到正则表达式的全面指南线条1 正则表达式 java 数据库
一、grep命令概述在Linux系统中，grep（GlobalRegularExpressionPrint）是一个强大的文本搜索工具，它能够使用正则表达式在文本文件中查找匹配的行，并将这些行输出。从系统管理员到开发人员，grep都是日常工作中不可或缺的工具，广泛应用于日志分析、代码搜索、数据过滤等场景。二、grep基础匹配用法1.普通文本匹配命令格式：grep"pattern"filename示例
JVM类加载系统详解：深入理解Java类的生命周期真实的菜 jvm jvm java 开发语言
JVM类加载系统详解：深入理解Java类的生命周期目录类加载机制类加载的生命周期类加载器分类‍‍‍双亲委派模型原理与作用️自定义类加载器自定义类加载器的实现步骤打破双亲委派模型的场景与案例性能优化与最佳实践总结类加载机制类加载机制是JVM的核心功能之一，它负责将Java类文件加载到内存中并转换为可执行的字节码。理解类加载机制对于Java开发者来说至关重要。类加载的生命周期类加载的完整生命周期包含七
深入解析u-boot-1.1.6源码与应用 kdbshi
本文还有配套的精品资源，点击获取简介：u-boot-1.1.6是一款重要的开源引导加载程序，广泛应用于嵌入式系统。本文对u-boot-1.1.6版本源码进行深入剖析，帮助读者理解其工作原理、主要功能及关键模块。内容涉及u-boot简介、源码结构、启动流程、关键功能、学习与调试方法，并总结了其在嵌入式系统中的重要性。本文旨在通过细致研究源码，提升开发者对嵌入式系统的理解与应用能力。1.u-boot概
在线摄像头 JeffWoodNo.1 google 网络 internet tools 互联网加密
在线摄像头2009-07-2209:4910人阅读评论(0)收藏举报在Google中输入“inurl:"ViewerFrame?Mode="”或者“inurl:"MultiCameraFrame?Mode="”、“inurl:"view/index.shtml"”(输入时不带外面的双引号，在英文状态下输入)，你会获得无数个未经加密的网络摄像机监视到的画面。http://www.onlinecame
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方

Read + Verify: Machine Reading Comprehension with Unanswerable Questions 论文阅读笔记