小白*进阶ing

【Chinese Lexical Simplification 论文精读】

Chinese Lexical Simplification 论文精读

Information
Abstract
1 INTRODUCTION
2 RELATED WORK
3 A DATASET
4 BASELINES
- 4.1 Substitution Generation
- 4.2 Substitution Ranking
- 4.3 CLS System
5 EXPERIMENTS
- 5.1 Evaluation of the quality of the dataset HanLS
- 5.2 Evaluation of substitution generation
- 5.3 System Evaluation and Ablation Study
- 5.4 Error Analysis
6 CONCLUSION
ACKNOWLEDGEMENT
References
自结[^1]

Information

标题： 汉语词法简化
时间： 2020/10/14
会议： IEEE
作者： Jipeng Qiang, Xinyu Lu, Yun Li, Yunhao Yuan, Yang Shi, and Xindong Wu
链接： https://arxiv.org/pdf/2010.07048.pdf

Abstract

词汇简化在许多语言中都引起了广泛的关注，这是一种用较简单的等价词替换句子中的复杂词的过程。Q：虽然汉语词汇的丰富性使得文本对于儿童和非母语人士来说非常难读，但目前还没有针对汉语词语简化(CLS)任务的研究。 为了解决标注获取困难的问题，R：我们为CLS手工创建了第一个基准数据集，用于自动评估词法简化系统。为了获得更全面的比较，我们提出了五种不同类型的方法作为基线，包括基于同义词的方法、基于词嵌入的方法、基于预训练语言模型的方法、基于义素的方法和混合方法。最后，我们设计了这些基线的实验评估，并讨论了它们的优缺点。据我们所知，这是对CLS任务的第一次研究。

索引术语-词法简化，BERT，无监督，预训练语言模型。

1 INTRODUCTION

词汇简化 (Lexical simplified，LS) 旨在在不改变句子含义的情况下，用更简单的替代词代替复杂的单词，这可以帮助各种人群，包括儿童 [1] 、非母语人士 [2] 、认知障碍者 [3] 、 [4]，更好地理解文本。例如，句子 “John composed these verses in 1995” 可以在词汇上简化为 “John wrote the poems in 1995”。LS任务已经被应用到不同的语言中，例如英语 [2] 、 [5]-[9] 、日语 [10] 、 [11] 、西班牙语 [12] 、 [13] 、瑞典语 [14] 和葡萄牙语 [15]。

汉语，现代世界现存唯一的象形语言，是最难学习的语言之一 [16]，[17]。汉语中有200,000多个常用词是由5,000字组成的。例如，对于一个简单的中文单词 “qizi” (Wife)，有几十个等效的含义，例如 “Lˇaopo”, “P´oni´ang”, “X´ıfu”, “Neir´en”, “H´ait¯ani´ang”, “Duıxiang”, “F¯ur´en”, “`Airen”, “Taitai” 等等。中文文字的复杂性和丰富性使这些人 (儿童，非母语人士等) 感到极为困难。这些表明，中文词汇简化系统是改善文本可访问性的宝贵工具。然而，到目前为止还没有关于汉语词汇简化的研究。因此，本文重点研究汉语词法简化 (CLS) 问题。

CLS的第一个挑战是缺乏人工标注。 我们首先为CLS构建一个基准数据集HanLS，该数据集既可用于训练又可用于评估，以加速该主题的研究。首先，我们要求两位具有教学经验的母语人士给出一些目标词作为内容词 (名词，动词，形容词和副词) 的列表，并搜索一些包含目标词的句子。给定一个句子和一个要简化的单词，然后我们请六个注释者给出该单词的更简单的变体，这些变体在句子的上下文中是合适的。

CLS任务的第二个挑战是提出与原目标词语义一致、符合上下文又能保持句子意义的替代词。 目前还没有关于CLS的方法发表。为了提供一个全面的比较，我们提出了五种不同类型的方法作为基线生成替代品。(1)基于同义词词典的方法:通过从人工策划的词汇词典中提取同义词来获取替代候选词。(2)基于词嵌入的方法:利用词嵌入的相似度生成替代词。(3)基于预训练语言模型的方法:我们采用预训练语言模型BERT[18]，将原句的复杂词进行掩盖，然后将其输入BERT中预测被掩盖的词。(4)基于义素的词替换方法:我们设计了一种基于义素的词替换方法，义素是最小的语义单位，能够保留更多潜在的复杂词的有效替换。(5)一种混合方法:结合同义词词典和基于预训练语言模型的方法提取候选替换。在获得替代候选词后，我们利用以下四个特征来选择最佳替代词:基于BERT的语言建模、词频、词相似度和Hownet相似度，分别捕捉候选词替代复杂词的适用性的一个方面。

这项工作的贡献有两个方面：
(1) 我们专注于汉语词汇简化 (CLS) 任务，并为CLS手动创建第一个基准数据集HanLS，可用于自动评估CLS方法。
(2) 我们为CLS任务提出了五种不同的基准，其中包含两种经典方法 (同义词词典和单词嵌入) 和三种最新方法 (预训练的语言模型，义素和混合)。实验结果表明，这些基线 (同义词词典，预先训练的语言模型和混合) 输出的词法简化在语法上是正确的，并且在语义上适合HanLS。

加速这一主题研究的数据集和基线可在https://www.github.com/anonymous获得。

2 RELATED WORK

词汇简化 (LS) 作为文本简化的子任务，重点是使用更简单的变体简化一个句子的复杂单词。目前的研究大多集中在英语词汇简化上。我们将详细介绍英语LS方法，简要解释其他语言LS方法，最后介绍一些与中文LS相关的工作。此外，我们将为每种语言LS任务提供公共数据集。所有这些数据集都包含由句子，目标复杂单词以及人类就其简单性提供的一组合适的替换组成的实例。

英语LS及其基准: 目前流行的词汇简化方法是基于规则的，其中每个规则都包含一个复杂的单词及其简单的同义词 [19]-[21]。基于规则的系统通常从WordNet或其他语言数据库中识别出一组预定义的复杂单词的同义词，并根据单词的频率或单词的长度从这些同义词中选择 “最简单的” [1]，[22]。一些LS系统试图从平行语料库 [23]-[25] 中提取规则。为了完全避免词汇资源或并行语料库的需求，提出了基于单词嵌入的LS系统 [6]-[8]。他们提取了顶部单词作为候选替换，其向量在与复杂单词的余弦相似性方面更接近。预训练语言模型 [18]，[26] 引起了广泛的关注，并已证明对改善许多下游自然语言处理任务是有效的。最近的LS方法基于BERT [9]，[27] 为复杂单词生成合适的简化。

英语LS有三个广泛使用的数据集，分别是LexMTurk[25]、BenchLS[2]和NNSeval[28]。LexMTurk由50个亚马逊机械 “turkers”注释的500个实例组成。BenchLS由英语的929个实例组成，这些实例来自LexMTurk和LSeval[1]。LSeval包含429个实例，其中每个复杂的单词都由46名turkers和9名博士生注释。NNSeval由239个英文实例组成，它是一个过滤版的BenchLS。

其他语言LS： 大多数其他语言LS方法通常基于语言数据库来寻找复杂单词的更简单的候选替代品。PorSimples项目为巴西葡萄牙语提供了一种LS方法，该方法使用数据库Tep 2.0和PAPEL [15] 提供的相关单词集。Bott等人 [12] 使用西班牙语的OpenTheaurus来寻找西班牙语中复杂词的同义词。Keskis-arkk-a [29] 使用瑞典语的词库SynLex来寻找复杂单词的同义词。Kajiwara等人 [10] 利用了提供单词描述的词典。该方法从复杂单词的定义中提取候选替换。他们从newswire语料库中构建了一个数据集，用于评估日语的词汇简化。之后，Kodaira等。[30] 提出了一种新的受控且平衡的数据集，用于日语词汇简化，与人类判断高度相关。

中文LS： 据我们所知，没有关于中国LS的工作。与中文LS最相关的工作是中文文本可读性评估 [31]。文本可读性评估用于衡量给定文本的难易程度，以辅助为学习者选择合适的阅读材料 [32]。自动文本可读性度量由基于公式的方法和使用各种特征 (包括单词特征，句子特征等) 的分类方法组成。当获得文本的难度等级时，下一步是简化原始文本，以降低文本的难度并满足不同用户的需求。但是，中文LS任务很少受到关注，并且我们无法获得公开可用的方法和数据集。因此，在本文中，我们将首先构建一个中文LS数据集进行评估，并提出一些不同的LS系统来简化中文句子。

3 A DATASET

在参考了现有的英语和日语词汇简化数据集的构建之后，我们创建了一个由三名本科生和三名研究生注释的中文词汇简化任务的数据集HanLS。这些学生都是母语为汉语的人。我们遵循以下步骤。

(1) 提取句子： 在世界流行的汉语HSK词汇 [444] 中，我们将复杂词定义为 “高级” 词。600个高级词 (名词，动词，形容词和副词) 是由两位具有教学经验的母语人士根据他们的经验和直觉选择的。我们的目标是创建一个平衡的语料库和控制句子，使其只有一个复杂的单词。然后，从这两个来源中随机提取包含复杂单词的句子: 国家语言委员会的现代汉语语料库和中文翻译语料库1。根据先前的工作，收集了包括每个复杂单词在内的10个句子。注释者通过控制每个句子中复杂单词的数量，为每个POS标签下的每个复杂单词选择一个句子。

(2) 提供替代品： 简化候选人是从五个母语人士那里收集的。对于每个实例，注释者都写了不会改变句子含义的替换词。提供替换词时，注释者可以引用字典，但不应该询问其他注释者的意见。当注释者想不出释义时，他们被允许不提供词条。这些注释者根据上下文的简单程度对他们提供的几个替代词进行排序。

(3) 合并所有注释： 通过对所有注释器的注释进行平均，将所有注释合并到一个数据集中。下面解释这个数据集的一个例子。举一个例子，我们假设它有一个替代x。当从五个注释者获得以下排名 (1,2,2,4,1)时，x的平均排名为2。每个实例的最终综合排名是通过按升序重新排列这些替代品的平均排名而获得的。

合并数据集由新的注释者评估。注释者根据以下两个标准将替换物评为不合适：i)如果替换后的句子变得不自然，那么这个替代词就是不恰当的;ii)替换目标词后，如果句子的意思发生变化，替换词是不合适的。最后，数据集有524个实例，其中每个实例平均有8.51个替代品，表示为HanLS。HanLS中的复杂词包含名词166，动词160，形容词134和副词64，它们分别由一个字符9，两个字符472，三个字符13和四个字符30组成。图1显示了数据集的示例。在这里，复杂的单词有9个替代品，我们只展示其中的四个。

图1 数据集HanLS中的注释示例。红色的词是复杂词。

4 BASELINES

在英语词汇化简[6]、[28]步骤的基础上，汉语词汇化简系统还包括复杂词识别、替换生成、替换排序三个步骤。在复杂词识别(CWI)步骤中，目标是在给定的句子中选择需要简化的词。在管道的其他步骤中，我们隐式地执行CWI。我们认为句子中的所有单词都是简化的目标，但在简化过程中，我们抛弃了一些替换，这些替换在应用时(wi→wi)会用更复杂的替换替换单词wi。替代的目的是为复杂词生成替代候选词。我们提出了五种不同的SG方法。给出复杂词的替代候选词，词汇简化的替代排序(Substitution Ranking, SR)就是决定哪一个替代词最适合复杂词的上下文。我们采用四个高品质特征对替代品进行排序。我们的框架结构如图2所示。

图2。汉语词法简化框架。

4.1 Substitution Generation

一个理想的SG策略将能够在可能出现的所有上下文中找到可以替换给定目标复杂单词的所有单词。为了提供一个全面的比较，我们提供了五种不同类型的方法来生成中文LS任务的替代词，并讨论了它们的优缺点。

(1) 基于同义词词典的方法： 大多数LS方法 [12]，[15] 使用SG的同义词词典，例如英语的WordNet和西班牙语的OpenThesaurus。对于中文SG，我们选择同义词词库HIT-Cilin [34] 来生成替代品，其中包含77,371个不同的单词。该方法的优点是简单，易于实现。除了构建一个既昂贵又耗时的同义词词典之外，不可能涵盖所有单词。

(2)基于词嵌入的方法： 英语SG采用基于词嵌入的方法[2]，该方法首先从预先训练好的词嵌入模型中获取每个词的向量表示，提取与复杂词向量余弦相似度最高的前k个词作为替代。在这里，我们使用Word2Vector算法[35]，使用预先训练好的中文单词向量2，并提取前10个单词作为替代。该方法的优点是，只需要普通的大量文本语料库，训练好的词嵌入模型易于访问。替代词不仅包含相似词，还包含高度相关词和意义相反的词。

(3) 基于预先训练的语言模型方法： 最近的英语LS方法 [9]，[27] 采用预先训练的语言模型BERT来产生替代。BERT是有两个训练目标训练的双向语言模型：掩码语言建模 (MLM) 和下一个句子预测 (NSP)。与传统的语言建模目标不同，该目标是在给定历史的序列中预测下一个单词，MLM在给定其左右上下文的序列中预测缺失的标记。与英语LS任务不同，我们不能直接将汉语预先训练的BERT模型用于汉语SG。由于英语具有自然空间作为分隔符，因此我们仅使用一个特殊符号 “[mask]” 来掩盖句子S的单词w，以获得与该MASK单词相对应的词汇的概率分布。

在汉语中，一个词是由一个或多个汉字组成的。对于一个由四个字组成的复杂词，可能的替代词可以是一个字、两个字、三个字和四个字。我们需要使用不同数量的[MASK]符号来替换复杂的单词。因此，预测[MASK]符号不仅是一个完形任务，也是一个生成任务。

具体来说，对于一个复杂的单词，我们使用小于或等于[MASK]符号的数量来替换它，并将所有结果合并为替代词。用[MASK]符号替换原句S，记为S’。考虑到BERT擅长处理句子对，我们将句子对{S, S’}输入到BERT中。假设S’包含两个[MASK]符号。我们首先获得第一个[MASK]符号的前n个候选字符。对于每个候选字符，我们将S’对应的[MASK]替换为候选字符，并将新的句子对{S, S’}输入BERT，得到第二个[MASK]符号的前n个候选字符。我们将第二个候选字与第一个候选字组合在一起，过滤出这些不在现代汉语词汇表[36]中的词。与同时预测两个[MASK]符号的候选字符相比，该方法获得了更好的结果。

这个方法是唯一一个在生成替代候选时利用更广泛上下文的方法。在所有的实验中，我们使用BERT-Base，中文预训练模型3。

(4)基于义素的方法： 一个词的意义可以用其义素的组合来表示，语言学家定义义素为[37]人类语言的最小不可分割的语义单位。义素已成功应用于许多自然语言处理任务，包括语义组合[38]、预训练语言模型[39]等。这是第一次尝试用义素来简化词汇。

在实际的自然语言处理应用中，义素知识库是基于义素建立的，知网就是其中最著名的一个[40]。在知网中，一个词的义素可以准确地描述该词的意思。因此，具有相同义素注释的词应该具有相同的含义，它们可以作为彼此的替代候选词。在我们基于义素的方法中，只有当w的一个义素注释与w^∗的一个义素注释相同时，一个单词w才能被另一个单词w^∗代替。

与基于词嵌入和语言模型的替代方法相比，基于义素的替代方法不能生成许多不恰当的替代，如反义词和语义相关但不相似的词。与基于同义词的方法相比，基于义素的方法产生了更多的替代词。

(5)混合方法： 我们设计了一种简单的混合方法，将基于同义词词典的方法和基于预训练语言模型的方法相结合。具体来说，如果HIT-Cilin同义词词典中包含复杂词，则使用基于同义词词典的方法生成替换词，否则使用基于预先训练的语言模型的方法生成替换词。

对于上述替换生成方法，我们在实验中过滤了字典(现代汉语词汇表)中没有的替换。

4.2 Substitution Ranking

我们为SR选择了四个不同的特征，个特征都捕获了候选单词适合替换复杂单词的一个方面。除了其他语言LS方法中常用的词频、词频相似度和语言模型特征外，我们还考虑了一个高质量的Hownet相似度特征。我们根据他们对每个特征的得分计算出各种各样的排名。

(1) 语言建模： 该功能的目的是评估给定句子中替代词的流畅性。我们不选择传统的n-gram语言建模，而是选择预先训练的语言模型BERT来计算句子或单词序列的概率。由于BERT的MLM，我们不能直接用BERT计算句子的概率。令W = w − m，…，w − 1，W，w1，…，wm为原词w的上下文。我们采用了一种新的策略来计算W的可能性。我们首先用替换候选替换原始单词w。然后，我们从前到后掩码W的一个单词，然后输入Bert来计算掩码单词的交叉熵损失。最后，我们根据w的平均损失对所有替代候选人进行排名。损失越低，替代候选是对原始单词的良好替代。我们使用复杂单词周围大小为5的对称窗口作为上下文。

(2) 单词相似度： 我们使用预先训练的单词嵌入模型获得每个单词的向量表示，并计算复杂单词与每个替换词之间的相似度。相似度值越高，排名越高。

(3)词频： 基于词频的替代排序策略是英语词汇简化最常用的选择之一。一般来说，一个词使用的频率越高，读者越熟悉。在本文中，我们采用了从一个包含超过2.5亿字符的大型语料库4中计算出来的词频。我们对不同语料库中的多个词频文件进行了测试，结果表明，我们采用的这个文件是最好的。

(4) 知网相似度： 除了采用单词嵌入的单词相似度外，我们选择了一种新的基于知网的单词相似度方法，该方法在反义词和同义词相似度计算中具有良好的性能 [41]。基于sememes的基于Hownet的相似性计算出复杂单词和替代词之间的相似性，这为接下来的情形提供了很好的补充。当替代候选人是反义词且语义相关但不相似的单词时，这两个特征 (语言模型和单词相似性) 可能会失去其有效性。

4.3 CLS System

整个CLS系统如算法1所示。我们试图简化句子S中的每个实义词(名词、动词、形容词和副词)(第1行)。我们首先从上述五种方法中选择一种替换生成方法来生成复数词w的替换(第2行)。然后，我们利用每个特征为每个简化候选词计算各种排名，然后通过平均所有排名对每个候选词打分(第4-12行)。我们选择在所有特征中具有平均排名分数的前两名替换对象(第13行)。如果第一个替换不是复单词w，我们将把复杂词w替换为第一个替换(第14-15行)。否则，如果第一个替换是复杂词w，只有当第二个替换的频率高于复杂词时，我们才会选择第二个替换(第17-18行)。

5 EXPERIMENTS

我们设计实验来回答以下三个问题：
Q1. 创建的中文词汇数据集HanLS的质量： 人工评估的结果与注释数据集HanLS的结果一致吗？
Q2. 提出的五种替代生成方法的差异： 使用先前的英语LS任务的评估指标来验证这些不同的SG方法对HanLS的有效性。
Q3.影响CLS系统的因素： 我们在HanLS上进行了实验，以验证一些关键参数 (替代生成方法和替代排序特征) 对整个CLS系统的影响。

在这里，提出的CLS方法被称为基于同义词词典的方法 (同义词)，基于单词嵌入的方法 (嵌入)，基于预训练的语言模型的方法 (预训练)，基于义素的方法 (义素) 和混合方法 (混合)。

5.1 Evaluation of the quality of the dataset HanLS

考虑到汉语词汇的丰富性，我们计划在HanLS中验证注释的合理替代词的全面性。我们设计了一个实验来比较人工评价结果和使用带注释的代用品的自动评价结果之间的差异。我们采用以下度量标准。应该注意的是，我们只考虑这些由系统更改复杂单词的实例，而不考虑HanLS中的所有实例，因为如果没有替换，我们就不能对这些实例计算带注释的替换。
Changed： 系统更改复杂单词的实例数。
手动： 复杂单词被手动计算正确替换的实例比例。
Auto： 复杂单词被数据集中任何替换词替换的实例比例。

结果如表1所示。从这五种方法的排序可以看出，人工评价的结果与自动评价的结果是一致的。人工评估结果与自动评估结果相同的实例平均比例在85%以上。同义词使用“手动”和“自动”实现最佳值。但它只生成379个实例的替代词，这也意味着许多复杂的单词被原始单词本身所取代。我们认为，HanLS是一个高质量的数据集，其中标注的替代品是合理和全面的。下面，我们将详细比较我们使用HanLS提出的基线。

表1 人工评价与自动评价的比较结果。Embed、Pretr和Synon是嵌入、预训练和同义词的缩写。

5.2 Evaluation of substitution generation

我们使用之前的英语LS任务[9]，[28]的以下四个指标来评估SG方法的性能。
潜在的： 至少有一个替代品生成的实例的比例是黄金标准。
精确性： 生成的替代候选在带注释的替代中的比例。
查准率： 在生成的替换候选中包含的带注释的替换的比例。
F1： 精度和召回之间的调和均值。

结果如表2所示。我们可以看到，同义词法和预训练法比嵌入法和义素法更有效。嵌入具有最低的Precision值，因为生成的替换包含许多语义相关但不相似的词。对于基于义素的方法，它会为许多实例生成数十甚至数百个替代品，这将导致最糟糕的Recall值。基于同义词的方法是一种简单而强大的方法，易于理解并可部署到不同的语言中。但同义词和义素都有一个很大的局限性，那就是它们的覆盖范围。例如，我们可以发现很多常用词没有出现在本词典中，如同义词词典中的“yuanzhu(Assistance)”、“xingnang(Luggage)”、“kepo(break up)”，义素词典中的“xianyou(rare)”、“chunshu(purely)”、“huangman(wild)”等。在不依赖语言数据库的情况下，预先训练的方法可以获得令人印象深刻的结果，这主要是因为它在生成替代候选词时考虑了复杂词的上下文。混合方法具有最高的潜力和精度。

替换生成评价结果(%)。

5.3 System Evaluation and Ablation Study

此外，我们使用前面的两个度量来评估整个流程的性能。为了确定每个排序特征的重要性，我们通过依次删除一个特征进行消融研究。结果如表3所示。

全管道结果和消融研究结果的排名特征。

精确度(PRE): 替代原词的比例，要么是原词本身，要么是黄金标准。
准确性(ACC): 替换原词的比例不是原词，而是黄金标准。

我们首先分析了每个特征对每种词法简化方法性能的影响。我们可以看到，结合这四种特征的方法效果最好，除了相似性特征用于嵌入外，这意味着所有的特征都有积极的效果。相似性特征结合所有特征进行嵌入可以得到几乎相同的结果。基于词嵌入的方法已经使用词嵌入生成替代候选词，这些替代候选词产生的相似度特征对替换排序没有影响。

然后，比较了五种方法的全流水线结果。混合能达到最高的精确度和精度。预训练也取得了满意的实验结果。尽管Synonym的结果非常令人鼓舞，但它的主要缺点是其覆盖范围。在基准数据集NNSeval上，英语LS方法[9]的精度得分为0.526，精度得分为0.436。与英语LS任务相比，汉语LS任务的同义词、预训练方法和混合方法可以作为很强的基线。

5.4 Error Analysis

在这一小节中，我们将分析所有提出的方法来理解其误差的来源。我们使用PLUMBErr工具[7]来评估LS系统所采取的所有步骤，并确定五种类型的错误。
1)简化无错误。
2)没有产生候选替代者。
3)没有更简单的候选人。
4)替换会破坏句子的语法或意义。替换并不能简化单词。
5) 替换不会简化单词。

在替代生成过程中会出现类型2和3的错误，而在替代排序过程中会出现错误4和5。表4显示了在HanLS中发生每个错误的实例的计数和比例 (在括号中)。它表明，正确的预训练可以简化最大数量的问题，同时使错误最少的3型和5型。但是，可以注意到预训练会产生4的许多错误。混合使类型2和4的误差最少。与其他方法相比，嵌入每个步骤的错误最多是最糟糕的方法。通过分析每个步骤之后产生的输出，我们发现这是由于产生了许多语义相关但不相似的单词作为替代候选词而引起的。同义词和义素很少出现类型3和5的错误，但是它们会出现许多类型2和4的错误。它们基于语言数据库，在该数据库中找不到许多复杂的单词。总体而言，结果与上述实验结论一致。

基线的错误分类结果。

6 CONCLUSION

在本文中，我们手动构建了一个数据集，用于自动评估中文词法简化 (CLS) 系统的性能。我们提出了五种不同的方法来生成替代候选人，并引入了四种高质量的功能来对替代候选人进行排名。实验结果表明，基于同义词的方法，基于预训练语言模型的方法和混合方法取得了较好的效果。我们相信，提出的CLS系统将成为强大的基线，并且创建的数据集可以加速对该主题的研究，以用于未来的研究。尽管在一项艰巨的任务上取得了一些初步的积极结果，但我们注意到CLS系统的性能可能会受到替代生成和替代排名的影响。NQ：将来，我们将一些先验知识纳入CLS的预训练语言模型中。

ACKNOWLEDGEMENT

本研究部分由国家自然科学基金资助61703362和91746209; 国家重点研究发展计划资助2016YFB1000900; 中国教育部长江学者和大学创新研究团队计划 (PCSIRT) 资助，IRT17R32；和中国江苏省自然科学基金赠款BK20170513。

References

[1] J. De Belder, M.-F. Moens, Text simplification for children, in: SIGIR Workshop, 2010, pp. 19–26.
[2] G. H. Paetzold, L. Specia, Unsupervised lexical simplification for nonnative speakers., in: AAAI, 2016, pp. 3761–3767.
[3] L. Feng, Automatic readability assessment for people with intellectual disabilities, ACM SIGACCESS accessibility and computing (93) (2009) 84–91.
[4] H. Saggion, Automatic text simplification, Synthesis Lectures on Human Language Technologies 10 (1) (2017) 1–137.
[5] J. Carroll, G. Minnen, Y. Canning, S. Devlin, J. Tait, Practical simplification of english newspaper text to assist aphasic readers, in: Proceedings of AAAI Workshop on Integrating Artificial Intelligence and Assistive Technology, 1998, pp. 7–10.
[6] G. Glavaˇs, S. Stajnerˇ , Simplifying lexical simplification: do we need simplified corpora?, in: ACL, 2015, pp. 63–68.
[7] G. Paetzold, L. Specia, Lexical simplification with neural ranking, in: Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 2, Short Papers, 2017, pp. 34–40.
[8] S. Gooding, E. Kochmar, Recursive context-aware lexical simplification, in: EMNLP-IJCNLP, 2019, pp. 4853–4863.
[9] J. Qiang, Y. Li, Y. Zhu, Y. Yuan, X. Wu, Lexical simplification with pretrained encoders, in: AAAI, 2020, pp. 8649–8656.
[10] T. Kajiwara, H. Matsumoto, K. Yamamoto, Selecting proper lexical paraphrase for children, in: ROCLING, 2013, pp. 59–73.
[11] T. Kajiwara, K. Yamamoto, Evaluation dataset and system for Japanese lexical simplification, in: Proceedings of the ACL-IJCNLP 2015 Student Research Workshop, 2015, pp. 35–40.
[12] S. Bott, L. Rello, B. Drndarevi´c, H. Saggion, Can spanish be simpler? lexsis: Lexical simplification for spanish, in: Proceedings of COLING 2012, 2012, pp. 357–374.
[13] L. Rello, R. Baeza-Yates, L. Dempere-Marco, H. Saggion, Frequent words improve readability and short words improve understandability for people with dyslexia, in: IFIP Conference on Human-Computer Interaction, 2013, pp. 203–219.
[14] E. Rennes, A. J¨onsson, A tool for automatic simplification of swedish texts, in: Proceedings of the 20th Nordic Conference of Computational Linguistics (NODALIDA 2015), 2015, pp. 317–320.
[15] S. M. Alu´ısio, C. Gasperin, Fostering digital inclusion and accessibility: the porsimples project for simplification of portuguese texts, in: Proceedings of the NAACL HLT 2010 Young Investigators Workshop on Computational Approaches to Languages of the Americas, Association for Computational Linguistics, 2010, pp. 46–53.
[16] J. Yang, What makes learning chinese characters difficult? the voice of students from english secondary schools, Journal of Chinese Writing Systems 2 (1) (2018) 35–41.
[17] S. W. Wong, P. P. Mok, K. K.-H. Chung, V. W. Leung, D. V. Bishop, B. W.-Y. Chow, Perception of native english reduced forms in chinese learners: Its role in listening comprehension and its phonological correlates, TESOL Quarterly 51 (1) (2017) 7–31.
[18] J. Devlin, M.-W. Chang, K. Lee, K. Toutanova, Bert: Pre-training of deep bidirectional transformers for language understanding, in: NAACL, 2018.
[19] M. Lesk, Automatic sense disambiguation using machine readable dictionaries: How to tell a pine cone from an ice cream cone, in: Proceedings of the 5th Annual International Conference on Systems Documentation, SIGDOC ’86, ACM, New York, NY, USA, 1986, pp. 24–26. doi:10.1145/318723.318728. URL http://doi.acm.org/10.1145/318723.318728
[20] E. Pavlick, C. Callison-Burch, Simple ppdb: A paraphrase database for simplification, in: Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), 2016, pp. 143–148.
[21] M. Maddela, W. Xu, A word-complexity lexicon and a neural readability ranking model for lexical simplification, in: EMNLP, 2018, pp. 3749– 3760.
[22] S. Devlin, J. Tait, The use of a psycholinguistic database in the simpli cation of text for aphasic readers, Linguistic Databases 1 (1998) 161–173.
[23] O. Biran, S. Brody, N. Elhadad, Putting it simply: a context-aware approach to lexical simplification, in: ACL, 2011, pp. 496–501.
[24] M. Yatskar, B. Pang, C. Danescu-Niculescu-Mizil, L. Lee, For the sake of simplicity: Unsupervised extraction of lexical simplifications from wikipedia, in: NAACL, 2010, pp. 365–368.
[25] C. Horn, C. Manduca, D. Kauchak, Learning a lexical simplifier using wikipedia, in: ACL (Short Papers), 2014, pp. 458–463.
[26] Y. Sun, S. Wang, Y. Li, S. Feng, X. Chen, H. Zhang, X. Tian, D. Zhu, H. Tian, H. Wu, ERNIE: enhanced representation through knowledge integration, CoRR abs/1904.09223. arXiv:1904.09223. URL http://arxiv.org/abs/1904.09223
[27] W. Zhou, T. Ge, K. Xu, F. Wei, M. Zhou, BERT-based lexical substitution, in: ACL, 2019, pp. 3368–3373.
28] G. H. Paetzold, L. Specia, A survey on lexical simplification, in: Journal of Artificial Intelligence Research, Vol. 60, 2017, pp. 549–593.
[29] R. Keskisarkka, Automatic text simplification via synonym replacement.
[30] T. Kodaira, T. Kajiwara, M. Komachi, Controlled and balanced dataset for Japanese lexical simplification, in: Proceedings of the ACL 2016 Student Research Workshop, Association for Computational Linguistics, Berlin, Germany, 2016, pp. 1–7. doi:10.18653/v1/P16-3001. URL https://www.aclweb.org/anthology/P16-3001
[31] H. Liu, S. Li, J. Zhao, Z. Bao, X. Bai, Chinese teaching material readability assessment with contextual information, in: International Conference on Asian Language Processing, 2017.
[32] K. Collinsthompson, Computational assessment of text readability: A survey of current and future research, ITL – International Journal of Applied Linguistics 165 (2) (2014) 97–135.
[33] J. Zhao, B. A. Zhang, J. Cheng, Some suggestions on the revision of the outline of the graded vocabulary for hsk, Chinese Teaching in the World.
[34] J. Mei, Y. Zhu, Y. Gao, et al., Tongyici cilin (extended), HIT IR-Lab.
[35] T. Mikolov, K. Chen, G. Corrado, J. Dean, Efficient estimation of word representations in vector space, arXiv preprint arXiv:1301.3781.
[36] L. Yuming, On green paper on language situation in china [j], Applied Linguistics 1.
[37] L. Bloomfield, A set of postulates for the science of language, Language 2 (3) (1926) 153–164.
[38] F. Qi, J. Huang, C. Yang, Z. Liu, X. Chen, Q. Liu, M. Sun, Modeling semantic compositionality with sememe knowledge, in: Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 2019, pp. 5706–5715.
[39] Y. Zhang, C. Yang, Z. Zhou, Z. Liu, Enhancing transformer with sememe knowledge, in: Proceedings of the 5th Workshop on Representation Learning for NLP, Association for Computational Linguistics, Online, 2020, pp. 177–184.
[40] Z. Dong, Q. Dong, C. Hao, Hownet and the computation of meaning.
[41] Q. Liu, Word similarity computing based on hownet, Computational linguistics and Chinese language processing 7 (2) (2002) 59–76.

自结¹

本文为CLS手工创建了第一个基准数据集，提出基于同义词、词嵌入、预训练语言模型、义素和混合五种类型的方法，并对这些基线进行评估，讨论优缺点。这是对CLS任务的第一次研究。
两位具有教学经验的母语人士给出目标词，拿出句子和复杂词，请五个注释者给出简单替换词，一个人再进行整合去除不合适的替换词。再用五种方法生成简单替换词，再对其进行评估。

扬州大学研一在读学生，本篇笔记仅以帮助自己更好理解论文，也方便日后复查学习。 ↩︎

你可能感兴趣的:(nlp论文,人工智能,深度学习)

Sequential Thinking：AI深度思考的新范式及其与CoT、ReAct的对比分析码字的字节人工智能 Sequential CoT ReAct
引言：AI深度思考的演进与SequentialThinking的崛起在人工智能技术快速发展的今天，AI模型的思考能力正经历着从简单应答到深度推理的革命性转变。这一演进过程不仅反映了技术本身的进步，更体现了人类对机器智能认知边界的持续探索。早期的大语言模型虽然能够生成流畅的文本，但在处理复杂问题时往往表现出"浅思考"的局限性——答案可能看似合理，却缺乏严谨的推理过程和系统性考量。例如，2022年的一
Datawhale X 魔塔 Ai夏令营 --深度学习基础
一、局部极小值与全局极小值全局极小值：在损失函数的整个定义域内，损失值最小的点。这是我们在训练深度学习模型时希望找到的点，因为它代表着模型的最佳性能。局部极小值：在损失函数的一个局部区域内，损失值达到最小，但在整个函数定义域内可能不是最小的。当优化算法陷入局部极小值时，它可能会误以为已经找到了全局最优解，从而停止搜索。局部极小值的检测两种直观的方法来检测局部极小值：可视化方法：对于低维问题，我们可
深度学习模块实践手册（第十二期）加油吧zkf 目标检测目标检测模块解析与实践深度学习人工智能计算机视觉目标检测 python
56、Ghost模块论文《GhostNet:MoreFeaturesfromCheapOperations》1、作用：Ghost模块是一种轻量级的特征提取模块，旨在通过廉价操作生成更多特征图，减少计算量的同时保持模型性能。传统卷积神经网络在生成特征图时存在大量冗余计算，Ghost模块通过将特征图生成过程分解为两个步骤，有效减少了计算复杂度，特别适合移动端和嵌入式设备部署。2、机制Ghost模块的机
算法工程师必看！个性化信息流推荐算法系统的架构设计与优化实战指南
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】推荐算法系统实战全系列精品课【陈敬雷】文章目录推荐算法系统系列二算法工程师必看！个性化信息流推荐算法系统的架构设计与优化实战指南更多技术内容总结推荐算法系统系列二算
DETR革命：目标检测的Transformer时代加油吧zkf 目标检测 YOLO python 开发语言人工智能图像处理
《DETR从0到1：目标检测Transformer的崛起》为什么会有DETR？在深度学习目标检测发展史上，2014~2019年几乎被基于卷积神经网络（CNN）的检测器统治：两阶段：FasterR-CNN、MaskR-CNN单阶段：YOLO、SSD、RetinaNet这些检测器虽然效果强大，但背后依赖：✅Anchor（先验框）✅NMS（非极大值抑制）✅特征金字塔、手工设计问题：结构复杂、调参困难、不
新闻资讯|基于springboot的新闻资讯系统设计与实现(附项目源码+论文+数据库） code.song spring boot 数据库后端
私信或留言即免费送开题报告和任务书（可指定任意题目）目录一、摘要二、相关技术三、系统设计四、数据库设计五、核心代码六、论文参考七、源码获取一、摘要传统信息的管理大部分依赖于管理人员的手工登记与管理，然而，随着近些年信息技术的迅猛发展，让许多比较老套的信息管理模式进行了更新迭代，文章信息因为其管理内容繁杂，管理数量繁多导致手工进行处理不能满足广大用户的需求，因此就应运而生出相应的新闻资讯系统。本新闻
深度学习模块实践手册（第十一期）加油吧zkf 目标检测目标检测模块解析与实践深度学习人工智能计算机视觉目标检测 python
46、缩放点积注意力模块论文《AttentionIsAllYouNeed》1、作用：缩放点积注意力（ScaledDot-ProductAttention）是Transformer模型的核心组件，旨在解决序列建模中长距离依赖关系捕捉的问题。传统的循环神经网络（RNN）在处理长序列时存在梯度消失或爆炸的问题，且并行性较差。该模块通过计算查询（Query）、键（Key）和值（Value）之间的相似度，实
大模型或多模态在能源系统优化调度中的应用 u013250861 LLM 能源人工智能
1.大模型在电力调度中的应用GAIA-电力调度大语言模型项目描述:专为电力调度设计的大语言模型，能够处理运行调整、运行监控和黑启动等任务技术特点:基于LLaMA2微调，专门针对电力系统领域优化论文:“Alargelanguagemodelforadvancedpowerdispatch”(NatureScientificReports,2025)GitHub:暂未公开源代码，但论文中提到了完整的技
【深度强化学习】MIP-DQN 实现案例（完整Python代码）
目录MIP-DQN算法概述建模基础训练阶段（Training）部署阶段（OnlineExecution）DNN网络转化为MIP表达式性能指标完整Python代码实现主函数：random_generator_battery模型函数：MIP_DQN基础/专用库包安装模型运行（完整Python代码）参数设置函数：Parameters参考本博客根据论文《Optimalenergysystemschedul
【DL经典回顾】激活函数大汇总（四）（Softmax & Softplus附代码和详细公式）夺命猪头 python 机器学习人工智能神经网络 numpy
激活函数大汇总（四）（Softmax&Softplus附代码和详细公式）更多激活函数见激活函数大汇总列表一、引言欢迎来到我们深入探索神经网络核心组成部分——激活函数的系列博客。在人工智能的世界里，激活函数扮演着不可或缺的角色，它们决定着神经元的输出，并且影响着网络的学习能力与表现力。鉴于激活函数的重要性和多样性，我们将通过几篇文章的形式，本篇详细介绍两种激活函数，旨在帮助读者深入了解各种激活函数的
基于NanoDet的健身姿势纠正系统开发 YOLO实战营人工智能 NanoDet 深度学习计算机视觉 ui
1.引言在现代健身行业中，正确的运动姿势至关重要，不仅能提升训练效果，还能预防运动损伤。尤其是在进行一些高强度的力量训练时，如深蹲、俯卧撑等，错误的姿势可能导致肌肉不平衡或关节损伤。传统的健身姿势纠正方式依赖教练的人工指导，但随着人工智能技术的发展，使用计算机视觉和深度学习技术来进行姿势纠正，逐渐成为一种高效且可扩展的解决方案。本文将详细介绍如何基于NanoDet（一个轻量化目标检测模型）开发一个
大模型算法工程师技术路线全解析：从基础到资深的能力跃迁 Mr.小海大模型算法数据挖掘人工智能机器学习深度学习机器翻译 web3
文章目录大模型算法工程师技术路线全解析：从基础到资深的能力跃迁一、基础阶段（0-2年经验）：构建核心知识体系与工程入门数学与机器学习基础编程与深度学习框架NLP与Transformer入门二、进阶阶段（2-4年经验）：深化模型技术与工程落地能力大模型预训练与微调技术预训练原理：数据与任务的协同设计微调工具：参数高效适配与工程优化对齐实践：价值观优化与实证效果分布式训练与框架工具并行策略：多维度协同
Spring AI 概述与功能简介 drebander AI 编程 spring 人工智能 java
SpringAI是一个由Spring团队开发的开源框架，旨在为人工智能（AI）和机器学习（ML）提供一个成熟且高效的开发平台。它将Spring生态系统的设计理念应用于AI开发，尤其强调模块化、可移植性以及简洁的集成。SpringAI提供了丰富的功能，涵盖从AI模型的调用到与数据库的集成等多个方面，帮助开发者构建和管理AI驱动的应用程序。1.SpringAI背景SpringAI的背景源于Spring
Spring AI从入门到精通：构建智能Spring应用的全面指南 java干货仓库 Spring 八股文汇总大模型 spring 人工智能 java
随着人工智能技术的快速发展，将大语言模型（LLM）与企业应用集成已成为趋势。SpringAI作为Spring官方推出的AI集成框架，为开发者提供了便捷、标准化的方式来构建智能应用。本文将从基础概念到高级应用，全面介绍SpringAI的核心功能与实践技巧。一、SpringAI概述1.1什么是SpringAI？SpringAI是VMware于2023年推出的开源框架，旨在简化大语言模型（LLM）与Sp
基于用户画像的商品推荐系统 Dush32 机器学习人工智能 python 推荐算法
随着人工智能和大数据技术的进步，产品推荐系统成为了现代广告与电商平台中不可或缺的部分。通过深度挖掘用户的行为数据，能够为广告主提供精准的用户画像，从而更高效地推荐相关产品，提升购买转化率。本项目基于科大讯飞AI营销云大赛的赛题，目的是利用用户画像进行产品推荐，预测用户是否会购买相应商品。我们使用了机器学习的二分类模型，通过分析用户的性别、年龄、常驻地、机型等信息，来判断用户的付费行为。项目目标：本
第113期【读书分享】读《给教师的建议》部分章节感悟蒋卫波语文名师工作室
作者简介：李美玲，女，1999年参加工作，一级教师，本科学历。现在五泉镇中心校任教，从教21年来一直用“爱心、耐心、细心”教育孩子，孩子们喜欢她、家长们信任她，她曾获得示范区“优秀教师”“优秀辅导员”“先进个人”“优秀巾帼志愿者”“优秀班主任”“师德标兵”等荣誉称号！她撰写的多篇教学论文在省、市级、区级刊物中发表，同时积极参与省市级课题研究，成绩显著。假期暇闲时间，拜读苏霍姆林斯基大师的《给教师建
【深度学习-Day 36】CNN的开山鼻祖：从LeNet-5到AlexNet的架构演进之路吴师兄大模型深度学习入门到精通 python pytorch 开发语言人工智能 CNN 深度学习大模型
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
对话新希望CDO李旭昶：立足核心诉求，积极拥抱人工智能
“转型焕新，希望无限。”整理|王娴编辑|云舒出品｜极新4月12日，在「2024飞书先进生产力峰会|成都站」活动中，新希望首席数字官李旭昶先生做了主题为“转型焕新，希望无限”的分享。上次见他是4个月前，当时我们聊了1个多小时，内容涉及数字化转型、人工智能、管理、技术商业等话题。今天顺着他分享的内容，将这篇对话分享出来。随着信息科技的发展，我国传统企业在过去几年中逐步进行数字化转型，利用先进的科学技术
基于STM32单片机车牌识别系统摄像头图像处理设计的论文 weixin_112233 单片机单片机 stm32 图像处理
摘要本设计提出了一种基于32单片机的车牌识别系统摄像头图像处理方案。该系统主要由STM32F103RCT6单片机核心板、2.8寸TFT液晶屏显示、摄像头图像采集OV7670、蜂鸣器以及LED电路组成。在车牌识别过程中，STM32F103RCT6单片机核心板发挥着关键的控制作用。摄像头图像采集OV7670负责获取车辆的图像信息，能够清晰地捕捉车牌区域。采集到的图像数据传输至单片机进行处理，通过一系列
飞算科技：以创新科技引领数字化变革，旗下飞算 JavaAI 成开发利器飞算JavaAI开发助手科技
作为国家级高新技术企业，飞算科技专注于自主创新，在数字科技领域持续深耕，用前沿技术为各行业客户赋能，助力其实现数字化转型升级的飞跃。飞算科技凭借深厚的技术积累，将互联网科技、大数据、人工智能等技术与实际应用紧密融合。公司组建了一支由行业资深专家和技术精英构成的团队，他们在相关领域积累了多年实践经验，深刻理解不同行业客户在数字化进程中面临的痛点与挑战。基于这些洞察，飞算科技推出了一系列具有创新性和实
《大侦探福尔摩斯——太阳的证词》读后感陈子亿
《大侦探福尔摩斯——太阳的证词》讲述了：美国上空出现百年难得一遇的天文奇现——日环食，天文学教授在观测时不幸身亡，同行的爱犬不知去向，并且当天天文学教授的屋子里受到了盗窃。经过福尔摩斯的仔细观察，判定是一名天文大学生为了把自己的天文论文改得很好，先把天文学教授杀害，故意挪到山底下，并让警察误认为是失足而死亡的，然后从天文学教授的屋子旁边管道上爬上去砸碎玻璃，偷了单筒望远镜和几只钢笔作为掩饰，再把自
2022-02-26 charonfrompluto
刚从秦皇岛回来没两天，太过于享受那样惬意的生活，到了科学城各种不适，开三个小时才会变暖和的电热毯，又冷又无法上大号的同层卫生间，洗着洗着会变凉的热水器，冰凉刺骨的水，睡觉翻来覆去一晚上要醒好几回，办公室的同学都发了小论文能毕业了，而我小论文还没发要毕不了业了，大家的大论文都写完了，我仔细想了下自己的基本跟没写一样，差的很多；因为长胖裤子又紧又勒，强迫自己少吃的两天在今天下午崩溃，饿的不行，于是区超
人脸识别实战：使用Python OpenCV 和深度学习进行人脸识别(2)
先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课
Rust+ChatBoxAI：实战
ChatboxAIChatboxAI是一款基于人工智能技术的智能助手工具，旨在通过自然语言交互帮助用户完成多种任务。以下是其核心功能与特点：功能概述多模型支持：可连接OpenAI、Claude、Gemini等主流大语言模型，用户能自由切换不同AI服务。本地运行：支持离线使用，数据隐私性较强，适合敏感信息处理场景。跨平台兼容：提供Windows、macOS和Linux客户端，同步支持移动端应用。核心
【Java架构师的未来与趋势】架构学院 Java成神之路-架构师进阶 java 开发语言
Java架构师的未来与趋势引言Java作为企业级应用开发的主力军，已经走过了25年的历程。在这四分之一个世纪中，Java生态系统经历了从Applet到企业级应用，从单体架构到微服务，从本地部署到云原生的巨大转变。今天，Java架构师正站在新一轮技术变革的十字路口——人工智能、云计算、低代码、边缘计算等新兴技术正深刻重塑软件架构的形态和架构师的角色。据JetBrains《2023Java开发者调查》
【KDD2025】时间序列|KDD‘25 FPS：预测模型也能改变未来！
论文地址：https://arxiv.org/pdf/2411.15241v2代码地址：https://github.com/AdityaLab/pets为了更好地理解时间序列模型的理论与实现，推荐参考UP“ThePPP时间序列”的教学视频。该系列内容系统介绍了时间序列相关知识，并提供配套的论文资料与代码示例，有助于理论与实践相结合。https://space.bilibili.com/61345
【AAAI2025】计算机视觉|P-sLSTM:P-sLSTM：让LSTM在时间序列预测领域“重获新生”
论文地址：https://arxiv.org/pdf/2408.10006代码地址：https://github.com/Eleanorkong/P-sLSTM关注UPCV缝合怪，分享最计算机视觉新即插即用模块，并提供配套的论文资料与代码。https://space.bilibili.com/473764881摘要传统的循环神经网络结构，如长短期记忆神经网络(LSTM)，在时间序列预测(TSF)任
丰盛日记第三天幸运星小燕子
第123期NLP执行师二阶4组章艳Day3分享《有效引导他人的能力》学到情绪管理的方法和体验练习中感动的一天，我很开心！1、复习大脑结构:由原始脑、情绪脑、皮质层三部分组成；三部分需要充分配合和相互制约，考虑三赢后，才能做出正确的决定。2、情绪体验小游戏:树和松鼠，让我们提醒不同的情绪感受。3、处理情绪的四个方法:思维、体能、环境、关系；导师建议可以使用呼吸放松法，使自己的情绪可以及时的醒觉→_→
生成式人工智能实战 | 像素卷积神经网络（PixelCNN）盼小辉丶生成式人工智能实战150讲深度学习生成模型 aigc
生成式人工智能实战|像素卷积神经网络0.前言1.PixelCNN工作原理1.1掩码卷积层1.2残差块2.PixelCNN分析3.使用混合分布改进PixelCNN3.1模型构建3.2模型训练0.前言像素卷积神经网络(PixelConvolutionalNeuralNetwork,PixelCNN)是于2016年提出的一种图像生成模型，其根据前面的像素预测下一个像素的概率来逐像素地生成图像，模型可以通
TensorFlow深度学习实战——DCGAN详解与实现盼小辉丶深度学习 tensorflow 生成对抗网络
TensorFlow深度学习实战——DCGAN详解与实现0.前言1.DCGAN架构2.构建DCGAN生成手写数字图像2.1生成器与判别器架构2.2构建DCGAN相关链接0.前言深度卷积生成对抗网络(DeepConvolutionalGenerativeAdversarialNetwork,DCGAN)是一种基于生成对抗网络(GenerativeAdversarialNetwork,GAN)的深度学
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {