xhsun1997

论文翻译DCFEE:基于自动标注数据的文档级中文金融事件提取系统

翻译文章前简单的介绍下事件抽取：
事件抽取是信息抽取领域的一个重要研究方向，主要目的是从含有事件信息的非结构化的自然语言描述的文本中抽取出事件信息并且以结构化的形式表示出来。通常一个完整的事件可以用5W1H表示出来。who(事件的主动实施者),whom(事件的被动接受者),what(具体干什么),when(何时),where(何地),how(如何做的). what一般由谓语动词体现，在事件中是触发词，who,whom,when,where是事件的四个要素。一个事件的语义可以描述为
When who do what to whom in where

摘要

我们提出了一个事件提取框架，从金融新闻的文章中发现事件描述并且提取事件。到目前为止，基于监督学习模式的方法在公开数据集(ACE2005,KBP2015)上取得较好的表现。这些方法极大的依赖于手工标注的训练数据。然而，在一些特殊的领域，例如：金融、医学、司法领域等，由于数据标注过程的高昂代价导致这些领域没有足够的标注数据可供训练。此外，大部分现存的方法都集中于从一个句子中提取事件，但是在一篇文章中，一个事件通常是由多个句子所表达的。为了解决这些问题(指的是第一没有足够的标注数据，第二从仅仅一个句子中提取事件不合理)，我们提出了DCFEE，这个系统可以自动的生成大规模的标注数据(解决了问题一)而且从整个文章中提取事件(解决了问题二)。实验结果表明了DCFEE的有效性。

介绍

事件抽取在NLP领域是一个有挑战性的任务，目的是从文本中发现事件描述，提取含有事件触发词的事件以及事件参数。(event mention 事件描述，描述一个事件的句子，这个句子中包含这个事件类型所需要的触发词和事件参数)
(event trigger 事件触发词，能够最明显的表达一个事件发生的那个单词，通常是动词或名词)
(event argument　事件参数指的是在事件中处于具体角色的实体)。

例如图１。一个事件抽取系统要能够发现由冻结(frozen)这个单词所触发的股权冻结事件并且提取出五个不同角色的事件元素，这些角色包括：股东名、冻结股票的数目、冻结机构、冻结起始日期、冻结结束日期。这五个元素就是长富瑞华、520000股、大连市人民法院、2017年5月5日、3年。从文本中提取事件实例在构建像信息抽取，智能问答等NLP系统中有重要作用。最近已经有研究者构建了像EventRegistry,Stela等英文事件抽取系统。然而在金融领域，特别是中文，还没有这类的事件抽取系统。

金融事件能够帮助用户获得竞争者的战略，预测股票市场并且做出正确的投资决定。例如，股权冻结事件的发生对公司会有很坏的影响，此时股东应该及时作出决定避免损失。在商业领域，由公司所公布的官方通告代表着重要事件的发生，例如股权冻结，股票交易事件等。所以从这些通告中发现实体描述并且提取事件是很有价值的。然而在中文金融实体抽取领域有两种挑战：

缺乏数据：　大部分的实体抽取方法通常采用监督学习的范式，而这种方式极大的依赖于精心设计的人工标注数据，但是在中文金融领域没有标注的数据。
文档层面的事件抽取：　当前大部分事件抽取的方法都是集中于句子级别。但是一个事件通常是由在文档中的多个句子表示。在这篇文章中的金融领域数据集，有91%的情况是一个事件的事件元素分布在不同的句子中。如图１所示，E1,E2共同描述股权冻结事件。

为了解决这两个问题，我们提出了名叫DCFEE的框架，这个框架可以从自动标注的训练数据中提取出文档级别的事件。远程监督已经被证实可以为事件抽取生成标注数据，我们利用远程监督生成大规模的标注数据。我们利用序列标注模型自动的提取句子级别的事件。接下来，我们提出了一个关键事件发现模型和一个元素填充方案从文章中提取整个事件。
　
　这篇文章的贡献总结如下：

我们提出的DCFEE框架可以自动的生成大量的标注数据并且从金融通告中提取文档级的事件
我们为事件抽取引入了一种自动标注数据的方法并且为构建中文金融事件数据集给出了一些技巧。我们提出的文档级别事件抽取系统主要依靠与一个序列标注模型，一个关键事件发现模型和一个事件元素补全方案。实验结果显示了这个系统的有效性。
DCFEE系统已经被成功的构建为一个在线应用，可以快速从金融文档中提取事件。

2 方法

图二描述了我们提出的DCFEE框架的架构，主要包括下面两部分：数据生成，利用远程监督自动的从整篇文章中给事件描述做标签并且对事件描述注释触发词和事件元素；EE系统，主要包含句子级别事件抽取(SEE)和文档级别事件抽取(DEE)，SEE是由句子层面上标注的数据供应，DEE是由文档层面上标注的数据供应。在下一章，我们会简短的描述标注的数据生成和EE系统的架构

2.1 数据生成

图三描述了基于远程监督方法的标注的数据生成过程。在这一章节中，我们会先介绍我们所使用的数据源。然后我们描述自动标注数据的方法。最后我们会给出一些可以用来提高标注的数据质量的一些技巧。

数据源：
自动生成数据需要两种数据源：包含着大量的结构化事件数据的金融事件知识库和含有事件信息的非结构化文本数据。在这篇文章中所用到的金融事件知识库是包含九种常见的金融事件类型的结构化数据，这些数据以表格式存储。这些结构化的数据包含着由金融学专家从文档中摘要出来的关键事件元素。用一个股权质押事件作为例子，如图三左侧，关键事件元素包括股权持有者名称，质押机构，质押股票数量，质押起始时间和结束时间。非结构化的数据来源于公司发布的官方通告，以非结构化的形式存储在网页中。我们从搜狐的证券网站上获得这些数据。

数据生成的方法：
注释数据由两部分组成：通过标注事件描述中的事件触发器和事件元素来产生句子级别的数据；通过从文档中标注事件描述来生成文档级别的数据。现在的问题是如何找到事件触发词。那些符合结构化的事件知识库中的事件元素和事件描述可以从大规模的文档通告中总结归纳出来。远程监督在关系抽取和事件抽取领域已经被证明出其有效性。受到远程监督的启发，我们假定包含有最多的事件元素并且由一个具体的触发词所驱动的句子最有可能是一篇文档中的实体描述。在这个事件描述中的事件元素会扮演对应的事件中的角色。对于每一个金融事件类型，我们构建事件触发词的一个字典，例如在股权冻结事件中的冻结以及股权质押事件中的质押。所以那些来自文档通告中的触发词可以通过查询预先定义的字典被自动的标记出来。通过这些预处理，结构化的数据就可以被映射到文档通告中的事件元素。因此我们就可以自动的识别出事件描述以及将包含在这个事件描述中的事件触发词和事件元素打上标签，这样就生成了句子级别的数据，如图３的底部。然后，这个事件描述就被自动的标记为正类而在这篇文档中的其它句子被标记为负类，以此来构建文档级别的数据，如图３的右侧。文档级别的数据和句子级别的数据共同形成实体抽取系统所需要的训练数据。
技巧:
实际上，在数据标注的过程中有很多的挑战：金融通告和事件知识库中知识的一致性；事件元素描述的模糊性和缩写简写问题。有一些技巧可以用来解决这些问题，如图３的例子。

减小搜索空间：候选文档通告的搜素范围可以通过检索诸如公开的日期和通告中股票的编码等重要事件元素来减小。
规则化表示：更多的事件元素可以通过规则的表示被匹配到以此来提成标注数据的召回率。例如隆鑫控股有限公司在金融事件知识库中，但是在句子中的是隆鑫控股。我们可以解决这个问题通过规则化表示然后把隆鑫控股标注为一个事件元素。
规则：一些任务驱动的规则可以被用来标注数据。例如我们可以通过计算质押终止日期和质押起始日期之间的差值从而标记12月为一个事件元素(角色是质押终止日期)。

2.2 事件抽取

图４描述了事件抽取系统的全局架构，主要涉及接下来的两部分：句子级别的事件抽取，目的是从一个句子中提取事件元素和事件触发词；文档级别的事件抽取，目标是从基于一个关键事件发现模型和一个元素补全方案的整篇文档中提取事件元素。

2.2.1 SEE

我们把SEE看做一个序列标注任务，并且训练数据是由句子层面的标注好的数据提供。句子是用BIO格式表示的，意思是对于每一个字符(包括事件触发词，事件元素和其他的单词)，如果这个字符是一个事件元素的开始，那么就被标记为B-label，在中间就标记为I-label。如果不是事件元素，那么就标记为O。(如图４所示，质押这个单词是触发词，所以质被标记为B-TRI，押被标记为I-TRI)。在最近几年，神经网络由于它能从文本表示中自动的学习特征，所以已经被广泛的应用在大部分的NLP任务中。并且BiLSTM-CRF这种模型在一些典型的如词性标记，实体识别等NLP任务上可以达到SOTA的性能(就是最好的性能)。由于双向LSTM，模型可以有效的利用过去和未来的输入特征，由于条件随机场，模型可以使用句子层面的标注信息。(如果没有CRF，那么模型在输出层预测标签时各个标签之间是独立预测的，第一个预测为B-ORG，第二个可能预测为B-PER)
SEE模型的具体实现如图4左侧部分，由一个BiLSTM神经网络和CRF层组成。句子中每一个中文字符由一个向量表示并且作为BiLSTM的输入。BiLSTM的输出被转变为每一个的分数。CRF层用来克服标签偏置的问题。对于文档中的每一个句子，SEE模型最终返回句子级别实体抽取的结果。

2.2　文档级别的事件抽取

DEE由两部分组成：一个是文档中关键事件发现模型，目的就是发现文档中的事件描述，和一个事件元素补全方案，目的是补全缺失的事件元素。

关键事件发现

如图４的右侧所示，事件发现的输入由两部分组成：一个是来自于SEE(蓝色部分)输出的事件元素和事件触发词的向量表示，另一个是当前句子的向量表示(红色部分)。这两个部分连接起来作为CNN层的输入特征。然后当前的句子被分类到两个类别：关键事件或者非关键事件。

元素补全方案

我们已经通过DEE获得了包含大部分事件元素的关键事件，也通过SEE获得了文档中每一个句子的事件提取结果。为了获得完整的事件信息，我们使用可以自动的从周围的句子中补全确实事件元素的元素补全方案。如图４所示，一个完整的质押事件包含事件描述 $S_n$ 中的事件元素以及补全的从句子 $S_{n+1}$ 获得的事件元素12个月。

3 评估

3.1 数据集

我们在四种类型的金融事件上进行实验，这四种事件类型是：股权冻结、股权质押、股权回购、股权增持事件。通过上述的自动生成数据的方法，我们标注了总共3976个金融通告。我们划分数据集按照8:1:1的方案。

表１显示了数据集的统计，NO.ANN意思是对于每一个事件类型可以自动的进行标注的金融通告的数量(例如526的意思就是在总共的2976个金融通告中，可以被标注为股权冻结事件的数量是526个)。NO.POS代表总共的事件描述的数量(事件描述也是正例，事件描述是指能够描述一个事件的句子，那些不能描述一个事件的句子或者描述的不是当前事件类型的句子就是负例。例如，526是指有526个通告可以标记为股权冻结事件，而每一篇通告中有很多很多个句子，这526个通告的所有句子加起来有544个句子是描述股权冻结事件，剩下的2960个句子要么根本就没有描述一个事件，要么描述的也不是股权冻结事件)。正例句子和负例句子组成了DEE模型需要的文档级别的训练数据。包括事件触发词和一系列事件元素的正例句子被作为句子级别的训练数据输入给SEE模型。

我们随机选择200个样本(包含862个事件元素)来手工的评估自动标注数据的精度。如表２所示，展现了我们自动标注数据的高质量。

3.2 系统性能

我们使用准确率、召回率、F1值来评估DCFEE系统。表３展示的是在股权冻结事件的提取上基于模式的方法和DCFEE的方法的性能对比。实验结果表明在大部分的事件元素提取上DFCEE是优于基于模式的方法的。
表４展示的在不同的事件类型上SEE与DEE的准确率、召回率和F1值。值得注意的是在SEE阶段用的标签数据是自动生成的数据而在DEE阶段用的标签数据是来自于金融事件知识库。实验结果验证了SEE和DEE的有效性。
总结如下，实验结果表明基于远程监督的方法可以自动的生成高质量的有标注的数据从而避免手工的标注。这也证实了在这篇文档中提出的DCFEE能够有效的从文档层面上提取事件。

4 DCFEE的应用

DCFEE系统的应用就是为中文金融文本的在线事件提取系统。它可以帮助金融学专家从金融通告中快速的获得事件信息。图５显示的是在线DCFEE系统的截屏。不同的单词颜色表示不同的事件元素类型，划线句子代表文本中的事件描述。我们可以从非结构化的关于股权冻结事件的金融文本中获得一个完整的股权冻结事件。

5　相关工作

当前的事件抽取方法可以主要分为统计的方法，基于模式的方法和混合的方法。统计的方法可以划分为两类：在特征提取工程的基础上传统的机器学习算法，以及自动特征提取的神经网络算法。基于模式的方法通常应用在工业中因为它达到较高的准确率，但是却是较低的召回率。为了提高召回率，有两种主要的研究方向：构建相对完整的模式库并且使用半监督的方法去构建触发词字典。混合事件提取的方法结合了统计的方法和基于模式的方法。到目前为止，据我们所知，还没有哪一个系统可以在中文金融领域自动的生成标注数据并且从文档中提取出文档级别的事件。

用自己的话总结一下这篇论文：
DCFEE由两部分组成

第一部分是利用远程监督从文档中找出事件描述的那个句子，然后注释句子中的触发词和所有事件元素。其中找出的事件描述是属于文档级别的数据，因为DEE需要的训练数据就是事件描述和不是事件描述的句子。注释事件描述中的触发词和事件元素属于句子级别的数据，因为SEE需要的训练数据就是这些每个单词带有标记的句子，类似于实体识别等序列标注任务。
第二部分就是事件抽取，因为通过第一部分我们得到了DEE所需的数据和SEE所需要的数据。

那么第一部分具体怎么生成训练数据呢？论文中说在一篇文档中，如果一个句子包含大多数的事件元素并且有具体的触发词，那么这个句子就最可能是事件描述，那么这个句子中的事件元素也就会对应相应的角色。那么如何发现触发词呢？论文中说对于每一个事件类型，会先构建一个这种类型的触发词字典。通过上面的处理步骤后，那么对于结构化的知识库中的数据，就可以用它来回标非结构化的文档。比如图３．在金融的事件知识库中，我们有左侧表格数据，表格数据中有隆鑫有限公司，3940万股，中信证券股份有限公司，2017-02-23,2018-02-23。那么现在有一个句子：隆鑫控股将其持有的公司39400000股无限售流通股质押给质权人中信证券，质押期为１２个月。那么根据知识库中的数据，我们就可以标注这句话为股权质押事件，并且将句子中的事件元素(NAME,NUM,ORG,BEG,END)给标注出来。于是也就得到了句子级别的标注数据，这句话就可以作为SEE的训练数据，不是事件元素的单词标注为O，那么现在就是一个典型的实体识别的任务。
这句话也会被标记为事件描述(正例)，其它的句子就是负例，现在也就得到了文档级别的训练数据。
值得注意的是数据标注中有一些挑战，比如词汇的缩写等等。

现在已经得到了标注好的训练数据，接下来就是事件抽取。SEE没什么好说的，就是个实体识别了。对于DEE来讲，分为两部分，第一部分是判断一个句子是不是关键事件。(前面已经说了，我们会把得到的事件描述的那个句子和其他句子作为DEE的训练数据，事件描述的类别是1，表示正例)如何判断呢？也就是将SEE的输出和当前句子的向量表示联合起来送进CNN，输出是二分类问题。第二部分是事件元素补全，论文中没说具体怎么补全。

如图所示，An announcement中所有的句子都已经标注好了，也就是说句子中每一个事件元素和触发词都标记好了，然后送入SEE中，SEE会预测每一个句子中每一个单词对应的tag，有着最多的事件元素的那个句子作为事件描述，然后将所有句子输入给DEE，DEE的输出指明了事件描述，事件描述中的事件元素。

蚂蚁集团可转正实习算法岗内推-自然语言飞300 业界资讯自然语言处理
具备极佳的工程实现能力，精通C/C++、Java、Pvthon、Perl等至少一门语言:对目前主流的深度学习平台:tensorflow、pytorch、mxnet等，至少对其中一个有上手经验;熟悉深度学习以及常见机器学习算法的原理与算法，能熟练运用聚类、分类、回归、排序等模型解决有挑战性的问题，有大数据处理的实战经验;有强烈求知欲，对人工智能领域相关技术有热情，内推链接：https://u.ali
深圳传音控股AI算法岗内推飞300 人工智能 python java 业界资讯
1扎实的数学基础，熟练掌握机器学习相关的数学知识。2熟悉常用的机器学习算法，掌握常用的深度学习模型与编程实践。3熟悉Pytorch或TensorFlow等深度学习框架，有一定项目经验。4良好的沟通协调能力，执着的专业精神。5参与部门AI创新项目，包括自动化测试平台、BPM流程管理等项目开发登录链接：transsion.zhiye.com/campus/jobs填写我的推荐码：EVHPB3投递，简历
小鹏P7自动泊车技术方案浅析 yuyuelongfly 自动驾驶小鹏P7 APA 自动泊车自动驾驶
目录一、概述二、感知算法1.视觉库位检测1.1.视觉系统1.2.库位检测算法1.3.同步建图与定位技术1.4.其他要素检测2.超声波库位检测3.视觉库位检测与超声波库位检测融合三、路径规划与控制四、HMI一、概述泊车算法离不开感知&融合、规划&控制，从目前行业技术发展的角度来看，泊车涉及的每一个算法都不算完美，甚至可以说仍不成熟。然而，小鹏P7采用优秀的系统方案设计，特别是通过引入同步建图与定位技
【北上广深杭大厂AI算法面试题】深度学习篇...MobileNet 系列网络发展与高效性分析（附代码）（二）努力毕业的小土博^_^ AI算法题库人工智能算法深度学习卷积神经网络
【北上广深杭大厂AI算法面试题】深度学习篇…MobileNet系列网络发展与高效性分析（附代码）（二）【北上广深杭大厂AI算法面试题】深度学习篇…MobileNet系列网络发展与高效性分析（附代码）（二）文章目录【北上广深杭大厂AI算法面试题】深度学习篇...MobileNet系列网络发展与高效性分析（附代码）（二）MobileNet系列网络发展与高效性分析（附代码）4.MobileNetV2（2
”天下第一神数“——紫微斗数的JAVA实现！紫微玄机速run~ 钮钴禄·爱因斯晨赛博算命JAVA实现 java python 开发语言
各位佬儿们好呀~~互三必回哦~更多精彩：个人主页赛博算命精彩文章：梅花易数的java实现赛博算命系列文章不作溢美之词，不作浮夸文章，此文与功名进取毫不相关也！与各位共勉！！文章目录#前言：一、紫微斗数简介二、紫微斗数的数学原理1.**命盘构建规则**2.**星曜分布算法**3.**运势推导逻辑**三、Java实现步骤1.代码分布实现1.1**数据结构设计**1.2**命盘构建算法实现**1.3**
华为OD-不限经验，急招，机考资料，面试攻略，不过改推，捞人 2301_79125642 java
超星(学习通)-Java后端一面网易互娱40min（感觉是G了）一篇不太像面经的面经2023总结，前端大二上进小红书秋招面经第一波海康红外图像算法实习（微影）面经测试工程师社招-测试面试题大厂在职傻屌。TPlink图像算法工程师一二三面经深圳海康红外图像算法实习（微影）面经TPLink提前批面经（已OC）传统车辆转规控算法岗秋招记录腾讯TEG测试与质量管理全记录瑞幸Java开发校招一面腾讯金融科技
基于TableStore的海量气象格点数据解决方案实战阿里云云栖号数据存储与数据库 exception Java核心技术
前言气象数据是一类典型的大数据，具有数据量大、时效性高、数据种类丰富等特点。气象数据中大量的数据是时空数据，记录了时间和空间范围内各个点的各个物理量的观测量或者模拟量，每天产生的数据量常在几十TB到上百TB的规模，且在爆发性增长。如何存储和高效的查询这些气象数据越来越成为一个难题。传统的方案常常采用关系型数据库加文件系统的方式实现这类气象数据的存储和实时查询，这种方案在可扩展性、可维护性和性能上都
【MATLAB源码-第269期】基于matlab的鱼鹰优化算法(OOA)无人机三维路径规划，输出做短路径图和适应度曲线. Matlab程序猿小助手路径规划 matlab 算法开发语言人工智能无人机网络机器人
操作环境：MATLAB2022a1、算法描述鱼鹰优化算法（OspreyOptimizationAlgorithm，简称OOA）是一种新兴的基于自然界生物行为的智能优化算法，其灵感来自于鱼鹰这种海鸟在捕猎过程中的独特行为。鱼鹰是一种生活在全球范围内的猛禽，以鱼类为主食。它们的捕猎方式非常高效和精准，能够通过快速调整飞行路径和俯冲角度来捕捉猎物。鱼鹰的捕猎行为不仅表现出高度的灵活性，还能在不同环境中表
【MATLAB源码-第164期】基于matlab的轴承故障三种谱图：细化谱，功率谱，倒谱对比分析仿真。 Matlab程序猿小助手通信原理 matlab 开发语言算法机器人人工智能机器学习计算机视觉
操作环境：MATLAB2022a1、算法描述轴承故障分析是一种重要的维护和监控手段，能够帮助工程师及时发现和解决轴承在运行中可能遇到的各种问题。在轴承故障诊断中，通常会使用到三种谱图分析方法：细化谱（FineSpectrum）、功率谱（PowerSpectrum）和倒谱（Cepstrum）分析。这三种方法各有特点，适用于不同的故障类型和分析场景。以下是对这三种谱图的详细描述。细化谱分析理论基础细化
【MATLAB源码-第128期】基于matlab的雷达系统回波信号仿真，输出脉压，MTI,MTD等图像。 Matlab_猿助手调制解调通信原理 MATLAB matlab 开发语言信息与通信
操作环境：MATLAB2022a1、算法描述雷达（RadioDetectionandRanging）是一种使用无线电波来探测和定位物体的系统。它的基本原理是发射无线电波，然后接收这些波从目标物体上反射回来的信号。通过分析这些反射波，雷达能够确定物体的位置、速度、方向和其他特性。历史背景雷达技术起源于20世纪初。最初的发展动机主要是军事上的需求，特别是在第二次世界大战期间，雷达在侦测敌机和舰船上发挥
大数据与物联网（IoT）的完美融合：驱动智能新时代 Echo_Wish 大数据高阶实战秘籍大数据物联网 python 人工智能
大数据与物联网（IoT）的完美融合：驱动智能新时代大家好，我是你们的大数据探索者Echo_Wish。今天，我们将深入探讨大数据与物联网（IoT）整合的重要性及其在现代科技中的应用。物联网通过连接大量智能设备，生成海量数据；而大数据技术则赋予我们从这些数据中提取有价值信息的能力。当两者结合在一起时，能够为各行各业带来革命性的变化，推动智能时代的到来。一、大数据与物联网的基本概念1.物联网（IoT）物
三维模型点云化工具V1.0使用介绍：将三维模型进行点云化生成是刃小木啦~ python pyqt 工业软件软件工程
三维软件绘制的三维模型导入之后，可以生成点云，用于替代实际的激光扫描过程，当然，主要是用于点云算法的测试和验证，没法真正模拟扫描的效果，因为太过于理想化了。功能介绍将三维软件绘制的三维模型变成点云，并且支持不同的点云密度。支持添加不同的噪声，高斯噪声比较柔和，随机噪声比较明显。功能视频介绍三维模型点云化工具V1.0使用介绍：将三维模型进行点云化生成，支持不同的分辨率，支持添加噪声下载地址三维模型点
PCL 最小二乘拟合空间曲线点云侠点云进阶算法 c++计算机视觉 3d 开发语言
目录一、曲线拟合1、算法原理2、参考文献二、代码实现三、结果展示四、测试数据本文由CSDN点云侠原创，原文链接。如果你不是在点云侠的博客中看到该文章，那么此处便是不要脸的爬虫与GPT。博客长期更新，最近一次更新时间为：2024年7月14日。①代码在PCL1.14.1中运行；②完善代码；③新增标准测试数据一、曲线拟合1、算法原理电力线三维重建指将提取得到的单根电力线进行精确矢量化。在理想情况下，
DeepSeek开源技术全景解析：从硬件榨取到AI民主化革命大刘讲IT 开源人工智能
DeepSeek开源技术全景解析：从硬件榨取到AI民主化革命一、开源周核心成果概览2025年2月24日启动的"开源周"计划，DeepSeek团队连续发布三项底层技术突破：FlashMLA（2.24）：动态资源调度算法，Hopper架构GPU性能榨取专家DeepEP（2.25）：全球首个MoE全流程通信优化库DeepGEMM（2.26）：300行代码重构矩阵计算范式三项技术构成完整技术栈，覆盖大模型
分布式基本理论 - CAP,BASE 和 RAFT 算法 Yellow明算法分布式
分布式基本理论-CAP,BASE和RAFT算法1.分布式基本理论1.1CAP理论在理论计算机科学中，CAP定理（CAPtheorem），又被称作布鲁尔定理（Brewer’stheorem），它指出对于一个分布式计算系统来说，不可能同时满足以下三点：[1][2]一致性（Consistency）（等同于所有节点访问同一份最新的数据副本）可用性（Availability）（每次请求都能获取到非错的响应—
AdaBoost算法 Mr终游机器学习算法决策树
目录一、核心原理：二、算法步骤三、关键优势：四.局限与解决五、代码示例（鸢尾花数据集）AdaBoost（AdaptiveBoosting）是一种经典的集成学习算法，通过组合多个弱分类器（如决策树）来构建强分类器。其核心思想是通过迭代优化残差（错误）和动态调整样本权重，逐步提升模型性能。以下是对AdaBoost的简明总结和关键要点：一、核心原理：提升法：通过顺序训练多个弱分类器，每轮专注修正前一个模
常见的限流算法有哪些涛粒子算法 java 网络
计数器算法原理：在固定的时间窗口内，对请求进行计数，当请求数量达到设定的阈值时，就开始限流，拒绝多余的请求。例如，设定1分钟的时间窗口内允许最多100个请求，那么在这1分钟内每来一个请求，计数器就加1，当计数器达到100后，后续的请求就会被拒绝，直到下一个1分钟开始，计数器重置为0重新计数。优点：实现简单，易于理解和部署，在一些对精度要求不是特别高的场景下能很好地控制流量。缺点：存在临界问题，比如
探索数据仓库自动化：ETL流程设计与实践 Echo_Wish 大数据高阶实战秘籍数据仓库自动化 etl
探索数据仓库自动化：ETL流程设计与实践在大数据时代，数据仓库已成为企业数据管理和决策支持的核心工具。如何高效地提取、转换和加载数据（ETL），是数据仓库建设中的重要环节。本文将围绕数据仓库自动化的ETL流程设计展开，结合实际代码示例，探讨如何构建高效、稳定和可扩展的ETL解决方案。什么是ETL？ETL（Extract,Transform,Load）是指数据抽取、转换和加载，是数据仓库建设的重要步
代码随想录算法训练营第七天|Leetcode 344.反转字符串 541. 反转字符串II 卡码网：54.替换数字昂子的博客算法 leetcode java 数据结构
344.反转字符串建议：本题是字符串基础题目，就是考察reverse函数的实现，同时也明确一下平时刷题什么时候用库函数，什么时候不用库函数题目链接/文章讲解/视频讲解：代码随想录思路非常简单，两个指针一个指向头一个指向尾巴，对于字符串，我们定义两个指针（也可以说是索引下标），一个从字符串前面，一个从字符串后面，两个指针同时向中间移动，并交换元素。classSolution{publicvoidre
C++ 泛型编程四代目水门 C++学习笔记 c++开发语言
C++泛型编程一、泛型编程基础1.核心概念实现算法与数据结构的分离基于模板技术（函数模板/类模板）本质：类型参数化，减少重复代码典型应用：STL容器、迭代器、算法2.类型本质内存布局的抽象不同类型对应不同的内存分配策略二、函数模板1.基本语法cpptemplate//或template返回类型函数名(参数列表){//函数体}2.关键特性支持隐式推导和显式指定类型可重载（包括与普通函数重载）可声明为
字节跳动2024校招后端开发面试题大全（含解题思路） AI天才研究院 ChatGPT AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
字节跳动2024校招后端开发面试题大全（含解题思路）关键词：字节跳动、校招、后端开发、面试题、解题思路摘要：本文将围绕字节跳动2024校招后端开发面试题进行深入分析，包括数据结构与算法、编程语言基础、后端技术栈、微服务架构、系统设计与优化等方面的面试题。通过详细解析这些面试题，帮助读者理解解题思路，提升后端开发面试技能。字节跳动2024校招后端开发面试背景字节跳动（ByteDance）是中国领先的
JAVA排序荔枝吃吃 java 排序算法算法
1.冒泡排序/***使用冒泡排序算法对整数数组进行排序*冒泡排序是一种简单的排序算法，它重复地遍历要排序的数列，*一次比较两个元素，如果它们的顺序错误就把它们交换过来*遍历数列的工作是重复地进行直到没有再需要交换，也就是说该数列已经排序完成*这个算法的名字由来是因为越小（或越大）的元素会经过交换慢慢“浮”到数列的顶端**@paramarr待排序的整数数组*/publicstaticvoidbubb
DeepSeek：AI赋能的无限可能——从日常生活到职业进阶的全场景探索 Hello kele 人工智能人工智能
引言在人工智能技术飞速发展的今天，DeepSeek作为一款国产AI工具，凭借其强大的推理能力、自然语言处理效率和场景化应用潜力，正在重塑人类解决问题的方式。从撰写演讲稿到制定投资策略，从家庭教育到企业管理，DeepSeek通过“自然语言对话”的交互模式，将复杂任务简化为几步提示词的输入，真正实现了“所想即所得”。本文将从七大核心场景出发，系统解析DeepSeek如何成为个人与组织的智能助手，推动效
数据结构与算法--实现链表的复制(链表中节点比较特殊,含有一个rand指针,指向任意一个节点) 请叫我大虾数据结构链表数据结构
已在leetcode上执行通过//https://leetcode.com/problems/copy-list-with-random-pointer/leetcode地址publicclassCopyListWithRandom{publicstaticclassNode{intval;Nodenext;Noderandom;publicNode(intval){this.val=val;th
【贪心算法1】 m0_46150269 贪心算法算法
力扣455.分发饼干链接:link思路尽可能让更多人吃到饼干并且尽可能少的造成浪费，大尺寸饼干能满足大胃口的人就应该优先分给大胃口的人。所以先将饼干和胃口大小排序，然后从后往前遍历。但是这时候又有一个问题，饼干和胃口哪个作为for循环哪个作为if呢？答案是只能胃口作为for，饼干作为if，因为for循环的i是固定每次移动，而饼干index只有满足条件才会移动。这里可以举一个反例，如果最大胃口大于最
贪心算法-移除K个数字我是你的春哥！贪心算法算法 java
1、题目描述给定一个以字符串表示的非负整数num，移除这个数中的k位数字，使得剩下的数字最小。注意：num的长度小于10002且≥k。num不会包含任何前导零。2、题目分析：题目简介明了，就是把给定的数字删除指定个数的数字使删除之后的数字是同等位数数字中最小的那个。但是需要注意的是，题目中给的数字是字符串的形式并且输出结果也是字符串的形式，这就涉及到字符串和数字之间的相互转化问题。题目中要求删除的
RAG 检索增强生成：技术详解与应用展望君君学姐 RAG检索增强生成
RAG检索增强生成：技术详解与应用展望一、引言随着人工智能技术的飞速发展，自然语言处理（NLP）领域迎来了前所未有的变革。其中，检索增强生成（Retrieval-AugmentedGeneration，简称RAG）作为一种新兴的技术框架，正逐渐成为大模型应用中的热门选择。RAG通过结合信息检索（IR）和自然语言生成（NLG）的能力，旨在提升模型在回答问题、生成文本等任务中的准确性和可靠性。本文将深
企业信息查询系统的技术实现路径探析——以某大数据平台为例探熵科技大数据
引言在数字化转型加速的背景下，企业信息服务领域正经历着从传统工商查询向智能决策支持的演进。本文将以某企业信息查询系统为研究样本，解析其技术架构与实现路径，探讨大数据技术在企业服务场景中的落地应用。一、行业技术现状分析当前企业信息服务面临三大技术挑战：多源异构数据整合：需聚合工商数据（结构化）、招投标公告（半结构化）、企业新闻（非结构化）等差异化数据源数据实时性要求：企业经营状态变更、联系方式更新等
贪心算法-字符串数组能拼接出的最小字典序(java) SP_1024 算法贪心算法算法 java
最小字典序的贪心算法题目描述贪心算法的解题思路贪心算法自定义比较器贪心算法暴力递归解法题目描述给定一个由字符串组成的数组strs，必须把所有的字符串拼接起来，返回所有可能的拼接结果中字典序最小的结果贪心算法的解题思路首先我们很自然的能想到,遍历数组,比较数组中每一个元素,字典序越小的,就放前面.但这里右一个陷阱,比如ba和b两个字符串,b的字典序小于ba,如果拼成bba就错了,显然bab字典序更小
大数据面试系列之——Hadoop 潜心_守道大数据面经面试大数据 Hadoop
Hadoop的三个核心：HDFS（分布式存储系统）MapReduce（分布式计算系统）YARN(分布式资源调度)1.Hadoop集群的几种搭建模式1.单机模式：直接解压安装，不存在分布式存储系统2.伪分布式：NameNode和DataNode安装于同一个节点，无法体现分布式处理的优势。3.完全分布式：一个主节点，多个从节点，存在如果主节点宕机，集群就无法使用的缺点。4.高可用模式：多个主节点，多个
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文