达观数据

“达观杯”进行时 | 万字长文详解“智能文本抽取”算法进阶与应用

首先简单地介绍一下我们公司。达观数据是一家专注于做文本智能处理的科技公司，目前完成了B轮，融资超过2亿元，投资机构包括宽带、软银、真格等等。我们主要做的是利用自然语言处理、光学字符识别（OCR）、知识图谱等技术，为大型企业和政府机构提供机器人流程自动化（RPA）、文档智能审阅、垂直搜索、智能推荐、客户意见洞察等智能产品，让计算机代替人工完成业务流程自动化，大幅度提高企业效率。

达观数据

文本挖掘简介

下面我们开始介绍一下文本挖掘。下图中，我们可以把人工智能分为三类——图像、文本和语音。达观是主要在文本智能领域的公司。文本相对于图像和语言来说更难处理，因为文本数据需要做一些逻辑分析。图像和语音属于感知智能，而文本属于认知智能，所以号称是“人工智能的明珠”，难度很大。

自然语言处理的任务是什么？简单来说就是让机器知道怎么看、要么写。我们一般把“看”叫自然语言理解（NLU），包括自动化审核、自动文本比对、信息纠错，搜索推荐等等，它可以大幅度减轻人工的负担。自动写作叫自然语言生成（NLG），包括自动填表、生成摘要，文本润色，还有大家看到的“自动生成股市”、“自动生成对联”等等。目前我们主要还是在解决自然语言理解的问题。语言生成因为一些限制，实际落地的效果仍然有待提高的。所以我们今天主要讨论自然语言理解这部分。

其实自然语言处理的历史非常悠久，甚至出现在“AI”这个概念之前，最早叫“符号主义”。刚开始的时候人们选择了一个很不好的场景：机器翻译。机器翻译是一个难度很大的任务，因为涉及了语义的理解和不同语种语法的规则。所以早期自然语言处理不是很成功。过了20-30年，到上世纪80年代开始，我们使用了语法规则，基于自然语言处理的一些基本原理，再通过人工在这些语法的规则上进行修订，做了一些问答、翻译和搜索方面的尝试。

自然语言处理真正的黄金时期是从上世纪90年代开始，那时候我们搞了统计学，做了很多基于统计机器学习的算法。从下图中我们可以发现，统计模型的效果让自然语言处理的应用领域更加广泛，产生了很大进步。其实在上世纪90年代的时候，自然语言处理已经可以在很多场景表现得很不错了，比之前的技术要先进很多。

从2006年到现在，深度学习已经开始起步。之前“神经网络”这个概念已经有了，只是当时受限于各种各样的算法和硬件，没法做得很好。但现在各方面都成熟之后，大家发现深度学习是一个神器。其实深度学习最早的时候在图像领域的应用较多，但目前自然语言处理也逐渐开始过渡到深度学习的阶段。尤其是去年像BERT这样的模型出来之后，我们发现自然语言处理的评测经常被屠榜，这说明神经网络非常有效，但也说明数据也很重要，后文中我们会解释数据的重要性。

我们对比一下人类和计算机之间的差异。其实我们人类短时间内阅读理解文字的能力还不错，但是时间久了很容易遗忘。但计算机基本不会忘，只要硬盘不坏。人脑难以长期记忆，但我们对内容的推理能力比计算机强。因此，我们可以请计算机来做一些比较细节的工作。例如文字比对，我们检查错误要逐字逐句地看，非常累。计算机能做到秒看，却很难做复杂的逻辑和推理。

此外，虽然人类阅读速度很快，但写作速度很慢。大家高考的时候都要留几十分钟来写作。这是因为写的时候，我们手速有限。而且在写的过程中还要进行很多思考。写作本质是把脑中的很多语义信息压缩到一个点，也就是文章的主题。有了主题后我们还要再把作文展开，所以要花很多时间构思大纲、设计章节结构和文章主线，非常耗时。所以大家不要催那些网文作者了，他们每天写得其实挺辛苦的。要把整个大的流程串起来，其实是一件比较难的事情。

我们在接受信息时能很快地理解整体，但是难以记住细节。我们看完一个东西立刻能知道它的中心思想。例如，我们浏览了一个企业的信息之后，就能做出“这个企业比较靠谱，愿意投资”的判断。但是企业收入、竞争利润、负债这些具体数字很难全部记清楚。所以人去寻找局部信息的能力和计算机比非常慢。计算机的优点就是找这种局部信息，越细的东西它找得越快。

什么场景比较适合让计算机去做？基于现阶段的技术，现在大部分场景计算机还是无法取代人。我们可以看到，很多行业，包括法律，包括企业合同、客户意见、产品手册、新闻、问答资料的数据是需要我们亲自来看。虽然这些行业领域不同，但做的事情都类似。审一个企业合同的时候，需要看一些关键的信息，如甲方、乙方，以及这些东西是否合规，总金额是否正确。在法律行业，法官判案时也要看整个案由，包括被告和原告的相关信息，案件的时间、地点等等。这些都是信息抽取，在很多应用场景下都需要信息抽取。无论我们做了什么决策，判断是否投资，是否通过合同，如何进行法律判决，都需要先从文字中提取信息。

其实在一些比较固定的，相对简单，不需要特别复杂的逻辑推理的场景中，机器学习算法已经可以完成信息抽取任务。我们正努力让计算机在这些场景落地，这不仅仅是算法的问题，也是应用的问题。这也是我们一直在思考的问题。

抽取算法概述

现在我们具体讲讲信息抽取的几种最主流的算法。

什么是信息抽取？其实就是从文本中找到指定类型的实体。大家应该听过命名实体识别（NER），其实命名实体识别只是抽取中的一种。广义上的信息抽取，除了命名实体识别之外，还包括关系抽取、事件抽取等。其实在我看来，关系抽取和事件抽取比命名实体识别的应用层次更高级一点。因为这两个抽取同需要做NER，只是在做NER的基础之上，还要做一些其他的工作，来满足场景需求。

我们先从最简单的NER开始。命名实体一般是指人物、地点、机构、时间等内容。现在我们以公司抽取为例详细说明一下。

如果从历史的角度来说，识别公司的任务就是所谓的“符号主义”任务，简单来说就是穷举所有公司的名称做词典匹配。这样就是一个命名实体。但是，这么做场景其实有限。为什么？因为上市公司的集合是有限的，所以直接拿公司字典可能比训练模型更快。

但是你会发现这种场景并不常见。比如，如果抽取所有公司（不仅限于上市公司）就不能用这种办法，因为公司实在太多了。十年前如果你看到“饿了么”，如果没有上下文，你不会觉得这是一个公司，但因为现在大家经常点“饿了么”，都知道这是一个公司的名字。而且，每天都有大量新公司产生，所以整体的公司是一个没法穷尽的集合。在这种情况下，我们没办法用字典很好地完成绝大多数任务。

之前我们提到了上下文。那我们现在加入上下文信息，是不是可以知道某个实体是一个公司呢？最直接的方法是通过语法规则来做，例如“A是一家公司”、“B作为一家公司”等等。你会看到这样的一些模板，然后再去分析。如果说得学术/技术一点，相当于把这个任务提炼成一个比较复杂的句法依赖和语法规则。但从代码角度可能会比较简单，比如把模板中间的东西抠掉，然后去做匹配，做完匹配再去做填空，填空的内容就是你要的这些公司。

但这样做也有很大的问题，因为我们语言表述的方法太多了。例如，“我是A公司的”，“我来自B公司”以及很多种其他不同的表述都是一个意思，我们无法穷尽所有的表述方法。甚至周星弛的电影也能增加这种做法的难度。我们以前说“我先走了”，现在会说“我走了先”、“我吃了先”，这其实跟我们传统的语法都不太一样，但现实生活中就有这么多表述。不过，和上面的字典类似，在特定的场合，比如一些特定领域的公文等文书文章，还是有套路或者标准写法，也许可以用这种方法。总的来说这种方法比较简单。

更高级的是基于统计机器学习的方法，从算法上来说是用序列标注的方式来做。这种方法要求我们标注数据，例如上图中我们标注了一句话：“达观数据是人工智能公司”。现在它会预测“上海的虚拟数据”中的“虚拟数据”也是一家公司。它是怎么做到的？后文会详细介绍。这种做法就跟模板匹配完全不一样了。在图中，可能第一个预测“虚拟数据是人工智能公司”还有模板的性质，但后面两个表述和前面完全不同，所以这种基于统计机器学习的方式有了一定的预测能力。

但问题是什么？它需要两个条件。首先是数据。大部分的机器学习都是监督学习，要做数据标注。而且我们传统机器学习经常要做特征工程。甚至在很多任务中，一个特征工程可能要占到我们项目时间和精力的90%。我们之前参加CIKM评测并拿到冠军的任务中，就耗费了大量时间构建特征。举个例子，我们实际工作中完成文本分类任务的时候，仅仅把文字的长度这个特征加进去，效果一下子提升了很多。这种特征我们很难想到。特征的选择可能有时候还有一定的逻辑推理，但有的时候就是拍脑袋。所以特征工程做好是很难的，需要很多的经验，还需要有扩散性的思维。

此外训练和预测需要很多计算资源。某些机器学习（尤其是传统的机器学习）的训练过程中，特征有时候会特别耗费内存，可能不一定训练得完，所以对机器有一定的限制。当然，现在做深度学习，限制可能是GPU。深度学习相对于传统机器学习，对数据量地要求更高。因为传统的机器学习模型的各种参数没有深度学习这么多。

虽然深度学习的可解释性经常被人诟病，但也有些模型实际上可以给我们一些解释。尤其是一些基于Attention机制的模型。这里就是一个Attention分类器。图中可以看到它能从句子级别和词级别告诉你，对一个分类模型来说，哪句话最重要，哪个词最重要。这些词和句子都是有权重的。因为有Attention这样的权重，我们就能把它拿出来做可视化。

所以整体来说还是要通过序列标注来做。上图有一个序列标注的例子：分词。要分词的句子是“它来自达观数据”。我们有一个叫Label Set，也就是标签集。图中我们用的是BMES这个很经典的标签集，这个标签集其实对应的英文Begin、Middle、End、Single，大家一看就知道是什么意思。对于分词来说，每个字可能组成一个词（单字成词），也可能是一个词的开始、的中间或结尾。

上图还可以看到，在分词之外，命名实体我们用另外一个标签集。我们做词性分析可能用不同的标签集。可以看到，不同的标签集可以用来做不同的事情。所以无论是传统的机器学习，还是深度学习，我们都是在解决一个叫做“序列标注”的问题。所以标签集和标注方式都是基础的、几乎是一样的。有什么样不同？后文会具体讨论。

传统抽取算法介绍

其实传统抽取算法有很多，这里会介绍一些大家比较常用，也比较好理解的模型。第一个模型叫生成式模型。生成式模型的一个代表就是隐马尔科夫模型（HMM）。另外一个是判别式模型，代表是条件随机场（CRF）。这两个模型都结合了概率论还有图论的一些内容，也都基于统计机器学习的算法。它们都能根据训练集训练出不同的结果。下面我们详细介绍一下这两个模型。

我人生第一次做序列标注任务的时候，用的就是HMM模型。马尔可夫这个名字一听就像是个数学很厉害的俄国人，但其实HMM模型并不难。大家只要记住两部分内容：两个序列、三个矩阵。如下图所示。我们要做的就就是把这五个部分定义好，整个模型和要解决的问题就定义清楚了。

首先是观察序列。上图中“他来自达观数据”，就是我们人看得到的观察序列，但它背后隐藏了分词。“他”是一个词，“来自”是一个词，“达观数据”是一个词，这个是我们说“隐藏序列”，没有写到明面上，但需要我们模型预测。怎么预测？下图画了预测模型的示意图。图中，X_1、X_2、X_3就是我们说的隐藏内容，人能看到的是y_1、y_2、y_3、y_4，也就是观察序列。但其实不同状态是可以不停地转换的。比如X_1到X_2之间有一条连线说明X_1和X_2之间可以通过概率a_12做转换；X_2到X_3之间通过概率a_23做转换。所以这个模型其实比链式的HMM还要更复杂一点，因为它有X_2到X_1这样的转换。所有的X都可以转换到y_1、y_2、y_3、y_4这样的观察序列，没对转换关系都有对应的概率。

这样我们就把模型定义好了。我们只需要求模型的哪几个部分呢？主要是这三个矩阵：初始状态矩阵，发射状态矩阵，以及状态转移矩阵。

第一个是初始状态矩阵。我们现在举的例子都是有序列标注，例如多轮分词。下图是一个真实的多轮分词模型里面的图，这是我们自己训练的一个模型。可以看到，初始状态只可能是S(ingle)或B（egin），因为不可能从代表词结尾的标记开始一个句子。所以我们要从所有的语料中统计，单字词S和多字词B开始的概率是多少。仅仅统计这两个矩阵就可以，因为其他两个标记M（iddle）和E（en）是不可能出现在句首的。图中的概率有负数，是因为经过log和相关处理，从而可以方便后续的计算，但本质的含义还是概率。

第二个矩阵是发射状态矩阵。什么是发射状态矩阵？简单来说就是我们在分词里每个字变成任何一个标签的概率（如下图所示）。例如“他”这个字如果来自“他来自达观数据”这句话，就是一个单字词S（ingle）；但如果在“他”出现在“他们”等多字词里，标签就是B(egin)；在“关心你我他”里，“他”的标签可能就是E（end）。所以你会在训练语料看到“他”有不同的标签。发射状态矩阵就是把“他”到每一个标签的概率集合起来。发射状态矩阵非常重要，它说明了每一个字到不同标签的概率。

第三个是状态转移矩阵。什么是状态转移矩阵？其实状态转移矩阵也是统计出来的，也就是刚才说的X_1和X_2之间的概率。我们训练语料里面已经有了SB、BMME这样的标签。其实我们可以观察到一些现象，例如S（ingle）后面不可能跟E（nd）和M（iddle）。这些就是状态转移矩阵描述的内容，如下图所示。它说明E后面跟着S的概率是多少，E后面跟着B的概率又是多少等等。这些值其实都是从语料库中训练出来的。

下面讨论两类学习算法：一种是“监督学习”，通过极大似然估计就可以得到这些值，非常好算，简单地说就是统计次数：统计这个标签一共有多少，相关概率又是多少，就可以得出结果了。还有是一个非监督学习Baum-Welch，这个算法我们用得比较少，因为根据我们自己的经验，它的整体效果会比做统计差很多。而且监督学习有个好处是因为有了训练集和相关的数据，所以很容易去查错。

解码算法基本是用Viterbi来做。当然你也可以把当前最好的状态输出来，找到在当前序列下能够输出的最大标签，通过自己的一些解码逻辑（比如B后面一定是M或者E，不可能是S）优化一些内容。但我们经常还是用Viterbi去做整体的解码，取得最优路径的概率。Viterbi解码算法大家一定要掌握，因为后面有有不少算法与它类似。只要把Viterbi学会了，后面的很多东西就很好理解了。

HMM是我个人学的第一个模型，但是我现在基本上不用这个模型。为什么不用？因为它的效果还是相对差一点。但它也有优点。因为做极大似然估计就是简单的统计，速度非常快。所以这个模型的更新可以做到秒级。你做一个数据的修改，跑一遍立刻把数据统计出来，修改矩阵以后很快就对这个模型做一个更新。所以在项目的初始阶段，我们可以快速地用这个方法来做baseline或者动态的修改。尤其在实际业务中，可能客户做了一些修改后他需要实时知道反馈，这时候可以用HMM，虽然可能不能保证有好的效果。

在实际应用中我们用的最多还是条件随机场（CRF）。因为CRF往往效果更好。下图说明了HMM和CRF的关系是什么，我们可以看到一个HMM是链式传递，但加上一个条件就是我们最常见的链式条件随机场。通用CRF就是下图中右下角的图，但是我们做序列标注的话可能是最下面一行中间的这个图，也就是链式的CRF。它跟上面一行的图的区别是什么？大家可以看到下面一行图中有好多小的黑色正方形，这就是我们说的条件。我们是如何得出条件的？下面我们就来介绍一下如何通过真实训练得到条件。

我们先看下面这张图。图中nz在词性里表示是一个“其他”类型的实体。这种类型很难归入时间、地点、人物等常见的实体类型，比如“苹果手机”可能就可以算是一个nz。我们把所有不太好分类的实体都归入到nz里。在这里，标签集还是BMES，但是加了一个“O”。标签后面的后缀其实就是类型。刚才提到的“其他”是nz，还可以有其他类型（如地名、时间、机构等）可以用其他字符串表示，比如nr、ns、nt。定义好这套标签集后，我们就开始定义特征函数。

下图是我们是用CRF++、CRFPP做的特征模板。大家可以看到，图里有U00到U08，最后还有一个字母“B”，B说明它会学习标签间的转移。U00到U08都是特征，U00表示第一个特征，U01是第二个特征。此外还有一个x%，它代表了前面特征的内容。

首先看第一个特征：U00: %X[-3,0]。U00表示把我们要研究的字左边的第三个字作为特征，向量后一个数0表示我们没有添加人工特征。我们把这些拼接起来就是一个最终的特征。

下图中包括了特征函数的权重（weight）。我们可以看到“U06：径”，这表示当前的字右边第三个字是一个“径”字。我们会给出每个标签的得分。可选的标签就是BEMOS。这里的数字代表得分（不是概率），有正有负。我们最终就是要把训练集所有的数据先通过这个特征模板变成一个特征。对于每个字，都有8个特征，第一个特征就是当前字左边的第三个字，第二个特征是左边第二个字，U03就是当前字本身。

所以大家可以看到CRF和HMM最大的不同。我们定义了这样一个特征函数（或者特征模板）。我们还可以人工设置一些特征影响特征模板。比如在研究当前字时，如果用了这样的模板，我就知道前三个字和后三个字会对当前这个字的标签的输出产生影响。除此之外，还可以用前一个字和当前字，或者当前字和后一个字的组合作为特征。有了这些特征，我们就要计算特征的结果。这时可以迭代训练模型，CRF使用了L-BFGS来训练。最终训练出来的模型可以告诉我们每个特征值对于不同的标签的值是多少，相当于是一个全局最优的值。

下面这张图代表了标签之间的转移，这跟HMM非常像，也可以算出来。所以CRF最终在一个全局最优的情况下达到了一个最优点。我们可以存储这个最优点情况下每一个特征的值，用来解码。

CRF的解码较为简单，我们根据当前序列的位置，根据特征的模板生成很多特征函数，直接去查我们的模型，找到其对应的特征函数权重，之后每一个特征函数权重加起来。查到这个特征函数就把相应的权重取出来，加起来，没有查到就是0，就不用去做了，最终有一个得分，这样每一个标签都会有相关的得分。这个字生成的Score会有BEMOS相对应的，最终得到一个图，我们就用Viterbi解码，跟前面一样就能解出来了。

为什么CRF效果好？因为我们可以定义特征模板，包括了很多上下文比较远的特征。CRF的特征是人工选择的，可以选择前两个、前三个，甚至更多，所以可以让模型学到更多上下文，而且是远距离的上下文，辅助我们判断，提升整体效果。但条件随机场需要迭代优化，根据梯度下降的方向去找最优点，所以整体速度相对较慢，算出来的模型也不会小。很多时候必须要筛选或裁剪标签。

以上内容就是HMM和CRF这两个传统的算法。

基于深度学习的抽取算法

经典机器学习的很多算法需要比较强的数学功底，通过数学公式做出优美完整的论证。但现在经典机器学习算法的收益已经没有以前大了。原因如下图所示，图中列出了文本挖掘领域中，经典的机器学习和深度学习的对比。

最大的区别就是紫色的框：特征工程。其实算法并不多，但特征工程五花八门，包括我们做文本处理时经常遇到的TF-IDF、互信息、信息增益、期望交叉熵等等。其实这些提取特征的方式都有一些科学依据，但很多场景下我们需要靠直觉。特征工程往往占到项目时间的90%。

而深度学习不在乎特征。模型定好之后只管输入，有了输入就能输出一个最好的结果。基本不用改代码的，只需要调参。如果数据小，还需要修改一下过拟合方面的东西就可以了。但是用经典机器学习做特征工程可能要改很多代码才能做出一个非常好的特征，这就是传统机器学习和深度学习最大的区别。

用深度学习做文本处理基本绕不开LSTM。虽然现在有很多模型，但也采用LSTM做baseline。下面是一篇著名的介绍LSTM的文章的截图，建议大家看一下原文。文章中最精华的就是下面四张图，展示了LSTM的工作原理。

第一个步骤是单元状态丢弃（如下图），图中有两个量x_t和h_t-1。x_t就是当前的输入，h_t-1是上一时刻的隐层的输出。这个公式求出来一个0-1之间的值，决定要留下多少东西。（任何东西乘以0-1其实就是计算要留多少东西，乘以0什么都留不了，乘以1就都留下，乘0.8就留80%。）

第一步：单元状态丢弃

第二步是新信息的选择。当前输入包括上一时刻隐层的输出和当前的输入。这一步骤判断应该留下来多少内容。它还是计算两个系数，一个i_t，这也是一个0-1之间的值。第二个是C_t，表示当前cell的状态。计算完毕后需要把这两个系数的值保存下来。

第二步：新信息选择

第三步是更新状态。上面一步已经决定可以留下的新内容和老内容。这一步要决定如何组合新老内容。老内容可以乘以第一步计算出的f_t，新内容可以乘以第二步算出来的i_t，然后把新老内容相加，就是最新的状态了。

第三步：单元状态更新

第四步是得出最后的输出值。Cell不会一股脑输出，而是计算出了系数o_t和状态相关的函数结果相乘后得出输出。

第四步：确定输出

以上四步定义了LSTM基本的原理。LSTM其实提出来已经很多年了，在很多场景下都经受了考验。所以希望大家一定要把上面介绍的基础原理了解好。

下图显示了基于深度学习的信息抽取技术Bi-LSTM+CRF的原理。这个方法代表了深度学习和传统的机器学习一个很好的结合。传统CRF最大的问题是特征很稀疏，想做一个很好的特征要花费很多时间。我们可能会有几套比较经典的特征，但不一定保证效果最好，特别是训练数据发生变化以后。而词向量和Bi-LSTM可以做很多的特征提取工作。

为什么要用Bi-LSTM而不是简单的LSTM？举个例子，“华为发布了新一代的麒麟处理X”这句话中，“X”一看就是处理器的“器”。因为我们都知道前文“麒麟处理”后面肯定跟着“器”。类似地，根据“X鲜和美国签订了新一轮的谅解备忘录”很容易猜出X是“朝鲜”的“鲜”，这是根据后文做出的判断。天然的语言中存在前后文的信号，都会影响当前字的选择。Bi-LSTM可以兼顾前后文的影响，所以是从理论上来说是个很符合人类直觉的工具。

如果不用CRF，可能整体效果还不错，但会出现很多bad case。比如B后面出现S，S后面出现O。因为算法只考虑当前的最优输出，没有考虑整个序列的最优结果。而CRF是一个考虑全局的算法，也考虑到标签间的转移概率。所以用CRF会得到一个比较可控的结果。

总得来说，上图介绍的Bi-LSTM+CRF方法，结合了CRF和Bi-LSTM，把“小明去达观数据开会”这几个字变成向量，通过中间的Bi-LSTM隐层，提取出来高维的特征，输入CRF层，CRF最后就会给出标签和结果。

下面我们会介绍这篇文章最重要的部分：预训练模型。深度学习除了不用做大量的特征工程，还可以对文本做非常好的表示。这里的例子是用Word2Vec做出词向量，然后用TensorBoard可视化，如下图所示。

在图中“威海”、“潍坊”、“枣庄”这三个山东的城市的词汇，被转化成了三个低维向量，向量中的数都是浮点数，有正数也有负数。如果从空间的角度来看这三个向量，可以发现它们距离很近，说明从语义角度来看它们的含义很接近。而且我们还可以直接对这些词向量进行计算，例如山东-威海=广东-佛山，皇帝-皇后+女人=男人，所以词向量是很优秀的自然语言的表征方式。

上图用的是Word2Vec模型。下图还有一些其他的模型，比如Glove。这两个模型都是静态表示。静态表示有天然的缺陷，例如它们很难区分“苹果好吃”和“苹果手机”中的两个“苹果”。就好像我们学技术的时候什么都想学，但因为时间是有限，所以每种技术学得都不够深入。

所以从2018年开始，出现了很多新的预训练模型，不少模型都用《芝麻街》里怪物的名字命名，比如ELMO、BERT和ERNIE。除此之外还有微软的MASS，Google最新的XLNet等等。这些模型本质上都用深度学习的神经网络做表示，虽然有的用Attention，有的用Transform，但本质差别不大。

这些模型和Word2Vec/Glove最大的区别在于它们是动态模型。下图是一个真实的例子。输入“苹果好吃”和“苹果手机”后，用BERT对每个字建模，发现前两个字的向量很不一样。这说明BERT可以根据不同的上下文语境编码每个字，或者说可以根据上下文语境对同一个字做出不同的表示。

BERT可以根据上下文，对同一个字做出不同的表示。

如何选择预训练模型呢？我建议大家可以都尝试一下。大部分同学都可以训练ELMO，它的结构和LSTM很像，我们可以自己训练一个语言模型。BERT训练的成本就要高很多，但现在已经有一些其他的框架或语言做处理。我们自己用中文维基百科训练BERT只用了几天，也没有用很多显卡，当然我们也做了不少优化工作。可以先试着用Word2Vec看看效果，有可能效果已经很不错。关键在于要找到在能力范围内按时训练完的模型。

抽取算法在达观的具体实践

下面我们分享一下在达观的实践中完成抽取任务的一些经验和教训。

首先我们要注重场景。应用场景一般就是客户提供的文档，包括财务报表、基金合同等等。文档处理的核心是自然语言处理，特别是抽取技术。我们也需要考虑实际应用，结合一些其他的工程技术，比如外部系统、分布式技术、数据库技术等等。

第二是要解决数据不足的问题。尤其是序列标注比文本分类需要更多的标注成本，所以很可能数据量不够。虽然目前有一些通用的数据（比如《人民日报》的数据），但针对具体的业务场景可能没有足够多的语料和标注数据。这时候我们就要做数据增强。数据增强是一种通用的方法，可以应用于传统的机器学习和深度学习中。

在上图中，我们可以看到标注数据只有三句话，黄色表示要做机构识别。怎么增加标注数据的量？我们可以直接暴力地把它们两两随机组合。初听起来可能会觉得有点不可理喻，但确实有效果。上图中右边的三段话中，前两段是两两随机组合，最后一段是把三句话全部混合到一起。把这些新生成的数据加入原数据起去做模型，就会发现效果的确好了很多。数据增强为什么有效？从模型的角度简单地说，这样可以看到更多上下文，特别是可以跨句子看到上下文，所以会有帮助。基本上写5-10行代码就能产生一些收益。

还有一种方法是非监督的Embeddin的学习。下图是我们的一个真实的例子。当时登贝莱刚转会到巴塞罗那俱乐部。我们用标准语料去训练，发现“登贝莱”这个名字一定会被切开，无论怎么训练分词都不行。潜在的解决方法之一是增加很多登贝莱相关的标注数据，但是这么做收益不足。所以我们就找了很多外部的语料做嵌入。

如上图所示，我们在网上找了一些登贝莱的新闻补充到《人民日报》等语料里一起训练。在完全没有修改，只是重新训练了预训练模型的情况下，“登贝莱”就成了一个词。这说明深度学习的预训练模型，可以非常好地捕捉到上下文，而且我们知道大部分的神经网络的语言模型训练是非监督学习，所以不需要很多标注数据。可以有很大数据量。总体来说数据越多，模型会学得越准，效果越好。BERT训练了一两千万的中文后，可以达到非常好的效果，我觉得这是个大力出奇迹的模型。

除了NER，还可以抽取别的内容。例如知识图谱就要做关系抽取。输入一句话，“美国总统特朗普将考察苹果公司，该公司由乔布斯创立”，怎么抽取关系？有两种方法。一种方式是把实体抽出来，然后两两实体做一些分类，分到一些关系里面。另一种依靠序列标注，也就是基于联合标注的方法。这么做的好处是不用修改标注框架。

我们总结一下本文内容。在实际工作中，到底怎么来用深度学习挖掘文本？最重要的一点是要用预训练模型，通过非监督数据训练向量，提升泛化能力。虽然中间步骤难以分解，但因为深度学习有端到端的能力，所以对中间步骤要求较低。而且，深度学习能克服一些传统模型的缺点，例如LSTM的上下文依赖就比CRF强。

但是深度学习也有一些缺点，它在小数据集上的效果难以保证，很可能会过拟合或者难以收敛。例如大家看到TensorBoard经常在抖，就是有这样的问题。而且大家现在把深度学习调参的工作叫炼丹室，你也不知道好坏就在反复调。有时候调参的工作量不亚于特征工程，特征工程至少知道在做什么，而想分析调参结果更加困难。另外深度学习对计算资源的要求更高。

所以我们最终的思考是：第一要尽可能地收集数据、理解数据，这是所有做机器学习的同学第一步就应该做的事情。我们应该去分析数据、看数据，而不是一开始就上模型。如果不做数据清洗，好数据、乱数据、脏数据都在里面，模型是做不好的。就像教孩子一样，如果好的坏的都教，他就不知道什么是好坏了。而且我们要分析问题的本质，选择合适的模型。例如，对于已有数据的数据量，选先进模型有用吗？如果没有用，就要赶紧去收集数据。

而且在任务一开始的阶段，我比较推荐大家做传统的机器学习，因为这些模型比较现成，也比较通用。在做了一个非常好的baseline之后，你就知道底线在哪，然后再引用深度学习。去年的达观杯我们就发现很多参赛者一上来就在用深度学习，结果做了各种调参，效果还不如我们自己20行代码的传统的机器学习。所以刚开始的时候一定要让传统机器学习帮助你，这样你更有信心做后面的事情。另外，这句话一定要送给大家：“数据决定效果上限，模型逼近此上限”，所以大家一定要重视数据清理，数据的分析真的比调参调模型收益更大。

如果遇到疑难杂症，端到端技术经常会有惊喜，但不能保证每次都有惊喜。大家在学习的过程中一定要关心最前沿的技术。

做机器学习肯定会遇到失败和挫折，重要的是从挫折中总结规律才是最重要的，不要被同一个坑绊。这样的经验很难依靠别人教会，因为所处的环境、场景、场合、数据不可能完全一致，所以需要有自己的思考。

最后，看完了这篇文章能做什么呢？可以参加我们的“达观杯”文本智能信息抽取挑战赛。这是我们第三次组织“达观杯”比赛。比赛的一等奖有30000元奖金，二等奖2支队伍有10000元的奖金，三等奖有5000元的奖金，优胜奖还有3000元。除此之外，TOP30同学直接直通面试。下图有赛事QQ群，点击【这里】可以进入官网。

大家看完这篇文章可以用我们介绍的内容做一些实践。比赛的数据很有意思，文字经过了加密，每个字都做了一个随机的映射。这么做的好处是可以更多地关注算法的本身，而不用去想如何补充数据。虽然补充数据在实际工作中很重要，但我们的比赛主要还是考察算法。

比赛数据有两部分，一部分是有标注的数据，另外一部分是一个规模达到上百万的非标注的数据。比赛的关键就是如何利用这些非标注的数据来提升整个模型的效果。而这就是我们最终在实际生活和工作中遇到的问题：只有少量标注数据，但是有大量的未标注数据。欢迎大家在比赛中实际运用一些算法和理论。因为有时候光看别人的分享难以获得深刻的理解，但是经过“达观杯”这样的比赛就能把知识掌握地更好。

选手问答环节

问：为什么我的模型分数只有 0.72？

答：其实就如前文所说，应该先研究一下数据，并用传统的方法提出一些baseline模型。否则就不知道这个任务的底线，也可能会出现过拟合。我们自己内部用Python 串起来十几行代码，就能跑到0.8+。我觉得不到0.8可能出现了过拟合，没有使用预训练数据，只是使用了标注数据。所以建议先用标准模型试试，得到一个baseline，获得一些信息，再去做一些比较复杂的模型。

问：如何调参?

答：这个问题特别深奥。很多情况下我们把一些同学叫“调包侠”，他们没有很好地理解算法本质，只是在瞎调。比如我曾经遇到一个同学在LSTM里把ReLu当成激活函数。但LSTM要求输出为0-1，而ReLu的输出范围是0到无穷大，所以梯度直接就爆炸了。我觉得调参有两个重要的方面，首先是经验的积累，这点只能靠自己；其次需要对模型和数学有一定的了解，这些不会直接告诉你如何调参，但是能给你一些灵感和方向。我也建议大家搜索一些网上的经典套路。

问：如何使用ELMO能训练出更好的词向量？

答：这个要看与什么比较。我们的实践经验不一定跟你相符。我们发现，ELMO训练出来的东西的确会比Word2Vec会好，而且要好不少，但跟BERT相比还是会差一些。如果你要训练一个不停地迭代的模型，可能花很多时间调参，但是可能没有换掉整个模型框架的收益大。因为BERT效果的确要好很多，无论从机制还是attention思路来说，都会比简单的LSTM这种方式做得更好。

问：第31名能面试吗？如何发简历？

答：如果你的成绩是第31名，和第30名差了0.01，我们不在乎这种差异，可以直接来。简历可以发到maxinyi@datagrand.com，注明参加了“达观杯”比赛。

【关于“达观杯”】

“达观杯”大赛由国内领先的文本智能处理科技公司达观数据主办，面向全球范围的学生、学者和企业研发人员，旨在通过提供业务场景、真实数据、专家指导，借助社会和学界的技术力量，进一步提升中文自然语言处理技术的研究水平，为业界选拔和培养有志于自然语言处理领域的算法研究和应用探索的青年才俊，探索更多可能、开启无限未来。

本次“达观杯”文本信息智能抽取挑战赛是达观数据举办的第三届“达观杯”算法大赛。2017年和2018年，达观分别以“个性化推荐”和“文本分类”为主题主办过两次大赛，在全国范围内引起了很大的反响，两次比赛吸引了海内外近万支队伍参赛。

本次比赛的任务是信息抽取，给定一定数量的标注语料以及海量的未标注语料，在3个字段上做信息抽取任务。截至目前，“达观杯”文本信息智能抽取挑战赛已吸引来自海内外2200余名选手参赛。

【直播预告】

主题：“达观杯”文本智能信息抽取挑战赛官方Baseline解读及赛事答疑

时间：7月30日 19: 00-20:00

报名地点：QQ群：131818435

“达观杯”文本智能信息抽取挑战赛

与全球小伙伴切磋交流

万元奖金，直通Offer等你来拿

扫码二维码或点击阅读原文直通比赛

你可能感兴趣的:(文本智能处理)

实在RPA：银行数字化，业务流程自动化“一小步”，贷款审核效率“一大步” IT观察其他
数字化时代，伴随着5G、云计算、大数据和人工智能等新技术持续创新应用，数字化转型也已是大势所趋。其中，银行业数字化走在前列，聚焦数字化通用核心能力体系建设。如今，自动化、智能化工具大范围应用于需求触达、风险管理、资金定价等业务服务和决策管理中，RPA、自然语言处理、机器学习、计算机视觉、知识图谱等文本智能处理技术正在成为银行数字化转型的重要方式，不断拓展银行现有能力边界，跑出转型加速度。一、筑牢银
达观杯”文本智能处理挑战赛 jassy_shan 数据挖掘与算法竞赛
回顾任务1-----对数据进行初步的预处理：https://blog.csdn.net/weixin_38966454/article/details/89046445任务2----F-IDF算法实现https://blog.csdn.net/weixin_38966454/article/details/89058683Now任务3—word2vec算法实现1.什么是word2vecWord2v
达观杯-文本智能处理挑战赛-初识数据 zhengdadalalala 达观杯-智能文本处理
赛题目标：建立模型通过长文本数据正文，预测文本对应的类别数据准备：train_set.csv用于模型训练test_set.csv用于模型预测读取前5000条数据：importpandasaspdimportnumpyasnpfromsklearn.model_selectionimporttrain_test_splitmy_data=pd.read_csv('../datasets/train_
“达观杯”文本智能处理挑战赛--数据初识 July@AI
一.获取数据7z压缩文件解压后得到两个文件：train_set.csv和test_set.csvtrain_set.csv：此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列：第一列是文章的索引(id)，第二列是文章正文在“字”级别上的表示，即正文是由一个个字符组成(article)；第三列是在“词”级别上的表示，即正文由词和字组成(word_seg)
数据竞赛-“达观杯”文本智能处理-Day1 Mr._Hou 数据分析文本处理数据分析 nlp
数据竞赛-“达观杯”文本智能处理-Day11.竞赛简介a)任务b)数据c)评分标准2.读取数据，观察数据3.训练集数据划分4.对数据以及赛题的理解和发现1.竞赛简介大赛链接点击此处a)任务建立模型通过长文本数据正文(article)，预测文本对应的类别(class)b)数据链接:https://pan.baidu.com/s/11AOOn0xlv0TZjGeFfRc3Rw提取码:58r9数据包含2
文本智能处理与RPA领军企业达观数据宣布完成5.8亿元C轮融资 AI界小学生 OCR 人工智能 RPA 人工智能自然语言处理知识图谱 RPA
中国人工智能和RPA知名企业达观数据宣布近期已成功完成了C轮5.8亿元融资，并刷新了中国文本智能处理行业的单笔最高融资记录。本轮投资方包括中信证券、招商证券、广发证券、中信建投4家中国知名证券集团，和弘卓资本、阳光保险、襄禾资本、尚珹资本等投资机构，以及深创投、联想之星、众麟资本等老股东。达观数据也成为了业界首家同时由四家头部券商同时注资的科创企业。融资后达观数据将强化在国内自然语言处理领域的领军
NLP自然语言处理——文本分类之数据集汇总 Little_Yuu NLP学习笔记 python 分类算法
文本分类数据集汇总名词解释一、“达观杯”文本智能处理挑战赛数据集二、东方财富网上市公司公告数据集2.1获取手段：python网络爬虫。具体方法和代码见我的另一篇博客。2.2时间区间：2014年——2019年2.3股票范围：沪深A股所有股票公告2.4特征字段中文分词三、THUCTC中文分类数据集3.1数据预先处理步骤及代码实现参考文献记录idea备忘录matplotlib不能显示中文问题1、下载字体
“达观杯”文本智能处理挑战赛敬标
比赛链接数据介绍：数据*注:报名参赛或加入队伍后，可获取数据下载权限。数据包含2个csv文件：train_set.csv：此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列：第一列是文章的索引(id)，第二列是文章正文在“字”级别上的表示，即字符相隔正文(article)；第三列是在“词”级别上的表示，即词语相隔正文(word_seg)；第四列是这篇文
第三届“达观杯”文本智能信息抽取挑战赛丰厚奖金，群英集结，等你来战！... AI科技大本营
近日，第三届“达观杯”文本智能信息抽取挑战赛正式上线启动（点击阅读原文，跳转报名页面），6月28日至8月31日，面向所有参赛选手开放竞赛结果提交。本届“达观杯”的任务是信息抽取。“达观杯”大赛由国内文本智能处理科技公司达观数据主办，面向全球范围的学生、学者和企业研发人员，旨在通过提供业务场景、真实数据、专家指导，借助社会和学界的技术力量，进一步提升中文自然语言处理技术的研究水平，为业界选拔和培养有
达观杯文本智能处理挑战赛冠军解决方案 Congqing He
之前整理了一份自己的Rank4的解决方案，并开源了部分代码，这次分享一下朋友整理的"达观杯"文本智能处理挑战赛冠军的解决方案，希望对新手小白有所帮助~~作者：NLP幼儿园知乎：https://www.zhihu.com/people/he-jia-wei-58-19/activities鄙人乃NLP学习者一枚，刚接触比赛圈不久，实乃小萌新一枚，遂起名NLP幼儿园。读研期间忙着学习和发文章，灌了几篇
数据竞赛-“达观杯”文本智能处理-Day2：TF-IDF实践 Mr._Hou 数据分析 TF-IDF 数据分析 nlp
数据竞赛-“达观杯”文本智能处理-Day2：TF-IDF实践1.原理2.tf-idf的理论依据及不足3.实践tf-idf（英语：termfrequency–inversedocumentfrequency）是一种用于信息检索与文本挖掘的常用加权技术。tf-idf是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时
达观杯文本智能处理（五）——LightGBM理论与实践 Lemon_yq
达观杯文本智能处理（五）——LightGBM理论与实践一、LightGBM模型1.GBDT存在的几个问题2.引入LightGBM二、优势三、lightGBM调参四、lightGBM模型实践参考文献一、LightGBM模型1.GBDT存在的几个问题如何减少数据量常用的减少训练数据量的方式是downsample。例如在[5]中，权重小于阈值的数据会被过滤掉，SGB在每一轮迭代中用随机的子集训练弱学习器
达观数据王文广：如何玩转自然语言理解和深度学习实践？达观数据文本智能处理
本文根据达观数据王文广在“达观杯”文本智能处理挑战赛期间的技术直播分享整理而成，内容略有删减。一、深度学习概述深度学习是从机器学习基础上发展起来的，机器学习分为监督学习、非监督学习以及强化学习三种类型。深度学习是在机器学习的基础上把特征抽取工作放到里面一起来完成的，直接实现了端到端的学习。通常我们遇到的深度网络包括：堆叠自编码器、深度信念网络、卷积神经网络和循环神经网络。下面左边这张图是自编码器的
当知识图谱遇上文本智能处理，会擦出怎样的火花？达观数据文本智能处理知识图谱自然语言处理
目前以理解人类语言为入口的认知智能成为了人工智能发展的突破点，而知识图谱则是迈向认知智能的关键要素。达观数据在2018AIIA人工智能开发者大会承办的语言认知智能与知识图谱公开课上，三位来自企业和学术领域的专家分别从不同角度讲述的知识图谱的应用和发展。文本根据达观数据副总裁王文广演讲内容《知识图谱与文本智能处理》整理所得，内容略有删减。人们一些模糊词义的表达，比如：以前没有钱买华为，现在没有钱买华
达观数据桂洪冠：一文详解达观数据知识图谱技术与应用达观数据文本智能处理 nlp 知识图谱技术分享
本文根据达观数据桂洪冠在“达观杯”文本智能处理挑战赛期间的技术直播分享整理而成，内容略有删减。▌一、知识图谱的概述我们先直观的来看一下什么是知识图谱，下面有一张图，从这张图里可以看到，这个图里圆圈是节点，节点之间有一些带箭头的边来连成，这个节点实际上相当于知识图谱里的实体或者概念，边连线表示实体之间的关系。知识图谱本质上是一种大型的语义网络，它旨在描述客观世界的概念实体事件以及及其之间的关系。以实
这是一名既能打比赛，又会发论文JD AI实验室的算法工程师，CSDN博客专家小詹学 Python
今天小编给大家推荐一位AI学习者：yuquanle，硕士刚毕业的他目前是京东AIlab一名算法工程师。硕士期间曾在IJCAI、TALSP、PAKDD、ICANN、ICTAI、HPCC、CCKS等会议/期刊发表文章多篇以及专利数十项。参加过一些比赛，包括2018年“达观杯”文本智能处理挑战赛季军、2018年全国知识图谱与语义计算大会面向音乐领域的命令理解任务季军、CAIL2019中国司法人工智能挑战
达观杯”文本智能处理挑战赛——数据预处理小葡萄co
一、数据竞赛简介“达观杯”文本智能处理挑战赛１、任务建立模型通过长文本数据正文(article)，预测文本对应的类别(class)达观杯比赛链接：http://www.dcjingsai.com/common/cmpt/“达观杯”文本智能处理挑战赛_赛体与数据.html“达观杯”文本智能处理挑战赛&cmptId=229２、数据数据包含2个csv文件：train_set.csv：此数据集用于训练模型
“达观杯”文本智能处理挑战赛今天拿到offer了吗？竞赛
竞赛背景：2018年人工智能的发展在运算智能和感知智能已经取得了很大的突破和优于人类的表现。而在以理解人类语言为入口的认知智能上，目前达观数据自然语言处理技术已经可以实现文档自动解析、关键信息提取、文本分类审核、文本智能纠错等一定基础性的文字处理工作，并在各行各业得到充分应用。自然语言处理一直是人工智能领域的重要话题，而人类语言的复杂性也给NLP布下了重重困难等待解决。长文本的智能解析就是颇具挑战
这是一名JD AI实验室的算法工程师，CSDN博客专家 Wang_AI
今天王老湿给大家推荐一位AI学习者：yuquanle，硕士刚毕业的他目前是京东AIlab一名算法工程师。硕士期间曾在IJCAI、TALSP、PAKDD、ICANN、ICTAI、HPCC、CCKS等会议/期刊发表文章多篇以及专利数十项。参加过一些比赛，包括2018年“达观杯”文本智能处理挑战赛季军、2018年全国知识图谱与语义计算大会面向音乐领域的命令理解任务季军、CAIL2019中国司法人工智能挑
达观杯 LogisticRegression 简单实现分析 Spareribs
1比赛地址“达观杯”文本智能处理挑战赛2数据数据包含2个csv文件：train_set.csv：此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列：第一列，是文章的索引(id)第二列，是文章正文在“字”级别上的表示，即字符相隔正文(article)第三列，是在“词”级别上的表示，即词语相隔正文(word_seg)第四列，是这篇文章的标注(class)注
[转载]深度学习技术在文本数据智能处理中的实践流川枫AI
在前不久InfoQ主办的Qcon全球软件开发大会上，达观数据创始人陈运文博士受邀出席发表了《文本智能处理的深度学习技术》的演讲。深度学习在人工智能领域已经成为热门的技术，特别是在图像和声音领域相比传统的算法大大提升了识别率。在文本智能处理中深度学习有怎样的具体实践方法？以下内容根据陈运文博士现场分享整理所得。人工智能目前的三个主要细分领域为图像、语音和文本，老师分享的是达观数据所专注的文本智能处理
文本分类(上)- 基于传统机器学习方法进行文本分类致Great
简介自己由于最近参加了一个比赛“达观杯”文本智能处理挑战赛，上一周主要在做这一个比赛，看了一写论文和资料，github上搜刮下。。感觉一下子接触的知识很多，自己乘热打铁整理下吧。接着上一篇文章20newsgroups数据介绍以及文本分类实例，我们继续探讨下文本分类方法。文本分类作为NLP领域最为经典场景之一，当目前为止在业界和学术界已经积累了很多方法，主要分为两大类：基于传统机器学习的文本分类基于
当知识图谱遇上文本智能处理，会擦出怎样的火花？达微
目前以理解人类语言为入口的认知智能成为了人工智能发展的突破点，而知识图谱则是迈向认知智能的关键要素。达观数据在2018AIIA人工智能开发者大会承办的语言认知智能与知识图谱公开课上，三位来自企业和学术领域的专家分别从不同角度讲述的知识图谱的应用和发展。文本根据达观数据副总裁王文广演讲内容《知识图谱与文本智能处理》整理所得，内容略有删减。当知识图谱遇上文本智能处理，会擦出怎样的火花？人们一些模糊词义
推荐一位大佬，来自京东AI实验室 Python数据之道
今天小编给大家推荐一位AI学习者：yuquanle，硕士刚毕业的他目前是京东AIlab一名算法工程师。硕士期间曾在IJCAI、TALSP、PAKDD、ICANN、ICTAI、HPCC、CCKS等会议/期刊发表文章多篇以及专利数十项。参加过一些比赛，包括2018年“达观杯”文本智能处理挑战赛季军、2018年全国知识图谱与语义计算大会面向音乐领域的命令理解任务季军、CAIL2019中国司法人工智能挑战
“达观杯”进行时 | 万字长文详解“智能文本抽取”算法进阶与应用达观数据自然语言处理
首先简单地介绍一下我们公司。达观数据是一家专注于做文本智能处理的科技公司，目前完成了B轮，融资超过2亿元，投资机构包括宽带、软银、真格等等。我们主要做的是利用自然语言处理、光学字符识别（OCR）、知识图谱等技术，为大型企业和政府机构提供机器人流程自动化（RPA）、文档智能审阅、垂直搜索、智能推荐、客户意见洞察等智能产品，让计算机代替人工完成业务流程自动化，大幅度提高企业效率。达观数据文本挖掘简介下
“达观杯”进行时 | 万字长文详解“智能文本抽取”算法进阶与应用达观数据文本智能处理
首先简单地介绍一下我们公司。达观数据是一家专注于做文本智能处理的科技公司，目前完成了B轮，融资超过2亿元，投资机构包括宽带、软银、真格等等。我们主要做的是利用自然语言处理、光学字符识别（OCR）、知识图谱等技术，为大型企业和政府机构提供机器人流程自动化（RPA）、文档智能审阅、垂直搜索、智能推荐、客户意见洞察等智能产品，让计算机代替人工完成业务流程自动化，大幅度提高企业效率。达观数据文本挖掘简介下
“达观杯”进行时 | 万字长文详解“智能文本抽取”算法进阶与应用达观数据文本智能处理
首先简单地介绍一下我们公司。达观数据是一家专注于做文本智能处理的科技公司，目前完成了B轮，融资超过2亿元，投资机构包括宽带、软银、真格等等。我们主要做的是利用自然语言处理、光学字符识别（OCR）、知识图谱等技术，为大型企业和政府机构提供机器人流程自动化（RPA）、文档智能审阅、垂直搜索、智能推荐、客户意见洞察等智能产品，让计算机代替人工完成业务流程自动化，大幅度提高企业效率。达观数据文本挖掘简介下
【NLP数据竞赛】“达观杯”文本智能处理挑战赛（六）模型调优 AngelaOrange NLP自然语言处理
一、网格搜索网格搜索（GridSearch）用简答的话来说就是手动的给出一个模型中你想要改动的所用的参数，程序自动的帮你使用穷举法来将所用的参数都运行一遍。决策树中我们常常将最大树深作为需要调节的参数；K次验证：二、模型调优与参数融合选择均匀融合，调参结果为：模型最优参数F1评分LRC=10,max_iter=200.713SVMC=1,max_iter=200.722LightGBMlearni
达观杯文本智能处理（6） dzysunshine 达观杯文本智能处理
模型调优及模型融合1）进一步通过网格搜索法对3个模型进行调优（用5000条数据，调参时采用五折交叉验证的方式），并进行模型评估，展示代码的运行结果。(可以尝试使用其他模型)2）模型融合，模型融合方式任意，并结合之前的任务给出你的最优结果。例如Stacking融合，用你目前评分最高的模型作为基准模型，和其他模型进行stacking融合，得到最终模型及评分结果。在模型调参的过程中，需要使用到网格搜索(
达观杯文本智能处理（3） dzysunshine 达观杯文本智能处理
Word2vec词向量原理与实践斯坦福NLP视频1.什么是word2vecword2vec工具主要包含两个模型：跳字模型（skip-gram）和连续词袋模型（continuousbagofwords，简称CBOW），以及两种高效训练的方法：负采样（negativesampling）和层序softmax（hierarchicalsoftmax）。值得一提的是，word2vec词向量可以较好地表达不同
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS