达观数据

达观数据王文广：如何玩转自然语言理解和深度学习实践？

本文根据达观数据王文广在“达观杯”文本智能处理挑战赛期间的技术直播分享整理而成，内容略有删减。

一、深度学习概述

深度学习是从机器学习基础上发展起来的，机器学习分为监督学习、非监督学习以及强化学习三种类型。深度学习是在机器学习的基础上把特征抽取工作放到里面一起来完成的，直接实现了端到端的学习。通常我们遇到的深度网络包括：堆叠自编码器、深度信念网络、卷积神经网络和循环神经网络。

下面左边这张图是自编码器的一个网络结构示意图，自编码器的特点是输入和输出是完全一样的，它通过将输入复制到输出，去学习它在隐层里面的表示。右边是堆叠自编码器，它可以把自编码器的隐层不断堆叠起来，形成多层的深度网络。

与堆叠自编码器一样，深度信念网络是在限制玻尔兹曼机基础上叠出来的一个网络，限制玻尔兹曼机是神经网络里面最基础的网络结构之一，通过将多个限制玻尔兹曼机堆叠起来形成的深度网络，是深度学习里面最基本的网络结构之一。

深度学习被最广泛使用的是从卷积神经网络开始的，卷积神经网络的示意图如这张图片所示，它通过卷积和对输入的局部特征进行学习，来达到最终的目标。卷积神经网络被广泛应用于文本处理和图像识别当中。

深度学习另外一个被广泛使用的网络是循环神经网络，循环神经网络有非常多的变种，这张图是它其中的一个，叫LSTM，经常被用于语音识别和文本处理当中。

从上面网络可以看出来，深度学习是在神经网络的基础上发展起来的，神经网络早期的效果并不是特别好，但是从两千零几年开始，因为海量数据的积累、逐层训练技术的出现以及以GPU为代表的计算性能的极大提升，使得深度学习能效果越来越好，被广泛应用于语音识别、计算机视觉、自然语言处理中。自然语言处理就会用到非常多深度学习的算法。

二、自然语言理解概述

自然语言理解所处理的对象是文本，文本是广泛存在于我们的日常生活和工作当中的，像达观数据所擅长处理的是正式文本或者长文本，长文本像法律文书、人事档案、证券专业文书、企业手册、新闻文章、问答资料、客户评论意见等都是我们常的文本，它几乎存在于所有的行业中，金融、法律、媒体、互联网、政府、公共机构、大型企业，无所不在，如果能够使用自然语言理解和机器学习的方法，使得大量需要人工处理的海量文档自动化，将会非常大地提高企业和政府部门的工作效率。

然而，让计算机来理解文本是非常难的一件事情，首先，计算机缺乏常识以及专业的背景知识，而人类通常拥有非常丰富的专业知识和背景。比如对“future”的理解，普通人认为是“未来”，但对于金融相关的专业可能就会认为是“期货”，而“期货”对金融专业人士来说是一个语境，这是计算机所不存在的一个场景。

除此之外，人类说话本身非常的抽象和模糊，通常拥有非常多的歧义或者语境信息在里面。我们通常在见到朋友时会说“吃饭了吗？”“吃饭了吗”对计算机来说就是“吃饭了吗”四个字，而对人类来说它通常拥有丰富的隐含意义在里面。

从分词的角度，我们可以看词本身的粒度问题，“中华人民共和国”和“中国”本身意义是一样的。还有指代归属问题，当人与人之间交流时候，你说的“你、我、他”能够自然而然的被替换成相应的目标，而计算机来解决指代归属问题也是非常难的一个事情。除此之外，还有同义词、近义词、局部转义、一词多义等问题。

比如一词多义的问题，大家在网络上看到过一个段子，“方便方便，意思意思”然后去理解“方便方便”和“意思意思”不同的意思。计算机同样存在这个问题，它如何理解“方便方便”和“意思意思”的不同意思和不同的方便程度。

再从词语构造成句子的过程中也会遇到非常多的问题，因为对人类来说，句子之间的部分结构发生颠倒，人类依然能够正常的理解，但是对计算机来说，它对于像“你上班了吗？”“班上你了吗？”就有难度。

再往上，语义层面的歧义就更多了，“咬死猎人的狗”如果在没有上下文语境的情况下，人类也非常的难以理解，到底是狗咬死了猎人，还是某些动物把猎人的狗给咬死了，这就是所谓的语境。

除了语境之外，还有比较多的领域知识、专家知识，比如最近爆雷非常多的P2P，有一个特点是利息比较高。当利息高过了一定程度，存在问题的概率比较高了。这类专家的知识对计算机来说也是一个问题。

“企业清算时按投资年复率20%给予补偿”，这句话如果存在合同当中，往往是需要注意的点。因为通常不超过12%，20%的利率过高。这个『过高』是写错了、还是因为其他特殊原因，遇到这种问题时就需要通过双重确认，来确保文本的正确。

为了解决这些问题，我们使用各种机器学习和深度学习的方法来建立模型，通过海量的文本进行训练这个模型来预测未来。这个方式有点类似于人脑，人是要通过学习，学习很多专业知识，当学完知识之后，在未来遇到这些问题时，就会通过类似于机器学习的模型来实现预测和判断。

在建立这些模型的过程中，我们通常会分为字词级分析、段落级分析、篇章级分析。

字词级分析是我们通常所遇到的像分词、命名实体识别、同义词分析等。段落级分析是从句子到段落层面来对文本进行建模，它一般包括依存文法分析、文本纠错等。从段落往上是篇章级分析，篇章级分析更多是语义层面的理解，它通常包括像文本相似度、主题模型、文章的聚类分类和标签提取。

三、文本语义分析及其应用实践

文本语义分析首先是表示学习。表示学习通常传统上对文本的表示是通过One-hot编码来实现的，在深度学习出来以后，往往使用稠密的向量编码来对文本表示。

词向量的稠密表示具有非常大的以上，一方面是它的维度降低得非常多，一般情况下200-300维就足够以表达中文的词汇，而one-hot编码往往需要50万-100万维来表示。除此之外，词向量还能表达词的语义层面的相似性。

对词向量经典的训练方法是谷歌发表的原始的“Word2Vec”这篇论文里提到的两种方法，词袋模型和跳跃表。词袋模型是用词的上下文信息来表示这个词本身，而跳跃表则是用词的本身来表达词的上下文信息。在“Word2Vec”基础之上还发展出包含了全局信息的GloVe方法。

除了词向量之外，深度学习的各种网络结构也被用来进行文本分析。比如对句子进行分类，可以使用卷积神经网络来实现。

层次注意力模型是最新的一个网络，它最早被使用来对评论进行打分。层次注意力模型有一个非常大的优点，就是它考虑了文本或者是篇章的结构，它是从词开始，到句子的一个注意力模型，再到整个篇章是另一个注意力模型。它另外的一个优点是可以把整个网络结构的参数可视化出来，来解释词、句子对目标的贡献的大小。

除此之外，另外一篇最新的论文所提出来的金字塔结构的卷积神经网络模型，可以非常高效的对长文本进行表示学习，最终达到一个非常好的分类效果或者标签提取类效果。

除了分类和标签提取之外，信息抽取也可以用深度学习来实现，达观通常会把信息抽取问题转化成四种类型的分类问题来实现的，这样就可以充分利用前面所提到的各种网络结构，比如层次注意力模型和金字塔结构的卷积神经网络。

对于像NER或者分词这种任务来说，我们也会使用“深度学习+CRF”的方法来实现，这张PPT里面讲的就是使用“词向量+LSTM+CRF”方法来实现NER。

像这张使用“词向量+Bi-SLTM+CRF”通常情况下效果都是非常好的。但是对于某些特定场景下它还会有一些不足，比如非常专业的文献，这种情况下会遇到非常低频的词汇，如何对这些低频的词汇进行处理是我们需要考虑的一个问题。

达观数据采用了一个方法，是把低频词汇和专业领域的词汇通过某种表示，和原始的词向量一起拼接，作为LSTM和CRF的输入，来实现对这些低频词汇问题的解决。充分利用这些深度学习的模型和应用实践所总结出来的经验，我们可以非常高效的去处理像企业通常所遇到的合同、简历、工单、新闻、用户评论、产品说明这些文档。

四、推荐系统及其应用实践

推荐系统非常的火热，像今日头条和抖音这种通过算法推荐用户所感兴趣的东西，让用户不离开APP，都是非常成功的案例。国内类似于的趣头条都比较小的企业或者APP也非常多，它们往往会选择一家像达观这样的SaaS服务来实现它们的推荐系统。

推荐系统的基本过程是像这张PPT里面所讲的一样，通过对原始的数据进行处理，使用到自然语言理解里面的分词和NER技术，使用文本的分类、主题模型、情感分析等，把这个分析结果放到搜索引擎，达观使用的搜索引擎是Elasticsearch集群，在这些集群里面会实现一个初步的Ranking处理。

以搜索引擎为基础，我们使用各种推荐算法，像协同过滤和基于内容的推荐算法，以及深度学习出来以后的神经网络协同过滤的方法，来对这种文档进行推荐。不同的推荐算法会在同个场景下推荐出不同的内容，在这个基础上我们会使用一些融合算法，来把这些不同算法推荐的结果进行融合。我们常用的推荐融合算法包括GBDT、SVD等。

在深度学习上也有一些算法，像DeepFM这种算法也可以用来做算法融合，做推荐内容的融合。通过融合算法把不同推荐算法、推荐内容给融合起来之后，还会根据APP所要求的业务规则和过滤规则，来对这些内容进行过滤，最终把这些过滤好的结果发送给用户，这个是我们整个推荐系统的一个基本的过程。

对于推荐系统来说，底层的像协同规律或者基于内容推荐非常成熟的算法，在算法之上如何获得更好的效果，我们会利用最前沿的深度学习推荐算法的技术。推荐系统的效果往往取决于算法的好坏。

除了传统的像 CF这种算法之外，我们也尝试了非常多深度学习层面的算法，像Wide&Deep这个算法就是一个例子，Wide&Deep是我们尝试的一种算法。

这张PPT讲的是Wide&Deep网络结构，左边是一个Wide模型，Wide模型它一般常用LR，它非常高效，可以对非常大的维度的输入进行非常高效的学习。这些输入一般是用户点击行为反馈数据。

Wide&Deep模型的Deep是右边这个模型所展示的，它是个多层的神经网络，多层神经网络可以对原始特征进行学习，学习出一些人工特征所无法抽象出来的一部分特征。通过联合训练，将Wide模型的输出和Deep神经网络的输出结合起来，获得更好的效果。

在实践中，Wide模型一般是用户反馈这种，通过LR这种非常高效的方法，把用户反馈实时的体现到推荐结果上。而Deep模型一般是用来训练像Item这种数据，可以通过离线的方法，使用非常长的时间，训练出一个更好的效果出来。Wide&Deep的优势是把实时反馈和对文章的深层理解结合起来，从而获得更好的效果。

在Wide&Deep之外，我们也尝试了神经网络协同过滤，神经网络协同过滤是在协同过滤的基础上、使用神经网络的方法来实现更好的效果。

这是一个神经网络协同过滤的示意图，左下角这个输入是user层面的向量，而右下角这个输入是Item层面的向量，将user向量和Item向量输入到一个多层的神经网络上，可以通过大规模离线训练的方法，来获得一个比较好的协同过滤的效果。

这个网络结构和通常的网络结构非常相似的，一般情况下它是对user和Item通过embedding的方式，这个embedding就跟前面讲的word2vec是一样的，通过embedding把user和Item变成一个稠密编码，然后输入到一个多层的神经网络上。输入就是user、Item之间的分数值，这个网络就是一个简单的回归模型，通过非常多层的神经网络的非线形特性来实现比传统简单CRF的效果会好非常多。

知识图谱是当前非常热门的一个方向。如何把知识图谱和深度学习结合起来应用到推荐系统里面，是我们去做的一个尝试。

这张图可以简单的分成三个部分，左上角这部分是普通的注意力网络结构，它通过将用户所感兴趣的Item跟普通的候选集的Item进行学习，学习出一个权值，这个全值可以用来表示用户对这个新闻感兴趣的程度。左下角这个网络是是将item的内容通过表示学习学习出item的向量表示。右边大图是将左边这两个图学习出来的结果，用类似于前面提到的神经网络协同过滤的方式把它给组合起来，形成了推荐系统里对用户推荐内容候选级的学习过程。通过这种方法，在某种场景下我们可以得到更好的效果。

综合前面这些推荐算法形成的推荐系统，可以非常有效的去做好个性化推荐、相关推荐和热门推荐等各种内容，它可以广泛应用在像资讯推荐，也可以应用到简历推荐上。比如可以在HR发布一个JD的时候，给HR推荐满足这些JD要求的简历。对其他场景也可以使用推荐算法来实现，对于一个案件，可以推荐这个案件相关的其他案件，或者适用于这个案件的一些法律条文。商品推荐则是更常见的内容，它其实也是推荐系统最初使用的一个应用场景。

达观的推荐系统结合前面提到的各种深度学习、自然语言理解和各种各样的算法，来实现一个非常好的推荐效果。除此之外，我们也有非常多行业应用经验，比如招商银行的掌上生活的个性化推荐，使用的就是达观给它们做的私有化部署推荐系统。像澎湃新闻APP，它们的新闻推荐系统是用我们的SaaS服务来实现的。

五、文档智能处理及其应用实践

我们在自然语言理解环节提到，文档的种类是非常丰富的，企业面临的文档也是非常多的，应用场景也是各种各样。比如对财务报表来说，需要的是信息抽取，如何把财务报表变成一个结构化的数据。而对于合同来说它包括两方面的内容，一方面是写合同的时候是否写得符合合同法和企业内部的法务规定；另一方面则是针对审核合同的人，是否放过了一个不符合合同规定的条款，或者，如何去防止合同里面阴阳合同的情况出现。

其他还包括文档的智能搜索，如何去搜一大篇几百页文章里的某些文字，然后把对应的字段给显示出来。应用场景包括，员工刚入职一家公司，需要一个公司手册一样的内容，想理解报销或者请假是怎么去走流程的时候，就要去搜这个文档。如何做到不需要展示给员工整个文档，而是直接给到员工对应的章节，对于企业则是一个能够确实提高员工工作效率的问题。这些问题都是达观所擅长解决的。

除了读、搜、审之外，还有一个场景是更好的利用深度学习和自然语言理解来帮助写文档的人更好更快的写作，比如辅助去写新闻、报告等。

下面，我以场景来做技术层面的解析，比如文本分类.前面提到了非常多深度学习的分类器，还包括一些传统学习的分类器，都可以用来做文本分类。传统学习的优势是在语料比较少的时候，比如JD就是职位描述，这种场景下一般企业的职位描述就是几百个或者几千个，从深度学习的方法去实现，可能效果并不是特别好，这种情况下我们会选择像传统的方法，决策数或者SVM来实现对JD的分类。而对于简历，简历的规模往往JD的100倍以上，这种情况下我们就可以用前面提到的层次注意力模型和金字塔结构的CNN来实现对简历的分类。

除了分类之外，像信息抽取通常使用的是CRF，CRF可以达到一个比较好的效果，它的标注语料要求可能比较低，几百到一两千份就能够实现比较好的效果。当企业有更多语料的时候，我们就可以使用深度学习的方法来实现。前面已经提到过，我们可以把信息抽取转化成分类问题来实现，前面提到的各种分类算法，像金字塔结构的CNN和层叠注意力模型都可以用来做分类。

除此之外，我们在推荐系统环节所提到的像Wide&Deep这种算法，结合LR和深度网络的方法，也可以用来做这个信息抽取的事情。

这个方式说起来也比较简单，可以把CRF当作Wide模型，然后用深度网络Deep模型，用联合训练方法把它们结合起来，这样可以实现类似于迁移学习的效果，就是我们可以预先训练好一个深度网络，然后把深度网络给固化起来。在面对企业没有大量GPU的时候，我们只要重新去训练这个Wide，Wide模型可以使用比较简单的像CRFPP等工具来实现。这种方法可以很好的均衡资源的使用和效果。

除了企业对文档抽取有要求之外，其实文档的智能比对也是一个非常重要的应用场景，这种比对是在文档的信息抽取之上构建的。在信息抽取之上，我们通常使用规则来实现比对这个功能，只要信息抽取的效果足够好，比对效果一般都不会太差。

这是我们实际的一些应用场景，它通过信息抽取技术把关键信息给抽取出来，然后使用各种业务规则对合同进行智能审阅。这种简单的方法就可以达到非常高的效果，可以替企业节省大量的法务人员。单个文档的审阅时间节省得非常多，同时可以让企业节省200个法务的人力。人工智能和文本智能审阅的使用，可以给企业带来非常大的收益，同时可以让这200个人做更有意义的工作。这个是合同审阅的效果图。

六、总结

这是达观使用的架构图，我们可以把输入通过各种特征工程，使用传统的方法来做机器学习，也可以通过Embedding的方式使用各种深度网络来实现，最终会使用一些融合算法，来把不同模型的结果输出做算法融合，最后做些后处理，比如各种业务规则、各种过滤条件、各种在国内特殊国情所不能出现的内容都要过滤掉，得到一个结果出来。

并不仅仅是深度学习效果好就使用它，我们会根据具体的应用场景来选择。如当数据规模小的时候就无法使用深度学习来做。

实在RPA：银行数字化，业务流程自动化“一小步”，贷款审核效率“一大步” IT观察其他
数字化时代，伴随着5G、云计算、大数据和人工智能等新技术持续创新应用，数字化转型也已是大势所趋。其中，银行业数字化走在前列，聚焦数字化通用核心能力体系建设。如今，自动化、智能化工具大范围应用于需求触达、风险管理、资金定价等业务服务和决策管理中，RPA、自然语言处理、机器学习、计算机视觉、知识图谱等文本智能处理技术正在成为银行数字化转型的重要方式，不断拓展银行现有能力边界，跑出转型加速度。一、筑牢银
达观杯”文本智能处理挑战赛 jassy_shan 数据挖掘与算法竞赛
回顾任务1-----对数据进行初步的预处理：https://blog.csdn.net/weixin_38966454/article/details/89046445任务2----F-IDF算法实现https://blog.csdn.net/weixin_38966454/article/details/89058683Now任务3—word2vec算法实现1.什么是word2vecWord2v
达观杯-文本智能处理挑战赛-初识数据 zhengdadalalala 达观杯-智能文本处理
赛题目标：建立模型通过长文本数据正文，预测文本对应的类别数据准备：train_set.csv用于模型训练test_set.csv用于模型预测读取前5000条数据：importpandasaspdimportnumpyasnpfromsklearn.model_selectionimporttrain_test_splitmy_data=pd.read_csv('../datasets/train_
“达观杯”文本智能处理挑战赛--数据初识 July@AI
一.获取数据7z压缩文件解压后得到两个文件：train_set.csv和test_set.csvtrain_set.csv：此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列：第一列是文章的索引(id)，第二列是文章正文在“字”级别上的表示，即正文是由一个个字符组成(article)；第三列是在“词”级别上的表示，即正文由词和字组成(word_seg)
数据竞赛-“达观杯”文本智能处理-Day1 Mr._Hou 数据分析文本处理数据分析 nlp
数据竞赛-“达观杯”文本智能处理-Day11.竞赛简介a)任务b)数据c)评分标准2.读取数据，观察数据3.训练集数据划分4.对数据以及赛题的理解和发现1.竞赛简介大赛链接点击此处a)任务建立模型通过长文本数据正文(article)，预测文本对应的类别(class)b)数据链接:https://pan.baidu.com/s/11AOOn0xlv0TZjGeFfRc3Rw提取码:58r9数据包含2
文本智能处理与RPA领军企业达观数据宣布完成5.8亿元C轮融资 AI界小学生 OCR 人工智能 RPA 人工智能自然语言处理知识图谱 RPA
中国人工智能和RPA知名企业达观数据宣布近期已成功完成了C轮5.8亿元融资，并刷新了中国文本智能处理行业的单笔最高融资记录。本轮投资方包括中信证券、招商证券、广发证券、中信建投4家中国知名证券集团，和弘卓资本、阳光保险、襄禾资本、尚珹资本等投资机构，以及深创投、联想之星、众麟资本等老股东。达观数据也成为了业界首家同时由四家头部券商同时注资的科创企业。融资后达观数据将强化在国内自然语言处理领域的领军
NLP自然语言处理——文本分类之数据集汇总 Little_Yuu NLP学习笔记 python 分类算法
文本分类数据集汇总名词解释一、“达观杯”文本智能处理挑战赛数据集二、东方财富网上市公司公告数据集2.1获取手段：python网络爬虫。具体方法和代码见我的另一篇博客。2.2时间区间：2014年——2019年2.3股票范围：沪深A股所有股票公告2.4特征字段中文分词三、THUCTC中文分类数据集3.1数据预先处理步骤及代码实现参考文献记录idea备忘录matplotlib不能显示中文问题1、下载字体
“达观杯”文本智能处理挑战赛敬标
比赛链接数据介绍：数据*注:报名参赛或加入队伍后，可获取数据下载权限。数据包含2个csv文件：train_set.csv：此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列：第一列是文章的索引(id)，第二列是文章正文在“字”级别上的表示，即字符相隔正文(article)；第三列是在“词”级别上的表示，即词语相隔正文(word_seg)；第四列是这篇文
第三届“达观杯”文本智能信息抽取挑战赛丰厚奖金，群英集结，等你来战！... AI科技大本营
近日，第三届“达观杯”文本智能信息抽取挑战赛正式上线启动（点击阅读原文，跳转报名页面），6月28日至8月31日，面向所有参赛选手开放竞赛结果提交。本届“达观杯”的任务是信息抽取。“达观杯”大赛由国内文本智能处理科技公司达观数据主办，面向全球范围的学生、学者和企业研发人员，旨在通过提供业务场景、真实数据、专家指导，借助社会和学界的技术力量，进一步提升中文自然语言处理技术的研究水平，为业界选拔和培养有
达观杯文本智能处理挑战赛冠军解决方案 Congqing He
之前整理了一份自己的Rank4的解决方案，并开源了部分代码，这次分享一下朋友整理的"达观杯"文本智能处理挑战赛冠军的解决方案，希望对新手小白有所帮助~~作者：NLP幼儿园知乎：https://www.zhihu.com/people/he-jia-wei-58-19/activities鄙人乃NLP学习者一枚，刚接触比赛圈不久，实乃小萌新一枚，遂起名NLP幼儿园。读研期间忙着学习和发文章，灌了几篇
数据竞赛-“达观杯”文本智能处理-Day2：TF-IDF实践 Mr._Hou 数据分析 TF-IDF 数据分析 nlp
数据竞赛-“达观杯”文本智能处理-Day2：TF-IDF实践1.原理2.tf-idf的理论依据及不足3.实践tf-idf（英语：termfrequency–inversedocumentfrequency）是一种用于信息检索与文本挖掘的常用加权技术。tf-idf是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时
达观杯文本智能处理（五）——LightGBM理论与实践 Lemon_yq
达观杯文本智能处理（五）——LightGBM理论与实践一、LightGBM模型1.GBDT存在的几个问题2.引入LightGBM二、优势三、lightGBM调参四、lightGBM模型实践参考文献一、LightGBM模型1.GBDT存在的几个问题如何减少数据量常用的减少训练数据量的方式是downsample。例如在[5]中，权重小于阈值的数据会被过滤掉，SGB在每一轮迭代中用随机的子集训练弱学习器
达观数据王文广：如何玩转自然语言理解和深度学习实践？达观数据文本智能处理
本文根据达观数据王文广在“达观杯”文本智能处理挑战赛期间的技术直播分享整理而成，内容略有删减。一、深度学习概述深度学习是从机器学习基础上发展起来的，机器学习分为监督学习、非监督学习以及强化学习三种类型。深度学习是在机器学习的基础上把特征抽取工作放到里面一起来完成的，直接实现了端到端的学习。通常我们遇到的深度网络包括：堆叠自编码器、深度信念网络、卷积神经网络和循环神经网络。下面左边这张图是自编码器的
当知识图谱遇上文本智能处理，会擦出怎样的火花？达观数据文本智能处理知识图谱自然语言处理
目前以理解人类语言为入口的认知智能成为了人工智能发展的突破点，而知识图谱则是迈向认知智能的关键要素。达观数据在2018AIIA人工智能开发者大会承办的语言认知智能与知识图谱公开课上，三位来自企业和学术领域的专家分别从不同角度讲述的知识图谱的应用和发展。文本根据达观数据副总裁王文广演讲内容《知识图谱与文本智能处理》整理所得，内容略有删减。人们一些模糊词义的表达，比如：以前没有钱买华为，现在没有钱买华
达观数据桂洪冠：一文详解达观数据知识图谱技术与应用达观数据文本智能处理 nlp 知识图谱技术分享
本文根据达观数据桂洪冠在“达观杯”文本智能处理挑战赛期间的技术直播分享整理而成，内容略有删减。▌一、知识图谱的概述我们先直观的来看一下什么是知识图谱，下面有一张图，从这张图里可以看到，这个图里圆圈是节点，节点之间有一些带箭头的边来连成，这个节点实际上相当于知识图谱里的实体或者概念，边连线表示实体之间的关系。知识图谱本质上是一种大型的语义网络，它旨在描述客观世界的概念实体事件以及及其之间的关系。以实
这是一名既能打比赛，又会发论文JD AI实验室的算法工程师，CSDN博客专家小詹学 Python
今天小编给大家推荐一位AI学习者：yuquanle，硕士刚毕业的他目前是京东AIlab一名算法工程师。硕士期间曾在IJCAI、TALSP、PAKDD、ICANN、ICTAI、HPCC、CCKS等会议/期刊发表文章多篇以及专利数十项。参加过一些比赛，包括2018年“达观杯”文本智能处理挑战赛季军、2018年全国知识图谱与语义计算大会面向音乐领域的命令理解任务季军、CAIL2019中国司法人工智能挑战
达观杯”文本智能处理挑战赛——数据预处理小葡萄co
一、数据竞赛简介“达观杯”文本智能处理挑战赛１、任务建立模型通过长文本数据正文(article)，预测文本对应的类别(class)达观杯比赛链接：http://www.dcjingsai.com/common/cmpt/“达观杯”文本智能处理挑战赛_赛体与数据.html“达观杯”文本智能处理挑战赛&cmptId=229２、数据数据包含2个csv文件：train_set.csv：此数据集用于训练模型
“达观杯”文本智能处理挑战赛今天拿到offer了吗？竞赛
竞赛背景：2018年人工智能的发展在运算智能和感知智能已经取得了很大的突破和优于人类的表现。而在以理解人类语言为入口的认知智能上，目前达观数据自然语言处理技术已经可以实现文档自动解析、关键信息提取、文本分类审核、文本智能纠错等一定基础性的文字处理工作，并在各行各业得到充分应用。自然语言处理一直是人工智能领域的重要话题，而人类语言的复杂性也给NLP布下了重重困难等待解决。长文本的智能解析就是颇具挑战
这是一名JD AI实验室的算法工程师，CSDN博客专家 Wang_AI
今天王老湿给大家推荐一位AI学习者：yuquanle，硕士刚毕业的他目前是京东AIlab一名算法工程师。硕士期间曾在IJCAI、TALSP、PAKDD、ICANN、ICTAI、HPCC、CCKS等会议/期刊发表文章多篇以及专利数十项。参加过一些比赛，包括2018年“达观杯”文本智能处理挑战赛季军、2018年全国知识图谱与语义计算大会面向音乐领域的命令理解任务季军、CAIL2019中国司法人工智能挑
达观杯 LogisticRegression 简单实现分析 Spareribs
1比赛地址“达观杯”文本智能处理挑战赛2数据数据包含2个csv文件：train_set.csv：此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列：第一列，是文章的索引(id)第二列，是文章正文在“字”级别上的表示，即字符相隔正文(article)第三列，是在“词”级别上的表示，即词语相隔正文(word_seg)第四列，是这篇文章的标注(class)注
[转载]深度学习技术在文本数据智能处理中的实践流川枫AI
在前不久InfoQ主办的Qcon全球软件开发大会上，达观数据创始人陈运文博士受邀出席发表了《文本智能处理的深度学习技术》的演讲。深度学习在人工智能领域已经成为热门的技术，特别是在图像和声音领域相比传统的算法大大提升了识别率。在文本智能处理中深度学习有怎样的具体实践方法？以下内容根据陈运文博士现场分享整理所得。人工智能目前的三个主要细分领域为图像、语音和文本，老师分享的是达观数据所专注的文本智能处理
文本分类(上)- 基于传统机器学习方法进行文本分类致Great
简介自己由于最近参加了一个比赛“达观杯”文本智能处理挑战赛，上一周主要在做这一个比赛，看了一写论文和资料，github上搜刮下。。感觉一下子接触的知识很多，自己乘热打铁整理下吧。接着上一篇文章20newsgroups数据介绍以及文本分类实例，我们继续探讨下文本分类方法。文本分类作为NLP领域最为经典场景之一，当目前为止在业界和学术界已经积累了很多方法，主要分为两大类：基于传统机器学习的文本分类基于
当知识图谱遇上文本智能处理，会擦出怎样的火花？达微
目前以理解人类语言为入口的认知智能成为了人工智能发展的突破点，而知识图谱则是迈向认知智能的关键要素。达观数据在2018AIIA人工智能开发者大会承办的语言认知智能与知识图谱公开课上，三位来自企业和学术领域的专家分别从不同角度讲述的知识图谱的应用和发展。文本根据达观数据副总裁王文广演讲内容《知识图谱与文本智能处理》整理所得，内容略有删减。当知识图谱遇上文本智能处理，会擦出怎样的火花？人们一些模糊词义
推荐一位大佬，来自京东AI实验室 Python数据之道
今天小编给大家推荐一位AI学习者：yuquanle，硕士刚毕业的他目前是京东AIlab一名算法工程师。硕士期间曾在IJCAI、TALSP、PAKDD、ICANN、ICTAI、HPCC、CCKS等会议/期刊发表文章多篇以及专利数十项。参加过一些比赛，包括2018年“达观杯”文本智能处理挑战赛季军、2018年全国知识图谱与语义计算大会面向音乐领域的命令理解任务季军、CAIL2019中国司法人工智能挑战
“达观杯”进行时 | 万字长文详解“智能文本抽取”算法进阶与应用达观数据自然语言处理
首先简单地介绍一下我们公司。达观数据是一家专注于做文本智能处理的科技公司，目前完成了B轮，融资超过2亿元，投资机构包括宽带、软银、真格等等。我们主要做的是利用自然语言处理、光学字符识别（OCR）、知识图谱等技术，为大型企业和政府机构提供机器人流程自动化（RPA）、文档智能审阅、垂直搜索、智能推荐、客户意见洞察等智能产品，让计算机代替人工完成业务流程自动化，大幅度提高企业效率。达观数据文本挖掘简介下
“达观杯”进行时 | 万字长文详解“智能文本抽取”算法进阶与应用达观数据文本智能处理
首先简单地介绍一下我们公司。达观数据是一家专注于做文本智能处理的科技公司，目前完成了B轮，融资超过2亿元，投资机构包括宽带、软银、真格等等。我们主要做的是利用自然语言处理、光学字符识别（OCR）、知识图谱等技术，为大型企业和政府机构提供机器人流程自动化（RPA）、文档智能审阅、垂直搜索、智能推荐、客户意见洞察等智能产品，让计算机代替人工完成业务流程自动化，大幅度提高企业效率。达观数据文本挖掘简介下
“达观杯”进行时 | 万字长文详解“智能文本抽取”算法进阶与应用达观数据文本智能处理
首先简单地介绍一下我们公司。达观数据是一家专注于做文本智能处理的科技公司，目前完成了B轮，融资超过2亿元，投资机构包括宽带、软银、真格等等。我们主要做的是利用自然语言处理、光学字符识别（OCR）、知识图谱等技术，为大型企业和政府机构提供机器人流程自动化（RPA）、文档智能审阅、垂直搜索、智能推荐、客户意见洞察等智能产品，让计算机代替人工完成业务流程自动化，大幅度提高企业效率。达观数据文本挖掘简介下
【NLP数据竞赛】“达观杯”文本智能处理挑战赛（六）模型调优 AngelaOrange NLP自然语言处理
一、网格搜索网格搜索（GridSearch）用简答的话来说就是手动的给出一个模型中你想要改动的所用的参数，程序自动的帮你使用穷举法来将所用的参数都运行一遍。决策树中我们常常将最大树深作为需要调节的参数；K次验证：二、模型调优与参数融合选择均匀融合，调参结果为：模型最优参数F1评分LRC=10,max_iter=200.713SVMC=1,max_iter=200.722LightGBMlearni
达观杯文本智能处理（6） dzysunshine 达观杯文本智能处理
模型调优及模型融合1）进一步通过网格搜索法对3个模型进行调优（用5000条数据，调参时采用五折交叉验证的方式），并进行模型评估，展示代码的运行结果。(可以尝试使用其他模型)2）模型融合，模型融合方式任意，并结合之前的任务给出你的最优结果。例如Stacking融合，用你目前评分最高的模型作为基准模型，和其他模型进行stacking融合，得到最终模型及评分结果。在模型调参的过程中，需要使用到网格搜索(
达观杯文本智能处理（3） dzysunshine 达观杯文本智能处理
Word2vec词向量原理与实践斯坦福NLP视频1.什么是word2vecword2vec工具主要包含两个模型：跳字模型（skip-gram）和连续词袋模型（continuousbagofwords，简称CBOW），以及两种高效训练的方法：负采样（negativesampling）和层序softmax（hierarchicalsoftmax）。值得一提的是，word2vec词向量可以较好地表达不同
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 alxw4616@msn.com * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，