达观数据

达观数据：用好学习排序 (LTR) ,资讯信息流推荐效果翻倍

序言

达观数据是一家基于文本语义理解为企业提供自动抽取、审核、纠错、推荐、搜索、写作等系统服务的人工智能企业，其中在推荐场景上我们也服务了很多客户企业，客户在要求推荐服务稳定、需求响应及时的基础上，对系统的效果也提出了越来越高的期望，这对算法团队也是一个挑战。本文将从资讯信息流这个场景入手，先简单介绍达观推荐引擎的架构演化，同时尽可能详细的介绍学习排序这个核心技术的实践和落地经验。

达观推荐引擎架构

达观推荐引擎采用在线-近线-离线三层系统架构，可以从性能和算法复杂度两个维度来进行区分。

在线：实时响应客户http api推荐请求，一般需要严格控制在100ms以内，最好在50ms。该模块需要严格保证稳定性，综合考虑各个依赖模块的异常兼容、流量的超时控制等。

近线：准实时捕捉用户实时行为并做出反馈，即近线模块的输出需要考虑用户的实时行为反馈。该模块一般处理延迟为秒级。

离线：基于分布式平台离线挖掘，输出包括item-base协同过滤结果、基于标签的召回结果、各维度热门结果、用户画像等等。该模块的处理延迟一般为小时级或者天级。

一个通用的资讯流推荐架构如下：

图1：online-nearline-offline三层架构

hot rec模块负责生成各个维度的热门结果，如分类别热门、分地域热门；tagrec生成各个标签的召回结果，如英超 -> (item1,item2,….)；item rec生成每个资讯item的相关结果；user rec nearline根据用户实时行为和离线画像负责生成用户的推荐结果；reconline响应推荐请求；item cache返回资讯的信息；uhvreceiver负责接收用户对item的行为反馈。关于架构可参考更过之前达观数据发布的推荐技术文章。

为什么需要学习排序

学习排序（LTR：learning to rank）是信息检索领域的经典问题，也是互联网场景中ranking这个核心算法问题。推荐整个流程可以分为召回、排序、重排序这三个阶段，通俗来说，召回就是找到用户可能喜欢的几百条资讯，排序就是对这几百条资讯利用机器学习的方法预估用户对每条资讯的偏好程度，一般以点击率衡量，所以学习排序在很多情况下等同于点击率预估，都是将用户最可能点击的资讯优先推给用户；重排序更多考虑业务逻辑，如在推荐结果的多样性、时效性、新颖性等方面进行控制。

在没有学习排序之前，也可以单纯使用协同过滤算法来进行推荐。列如使用用户最近点击的资讯信息召回这些item的相关结果和偏好类别热门结果组合后进行返回。但是这对于资讯类推荐需要考虑一下问题：资讯类信息流属于用户消费型场景，item时效性要求高，item base cf容易召回较旧的内容，而且容易导致推荐结果收敛。因此可以将item的相关结果保证时效性的基础上，融合类别、标签热门结果，对各个策略的召回结果按照线上总体反馈进行排序，就可以作为用户的推荐结果。但是这一融合过程比较复杂，一种简单的方式就是看哪种召回策略总体收益越高就扩大这个策略的曝光占比，对于个体而言却显得不是特别个性化，而且在规则调参上也比较困难。

LTR架构

我们迅速在资讯信息流推荐场景上实践ltr算法。Ltr一般分为point wise、pairwise、list wise，一般工程上使用pointwise较多，简单，成本低，收益也可靠。简单来说，Ltr即预测user对一个未消费item的预估点击率，即：

即这个预估的点击率是和user、item、context相关的。我们使用逻辑回归（logistic regression，lr）模型来搭建我们第一版的学习排序架构，lr模型简单可解释，缺点在于需要对业务特征有较深理解，特征工程比较费力，但从应用角度出发，无论是lr、ffm亦或是较新的wide& deep等模型，特征挖掘都是极其重要的一环。因此在首先基于lr模型的基础上，核心工作就是基于业务理解并发掘特征。以下是排序模型的整体推荐架构。

图2：ltr整体架构

1 日志过滤

推荐日志详细打印了每次推荐请求的参数信息和返回信息，如屏数、请求个数、设备信息、位置信息、返回的推荐结果。推荐日志需要尽可能的考虑后期可能使用到的特征，并做好充分的记录。将推荐日志与曝光日志进行第一次join，过滤掉未曝光即用户没有看到的推荐item，这部分样本没有参考意义，可以省略；第一个join后的结果与点击日志join，即可以得到每条样本的label（0/1:未点击/点击）。两次join需要根据请求时间、userid、itemid三者进行inner join，确保数据准确。日志过滤后生成的每条样本信息如下：

[请求时间、曝光时间、点击时间（如果有）、userid、最近的点击item列表、最近曝光的item列表、itemid、召回策略、屏数、曝光顺序位置、地理位置、设备信息] –> 点击label。

2 特征工程

经过1）的样本缺少足够的特征，我们需要补充user和item端的特征。该部分特征需要离线挖掘并提前入库。总结后的可使用特征种类大致如下：

特征种类

User特征：手机型号、地域、图文曝光/点击总数、视频曝光/点击总数、图文点击率、视频点击率，最近1、2、3天图文视频点击数、最近点击时间、最近一次点击是图文还是视频、一二级类别点击率、标签偏好，类别偏好、最近16次点击的素材分布、最近16次点击item的平均标题向量、曝光时间、点击时间等；

item特征：itemid、类别、总体点击率、最近一周点击率、图片个数、来源、类型（图文还是视频）、发布时间、标题向量、召回策略、点击反馈ctr等；

context特征：屏数、曝光顺序位置、请求时间段等；

交叉特征：用户对item类别的一二级类别点击率、用户对item标签的偏好、用户对item素材类型的曝光、点击次数和点击率、最近16个点击item与预测item标题向量的余弦相似度、相似度最大值等。

交叉特征对于ranking特别重要，核心在于逻辑回归函数中，如果与预测item无关的特征不会对item的排序产生影响，只有item特征或者与item交叉的特征才会对排序有实质影响,因为其他特征对任何待预测item的打分贡献是一样的。

我们没有使用bagof word模型来表示标题，因为这非常稀疏，而是采用标题中关键词的word2vec向量组合生成标题表示，使用词向量来表示标题极大减少了特征规模，实现上比较方便。标题向量同时需要归一化成单位向量，单位向量的余弦相似度即两个向量的内积，这个优化显著提高了ltr在线模块的性能。

我们将所有特征按类型划分为离散型、连续型、向量型三种类型。如item类别就是一个离散型特征、item ctr就是一个连续性特征、标题向量就是一个向量型特征。对于每种特征，其处理方式都会不太一样，对于离散型一般直接根据离散值做feature name，对于连续值我们部分参考youtube wide & deep论文中的等频归一化方法，简单来说加入ctr特征需要等屏成10个特征，即将ctr值按照分布取其10等分点，这10等分点就定义了10个区间，每个区间的样本数都占10%。需要注意的是，ltr在线部分需要hardcode写死这10个区间来提高特征离散化的效率。

由于离线和在线都会需要User和item端特征，我们在hive数仓和ssdb集群总中都存储一份，离线负责join hive表，在线负责读取ssdb。

3 模型训练与评估

经过特征工程后，训练数据按照libsvm格式进行打印。使用一天的训练数据的情况下，整个特征空间规模约为30万维左右。模型训练采用sklearn的logistic regression模型进行训练，方便dump和load模型，我们采用了lbfgs算法来进行训练，lbfgs是一种拟牛顿法，不同于随机梯度下降，lbfgs总是朝着最优化梯度方向进行迭代。

简单起见，我们使用N-2天前的日志做训练，N-1天前的日志做评估，需保证两部分日志的用户群体是一致的，我们再做ab测试的过程中，不能训练数据用的是1号桶，评估数据用的是2号桶。

实际过程中，我们采用1500万条样本做训练，300万条样本做评估，训练完成后离线auc为0.79-0.8区间内，在线auc为0.75-0.76区间内，存在一定差距。关于auc可以自行参考技术文章，简单来说auc就是衡量模型将正样本排在负样本前面的概率，即排序能力。

4 在线服务于评估

我们的最终目的是要在线上流程产生收益，我们采用rpc搭建了一个ltr在线服务，负责接收online的ltr请求。推荐online在召回各个策略的结果后，会将userid、预测的itemid列表、context等信息传给ltr online，ltr online打分后返回。我们对ltr online做了充足的优化，包括标题向量的单位化、ssdb性能优化、特征离散化的优化，显著提高了性能，对200-300个item打分的平均响应时间控制在100ms以内。

模型不仅需要离线评估，还需要在线评估，在线评估即评估在线样本的auc，recommend log中记录了ltr score，因此可以方便的计算在线auc。计算在线auc的目的是为了验证离线效果提升和在线效果提升的同步性。

5 业务效果的提升

我们在测试组上线ltr逻辑后，在点击率指标上相比原算法取得了明显的提升。如下图所示：

可以明显看出上线后，基于点击率目标的ltr对于天级点击率的提升是非常明显的。

问题探讨

1 单机训练大规模样本

由于选取的样本数较大，1000-2000万的规模，简单增大样本数可以显著提高auc，在我们的场景上在往上增加auc就似乎增加不明显了。这么大的训练样本单机训练的话显然只能用稀疏矩阵的方式来存储样本。Scipy的cs_matrix就是非常好的选择，由于sklearn的转载cs_matrix时数组下表采用int，故最大空间只能到20亿，显然2000万样本* 每个样本的平均特征数远远大于20亿，因此我们探讨了cs_matrix如何加载大规模数据的方法，最终我们参考liblinner工具包中加载libsvm格式数据的代码，当然libliner加载方式也存在问题，经过修改调试后，成功的完成了训练数据的加载，具体问题和解决方式可以参考https://blog.csdn.net/wh_springer/article/details/85007921这篇文章。

2 样本和特征的时间正交

样本和特征数据的时间正交即两者在时间上不应该有交叉。举个例子，前期我们在join用户端特征时，用的是1号的训练样本数据，用户离线特征用的也是1号的数据，这样两者就会存在交叉，即user点击了一篇英超新闻，同时user 画像中也偏好英超标签（由1号的点击生成），这样就会导致auc偏高，当然这种偏高就是虚假偏高，模型的泛化能力是很差的。在实际过程中，遇到过几次auc突然偏高的情况，发现大部分都是由于没有保证数据正交性导致的。

在整个流程中，数据的时间正交总是被不断强调。无论是user、item特征还是样本数据，比如训练样本中一个特定user的样本按照时间排序是(s1,s2,s3,s4,s5,s6,s7,s8,s9,s10)，使用s1-s8训练，s9,s10评估是合理的，而使用s3-s10训练，s1,s2则显然是不合理的。

3 预估点击率和实际点击率的一致性

点击率预估基本要求就是预估的点击率要精准，如果只考虑位置的ranking，可以不用过分关心预估的绝对值，但实际情况下还是需要尽量保证预估分数的合理性，往往预估精准的ctr具有很大的参考价值。

前期我们预估的点击率一直偏高，平均打分甚至达到了0.5，经过排查在于训练模型的参数设置不合理，错误的将LogisticRegression的class_weight参数设置成balanced，导致损失函数中正样本预测错误的代价增大，导致模型偏向正样本，从而导致预估的点击率极度偏高，修复成默认值预估点击率下降明显，接近实际值。具体参考：https://scikitlearn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html。

同时为了保证训练数据和在线服务完全一致性，我们调整了推荐的整体架构，更多的直接在推荐online模块负责召回和排序，这样又可以进一步保证预估点击率和实际点击率的一致。

4 重要特征和 case排查

lr模型可以方便debug每个样本的各个特征和权重，权重高的特征显然更加重要。如果你觉得重要的特征权重过低了或者不重要的特征权重过高了，也许就要思考为什么了。以下是一个样本的debug信息。

例如我们发现ctr特征权重特别高，假设一个新item曝光了一次点击了一次，点击率是1.0，乘上ctr的权重上这个item极易被排到最前面，因此我们考虑ctr的置信度，考虑对ctr类特征做了平滑。

值根据实际情况设定。

总结

本文详细介绍了达观数据的推荐引擎架构和在资讯信息流推荐场景中利用ltr排序显著提高业务指标的实践和经验。由于篇幅有限，关于非线性的ffm、wide & deep没有做详细介绍，而这也是算法团队一直继续投入研究的重点。

关于作者

文辉：达观数据联合创始人，主要负责达观数据推荐系统、爬虫系统等主要系统的研究和开发。同济大学计算机应用技术专业硕士，曾就职于盛大文学数据中心部门，负责爬虫系统、推荐系统、数据挖掘和分析等大数据系统的研发工作，在爬虫系统、Hadoop/Hive、数据挖掘等方面具备充足的研发和实践经验。

实在RPA：银行数字化，业务流程自动化“一小步”，贷款审核效率“一大步” IT观察其他
数字化时代，伴随着5G、云计算、大数据和人工智能等新技术持续创新应用，数字化转型也已是大势所趋。其中，银行业数字化走在前列，聚焦数字化通用核心能力体系建设。如今，自动化、智能化工具大范围应用于需求触达、风险管理、资金定价等业务服务和决策管理中，RPA、自然语言处理、机器学习、计算机视觉、知识图谱等文本智能处理技术正在成为银行数字化转型的重要方式，不断拓展银行现有能力边界，跑出转型加速度。一、筑牢银
达观杯”文本智能处理挑战赛 jassy_shan 数据挖掘与算法竞赛
回顾任务1-----对数据进行初步的预处理：https://blog.csdn.net/weixin_38966454/article/details/89046445任务2----F-IDF算法实现https://blog.csdn.net/weixin_38966454/article/details/89058683Now任务3—word2vec算法实现1.什么是word2vecWord2v
达观杯-文本智能处理挑战赛-初识数据 zhengdadalalala 达观杯-智能文本处理
赛题目标：建立模型通过长文本数据正文，预测文本对应的类别数据准备：train_set.csv用于模型训练test_set.csv用于模型预测读取前5000条数据：importpandasaspdimportnumpyasnpfromsklearn.model_selectionimporttrain_test_splitmy_data=pd.read_csv('../datasets/train_
“达观杯”文本智能处理挑战赛--数据初识 July@AI
一.获取数据7z压缩文件解压后得到两个文件：train_set.csv和test_set.csvtrain_set.csv：此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列：第一列是文章的索引(id)，第二列是文章正文在“字”级别上的表示，即正文是由一个个字符组成(article)；第三列是在“词”级别上的表示，即正文由词和字组成(word_seg)
数据竞赛-“达观杯”文本智能处理-Day1 Mr._Hou 数据分析文本处理数据分析 nlp
数据竞赛-“达观杯”文本智能处理-Day11.竞赛简介a)任务b)数据c)评分标准2.读取数据，观察数据3.训练集数据划分4.对数据以及赛题的理解和发现1.竞赛简介大赛链接点击此处a)任务建立模型通过长文本数据正文(article)，预测文本对应的类别(class)b)数据链接:https://pan.baidu.com/s/11AOOn0xlv0TZjGeFfRc3Rw提取码:58r9数据包含2
文本智能处理与RPA领军企业达观数据宣布完成5.8亿元C轮融资 AI界小学生 OCR 人工智能 RPA 人工智能自然语言处理知识图谱 RPA
中国人工智能和RPA知名企业达观数据宣布近期已成功完成了C轮5.8亿元融资，并刷新了中国文本智能处理行业的单笔最高融资记录。本轮投资方包括中信证券、招商证券、广发证券、中信建投4家中国知名证券集团，和弘卓资本、阳光保险、襄禾资本、尚珹资本等投资机构，以及深创投、联想之星、众麟资本等老股东。达观数据也成为了业界首家同时由四家头部券商同时注资的科创企业。融资后达观数据将强化在国内自然语言处理领域的领军
NLP自然语言处理——文本分类之数据集汇总 Little_Yuu NLP学习笔记 python 分类算法
文本分类数据集汇总名词解释一、“达观杯”文本智能处理挑战赛数据集二、东方财富网上市公司公告数据集2.1获取手段：python网络爬虫。具体方法和代码见我的另一篇博客。2.2时间区间：2014年——2019年2.3股票范围：沪深A股所有股票公告2.4特征字段中文分词三、THUCTC中文分类数据集3.1数据预先处理步骤及代码实现参考文献记录idea备忘录matplotlib不能显示中文问题1、下载字体
“达观杯”文本智能处理挑战赛敬标
比赛链接数据介绍：数据*注:报名参赛或加入队伍后，可获取数据下载权限。数据包含2个csv文件：train_set.csv：此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列：第一列是文章的索引(id)，第二列是文章正文在“字”级别上的表示，即字符相隔正文(article)；第三列是在“词”级别上的表示，即词语相隔正文(word_seg)；第四列是这篇文
第三届“达观杯”文本智能信息抽取挑战赛丰厚奖金，群英集结，等你来战！... AI科技大本营
近日，第三届“达观杯”文本智能信息抽取挑战赛正式上线启动（点击阅读原文，跳转报名页面），6月28日至8月31日，面向所有参赛选手开放竞赛结果提交。本届“达观杯”的任务是信息抽取。“达观杯”大赛由国内文本智能处理科技公司达观数据主办，面向全球范围的学生、学者和企业研发人员，旨在通过提供业务场景、真实数据、专家指导，借助社会和学界的技术力量，进一步提升中文自然语言处理技术的研究水平，为业界选拔和培养有
达观杯文本智能处理挑战赛冠军解决方案 Congqing He
之前整理了一份自己的Rank4的解决方案，并开源了部分代码，这次分享一下朋友整理的"达观杯"文本智能处理挑战赛冠军的解决方案，希望对新手小白有所帮助~~作者：NLP幼儿园知乎：https://www.zhihu.com/people/he-jia-wei-58-19/activities鄙人乃NLP学习者一枚，刚接触比赛圈不久，实乃小萌新一枚，遂起名NLP幼儿园。读研期间忙着学习和发文章，灌了几篇
数据竞赛-“达观杯”文本智能处理-Day2：TF-IDF实践 Mr._Hou 数据分析 TF-IDF 数据分析 nlp
数据竞赛-“达观杯”文本智能处理-Day2：TF-IDF实践1.原理2.tf-idf的理论依据及不足3.实践tf-idf（英语：termfrequency–inversedocumentfrequency）是一种用于信息检索与文本挖掘的常用加权技术。tf-idf是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时
达观杯文本智能处理（五）——LightGBM理论与实践 Lemon_yq
达观杯文本智能处理（五）——LightGBM理论与实践一、LightGBM模型1.GBDT存在的几个问题2.引入LightGBM二、优势三、lightGBM调参四、lightGBM模型实践参考文献一、LightGBM模型1.GBDT存在的几个问题如何减少数据量常用的减少训练数据量的方式是downsample。例如在[5]中，权重小于阈值的数据会被过滤掉，SGB在每一轮迭代中用随机的子集训练弱学习器
达观数据王文广：如何玩转自然语言理解和深度学习实践？达观数据文本智能处理
本文根据达观数据王文广在“达观杯”文本智能处理挑战赛期间的技术直播分享整理而成，内容略有删减。一、深度学习概述深度学习是从机器学习基础上发展起来的，机器学习分为监督学习、非监督学习以及强化学习三种类型。深度学习是在机器学习的基础上把特征抽取工作放到里面一起来完成的，直接实现了端到端的学习。通常我们遇到的深度网络包括：堆叠自编码器、深度信念网络、卷积神经网络和循环神经网络。下面左边这张图是自编码器的
当知识图谱遇上文本智能处理，会擦出怎样的火花？达观数据文本智能处理知识图谱自然语言处理
目前以理解人类语言为入口的认知智能成为了人工智能发展的突破点，而知识图谱则是迈向认知智能的关键要素。达观数据在2018AIIA人工智能开发者大会承办的语言认知智能与知识图谱公开课上，三位来自企业和学术领域的专家分别从不同角度讲述的知识图谱的应用和发展。文本根据达观数据副总裁王文广演讲内容《知识图谱与文本智能处理》整理所得，内容略有删减。人们一些模糊词义的表达，比如：以前没有钱买华为，现在没有钱买华
达观数据桂洪冠：一文详解达观数据知识图谱技术与应用达观数据文本智能处理 nlp 知识图谱技术分享
本文根据达观数据桂洪冠在“达观杯”文本智能处理挑战赛期间的技术直播分享整理而成，内容略有删减。▌一、知识图谱的概述我们先直观的来看一下什么是知识图谱，下面有一张图，从这张图里可以看到，这个图里圆圈是节点，节点之间有一些带箭头的边来连成，这个节点实际上相当于知识图谱里的实体或者概念，边连线表示实体之间的关系。知识图谱本质上是一种大型的语义网络，它旨在描述客观世界的概念实体事件以及及其之间的关系。以实
这是一名既能打比赛，又会发论文JD AI实验室的算法工程师，CSDN博客专家小詹学 Python
今天小编给大家推荐一位AI学习者：yuquanle，硕士刚毕业的他目前是京东AIlab一名算法工程师。硕士期间曾在IJCAI、TALSP、PAKDD、ICANN、ICTAI、HPCC、CCKS等会议/期刊发表文章多篇以及专利数十项。参加过一些比赛，包括2018年“达观杯”文本智能处理挑战赛季军、2018年全国知识图谱与语义计算大会面向音乐领域的命令理解任务季军、CAIL2019中国司法人工智能挑战
达观杯”文本智能处理挑战赛——数据预处理小葡萄co
一、数据竞赛简介“达观杯”文本智能处理挑战赛１、任务建立模型通过长文本数据正文(article)，预测文本对应的类别(class)达观杯比赛链接：http://www.dcjingsai.com/common/cmpt/“达观杯”文本智能处理挑战赛_赛体与数据.html“达观杯”文本智能处理挑战赛&cmptId=229２、数据数据包含2个csv文件：train_set.csv：此数据集用于训练模型
“达观杯”文本智能处理挑战赛今天拿到offer了吗？竞赛
竞赛背景：2018年人工智能的发展在运算智能和感知智能已经取得了很大的突破和优于人类的表现。而在以理解人类语言为入口的认知智能上，目前达观数据自然语言处理技术已经可以实现文档自动解析、关键信息提取、文本分类审核、文本智能纠错等一定基础性的文字处理工作，并在各行各业得到充分应用。自然语言处理一直是人工智能领域的重要话题，而人类语言的复杂性也给NLP布下了重重困难等待解决。长文本的智能解析就是颇具挑战
这是一名JD AI实验室的算法工程师，CSDN博客专家 Wang_AI
今天王老湿给大家推荐一位AI学习者：yuquanle，硕士刚毕业的他目前是京东AIlab一名算法工程师。硕士期间曾在IJCAI、TALSP、PAKDD、ICANN、ICTAI、HPCC、CCKS等会议/期刊发表文章多篇以及专利数十项。参加过一些比赛，包括2018年“达观杯”文本智能处理挑战赛季军、2018年全国知识图谱与语义计算大会面向音乐领域的命令理解任务季军、CAIL2019中国司法人工智能挑
达观杯 LogisticRegression 简单实现分析 Spareribs
1比赛地址“达观杯”文本智能处理挑战赛2数据数据包含2个csv文件：train_set.csv：此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列：第一列，是文章的索引(id)第二列，是文章正文在“字”级别上的表示，即字符相隔正文(article)第三列，是在“词”级别上的表示，即词语相隔正文(word_seg)第四列，是这篇文章的标注(class)注
[转载]深度学习技术在文本数据智能处理中的实践流川枫AI
在前不久InfoQ主办的Qcon全球软件开发大会上，达观数据创始人陈运文博士受邀出席发表了《文本智能处理的深度学习技术》的演讲。深度学习在人工智能领域已经成为热门的技术，特别是在图像和声音领域相比传统的算法大大提升了识别率。在文本智能处理中深度学习有怎样的具体实践方法？以下内容根据陈运文博士现场分享整理所得。人工智能目前的三个主要细分领域为图像、语音和文本，老师分享的是达观数据所专注的文本智能处理
文本分类(上)- 基于传统机器学习方法进行文本分类致Great
简介自己由于最近参加了一个比赛“达观杯”文本智能处理挑战赛，上一周主要在做这一个比赛，看了一写论文和资料，github上搜刮下。。感觉一下子接触的知识很多，自己乘热打铁整理下吧。接着上一篇文章20newsgroups数据介绍以及文本分类实例，我们继续探讨下文本分类方法。文本分类作为NLP领域最为经典场景之一，当目前为止在业界和学术界已经积累了很多方法，主要分为两大类：基于传统机器学习的文本分类基于
当知识图谱遇上文本智能处理，会擦出怎样的火花？达微
目前以理解人类语言为入口的认知智能成为了人工智能发展的突破点，而知识图谱则是迈向认知智能的关键要素。达观数据在2018AIIA人工智能开发者大会承办的语言认知智能与知识图谱公开课上，三位来自企业和学术领域的专家分别从不同角度讲述的知识图谱的应用和发展。文本根据达观数据副总裁王文广演讲内容《知识图谱与文本智能处理》整理所得，内容略有删减。当知识图谱遇上文本智能处理，会擦出怎样的火花？人们一些模糊词义
推荐一位大佬，来自京东AI实验室 Python数据之道
今天小编给大家推荐一位AI学习者：yuquanle，硕士刚毕业的他目前是京东AIlab一名算法工程师。硕士期间曾在IJCAI、TALSP、PAKDD、ICANN、ICTAI、HPCC、CCKS等会议/期刊发表文章多篇以及专利数十项。参加过一些比赛，包括2018年“达观杯”文本智能处理挑战赛季军、2018年全国知识图谱与语义计算大会面向音乐领域的命令理解任务季军、CAIL2019中国司法人工智能挑战
“达观杯”进行时 | 万字长文详解“智能文本抽取”算法进阶与应用达观数据自然语言处理
首先简单地介绍一下我们公司。达观数据是一家专注于做文本智能处理的科技公司，目前完成了B轮，融资超过2亿元，投资机构包括宽带、软银、真格等等。我们主要做的是利用自然语言处理、光学字符识别（OCR）、知识图谱等技术，为大型企业和政府机构提供机器人流程自动化（RPA）、文档智能审阅、垂直搜索、智能推荐、客户意见洞察等智能产品，让计算机代替人工完成业务流程自动化，大幅度提高企业效率。达观数据文本挖掘简介下
“达观杯”进行时 | 万字长文详解“智能文本抽取”算法进阶与应用达观数据文本智能处理
首先简单地介绍一下我们公司。达观数据是一家专注于做文本智能处理的科技公司，目前完成了B轮，融资超过2亿元，投资机构包括宽带、软银、真格等等。我们主要做的是利用自然语言处理、光学字符识别（OCR）、知识图谱等技术，为大型企业和政府机构提供机器人流程自动化（RPA）、文档智能审阅、垂直搜索、智能推荐、客户意见洞察等智能产品，让计算机代替人工完成业务流程自动化，大幅度提高企业效率。达观数据文本挖掘简介下
“达观杯”进行时 | 万字长文详解“智能文本抽取”算法进阶与应用达观数据文本智能处理
首先简单地介绍一下我们公司。达观数据是一家专注于做文本智能处理的科技公司，目前完成了B轮，融资超过2亿元，投资机构包括宽带、软银、真格等等。我们主要做的是利用自然语言处理、光学字符识别（OCR）、知识图谱等技术，为大型企业和政府机构提供机器人流程自动化（RPA）、文档智能审阅、垂直搜索、智能推荐、客户意见洞察等智能产品，让计算机代替人工完成业务流程自动化，大幅度提高企业效率。达观数据文本挖掘简介下
【NLP数据竞赛】“达观杯”文本智能处理挑战赛（六）模型调优 AngelaOrange NLP自然语言处理
一、网格搜索网格搜索（GridSearch）用简答的话来说就是手动的给出一个模型中你想要改动的所用的参数，程序自动的帮你使用穷举法来将所用的参数都运行一遍。决策树中我们常常将最大树深作为需要调节的参数；K次验证：二、模型调优与参数融合选择均匀融合，调参结果为：模型最优参数F1评分LRC=10,max_iter=200.713SVMC=1,max_iter=200.722LightGBMlearni
达观杯文本智能处理（6） dzysunshine 达观杯文本智能处理
模型调优及模型融合1）进一步通过网格搜索法对3个模型进行调优（用5000条数据，调参时采用五折交叉验证的方式），并进行模型评估，展示代码的运行结果。(可以尝试使用其他模型)2）模型融合，模型融合方式任意，并结合之前的任务给出你的最优结果。例如Stacking融合，用你目前评分最高的模型作为基准模型，和其他模型进行stacking融合，得到最终模型及评分结果。在模型调参的过程中，需要使用到网格搜索(
达观杯文本智能处理（3） dzysunshine 达观杯文本智能处理
Word2vec词向量原理与实践斯坦福NLP视频1.什么是word2vecword2vec工具主要包含两个模型：跳字模型（skip-gram）和连续词袋模型（continuousbagofwords，简称CBOW），以及两种高效训练的方法：负采样（negativesampling）和层序softmax（hierarchicalsoftmax）。值得一提的是，word2vec词向量可以较好地表达不同
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &