《美团机器学习实践》学习笔记:POI实体链接与评论挖掘

POI实体链接

概念:POI实体链接是指对相同POI的不同描述进行关联和聚合。

背景和难点

两组POI信息——一组是美团已经有的POI信息库(库存POI库),另一组是希望与之进行POI实体链接的信息库(待选POI库)。目标是希望两个库中实际实体相同的POI建立一对一或多对一的实体链接。如“IU酒店晋中介休裕华路店”与“IU酒店(晋中介休裕华路店)”是同一个实体的不同POI,只是在写法上有差别,不能简单利用名称字符串相同的规则进行筛选匹配。

若待选POI库中有M个POI,库存POI库有N个,则每个待选POI库中的POI都需要和全量的库存POI作比较,选出相似度高的POI建立实体链接,运算复杂度为O(NM)。这种复杂度在实际应用场景中是不可接受的。

为解决这个问题,可以从两个方面考虑:

  1. 通过聚类的方式进行POI聚合——为库存POI库中的每个POI建立一个簇,计算待选POI与每个簇中的所有POI的平均相似度,大于某个阈值时,将该POI放入该簇中。相似的簇合并、迭代。

  2. 通过建立索引的方式缩小比较候选集——以倒排列表方式为例,根据索引规则建立倒排列表(格式:索引-->POI的ID簇),建立正排列表(格式:POI的ID-->该POI的所有信息),待选POI搜索倒排列表,根据索引查出多个ID簇,对多个ID簇中的POI进行合并去重,从正排列表中取出对应的POI信息,计算与待选POI的相似度较高的结果并返回。

第一种方法不适合线上系统,第二种方法可以应用于线上系统。

第二种方法存在“索引粒度”的问题,如果搜索粒度太小,本应该实体链接的两个POI不能链接到一起,从而降低了召回率,如果粒度太大,返回的疑似候选集太大,每个POI计算与之实体链接的POI的时间会变得很长,工程实现的压力增大。

国内酒店POi的场景介绍算法角度的解决方案

POI实体链接的效果直接依赖于对酒店数据的理解。

要解决的两个问题:如何计算两个POI实体间的相似度;如何确定候选集的范围

在计算相似度之前,利用名称、地址、电话、经度、纬度来全方位定位一家酒店。通过计算每一个维度进行相似度打分,最后通过预先配置好的权重进行加权求和得到两个酒店的POI实体链接相似度。这里的权重可以利用机器学习的方法来确定。

                                                                  《美团机器学习实践》学习笔记:POI实体链接与评论挖掘_第1张图片

计算两个酒店POI是否是同一个实体的问题本质上是二分类问题。

                                                《美团机器学习实践》学习笔记:POI实体链接与评论挖掘_第2张图片

处理步骤:数据清洗->特征生成->模型选择与效果评估

特征生成分为4个模块:名称解析、地址解析、电话解析、经纬度解析。

  • 名称解析主要任务是从酒店名称中提取出各个对应的部分(所在城市、酒店品牌名、酒店类型、酒店分店名),并在酒店名称全称中获取核心部分的内容。
  • 地址解析的主要任务是从酒店地址中摄取出各个对应的部分(省、市、街道、楼层、对应地标等)。
  • 电话解析可通过规则和正则匹配的方式来提取。
  • 经纬度解析有两个子任务:判断国内经纬度POI是否出现写反的情况;计算两个 经纬度在空间上的距离,并作为特征输入到特征向量中。

索引粒度的配置

调整索引粒度是平衡次数与召回率的手段,在保证召回率的条件下减少次数。策略为:首先,不同城市的POI不用参与比较;用目标酒店POI的坐标以一定距离画圆,只比较圆内的POI;在名称上也可以设置规则,如“7天连锁”不用和“如家酒店”比较。

不同场景下进行策略调优

旅游POI实体链接:电话字段失效;地址字段不标准,解析困难;采用统计类特征代替一些复杂、低准确率的解析特征;适当调大索引粒度;算法的主要判断依据是景点的名称。

海外酒店POI实体链接:所有文字是英文,只能利用国内酒店POI实体链接的算法框架,核心工作需要重新开发。

 

评论挖掘

评论挖掘的粒度:商品粒度——针对单条信息或单个商品;POI粒度——如在酒店业务下代表一个酒店商家或一个景区;

评论挖掘的维度:即标签的维度——软件维度(卫生条件、内部环境等)、硬件层面(基础设施、电梯等)、商品维度(与商品敏感性较强的一些维度,如电脑、电视、窗户等)、主观维度(最具个性化,是否推荐、服务满意度)

                                          《美团机器学习实践》学习笔记:POI实体链接与评论挖掘_第3张图片

评论标签的提取——从评论中提取关键词

数据预处理:清洗、中文分词、长句切分、去标点符号、去停用词、词向量处理(word2vec/Glove/随机初始化词)

                                                                《美团机器学习实践》学习笔记:POI实体链接与评论挖掘_第4张图片

无监督学习的标签提取方法:TextRank

深度学习的标签提取方法:数据处理->数据标注(人工)->模型训练CNN->模型优化(多个模型融合)

                                       《美团机器学习实践》学习笔记:POI实体链接与评论挖掘_第5张图片

标签情感分析

根据文本的含义和其中的情感信息将文本划分成某个情感的积极或消极类别。

评论为基准的标签情感分析的特殊性:无中心思想,主观性强、实时性事件影响强;多标签情感信息重叠(正负样本中同时存在某句话);正负样本比例失衡;

                                                         《美团机器学习实践》学习笔记:POI实体链接与评论挖掘_第6张图片

基于深度学习的情感分析方法:TextCNN/TextRNN/CRNN等。

                                                         《美团机器学习实践》学习笔记:POI实体链接与评论挖掘_第7张图片

 

 

 

你可能感兴趣的:(机器学习)