AliCoCo 阅读笔记

论文名:AliCoCo: Alibaba E-commerce Cognitive Concept Net

引言

基本电商的图谱建设都是Category-Property-Value形式,Category是一颗树,其中Property就是 Category的叶子 下的属性。
搜索时,问题在于,用户通常不记得一个item的具体名字,而是只记得item的类别类型或者item其他相关信息,(个人理解AliCoCo起到 别名 或 扩召回 的作用)
推荐时,问题在于,候选item很多,而且协同过滤不是根据用户需求,另外缺乏推荐的新颖性,(根据论文的图AliCoCo起到搜索时互动推荐的作用)
不同于现在的电商的标签,只包括 类别,商标等标签,AliCoCo有比如 “户外烧烤” 或者 “儿童保暖” 这样的标签,“户外烧烤” 这样的标签有 烤架、黄油 这样的商品,
下图中,用户搜 烘焙,召回的item有个 烘焙工具 的标签,而 烘焙工具 下面的item不是都出现 烘焙 二字:
AliCoCo 阅读笔记_第1张图片

分类学taxonomy

人工定义好domain,即下图中的紫色部分
AliCoCo 阅读笔记_第2张图片
domain有20种,主要的是Category, Brand, Color, Design, Function, Material, Pattern, Shape, Smell, Taste, Style
domain其中Category包括800个叶子类别,
domain其中IP(Intellectual Property)包括现实世界的实体,比如名人、歌曲、电影。
下图中直接和Root相连的是20个domain:
AliCoCo 阅读笔记_第3张图片

primitive concepts

即下图的蓝色部分
AliCoCo 阅读笔记_第4张图片
raw primitive concepts (可以看成 词表),会被组织成层级结构,

primitive concepts词表构建

从 搜索查询语句、item标题、用户写的评论、用户写的购物指南 中提取,
方法1基于规则,
方法2是下图的模型,下图模型是挖掘出20种domain,NER模型圈出输入文本的词作为词表
AliCoCo 阅读笔记_第5张图片

primitive concepts词表中上下位词的确定

1,基于规则:
比如 某某裤 是一种 裤,那么 裤 就是 某某裤 的 父节点,
2,基于textmatch模型的projection learning模型,输入 两个词 输出是上下位词的关系,即has_function、suitable_when、isA、in_season等等:

这里论文提出一种 在线数据标注的算法,不断选取模型预测 高分 和 低分 的样本都交给人工标注,

e-commerce concepts

也就是下图的橙色部分AliCoCo 阅读笔记_第6张图片
每个e-commerce concepts代表一个购物场景,每个e-commerce concepts可以被至少被一个primitive concepts组成,

e-commerce concepts的词表生成候选

采用AutoPhrase关键短语提取工具,从文本中提取,也是从 搜索查询语句、item标题、用户写的评论、用户写的购物指南 中提取,
另外就是从现有的primitive concepts生成,比如从 Location: Indoor + Event: Barbecue 来得到新的e-commerce concept:indoor barbecue,
还有基于规则,使用一个模板,[class: Function] [class: Category] for [class: Event] 匹配出warm hat for traveling
AliCoCo

e-commerce concepts词表候选的校验

对e-commerce concepts的词进行0/1文本分类,提出一种 知识增强的文本分类,基于Wide&Deep模型,附加输入了POS、NER信息和 词 的百科文本,以及BERT的embedding
AliCoCo 阅读笔记_第7张图片

e-commerce concepts链接到primitive concepts

使用NER模型,输入e-commerce concepts输出primitive concepts,采用了fuzzy CRF更好处理歧义问题(主要是针对一个token可能属于多个entity的情况)
AliCoCo 阅读笔记_第8张图片

有了标签树,给item打标签(叶子节点可能有多个父节点的树)

e-commerce concepts和primitive concepts都会打到item,考虑到primitive concepts比较短,直接走规则,所以这里主要介绍e-commerce concepts打到item的模型,
采用引入百科文本的textmatch模型,输入是e-commerce concepts和它的primitive concepts和item名称,输出是item是这个e-commerce concepts的0-1分值
AliCoCo 阅读笔记_第9张图片

你可能感兴趣的:(知识图谱,数据挖掘)