案例来源:@字节跳动技术团队
案例地址:https://www.jianshu.com/p/5bab8008e98e
0. 背景:知乎、悟空问答中,用户的回答配上美女、风景图,能大大提高点击率和点赞率,这样对正常回答的内容不公平,影响排序质量。需要找到一种方法,识别图文不符的内容,降低其排序权重。
1. 传统方法:
1)色情图片识别
2)OCR技术:从图片中识别文字,并与内容正文计算相似度
3)图像分类:通过图像分类技术,得到图像的分类,然后与文章所在类别进行比较。缺点是现有图像分类的体系和互联网内容的分类体系不一致(典型的图像分类标签包括:猴子、猫、人物等;而文本内容的分类标签的例子包括:历史、财经、股票、互联网等),导致效果很差
2. 基于图像搜索引擎的图文无关识别方法-思路:
1)给定图片G和文本W,将G上传到图像搜索引擎进行检索
2)提取前K个来源的title
3)将title分词,合并得到图片的描述M
4)计算M和W的相关性,得到一个打分S
5)如果打分S低于一个阈值,则认为图文无关
3. 基于图像搜索引擎的图文无关识别方法-相似度计算:
1)标注一批图文内容(图文相符/图文不符):具有高分享量的回答,以及高评级作者写的回答,配图都比较相关;选择这一部分回答并去掉首尾两张图作为正样本;这些图随机匹配一个回答作为负样本
2)以GBDT作为分类器,训练分类模型。根据模型的输出值作为相似度打分
3)特征工程如下:
a. 命中关键词个数
b. 关键词中名词个数
c. IDF
d. BM25(https://www.cnblogs.com/hdflzh/p/4034602.html)
e. 同义词命中个数
f. 其它