【数据应用案例】基于图像搜索引擎的图文无关识别方法

案例来源:@字节跳动技术团队

案例地址:https://www.jianshu.com/p/5bab8008e98e

 

0. 背景:知乎、悟空问答中,用户的回答配上美女、风景图,能大大提高点击率和点赞率,这样对正常回答的内容不公平,影响排序质量。需要找到一种方法,识别图文不符的内容,降低其排序权重。

 

1. 传统方法:

  1)色情图片识别

  2)OCR技术:从图片中识别文字,并与内容正文计算相似度

  3)图像分类:通过图像分类技术,得到图像的分类,然后与文章所在类别进行比较。缺点是现有图像分类的体系和互联网内容的分类体系不一致(典型的图像分类标签包括:猴子、猫、人物等;而文本内容的分类标签的例子包括:历史、财经、股票、互联网等),导致效果很差

 

2. 基于图像搜索引擎的图文无关识别方法-思路:

  1)给定图片G和文本W,将G上传到图像搜索引擎进行检索

  2)提取前K个来源的title

  3)将title分词,合并得到图片的描述M

  4)计算M和W的相关性,得到一个打分S

  5)如果打分S低于一个阈值,则认为图文无关

 

3. 基于图像搜索引擎的图文无关识别方法-相似度计算:

  1)标注一批图文内容(图文相符/图文不符):具有高分享量的回答,以及高评级作者写的回答,配图都比较相关;选择这一部分回答并去掉首尾两张图作为正样本;这些图随机匹配一个回答作为负样本

  2)以GBDT作为分类器,训练分类模型。根据模型的输出值作为相似度打分

  3)特征工程如下:

    a. 命中关键词个数

    b. 关键词中名词个数

    c. IDF

    d. BM25(https://www.cnblogs.com/hdflzh/p/4034602.html)

    e. 同义词命中个数

    f. 其它

 

你可能感兴趣的:(数据产品案例)