易企秀基于elasticsearch快速构建图片搜索引擎(一)

内容较多、请先马后看;借助es分布式计算的能力,使得早期易企秀APP端图片搜索功能就具备了高可用、可扩展的能力

1、背景

易企秀商场为我们提供了大量免付费的模板,这些模板多以固定的图片及样式组合而成,用户在这个基础上稍加修改便可以快速实现自己的H5场景,为了满足小白用户能够快速制作H5场景的需求,方便用户能够从海量商城作品中快速找到符合自己使用的风格模板,为此产品上提供了通过文本搜索快速获取样例商品的途径,也提供了基于图片搜索样例商品的功能,做图片搜索的目的是为了拓展用户获取商品的途径,同时也满足了用户基于图片风格样式获取商品的诉求。

以下内容进入实战,项目来自易企秀一线工程师操刀实践,干货满满

2、流程介绍

业务处理流程相对比较简单,这里就不放架构图了,整个项目中用到了sqoop、hive、spark、elasticsearch等大数据组件,步骤如下:
1、商品模板主要来自设计师、秀客以及运营精选,每个小时都有大量新增商品入库,我们通过sqoop实现商品数据增量同步到数据仓库(hive),主要包括商品库中的商品封面图、标题、描述、Id等信息
2、借助spark分布式计算的能力快速清洗并抽取图片特征
3、将抽取后的特征与商品模板建立对应关系,并存储到es
4、编写查询script脚本,用于计算用户输入图片与候选集的相似度。

3、具体操作

  • ETL

通过sqoop实现增量数据同步非常简单,需要指定一个用于监控增量变化的字段:

sqoop job --create jobname -- import --connect jdbc:mysql://host:3306/mall --username 'bigdata' --password pwd 
--table mysqlablename --hive-import    --hive-table hivetablename 
--incremental lastmodified --check-column create_time --last-value '2019-04-22 13:00:00'

以下几点需要注意:
1、不能在sqoop job中指定-m参数,指定了-m参数会在数据迁移过程中产生临时数据文件,下次导入时会报数据目录已存在的错误;
2、因为我们执行的是增量操作,所以需要提前在hive中创建hivetablename对应的数据表;
3、增量同步需将incremental配置为lastmodified,并在第一次导入数据时设置--last-value为数据下届,每次sqoop会同步大于该下届的数据并自动更新该下届值;

  • 特征提取

图片特征提取是本项目的核心模块之一,由于图片特征提取方式较多,通过调研这里我们先对几种常用的传统特征提取算法做简要说明:

算法 描述 应用场景
颜色直方图 提取图片中各种颜色的分布数据,对图片翻转、缩放、模糊处理后的特征影响比较小 自然环境、色彩风格
颜色向量 在颜色直方图基础上增加了色彩空间分布特征的提取 -
文理特征 提取图片中颜色渐变与物体纹理数据特征 物体分类、图像搜索
形状特征 提取图片中物体轮廓特征与区域形状特征 物体分类
SIFT 通过复杂的数据公式实现物体局部特征提取,具有平移、旋转、光照不变性 物体识别、图像检测
SURF 采用了SIFT相近的实现原理,但计算复杂度降低很多 -

在实际操作后我们选用了颜色灰度直方图算法,以下是相关代码,原生jdk代码实现,没有第三方依赖,直接拷贝可运行(需要全部工程代码的请留下你的邮箱):

import java.awt.image.BufferedImage;
import java.io.IOException;
import java.net.MalformedURLException;
import java.net.URL;
import java.nio.ByteBuffer;
import java.util.Base64;

import javax.imageio.ImageIO;

 public class Hog extends FeatureSelect {

    private static int GRAYBIT = 2;     //GRAYBIT=4;用12位的int表示灰度值,前4位表示red,中间4们表示green,后面4位表示blue

   
    /**

     * 求三维的灰度直方图

     * @throws IOException
     * @throws MalformedURLException

     */
    public static void main(String[] args)  {
        /*double[] data5 = getHistgram2("http://pic15.nipic.com/20110713/2328079_172740212177_2.jpg");
        ImageVector.print(data5);
        double[] data1 = getHistgram2("http://imgup01.sj88.com/2018-07/04/09/15306691026479_3.jpg");
        ImageVector.print(data1);*/
        double[] data2 = getHistgram2("http://res.eqh5.com/o_1cjacked6nsv1m4du77esr1mr4u.jpg");
        print(data2);
//      double[] data3 = getHistgram2("http://res.eqh5.com/o_1cgqee47bfb966fmf8j472559.jpg");
//      ImageVector.print(data3);
//      double[] data4 = getHistgram2("http://res.eqh5.com/o_1ci40kmlv1c7b16ob1imfk961kjae.png");
//      print(data4);
//      double[] data6 = getHistgram2("http://res.eqh5.com/o_1ci40kmlv1c7b16ob1imfk961kjae.png");
//      print(data6);
    }

    public static void print(double[] data){
        StringBuffer sb = new StringBuffer();
        StringBuffer sb2 = new StringBuffer();
        for(int i=0; i>16 & 0xff;

            g = pix[i]>>8 & 0xff;

            b = pix[i] & 0xff;

            /*hr[r] ++;

            hg[g] ++;

            hb[b] ++;*/

            hist[0][r] ++;

            hist[1][g] ++;

            hist[2][b] ++;

        }

        for(int j=0; j<256; j++) {

            for(int i=0; i<3; i++) {

                hist[i][j] = hist[i][j]/(w*h);

                //System.out.println(hist[i][j] + "  ");

            }

        }

        return hist;

    }
 
    /**

     * 求一维的灰度直方图

     * @param srcPath

     * @return

     */

    public static double[] getHistgram2(String srcPath) {

        BufferedImage img = readImg(srcPath);

        return getHistogram2(img);

    }

    /**

     * 求一维的灰度直方图

     * @param img

     * @return

     */


    public static double[] getHistogram2(BufferedImage img) {

        int w = img.getWidth();

        int h = img.getHeight();

        int series = (int) Math.pow(2, GRAYBIT);    //GRAYBIT=4;用12位的int表示灰度值,前4位表示red,中间4们表示green,后面4位表示blue

        int greyScope = 256/series;

        double[] hist = new double[series*series*series];

        int r, g, b, index;

        int pix[] = new int[w*h];

        pix = img.getRGB(0, 0, w, h, pix, 0, w);

        for(int i=0; i>16 & 0xff;

            r = r/greyScope;

            g = pix[i]>>8 & 0xff;

            g = g/greyScope;

            b = pix[i] & 0xff;

            b = b/greyScope;

            index = r<<(2*GRAYBIT) | g<
  • 特征存储

首先在mapping中定义存储特征field

      "features": {
            "type": "binary",
            "doc_values": true
       }

其次借助spark的并行计算能力,每小时增量读取hive表中新增商品的数据,对封面图进行特征提取,并将提取后的特征字段连同其它属性值一并存入ES,由于features存储的是binary类型,数据需要转化为base64字符串进行存储,所以spark中主要代码是:

String b64 = Hog.convertArrayToBase64(Hog.getHistgram2( imgUrl ));
  • 图片检索

和构建索引库的方式一样,我们在检索前也需要对图片进行特征提取,但这次提取后的特征不需要进行base64转化,以下是query的核心语句:


{
  "query": {
    "function_score": {
      "boost_mode": "replace",
      "script_score": {
        "script": {
          "inline": "binary_vector_score",
          "lang": "knn",
          "params": {
            "cosine": true,
            "field": "features",
            "vector": [
               -0.09217305481433868, 0.010635560378432274, -0.02878434956073761, 0.06988169997930527, 0.1273992955684662, -0.023723633959889412, 0.05490724742412567, -0.12124507874250412, -0.023694118484854698 
          }
        }
      }
    }
  } 

如果你觉得上述查询返回的结果相关度不高或者响应很慢,也可以重写query增加过滤条件,以限制参与计算的数据范围。

需要注意的是es5.6中并不原生支持cosine等计算相似度的函数,开始执行上述query之前,我们要先安装一个script脚本,在这里下载

4、小结

上述工程虽然实现了图片与文本相结合搜索功能,但检索效果和性能并不是很出色,可优化的空间还有很多,比如特征提取部分可以尝试使用深度学习模型,通过卷积神经网络提取的特征可能效果会更好,另外新版ES7.0支持了vector数据类型(图片数据存储为该类型更合适),并且内部实现了基于vector的余弦相似度计算,切换到新版本实现性能应该也会好很多。

你可能感兴趣的:(易企秀基于elasticsearch快速构建图片搜索引擎(一))