elastic search实践(1)

Background

目前客户关系模块需要搜索大量的数据,使用传统的关系数据库查询起来速度很慢,满足不了要求。为了提高检索速度,提高改模块使用友好性和易用性,考虑使用Nosql来达到该目的。

模块数据结构

crm.png
  • Person

    客户数据记录。常见的:名字,邮件地址,联系地址,年龄,性别等。

  • Registration

    客户注册活动记录。参加活动的名字,开始和结束时间,编号等

  • Revenue

    客户参加活动的收费汇总。包括:赛事的总费用,买赛事用品的总费用等。

  • Socail referral

    客户社交活动带来的收益汇总。包括:分享的次数,分享带来的总收益,客户分享的等级。

检索要求

  • 给定固的检索条目,列如:名字,年龄,性别,活动名字,客户等级等
  • 用户可以选择匹配表达式,列如:对时间或者次数(数字的),可以选择大于,小于或者between;
  • 用户可以选择时match all 或者match any, 在选择match all的时候用户可以选择部分条件排除

elastic

从上面的检索要求来看,这里涉及到查询条件可以动态调整,检索的字段在关系性数据库中,分布到多个表中;且对部分数据,需要做like %condition%匹配。使用全文检索,更符合这类场景。

Elastic是一个分布式、易扩展、实时的数据搜索引擎。它具有良好的水平收缩性,也有很好的监控工具。在业界具有良好的口碑和大量的使用,所以我们决定研究一把来满足业务场景的使用。

Elastic search基础

基本概念

  • 集群
  • 节点(主节点和副节点)
  • 分片(主分片和副分片)
  • replicate number
  • document
  • index
  • type
  • id
  • lock
  • version
  • create
  • update
  • get
  • delete
  • bulk api (一个好的批量大小在开始处理后所占用的物理大小约为 5-15 MB)
  • routing
shard = hash(routing) % number_of_primary_shards
  • 一致性

    主分片 需要 规定数量(quorum),或大多数的分片 (其中分片副本可以是主分片或者副本分片)在写入操作时可用

int( (primary + number_of_replicas) / 2 ) + 1

Install elastic search

Pull images

docker pull docker.elastic.co/elasticsearch/elasticsearch:5.2.2
docker pull docker.elastic.co/kibana/kibana:5.2.2

Create file elastic_kibana.yml:

version: '2'
services:

  elasticsearch:
    image: docker.elastic.co/elasticsearch/elasticsearch:5.2.2
    environment:
      - bootstrap.memory_lock=true
      - "ES_JAVA_OPTS=-Xms512m -Xmx512m"
    ulimits:
      memlock:
        soft: -1
        hard: -1
    mem_limit: 1g
    volumes:
      - esdata1:/usr/share/elasticsearch/data
    ports:
      - 9200:9200

  kibana:
    image: docker.elastic.co/kibana/kibana:5.2.2
    links:
      - elasticsearch
    ports:
      - 5601:5601

volumes:
  esdata1:
    driver: local

Start up

  docker-compse -f elastic_kibana.yml up

Access kibaba:

http://localhost:5601/app/kibana#/management?_g=()

下一步,我们进行对数据进行elastic的建模。

你可能感兴趣的:(elastic search实践(1))