demo_

一、前言
随着旅游业的快速发展,人们预定酒店的频率越来越高,搜索作为预定酒店的第一入口,越来越受重视。智能化大趋势下,智能搜索系统的应用及用户需求也越来越广泛。

二、酒店搜索系统架构

携程酒店搜索系统架构如下:
demo__第1张图片
抛开具体业务场景,这里只简单介绍搜索召回的结构,其简要构造如下:
2.1 生成索引和查询索引
demo__第2张图片

2.2.召回

这部分是整个系统的重点,也是规划场景最多的地方。这部分可以细分成几大召回策略。
最终召回的产品是指可供用户选择的酒店及可以帮助用户选择酒店的类型。产品的定义比较广泛,不限定具体的酒店、具体的区域类型、Poi类型,也可以是用户点评的标签,酒店的特色标签。
demo__第3张图片
2.2.1 语义分析
demo__第4张图片

2.2.2 补充策略
这部分主要是在主流程没有结果情况下,去猜测用户的意图以及进一步的对用户的输入词进行纠错。
拼写错误主要分为两种,一种是Non-word Error,指单词本身就是拼错的,比如将“happy”拼成“hbppy”,“hbppy”本身不是一个词。另外一种是Real-word Error,指单词虽拼写正确但是结合上下文语境确是错误的,比如“帝国大厦”写成“帝国大夏”。
I、同音纠错。
主要针对中文Real-word Error错误,由于用户误选拼音输入法给出的候选词导致的错误。
II、n-gram 模型与编译距离计算相似度。
主要针对 中英文 Non-word Error 错误,使用 n-gram 维护纠错索引,对用户输入词进行初步纠错,最后使用带权重的编译距离计算候选词与输入词的相似度。
III、基于用户输入历史的纠错词挖掘
大部分用户发现自己输错之后会重新输入正确的词,通过分析用户行为可以拿到正确词与其易错词的对应关系。
IV、二元纠错与多模匹配
多模式匹配是对分词路径裁决的扩充,对于同一个单词可以多次使用组合成不同的词元。二元纠错针对整词纠错,分别将前后两个词组成一个判断项,满足判断阈值的整词作为搜索词。

三 排序
I、历史用户喜好,输入词热度与全局热度,
用户行为数据展示了用户的操作习惯和偏好。对这部分数据进行离线分析,可以更好地理解用户,以此来做线上产品的推荐源。
对线上需要的行为数据,可以取一个月或者三个月的历史数据,加上时间衰减以保证数据的时效性。
II、用户定位距离影响排序。
III、产品维度,高质量产品优先。

四、展望

你可能感兴趣的:(java)