个性化搜索引擎系统架构设计

文章目录

前言

一、搜索数据仓库搭建、数据抽取部分

二、大数据平台、搜索数据集市分层设计、处理

三、离线算法部分

四、在线Web搜索接口服务

总结

前言

个性化搜索目前发展阶段不是要替换掉传统搜索,而是对传统搜索的一个补充。我们先看下它的架构如图2.2所示:

图2.2 个性化搜索架构图

个性化搜索和个性化推荐是比较类似的,这个架构图包含了各个子系统或模块的协调配合、相互调用关系,从部门的组织架构上来看,目前搜索一般独立成组,有的是在搜索推荐部门里面,实际上比较合理的应该是分配在大数据部门更好一些,因为依托于大数据部门的大数据平台和人工智能优势可以使搜索效果再上一个新的台阶。下面我们从架构图从上到下的来详细的讲一下整个架构流程的细节。

一、搜索数据仓库搭建、数据抽取部分

(1)和搜索相关的Mysql业务数据库每天增量抽取到Hadoop平台,当然第一次的时候需要全量的来做初始化,数据转化工具可以用Sqoop,它可以分布式的批量导入数据到Hadoop的Hive;

(2)和搜索相关的Flume分布式日志收集可以从各个Web服务器实时收集比如搜索用户行为、埋点数据等,可以指定source和sink直接把数据传输到Hadoop平台。

二、大数据平台、搜索数据集市分层设计、处理

在大数据平台建设搜索相关的数据集市,分层设计,和推荐大致相同。

三、离线算法部分

(1)基于Spark平台分布式来创建搜索的索引数据库,后续的增量索引一般靠消息队列的方式异步准实时更新。

(2)Spark从Hadoop加载用户画像以及商品画像的特征数据训练基于分类模型的Rerank二次重排序算法模型,来预测对搜索的候选商品被点击的概率,因为特征工程里加入了和用户个性化的特征工程,所以搜索整体排序呈现个性化的特点。如果想增加个性化的程度,可以适当把搜索的候选集合适当扩大一些。

(3)离线计算的部分结果可以更新到线上Redis缓存里,在线Web服务可以实时从Redis获取推荐结果数据,进行实时推荐。

四、在线Web搜索接口服务

(1)在线Web搜索接口服务,先从Solr/ES搜索集群里面获取和关键词相关的搜索结果作为候选集合,然后从Web项目初始化加载好的Rerank二次重排序模型进行实时点击率预测,对搜索结果进行重排序,截取指定的前面的搜索结果进行展示。这个过程会读取一部分Redis缓存数据。

(2)App客户端、网站可以直接调用在线Web搜索接口服务进行实时展示搜索结果。由于个性化搜索比普通搜索处理更复杂,所以在性能上会有所下载,但整体在可接受的范围内,一般可以单独开个搜索区域进行展示,不替换之前的传统搜索。

从架构中看,一个完整的个性化搜索涉及的技术框架也是非常多,其中个性化的因素也涉及到了用户画像系统,用户画像系统不仅仅可以用在推荐、搜索中,它是一个公司级别的通用系统,运营推广决策都会用到它。和其它部门的系统如何对接,同时适应多种应用场景就需要我们架构设计一个合理的系统,下面我们看下用户画像系统架构。

总结

除了除了个性化搜索引擎系统架构设计☞https://ke.qq.com/course/484024?flowToken=1028990

其它深度学习框架也有不错的开源实现,比如MXNet,后面请大家关注充电了么app,课程,微信群,更多内容请看新书《分布式机器学习实战(人工智能科学与技术丛书)》

【新书介绍】

《分布式机器学习实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】https://item.jd.com/12743009.html

新书特色:深入浅出,逐步讲解分布式机器学习的框架及应用配套个性化推荐算法系统、人脸识别、对话机器人等实战项目

【新书介绍视频】

分布式机器学习实战(人工智能科学与技术丛书)新书【陈敬雷】https://ke.qq.com/course/3067704?flowToken=1029963

视频特色:重点对新书进行介绍,最新前沿技术热点剖析,技术职业规划建议!听完此课你对人工智能领域将有一个崭新的技术视野!职业发展也将有更加清晰的认识!

【精品课程】

《分布式机器学习实战》大数据人工智能AI专家级精品课程https://ke.qq.com/course/393750?flowToken=1028919

【免费体验视频】

人工智能百万年薪成长路线/从Python到最新热点技术https://ke.qq.com/course/package/31251?flowToken=1029962

从Python编程零基础小白入门到人工智能高级实战系列课

https://ke.qq.com/course/package/29782?flowToken=1028733

视频特色:本系列专家级精品课有对应的配套书籍《分布式机器学习实战》,精品课和书籍可以互补式学习,彼此相互补充,大大提高了学习效率。本系列课和书籍是以分布式机器学习为主线,并对其依赖的大数据技术做了详细介绍,之后对目前主流的分布式机器学习框架和算法进行重点讲解,本系列课和书籍侧重实战,最后讲几个工业级的系统实战项目给大家。课程核心内容有互联网公司大数据和人工智能那些事、大数据算法系统架构、大数据基础、Python编程、Java编程、Scala编程、Docker容器、Mahout分布式机器学习平台、Spark分布式机器学习平台、分布式深度学习框架和神经网络算法、自然语言处理算法、工业级完整系统实战(推荐算法系统实战、人脸识别实战、对话机器人实战)、就业/面试技巧/职业生涯规划/职业晋升指导等内容。

【充电了么App】

本书在充电了么App里有对应的视频课程,更多学习资源也可以通过下载充电了么App客户端,也可以从各大应用商店里搜索“充电了么”自行下载。充电了么是专注上班族职业技能提升的在线教育平台。这里有海量免费课程,在这里你可以学习牛人的实际工作经验,也能够大幅提升职业技能,提高工作效率,带来经济效益!除了陈敬雷老师的课以外,还有上千万好课免费分享。全都在充电了么App上。充电了么APP是专注上班族职业培训充电学习的在线教育平台。各大安卓商店和苹果App Store搜索“充电了么”即可下载。按照下图输入网址也可以下载哦~

充电了么官网:http://www.chongdianleme.com/

充电了么App官网下载地址:https://a.app.qq.com/o/simple.jsp?pkgname=com.charged.app

功能特色如下:

【全行业职位】 - 专注职场上班族职业技能提升

覆盖所有行业和职位,不管你是上班族,高管,还是创业都有你要学习的视频和文章。其中大数据智能AI、区块链、深度学习是互联网一线工业级的实战经验。

除了专业技能学习,还有通用职场技能,比如企业管理、股权激励和设计、职业生涯规划、社交礼仪、沟通技巧、演讲技巧、开会技巧、发邮件技巧、工作压力如何放松、人脉关系等等,全方位提高你的专业水平和整体素质。

【牛人课堂】 - 学习牛人的工作经验

1.智能个性化引擎:

海量视频课程,覆盖所有行业、所有职位,通过不同行业职位的技能词偏好挖掘分析,智能匹配你目前职位最感兴趣的技能学习课程。

2.听课全网搜索

输入关键词搜索海量视频课程,应有尽有,总有适合你的课程。

3.听课播放详情

视频播放详情,除了播放当前视频,更有相关视频课程和文章阅读,对某个技能知识点强化,让你轻松成为某个领域的资深专家。

【精品阅读】 - 技能文章兴趣阅读

1.个性化阅读引擎:

千万级文章阅读,覆盖所有行业、所有职位,通过不同行业职位的技能词偏好挖掘分析,智能匹配你目前职位最感兴趣的技能学习文章。

2.阅读全网搜索

输入关键词搜索海量文章阅读,应有尽有,总有你感兴趣的技能学习文章。

【机器人老师】 - 个人提升趣味学习

基于搜索引擎和智能深度学习训练,为您打造更懂你的机器人老师,用自然语言和机器人老师聊天学习,寓教于乐,高效学习,快乐人生。

【精短课程】 - 高效学习知识

海量精短牛人课程,满足你的时间碎片化学习,快速提高某个技能知识点。

你可能感兴趣的:(个性化搜索引擎系统架构设计)