大数据场景下主题检索模型的应用

概要
Topic Model起源于99年Hofmann的PLSA模型,在十多年的发展中逐步成为一种成熟的IR检索模型,目前在文本分析、图像聚类以及情感分析中大量使用。通常大家碰到的数据集最多也就是几万到几十万篇文章这个量级,在企业的实际场景中如果遇到亿级数据该如何处理?如何利用有限的计算集群资源处理超大的文集,我们将围绕这一难题向大家介绍LDA主题模型训练系统以及它在线上预测时需要面对的问题和解决办法。

个人简介

王晓博,搜狗精准广告研发部技术经理,资深研究员;主要研究方向为大规模数据挖掘算法、展示广告精准定向以及广告排序机制。

百度技术沙龙是由百度主办,InfoQ负责策划、组织、实施的线下技术交流活动,每月一期,每期由1个话题,2场演讲以及Open Space开放讨论环节组成。旨在为中高端技术人员提供一个自由的技术交流和分享的平台。每期沙龙会邀请1名百度讲师分享百度在特定技术领域的成果及实践经验,同时还会邀请1名优秀的互联网公司或企业技术负责人对同一话题进行分享。活动主要面向开发者、技术负责人、项目经理、架构师等IT技术人员。我们的口号是:畅想,交流,争鸣,聚会。

你可能感兴趣的:(大数据场景下主题检索模型的应用)