百度阿拉丁的思考

百度阿拉丁的思考 阿拉丁综述 http://wiki.babel.baidu.com/twiki/bin/view/Ps/Aladdin/Aladdin%E7%BB%BC%E8%BF%B0 需求识别 现有方法:专名辞典(挖掘)、特定规则(机构名规则、特征词等)、日志挖掘-->专名辞典 用户行为分析 目前用户行为分析在 Aladdin 中主要应用在需求退场和需求度调整上: * 根据用户对 aladdin 结果的点击,以及点击在所有结果上的分布,判断需求以及 aladdin 满足的程度 * 根据上述判断决定将某个 query 的某个需求退场,还是需求度调整(目前仅有降低需求度) 图片缓存介绍 http://wiki.babel.baidu.com/twiki/bin/view/Ps/Aladdin/PicCacheIntro 阿拉丁计划要求结果页不再只有单纯的文字。为了支持结果页展示图片,需要搭建图片 cache 服务器,使得用户能够快速、稳定的获取图片 阿拉丁主题概览 http://wiki.babel.baidu.com/twiki/bin/view/Ps/Aladdin/AladdinTopicOverview 通用特殊库检索(gss) 提供统一的库挂载、配置/词表更新、网络交互框架,通过挂载不同类型阿拉丁的策略包(So),达到对不同特殊库的检索功能。 垂直检索架构(ms-index) 提供一套基于多属性 + 短摘要的实时检索系统,满足对一类行业数据中各属性的组合检索 + 筛选,title + desc 的文本匹配,并提可以灵活定制:按字段统计、多粒度排序、多需求满足、多字段类聚的高阶 Rank 功能。 阿拉丁结构化问题 http://wiki.babel.baidu.com/twiki/bin/view/Ps/WebPMAla/Aladingjiegouhuawenti 2.3. Query 变换 结构化 query 变换可以通过配置属性词的同义词、杂质词、日常归一化来扩大召回。 2.3.1. 属性词的同义词 如将属性词“身高”配置同义词为“有多高”,这样所有包含身高属性词的 pattern 都可以受益扩大召回,无需一一配置 pattern。 2.3.2. 杂质词 如 pattern[XX][YY] 配置的杂质词可以出现在 A[XX]B[YY]C 的 A/B/C 任意位置,但不能在 [XX] 里 2.3.3. 日期归一化 选择是否进行日期归一化以及模糊日期推送方式。 说明:模糊日期将被补上缺省的时间单位成完整时间。例如在2011年7月11日 选择“现在式”,“5号”对应为“20110705”,即补全当年当月。 选择“过去式”,“17号”对应为“20110617”,即补全当年当月后若是未来时间,则自动减去一个最小缺失单位。 选择“将来式”,“3号”对应为“20110803”,即补全当年当月后若是过去时间,则自动加上一个最小缺失单位。 比如 query=康熙来了 17号,补全当年当月时间是未来时间2011年7月17日,用户想搜的大部分是已经播出的康熙来了,这时应选择过去式,则为康熙来了 20110617。” =====问题===== ❑ 结构化希望可以配置词典中具体数据的同义词;比如给[明星名]中的“刘德华”配置同义词“华仔” ❑ 杂质词希望能以检索规则粒度来配置,不然就会出现 badcase,比如“站”配成杂质词,[城市名]到[城市名]这类检索规则有“站”杂质词 OK,但[车次]这类检索规则加上“站”后还被召回就是 badcase 1. UTR/BWS 是什么? 2. KV/结构化/mini 分别应对什么样的情况和资源? 3. Aladdin 是否有英文的 NER 接口?

你可能感兴趣的:(阿拉丁)