【策略产品】百度搜索天气需求解析策略优化

一、分析目的

发现百度搜索天气的需求理解策略结果存在的问题,针对天气query提出需求理解策略优化方案。

二、需求识别的相关指标

目的:能够准确解析query可能存在的用户需求,帮助下一步检索

关键指标:

召回率=策略识别有实际天气需求的数量/数据库中应该被识别为天气需求的数量

准确率=策略正确识别的天气需求的数量/策略识别为天气需求的数量

三、发现问题

整理后台导出的200个搜索词,发现query含有“天气”关键词的均被标记为天气需求。无“天气”关键词但可能有天气需求的query未被识别为天气。计算被机器标识为「天气」的召回率及准确率,整理其中存在的问题。

召回率=29/70*100%=41.42%

准确率=29/36*100%=80.55%

3.1 准确召回的query

准确召回的query均为需求明确,结构简单的query,大部分具有以下明显特征:


【策略产品】百度搜索天气需求解析策略优化_第1张图片
准确召回搜索词特征

3.2 存在未被召回的query分析

未未被召回的query无“天气”关键词,但可能有查天气的需求。例如搜索行政区域,扩展需求应含有天气需求;另有一种表达口语话的情况,但有明显的特征,需要建立语义理解规则及扩展词库。

【策略产品】百度搜索天气需求解析策略优化_第2张图片
未召回搜索词


3.3 存在query解析不准确问题分析

存在7个query解析不准确,不准确的query均不具有准确召回的query结构特征。

【策略产品】百度搜索天气需求解析策略优化_第3张图片
识别不准确的搜索词

汇总:抽象化存在问题的query


【策略产品】百度搜索天气需求解析策略优化_第4张图片


四、优先级排序

【策略产品】百度搜索天气需求解析策略优化_第5张图片
优先级排序

需求文档

一、需求背景

通过用户搜索历史发现,天气类目的需求识别召回率仅有41.42%,准确率80.55%,数据不理想,有提升的空间。本次需求变更目的为提高天气识别的召回率及准确率。

二、需求目标

优化天气识别需求识别策略,能够准确解析query可能存在的用户需求,帮助下一步检索

关键指标:

召回率=策略识别有实际天气需求的数量/数据库中应该被识别为天气需求的数量

准确率=策略正确识别的天气需求的数量/策略识别为天气需求的数量

三、需求概述

一期需求:解决有天气需求的query解析未召回的问题以及算法处理的基础——切词。

1.切词不准确

经统计query未召回的问题:

2.未对行政区域query进行“天气”类目需求扩展

3.口语化的query,建立停用词汇,进行缺乏语义处理及资源支撑

语义处理规则:行政区域词汇+时效性词汇+气候特征相关词汇

资源支撑:行政区域词汇、时效性词汇、气候特征相关词汇

二期需求:解决无天气需求query解析不准确问题。

query识别不准确的问题:

1.query中有其他明显的类目需求关键词,未比较不同类目的需求强度。

2.query中未有明显的其他类目特征的关键词,未通过其他辅助资源匹配判断是否有其他类目特征。

3.经判断为没有天气及其他类目需求的query,但含有天气关键词的。

四、需求详述

4.1 准确召回的query特征

通过数据分析发现,能够准确召回的query中,有以下结构特征:

【策略产品】百度搜索天气需求解析策略优化_第6张图片
准确召回的query特征

以上query结构均为简单清晰,表达明确的query。除此之外,仍存在其他结构特征的query具有天气类目需求。

4.2 一期需求:

问题1:切词不准确

示例:男朋友今天气死我了 被机器标记为天气需求

准确切词应该为:男/朋友/今天/气/死/我/了

问题2:未对行政区域query进行“天气”类目需求扩展 ,占比72%

示例:query=广州市 ,广州市天气预报为query的扩展需求之一,现未展示天气的特型结果

解决方案:query属于行政区域词汇时,搜索结果首页显示该地区的天气预报特型结果,结果排序根据点击量反馈。

问题3:query不含“天气”关键词,表达口语化的query ,占比11%

示例:广州现在冷不冷、海口现在穿什么衣服合适、北京明天下雨吗

解决方案:

步骤1.建立停用词汇,query切词后,对停用词汇过滤处理。

步骤2.根据语义规则判断是否有天气需求

query均有一定的规则,可根据语义判断是否含有天气需求,

语义规则:行政区域词汇+时间词汇+气候相关词汇

建立相关的资源库:

时间词汇资源:应包含现在,明天,后天,这几天,未来15天等符合语境的时间词汇,不包含:清朝、年份等

气候相关词汇资源:①【天气现象】下雨、打雷、刮大风、刮风、下雪、台风、太阳......

②【气候扩展词】洗车、穿衣服、紫外线、跑步、温度、湿度、爬山、下海......

4.3 二期需求:

问题1:query中有其他明显的类目需求关键词,未比较不同类目需求强度

示例:

歌曲春天天气真好

query中含明显的音乐类目需求,且通过歌曲库验证春天天气真好为歌曲名,需求强度更强。

天气 品冠

query中含歌手的名字,且《天气》为品冠的作品,需求强度更强。

解决方向:

query中含“天气”,但非2.1中结构的query,判断是否有其他类目需求,计算不同需求间的符合度。

问题2:query中未有明显的其他类目特征的关键词,未通过其他辅助资源匹配判断是否有其他类目特征

示例:今天天气好晴朗 处处好风光、爱上你的好天气、今天天气好晴朗

query中含“天气”,但非4.1中结构的query,未有明显的其他类目关键词,但通过其他歌词/曲库名等辅助资源判断含有其他类目需求的,计算不同需求间符合度。

问题3:query中含有天气关键词,经多种方式判断均未有天气需求

示例:试论我国大陆电视台天气预报节目的发展——兼谈与美国电视台天气预报节目的比较

解决方案:通过上述多种判断方式未确定类目需求的,直接进行关键字匹配。

4.4 统计需求

1.上线一周后,随机抓取200条记录,分析准确率及召回率

2.解析为天气需求的 天气特型结果点击率;翻页,修改搜索词的比例,计算需求满足度。

你可能感兴趣的:(【策略产品】百度搜索天气需求解析策略优化)