文本内容分析和智能反馈(1)-分析设计

1、业务背景

某业务内容为短文本,5字或200字左右,针对某个专题,有附属属性。
提交人为非专业用户。

提交后,专家进行审核,某几个专家针对某个行政区划。

对审核不通过的内容,专家会给出修改建议

业务量较大,单次审核周期一般在1~3个工作日。

如果能够提高一次通过率,将直接提高系统效率。

对于5字左右短文本,如果能够智能审核,减轻专家工作量,也将对系统整体效率带来促进。

2、业务分析

有几件事情可以做:

  1. 分析历史审批意见,对审批意见分词,做词频统计。
  2. 分析历史审批意见,特别是审批不通过的审批意见,结合当前应用场景,提取关键属性,得出最高频的审批意见,以恰当形式呈现给用户。
  3. 结合应用场景,依据属性做关联分析或聚类分析,将分析结果呈现给填报用户。

3、功能设计

3.1、数据预处理模块

对审批意见分词,按如下关键属性保存分词结果。
关键属性包括:业务板块、行政区划、时间段(以半年为单位做离散化处理)、文档编号、专家、 词、 词频。

增量分析。

3.2、各纬度汇总

实现如下函数:

List<Map<String,Long>> getTopSuggest(Map<String,Object> dimensions)

依托预处理模块得到的数据,传入不同纬度的组合,返回词频最高的审批意见。

需注意无效词的过滤。

3.3、关联分析

获得高频出现的五元组、四元组、三元组、二元组,具体视结果质量而定。

找到恰当的阀值。

3.4、聚类分析

定义词的距离,进行聚类分析。

你可能感兴趣的:(日积月累)