郑昀@玩聚RT 20090703
舆情监测和口碑监测都属于一个路子。常有人问到自然语言处理技术在其中如何上手实用。下面简单说一下。
一、词典和算法
前期的主要问题是用于分词和分类的词典建立,根据你的应用不同,这一套词典(可能有很多词典,比如人名、地名、组织名、常用英文缩写)的侧重是不同的。还有停用词表,也就是“的”“啊”“哦”之类的词。
举例:
对于生活搜索,“鱼头王”和“鱼头”应不应该都在词典中出现呢?“大酒店”和“酒店”呢?取舍取决于你的分词算法,甚至取决于你的应用点,如果是正向最大匹配分词算法,如果是搜索应用,那么显然应该移除“大酒店”和“鱼头王”。
后期则是自动去重、提取标签和自动聚类的算法以及效率问题,提取实体词和标签也是词典问题。
分词算法用谁家的都无所谓,开源的、能拿到手的、靠谱的有不少。主要是一套专用词典。需要(自动地)与时俱进,而不是拿一个许多年前的不更新的旧词典就搞定的。
也就是说整个应用的主要问题是词典和算法。
二、明确需求
语义这东西,如果没有明确的需求,很有可能花一番气力做出来的东西,最后不要了。算法一旦去研究,就会耗费很多精力去做对比实验,词典们一旦要自己收集并认真整理,就会耗费很多人工。这些都是成本。
所以必须明确需求。
没有明确的需求,很多工作等于是白做。
三、较高级的挖掘
深层次文本挖掘,国内外的做法一般有:
1:描述性的特征提取,如能够知道人们对某一款汽车具体到操控性、耗油量、舒适性等的评价以及评分;
2:情感分析,即正负面判断,基本上是靠词典和模式匹配;
3:自动热点发现,即聚类的变种;
4:利用实体词、标签做统计做趋势;
5:传播途径分析;
6:特定领域的观点自动提炼,基本上是靠词典和模式匹配;
7:自动生成总结(Summary),注意不是“摘要”。
剩下的就都是围绕着关键词的简单玩法了。
社交玩法
Read/Write Web的文章也提到了社交的几个点,不妨一看:
- 语义链接分享
- 网络挖掘
- 新闻分享
- Tweet挖掘
至于它后面说的语义/语境广告投放,那都是巨头的玩法,一般人不要轻易介入。
垂直、垂直
如果客户追踪的是某一个垂直领域,而不是那种泛泛的内容监控,其实很多事情就有了可做、可控的余地。
口碑监测或舆情监控,最麻烦的就是不知道将要监控的内容是什么,有没有明确的语言特征;这样,词典不好积累,算法不好交叉验证和调整,不容易走捷径。
四、能做好的
在垂直领域,即像汽车、旅游、饭馆、酒店和股票等的口碑监控,技术可以有把握做到的:
1:准确分词、分类;
2:准确提取标签和实体词;
3:描述性的特征提取;
4:自动发现热点;
不需要垂直领域也可以做到的:
1:自动去重;
2:通过实体词和标签的关联建立;
五、词典
需要整理专有词典的:
1:分词、分类(严重取决于训练机器时的语料是否准确是否具有代表性);
2:实体词、提取标签;
3:情感分析;
4:描述性的特征提取;
不需要词典就可做的:
1:自动去重;
2:热点自动发现(说到底还是需要,但不那么严格需要);
3:高速传播事件监测(其实是自动去重的镜像应用)。
六、做应用的流程
1:确定监控的垂直领域;
2:收集整理好专有词典;
3:为分类准备足够多的语料,每一个分类需要至少三百到五百篇文本,以供训练;
4:做垂直,像CIC或爱搜车的做法,至少要收集足够多的独特性汉语词汇,比如产品昵称,就有黑莓、BB、本本儿、小黑、小捷等;
4:为描述性的特征提取,收集语料,建立各种词典。
5:为情感分析收集语料,建立词典。
6:分别试验各种算法,反复调整以达到商用的准确率。
7:将各种语义处理联起来,合成应用。
举例:
我们做 玩聚中文锐推榜 这个非常简单的语义应用的流程:
1:明确需求:近乎实时地获取 Twitter 和 饭否 的RT(锐推,或称“转发”)消息,将内容相似的合并为一条消息;如果该消息被转发次数足够多,就可以登上中文锐推榜,并通过我们的官方微博客帐号和RSS发布出去。
2:确定重点功能以及对应的自然语言处理能力:
A、合并相似的转发消息:基于分词;
B、上榜锐推的标签,标签关联,热门标签趋势:都是基于自动提取标签;
C、阻止内容大体相似的锐推重复上榜:基于标签;(
不那么典型的是这两个上榜锐推,应该有一个被阻止上榜的,但实际上很难,因为语言特征上很难做出判断,虽然人一眼就能看出是重复的:
RT: @jason5ng32: 这几天我看到的“门”:邯郸大学教室做爱门、慈溪职高摸奶门、北京顺义脱裤门、上海地铁洗手门、湖南幼师摸鸟门、图书馆飞机门、湖南某学校秋千门。
与
RT @yeluchow: 今天看了3个门事件 摸×门 电梯门 秋千门 结论是 现在脑残儿童真多。 /// 难不成这也是在给 “绿·坝” 造势???
。比较容易阻止的是下面这种:
RT @flypig: 贵国的 CCTV 终于在网站上 (页面地址:http://is.gd/16cfg ) 替秦刚老师承认了 GFW 的存在,请看截图:http://twitpic.com/7silp ,让我们为这种有责任心的媒体喝彩哟! (CCTV 'admitted)
与
#RT: @DavidFeng: 贵国的 CCTV 终于在网站上 http://is.gd/16cfg 替秦刚老师承认了 GFW 的存在,截图 http://twitpic.com/7silp
)
主要是因为文字长度太短,短的话也就十几个字,所以以往用于长文章的诸多常规手段都用不了,需要调整。
3:针对锐推的语言行为,整理并持续更新自己专有的停止词词典。
4:整理自己的标签专用词典s,这个倒可以用通用的词典s;
5:反复调整各项参数,使之达到人可以觉得丰富、最好是有趣的地步;
6:将各个计算串联起来,如前面语义算的,如从每一个转发消息中提炼参与转发的用户名,等等,成为 中文锐推榜 的应用,每5分钟刷新一次,7×24地侦测中文微博客世界在流行锐推什么新闻、段子和语录。
» 下一篇: 如何传播一个会议--给Open Party的建议