自动取词,并提取大文本的关键字

本人用QQ机器人记录QQ群的信息,并通过每个人的对话自动获取大家关注的话题,从而知道群友喜欢讨论什么。于是实现了本程序:http://www.oschina.net/code/snippet_1180874_23462

不过在自动组词的时候用的算法颇有爆力的感觉,需要很多地方进行优先。但是本人用c/c++的多,python用得少,不知道哪位仁兄帮我实现一个更好的版本!

程序具体功能是:

1、自动从一大段文本中提取可能组成的词语。
2、通过输入多个文档,通过tf-idf算法自动提取各种文档的关键字。
3、通过提取关键字可以得到不同的QQ群讨论的主要内容。
关于第一条的原理说明请参考《互联网时代的社会语言学:基于SNS的文本数据挖掘》http://www.matrix67.com/blog/archives/5044

你可能感兴趣的:(自动组词,if-idf)