毕业设计"医学信息聚类"的一点思路

等开学考试过后正式开工,现在先理清一下思路

1.分词
出于效率的考虑还是用最大匹配及其变种
参考文献:
http://xiecc.itpub.net/post/1476/52479

<<MMSeg分词算法简述>>

另外还应该有一个算法负责提取新词,专业词汇.
目前的思路是基于概率统计
参考文献:
基于N元汉字串模型的文本表示和实时分类的研究与实现.pdf

新词,专业词库训练材料的来源
可以通过抓取万方中的
标题,摘要,关键字(可以直接加入词库)

万方提供OPML(RSS目录),大大简化我的抓取(更新)工作(feedparser)
不过为了更多的历史数据,有时间还是应该去抓取一下html

聚类是基于关键词的,内容有
1.自动提取文章关键词(tag)
参考文献:
基于文本分类中特征提取的领域词语聚类

2.多关键词扫描
最后是写爬虫,抓取网页,然后聚类(简单向量距离?)
对大网站,可以手工写内容提取规则(BeautifulSoup.py)

然后还可以构建一个网站:)

已完成的东西:
AC算法和其python封装
异步的html抓取
html中噪音去除(不是完美,但也凑合,参见<<从HTML文件中抽取正文的简单方案>>)

你可能感兴趣的:(html,算法,python,领域模型,idea)