joyhtml JoyHTML --JoySearch的HTML解析程序

这是Joysearch的网页解析基础部件。

JoyHTML的目的是解析HTML文本当中的链接和正文,利用超链接密度法为主要判断依据的标记窗算法,采用DOM树解析模式。

我们的第二个发布版本,0.20系列

这个版本中,我们添加了关键词提取的功能,并且最终实现了一个文档分析模型,便于实现不同的文档分析算法。为接下来的信息检索,信息抽取工作打好基础。

我们接下来的工作将集中于更加具体的信息抽取工作。

如果您对HTML解析有经验,欢迎您继续修改我们的HTML解析部分代码。

有关分词系统的说明

立刻体验

下载完整注释的源代码

整个工程是一个Netbeans项目。

立即了解!

你可能感兴趣的:(search)