北大天网搜索引擎TSE分析及完全注释[4]小结

 

通过前面的三篇文章相信你已经对神秘的搜索引擎有了一个感性的认识,和普通的php类似的脚本语言服务器类似,通过获取前台关键字,通过字典分词,和事先建立建立好的倒排索引进行相关性分析,得出查询结构格式化输出结果。而这里的技术难点在于

1、字典的选取(事实上根据不同时代不同地方人们的语言习惯是不一样的所以说字典的最小元的取值是不同的)

2、倒排索引的建立(这里就要涉及到爬虫的抓取和索引的建立后面将重点介绍这2点,搜索引擎的效率和服务质量实效性瓶颈在这里)

3、相关性分析(对抓回来的文档分词建索引和用户关键字分词算法上要对应)

后面文章会重点介绍爬虫的抓取和索引的建立。

你可能感兴趣的:(算法,搜索引擎,服务器,脚本,文档,语言)