百度-阿拉丁模式 是对现有搜索引擎的古板的抓取-分析-倒排-搜索模式的补益

今天看到百度阿拉丁的模式。我觉得,是对以前存在的古板的抓取-分析-搜索模式的一种有益补充。

1. 抓取费时费力,不外乎就是得到网页原始档,而搜索引擎的目标却是得到一个倒排索引表,这不能不说是一种无奈的讽刺。

2. 现有的网页数量和更新速度是搜索殷勤无法达到的。比如onlinedown这样的网站,股票行情,天气预报等。而且抓取相对更新周期很短的信息,没有任何意义。就入股市看板一样,主要是实时显示,对搜索引擎来说,也就是要能实时搜索。

3. 合作伙伴 ,信誉度高的网站,如新浪,人民网等。搜索引擎的一些例外的检查对他们可以忽略,如,关键字堆砌等。

4. 最主要的,是有无数个“暗网”,也就是从db里读取并动态显示的网页,无法被搜索引擎检索到。我想更具意义的阿拉丁的意义正在以此。如果不是访问量特别大的网站,当然我们没必要做一些db-静态的过程。直接通过提交,能够让搜索能深入和完整地检索到我们的所有内容。那无疑是件好事。

5. 新的问题一:无疑,这样的提交必须要经过审核,也许说很多普通的网站可能无法获得通过。还有技术上对网页展现页面和提交的索引做一个比对。确定一致性。在技术上来说还是有相当难度的。不过话又说回来,既然是审核,那如果发现严重不合符的,应该杀你没商量也应该没意见。

6. 新的问题二:人工对图片,视频或者其他格式文件的摘要是否真实?这个要核实是几乎非常大难度。

你可能感兴趣的:(搜索引擎,百度)