使用 ES 和 DHT 协议爬虫快速打造热门资源下载搜索引擎

ES 即 Elasticsearch,是基于 Apache Lucence 的全文搜索引擎。ES 是纯 Java 开发的,并在 Apache 许可条款下自由发布,是当前流行的企业级搜索引擎。ES 的可靠性高,搜索性能好,易于分布式扩展,它提供了 HTTP RestFull 接口方便访问和管理数据。ES 与 Kibana、LogStash 、filebeat 等软件构成 ELK 技术栈,提供了更加丰富的解决方案。

在本 Chat 中,笔者以构建一个 BT 资源下载数据库为例子,详细介绍 ES 打造企业搜索引擎的基本思路和步骤。本内容全部基于开源代码,只要有一个具有公网 IP 的 VPS,使用很少的代码和设置,就可以打造自己的资源下载引擎。如果你是一个前端工程师,则很容易将它封装成一个非常 Fancy 的资源搜索引擎。

主要内容包括:

  • ES 主要概念介绍
  • ES 的安装和配置
  • ES 索引建立修改和删除
  • ES 查询语法应用
  • Kibana 和 ES 的配合
  • 如何将日志数据持续写入 ES
  • DHT 协议简介
  • DHT 爬虫的实现应用
  • DHT 爬取文件 info 日志
  • 文件 info 的入库
  • 文件搜索
  • ES 系统数据的压缩和备份

适合人群: 无需太多基础,对爬虫、日志、搜索应用有兴趣的技术人员。

阅读全文: http://gitbook.cn/gitchat/activity/5e0c96df83ce5b667f840da3

您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。

FtooAtPSkEJwnW-9xkCLqSTRpBKX

你可能感兴趣的:(使用 ES 和 DHT 协议爬虫快速打造热门资源下载搜索引擎)