[Nutch]使用LUKE查看Solr的索引文件内容

上一篇博文有介绍使用Solr的命令solrindex建立索引并提交到Solr服务器,那么我们怎么样查看solrindex命令产生的索引内容呢?这就要使用本篇博文要分享的工具LUKE,通过LUKE工具,我们可以很清楚的看到通过solrindex命令产生的索引内容。

1. 下载LUKE工具

点击lukeall-4.0.0-ALPHA.jar,进入下载页面进行下载。

2. 启动LUKE

下载之后在windows系统上面使用命令行启动LUKE:

java -jar lukeall-4.0.0-ALPHA.jar

运行过程:
这里写图片描述

启动界面:
[Nutch]使用LUKE查看Solr的索引文件内容_第1张图片

3. 查看Solr索引

3.1 选择Solr索引的位置

通过点击Browse按钮,会弹出文件夹选择框:
[Nutch]使用LUKE查看Solr的索引文件内容_第2张图片

选择打开按钮,选择索引路径:
[Nutch]使用LUKE查看Solr的索引文件内容_第3张图片

3.2 查看具体内容

选择Solr的所有路径之后,在Path to Index directory对话框中,其他选择都默认,选择OK按钮,即可进入LUKE的主界面,在Overview栏位显示Solr索引的大致内容:
[Nutch]使用LUKE查看Solr的索引文件内容_第4张图片

4. 内容详解

4.1 Overview

总共有11个索引字段:
[Nutch]使用LUKE查看Solr的索引文件内容_第5张图片

各个字段名称为:
[Nutch]使用LUKE查看Solr的索引文件内容_第6张图片

总共有811个网页:
[Nutch]使用LUKE查看Solr的索引文件内容_第7张图片

总共有80468个分词item:
[Nutch]使用LUKE查看Solr的索引文件内容_第8张图片

4.2 查看每个字段的内容

选择每个字段,然后选择Show top items按钮,即可在右侧看到详细的Items信息,里面包含了默认的分词信息:
[Nutch]使用LUKE查看Solr的索引文件内容_第9张图片

各个字段的含义如下:

  • anchor
    [Nutch]使用LUKE查看Solr的索引文件内容_第10张图片

  • boost
    不做索引,没有内容:
    [Nutch]使用LUKE查看Solr的索引文件内容_第11张图片

  • cache
    也不做索引:
    [Nutch]使用LUKE查看Solr的索引文件内容_第12张图片

  • content
    页面的内容:
    [Nutch]使用LUKE查看Solr的索引文件内容_第13张图片

  • digest
    也不做索引:
    [Nutch]使用LUKE查看Solr的索引文件内容_第14张图片

  • host
    从url里面提取的主机信息:
    [Nutch]使用LUKE查看Solr的索引文件内容_第15张图片

  • id
    也是从url中提取出来的:
    [Nutch]使用LUKE查看Solr的索引文件内容_第16张图片

  • segment
    指页面存在哪个segment里面:
    [Nutch]使用LUKE查看Solr的索引文件内容_第17张图片

  • title
    页面的title:
    [Nutch]使用LUKE查看Solr的索引文件内容_第18张图片

  • tstamp
    不做索引:
    [Nutch]使用LUKE查看Solr的索引文件内容_第19张图片

  • url
    分词可以进行搜索的:
    [Nutch]使用LUKE查看Solr的索引文件内容_第20张图片

4.3 Documents

[Nutch]使用LUKE查看Solr的索引文件内容_第21张图片

从Overview的title字段里面选择一个分词进行search,选择:图
[Nutch]使用LUKE查看Solr的索引文件内容_第22张图片

在Search栏位,输入:“title:图”,然后选择Search按钮,得到结果:
[Nutch]使用LUKE查看Solr的索引文件内容_第23张图片

你可能感兴趣的:(索引,Solr,Nutch,luke)