Google Search Appliance 抓取与编制索引

在您开始抓取网络内容前,您需要指定一个或多个起始位置。 您可以通过指定要遵循的网址格式和要避免的网址格式来控制和优化抓取幅度。 如果要抓取指定的网址,那么这个网址必须符合仅跟踪和抓取以下格式的网址框中的“至少一个”网址格式,并且“不能”符合勿抓取以下格式的网址框中的任何网址格式。    

请注意: 如果某个网址既符合仅跟踪和抓取以下格式的网址中的格式,又符合勿抓取以下格式的网址中的格式,将抓取该网址。 

网址区分大小写。 如果您希望使用不区分大小写的网址,请使用操作符 regexpIgnoreCase。 

抓取工具可以访问使用 HTTP、HTTPS 和 SMB 协议的内容。 

您可以利用以下选项控制和定义抓取。 

从以下网址开始抓取 

起始网址(每行输入一个)控制抓取起始位置。 通过跟踪起始网址中所列文档(一个或多个)内的链接,可以访问到您希望在所有集合中包含的全部内容。 

这些网址是抓取的起始点。 它们告诉抓取工具从何处开始抓取。 但是,仅当起始网址中的链接符合仅跟踪和抓取以下格式的网址中的格式时,才会跟踪这些链接并为其编制索引。 例如,如果您在该部分中指定起始网址 http://mycompany.com/,并在仅跟踪和抓取以下格式的网址部分中指定格式 www.mycompany.com/,则抓取工具将会寻找网页 http://www.mycompany.com/ 中的链接,但仅会抓取符合格式 www.mycompany.com/ 的网址并为其编制索引。 

此窗口中所有的条目都应是完全限定网址,使用以下格式: 

<协议>://<主机>[:端口]/[路径] 

在此格式中,协议可包括 HTTP、HTTPS(适用于安全内容)或 SMB(适用于文件共享)。
在方括号 [ ] 中包含的信息是可选的。 在 <主机>[:端口]后的正斜杠“/”是必需的。 

有效示例:
https://www.example.com/secure/
http://www.example.com/help/
smb://fileshare.mycompany.com/
my-sharename/

无效示例:    原因:  
http://www/    无效,因为主机名不是完全限定的。 完全限定主机名包括本地主机名和完整域名。 例如: mail.corp.company.com。 
www.example.com/    缺少协议信息,所以无效。 
http://www.example.com    <主机>[:端口]后必须使用“/”。 

 

抓取工具将会多次重试抓取暂时无法访问的网址。 

仅跟踪和抓取以下格式的网址 

从以下网址开始抓取框中的所有条目都需要在仅跟踪和抓取以下格式的网址框中有相应的条目,否则将显示错误信息。 

只有符合您在此窗口中指定的格式(每行一个)的网址才会被跟踪和抓取。 这样,您就可以控制在服务器上抓取哪些文件。 

示例: 

https://www.example.com/secure/
http://www.example.com:80/help/
smb://fileshare.mycompany.com/my-sharename/ 

\\fileshare.mycompany.com\shared\ 

这些条目只能对包含以上字符串的网址进行抓取。 例如,以下所有网址都将被抓取(假设它们没有包含在勿抓取网址中): 

https://www.example.com/secure/file.txt
http://www.example.com:80/help/projectA
smb://fileshare.mycompany.com/my-sharename/folder1

\\fileshare.mycompany.com\shared\folder1 

找到的网址会根据这些格式进行检查,以决定是否要纳入索引中。 只会抓取符合这些格式的网址并为其编制索引。 要抓取某一网址并为其编制索引,该网址中应存在一系列符合某一起始网址的“跟踪格式”的链接。 如果不存在有效链接路径,您应将该网址添加至从以下网址开始抓取部分。 

您在该窗口列出的网址格式须符合有效网址格式规则。 要输入网址格式,请在该窗口输入有效网址。 按下Enter 键以添加其他格式。 允许空行和注释(以 # 开始)。 

“抓取网址”页上的网址区分大小写。 如果您希望使用不区分大小写的网址格式匹配,请使用操作符regexpIgnoreCase。 例如,假设您输入以下格式: 

regexpIgnoreCase:http://www.mycompany.com/documents/ 

该格式也与以下网址相匹配: 

http://www.mycompany.com/Documents/
http://www.mycompany.com/DOCUMENTS/ 

勿抓取以下格式的网址 

文件类型搜索会提取文档中的所有纯文本并为其编制索引。 但不会为图形、图表和格式化信息编制索引。 您可以将任意文件格式排除在抓取和编制索引的格式之外,只需定义网址格式例外,就可阻止对这些网页进行抓取。 符合您在该窗口中指定的格式(每行一个)的网址不会被抓取。 

该选项可以阻止抓取特定的文件类型、目录或其他网页组。 例如,在此框中输入格式 contains:? 将阻止抓取许多通用网关界面 (CGI) 脚本。 

您在此处列出的网址格式必须符合有效网址格式规则。 要输入网址格式,请在该窗口输入有效网址。 按下Enter 键,在新行中添加其他格式。 允许空行和注释(以 # 开始)。 

为方便起见,该框内预置了多个网址格式和文件类型,其中有些您可能不希望抓取工具为其编制索引。 我们建议您,除非您检测到自己站点的某些部分目前被排除在了这些规则之外,否则请不要删除任何默认格式。 有关支持的文件格式的详情,请参阅公共 Search Appliance 文档网页上的“可编制索引的文件格式”。 

要使抓取工具不抓取某种格式或文件类型,请删除包含该文件类型的那一行中的 # 标记。 例如,要让抓取工具不抓取服务器上的 Excel 文件,请将行 

#.xls$
修改为
.xls$ 

以上内容都是来自Google Search Appliance的帮助文档。

从以下网址开始抓取可以看做是外链;勿抓取以下格式的网址 可以看做是robots.txt文件。

一些网站优化中需要注意的点已标红。

你可能感兴趣的:(爬虫,Google)