Googlebot研究报告

引言

以前看别人爬虫的时候,直接设置ROBOTSTXT_OBEY = False就完事了,却不知道那是什么东西。此报告即是对Googlebot相关的研究。

工程结构及关键代码

Googlebot研究报告_第1张图片
图片链接

可改进内容

1. robots.cc 354

使用’strlen(str)> 0’构造来识别空字符串,不如检查:str [0]!=’\ 0’。如果整个字符串不为空,则不必遍历整个字符串。

From

bool RobotsTxtParser::GetKeyAndValueFrom(char **key, ....)
 {	 .... 
 	*key = line;
 	 .... 
  	if (strlen(*key) > 0)
 	{	 .... 
 		return true; 
 	}	 
 	return false; 
 }

To

bool RobotsTxtParser::GetKeyAndValueFrom(char **key, ....)
 {	 .... 
 	*key = line;
 	 .... 
  	if (*key [0]= '\0')
 	{	 .... 
 		return true; 
 	}	 
 	return false; 
 }
2. robots.cc

没用过的变量path。

From

std::string GetPathParamsQuery(....)
{
  std::string path;
  ....
}

To

std::string GetPathParamsQuery(....)
{
  ....
}
3. robots.cc 645

这两个函数功能一模一样。

int MatchAllow(absl::string_view path, absl::string_view pattern)
{
  return Matches(path, pattern) ? pattern.length() : -1;
}

int MatchDisallow(absl::string_view path, absl::string_view pattern)
{
  return Matches(path, pattern) ? pattern.length() : -1;
} 

参考文献:
[1]https://developers.google.com/search/reference/robots_txt
[2]https://github.com/google/robotstxt
[3]https://www.zhihu.com/robots.txt

你可能感兴趣的:(爬虫)