Larbin:hashDup

hashDup:
   功能:对于内容判重。hashTable是对URL判重。即文件内容相同的同一html,并不爬取两次,即便他们的url不同。
   实现:
       hashDup  :构造函数,建立hash表;包括建立空表和导入已建立的表。
       ~hashDup : 析构函数,删除表。
       testSet  : 测试某个文件是否已经在hashTable中。
                  输入是文件名,从第一个字符到最后一个字符进行扫描,将字母转换为hash码。比较并添加hash码。如果已经则返回false,否则返回true。
       save     :将hash表保存在文件中

   区别:在实现细节上,hashTable使用的是31这个常见数字,而hashDup使用的是23。
   

你可能感兴趣的:(html,测试,url)