snoics-reptile中的snoics-systemconfig.xml的CSDN中Java文档中心的抓取配置

snoics-reptile中的snoics-systemconfig.xml的CSDN中Java文档中心的抓取配置

    有些人说不知道snoics-reptile中的snoics-systemconfig.xml不知道怎么配置,这里就给出一个CSDN中Java文档中心的抓取配置的抓取配置。

     在抓取完了之后往Apache的httpd.conf中加入
Listen 10001
<VirtualHost *:10001>
    DocumentRoot D:\\temp\\reptile\\website
</VirtualHost>
     这段配置。


     最后删除抓取下来的文件夹中的D:\temp\reptile\website\author\index.html这个文件。不知道为什么文档中心的这个URL是一个空的页面http://dev.csdn.net/author  ,把这个URL的相对应的抓取下的文件删除就可以正常使用了

     在抓取的过程中,有些图片文件可能会出现错误,不过不影响使用,因为这些图片的路径本身大概就有些问题。


      附件-配置文件:http://www.blogjava.net/Files/snoics/snoics-systemconfig.rar

你可能感兴趣的:(snoics-reptile中的snoics-systemconfig.xml的CSDN中Java文档中心的抓取配置)