抽取百度收录链接(一)

抽取百度搜索链接。

小站域名。以前好似一个织梦的站点,在百度和gg上收录收录了大量的内容页。现在将他替换为我的blog域名;但是这些以前收录的页面都3个月了,还在被百度不停的抓取。严重影响了正常文章的收录.在百度站长工具(数据提交-死链提交)里发现可以将网站内的404、403、503等状态提交上去,防止百度收录。

先看下百度对这块的说明:详细可参见死链提交工具帮助

一、什么是死链? 页面已经无效,无法对用户提供任何有价值信息的页面就是死链接,包括协议死链和内容死链两种形式。 1.协议死链:页面的TCP协议状态/HTTP协议状态明确表示的死链,常见的如404、403、503状态等。 2.内容死链:服务器返回状态是正常的,但内容已经变更为不存在、已删除或需要权限等与原内容无关的信息页面。 二、为什么要使用死链提交工具? 当网站死链数据累积过多时,并且被展示到搜索结果页中,对网站本身的访问体验和用户转化都起到了负面影响。另一方面,百度检查死链的流程也会为网站带来额外负担,影响网站其他正常页面的抓取和索引。 三、如何使用死链提交工具? 第一步,处理网站已存在的死链,制作死链文件筛查网站内部存在的死链,并将这些死链页面设置成为404页面,即百度访问它们时返回404代码。将需提交的死链列表制作成一个死链文件,制作方法请参阅 帮助文档(与sitemap格式及制作方法一致) 第二步,将死链文件放置在网站根目录下 比如您的网站为example.com,您已制作了一个silian_example.xml死链文件,则将silian_example.xml上传至网站根目录即example.com/silian_example.xml 第三步,登录百度站长平台 第四步,提交网站并验证归属:具体验证网站归属方法可见帮助文档 第五步,提交死链数据 1.选中左侧“死链提交” 2.点击右侧“添加新数据” 3.提交死链文件:填写死链文件地址(如:www.example.com/silian_example.xml),选择更新时间,进行提交 4.管理已提交的死链列表 提交完之后,可在死链工具列表里看到提交的死链文件,如果死链文件里面有新的死链,可以选择文件后,点击更新所选,即对更新的死链链接进行了提交

好了。看了百度官方的文档,我们可以知道,百度对死链的处理就是将所有死链写入一个xml文档中。然后在百度蜘蛛爬去网站的时候就不会再去爬去这些页面。 首先我们需要获取百度收录了哪些死链。 百度搜索:site:xxku.net 会看到百度收录本站的页面。里面很多都是以前老网站的内容页。现在点进去都是404;

现在我们建立一个思路:

  1. 收集所有百度收录链接
  2. 处理收集的链接(因为百度跳转链接是加密的。我们需要获取我们网站被收录的真实404链接。这里就需要处理)
  3. 生成xml文档

你可能感兴趣的:(网站,404,收录,百度蜘蛛)