超链接的标准问题

今天爬虫爬到了一个url,里面还有“&”,手动在浏览器里面打开发现根本打不开,是链接错误?

后来发现不是链接错误,到网上搜了下说是“ W3C 规定这样写”

 

我晕了,查看页面源码,发现自己提取的url没有错,源码里面就是包含了&,如:

<a href="list.asp?id=33&amp;page=2">下一页</a>

那这样的话,我每次岂不是还要对url做检测,将&amp;替换成& ??

 

我不知道其他有什么办法解决这个问题,只能先暂时这样了。

 

你可能感兴趣的:(浏览器,asp)