殊途同归的网页解析

1,平时常用的网页解析是beautifulsoup

这个里面能用findall()方法 找到我们想要的东西

或者用标签匹配

2,用urllib.request.open

然后read()得到网页源码

把源码decode以后(重新编码) 一般为GBK或者是utf-8

然后 str(重新编码以后的源码)

这么干了以后就能得到网页上平时复制出来的正常的人看得懂的东西 里面有标签

再用正则匹配抓出我们想要的东西就好了

ps:你转换为str以后只能用正则了  标签啥的都读不出来 

想用标签那些属性来抓 就在源码重新编码的那个地方抓出来就好了

你可能感兴趣的:(殊途同归的网页解析)