lxml.etree之tbody坑

学习lxml和xpath

以上资料借鉴而已

lxml.etree之tbody坑_第1张图片

今天写个简单的静态的爬虫爬取IP ip网址

以下我们观察一下网页HTML

lxml.etree之tbody坑_第2张图片
1504363816(1).png
//*[@id="gallery"]/div[2]/div[1]/div[2]/div[2]/table/tbody/tr[1]/td[2]

这是我用浏览器自带工具提取的xpath大家应该发现了其中带有tobody,做过爬虫的大家都知道,一般tobody是浏览器自动产生的,一般情况要去掉,为此我耽误三个小时调试,一直匹配不到数据,后来我打印了request反应的网页源码,里面就是有tobody的


lxml.etree之tbody坑_第3张图片
爬取的截图.png

lxml.etree之tbody坑_第4张图片
尼玛

请别拦着我,我要砍死这个网页的程序猿!!!!(你们怎么不拦我…………)
后来改了一下匹配的格式就爽了

lxml.etree之tbody坑_第5张图片
代码.png

代码的路,坑坑不绝,坑坑不休------------
好了,以上就写这么多了,当作笔记。
对了,最后放个养眼的图片

lxml.etree之tbody坑_第6张图片

你可能感兴趣的:(lxml.etree之tbody坑)