BeautifulSoup不能正确解析或找不到特定标签的解决方案

近期在使用BeautifulSoup对网页进行解析,想要获取网页的数据,如下代码:

soup = BeautifulSoup( resp.text, 'lxml' )

结果发现根据特定的id找不到对应那个标签,还出现找到了标签,但是标签结构破坏的情况,比如下面这个例子:
BeautifulSoup不能正确解析或找不到特定标签的解决方案_第1张图片
这是网页内容,我要循环每个tr标签,得到th里的文本,关键代码如下:
在这里插入图片描述
最终输入出的结果为:
BeautifulSoup不能正确解析或找不到特定标签的解决方案_第2张图片
可以看到前面输出的内容都没有错,而到“张自忠路”这里,竟然把标签也打印出来了,不难发现,因为这里的标签缺失了“<”,所以没有找到th的截止标签,而让BeautifulSoup认为这一整块都是th标签里的内容。为什么会出现这样的情况呢?
在网上查了一下资料,可能是因为我使用的解析器为“lxml”,需要解析的文档太大,解析器的缓存不够而导致了数据的丢失。
所以二话不说,把解析器换成“html.parser”,如下代码:

soup = BeautifulSoup( resp.text, 'html.parser' )

问题解决!

另外还在网上找到一些BeautifulSoup常见的解析器:
BeautifulSoup不能正确解析或找不到特定标签的解决方案_第3张图片

你可能感兴趣的:(python,爬虫)