对于爬取 ajax 数据中获取的不合规定的 html 代码

今天爬取数据碰到爬取 ajax 数据
1.对于 ajax URL 的获取,可以通过火狐浏览器 按 F12 调试模式  中  控制台 查看

2.对于获取的数据 的格式

<div></div>
<table></table>
<div></div>

这种格式不能获取最后一个 div 中的内容,主要原因是<table> 中的内容阻断了 perl 模块的解析

3.解决方法
在获取的页面的首位 添加 <html></html>

但是直接添加就会有  解析的问题 


你可能感兴趣的:(对于爬取 ajax 数据中获取的不合规定的 html 代码)