爬虫工具htmlunit,selemium,beatifulsoup

阅读更多
   需要爬虫,试用了这三种方法,htmlunit和selemium使用的java语言编写,beatifulsoup使用python。
   beatifulSoup爬取页面代码,并可以根据html代码查找到相应标签,但是查找方式比较僵硬,难度较大,然后查了一下其他基于python的方法,说似乎都没有beatifulsoup好用,
   htmlunit是我用了之后感觉最好的一种方法,getById,Tag,attr的方式可以通过标签独有的一些特征针对性的查到,爬取想要的数据,同时可以修改数据请求头,针对令牌法防爬虫的网站。selemium的特点在于模拟浏览器操作,功能类似按键精灵或者java里的Robot,对于一些反爬虫反的比较凶网站的可以考虑。目前支持google和ie浏览器

   目前还没有深入研究各个爬虫工具的效率以及适用性,提醒一下自己,遇到令牌类型的反爬虫,修改htmlunit请求头,cookie和浏览器型号。 (selemium包太大,传不上来...)网上都有
  • htmlunit.zip (9.9 MB)
  • 下载次数: 0
  • chromedriver_win32.zip (2.7 MB)
  • 下载次数: 0
  • IEDriverServer_x64_2.42.0.zip (910.8 KB)
  • 下载次数: 0

你可能感兴趣的:(java,html)