爬虫技术-基于java

1、httpclient/jsoup

httpclient:用来处理请求(http/s),请求到的html数据,然后使用jsoup解析

特点:结构不复杂,适合用来处理纯静态的网站

2、phantomjs/jsoup 

phantomjs :基于webkit内核的无头浏览器(http://phantomjs.org/)

特点:可以处理动态网站(使用javascript渲染),可以跨平台(windows/linux均有实现),还可以做web自动化测试工具。

3、htmlunit

https://my.oschina.net/apdplat/blog/217586?p=1

java版本的web浏览器,可以解析运行js

转载于:https://my.oschina.net/u/2345654/blog/1491692

你可能感兴趣的:(爬虫技术-基于java)