从网站上动态抓取内容的大概思路

大致抓取分为两类
一、网站源码中包含目标的内容
解决办法:
1.直接通过代码通过URL,模拟浏览器请求服务器
2.用Jsoup去解析服务器返回的文件
3.获得目标信息
二、目标内容包含在JavaScript请求的返回结果中
解决办法
1.通过使用HTTP Analyzer可以截获JS返回的数据,并在Response Content中显示,同时可以看到JS请求的网页地址(我们需要用代码模拟请求的真正URL)。
2.通过代码模拟浏览器请求服务器的动作
3.之后操作与第一种问题解决方法相同
具体代码操作详细见:
http://blog.csdn.net/zgyulongfei/article/details/7909006
感谢这位博主的分享

你可能感兴趣的:(爬虫)