Scrapy框架结合Spynner采集需进行js,ajax动态加载的网页并提取网页信息(以采集微信公众号文章列表为例)
对于网页的采集有这样几种:1.静态网页2.动态网页(需进行js,ajax动态加载数据的网页)3.需进行模拟登录后才能采集的网页4.加密的网页3,4的解决方案和思路会在后续blog中陈述现在只针对1,2的解决方案与思路:一.静态网页对于静态网页的采集解析方法很多很多!java,python都提供了很多的工具包或框架,例如java的httpclient,Htmlunit,Jsoup,HtmlParse