使用JSoup进行新浪微博抓取(不用新浪的API)

本文来自:fair-jm.iteye.com 转截请注明出处

额 就是想做个简单的实验的 内容不对的地方欢迎拍砖...

 

使用JSOUP就行 这里给出点思路

我只做了自己的首页和其他人的微博首页的抓取 其他的抓取没尝试(不好意思 比较懒...) 

 

首先是利用JSOUP进行登陆 获取页面 看了下微博的登陆表格 发现用了ajax的方式 所以代码获取cookie有点难

所以偷了个懒就用IE的开发者工具获取到了cookie 获取到的cookie要写成map的形式 然后用代码:

Response res=Jsoup.connect("http://weibo.com").cookies(map).method(Method.POST).execute();
String s=res.body();

 得到了下发现挺多的:


使用JSoup进行新浪微博抓取(不用新浪的API)_第1张图片
 可以自己写段脚本来打印map.put(xxx,xxx)

我这里用scala写了段 用java写一样的 无所谓:

s.split("; ").foreach(s => {val x=s.split("=");println(s"""map.put("${x(0)}","${x(1)}");""")});

 最后得到的body 嗯......是一大堆的script标签 最上面是微博的固定的顶上那一栏的内容(导航条的内容)

lz尝试了下 发现需要的是

你可能感兴趣的:(java菜鸟笔记)