Java爬虫Crawler

http://blog.csdn.net/pipisorry/article/details/42913569

Eclipse添加jar包到库中

缺少某个库,找到之后,需要将该库,jar包,加入到当前项目,使得代码中的import xxx得以正常导入。

通过 Add External Achieves…的方式导入的。

具体操作起来两种方式:

(1)最快捷的是:

右键项目->Build Path -> Add External Achieves

然后选择,单个或多个的,对应的库(jar包)

 

(2)稍微麻烦的一种是:

右击项目->Properties ->Java Build Path -> Libraries -> Add External JARs

然后同样的,选择对应的,单个或多个的jar包,然后确定,即可加入进来.


Java中用jsoup进行爬虫方法

【使用JSOUP实现网络爬虫】从一个URL加载一个Document

Note:

1. toString()  

jsoup中 Element.getElementsByTag("***").toString()返回字符串中原来的 ' 都自动替换成了"

  市委副书记、市长:刘忻中的class中的字符串 会变成 class="f14black"

src="/ 会自动转变为 src="./

3.elementId.getElementsByTag("img")中的img不区分大小写



jsoup网络爬虫中文乱码

http://www.laibin.gov.cn/LBFront/zwgk/20150113/003001005_4a9f2617-0da0-4829-8af4-8ad88bd13232.htm

这个网站为什么爬虫时总是爬的乱码嘛?
Document doc = Jsoup.connect(resumeLink).timeout(30000).get();
System.err.println(doc.html());

【网络爬虫的乱码处理】

处理URLs

你有一个包含相对URLs路径的HTML文档,需要将这些相对路径转换成绝对路径的URLs。

Jsoup抓取网页信息】

jsoup select 选择器】



from:http://blog.csdn.net/pipisorry/article/details/42913569

ref:http://www.crifan.com/tutorial_eclipse_add_external_jar_library/

Jsoup抓取网页信息

jsoup 使用详解


你可能感兴趣的:(Java)