Java爬虫入门篇---Jsoup工具

Java爬虫入门篇---Jsoup工具

  • 前言
  • 准备工作
  • 获取文本数据
  • 获取页面中所有的图片

前言

pythoy的scrapy框架是大名鼎鼎,Jsoup则为Java框架的爬虫

准备工作

1、下载jsoup工具,如果是maven项目,请在pm.xml中加入以下代码:

<dependency> 
	<groupId>org.jsoupgroupId> 
	<artifactId>jsoupartifactId> 
	<version>1.7.3version> 
dependency>

如果不是maven项目可以网上下载jsoup的jar包再导入
jsoup虽然不是一个很强大的爬虫工具,但是它对于网页html文档的各种处理确实是很强大的,同时自身也是个非常好用的爬虫,也许无法去做较大难度的数据的抓取,但我认为它是个非常优良的文档处理助手

2、确定所要抓取的网站地址
用百度搜索java页面为例
https://www.baidu.com/s?ie=utf-8&wd=java
Java爬虫入门篇---Jsoup工具_第1张图片

获取文本数据

public static void main(String[] args) throws IOException, InterruptedException  {
		//准备抓取的目标地址 
		String url = "https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=互联网"; 
		//链接到目标地址 
		Connection connect = Jsoup.connect(url); 
		//设置useragent,设置超时时间,并以get请求方式请求服务器 
		Document document = connect.userAgent("Mozilla/4.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)").timeout(6000).ignoreContentType(true).get(); Thread.sleep(1000); 
		//获取指定标签的数据
		Element elementById = document.getElementById("content_left"); 
		//输出文本数据 
		System.out.println(elementById.text()); 
		//输出html数据 
//		System.out.println(elementById.html()); }
	}

运行结果:

互联网(国际网络) - 百度百科 重播 进入百科 互联网(internet),又称国际网络,指的是网络与网络之间所串连成的庞大网络,这些网络以一组通用的协议相连,形成逻辑上的单一巨大国际网络。互联网始于1969年美国的阿帕网。通常internet泛指互联网,而Internet则特指因特网。这种将计算机网络互相联接在一... 发展历程 网络核心协议 网络相关命名 网络应用模式 更多 > baike.baidu.com/ 互联网吧 - 百度贴吧 加快互联网战略实施,打造中国经济新引擎! 关注用户:7万人 累计发贴:36万 万物互联 国家战略 经济风云 网罗天下 解决方案 自己以前买的一些Java资料,删了可惜,分享给各... 点击:757 回复:11 互联网真是太好了 点击:1099 回复:10 抢走菜贩生意的互联网巨头,让买菜更便宜了吗? 点击:1502 回复:3 查看更多互联网吧的内容 > tieba.baidu.com/ 大学生求职的互联网“围城” _ 东方财富网 1小时前?2020届毕业生还没毕业,2021届的求职大战就已打响。在应届生看来,互联网依然是应届生最好的去处。 拼多多持续被曝出的“加班”导致员工压力过大等事件,令互联网的... finance.eastmoney.com/a/202101...  百度快照 互联网的最新相关信息 3小时前 大学生求职的互联网“围城”:大厂被神化了 但也更吸引人 新浪财经 原标题:大学生求职的互联网“围城” 作者:21Tech 陶力、韦香惠 拼多多持续被曝出的“加班”导致员工压力过大等事件,令互联网的加班文化再次被推到风口浪尖。“狼... 4小时前 互联网创造也“毁灭”了新中产 钛媒体APP 2小时前 新零售:互联网的再进化与逆生长 蓝鲸财经 8小时前 大数据等新技术助推——互联网连接从“人”转向... 环球网 2小时前 工业互联网领域的“网红”城市如何继续领跑? 澎湃新闻 互联网 - 百度图片 农业 创意 食品安全 办公室 科技 医院 矢量 产业园 行业 经济 gif 大学生 更多 > image.baidu.com查看全部1,079,919 张图片 其他人还在搜 下载互联网怎么学互联网怎么赚钱互联网最赚钱的行业互联网基础知识入门安装互联网互联网app下载什么是互联网+?下载互联网浏览器 互联网创造也“毁灭”了新中产_凤凰网 4小时前?所以互联网创造新中产,只要创造中产心态就行了。 清人李渔写过一本书叫做《闲情偶寄》,他说穷人之乐,“无他秘巧,亦止有退一步法。我以为贫,更有贫于我者;... 手机凤凰网  百度快照 互联网发展_中共中央网络安全和信息化委员会办公室 2020年9月12日?高校毕业生就业更是重中之重,在今年这个特殊的毕业季,各地各高校积极采用“互联网就业”新模式,在“云”上为毕业生搭建起通畅就业路。 2020-07-27 ... 中华人民共和国国家互...  百度快照 科技,5G,互联网,区块链,人工智能,创新,数码,手机 - 中国商... 2天前?中国商务网24小时滚动报道IT科技,5G,互联网,区块链,人工智能,创新,数码产品类新闻,最及时权威的产业及事件报道平台,手机、数码、笔记本及软件下载一网打尽。 www.zhopera.com/zhuhai/keji/in...  百度快照 互联网+ - 百度百科 2020年9月2日?“互联网+”代表着一种新的经济形态,它指的是依托互联网信息技术实现互联网与传统产业的联合,以优化生产要素、更新业务体系、重构商业模式等途径来完... 百度百科  百度快照 大数据等新技术助推 互联网链接由“人”转向“物”_腾讯新闻 1天内?当前,我国互联网产业展现出巨大的发展活力和韧性,成为我国应对新挑战、建设新经济的重要力量。专家表示,未来在5G、人工智能、大数据等新技术的助推下,... 腾讯网  百度快照

获取页面中所有的图片

public static void main(String[] args) throws IOException, InterruptedException  {
		//准备抓取的目标地址 
		String url = "https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=互联网"; 
		//链接到目标地址 
		Connection connect = Jsoup.connect(url); 
		//设置useragent,设置超时时间,并以get请求方式请求服务器 
		Document document = connect.userAgent("Mozilla/4.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)").timeout(6000).ignoreContentType(true).get(); 
		Thread.sleep(1000); 
		//获取指定标签的数据 
		Element elementById = document.getElementById("content_left");
		//输出文本数据 //System.out.println(elementById.text()); 
		//输出html数据 //System.out.println(elementById.html()); 
		//获取所有图片链接
		Elements imgtag = document.getElementsByTag("img"); 
		List<String> imgurlList = new ArrayList<String>(); 
		for (int i = 0; i < imgtag.size(); i++) {
			System.out.println(imgtag.get(i).attr("src"));  
		}
	}

运行结果

//www.baidu.com/img/bd_logo1.png
//www.baidu.com/img/flexible/logo/pc/result.png
//www.baidu.com/img/flexible/logo/pc/[email protected]
//www.baidu.com/img/flexible/logo/pc/peak-result.png
https://dss0.bdstatic.com/6Ox1bjeh1BF3odCf/it/u=1940763579,1016187194&fm=218&app=2&f=JPEG?w=121&h=75&s=6497EF3671DB65C81EC191C102005033
https://imgsrc.baidu.com/forum/pic/item/d058ccbf6c81800af6c11126be3533fa828b47f6.jpg
https://cambrian-images.cdn.bcebos.com/90a3cc56048cc77b55e93b3d1ba00c0b_1642383032504386.jpeg@w_100,h_100
https://cambrian-images.cdn.bcebos.com/13ff6d2d1549531d2731d72e028abcd4_1558840042655696.jpeg@w_100,h_100
https://cambrian-images.cdn.bcebos.com/522b84f9d6ac9c473923eb1f04c392f4_1551592787799016.jpeg@w_100,h_100
https://cambrian-images.cdn.bcebos.com/4abbff0a59588ce5f14a4b6923ee62e6_1549608413453462.jpeg@w_100,h_100
https://dss1.bdstatic.com/70cFvXSh_Q1YnxGkpoWK1HF6hhy/it/u=287242248,1346213815&fm=11&gp=0.jpg
https://dss3.bdstatic.com/70cFv8Sh_Q1YnxGkpoWK1HF6hhy/it/u=2866530339,2904833614&fm=11&gp=0.jpg
https://dss0.bdstatic.com/70cFvHSh_Q1YnxGkpoWK1HF6hhy/it/u=2919690994,293865746&fm=26&gp=0.jpg
https://dss3.bdstatic.com/70cFv8Sh_Q1YnxGkpoWK1HF6hhy/it/u=3698759697,653356882&fm=26&gp=0.jpg
https://dss0.bdstatic.com/6Ox1bjeh1BF3odCf/it/u=1222914816,4036669550&fm=218&app=2&f=JPEG?w=121&h=75&s=2542BB429B140853EEF4E51F0100C0C3
https://cambrian-images.cdn.bcebos.com/a8e0f1d50bdbb152d681a49f43a85a28_1530519716895.jpeg
https://dss1.bdstatic.com/6OF1bjeh1BF3odCf/it/u=259472655,642349897&fm=218&app=92&f=JPEG?w=121&h=75&s=E1167194018E8F5314D3738D0300308B
https://cambrian-images.cdn.bcebos.com/65866b7fef76e691a12e8e81e1486a6a_1533281924370.jpeg

你可能感兴趣的:(java)