Java简单爬取网页内容(1)

前期工作
1.初识jsoup
这个是别人的博客 我觉得挺好的

Java版本:任意(我相信没人用很老的版本吧(滑稽脸)),博猪用的是2016javaee 不是ee的也行
文件:jsoup.jar
步骤1:导入jar文件
Java简单爬取网页内容(1)_第1张图片
在项目下建立一个lib文件,将jar文件移动到该文件目录下
出现一个提示框
Java简单爬取网页内容(1)_第2张图片
点击oK,现在只是复制进去还没导入。
Java简单爬取网页内容(1)_第3张图片
右键如图
Java简单爬取网页内容(1)_第4张图片
点击Libraries →Add JARs…选择jar的文件 导入搞定 然后就行了。

步骤2:查看想要爬取的网页代码
示例:

Java简单爬取网页内容(1)_第5张图片
F12就可以查看

开始写代码!

package Demo1;

import java.io.IOException;

import org.jsoup.*;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

public class Demo1 {
	
	public  Document getDocument(String url){
		try {
			return Jsoup.connect(url).get();
			
			
		} catch (IOException e) {
			e.printStackTrace();
			
		}
		return null;
	} 

	public static void main(String[] args) {
	
     	Demo1 t=new Demo1();//实例化
		Document doc=t.getDocument("https://s.weibo.com/top/summary?cate=realtimehot");//双引号里面填写网址
	    Elements elements1=doc.select("tbody"); //双引号里面填写母标签
	    Elements elements2=elements1.select("tr");//双银号填写子标签,大家可以多尝试
	    
	 for(int i=0;i<51;i++){
		String A  =elements2.get(i).text();
	    System.out.println(A);
	}//拿稳微博热搜示例 犹豫每一行文字都是在tr里面 所以便循环输出一键搞定
	//这个for循环的意思是选取 tbody标签下的所有tr标签从0开始循环输出 犹豫微博热搜最多50个所以只循环50次
  }
}

最终效果图:
Java简单爬取网页内容(1)_第6张图片

小总结:有时候你可能只是想要其中的那段文字
但是那段文字在标签的标签里面 jsoup的用法其实挺多的 我这样用其实也方便
更多的用法自行百度

结束-------------------------------

你可能感兴趣的:(Java爬虫)