Jsoup获取网页标题

目录

jsoup简介

jsoup相关网站

jsoup解析百度首页


jsoup简介

jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

jsoup简介

Jsoup解析百度首页 https://www.baidu.com/,通过返回网页内容,获取网页标题。

jsoup相关网站

Jsoup官方地址:https://jsoup.org/

Jsoup最新下载:https://jsoup.org/download

Jsoup文档:https://jsoup.org/cookbook/introduction/parsing-a-document

jsoup解析百度首页

我们通过一个实例来通过jsoup解析百度首页,输出title。

使用maven来管理项目:

pom.xml:



    org.apache.httpcomponents
    httpclient
    4.5.6





    org.jsoup
    jsoup
    1.11.3

具体实现:

package com.open1111.Jsoup;

import org.apache.http.HttpEntity;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class Demo01 {

	public static void main(String[] args) throws Exception{

CloseableHttpClient httpClient=HttpClients.createDefault();  //创建HttpClient实例
HttpGet httpGet=new HttpGet("http://www.baidu.com");
CloseableHttpResponse response=httpClient.execute(httpGet);//执行get请求
       HttpEntity entity=response.getEntity();//获取返回实体
      String webContent=EntityUtils.toString(entity, "utf-8");
      System.out.println("网页内容:"+webContent);  //指定编码打印网页内容
      response.close();  //关闭和释放系统资源
     
      Document doc=Jsoup.parse(webContent);
        Elements eles=doc.getElementsByTag("title");
        Element element=eles.get(0);
        System.out.println("标题:"+element.text());
     Element ele=doc.getElementById("ftConw");
     System.out.println("文本:"+ele.text());
	}  
}

结果输出:

网页内容:
 百度一下,你就知道  

关于百度 About Baidu

©2017 Baidu 使用百度前必读  意见反馈 京ICP证030173号 

标题:百度一下,你就知道 文本:关于百度 About Baidu ©2017 Baidu 使用百度前必读  意见反馈 京ICP证030173号 

 

你可能感兴趣的:(#,java爬虫)