使用joup解析网页信息

文章目录

      • 一.本质:
      • 二.结构
      • 三.常用的方法
      • 3.1 查找元素
        • (1)通过特定的元素
        • (2)Element siblings:
        • (3)Graph:
      • 3.2 元素数据
      • 3.3 添加操作

一.本质:

使用正则表达式,将html文本信息分割成各个独立的元素,进行解析.(听说+自己理解,未证实)

二.结构

-Node节点 
	-Element元素 含有属性tag :div ,Attribute:id,class
		-Document  文档  含有属性 title,head,body.

三.常用的方法

3.1 查找元素

(1)通过特定的元素

getElementById(String id)
getElementsByTag(String tag)
getElementsByClass(String className)
getElementsByAttribute(String key)

(2)Element siblings:

siblingElements() //不包括自己的兄弟元素
firstElementSibling()
lastElementSibling()
nextElementSibling()
previousElementSibling()

(3)Graph:

parent()
children()
child(int index)

3.2 元素数据

attributes()获取所有属性
attr(String key)获取属性   attr(String key, String value)设置属性
id() 获得id的value
className()  classNames()  属性有很多,而id 和class 是其中一些
text()获取文本内容     text(String value) 设置文本内容
html()获取元素内    HTMLhtml(String value)设置元素内的HTML内容   
 //最小单位的html和text没有区别.不太明白text的意义.在什么情况下是只能用text的吗
outerHtml()获取元素外HTML内容  

data()获取数据内容 (例如:script和style标签)
tag()  tagName()

3.3 添加操作

append(String html), prepend(String html)
appendText(String text), prependText(String text)
appendElement(String tagName), prependElement(String tagName)
html(String value)

参考 LanceToBigData 博客
感谢广大的网友分享.

你可能感兴趣的:(jsoup)