Jsoup解析Html中文文档

jsoup 简介
Java 程序在解析 HTML 文档时，相信大家都接触过 htmlparser 这个开源项目，我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章，分别是：从 HTML 中攫取你所需的信息和扩展 HTMLParser 对自定义标签的处理能力。但现在我已经不再使用 htmlparser 了，原因是 htmlparser 很少更新，但最重要的是有了 jsoup 。
jsoup 是一款 Java 的 HTML 解析器，可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API，可通过 DOM，CSS 以及类似于 jQuery 的操作方法来取出和操作数据。
jsoup 的主要功能如下：
1. 从一个 URL，文件或字符串中解析 HTML；
2. 使用 DOM 或 CSS 选择器来查找、取出数据；
3. 可操作 HTML 元素、属性、文本；

官网地址：http://www.open-open.com/jsoup/

jsoup Cookbook(中文版)
入门
1.解析和遍历一个html文档
输入
2.解析一个html字符串
3.解析一个body片断
4.根据一个url加载Document对象
5.根据一个文件加载Document对象
数据抽取
6.使用dom方法来遍历一个Document对象
7.使用选择器语法来查找元素
8.从元素集合抽取属性、文本和html内容
9.URL处理
10.程序示例：获取所有链接
数据修改
11.设置属性值
12.设置元素的html内容
13.设置元素的文本内容
html清理
14.消除不受信任的html (来防止xss攻击)

1.解析和遍历一个HTML文档
如何解析一个HTML文档：

 
               String html =  
               "First parse" 
              
               +  
               "Parsed HTML into a doc.
" 
               ; 
              
               Document doc = Jsoup.parse(html);

　　(更详细内容可查看解析一个HTML字符串.)

其解析器能够尽最大可能从你提供的HTML文档来创见一个干净的解析结果，无论HTML的格式是否完整。比如它可以处理：

没有关闭的标签 (比如：

Lorem

Ipsum parses to

Lorem

Ipsum

)
隐式标签 (比如. 它可以自动将 Table data包装成包装成

?)
创建可靠的文档结构（html标签包含head 和 body，在head只出现恰当的元素）
一个文档的对象模型
文档由多个Elements和TextNodes组成 (以及其它辅助nodes：详细可查看：nodes package tree).
其继承结构如下：Document继承Element继承Node. TextNode继承 Node.
一个Element包含一个子节点集合，并拥有一个父Element。他们还提供了一个唯一的子元素过滤列表。
参见
数据抽取：DOM遍历
数据抽取：Selector syntax

2.解析一个HTML字符串
存在问题
来自用户输入，一个文件或一个网站的HTML字符串，你可能需要对它进行解析并取其内容，或校验其格式是否完整，或想修改它。怎么办？jsonu能够帮你轻松解决这些问题

解决方法
使用静态Jsoup.parse(String html) 方法或 Jsoup.parse(String html, String baseUri)示例代码：

 
               String html =  
               "First parse" 
              
               +  
               "Parsed HTML into a doc.
" 
               ; 
              
               Document doc = Jsoup.parse(html);

　　描述

parse(String html, String baseUri) 这方法能够将输入的HTML解析为一个新的文档 (Document），参数 baseUri 是用来将相对 URL 转成绝对URL，并指定从哪个网站获取文档。如这个方法不适用，你可以使用 parse(String html) 方法来解析成HTML字符串如上面的示例。.

只要解析的不是空字符串，就能返回一个结构合理的文档，其中包含(至少) 一个head和一个body元素。

一旦拥有了一个Document，你就可以使用Document中适当的方法或它父类 Element和Node中的方法来取得相关数据。

3.解析一个body片断

问题
假如你有一个HTML片断 (比如. 一个 div 包含一对 p 标签; 一个不完整的HTML文档) 想对它进行解析。这个HTML片断可以是用户提交的一条评论或在一个CMS页面中编辑body部分。

办法
使用Jsoup.parseBodyFragment(String html)方法.

String html = "

Lorem ipsum.
"

;

Document doc = Jsoup.parseBodyFragment(html);

Element body = doc.body();

　　说明

parseBodyFragment 方法创建一个空壳的文档，并插入解析过的HTML到body元素中。假如你使用正常的 Jsoup.parse(String html) 方法，通常你也可以得到相同的结果，但是明确将用户输入作为 body片段处理，以确保用户所提供的任何糟糕的HTML都将被解析成body元素。

Document.body() 方法能够取得文档body元素的所有子元素，与 doc.getElementsByTag("body")相同。

保证安全Stay safe
假如你可以让用户输入HTML内容，那么要小心避免跨站脚本攻击。利用基于 Whitelist 的清除器和 clean(String bodyHtml, Whitelist whitelist)方法来清除用户输入的恶意内容。

4.从一个URL加载一个Document

存在问题

你需要从一个网站获取和解析一个HTML文档，并查找其中的相关数据。你可以使用下面解决方法：

解决方法

使用 Jsoup.connect(String url)方法:

 
          ? 
         
               Document doc = Jsoup.connect( 
               "http://example.com/" 
               ).get(); 
              
               String title = doc.title();

　　说明

connect(String url) 方法创建一个新的 Connection, 和 get() 取得和解析一个HTML文件。如果从该URL获取HTML时发生错误，便会抛出 IOException，应适当处理。

Connection 接口还提供一个方法链来解决特殊请求，具体如下：

 
          ? 
         
               Document doc = Jsoup.connect( 
               "http://example.com" 
               ) 
              
               .data( 
               "query" 
               ,  
               "Java" 
               ) 
              
               .userAgent( 
               "Mozilla" 
               ) 
              
               .cookie( 
               "auth" 
               ,  
               "token" 
               ) 
              
               .timeout( 
               3000 
               ) 
              
               .post();

　　这个方法只支持Web URLs (http和https 协议); 假如你需要从一个文件加载，可以使用 parse(File in, String charsetName) 代替。

5.从一个文件加载一个文档

问题

在本机硬盘上有一个HTML文件，需要对它进行解析从中抽取数据或进行修改。

办法

可以使用静态 Jsoup.parse(File in, String charsetName, String baseUri) 方法：

 
          ? 
         
               File input =  
               new 
               File( 
               "/tmp/input.html" 
               ); 
              
               Document doc = Jsoup.parse(input,  
               "UTF-8" 
               ,  
               "http://example.com/" 
               );

　　说明

parse(File in, String charsetName, String baseUri) 这个方法用来加载和解析一个HTML文件。如在加载文件的时候发生错误，将抛出IOException，应作适当处理。

baseUri 参数用于解决文件中URLs是相对路径的问题。如果不需要可以传入一个空的字符串。

另外还有一个方法parse(File in, String charsetName) ，它使用文件的路径做为 baseUri。这个方法适用于如果被解析文件位于网站的本地文件系统，且相关链接也指向该文件系统。

6.使用DOM方法来遍历一个文档

问题

你有一个HTML文档要从中提取数据，并了解这个HTML文档的结构。

方法

将HTML解析成一个Document之后，就可以使用类似于DOM的方法进行操作。示例代码：

 
          ? 
         
               File input =  
               new 
               File( 
               "/tmp/input.html" 
               ); 
              
               Document doc = Jsoup.parse(input,  
               "UTF-8" 
               ,  
               "http://example.com/" 
               ); 
              
               Element content = doc.getElementById( 
               "content" 
               ); 
              
               Elements links = content.getElementsByTag( 
               "a" 
               ); 
              
               for 
               (Element link : links) { 
              
               String linkHref = link.attr( 
               "href" 
               ); 
              
               String linkText = link.text(); 
              
               }

　　说明

Elements这个对象提供了一系列类似于DOM的方法来查找元素，抽取并处理其中的数据。具体如下：

查找元素

getElementById(String id)
getElementsByTag(String tag)
getElementsByClass(String className)
getElementsByAttribute(String key) (and related methods)
Element siblings: siblingElements(), firstElementSibling(), lastElementSibling();nextElementSibling(), previousElementSibling()
Graph: parent(), children(), child(int index)

元素数据

attr(String key)获取属性attr(String key, String value)设置属性
attributes()获取所有属性
id(), className() and classNames()
text()获取文本内容text(String value) 设置文本内容
html()获取元素内HTMLhtml(String value)设置元素内的HTML内容
outerHtml()获取元素外HTML内容
data()获取数据内容（例如：script和style标签)
tag() and tagName()

操作HTML和文本

append(String html), prepend(String html)
appendText(String text), prependText(String text)
appendElement(String tagName), prependElement(String tagName)
html(String value)

7.使用选择器语法来查找元素

问题

你想使用类似于CSS或jQuery的语法来查找和操作元素。

方法

可以使用Element.select(String selector) 和 Elements.select(String selector) 方法实现：

 
          ? 
         
               File input =  
               new 
               File( 
               "/tmp/input.html" 
               ); 
              
               Document doc = Jsoup.parse(input,  
               "UTF-8" 
               ,  
               "http://example.com/" 
               ); 
              
               Elements links = doc.select( 
               "a[href]" 
               );  
               //带有href属性的a元素 
              
               Elements pngs = doc.select( 
               "img[src$=.png]" 
               ); 
              
               //扩展名为.png的图片 
              
               Element masthead = doc.select( 
               "div.masthead" 
               ).first(); 
              
               //class等于masthead的div标签 
              
               Elements resultLinks = doc.select( 
               "h3.r > a" 
               );  
               //在h3元素之后的a元素

　说明

jsoup elements对象支持类似于CSS (或jquery)的选择器语法，来实现非常强大和灵活的查找功能。.

这个select 方法在Document, Element,或Elements对象中都可以使用。且是上下文相关的，因此可实现指定元素的过滤，或者链式选择访问。

Select方法将返回一个Elements集合，并提供一组方法来抽取和处理结果。

Selector选择器概述

tagname: 通过标签查找元素，比如：a
ns|tag: 通过标签在命名空间查找元素，比如：可以用 fb|name 语法来查找元素
#id: 通过ID查找元素，比如：#logo
.class: 通过class名称查找元素，比如：.masthead
[attribute]: 利用属性查找元素，比如：[href]
[^attr]: 利用属性名前缀来查找元素，比如：可以用[^data-] 来查找带有HTML5 Dataset属性的元素
[attr=value]: 利用属性值来查找元素，比如：[width=500]
[attr^=value], [attr$=value], [attr*=value]: 利用匹配属性值开头、结尾或包含属性值来查找元素，比如：[href*=/path/]
[attr~=regex]: 利用属性值匹配正则表达式来查找元素，比如： img[src~=(?i)\.(png|jpe?g)]
*: 这个符号将匹配所有元素

Selector选择器组合使用

el#id: 元素+ID，比如： div#logo
el.class: 元素+class，比如： div.masthead
el[attr]: 元素+class，比如： a[href]
任意组合，比如：a[href].highlight
ancestor child: 查找某个元素下子元素，比如：可以用.body p 查找在"body"元素下的所有 p元素
parent > child: 查找某个父元素下的直接子元素，比如：可以用div.content > p 查找 p 元素，也可以用body > * 查找body标签下所有直接子元素
siblingA + siblingB: 查找在A元素之前第一个同级元素B，比如：div.head + div
siblingA ~ siblingX: 查找A元素之前的同级X元素，比如：h1 ~ p
el, el, el:多个选择器组合，查找匹配任一选择器的唯一元素，例如：div.masthead, div.logo

伪选择器selectors

:lt(n): 查找哪些元素的同级索引值（它的位置在DOM树中是相对于它的父节点）小于n，比如：td:lt(3) 表示小于三列的元素
:gt(n):查找哪些元素的同级索引值大于n，比如： div p:gt(2)表示哪些div中有包含2个以上的p元素
:eq(n): 查找哪些元素的同级索引值与n相等，比如：form input:eq(1)表示包含一个input标签的Form元素
:has(seletor): 查找匹配选择器包含元素的元素，比如：div:has(p)表示哪些div包含了p元素
:not(selector): 查找与选择器不匹配的元素，比如： div:not(.logo) 表示不包含 class="logo" 元素的所有 div 列表
:contains(text): 查找包含给定文本的元素，搜索不区分大不写，比如： p:contains(jsoup)
:containsOwn(text): 查找直接包含给定文本的元素
:matches(regex): 查找哪些元素的文本匹配指定的正则表达式，比如：div:matches((?i)login)
:matchesOwn(regex): 查找自身包含文本匹配指定正则表达式的元素
注意：上述伪选择器索引是从0开始的，也就是说第一个元素索引值为0，第二个元素index为1等

可以查看Selector API参考来了解更详细的内容

8.从元素抽取属性，文本和HTML

问题

在解析获得一个Document实例对象，并查找到一些元素之后，你希望取得在这些元素中的数据。

方法

要取得一个属性的值，可以使用Node.attr(String key) 方法
对于一个元素中的文本，可以使用Element.text()方法
对于要取得元素或属性中的HTML内容，可以使用Element.html(), 或 Node.outerHtml()方法

示例：

 
               String html =  
               "An example link.
" 
               ; 
              
               Document doc = Jsoup.parse(html); 
               //解析HTML字符串返回一个Document实现 
              
               Element link = doc.select( 
               "a" 
               ).first(); 
               //查找第一个a元素 
              
               String text = doc.body().text();  
               // "An example link"//取得字符串中的文本 
              
               String linkHref = link.attr( 
               "href" 
               );  
               // "http://example.com/"//取得链接地址 
              
               String linkText = link.text();  
               // "example""//取得链接地址中的文本 
              
               String linkOuterH = link.outerHtml();  
              
               // "example" 
              
               String linkInnerH = link.html();  
               // "example"//取得链接内的html内容

　　说明

上述方法是元素数据访问的核心办法。此外还其它一些方法可以使用：

Element.id()
Element.tagName()
Element.className() and Element.hasClass(String className)

这些访问器方法都有相应的setter方法来更改数据.

参见

Element和Elements集合类的参考文档
URLs处理
使用CSS选择器语法来查找元素

9.处理URLs

问题

你有一个包含相对URLs路径的HTML文档，需要将这些相对路径转换成绝对路径的URLs。

方法

在你解析文档时确保有指定base URI，然后

使用 abs: 属性前缀来取得包含base URI的绝对路径。代码如下：

 
            ? 
           
                 Document doc = Jsoup.connect( 
                 "http://www.open-open.com" 
                 ).get(); 
                
                 Element link = doc.select( 
                 "a" 
                 ).first(); 
                
                 String relHref = link.attr( 
                 "href" 
                 );  
                 // == "/" 
                
                 String absHref = link.attr( 
                 "abs:href" 
                 );  
                 // "http://www.open-open.com/"

　　说明

在HTML元素中，URLs经常写成相对于文档位置的相对路径： .... 当你使用 Node.attr(String key) 方法来取得a元素的href属性时，它将直接返回在HTML源码中指定定的值。

假如你需要取得一个绝对路径，需要在属性名前加 abs: 前缀。这样就可以返回包含根路径的URL地址attr("abs:href")

因此，在解析HTML文档时，定义base URI非常重要。

如果你不想使用abs: 前缀，还有一个方法能够实现同样的功能 Node.absUrl(String key)。

10.示例程序: 获取所有链接

这个示例程序将展示如何从一个URL获得一个页面。然后提取页面中的所有链接、图片和其它辅助内容。并检查URLs和文本信息。

运行下面程序需要指定一个URLs作为参数

 
          ? 
         
               import 
               org.jsoup.Jsoup; 
              
               import 
               org.jsoup.helper.Validate; 
              
               import 
               org.jsoup.nodes.Document; 
              
               import 
               org.jsoup.nodes.Element; 
              
               import 
               org.jsoup.select.Elements; 
              
               import 
               java.io.IOException; 
              
               /** 
              
               * Example program to list links from a URL. 
              
               */ 
              
               public 
               class 
               ListLinks { 
              
               public 
               static 
               void 
               main(String[] args)  
               throws 
               IOException { 
              
               // Validate.isTrue(args.length == 1, "usage: supply url to fetch"); 
              
               String url =  
               "http://news.ycombinator.com/" 
               ; 
              
               print( 
               "Fetching %s..." 
               , url); 
              
               Document doc = Jsoup.connect(url).get(); 
              
               Elements links = doc.select( 
               "a[href]" 
               );  
               //"a[href]" //带有href属性的a元素 
              
               Elements media = doc.select( 
               "[src]" 
               );    
               //利用属性查找元素，比如：[href] 
              
               Elements imports = doc.select( 
               "link[href]" 
               ); 
              
               print( 
               "\nMedia: (%d)" 
               , media.size()); 
              
               for 
               (Element src : media) { 
              
               if 
               (src.tagName().equals( 
               "img" 
               )) 
              
               print( 
               " * %s: <%s> %sx%s (%s)" 
               , 
              
               src.tagName(), src.attr( 
               "abs:src" 
               ), src.attr( 
               "width" 
               ), src.attr( 
               "height" 
               ), 
              
               trim(src.attr( 
               "alt" 
               ),  
               20 
               )); 
               //src.attr("src")结果: 18x18 ()   
              
               //src.attr("abs:src")结果: 18x18 () 
              
               else 
              
               print( 
               " * %s: <%s>" 
               , src.tagName(), src.attr( 
               "abs:src" 
               )); 
              
               } 
              
               print( 
               "\nImports: (%d)" 
               , imports.size()); 
              
               for 
               (Element link : imports) { 
              
               print( 
               " * %s <%s> (%s)" 
               , link.tagName(),link.attr( 
               "abs:href" 
               ), link.attr( 
               "rel" 
               )); 
              
               } 
              
               print( 
               "\nLinks: (%d)" 
               , links.size()); 
              
               for 
               (Element link : links) { 
              
               print( 
               " * a: <%s>  (%s)" 
               , link.attr( 
               "abs:href" 
               ), trim(link.text(),  
               35 
               )); 
              
               } 
              
               } 
              
               private 
               static 
               void 
               print(String msg, Object... args) { 
              
               System.out.println(String.format(msg, args)); 
              
               } 
              
               private 
               static 
               String trim(String s,  
               int 
               width) { 
              
               if 
               (s.length() > width) 
              
               return 
               s.substring( 
               0 
               , width- 
               1 
               ) +  
               "." 
               ; 
              
               else 
              
               return 
               s; 
              
               } 
              
               } 
              
               //org/jsoup/examples/ListLinks.java

　　示例输入结果：

 
          ? 
         
               Fetching http: 
               //news.ycombinator.com/... 
              
               Media: ( 
               38 
               ) 
              
               * img:  
               //ycombinator.com/images/y18.gif> 18x18 () 
              
               * img:  
               //ycombinator.com/images/s.gif> 10x1 () 
              
               * img:  
               //ycombinator.com/images/grayarrow.gif> x () 
              
               * img:  
               //ycombinator.com/images/s.gif> 0x10 () 
              
               * script:  
               //www.co2stats.com/propres.php?s=1138> 
              
               * img:  
               //ycombinator.com/images/s.gif> 15x1 () 
              
               * img:  
               //ycombinator.com/images/hnsearch.png> x () 
              
               * img:  
               //ycombinator.com/images/s.gif> 25x1 () 
              
               * img:  
               //mixpanel.com/site_media/images/mixpanel_partner_logo_borderless.gif> x (Analytics by Mixpan.) 
              
               Imports: ( 
               2 
               ) 
              
               * link  
               //ycombinator.com/news.css> (stylesheet) 
              
               * link  
               //ycombinator.com/favicon.ico> (shortcut icon) 
              
               Links: ( 
               141 
               ) 
              
               * a:  
               //ycombinator.com>  () 
              
               * a:  
               //news.ycombinator.com/news>  (Hacker News) 
              
               * a:  
               //news.ycombinator.com/newest>  (new) 
              
               * a:  
               //news.ycombinator.com/newcomments>  (comments) 
              
               * a:  
               //news.ycombinator.com/leaders>  (leaders) 
              
               * a:  
               //news.ycombinator.com/jobs>  (jobs) 
              
               * a:  
               //news.ycombinator.com/submit>  (submit) 
              
               * a:  
               //news.ycombinator.com/x?fnid=JKhQjfU7gW>  (login) 
              
               * a:  
               //news.ycombinator.com/vote?for=1094578&dir=up&whence=%6e%65%77%73>  () 
              
               * a:  
               //www.readwriteweb.com/archives/facebook_gets_faster_debuts_homegrown_php_compiler.php?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+readwriteweb+%28ReadWriteWeb%29&utm_content=Twitter>  (Facebook speeds up PHP) 
              
               * a:  
               //news.ycombinator.com/user?id=mcxx>  (mcxx) 
              
               * a:  
               //news.ycombinator.com/item?id=1094578>  (9 comments) 
              
               * a:  
               //news.ycombinator.com/vote?for=1094649&dir=up&whence=%6e%65%77%73>  () 
              
               * a:  
               //groups.google.com/group/django-developers/msg/a65fbbc8effcd914>  ("Tough. Django produces XHTML.") 
              
               * a:  
               //news.ycombinator.com/user?id=andybak>  (andybak) 
              
               * a:  
               //news.ycombinator.com/item?id=1094649>  (3 comments) 
              
               * a:  
               //news.ycombinator.com/vote?for=1093927&dir=up&whence=%6e%65%77%73>  () 
              
               * a:  
               //news.ycombinator.com/x?fnid=p2sdPLE7Ce>  (More) 
              
               * a:  
               //news.ycombinator.com/lists>  (Lists) 
              
               * a:  
               //news.ycombinator.com/rss>  (RSS) 
              
               * a:  
               //ycombinator.com/bookmarklet.html>  (Bookmarklet) 
              
               * a:  
               //ycombinator.com/newsguidelines.html>  (Guidelines) 
              
               * a:  
               //ycombinator.com/newsfaq.html>  (FAQ) 
              
               * a:  
               //ycombinator.com/newsnews.html>  (News News) 
              
               * a:  
               //news.ycombinator.com/item?id=363>  (Feature Requests) 
              
               * a:  
               //ycombinator.com>  (Y Combinator) 
              
               * a:  
               //ycombinator.com/w2010.html>  (Apply) 
              
               * a:  
               //ycombinator.com/lib.html>  (Library) 
              
               * a:  
               //www.webmynd.com/html/hackernews.html>  () 
              
               * a:  
               //mixpanel.com/?from=yc>  ()

11.设置属性的值

问题

在你解析一个Document之后可能想修改其中的某些属性值，然后再保存到磁盘或都输出到前台页面。

方法

可以使用属性设置方法 Element.attr(String key, String value), 和 Elements.attr(String key, String value).

假如你需要修改一个元素的 class 属性，可以使用 Element.addClass(String className) 和Element.removeClass(String className) 方法。

Elements 提供了批量操作元素属性和class的方法，比如：要为div中的每一个a元素都添加一个rel="nofollow" 可以使用如下方法：

 
          ? 
         
               doc.select( 
               "div.comments a" 
               ).attr( 
               "rel" 
               ,  
               "nofollow" 
               );

　　说明

与Element中的其它方法一样，attr 方法也是返回当 Element (或在使用选择器是返回 Elements 集合)。这样能够很方便使用方法连用的书写方式。比如：

 
          ? 
         
               doc.select( 
               "div.masthead" 
               ).attr( 
               "title" 
               ,  
               "jsoup" 
               ).addClass( 
               "round-box" 
               );

12.设置一个元素的HTML内容

问题

你需要一个元素中的HTML内容

方法

可以使用Element中的HTML设置方法具体如下：

 
               Element div = doc.select( 
               "div" 
               ).first();  
               // 
 
               div.html( 
               "lorem ipsum
" 
               );  
               // lorem ipsum
 
               div.prepend( 
               "First
" 
               ); 
               //在div前添加html内容 
              
               div.append( 
               "Last
" 
               ); 
               //在div之后添加html内容 
              
               // 添完后的结果: First
lorem ipsum
Last
 
               Element span = doc.select( 
               "span" 
               ).first();  
               // One 
              
               span.wrap( 
               "
" 
               ); 
              
               // 添完后的结果: One

　　说明

Element.html(String html) 这个方法将先清除元素中的HTML内容，然后用传入的HTML代替。
Element.prepend(String first) 和 Element.append(String last) 方法用于在分别在元素内部HTML的前面和后面添加HTML内容
Element.wrap(String around) 对元素包裹一个外部HTML内容。

参见

可以查看API参考文档中 Element.prependElement(String tag)和Element.appendElement(String tag) 方法来创建新的元素并作为文档的子元素插入其中。

13.设置元素的文本内容

问题

你需要修改一个HTML文档中的文本内容

方法

可以使用Element的设置方法：:

 
          ? 
         
               Element div = doc.select( 
               "div" 
               ).first();  
               // 
 
               div.text( 
               "five > four" 
               );  
               // five > four
 
               div.prepend( 
               "First " 
               ); 
              
               div.append( 
               " Last" 
               ); 
              
               // now: First five > four Last

　　说明

文本设置方法与 HTML setter 方法一样：

Element.text(String text) 将清除一个元素中的内部HTML内容，然后提供的文本进行代替
Element.prepend(String first) 和 Element.append(String last) 将分别在元素的内部html前后添加文本节点。

对于传入的文本如果含有像 <, > 等这样的字符，将以文本处理，而非HTML。

14.消除不受信任的HTML (来防止XSS攻击)

问题

在做网站的时候，经常会提供用户评论的功能。有些不怀好意的用户，会搞一些脚本到评论内容中，而这些脚本可能会破坏整个页面的行为，更严重的是获取一些机要信息，此时需要清理该HTML，以避免跨站脚本cross-site scripting攻击（XSS）。

方法

使用jsoup HTML Cleaner 方法进行清除，但需要指定一个可配置的 Whitelist。

 
               String unsafe =  
              
               "Link
" 
               ; 
              
               String safe = Jsoup.clean(unsafe, Whitelist.basic()); 
              
               // now: Link

　　说明

XSS又叫CSS (Cross Site Script) ，跨站脚本攻击。它指的是恶意攻击者往Web页面里插入恶意html代码，当用户浏览该页之时，嵌入其中Web里面的html代码会被执行，从而达到恶意攻击用户的特殊目的。XSS属于被动式的攻击，因为其被动且不好利用，所以许多人常忽略其危害性。所以我们经常只让用户输入纯文本的内容，但这样用户体验就比较差了。

一个更好的解决方法就是使用一个富文本编辑器WYSIWYG如CKEditor 和 TinyMCE。这些可以输出HTML并能够让用户可视化编辑。虽然他们可以在客户端进行校验，但是这样还不够安全，需要在服务器端进行校验并清除有害的HTML代码，这样才能确保输入到你网站的HTML是安全的。否则，攻击者能够绕过客户端的Javascript验证，并注入不安全的HMTL直接进入您的网站。

jsoup的whitelist清理器能够在服务器端对用户输入的HTML进行过滤，只输出一些安全的标签和属性。

jsoup提供了一系列的Whitelist基本配置，能够满足大多数要求；但如有必要，也可以进行修改，不过要小心。

这个cleaner非常好用不仅可以避免XSS攻击，还可以限制用户可以输入的标签范围。

参见

参阅XSS cheat sheet ，有一个例子可以了解为什么不能使用正则表达式，而采用安全的whitelist parser-based清理器才是正确的选择。
参阅Cleaner ，了解如何返回一个 Document 对象，而不是字符串
参阅Whitelist，了解如何创建一个自定义的whitelist
nofollow 链接属性了解

转发请注明出处：http://www.cnblogs.com/jycboy/p/jsoupdoc.html

如果您觉得阅读本文对您有帮助，请点一下�?推荐”按钮，您的“推荐�?将是我最大的写作动力！欢迎各位转载，但是未经作者本人同意，转载文章之后必须在文章页面明显位置给出作者和原文连接，否则保留追究法律责任的权利�?

分类: android学习

好文要顶关注我收藏该文

超超boy
关注 - 20
粉丝 - 75

+加关注

« 上一篇： dom4j创建xml
» 下一篇： android Json详解

	
	posted @ 2015-09-09 11:08 超超boy 阅读(29614) 评论(2)  编辑 收藏

评论列表

	
		
			
				  
			
			#1楼  2018-01-24 00:47 lizhenlzlz  
		
		
			对我有用
支持(0)反对(0)
		
	

	
		
			
				  
			
			#2楼40986072018/10/25 16:09:57  2018-10-25 16:09 公子扶摇  
		
		
			Let's try GraphQuery, a more powerful HTML/XML parsing language. Project:  https://github.com/storyicon
支持(0)反对(0)
http://pic.cnblogs.com/face/1451775/20181025155548.png

刷新评论刷新页面返回顶部

注册用户登录后才能发表评论，请登录或注册，访问网站首页。

【推荐】超50万VC++源码: 大型组态工控、电力仿真CAD与GIS源码库！

公告

昵称：超超boy
园龄： 3年9个月
粉丝： 75
关注： 20

+加关注

				
			
 
   搜索 
    
    
        
     
    
  
 
    
    常用链接 
     
     我的随笔 
     我的评论 
     我的参与 
     最新评论 
     我的标签 
     
     
      
      
     
    
  
 
    
    随笔分类(150) 
    
  
 
  
Android进阶(20) 
android学习(35) 
C/C++基础总结(5) 
GoogleTest单元测试(11) 
JavaEE(3) 
java读书笔记(1) 
java总结(24) 
kafka(1) 
Linux学习(5) 
mysql数据库(7) 
NoSql数据库(7) 
SQL Server(1) 
笔试面试(5) 
操作系统(1) 
计算机网络(2) 
其他(4) 
设计模式(2) 
数据结构(1) 
数据库原理(2) 
算法(7) 
杂谈(6) 
 
   随笔档案(146) 
  
 
  
2018年12月 (2) 
2018年4月 (4) 
2018年1月 (2) 
2017年12月 (1) 
2017年11月 (1) 
2017年9月 (1) 
2017年8月 (1) 
2017年4月 (2) 
2017年3月 (1) 
2017年2月 (10) 
2016年12月 (9) 
2016年11月 (8) 
2016年10月 (3) 
2016年9月 (4) 
2016年8月 (9) 
2016年7月 (7) 
2016年6月 (4) 
2016年5月 (5) 
2016年4月 (10) 
2016年3月 (16) 
2016年2月 (8) 
2016年1月 (6) 
2015年12月 (2) 
2015年11月 (8) 
2015年10月 (3) 
2015年9月 (7) 
2015年8月 (12) 
 
   文章分类 
  
 
  
J2EE 
 
    
    积分与排名 
     
      积分 - 252832  
      排名 - 1082  
     
    
  
 
    
     
     阅读排行榜 
      
       
       1. Gradle's dependency cache may be corrupt解决方法(31405) 
       2. Jsoup解析Html中文文档(29613) 
       3. c++引用总结(26019) 
       4. javaWeb项目的classpath说明(20782) 
       5. GridView总结二：GridView自带编辑删除更新(20570) 
       
      
     
    
  
 
    
     
     评论排行榜 
      
       
       1. 超级课程表原理解析(如何获取网页内容)(30) 
       2. 如何在 Github 上发现优秀的开源项目？(18) 
       3. 一个大四毕业生想对自学Android的大学生说一些话(7) 
       4. Google C++单元测试框架GoogleTest(总)(5) 
       5. c++中的数据类型(4) 
       
      
     
    
  
 
    
     
     推荐排行榜 
      
       
       1. 超级课程表原理解析(如何获取网页内容)(7) 
       2. Google C++单元测试框架GoogleTest---Google Mock简介--概念及基础语法(6) 
       3. 如何在 Github 上发现优秀的开源项目？(6) 
       4. Jsoup解析Html中文文档(5) 
       5. c++引用总结(5) 
       
      
     
    
  
	


回主页">			
超超boy


 
   博客园 
   首页 
   新随笔 
   联系 
   订阅  
   管理 
  
 
   		
 
  
随笔 - 146  
 文章 - 0  
 评论 - 80
	

 
    
     
         
 
     
    
  
 
    
     Jsoup解析Html中文文档  
     
     
      
      jsoup 简介
Java 程序在解析 HTML 文档时，相信大家都接触过 htmlparser 这个开源项目，我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章，分别是：从 HTML 中攫取你所需的信息和 扩展 HTMLParser 对自定义标签的处理能力。但现在我已经不再使用 htmlparser 了，原因是 htmlparser 很少更新，但最重要的是有了 jsoup 。
jsoup 是一款 Java 的 HTML 解析器，可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API，可通过 DOM，CSS 以及类似于 jQuery 的操作方法来取出和操作数据。
jsoup 的主要功能如下：
1. 从一个 URL，文件或字符串中解析 HTML；
2. 使用 DOM 或 CSS 选择器来查找、取出数据；
3. 可操作 HTML 元素、属性、文本； 
      官网地址：http://www.open-open.com/jsoup/      
      jsoup Cookbook(中文版)
入门
1.解析和遍历一个html文档
输入
2.解析一个html字符串
3.解析一个body片断
4.根据一个url加载Document对象
5.根据一个文件加载Document对象
数据抽取
6.使用dom方法来遍历一个Document对象
7.使用选择器语法来查找元素
8.从元素集合抽取属性、文本和html内容
9.URL处理
10.程序示例：获取所有链接
数据修改
11.设置属性值
12.设置元素的html内容
13.设置元素的文本内容
html清理
14.消除不受信任的html (来防止xss攻击) 
      1.解析和遍历一个HTML文档
如何解析一个HTML文档： 
       
        
         
          
          ? 
          
         


	< 2019年1月 >
日 一 二 三 四 五 六
30 31 1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31 1 2
3 4 5 6 7 8 9
 
    
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
  
 
           
            
             
             
               1 
              
             
               2 
              
             
               3 
              
             
              
               
               String html =  
               "First parse" 
               
               
               +  
               "Parsed HTML into a doc.
" 
               ; 
               
               
               Document doc = Jsoup.parse(html);

 
      　　(更详细内容可查看 解析一个HTML字符串.) 
      其解析器能够尽最大可能从你提供的HTML文档来创见一个干净的解析结果，无论HTML的格式是否完整。比如它可以处理： 
      没有关闭的标签 (比如： 
Lorem 
Ipsum parses to 
Lorem
 Ipsum
)
隐式标签 (比如. 它可以自动将

Table data

解决方法
使用静态Jsoup.parse(String html) 方法或 Jsoup.parse(String html, String baseUri)示例代码：

 
               String html =  
               "First parse" 
              
               +  
               "Parsed HTML into a doc.
" 
               ; 
              
               Document doc = Jsoup.parse(html);

　　描述

只要解析的不是空字符串，就能返回一个结构合理的文档，其中包含(至少) 一个head和一个body元素。

一旦拥有了一个Document，你就可以使用Document中适当的方法或它父类 Element和Node中的方法来取得相关数据。

3.解析一个body片断

办法
使用Jsoup.parseBodyFragment(String html)方法.

String html = "

Lorem ipsum.
"

;

Document doc = Jsoup.parseBodyFragment(html);

Element body = doc.body();

　　说明

Document.body() 方法能够取得文档body元素的所有子元素，与 doc.getElementsByTag("body")相同。

4.从一个URL加载一个Document

存在问题

你需要从一个网站获取和解析一个HTML文档，并查找其中的相关数据。你可以使用下面解决方法：

解决方法

使用 Jsoup.connect(String url)方法:

 
          ? 
         
               Document doc = Jsoup.connect( 
               "http://example.com/" 
               ).get(); 
              
               String title = doc.title();

　　说明

connect(String url) 方法创建一个新的 Connection, 和 get() 取得和解析一个HTML文件。如果从该URL获取HTML时发生错误，便会抛出 IOException，应适当处理。

Connection 接口还提供一个方法链来解决特殊请求，具体如下：

 
          ? 
         
               Document doc = Jsoup.connect( 
               "http://example.com" 
               ) 
              
               .data( 
               "query" 
               ,  
               "Java" 
               ) 
              
               .userAgent( 
               "Mozilla" 
               ) 
              
               .cookie( 
               "auth" 
               ,  
               "token" 
               ) 
              
               .timeout( 
               3000 
               ) 
              
               .post();

　　这个方法只支持Web URLs (http和https 协议); 假如你需要从一个文件加载，可以使用 parse(File in, String charsetName) 代替。

5.从一个文件加载一个文档

问题

在本机硬盘上有一个HTML文件，需要对它进行解析从中抽取数据或进行修改。

办法

可以使用静态 Jsoup.parse(File in, String charsetName, String baseUri) 方法：

 
          ? 
         
               File input =  
               new 
               File( 
               "/tmp/input.html" 
               ); 
              
               Document doc = Jsoup.parse(input,  
               "UTF-8" 
               ,  
               "http://example.com/" 
               );

　　说明

parse(File in, String charsetName, String baseUri) 这个方法用来加载和解析一个HTML文件。如在加载文件的时候发生错误，将抛出IOException，应作适当处理。

baseUri 参数用于解决文件中URLs是相对路径的问题。如果不需要可以传入一个空的字符串。

6.使用DOM方法来遍历一个文档

问题

你有一个HTML文档要从中提取数据，并了解这个HTML文档的结构。

方法

将HTML解析成一个Document之后，就可以使用类似于DOM的方法进行操作。示例代码：

 
          ? 
         
               File input =  
               new 
               File( 
               "/tmp/input.html" 
               ); 
              
               Document doc = Jsoup.parse(input,  
               "UTF-8" 
               ,  
               "http://example.com/" 
               ); 
              
               Element content = doc.getElementById( 
               "content" 
               ); 
              
               Elements links = content.getElementsByTag( 
               "a" 
               ); 
              
               for 
               (Element link : links) { 
              
               String linkHref = link.attr( 
               "href" 
               ); 
              
               String linkText = link.text(); 
              
               }

　　说明

Elements这个对象提供了一系列类似于DOM的方法来查找元素，抽取并处理其中的数据。具体如下：

查找元素

getElementById(String id)
getElementsByTag(String tag)
getElementsByClass(String className)
getElementsByAttribute(String key) (and related methods)
Element siblings: siblingElements(), firstElementSibling(), lastElementSibling();nextElementSibling(), previousElementSibling()
Graph: parent(), children(), child(int index)

元素数据

attr(String key)获取属性attr(String key, String value)设置属性
attributes()获取所有属性
id(), className() and classNames()
text()获取文本内容text(String value) 设置文本内容
html()获取元素内HTMLhtml(String value)设置元素内的HTML内容
outerHtml()获取元素外HTML内容
data()获取数据内容（例如：script和style标签)
tag() and tagName()

操作HTML和文本

append(String html), prepend(String html)
appendText(String text), prependText(String text)
appendElement(String tagName), prependElement(String tagName)
html(String value)

7.使用选择器语法来查找元素

问题

你想使用类似于CSS或jQuery的语法来查找和操作元素。

方法

可以使用Element.select(String selector) 和 Elements.select(String selector) 方法实现：

 
          ? 
         
               File input =  
               new 
               File( 
               "/tmp/input.html" 
               ); 
              
               Document doc = Jsoup.parse(input,  
               "UTF-8" 
               ,  
               "http://example.com/" 
               ); 
              
               Elements links = doc.select( 
               "a[href]" 
               );  
               //带有href属性的a元素 
              
               Elements pngs = doc.select( 
               "img[src$=.png]" 
               ); 
              
               //扩展名为.png的图片 
              
               Element masthead = doc.select( 
               "div.masthead" 
               ).first(); 
              
               //class等于masthead的div标签 
              
               Elements resultLinks = doc.select( 
               "h3.r > a" 
               );  
               //在h3元素之后的a元素

　说明

jsoup elements对象支持类似于CSS (或jquery)的选择器语法，来实现非常强大和灵活的查找功能。.

这个select 方法在Document, Element,或Elements对象中都可以使用。且是上下文相关的，因此可实现指定元素的过滤，或者链式选择访问。

Select方法将返回一个Elements集合，并提供一组方法来抽取和处理结果。

Selector选择器概述

tagname: 通过标签查找元素，比如：a
ns|tag: 通过标签在命名空间查找元素，比如：可以用 fb|name 语法来查找元素
#id: 通过ID查找元素，比如：#logo
.class: 通过class名称查找元素，比如：.masthead
[attribute]: 利用属性查找元素，比如：[href]
[^attr]: 利用属性名前缀来查找元素，比如：可以用[^data-] 来查找带有HTML5 Dataset属性的元素
[attr=value]: 利用属性值来查找元素，比如：[width=500]
[attr^=value], [attr$=value], [attr*=value]: 利用匹配属性值开头、结尾或包含属性值来查找元素，比如：[href*=/path/]
[attr~=regex]: 利用属性值匹配正则表达式来查找元素，比如： img[src~=(?i)\.(png|jpe?g)]
*: 这个符号将匹配所有元素

Selector选择器组合使用

el#id: 元素+ID，比如： div#logo
el.class: 元素+class，比如： div.masthead
el[attr]: 元素+class，比如： a[href]
任意组合，比如：a[href].highlight
ancestor child: 查找某个元素下子元素，比如：可以用.body p 查找在"body"元素下的所有 p元素
parent > child: 查找某个父元素下的直接子元素，比如：可以用div.content > p 查找 p 元素，也可以用body > * 查找body标签下所有直接子元素
siblingA + siblingB: 查找在A元素之前第一个同级元素B，比如：div.head + div
siblingA ~ siblingX: 查找A元素之前的同级X元素，比如：h1 ~ p
el, el, el:多个选择器组合，查找匹配任一选择器的唯一元素，例如：div.masthead, div.logo

伪选择器selectors

:lt(n): 查找哪些元素的同级索引值（它的位置在DOM树中是相对于它的父节点）小于n，比如：td:lt(3) 表示小于三列的元素
:gt(n):查找哪些元素的同级索引值大于n，比如： div p:gt(2)表示哪些div中有包含2个以上的p元素
:eq(n): 查找哪些元素的同级索引值与n相等，比如：form input:eq(1)表示包含一个input标签的Form元素
:has(seletor): 查找匹配选择器包含元素的元素，比如：div:has(p)表示哪些div包含了p元素
:not(selector): 查找与选择器不匹配的元素，比如： div:not(.logo) 表示不包含 class="logo" 元素的所有 div 列表
:contains(text): 查找包含给定文本的元素，搜索不区分大不写，比如： p:contains(jsoup)
:containsOwn(text): 查找直接包含给定文本的元素
:matches(regex): 查找哪些元素的文本匹配指定的正则表达式，比如：div:matches((?i)login)
:matchesOwn(regex): 查找自身包含文本匹配指定正则表达式的元素
注意：上述伪选择器索引是从0开始的，也就是说第一个元素索引值为0，第二个元素index为1等

可以查看Selector API参考来了解更详细的内容

8.从元素抽取属性，文本和HTML

问题

在解析获得一个Document实例对象，并查找到一些元素之后，你希望取得在这些元素中的数据。

方法

要取得一个属性的值，可以使用Node.attr(String key) 方法
对于一个元素中的文本，可以使用Element.text()方法
对于要取得元素或属性中的HTML内容，可以使用Element.html(), 或 Node.outerHtml()方法

示例：

 
               String html =  
               "An example link.
" 
               ; 
              
               Document doc = Jsoup.parse(html); 
               //解析HTML字符串返回一个Document实现 
              
               Element link = doc.select( 
               "a" 
               ).first(); 
               //查找第一个a元素 
              
               String text = doc.body().text();  
               // "An example link"//取得字符串中的文本 
              
               String linkHref = link.attr( 
               "href" 
               );  
               // "http://example.com/"//取得链接地址 
              
               String linkText = link.text();  
               // "example""//取得链接地址中的文本 
              
               String linkOuterH = link.outerHtml();  
              
               // "example" 
              
               String linkInnerH = link.html();  
               // "example"//取得链接内的html内容

　　说明

上述方法是元素数据访问的核心办法。此外还其它一些方法可以使用：

Element.id()
Element.tagName()
Element.className() and Element.hasClass(String className)

这些访问器方法都有相应的setter方法来更改数据.

参见

Element和Elements集合类的参考文档
URLs处理
使用CSS选择器语法来查找元素

9.处理URLs

问题

你有一个包含相对URLs路径的HTML文档，需要将这些相对路径转换成绝对路径的URLs。

方法

在你解析文档时确保有指定base URI，然后

使用 abs: 属性前缀来取得包含base URI的绝对路径。代码如下：

 
            ? 
           
                 Document doc = Jsoup.connect( 
                 "http://www.open-open.com" 
                 ).get(); 
                
                 Element link = doc.select( 
                 "a" 
                 ).first(); 
                
                 String relHref = link.attr( 
                 "href" 
                 );  
                 // == "/" 
                
                 String absHref = link.attr( 
                 "abs:href" 
                 );  
                 // "http://www.open-open.com/"

　　说明

假如你需要取得一个绝对路径，需要在属性名前加 abs: 前缀。这样就可以返回包含根路径的URL地址attr("abs:href")

因此，在解析HTML文档时，定义base URI非常重要。

如果你不想使用abs: 前缀，还有一个方法能够实现同样的功能 Node.absUrl(String key)。

10.示例程序: 获取所有链接

这个示例程序将展示如何从一个URL获得一个页面。然后提取页面中的所有链接、图片和其它辅助内容。并检查URLs和文本信息。

运行下面程序需要指定一个URLs作为参数

 
          ? 
         
               import 
               org.jsoup.Jsoup; 
              
               import 
               org.jsoup.helper.Validate; 
              
               import 
               org.jsoup.nodes.Document; 
              
               import 
               org.jsoup.nodes.Element; 
              
               import 
               org.jsoup.select.Elements; 
              
               import 
               java.io.IOException; 
              
               /** 
              
               * Example program to list links from a URL. 
              
               */ 
              
               public 
               class 
               ListLinks { 
              
               public 
               static 
               void 
               main(String[] args)  
               throws 
               IOException { 
              
               // Validate.isTrue(args.length == 1, "usage: supply url to fetch"); 
              
               String url =  
               "http://news.ycombinator.com/" 
               ; 
              
               print( 
               "Fetching %s..." 
               , url); 
              
               Document doc = Jsoup.connect(url).get(); 
              
               Elements links = doc.select( 
               "a[href]" 
               );  
               //"a[href]" //带有href属性的a元素 
              
               Elements media = doc.select( 
               "[src]" 
               );    
               //利用属性查找元素，比如：[href] 
              
               Elements imports = doc.select( 
               "link[href]" 
               ); 
              
               print( 
               "\nMedia: (%d)" 
               , media.size()); 
              
               for 
               (Element src : media) { 
              
               if 
               (src.tagName().equals( 
               "img" 
               )) 
              
               print( 
               " * %s: <%s> %sx%s (%s)" 
               , 
              
               src.tagName(), src.attr( 
               "abs:src" 
               ), src.attr( 
               "width" 
               ), src.attr( 
               "height" 
               ), 
              
               trim(src.attr( 
               "alt" 
               ),  
               20 
               )); 
               //src.attr("src")结果: 18x18 ()   
              
               //src.attr("abs:src")结果: 18x18 () 
              
               else 
              
               print( 
               " * %s: <%s>" 
               , src.tagName(), src.attr( 
               "abs:src" 
               )); 
              
               } 
              
               print( 
               "\nImports: (%d)" 
               , imports.size()); 
              
               for 
               (Element link : imports) { 
              
               print( 
               " * %s <%s> (%s)" 
               , link.tagName(),link.attr( 
               "abs:href" 
               ), link.attr( 
               "rel" 
               )); 
              
               } 
              
               print( 
               "\nLinks: (%d)" 
               , links.size()); 
              
               for 
               (Element link : links) { 
              
               print( 
               " * a: <%s>  (%s)" 
               , link.attr( 
               "abs:href" 
               ), trim(link.text(),  
               35 
               )); 
              
               } 
              
               } 
              
               private 
               static 
               void 
               print(String msg, Object... args) { 
              
               System.out.println(String.format(msg, args)); 
              
               } 
              
               private 
               static 
               String trim(String s,  
               int 
               width) { 
              
               if 
               (s.length() > width) 
              
               return 
               s.substring( 
               0 
               , width- 
               1 
               ) +  
               "." 
               ; 
              
               else 
              
               return 
               s; 
              
               } 
              
               } 
              
               //org/jsoup/examples/ListLinks.java

　　示例输入结果：

 
          ? 
         
               Fetching http: 
               //news.ycombinator.com/... 
              
               Media: ( 
               38 
               ) 
              
               * img:  
               //ycombinator.com/images/y18.gif> 18x18 () 
              
               * img:  
               //ycombinator.com/images/s.gif> 10x1 () 
              
               * img:  
               //ycombinator.com/images/grayarrow.gif> x () 
              
               * img:  
               //ycombinator.com/images/s.gif> 0x10 () 
              
               * script:  
               //www.co2stats.com/propres.php?s=1138> 
              
               * img:  
               //ycombinator.com/images/s.gif> 15x1 () 
              
               * img:  
               //ycombinator.com/images/hnsearch.png> x () 
              
               * img:  
               //ycombinator.com/images/s.gif> 25x1 () 
              
               * img:  
               //mixpanel.com/site_media/images/mixpanel_partner_logo_borderless.gif> x (Analytics by Mixpan.) 
              
               Imports: ( 
               2 
               ) 
              
               * link  
               //ycombinator.com/news.css> (stylesheet) 
              
               * link  
               //ycombinator.com/favicon.ico> (shortcut icon) 
              
               Links: ( 
               141 
               ) 
              
               * a:  
               //ycombinator.com>  () 
              
               * a:  
               //news.ycombinator.com/news>  (Hacker News) 
              
               * a:  
               //news.ycombinator.com/newest>  (new) 
              
               * a:  
               //news.ycombinator.com/newcomments>  (comments) 
              
               * a:  
               //news.ycombinator.com/leaders>  (leaders) 
              
               * a:  
               //news.ycombinator.com/jobs>  (jobs) 
              
               * a:  
               //news.ycombinator.com/submit>  (submit) 
              
               * a:  
               //news.ycombinator.com/x?fnid=JKhQjfU7gW>  (login) 
              
               * a:  
               //news.ycombinator.com/vote?for=1094578&dir=up&whence=%6e%65%77%73>  () 
              
               * a:  
               //www.readwriteweb.com/archives/facebook_gets_faster_debuts_homegrown_php_compiler.php?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+readwriteweb+%28ReadWriteWeb%29&utm_content=Twitter>  (Facebook speeds up PHP) 
              
               * a:  
               //news.ycombinator.com/user?id=mcxx>  (mcxx) 
              
               * a:  
               //news.ycombinator.com/item?id=1094578>  (9 comments) 
              
               * a:  
               //news.ycombinator.com/vote?for=1094649&dir=up&whence=%6e%65%77%73>  () 
              
               * a:  
               //groups.google.com/group/django-developers/msg/a65fbbc8effcd914>  ("Tough. Django produces XHTML.") 
              
               * a:  
               //news.ycombinator.com/user?id=andybak>  (andybak) 
              
               * a:  
               //news.ycombinator.com/item?id=1094649>  (3 comments) 
              
               * a:  
               //news.ycombinator.com/vote?for=1093927&dir=up&whence=%6e%65%77%73>  () 
              
               * a:  
               //news.ycombinator.com/x?fnid=p2sdPLE7Ce>  (More) 
              
               * a:  
               //news.ycombinator.com/lists>  (Lists) 
              
               * a:  
               //news.ycombinator.com/rss>  (RSS) 
              
               * a:  
               //ycombinator.com/bookmarklet.html>  (Bookmarklet) 
              
               * a:  
               //ycombinator.com/newsguidelines.html>  (Guidelines) 
              
               * a:  
               //ycombinator.com/newsfaq.html>  (FAQ) 
              
               * a:  
               //ycombinator.com/newsnews.html>  (News News) 
              
               * a:  
               //news.ycombinator.com/item?id=363>  (Feature Requests) 
              
               * a:  
               //ycombinator.com>  (Y Combinator) 
              
               * a:  
               //ycombinator.com/w2010.html>  (Apply) 
              
               * a:  
               //ycombinator.com/lib.html>  (Library) 
              
               * a:  
               //www.webmynd.com/html/hackernews.html>  () 
              
               * a:  
               //mixpanel.com/?from=yc>  ()

11.设置属性的值

问题

在你解析一个Document之后可能想修改其中的某些属性值，然后再保存到磁盘或都输出到前台页面。

方法

可以使用属性设置方法 Element.attr(String key, String value), 和 Elements.attr(String key, String value).

假如你需要修改一个元素的 class 属性，可以使用 Element.addClass(String className) 和Element.removeClass(String className) 方法。

Elements 提供了批量操作元素属性和class的方法，比如：要为div中的每一个a元素都添加一个rel="nofollow" 可以使用如下方法：

 
          ? 
         
               doc.select( 
               "div.comments a" 
               ).attr( 
               "rel" 
               ,  
               "nofollow" 
               );

　　说明

与Element中的其它方法一样，attr 方法也是返回当 Element (或在使用选择器是返回 Elements 集合)。这样能够很方便使用方法连用的书写方式。比如：

 
          ? 
         
               doc.select( 
               "div.masthead" 
               ).attr( 
               "title" 
               ,  
               "jsoup" 
               ).addClass( 
               "round-box" 
               );

12.设置一个元素的HTML内容

问题

你需要一个元素中的HTML内容

方法

可以使用Element中的HTML设置方法具体如下：

 
               Element div = doc.select( 
               "div" 
               ).first();  
               // 
 
               div.html( 
               "lorem ipsum
" 
               );  
               // lorem ipsum
 
               div.prepend( 
               "First
" 
               ); 
               //在div前添加html内容 
              
               div.append( 
               "Last
" 
               ); 
               //在div之后添加html内容 
              
               // 添完后的结果: First
lorem ipsum
Last
 
               Element span = doc.select( 
               "span" 
               ).first();  
               // One 
              
               span.wrap( 
               "
" 
               ); 
              
               // 添完后的结果: One

　　说明

Element.html(String html) 这个方法将先清除元素中的HTML内容，然后用传入的HTML代替。
Element.prepend(String first) 和 Element.append(String last) 方法用于在分别在元素内部HTML的前面和后面添加HTML内容
Element.wrap(String around) 对元素包裹一个外部HTML内容。

参见

可以查看API参考文档中 Element.prependElement(String tag)和Element.appendElement(String tag) 方法来创建新的元素并作为文档的子元素插入其中。

13.设置元素的文本内容

问题

你需要修改一个HTML文档中的文本内容

方法

可以使用Element的设置方法：:

 
          ? 
         
               Element div = doc.select( 
               "div" 
               ).first();  
               // 
 
               div.text( 
               "five > four" 
               );  
               // five > four
 
               div.prepend( 
               "First " 
               ); 
              
               div.append( 
               " Last" 
               ); 
              
               // now: First five > four Last

　　说明

文本设置方法与 HTML setter 方法一样：

Element.text(String text) 将清除一个元素中的内部HTML内容，然后提供的文本进行代替
Element.prepend(String first) 和 Element.append(String last) 将分别在元素的内部html前后添加文本节点。

对于传入的文本如果含有像 <, > 等这样的字符，将以文本处理，而非HTML。

14.消除不受信任的HTML (来防止XSS攻击)

问题

方法

使用jsoup HTML Cleaner 方法进行清除，但需要指定一个可配置的 Whitelist。

 
               String unsafe =  
              
               "Link
" 
               ; 
              
               String safe = Jsoup.clean(unsafe, Whitelist.basic()); 
              
               // now: Link

　　说明

jsoup的whitelist清理器能够在服务器端对用户输入的HTML进行过滤，只输出一些安全的标签和属性。

jsoup提供了一系列的Whitelist基本配置，能够满足大多数要求；但如有必要，也可以进行修改，不过要小心。

这个cleaner非常好用不仅可以避免XSS攻击，还可以限制用户可以输入的标签范围。

参见

参阅XSS cheat sheet ，有一个例子可以了解为什么不能使用正则表达式，而采用安全的whitelist parser-based清理器才是正确的选择。
参阅Cleaner ，了解如何返回一个 Document 对象，而不是字符串
参阅Whitelist，了解如何创建一个自定义的whitelist
nofollow 链接属性了解

转发请注明出处：http://www.cnblogs.com/jycboy/p/jsoupdoc.html

如果您觉得阅读本文对您有帮助，请点一下�?推荐”按钮，您的“推荐�?将是我最大的写作动力！欢迎各位转载，但是未经作者本人同意，转载文章之后必须在文章页面明显位置给出作者和原文连接，否则保留追究法律责任的权利�?

分类: android学习

好文要顶关注我收藏该文

超超boy
关注 - 20
粉丝 - 75

+加关注

« 上一篇： dom4j创建xml
» 下一篇： android Json详解

	
	posted @ 2015-09-09 11:08 超超boy 阅读(29614) 评论(2)  编辑 收藏

评论列表

	
		
			
				  
			
			#1楼  2018-01-24 00:47 lizhenlzlz  
		
		
			对我有用
支持(0)反对(0)
		
	

	
		
			
				  
			
			#2楼40986072018/10/25 16:09:57  2018-10-25 16:09 公子扶摇  
		
		
			Let's try GraphQuery, a more powerful HTML/XML parsing language. Project:  https://github.com/storyicon
支持(0)反对(0)
http://pic.cnblogs.com/face/1451775/20181025155548.png

刷新评论刷新页面返回顶部

注册用户登录后才能发表评论，请登录或注册，访问网站首页。

【推荐】超50万VC++源码: 大型组态工控、电力仿真CAD与GIS源码库！

公告

昵称：超超boy
园龄： 3年9个月
粉丝： 75
关注： 20

+加关注

				
			
 
   搜索 
    
    
        
     
    
  
 
    
    常用链接 
     
     我的随笔 
     我的评论 
     我的参与 
     最新评论 
     我的标签 
     
     
      
      
     
    
  
 
    
    随笔分类(150) 
    
  
 
  
Android进阶(20) 
android学习(35) 
C/C++基础总结(5) 
GoogleTest单元测试(11) 
JavaEE(3) 
java读书笔记(1) 
java总结(24) 
kafka(1) 
Linux学习(5) 
mysql数据库(7) 
NoSql数据库(7) 
SQL Server(1) 
笔试面试(5) 
操作系统(1) 
计算机网络(2) 
其他(4) 
设计模式(2) 
数据结构(1) 
数据库原理(2) 
算法(7) 
杂谈(6) 
 
   随笔档案(146) 
  
 
  
2018年12月 (2) 
2018年4月 (4) 
2018年1月 (2) 
2017年12月 (1) 
2017年11月 (1) 
2017年9月 (1) 
2017年8月 (1) 
2017年4月 (2) 
2017年3月 (1) 
2017年2月 (10) 
2016年12月 (9) 
2016年11月 (8) 
2016年10月 (3) 
2016年9月 (4) 
2016年8月 (9) 
2016年7月 (7) 
2016年6月 (4) 
2016年5月 (5) 
2016年4月 (10) 
2016年3月 (16) 
2016年2月 (8) 
2016年1月 (6) 
2015年12月 (2) 
2015年11月 (8) 
2015年10月 (3) 
2015年9月 (7) 
2015年8月 (12) 
 
   文章分类 
  
 
  
J2EE 
 
    
    积分与排名 
     
      积分 - 252832  
      排名 - 1082  
     
    
  
 
    
     
     阅读排行榜 
      
       
       1. Gradle's dependency cache may be corrupt解决方法(31405) 
       2. Jsoup解析Html中文文档(29613) 
       3. c++引用总结(26019) 
       4. javaWeb项目的classpath说明(20782) 
       5. GridView总结二：GridView自带编辑删除更新(20570) 
       
      
     
    
  
 
    
     
     评论排行榜 
      
       
       1. 超级课程表原理解析(如何获取网页内容)(30) 
       2. 如何在 Github 上发现优秀的开源项目？(18) 
       3. 一个大四毕业生想对自学Android的大学生说一些话(7) 
       4. Google C++单元测试框架GoogleTest(总)(5) 
       5. c++中的数据类型(4) 
       
      
     
    
  
 
    
     
     推荐排行榜 
      
       
       1. 超级课程表原理解析(如何获取网页内容)(7) 
       2. Google C++单元测试框架GoogleTest---Google Mock简介--概念及基础语法(6) 
       3. 如何在 Github 上发现优秀的开源项目？(6) 
       4. Jsoup解析Html中文文档(5) 
       5. c++引用总结(5) 
       
      
     
    
  
	





Copyright ©2019 超超boy
 

                    
                        
                        
                             
                        
                        
                        
                            
                        
                        
                        
                            
                        
                    
                

        你可能感兴趣的:(22爬虫)
        
            
                
                    Python爬虫TLS
                        dme.
Python爬虫零基础入门爬虫python
                        TLS指纹校验原理和绕过浏览器可以正常访问，但是用requests发送请求失败。后端是如何监测得呢？为什么浏览器可以返回结果，而requests模块不行呢？https://cn.investing.com/equities/amazon-com-inc-historical-data1.指纹校验案例1.1案例：ascii2dhttps://ascii2d.net/importrequestsres
                    
                    python爬虫Selenium库详细教程_python爬虫之selenium库的使用详解
                        嘻嘻哈哈学编程
程序员python爬虫selenium
                        网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化学习资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！2.2访问页面2.3查找元素2.3.1单个元素下面
                    
                    Python从0到100（三十九）：数据提取之正则（文末免费送书）
                        是Dream呀
pythonmysql开发语言
                        前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
                    
                    使用Arcgis API for android加载OpenStreetMap底图并完成定位
                        续汉冕
移动开发androidandroidstudioarcgisapi
                        为了完成这个应用功能花了三天，代码倒不多就是比较坑！环境：AndroidSDKAPI22，AndroidStudio1.2.2，arcgisandroidSDK10.2.7如何基于ArcgisAPIforandroid在AndroidStudio新建一个项目就不再赘述了，大家可以参考以下网址：使用AndroidStudio与ArcgisandroidSDK的开发环境部署和HelloWorld：ht
                    
                    Python 舆论风向分析爬虫：全流程数据获取、清洗与情感剖析
                        西攻城狮北
python爬虫开发语言实战案例
                        引言在当今信息爆炸的时代，互联网上充斥着海量的用户言论和观点。了解舆论风向对于企业、政府机构以及研究者等具有重要的意义，可以帮助他们及时把握公众情绪、调整策略与决策。Python作为一种强大的编程语言，在数据爬取与分析方面具有得天独厚的优势，能够助力我们高效地实现舆情监测与深入剖析。一、环境搭建与目标确定1.环境搭建为了顺利完成爬虫与数据分析任务，首先需要确保你的开发环境已经安装了以下Python
                    
                    Python爬虫requests(详细)
                        dme.
Python爬虫零基础入门爬虫python
                        本文来学爬虫使用requests模块的常见操作。1.URL参数无论是在发送GET/POST请求时，网址URL都可能会携带参数，例如：http://www.5xclass.cn?age=19&name=dengres=requests.get(url="https://www.5xclass.cn?age=19&name=deng")res=requests.get(url="https://www
                    
                    Python中的 redis keyspace 通知_python 操作redis psubscribe(‘__keyspace@0__ ‘)
                        2301_82243733
程序员python学习面试
                        最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
                    
                    Selenium使用指南
                        程序员杰哥
selenium测试工具python测试用例职场和发展程序人生功能测试
                        概述selenium是网页应用中最流行的自动化测试工具，可以用来做自动化测试或者浏览器爬虫等。官网地址为：相对于另外一款web自动化测试工具QTP来说有如下优点：免费开源轻量级，不同语言只需要一个体积很小的依赖包支持多种系统，包括Windows，Mac，Linux支持多种浏览器，包括Chrome，FireFox，IE，safari，opera等支持多语言，包括Java，C，python，c#等主流
                    
                    基于Python的搜索引擎的设计与实现
                        AI大模型应用之禅
DeepSeekR1&AI大模型与大数据javapythonjavascriptkotlingolang架构人工智能
                        搜索引擎,Python,爬虫,自然语言处理,信息检索,索引,算法,数据库1.背景介绍在信息爆炸的时代，海量数据无处不在，高效地获取所需信息变得至关重要。搜索引擎作为信息获取的桥梁，扮演着不可或缺的角色。传统的搜索引擎往往依赖于庞大的服务器集群和复杂的算法，对资源消耗较大，且难以满足个性化搜索需求。基于Python的搜索引擎设计，则凭借Python语言的易学易用、丰富的第三方库和强大的社区支持，为开
                    
                    python进程数上限_python 多进程数量 对爬虫程序的影响
                        weixin_39759995
python进程数上限
                        1.首先看一下python多进程的优点和缺点多进程优点：1.稳定性好：多进程的优点是稳定性好，一个子进程崩溃了，不会影响主进程以及其余进程。基于这个特性，常常会用多进程来实现守护服务器的功能。然而多线程不足之处在于，任何一个线程崩溃都可能造成整个进程的崩溃，因为它们共享了进程的内存资源池。2.能充分利用多核cpu：由于python设计之初，没预料到多核cpu能够得到现在的发展，只考虑到了单核cpu
                    
                    27岁大龄转码秋招惨败，朋友劝我转Java来得及吗？还是继续走前端或机器学习？
                        程序员yt
java机器学习开发语言
                        今天给大家分享的是一位粉丝的提问，27岁大龄转码秋招惨败，朋友劝我转Java来得及吗？还是继续走前端或机器学习？接下来把粉丝的具体提问和我的回复分享给大家，希望也能给一些类似情况的小伙伴一些启发和帮助。同学提问：211建筑本科，22年毕业后gap一年转码去了英国读的QS100的it的水硕（24年12月份毕业），转码后对就业形势认知不足，时间全花在课业上，八股文和算法准备的不充足，秋招算是惨败。读研
                    
                    python爬虫--安装XPath Helper
                        S903784597
python爬虫开发语言
                        给chrome浏览器安装xpath插件。-从网盘下载xpath的插件文件链接：https://pan.baidu.com/s/1B85d5cLDyAz1xUQqmL3uug?pwd=3306提取码：3306-在chrome中输入chrome://extensions/打开扩展程序。-将从百度网盘中下载的xpath.zip文件直接拖到浏览器的扩展程序页面中-得到chrome插件，将插件开关开启，并且
                    
                    使用Python爬虫实时监控行业新闻案例
                        海拥✘
python爬虫开发语言
                        目录背景环境准备请求网页数据解析网页数据定时任务综合代码使用代理IP提升稳定性运行截图与完整代码总结在互联网时代，新闻的实时性和时效性变得尤为重要。很多行业、技术、商业等领域的新闻都可以为公司或者个人发展提供有价值的信息。如果你有一项需求是要实时监控某个行业的新闻，自动化抓取并定期输出这些新闻，Python爬虫可以帮你轻松实现这一目标。本文将通过一个案例，带你一步一步实现一个简单的Python爬虫
                    
                    《剑指 Offer》专项突破版 - 面试题 56 : 二叉搜索树中两节点的值之和（详解 C++ 实现的两种方法）
                        melonyzzZ
数据结构算法c++开发语言数据结构面试
                        目录前言一、利用哈希表二、应用双指针前言题目链接：LCR056.两数之和IV-输入二叉搜索树-力扣（LeetCode）题目：给定一棵二叉搜索树和一个值k，请判断该二叉搜索树中是否存在值之和等于k的两个节点。假设二叉搜索树中节点的值均唯一。例如，在下图所示的二叉搜索树中，存在值之和等于12的两个节点（节点5和节点7），但不存在值之和为22的两个节点。分析：解决这个问题自然需要遍历二叉树中的所有节点，
                    
                    Python爬虫-猫眼电影的影院数据
                        写python的鑫哥
爬虫案例1000讲python爬虫猫眼电影电影院数据采集
                        前言本文是该专栏的第46篇，后面会持续分享python爬虫干货知识，记得关注。本文笔者以猫眼电影为例子，获取猫眼的影院相关数据。废话不多说，具体实现思路和详细逻辑，笔者将在正文结合完整代码进行详细介绍。接下来，跟着笔者直接往下看正文详细内容。（附带完整代码）正文地址：aHR0cHM6Ly93d3cubWFveWFuLmNvbS8=目标：获取猫眼电影的影院数据1.项目场景介绍老规矩，我们还是通过接码
                    
                    Python从0到100（四）：Python中的运算符介绍(补充)
                        是Dream呀
pythonjava数据库
                        前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
                    
                    Python从0到100（三十五）：beautifulsoup的学习
                        是Dream呀
Dream的茶话会pythonbeautifulsoup学习
                        前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
                    
                    Chromedriver各个版本浏览器驱动下载地址
                        xl.liu
浏览器驱动
                        来自：淘宝源如果没有对应浏览器版本的驱动，下载低于浏览器版本且最接近的驱动即可！！！2.0/2013-09-25T22:57:39.349Z2.1/2013-09-25T22:57:49.481Z2.10/2014-05-01T20:46:22.843Z-2.11/2014-10-08T01:17:17.918Z-2.12/2014-10-27T09:27:24.626Z-2.13/2014-12
                    
                    python分布式爬虫去重_Python分布式爬虫(三) - 爬虫基础知识
                        weixin_39997311
python分布式爬虫去重
                        0相关源码1技术选型爬虫能做什么1.1scrapyVSrequests+beautifulsoup做爬虫的时候，经常都会听到scrapyVSrequests+beautifulsoup的组合在本次分布式爬虫实现中只用scrapy而不用后者的原因是：requests和beautifulsoup都是库，scrapy是一个框架框架中可以应用requests等，可以集合很多第三方库基于twisted(异步
                    
                    Scrapy分布式爬虫系统
                        ivwdcwso
开发运维scrapy分布式爬虫python开发
                        一、概述在这篇博文中,我们将介绍如何使用Docker来部署Scrapy分布式爬虫系统,包括Scrapyd、Logparser和Scrapyweb三个核心组件。这种部署方式适用于Scrapy项目和Scrapy-Redis分布式爬虫项目。需要安装的组件:Scrapyd-服务端,用于运行打包后的爬虫代码,所有爬虫机器都需要安装。Logparser-服务端,用于解析爬虫日志,配合Scrapyweb进行实时
                    
                    使用Python抓取新闻媒体网站的最新头条与相关内容：深入的爬虫开发与数据分析实战
                        Python爬虫项目
2025年爬虫实战项目python爬虫数据分析数据挖掘人工智能开发语言
                        引言在互联网时代，新闻媒体网站是人们获取信息和了解世界的重要渠道。随着新闻的即时更新，获取最新头条并进行数据分析成为许多行业领域（如媒体、广告、舆情监测等）的重要需求。通过抓取新闻媒体网站的内容，我们不仅能获取各类新闻文章，还能为后续的数据分析、情感分析、舆情监控等提供基础数据。本篇博客将详细讲解如何使用Python编写一个爬虫，抓取新闻媒体网站的最新头条及其相关内容。我们将使用最新的技术栈，包括
                    
                    c/c++蓝桥杯经典编程题100道（22）最短路径问题
                        tamak
算法数据结构图论c语言c++蓝桥杯
                        最短路径问题->返回c/c++蓝桥杯经典编程题100道-目录目录最短路径问题一、题型解释二、例题问题描述三、C语言实现解法1：Dijkstra算法（正权图，难度★★）解法2：Bellman-Ford算法（含负权边，难度★★★）四、C++实现解法1：Dijkstra算法（优先队列优化，难度★★☆）解法2：Floyd-Warshall算法（多源最短路径，难度★★★）五、总结对比表六、特殊方法与内置函数
                    
                    LeetCode 热题 100_括号生成（59_22_中等_C++）（递归（回溯））
                        Dream it possible！
LeetCode热题100leetcodec++算法
                        LeetCode热题100_括号生成（59_22）题目描述：输入输出样例：题解：解题思路：思路一（递归（回溯））：代码实现（思路一（递归（回溯）））：以思路一为例进行调试题目描述：数字n代表生成括号的对数，请你设计一个函数，用于能够生成所有可能的并且有效的括号组合。输入输出样例：示例1：输入：n=3输出：[“((()))”,“(()())”,“(())()”,“()(())”,“()()()”]示
                    
                    【信息系统项目管理师-选择真题】2024下半年（第一批）综合知识答案和详解
                        数据知道
软考高级高项备考高项综合知识信息系统项目管理师
                        更多内容请见：备考信息系统项目管理师-专栏介绍和目录文章目录【第1题】【第2题】【第3题】【第4题】【第5题】【第6题】【第7题】【第8题】【第9题】【第10题】【第11题】【第12题】【第13题】【第14题】【第15题】【第16题】【第17题】【第18题】【第19题】【第20题】【第21题】【第22题】【第23题】【第24题】【第25题】【第26题】【第27题】【第28题】【第29题】【第30题
                    
                    Python爬虫实战：获取笔趣阁图书信息，并做数据分析
                        ylfhpy
爬虫python爬虫数据分析
                        注意：以下内容仅供技术研究，请遵守目标网站的robots.txt规定，控制请求频率避免对目标服务器造成过大压力！1.环境准备与反爬策略pythonimportrequestsfrombs4importBeautifulSoupimportpandasaspdimportreimporttimeimportrandomfromfake_useragentimportUserAgent#需安装：pip
                    
                    22 FastAPI日志与监控
                        安迪小宝
FastAPIpythonfastapi
                        在现代应用开发中，日志记录和监控是确保系统健康和可维护性的重要组成部分。FastAPI提供了内置的日志功能，而Prometheus和Grafana则是常见的开源监控工具组合，广泛用于应用性能监控和可视化。本文将介绍如何配置FastAPI的日志记录，并结合Prometheus和Grafana进行应用监控和数据可视化。1.配置FastAPI的日志记录1.1使用Python内置的logging模块Fas
                    
                    如何利用Python爬虫获取淘宝分类详情：实战案例指南
                        数据小爬虫@
python爬虫开发语言
                        在电商领域，淘宝作为中国最大的电商平台之一，其分类详情数据对于市场分析、竞争策略制定以及电商运营优化具有极高的价值。通过Python爬虫技术，我们可以高效地获取这些数据，为电商从业者提供强大的数据支持。本文将详细介绍如何利用Python编写爬虫程序，快速获取淘宝分类详情数据。一、准备工作（一）环境搭建确保你的开发环境中已经安装了以下必要的库：requests：用于发送HTTP请求。Beautifu
                    
                    linux修改mac和ip地址的方法
                        luoqice
服务器网络linux
                        在Linux系统中，你可以通过以下步骤修改MAC地址和IP地址。修改MAC地址修改MAC地址通常需要管理员权限。以下是修改MAC地址的几种方法：方法一：使用ip命令关闭网络接口：sudoiplinksetdeveth0down其中eth0是你要修改MAC地址的网络接口名称。修改MAC地址：sudoiplinksetdeveth0address00:11:22:33:44:55这里00:11:22:
                    
                    Python 爬虫功能介绍
                        chengxuyuan1213_
python爬虫网络爬虫
                        在当今互联网信息爆炸的时代，数据的获取与分析成为了各行各业不可或缺的一部分。Python，作为一种简洁、易读且功能强大的编程语言，凭借其丰富的库和框架，在数据抓取（即网络爬虫）领域展现了极大的优势。本文旨在介绍Python爬虫的基础功能，帮助初学者快速入门，理解爬虫的基本工作原理及常用技术。一、什么是网络爬虫网络爬虫（WebCrawler），又称网络蜘蛛（WebSpider）或网络机器人（WebR
                    
                    2025年前端工程师职业发展的系统性应聘规划
                        IT木昜
前端
                        2025年前端工程师职业发展的系统性应聘规划，结合技术趋势、企业需求和竞争力提升策略，分为技术栈学习、项目实战、求职策略三部分：一、2025年前端技术趋势与核心技能1.必学技术栈（基础+进阶）层级技术方向具体技能基础核心语言-HTML6新特性（预测）、CSS容器查询、TypeScript5.0+主流框架React22+（ServerComponents）、Vue4.0（VaporMode）、Sve
                    
                                SQL的各种连接查询
                                    xieke90
UNION ALLUNION外连接内连接JOIN
                                    一、内连接 
  概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。 
                内连接（join 或者inner join ） 
      SQL语法： 
      select * fron
                                
                                java编程思想--复用类
                                    百合不是茶
java继承代理组合final类
                                          复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书 
  
一:组合语法:就是将对象的引用放到新类中即可 
    代码: 
    
package com.wj.reuse;

/**
 * 
 * @author Administrator 组
                                
                                [开源与生态系统]国产CPU的生态系统
                                    comsci
cpu
                                     
 
      计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 
 
      要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 
 
      投入一些资金和资源,人力和政策,让游
                                
                                JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释
                                    商人shang
jvm内存
                                    jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。 非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 
HotSpot虚拟机GC算法采用分代收
                                
                                页面上调用 QQ
                                    oloz
qq
                                    <A href="tencent://message/?uin=707321921&amp;Site=有事Q我&amp;Menu=yes">   
<img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
                                
                                一些问题
                                    文强chu
问题
                                    1.eclipse 导出 doc  出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... 
SQL:3.mysql  * 必须得放前面 否则  select&nbs
                                
                                生活没有安全感
                                    小桔子
生活孤独安全感
                                           圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
                                
                                php 基础语法
                                    aichenglong
php 基本语法
                                    1 .1 php变量必须以$开头 
<?php 
$a=” b”; 
echo 
?> 
1 .2 php基本数据库类型 Integer  float/double Boolean string 
1 .3 复合数据类型 数组array和对象 object 
1 .4 特殊数据类型  null 资源类型(resource)    $co
                                
                                mybatis tools 配置详解
                                    AILIKES
mybatis
                                    MyBatis Generator中文文档 
MyBatis Generator中文文档地址： 
 
 http://generator.sturgeon.mopaas.com/ 
 
该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。 
本文使用Markdown进行编辑，但是博客显示效
                                
                                继承与多态的探讨
                                    百合不是茶
JAVA面向对象 继承 对象
                                    继承 extends   多态 
继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字： 
  
  
在A类中定义属性和方法； 
class A{
//定义属性
int age；
//定义方法
public void go
                                
                                JS的undefined与null的实例
                                    bijian1013
JavaScriptJavaScript
                                    <form name="theform" id="theform">
</form>

<script language="javascript">
    var a
    alert(typeof(b));    //这里提示undefined
    if(theform.datas
                                
                                TDD实践（一）
                                    bijian1013
java敏捷TDD
                                    一.TDD概述 
        TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。 
    
                                
                                [Maven学习笔记十]Maven Profile与资源文件过滤器
                                    bit1129
maven
                                    什么是Maven Profile 
Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 
  
Profile的激活机制 
1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
                                
                                【Hive八】Hive用户自定义生成表函数(UDTF)
                                    bit1129
hive
                                    1. 什么是UDTF 
  
UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table， 貌似更应该理解为生成了类似关系表的二维行数据集 
  2. 如何实现UDTF 
 
 继承org.apache.hadoop.hive.ql.udf.generic
                                
                                tfs restful api 加auth 2.0认计
                                    ronin47

                                    　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点： 
　　一是基于客户端的ip设置。这个比较容易实现。 
　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。 
　　现在重点介绍第二种方法实现思路。 
　　 
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
                                
                                jdk环境变量配置
                                    byalias
javajdk
                                    进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 
 
1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 
 
2、安装jdk-7u79-windows-x64.exe 
 
3、配置环境变量：右击"计算机"-->&quo
                                
                                《代码大全》表驱动法-Table Driven Approach-2
                                    bylijinnan
java
                                    package com.ljn.base;

import java.io.BufferedReader;
import java.io.FileInputStream;
import java.io.InputStreamReader;
import java.util.ArrayList;
import java.util.Collections;
import java.uti
                                
                                SQL 数值四舍五入 小数点后保留2位
                                    chicony
四舍五入
                                      
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 
2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。 
例如： 
　　select   cast(round(12.5,2)   as   numeric(5,2))  
                                
                                c++运算符重载
                                    CrazyMizzz
C++
                                    一、加+，减-，乘*，除/ 的运算符重载 
 
Rational operator*(const Rational &x) const{ 
 return Rational(x.a * this->a); 
 } 
在这里只写乘法的，加减除的写法类似 
 
二、<<输出,>>输入的运算符重载 
     &nb
                                
                                hive DDL语法汇总
                                    daizj
hive修改列DDL修改表
                                    hive DDL语法汇总 
１、对表重命名 
hive> ALTER TABLE table_name RENAME TO new_table_name; 
  
2、修改表备注 
hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
                                
                                jbox使用说明
                                    dcj3sjt126com
Web
                                    参考网址：http://www.kudystudio.com/jbox/jbox-demo.html   jBox v2.3 beta    [ 
点击下载]  
 
技术交流QQGroup：172543951 100521167   
 
 [2011-11-11] jBox v2.3 正式版 
 - [调整&修复] IE6下有iframe或页面有active、applet控件
                                
                                UISegmentedControl 开发笔记
                                    dcj3sjt126com

                                      //    typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { 
    //        UISegmentedControlStylePlain,     // large plain 
  &
                                
                                Slick生成表映射文件
                                    ekian
scala
                                    Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 
 
"com.typesafe.slick"    %% "slick-codegen"      % slickVersion 
因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 
 

"com.typesa
                                
                                ES-TEST
                                    gengzg
test
                                    package com.MarkNum;

import java.io.IOException;
import java.util.Date;
import java.util.HashMap;
import java.util.Map;

import javax.servlet.ServletException;
import javax.servlet.annotation
                                
                                为何外键不再推荐使用
                                    hugh.wang
mysqlDB
                                    表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。 
 
在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
                                
                                领域驱动设计
                                    julyflame
VODAO设计模式DTOpo
                                    概念： 
 
VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 
 
DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
                                
                                单例设计模式
                                    hm4123660
javaSingleton单例设计模式懒汉式饿汉式
                                           单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 
     &nb
                                
                                logback
                                    zhb8015
loglogback
                                    一、logback的介绍 
     Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个 改良版本。此外logback-class
                                
                                整合Kafka到Spark Streaming——代码示例和挑战
                                    Stark_Summer
sparkstormzookeeperPARALLELISMprocessing
                                    作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。 期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
                                
                                spring-master-slave-commondao
                                    王新春
DAOspringdataSourceslavemaster
                                    互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。 
 
为此，往往搭建 db的 一主多从库的 数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数
                                
                
            
        
    

    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    

    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.

        
    


	< 2019年1月 >
日 一 二 三 四 五 六
30 31 1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31 1 2
3 4 5 6 7 8 9