抓狼的羊

Jsoup入门：解析html 抽取数据

一：入门介绍
解析和遍历一个HTML文档
如何解析一个HTML文档：

String html = "First parse"
+ "

Parsed HTML into a doc.

";
Document doc = Jsoup.parse(html);

其解析器能够尽最大可能从你提供的HTML文档来创见一个干净的解析结果，
无论HTML的格式是否完整。比如它可以处理：

(1)没有关闭的标签 (比如：

Lorem

Ipsum parses to

Lorem

Ipsum

)
(2)隐式标签 (比如. 它可以自动将 Table data包装成

?)
(3)创建可靠的文档结构（html标签包含head 和 body，在head只出现恰当的元素）

一个文档的对象模型
(1)文档由多个Elements和TextNodes组成 (以及其它辅助nodes：详细可查看：nodes package tree).
(2)其继承结构如下：Document继承Element继承Node. TextNode继承 Node.
(3)一个Element包含一个子节点集合，并拥有一个父Element。他们还提供了一个唯一的子元素过滤列表。
参见
（1）数据抽取：DOM遍历
（2）数据抽取：Selector syntax

二：输入
1.解析一个HTML字符串
存在问题:
来自用户输入，一个文件或一个网站的HTML字符串，你可能需要对它进行解析并取其内容，或校验其格式是否完整，或想修改它。怎么办？jsonu能够帮你轻松解决这些问题

解决方法:
使用静态Jsoup.parse(String html) 方法或 Jsoup.parse(String html, String baseUri)示例代码：

String html = "First parse"
+ "

Parsed HTML into a doc.

";
Document doc = Jsoup.parse(html);

描述:
parse(String html, String baseUri) 这方法能够将输入的HTML解析为一个新的文档 (Document），
参数 baseUri 是用来将相对 URL 转成绝对URL，并指定从哪个网站获取文档。
如这个方法不适用，你可以使用 parse(String html) 方法来解析成HTML字符串如上面的示例。

只要解析的不是空字符串，就能返回一个结构合理的文档，其中包含(至少) 一个head和一个body元素。

一旦拥有了一个Document，你就可以使用Document中适当的方法或它父类 Element和Node中的方法来取得相关数据。

2.解析一个body片断
问题：
假如你有一个HTML片断 (比如. 一个 div 包含一对 p 标签; 一个不完整的HTML文档)
想对它进行解析。这个HTML片断可以是用户提交的一条评论或在一个CMS页面中编辑body部分。

办法：
使用Jsoup.parseBodyFragment(String html)方法.

String html = "

Lorem ipsum.

";
Document doc = Jsoup.parseBodyFragment(html);
Element body = doc.body();

说明：
parseBodyFragment 方法创建一个空壳的文档，并插入解析过的HTML到body元素中。
假如你使用正常的 Jsoup.parse(String html) 方法，通常你也可以得到相同的结果，
但是明确将用户输入作为 body片段处理，以确保用户所提供的任何糟糕的HTML都将被解析成body元素。

Document.body() 方法能够取得文档body元素的所有子元素，与 doc.getElementsByTag("body")相同。

保证安全Stay safe
假如你可以让用户输入HTML内容，那么要小心避免跨站脚本攻击。
利用基于 Whitelist 的清除器和 clean(String bodyHtml, Whitelist whitelist)方法来清除用户输入的恶意内容。

3.从一个URL加载一个Document
存在问题：
你需要从一个网站获取和解析一个HTML文档，并查找其中的相关数据。你可以使用下面解决方法：

解决方法：
使用 Jsoup.connect(String url)方法:

Document doc = Jsoup.connect("http://example.com/").get();
String title = doc.title();

说明：
connect(String url) 方法创建一个新的 Connection, 和 get() 取得和解析一个HTML文件。
如果从该URL获取HTML时发生错误，便会抛出 IOException，应适当处理。

Connection 接口还提供一个方法链来解决特殊请求，具体如下：

Document doc = Jsoup.connect("http://example.com")
.data("query", "Java")
.userAgent("Mozilla")
.cookie("auth", "token")
.timeout(3000)
.post();
这个方法只支持Web URLs (http和https 协议); 假如你需要从一个文件加载，
可以使用 parse(File in, String charsetName) 代替。

4.从一个文件加载一个文档
问题：
在本机硬盘上有一个HTML文件，需要对它进行解析从中抽取数据或进行修改。

办法：
可以使用静态 Jsoup.parse(File in, String charsetName, String baseUri) 方法：

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");
说明：
parse(File in, String charsetName, String baseUri) 这个方法用来加载和解析一个HTML文件。如在加载文件的时候发生错误，将抛出IOException，应作适当处理。

baseUri 参数用于解决文件中URLs是相对路径的问题。如果不需要可以传入一个空的字符串。

另外还有一个方法parse(File in, String charsetName) ，它使用文件的路径做为 baseUri。
这个方法适用于如果被解析文件位于网站的本地文件系统，且相关链接也指向该文件系统。

三：数据抽取
1.使用DOM方法来遍历一个文档
问题：
你有一个HTML文档要从中提取数据，并了解这个HTML文档的结构。

方法：
将HTML解析成一个Document之后，就可以使用类似于DOM的方法进行操作。示例代码：

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
String linkHref = link.attr("href");
String linkText = link.text();
}
说明：
Elements这个对象提供了一系列类似于DOM的方法来查找元素，抽取并处理其中的数据。具体如下：

查找元素
getElementById(String id)
getElementsByTag(String tag)
getElementsByClass(String className)
getElementsByAttribute(String key) (and related methods)
Element siblings:
siblingElements(),
firstElementSibling(),
lastElementSibling();
nextElementSibling(),
previousElementSibling()
Graph: parent(), children(), child(int index)
元素数据
attr(String key)获取属性
attr(String key, String value)设置属性
attributes()获取所有属性
id(), className() and classNames()
text()获取文本内容
text(String value) 设置文本内容
html()获取元素内HTML
html(String value)设置元素内的HTML内容
outerHtml()获取元素外HTML内容
data()获取数据内容（例如：script和style标签)
tag() and tagName()
操作HTML和文本
append(String html), prepend(String html)
appendText(String text), prependText(String text)
appendElement(String tagName), prependElement(String tagName)
html(String value)

2.使用选择器语法来查找元素
问题：
你想使用类似于CSS或jQuery的语法来查找和操作元素。

方法：
可以使用Element.select(String selector) 和 Elements.select(String selector) 方法实现：

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

Elements links = doc.select("a[href]"); //带有href属性的a元素
Elements pngs = doc.select("img[src$=.png]");
//扩展名为.png的图片

Element masthead = doc.select("div.masthead").first();
//class等于masthead的div标签

Elements resultLinks = doc.select("h3.r > a"); //在h3元素之后的a元素

说明：
jsoup elements对象支持类似于CSS (或jquery)的选择器语法，来实现非常强大和灵活的查找功能。.

这个select 方法在Document, Element,或Elements对象中都可以使用。且是上下文相关的，因此可实现指定元素的过滤，或者链式选择访问。

Select方法将返回一个Elements集合，并提供一组方法来抽取和处理结果。

Selector选择器概述
tagname: 通过标签查找元素，比如：a
ns|tag: 通过标签在命名空间查找元素，比如：可以用 fb|name 语法来查找元素
#id: 通过ID查找元素，比如：#logo
.class: 通过class名称查找元素，比如：.masthead
[attribute]: 利用属性查找元素，比如：[href]
[^attr]: 利用属性名前缀来查找元素，比如：可以用[^data-] 来查找带有HTML5 Dataset属性的元素
[attr=value]: 利用属性值来查找元素，比如：[width=500]
[attr^=value], [attr$=value], [attr*=value]: 利用匹配属性值开头、结尾或包含属性值来查找元素，比如：[href*=/path/]
[attr~=regex]: 利用属性值匹配正则表达式来查找元素，比如： img[src~=(?i)\.(png|jpe?g)]
*: 这个符号将匹配所有元素
Selector选择器组合使用
el#id: 元素+ID，比如： div#logo
el.class: 元素+class，比如： div.masthead
el[attr]: 元素+class，比如： a[href]
任意组合，比如：a[href].highlight
ancestor child: 查找某个元素下子元素，比如：可以用.body p 查找在"body"元素下的所有 p元素
parent > child: 查找某个父元素下的直接子元素，比如：可以用div.content > p 查找 p 元素，也可以用body > * 查找body标签下所有直接子元素
siblingA + siblingB: 查找在A元素之前第一个同级元素B，比如：div.head + div
siblingA ~ siblingX: 查找A元素之前的同级X元素，比如：h1 ~ p
el, el, el:多个选择器组合，查找匹配任一选择器的唯一元素，例如：div.masthead, div.logo
伪选择器selectors
:lt(n): 查找哪些元素的同级索引值（它的位置在DOM树中是相对于它的父节点）小于n，比如：td:lt(3) 表示小于三列的元素
:gt(n):查找哪些元素的同级索引值大于n，比如： div p:gt(2)表示哪些div中有包含2个以上的p元素
:eq(n): 查找哪些元素的同级索引值与n相等，比如：form input:eq(1)表示包含一个input标签的Form元素
:has(seletor): 查找匹配选择器包含元素的元素，比如：div:has(p)表示哪些div包含了p元素
:not(selector): 查找与选择器不匹配的元素，比如： div:not(.logo) 表示不包含 class=logo 元素的所有 div 列表
:contains(text): 查找包含给定文本的元素，搜索不区分大不写，比如： p:contains(jsoup)
:containsOwn(text): 查找直接包含给定文本的元素
:matches(regex): 查找哪些元素的文本匹配指定的正则表达式，比如：div:matches((?i)login)
:matchesOwn(regex): 查找自身包含文本匹配指定正则表达式的元素
注意：上述伪选择器索引是从0开始的，也就是说第一个元素索引值为0，第二个元素index为1等
可以查看Selector API参考来了解更详细的内容

3.从元素抽取属性，文本和HTML
问题：
在解析获得一个Document实例对象，并查找到一些元素之后，你希望取得在这些元素中的数据。

方法：
要取得一个属性的值，可以使用Node.attr(String key) 方法
对于一个元素中的文本，可以使用Element.text()方法
对于要取得元素或属性中的HTML内容，可以使用Element.html(), 或 Node.outerHtml()方法
示例：

String html = "

An example link.

";
Document doc = Jsoup.parse(html);//解析HTML字符串返回一个Document实现
Element link = doc.select("a").first();//查找第一个a元素

String text = doc.body().text(); // "An example link"//取得字符串中的文本
String linkHref = link.attr("href"); // "http://example.com/"//取得链接地址
String linkText = link.text(); // "example""//取得链接地址中的文本

String linkOuterH = link.outerHtml();
// "example"
String linkInnerH = link.html(); // "example"//取得链接内的html内容
说明：
上述方法是元素数据访问的核心办法。此外还其它一些方法可以使用：

Element.id()
Element.tagName()
Element.className() and Element.hasClass(String className)
这些访问器方法都有相应的setter方法来更改数据.

参见
（1）Element和Elements集合类的参考文档
（2）URLs处理
（3）使用CSS选择器语法来查找元素

4.处理URLs
问题：
你有一个包含相对URLs路径的HTML文档，需要将这些相对路径转换成绝对路径的URLs。

方法：
在你解析文档时确保有指定base URI，然后
使用 abs: 属性前缀来取得包含base URI的绝对路径。代码如下：
Document doc = Jsoup.connect("http://www.open-open.com").get();

Element link = doc.select("a").first();
String relHref = link.attr("href"); // == "/"
String absHref = link.attr("abs:href"); // "http://www.open-open.com/"

说明：
在HTML元素中，URLs经常写成相对于文档位置的相对路径： ....
当你使用 Node.attr(String key) 方法来取得a元素的href属性时，
它将直接返回在HTML源码中指定定的值。

假如你需要取得一个绝对路径，需要在属性名前加 abs: 前缀。这样就可以返回包含根路径的URL地址attr("abs:href")

因此，在解析HTML文档时，定义base URI非常重要。

如果你不想使用abs: 前缀，还有一个方法能够实现同样的功能 Node.absUrl(String key)。

四：修改数据
1.设置属性的值
问题：
在你解析一个Document之后可能想修改其中的某些属性值，然后再保存到磁盘或都输出到前台页面。

方法：
可以使用属性设置方法 Element.attr(String key, String value),
和 Elements.attr(String key, String value).

假如你需要修改一个元素的 class 属性，可以使用 Element.addClass(String className)
和 Element.removeClass(String className) 方法。

Elements 提供了批量操作元素属性和class的方法，
比如：要为div中的每一个a元素都添加一个 rel="nofollow" 可以使用如下方法：
doc.select("div.comments a").attr("rel", "nofollow");

说明：
与Element中的其它方法一样，attr 方法也是返回当 Element (或在使用选择器是返回 Elements 集合)。
这样能够很方便使用方法连用的书写方式。比如：
doc.select("div.masthead").attr("title", "jsoup").addClass("round-box");

2.设置一个元素的HTML内容
问题：
你需要一个元素中的HTML内容

方法：
可以使用Element中的HTML设置方法具体如下：

Element div = doc.select("div").first(); //

div.html("

lorem ipsum

"); //

lorem ipsum

div.prepend("

First

");//在div前添加html内容
div.append("

Last

");//在div之后添加html内容
// 添完后的结果:

First

lorem ipsum

Last

Element span = doc.select("span").first(); // One
span.wrap("

");
// 添完后的结果:

One

说明：
（1）Element.html(String html) 这个方法将先清除元素中的HTML内容，然后用传入的HTML代替。
（2）Element.prepend(String first) 和 Element.append(String last) 方法用于在分别在元素内部HTML的前面和后面添加HTML内容
（3）Element.wrap(String around) 对元素包裹一个外部HTML内容。
参见
可以查看API参考文档中 Element.prependElement(String tag)
和Element.appendElement(String tag) 方法来创建新的元素并作为文档的子元素插入其中。

3.设置元素的文本内容
问题：
你需要修改一个HTML文档中的文本内容

方法：
可以使用Element的设置方法：:

Element div = doc.select("div").first(); //

div.text("five > four"); //

five > four

div.prepend("First ");
div.append(" Last");
// now:

First five > four Last

说明：
文本设置方法与 HTML setter 方法一样：
（1）Element.text(String text) 将清除一个元素中的内部HTML内容，然后提供的文本进行代替
（2）Element.prepend(String first) 和 Element.append(String last) 将分别在元素的内部html前后添加文本节点。
对于传入的文本如果含有像 <, > 等这样的字符，将以文本处理，而非HTML。

五：清除html
消除不受信任的HTML (来防止XSS攻击)
问题:
在做网站的时候，经常会提供用户评论的功能。有些不怀好意的用户，会搞一些脚本到评论内容中，而这些脚本可能会破坏整个页面的行为，更严重的是获取一些机要信息，此时需要清理该HTML，以避免跨站脚本cross-site scripting攻击（XSS）。

方法:
使用jsoup HTML Cleaner 方法进行清除，但需要指定一个可配置的 Whitelist。

String unsafe =
"

Link

";
String safe = Jsoup.clean(unsafe, Whitelist.basic());
// now:

Link

说明:
XSS又叫CSS (Cross Site Script) ，跨站脚本攻击。
它指的是恶意攻击者往Web页面里插入恶意html代码，当用户浏览该页之时，
嵌入其中Web里面的html代码会被执行，从而达到恶意攻击用户的特殊目的。
XSS属于被动式的攻击，因为其被动且不好利用，所以许多人常忽略其危害性。
所以我们经常只让用户输入纯文本的内容，但这样用户体验就比较差了。

一个更好的解决方法就是使用一个富文本编辑器WYSIWYG如CKEditor 和 TinyMCE。
这些可以输出HTML并能够让用户可视化编辑。虽然他们可以在客户端进行校验，
但是这样还不够安全，需要在服务器端进行校验并清除有害的HTML代码，
这样才能确保输入到你网站的HTML是安全的。
否则，攻击者能够绕过客户端的Javascript验证，并注入不安全的HMTL直接进入您的网站。

jsoup的whitelist清理器能够在服务器端对用户输入的HTML进行过滤，只输出一些安全的标签和属性。

jsoup提供了一系列的Whitelist基本配置，能够满足大多数要求；但如有必要，也可以进行修改，不过要小心。

这个cleaner非常好用不仅可以避免XSS攻击，还可以限制用户可以输入的标签范围。

参见
(1)参阅XSS cheat sheet ，有一个例子可以了解为什么不能使用正则表达式，而采用安全的whitelist parser-based清理器才是正确的选择。
(2)参阅Cleaner ，了解如何返回一个 Document 对象，而不是字符串
(3)参阅Whitelist，了解如何创建一个自定义的whitelist
(4)nofollow 链接属性了解

这就是Jsoup的不足，如果Jsoup去抓取的页面的数据，全都是页面加载完成后，
ajax获取形成的，是抓取不到的。

你可能感兴趣的:(Jsoup)

爬虫基础 20岁30年经验的码农 1024程序员节
mavenpomorg.jsoupjsoup1.16.1org.apache.httpcomponentshttpcore4.4.16org.apache.httpcomponentshttpclient4.5.14commons-iocommons-io2.13.0====================================遍历网站内容爬取网站网址packagecom.xiaocao
如何使用Jsoup提取商品信息：实战指南数据小爬虫@ python 爬虫 java
在使用Java进行Web爬虫开发时，Jsoup是一个非常强大的HTML解析库，可以帮助你轻松地提取网页中的数据。本文将详细介绍如何使用Jsoup提取商品信息，包括商品标题、价格、描述和图片链接等。一、环境准备（一）Java开发环境确保你的系统中已安装Java开发环境，推荐使用JDK11或更高版本。（二）安装所需库使用Maven管理项目依赖，主要包括以下库：Jsoup：用于解析HTML内容。在pom
利用Java爬虫根据关键词获取商品列表：实战指南数据小爬虫@ java 爬虫开发语言
在电商领域，通过关键词搜索商品并获取商品列表是常见的需求。本文将详细介绍如何使用Java编写爬虫程序，根据关键词获取商品列表，并确保爬虫行为符合平台规范。为了确保代码的准确性和实用性，我们将提供详细的代码示例和解释。一、环境准备（一）Java开发环境确保你的系统中已安装Java开发环境，推荐使用JDK11或更高版本。（二）安装所需库使用Maven管理项目依赖，主要包括以下库：Jsoup：用于解析H
利用Java爬虫根据关键词获取17网（17zwd）商品列表：实战指南小爬虫程序猿 java 爬虫开发语言
在电商领域，通过关键词搜索商品并获取商品列表是常见的需求。17网（17zwd）作为知名的电商平台，提供了丰富的商品资源。本文将详细介绍如何使用Java爬虫技术根据关键词获取17网商品列表，并确保爬虫行为符合平台规范。一、环境准备（一）Java开发环境确保你的系统中已安装Java开发环境（推荐使用JDK1.8及以上版本）。（二）安装所需依赖使用Maven管理项目依赖，主要包括以下库：Jsoup：用于
获取网页内图片，并生成PDF文档软科 pdf python 开发语言
2024年小升初教材变更了，但是书店买不到新教材，看到网上有电子版教材，就写了个方法将教材图片来取下来并生成PDF文档，这样方便打印学习了。在此处记录一下方法。第一步：使用jsoup工具类抓取网页中的图片并保存本地：登录后复制publicstaticvoidmain(String[]args)throwsIOException{//网上电子版教材地址URLurl=newURL("教材网络地址");
Java爬虫——jsoup xxxmine java 爬虫开发语言
JSoup是一个用于处理HTML的Java库，它提供了一个非常方便类似于使用DOM，CSS和jquery的方法的API来提取和操作数据。Jsoup能做什么？从URL、文件或字符串中抓取和解析HTML（爬虫）使用DOM遍历或CSS选择器查找和提取数据操作HTML元素、属性和文本根据安全列表清理用户提交的内容，以防止XSS攻击输出整洁的网页Jsoup相关概念Document：文档对象。每份HTML页面
Java 9模块与Maven的深度结合 t0_54program java maven python 个人开发
在Java9引入模块化之后，如何将模块化与Maven项目结合成为了许多开发者关注的焦点。本文将通过一个简单的示例，展示如何在Maven项目中开发Java9模块，并使用非模块化的外部库（如Jsoup）。1.Maven项目配置首先，我们需要创建一个Maven项目，并在pom.xml中配置相关的依赖和插件。以下是完整的pom.xml文件内容：4.0.0com.logicbig.examplejava9-
利用Java爬虫精准获取商品销量详情：实战案例指南小爬虫程序猿 java 爬虫开发语言
在电商领域，商品销量数据是衡量产品受欢迎程度和市场表现的关键指标。精准获取商品销量详情不仅能帮助商家优化产品策略，还能为市场研究和数据分析提供丰富的数据资源。本文将详细介绍如何利用Java爬虫技术精准获取商品销量详情，并分享关键技术和代码示例。一、前期准备（一）环境搭建确保你的开发环境已安装以下必要的Java库：Jsoup：用于解析HTML页面。HttpClient：用于发送HTTP请求。Log4
利用Java爬虫获取Amazon商品详情：实战案例指南数据小小爬虫 java 爬虫开发语言
在电商领域，Amazon作为全球最大的电商平台之一，其商品详情数据对于市场分析、竞争策略制定以及电商运营优化具有极高的价值。通过Java爬虫技术，我们可以高效地获取这些数据，为电商从业者提供强大的数据支持。本文将详细介绍如何利用Java爬虫技术获取Amazon商品详情数据。一、准备工作（一）环境搭建确保你的开发环境中已经安装了以下必要的Java库：Jsoup：用于解析HTML页面。HttpClie
使用Java爬虫获取淘宝商品详情API返回值说明案例指南数据小小爬虫 java 爬虫开发语言
在电商数据分析和运营中，获取淘宝商品详情是常见的需求。淘宝开放平台提供了丰富的API接口，允许开发者通过合法的方式获取商品信息。本文将详细介绍如何使用Java编写爬虫，通过淘宝API获取商品详情，并解析API返回值的含义和结构。一、准备工作在开始编写爬虫之前，需要准备以下工具和库：Java开发环境：推荐使用IDEA或Eclipse。HttpClient库：用于发送HTTP请求。Jsoup库：用于解
利用Java爬虫精准获取淘宝分类详情：实战案例指南 Jason-河山 java 爬虫开发语言
在电商领域，淘宝作为中国最大的电商平台之一，其分类详情数据对于市场分析、竞争策略制定以及电商运营优化具有极高的价值。通过Java爬虫技术，我们可以高效地获取这些数据，为电商从业者提供强大的数据支持。本文将详细介绍如何利用Java编写爬虫程序，快速获取淘宝分类详情数据。一、准备工作（一）环境搭建确保你的开发环境中已经安装了以下必要的库：HttpClient：用于发送HTTP请求。Jsoup：用于解析
利用爬虫获取淘宝商品描述：实战案例指南数据小小爬虫爬虫
在电商领域，商品描述是消费者了解产品细节、做出购买决策的重要依据。精准获取淘宝商品描述不仅能帮助商家优化产品信息，还能为市场研究和数据分析提供丰富的数据资源。本文将详细介绍如何利用爬虫技术精准获取淘宝商品描述，并分享关键技术和代码示例。一、前期准备（一）环境搭建确保你的开发环境已安装以下必要的库：HttpClient：用于发送HTTP请求。Jsoup：用于解析HTML页面。JSON处理库：如org
分享一些处理复杂HTML结构的经验数据小爬虫@ html 前端
在处理复杂HTML结构时，尤其是使用Java爬虫和Jsoup进行数据抓取时，以下是一些实用的经验和技巧，可以帮助你更高效地解析和提取数据：1.缩小解析范围对于复杂的HTML结构，尽量缩小解析范围，只解析所需的元素。使用CSS选择器来定位所需的元素，而不是对整个文档进行解析。2.使用Jsoup的选择器功能Jsoup提供了强大的选择器功能，可以用来处理嵌套的DOM元素。例如，你可以使用select方法
如何使用Jsoup获取动态加载的内容小爬虫程序猿 java 爬虫开发语言
Jsoup是一个强大的Java库，用于解析HTML文档。然而，它主要用于解析静态HTML内容。对于动态加载的内容（如通过JavaScript生成的内容），Jsoup本身无法直接处理。不过，可以通过以下几种方法来解决这个问题：一、分析网络请求对于动态加载的内容，通常可以通过浏览器的开发者工具（如ChromeDevTools）来分析网络请求。找到加载动态内容的API接口后，可以直接使用Jsoup或Ht
XXL-CRAWLER v1.4.0 ｜ Java爬虫框架后端爬虫java
ReleaseNotes1、【提升】爬虫JS渲染能力强化：升级提供"Selenium+ChromeDriver"方案支持JS渲染，兼容性更高，废弃旧Phantomjs方案。非JS渲染场景仍然Jsoup，速度更快。同时支持自由扩展其他实现。2、【优化】进一步优化Selenium兼容问题，完善JS渲染场景下兼容性和性能。3、【重构】重构核心功能模块，提升扩展性；修复历史代码隐藏问题，提升系统稳定习惯。
java爬虫jsoup_Java爬虫框架Jsoup学习记录 weixin_33638349
Jsoup的作用当你想获得某网页的内容，可以使用此框架做个爬虫程序，爬某图片网站的图片(先获得图片地址，之后再借助其他工具下载图片)或者是小说网站的小说内容我使用Jsoup写出的一款小说下载器，小说下载器Jsoup导入1.使用gradle导入compile'org.jsoup:jsoup:1.11.1'2.第三方包导入Jsoup使用1.获得Document本地html文件或者使用javaIO流，则
Java简单爬虫 jsoup工具包 ax阿楠 java 爬虫开发语言前端
首先导入一个爬虫的工具包:jsoup-1.13.1.jar//测试爬虫的网址(爬取王者荣耀英雄的网址)staticStringurl="https://pvp.qq.com/web201605/herolist.shtml";//文件存放的地址staticStringpath="D://爬虫测试/";publicstaticvoidgetImgs(Stringurl){//加载对应网址上的Html
java爬虫工具Jsoup学习 Future_yzx java 爬虫学习
目录前言一、基本使用二、爬取豆瓣电影的案例三、Jsoup能做什么？四、Jsoup相关概念五、Jsoup获取文档六、定位选择元素七、获取数据八、具体案例前言JSoup是一个用于处理HTML的Java库，它提供了一个非常方便类似于使用DOM，CSS和jquery的方法的API来提取和操作数据。一、基本使用org.jsoupjsoup1.13.1二、爬取豆瓣电影的案例publicclassDouBan{
【SpringBoot实现xss防御】龙少9543 后端 spring boot xss 后端
SpringBoot实现xss防御在SpringBoot中实现XSS防御，可以通过多种方式来确保输入的安全性和防止恶意脚本的注入。下面提供了一些具体的实现代码示例，包括输入清理、输出编码以及设置安全响应头。1.输入清理创建一个简单的工具类来进行HTML转义：importorg.jsoup.Jsoup;importorg.jsoup.nodes.Document.OutputSettings;imp
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
2024年Java爬虫利器：Jsoup详细介绍与用法_java jsoup(1) 2401_84562143 程序员 java 爬虫开发语言
.method(Connection.Method.GET).execute();DocumentloginDoc=loginForm.parse();Elementform=loginDoc.select(“form”).first();//填充表单字段form.select(“input[name=username]”).val(“username”);form.select(“input[n
Java爬虫开发：Jsoup库在图片URL提取中的实战应用小白学大数据 python java 爬虫开发语言测试工具前端 javascript
在当今的互联网时代，数据的获取和处理变得尤为重要。对于网站内容的自动化抓取，爬虫技术扮演着不可或缺的角色。Java作为一种广泛使用的编程语言，拥有丰富的库支持网络爬虫的开发。其中，Jsoup库以其简洁、高效的特点，成为处理HTML内容和提取数据的优选工具。本文将详细介绍如何使用Jsoup库开发Java爬虫，以实现图片URL的提取。Jsoup库简介Jsoup是一个用于解析HTML文档的Java库，它
不通过修改代码可以调用不同方法的三种方式山间清泉1111
Stringpath=JsoupDemo1.class.getClassLoader().getResource("com/mujiachao/xml/dtd/student.xml").getPath();Documentdocument=Jsoup.parse(newFile(path),"utf-8");Elementsname=document.getElementsByTag("name
webmagic高级:(四) 沙漏如心
本篇呢，本来打算写一下，pipeline里面的ResultItems对象，但是呢，简单看了一下，里面东西不是很多。所以呢，我这次说，这个selectable对象，也就是节点对象，就想jsoup里面element对象.不过呢，这个对象内容较多所以，我们就只看一下他的接口，而不去看他的很多个实现类了！selectable前面呢，我们说过webmagic呢，是一个集成了jquery选择器，css选择器，
大数据相关技术 ssttIsme
1数据获取方式爬虫:分布式爬虫java的jsoup(操作方式基于选择器)，pythoon,八爪鱼日志收集:log4j(可以控制级别和放置的位置)(可以输出数据到flume)(可以输出到mq),flume(分布式日志收集系统)(收集用户ip，访问了哪个方法)(例如三大运营商的日志分析能根据用户71个字段，拿到谁在什么时间什么地点用什么手机什么浏览器哪个版本访问了什么网站访问了多长时间网站内容是什么)
2021最新版 ElasticSearch 7.6.1 教程详解爬虫jsoup+es模拟京东搜索（狂神说） Super_Song_ 中间件 elasticsearch 搜索引擎 java nosql
文章目录一、ElasticSearch简介1.了解创始人DougCutting2.Lucene简介3.ElasticSearch简介4.ElasticSearch和Solr的区别5.了解ELK二、软件安装1.ElasticSearch2.ElasticSearchHead3.Kibana三、ElasticSearch使用详解1.ES核心概念文档索引倒排索引ik分词器2.命令模式的使用Rest风格说
JAVA爬虫三种方法 weixin_40298650
文章目录前言一、JDK二、HttpClient三、Jsoup总结前言记录JAVA爬虫三种方式一、JDK使用JDK自带的URLConnection实现网络爬虫。publicvoidtestGet()throwsException{//1.确定要访问/爬取的URLURLurl=newURL("https://blog.csdn.net/weixin_40298650/article/details/1
[含完整代码]Java实现导出word文档【超详细】 Java患者· java word c#
前言：个人博客：www.wdcdbd.comjava实现导出word文档是项目中很常见的操作，但又是很棘手的操作，这篇文章，带大家从0到1超详细的完整的操作一遍java实现导出word文档。一定要认真看这篇文章，超详细。话不多说直接上代码。〇、实现导出word文档前准备使用的依赖：org.jsoupjsoup1.11.3cn.hutoolhutool-all5.8.16org.apache.com
如何使用工具获取动态HTML页面内容 CodingCode
如何使用工具获取动态HTML页面内容我们知道jsoup可以用来获取HTML页面并且分析读取页面内容。例如：importjava.io.IOException;importorg.jsoup.Jsoup;importorg.jsoup.nodes.Document;importorg.jsoup.nodes.Element;importorg.jsoup.select.Elements;public
Jsoup使用示例大灰狼zz
查看网页源码和对应标签使用QQ浏览器搜狗引擎搜索奥迪image.png在浏览器中按F12可以查看网页源码image.png点击源码左上角的按钮image.png再把鼠标移动到坐标任意位置，在源代码中会高亮对应的标签image.png网页爬虫示例在gradle中引入Jsoupdependencies{//爬虫api'org.jsoup:jsoup:1.11.3'相关代码@Overridepublic
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他