lijianbiao0
爬虫系列-jsoup爬取网页你需要了解的一切

爬虫系列-jsoup爬取网页

概述
解析和遍历文档
文档的对象模型
加载HTML数据
从String解析文档
从String中加载解析片段
从URL加载文档
描述
从文件加载文档
描述
提取数据
使用DOM方法导航文档
描述
寻找元素
元素数据
处理HTML和文本
使用selector-syntax查找元素
描述
选择器概述
选择器组合
伪选择器
从元素中提取属性，文本和HTML
描述
解析URL
描述
案例：列出链接
修改数据
修改属性值
描述
修改元素的HTML
其他方法
设置元素的文本内容
扩展
清理不受信任的HTML（以防止XSS）
扩展
概述

解析和遍历文档

无论HTML是否格式正确，解析器都会尝试从您提供的HTML中创建一个干净的解析。它处理：
未封闭的标签（例如Lorem Ipsum解析 Lorem Ipsum）
隐式标签（例如裸体
Table data被包裹成a ...） 
   可靠地创建文档结构（html含有head和body，只有适当的头部内的元件） 
   
  文档的对象模型 
   
   文档由Elements和TextNodes（以及其他几个misc节点组成）。 
   继承关系为： Document extends Element extends Node， TextNode extends Node. 
   元素包含子节点列表，并具有一个父元素。它们还仅提供子元素的筛选列表。 
   
  加载HTML数据 
  我们的HTML文档 可能来自用户输入，文件或来自Web。 
  从String解析文档 
  使用静态Jsoup.parse(String html)方法，或者Jsoup.parse(String html, String baseUri)如果页面来自Web，希望您获得绝对URL。例如： 
  String html = "First parse"
  + "Parsed HTML into a doc.";
Document doc = Jsoup.parse(html);
 
   
   该parse(String html, String baseUri)方法将输入HTML解析为新的Document。该base URI参数用于将相对URL解析为绝对URL，并应设置为从中获取文档的URL。如果这不适用，或者您知道HTML有base元素，则可以使用该parse(String html)方法。
 只要传入一个非空字符串，就可以保证有一个成功的，合理的解析，一个包含（至少）a head和一个body元素的Document 。 
   
  获得Document后，您可以使用Document及其supers Element和中的相应方法获取数据Node。 
  从String中加载解析片段 
  您有一个要解析的正文HTML片段（例如，div包含几个p标记;而不是完整的HTML文档）。也许它是由用户提交评论或在CMS中编辑页面正文提供的。
 使用该Jsoup.parseBodyFragment(String html)方法。： 
  String html = "Lorem ipsum.";
Document doc = Jsoup.parseBodyFragment(html);
Element body = doc.body();
 
   
   该parseBodyFragment方法创建一个空shell文档，并将解析后的HTML插入该body元素中。如果您使用普通Jsoup.parse(String html)方法，通常会得到相同的结果，但明确将输入视为正文片段可确保将用户提供的任何bozo HTML解析为body元素。
 该Document.body()方法检索文档body元素的元素子元素; 它相当于doc.getElementsByTag(“body”)。 
   
  从URL加载文档 
  您需要从Web获取并解析HTML文档，并在其中查找数据（屏幕抓取）。
 使用Jsoup.connect(String url)方法： 
  Document doc = Jsoup.connect("http://example.com/").get();
String title = doc.title();
 
  描述 
  该connect(String url)方法创建一个新的Connection，并get()提取和解析HTML文件。如果在获取URL时发生错误，它将抛出一个IOException，您应该适当处理。 
  该Connection接口设计用于方法链接以构建特定请求： 
  Document doc = Jsoup.connect("http://example.com")
  .data("query", "Java")
  .userAgent("Mozilla")
  .cookie("auth", "token")
  .timeout(3000)
  .post();
 
  此方法仅支持Web URL（http和https协议）; 如果需要从文件加载，请改用该parse(File in, String charsetName)方法。 
  从文件加载文档 
  磁盘上有一个包含HTML的文件，您要加载和解析，然后可以操作或提取数据。
 使用静态Jsoup.parse(File in, String charsetName, String baseUri)方法： 
  File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");
 
  描述 
  该parse(File in, String charsetName, String baseUri)方法加载并解析HTML文件。如果在加载文件时发生错误，它将抛出一个IOException，你应该适当处理。 
  baseUri解析器使用该参数在找到元素之前解析文档中的相对URL 。如果您不关心这一点，则可以传递空字符串。 
  有一个姐妹方法parse(File in, String charsetName)使用文件的位置作为baseUri。如果您正在处理文件系统本地站点并且它指向的相对链接也在文件系统上，这将非常有用。 
  提取数据 
  使用DOM方法导航文档 
  您有一个要从中提取数据的HTML文档。您通常知道HTML文档的结构。 
  File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
  String linkHref = link.attr("href");
  String linkText = link.text();
}
 
  描述 
  元素提供了一系列类似DOM的方法来查找元素，并提取和操作它们的数据。DOM getter是上下文的：在父文档上调用它们在文档下找到匹配的元素; 他们在一个子元素上调用了那个孩子下面的元素。通过这种方式，您可以了解所需的数据。 
  寻找元素 
   
   getElementById(String id) 
   getElementsByTag(String tag) 
   getElementsByClass(String className) 
   getElementsByAttribute(String key) （及相关方法） 
   元素的兄弟姐妹：siblingElements()，firstElementSibling()，lastElementSibling()，nextElementSibling()，previousElementSibling() 
   图：parent()，children()，child(int index) 
   
  元素数据 
   
   attr(String key)获取和attr(String key, String value)设置属性 
   attributes() 获得所有属性 
   id()，className()和classNames() 
   text()获取和text(String value)设置文本内容 
   html()获取和html(String value)设置内部HTML内容 
   outerHtml() 获取外部HTML值 
   data()获取数据内容（例如script和style标签） 
   tag() 和 tagName() 
   
  处理HTML和文本 
   
   append(String html)， prepend(String html) 
   appendText(String text)， prependText(String text) 
   appendElement(String tagName)， prependElement(String tagName) 
   html(String value) 
   
  使用selector-syntax查找元素 
  您希望使用CSS或类似jquery的选择器语法来查找或操作元素。
 使用Element.select(String selector)和Elements.select(String selector)方法： 
  File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

Elements links = doc.select("a[href]"); // a with href
Elements pngs = doc.select("img[src$=.png]");
  // img with src ending .png

Element masthead = doc.select("div.masthead").first();
  // div with class=masthead

Elements resultLinks = doc.select("h3.r > a"); // direct a after h3
 
  描述 
  jsoup元素支持CSS（或jquery）之类的选择器语法来查找匹配元素，从而允许非常强大和健壮的查询。 
  该select方法在一个可用Document，Element或在Elements。它是上下文的，因此您可以通过从特定元素中进行选择或通过链接选择调用来进行过滤。 
  Select返回一个Elements列表（as Elements），它提供了一系列提取和操作结果的方法。 
  选择器概述 
   
   tagname：按标签查找元素，例如 a 
   ns|tag：在命名空间中按标记fb|name查找元素，例如查找元素 
   #id：按ID查找元素，例如 #logo 
   .class：按类名查找元素，例如 .masthead 
   [attribute]：具有属性的元素，例如 [href] 
   [^{attr]：具有属性名称前缀的[}data-]元素，例如查找具有HTML5数据集属性的元素 
   [attr=value]：具有属性值的元素，例如[width=500]（也是可引用的[data-name=‘launch sequence’]） 
   [attr^=value]，[attr$=value]，[attr*=value]：用与启动属性，以结束，或包含所述的值，例如元素[href*=/path/] 
   [attr~=regex]：具有与正则表达式匹配的属性值的元素; 例如img[src~=(?i).(png|jpe?g)] 
   *：所有元素，例如 * 
   
  选择器组合 
   
   el#id：具有ID的元素，例如 div#logo 
   el.class：带有类的元素，例如 div.masthead 
   el[attr]：具有属性的元素，例如 a[href] 
   任何组合，例如 a[href].highlight 
   ancestor child：从祖先下降的子元素，例如在类“body”的块下的任何位置.body p查找p元素 
   parent > child：直接从父级下降的子元素，例如div.content > p查找p元素; 并body > *找到body标签的直接子节点 
   siblingA + siblingB：找到兄弟B元素之后紧接着兄弟A，例如 div.head + div 
   siblingA ~ siblingX：找到兄弟A前面的兄弟X元素，例如 h1 ~ p 
   el, el, el：对多个选择器进行分组，找到与任何选择器匹配的唯一元素; 例如div.masthead, div.logo 
   
  伪选择器 
   
   :lt(n)：找到其兄弟索引（即它在DOM树中相对于其父节点的位置）小于的元素n; 例如td:lt(3) 
   :gt(n)：查找兄弟索引大于的元素n; 例如div p:gt(2) 
   :eq(n)：查找兄弟索引等于的元素n; 例如form input:eq(1) 
   :has(selector)：查找包含与选择器匹配的元素的元素; 例如div:has§ 
   :not(selector)：查找与选择器不匹配的元素; 例如div:not(.logo) 
   :contains(text)：查找包含给定文本的元素。搜索不区分大小写; 例如p:contains(jsoup) 
   :containsOwn(text)：查找直接包含给定文本的元素 
   :matches(regex)：查找文本与指定正则表达式匹配的元素; 例如div:matches((?i)login) 
   :matchesOwn(regex)：查找自己的文本与指定正则表达式匹配的元素
 注意，上面的索引伪选择器是基于0的，即第一个元素是索引0，第二个元素是1，等等
 有关Selector完整支持的列表和详细信息，请参阅API参考。 
   
  从元素中提取属性，文本和HTML 
  在解析文档并找到一些元素之后，您将需要获取这些元素中的数据。 
   
   要获取属性的值，请使用该Node.attr(String key)方法 
   对于元素（及其组合子元素）上的文本，请使用 Element.text() 
   对于HTML，使用Element.html()或Node.outerHtml()适当 
   
  String html = "An example link.";
Document doc = Jsoup.parse(html);
Element link = doc.select("a").first();

String text = doc.body().text(); // "An example link"
String linkHref = link.attr("href"); // "http://example.com/"
String linkText = link.text(); // "example""

String linkOuterH = link.outerHtml(); 
    // "example"
String linkInnerH = link.html(); // "example"
 
  描述 
  上述方法是元素数据访问方法的核心。还有其他： 
   
   Element.id() 
   Element.tagName() 
   Element.className() 和 Element.hasClass(String className) 
   所有这些访问器方法都有相应的setter方法来更改数据。 
   
  解析URL 
  有一个包含相对URL的HTML文档，您需要将其解析为绝对URL。 
   
   确保base URI在解析文档时指定（在从URL加载时隐式），以及 
   使用abs:属性前缀解析属性的绝对URL： 
   
  Document doc = Jsoup.connect("http://jsoup.org").get();

Element link = doc.select("a").first();
String relHref = link.attr("href"); // == "/"
String absHref = link.attr("abs:href"); // "http://jsoup.org/"
 
  描述 
  在HTML元素中，URL通常是相对于文档的位置编写的：...。当您使用该Node.attr(String key)方法获取href属性时，它将按照源HTML中的指定返回。 
  如果要获取绝对URL，则会有一个属性键前缀abs:，该前缀将导致根据文档的基URI（原始位置）解析属性值：attr(“abs:href”) 
  对于此用例，在解析文档时指定基URI非常重要。 
  如果您不想使用abs:前缀，还有一个方法Node.absUrl(String key)可以执行相同的操作，但可以通过自然属性键进行访问。 
  案例：列出链接 
  此示例程序演示了如何从URL获取页面; 提取链接，图像和其他指针; 并检查他们的URL和文本。 
  指定要获取的URL作为程序的唯一参数。 
  import org.jsoup.Jsoup;
import org.jsoup.helper.Validate;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

/**
 * Example program to list links from a URL.
 */
public class ListLinks {
    public static void main(String[] args) throws IOException {
        Validate.isTrue(args.length == 1, "usage: supply url to fetch");
        String url = args[0];
        print("Fetching %s...", url);

        Document doc = Jsoup.connect(url).get();
        Elements links = doc.select("a[href]");
        Elements media = doc.select("[src]");
        Elements imports = doc.select("link[href]");

        print("\nMedia: (%d)", media.size());
        for (Element src : media) {
            if (src.tagName().equals("img"))
                print(" * %s: <%s> %sx%s (%s)",
                        src.tagName(), src.attr("abs:src"), src.attr("width"), src.attr("height"),
                        trim(src.attr("alt"), 20));
            else
                print(" * %s: <%s>", src.tagName(), src.attr("abs:src"));
        }

        print("\nImports: (%d)", imports.size());
        for (Element link : imports) {
            print(" * %s <%s> (%s)", link.tagName(),link.attr("abs:href"), link.attr("rel"));
        }

        print("\nLinks: (%d)", links.size());
        for (Element link : links) {
            print(" * a: <%s>  (%s)", link.attr("abs:href"), trim(link.text(), 35));
        }
    }

    private static void print(String msg, Object... args) {
        System.out.println(String.format(msg, args));
    }

    private static String trim(String s, int width) {
        if (s.length() > width)
            return s.substring(0, width-1) + ".";
        else
            return s;
    }
}
 
  修改数据 
  修改属性值 
  您有一个已解析的文档，您希望在将其保存到磁盘之前更新属性值，或者将其作为HTTP响应发送。
 使用属性setter方法Element.attr(String key, String value)，和Elements.attr(String key, String value)。 
  如果需要修改class元素的属性，请使用Element.addClass(String className)和Element.removeClass(String className)方法。 
  该Elements集合具有批量归属和类方法。例如，要为div中的rel="nofollow"每个a元素添加一个属性：
 ·doc.select(“div.comments a”).attr(“rel”, “nofollow”);· 
  描述 
  与其他方法一样Element，这些attr方法返回当前Element（或者Elements从select中处理集合时）。这允许方便的方法链接
 doc.select("div.masthead").attr("title", "jsoup").addClass("round-box"); 
  修改元素的HTML 
  使用HTML setter方法Element： 
  Element div = doc.select("div").first(); // 
div.html("lorem ipsum
"); // lorem ipsum
div.prepend("First");
div.append("Last");
// now: First
lorem ipsum
Last

Element span = doc.select("span").first(); // One
span.wrap("");
// now: One
 
  其他方法 
   
   Element.html(String html) 清除元素中的任何现有内部HTML，并将其替换为已解析的HTML。 
   Element.prepend(String first)并分别Element.append(String last)将HTML添加到元素内部HTML的开头或结尾 
   Element.wrap(String around)围绕元素的外部 HTML 包装HTML 。
 您还可以使用Element.prependElement(String tag)和Element.appendElement(String tag)方法创建新元素，并将它们作为子元素插入到文档流中。 
   
  设置元素的文本内容 
  使用以下文本setter方法Element： 
  Element div = doc.select("div").first(); // 
div.text("five > four"); // five > four
div.prepend("First ");
div.append(" Last");
// now: First five > four Last
 
  扩展 
  文本setter方法镜像HTML setter方法： 
  Element.text(String text) 清除元素中的任何现有内部HTML，并将其替换为提供的文本。
 Element.prepend(String first)和Element.append(String last)添加文本节点到元素的内部HTML的开始或结束时，分别
 文本应提供未编码：喜欢文字<，>等会为文字，而不是HTML处理。 
  清理不受信任的HTML（以防止XSS） 
  您希望允许不受信任的用户为您网站上的输出提供HTML（例如，作为评论提交）。您需要清理此HTML以避免跨站点脚本（XSS）攻击。
 将jsoup HTML Cleaner与a指定的配置一起使用Whitelist。 
  String unsafe = 
  "Link";
String safe = Jsoup.clean(unsafe, Whitelist.basic());
// now: Link
 
  扩展 
  针对您网站的跨站点脚本攻击可能会毁了您的一天，更不用说您的用户了。许多站点通过不允许在用户提交的内容中使用HTML来避免XSS攻击：它们仅强制执行纯文本，或使用其他标记语法，如wiki-text或Markdown。这些对用户来说很少是最佳解决方案，因为它们会降低表现力，并迫使用户学习新语法。 
  更好的解决方案可能是使用富文本WYSIWYG编辑器（如CKEditor或TinyMCE）。这些输出HTML，并允许用户直观地工作。但是，它们的验证是在客户端完成的：您需要应用服务器端验证来清理输入并确保HTML可以安全地放置在您的站点上。否则，攻击者可以避免客户端Javascript验证并将不安全的HMTL直接注入您的站点 
  jsoup白名单清理程序通过解析输入HTML（在安全的沙盒环境中），然后遍历解析树并仅允许已知安全标记和属性（和值）进入清理后的输出来工作。 
  它不使用不适合此任务的正则表达式。 
  jsoup提供一系列Whitelist配置以满足大多数要求; 如有必要，可以对它们进行修改，但请注意。 
  清洁器是不仅用于避免XSS，而且在限制元件，用户可以提供的范围有用：您可以与文本行a，strong元素，但不是结构性div或table元件。 
  

                            
                        
                    
                    
                    
                    
                    
                    
                
                
                    
                        
                        
                             
                        
                        
                        
                            
                        
                        
                        
                            
                        
                    
                
            
        
    
    
        你可能感兴趣的:(java爬虫)
        
            
                
                    Java爬虫框架（一）--架构设计
                        狼图腾-狼之传说
java框架java任务html解析器存储电子商务
                        一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
                    
                    WebMagic：强大的Java爬虫框架解析与实战
                        Aaron_945
Javajava爬虫开发语言
                        文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
                    
                    如何在Java爬虫中设置代理IP：详解与技巧
                        天启代理ip
java爬虫tcp/ip
                        在进行网络爬虫时，使用代理IP可以有效地避免被目标网站封禁，提升数据抓取的成功率。本文将详细介绍如何在Java爬虫中设置代理IP，并提供一些实用的技巧和示例代码。为什么需要代理IP？在进行爬虫操作时，频繁的请求可能会引起目标网站的注意，甚至导致IP被封禁。就像一只贪心的小猫不停地偷鱼吃，迟早会被发现。为了避免这种情况，我们可以使用代理IP，模拟多个用户，从而降低被封禁的风险。获取代理IP获取代理I
                    
                    2024年Java爬虫利器：Jsoup详细介绍与用法_java jsoup(1)
                        2401_84562143
程序员java爬虫开发语言
                        .method(Connection.Method.GET).execute();DocumentloginDoc=loginForm.parse();Elementform=loginDoc.select(“form”).first();//填充表单字段form.select(“input[name=username]”).val(“username”);form.select(“input[n
                    
                    Java爬虫开发：Jsoup库在图片URL提取中的实战应用
                        小白学大数据
pythonjava爬虫开发语言测试工具前端javascript
                        在当今的互联网时代，数据的获取和处理变得尤为重要。对于网站内容的自动化抓取，爬虫技术扮演着不可或缺的角色。Java作为一种广泛使用的编程语言，拥有丰富的库支持网络爬虫的开发。其中，Jsoup库以其简洁、高效的特点，成为处理HTML内容和提取数据的优选工具。本文将详细介绍如何使用Jsoup库开发Java爬虫，以实现图片URL的提取。Jsoup库简介Jsoup是一个用于解析HTML文档的Java库，它
                    
                    Java编写爬虫和Python编写爬虫到底有什么区别
                        菜到极致就是渣
网络知识爬虫java爬虫大数据javascript
                        关于Java编写爬虫和Python编写爬虫，以前我就特别疑惑，但是却并没有放在心上，不知道最近我为什么会突然感兴趣。于是我就搜了一下爬虫相关知识以及学习课程，结果我发现全都是用Python来进行网络爬虫，基本上看不到Java爬虫，以前没学爬虫的时候，我还以为只能用Python进行爬虫，难道我还要再去学Python？后面我才发现Java也可以进行爬虫，但是竟然Java也可以爬虫的话，为什么很多教学网
                    
                    【开源项目阅读】Java爬虫抓取豆瓣图书信息
                        IncludeFun
java爬虫开发语言
                        原项目链接Java爬虫抓取豆瓣图书信息本地运行运行过程另建项目，把四个源代码文件拷贝到自己的包下面在代码爆红处按ALT+ENTER自动导入maven依赖直接运行Main.main方法，启动项目运行结果在本地磁盘上生成三个xml文件其中的内容即位爬取后到的图书信息，包括：书名作者名出版社名isbn号图书对应的豆瓣链接图书封面图片地址可惜并没有直接爬取到图书的内容，不过可以凭借爬取得到的图书元数据去其
                    
                    JAVA爬虫三种方法
                        weixin_40298650

                        文章目录前言一、JDK二、HttpClient三、Jsoup总结前言记录JAVA爬虫三种方式一、JDK使用JDK自带的URLConnection实现网络爬虫。publicvoidtestGet()throwsException{//1.确定要访问/爬取的URLURLurl=newURL("https://blog.csdn.net/weixin_40298650/article/details/1
                    
                    Java爬虫与SSL代理：实际案例分析与技术探讨
                        小白学大数据
pythonjava爬虫ssl开发语言
                        前言网络爬虫成为获取互联网数据的重要工具之一,然而，随着网络安全意识的提高，许多网站开始采用SSL加密来保护数据传输的安全性。本文将介绍如何使用Java编程语言结合SSL代理技术来实现网络爬虫，并通过实际案例分析和技术探讨来展示其应用价值。SSL代理技术优势SSL代理技术是一种能够在SSL加密通信中进行中间人攻击的技术，通过SSL代理，我们可以在客户端和服务器之间插入一个代理服务器，对SSL加密的
                    
                    Java爬虫+协同过滤+Springboot+vue.js实现的小说推荐系统，小说推荐平台，小说管理系统
                        计算机程序优异哥

                        互联网小说资源网站非常的多，但是很多阅读资源都需要收费开会员才能阅读。因此本次毕业设计程序立足于网络爬虫技术采集互联网小说资源分析汇总至本小说推荐平台，基于用户协同过滤推荐算法对不同的用户展开个性化的小说内容推荐阅读。一、程序设计本次基于爬虫的小说推荐系统主要内容涉及：主要功能模块：小说阅读推荐前端平台，小说数据管理与分析平台主要包含技术：java爬虫，redis，springboot，mybat
                    
                    Java爬虫批量爬取图片
                        zxy199288
javajava爬虫python
                        Java爬取图片现在开始学习爬虫，对于爬虫的入门来说，图片相对来说是比较容易获取的，因为大部分图片都不是敏感数据，所以不会遇到什么反爬措施，对于入门爬虫来说是比较合适的。使用技术：Java基础知识、HttpClient4.x、Jsoup学习目标：下载静态资源图片。爬取思路对于这种图片的获取，其实本质上就是就是文件的下载（HttpClient）。但是因为不只是获取一张图片，所以还会有一个页面解析的处
                    
                    JAVA爬虫案例——JSOUP爬取图片并使用v-viewer实现图片预览
                        北溟溟
JAVAjava爬虫
                        前言网络爬虫是大数据时代收集数据的一种有效手段，合理合法的运用技术手段获取网络数据，实现数据的再利用也是程序员的一项重要技能。本节我们使用java环境下的jsoup实现网络数据的爬取，主要是图片数据的异步爬取，并实现网络图片的下载及图片的预览功能，预览功能使用具有丰富功能的v-viewer实现。正文引入爬虫pom工具包org.apache.httpcomponentshttpclient4.5.6
                    
                    Jsoup - 【Java爬虫】- 批量下载指定网站图片
                        QX_Java_Learner
Javajava
                        简介Jsoup是一款Java的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于JQuery的操作方法来取出和操作数据。Jsoup对多线程、连接池、代理等等的支持并不是很好，所以一般把Jsoup仅仅作为HTML解析工具使用。功能从一个URL、文件或字符串中解析HTML使用DOM或CSS选择器来查找、取出数据可操作HTML元素、属
                    
                    Java爬虫，关于selenium/guava/JDK版本的兼容性说明
                        佩洛君
java爬虫selenium
                        直接给maven这个是JDK1.8下绝对能跑的，测试时间：2024/1/18org.seleniumhq.seleniumselenium-java4.1.1com.google.guavaguava31.0.1-jre行吧，cloudFlare能挡住selenium，给我防麻了这个兼容性不行，版本差一点点就报错
                    
                    java爬取数据放入mysql_Java爬虫历险记 -- （2）爬取数据并存放到mysql
                        郑默默
java爬取数据放入mysql
                        本文是对博客下雨天没带伞–JAVA实现网页爬虫及将数据写入数据库–http://blog.csdn.net/sinat_38224744/article/details/70652767中代码的理解和补充，并使用NavicatforMySQL软件实现对数据的可视化操作。代码分成两部分：Web.java+Jdbc.java一、Web.java/***原博客：http://blog.csdn.net/
                    
                    Java爬虫爬取图片壁纸
                        .陌路
SpringBoot3.xJavajava爬虫SpringBoot3.xJava17springboot3jshtml5
                        Java爬虫以sougou图片为例：https://pic.sogou.com/JDK17、SpringBoot3.2.X、hutool5.8.24实现Java爬虫，爬取页面图片项目介绍开发工具：IDEA2023.2.5JDK：Java17SpringBoot：3.2.x通过SpringBoot快速构建开发环境，通过Jsoup实现对网页的解析，并获取想要的资源数据使用hutool工具，将所需要的字
                    
                    Java爬虫-使用jsoup爬取数据入门案例（爬取豆瓣电影Top250数据）
                        丿BAIKAL巛
#Java爬虫java爬虫开发语言
                        有需要用到jsoup来获取数据，因为之前没有用过，所以就想写一个入门案例来巩固一下，这个案例的功能是爬取豆瓣电影Top250的电影数据（电影名称，简介，评分，评价等），并且将数据存到Excel表格中。这是豆瓣电影Top250的网址，https://movie.douban.com/top250?start=0文章目录一、前置工作1.1技术介绍JsoupApachePOI1.2依赖导入Jsoup入门
                    
                    java爬虫和python爬虫的区别
                        考一个红薯
pythonjava爬虫
                        java爬虫与python爬虫的对比：python做爬虫语法更简单，代码更简洁。java的语法比python严格，而且代码也更复杂示例如下：url请求：java版的代码如下：publicStringcall(Stringurl){Stringcontent="";BufferedReaderin=null;try{URLrealUrl=newURL(url);URLConnectionconnec
                    
                    用Java爬取新房二手房数据看总体大环境
                        q56731523
java开发语言kotlinpython爬虫代理模式
                        都说现在房市惨淡，导致很多人在观望，那么今天我写一段爬虫，主要是抓取各地新房以及二手房成交状况，然后了解总体楼市是否回暖上升。以下是Java爬虫程序的代码示例，用于抓取贝壳网新房和二手房数据：importorg.jsoup.Jsoup;importorg.jsoup.nodes.Document;importorg.jsoup.nodes.Element;importorg.jsoup.selec
                    
                    新车怎么选？用Java采集汽车之家车辆配置参数信息
                        q56731523
java汽车开发语言rust后端c语言
                        年关将至，辛苦一年了，总得犒劳犒劳自己，有人喜欢出去大吃一顿，逛街买东西，也有人会选择买车给自己增添一个代步工具买一辆汽车，而且现在车辆活动力度很大，将会吸引更多人购买欲。那么，普通人怎么选择车辆呢？下面我将通过java爬虫写一个车辆配置参数信息抓取程序，并进行分析对比，让选择也能手机刷刷就能完事。这是一个使用Java编写的爬虫程序，用于抓取汽车之家的车型、车系、配置参数数据。在开始之前，需要了解
                    
                    【java爬虫】首页显示沪深300指数走势图以及前后端整合部署方法
                        haohulala
java网络爬虫前端学习笔记java爬虫vue.js
                        添加首页本文我们将在首页添加沪深300指数成立以来的整体走势数据展示，最后的效果是这样的单独贴一张沪深300整体走势图我感觉从总体上来看指数还是比较稳的，没有特别大的波动，当然，这只是相对而言哈哈。首先是前端页面更新沪深300成分股数据信息更新状态：{{update_status}}操作：重新更新信息importaxiosfrom"axios";import{ElMessage}from"elem
                    
                    Java爬虫系列二：使用HttpClient抓取页面HTML
                        不會變承諾

                        爬虫要想爬取需要的信息，首先第一步就要抓取到页面html内容，然后对html进行分析，获取想要的内容。上一篇随笔《Java爬虫系列一：写在开始前》中提到了HttpClient可以抓取页面内容。今天就来介绍下抓取html内容的工具：HttpClient。一、什么是HttpClient度娘说：HttpClient是ApacheJakartaCommon下的子项目，可以用来提供高效的、最新的、功能丰富的
                    
                    用Java编写图书网站信息采集程序教程
                        q56731523
java开发语言rust后端c语言爬虫
                        最近有个公司想要开发新产品，想要找到一些相关产品的功能以及工艺信息，之前有个负责人就通过传统的百度搜索来查找，但是效率太慢，然后请教我问我有什么办法收集这类产品信息以及配套的产品书籍以及信息，这不，饭都请我吃了，我能说不么？在开始编写Java爬虫程序之前，需要准备一些东西，包括Java开发环境，代理服务器，以及一个需要爬取的图书网站。假设我们已经有了这些工具，下面是用Java编写的爬虫程序，爬取图
                    
                    Java爬虫之Jsoup
                        sternschnapper
前端javascripthtml
                        1.Jsoup相关概念Jsoup很多概念和js类似，可参照对比理解Document：文档对象。每份HTML页面都是一个文档对象，Document是jsoup体系中最顶层的结构。Element：元素对象。一个Document中可以着包含着多个Element对象，可以使用Element对象来遍历节点提取数据或者直接操作HTML。Elements：元素对象集合，类似于List。Node：节点对象。标签名
                    
                    Java爬虫获取省市区镇村5级行政区划
                        sternschnapper
java爬虫开发语言
                        公司有个项目需要五级行政区划，没有现成的数据，写了一段代码，从gj统计j获取的数据。记录一下。1.引入maven解析htmlorg.jsoupjsoup1.11.32.Java代码实现@GetMapping("/hh")publicvoidhh(){Divisiond=newDivision();finalStringurl="https://www.stats.gov.cn/sj/tjbz/tj
                    
                    【java爬虫】使用element-plus进行个股详细数据分页展示
                        haohulala
java网络爬虫金融数据分析前端学习笔记javaelement-plus分页
                        前言前面的文章我们讲述了获取详细个股数据的方法，并且使用echarts对个股的价格走势图进行了展示，本文将编写一个页面，对个股详细数据进行展示。别问涉及到了element-plus中分页的写法，对于这部分知识将会做重点讲解。首先看一下效果之前我一直认为前端分页很难写，不过今天写完这个页面之后我发现，有了element-plus这样的框架，前端真的变得非常简单。获取所有有数据的股票代码我们的页面主要
                    
                    【java爬虫】股票数据获取工具前后端代码
                        haohulala
java网络爬虫金融数据分析前端学习笔记javaelement-plusvue
                        前面我们有好多文章都是在介绍股票数据获取工具，这是一个前后端分离项目后端技术栈：springboot，sqlite，jdbcTemplate，okhttp前端技术栈：vue，element-plus，echarts，axios介绍的文章如下：【金融数据分析】计算沪深300指数行业权重分布并用饼图展示-CSDN博客【金融数据分析】获取沪深300成分股权重数据方法优化-CSDN博客【java爬虫】基于
                    
                    专为初学者设计：Nutch库Java下载器入门指南
                        亿牛云爬虫专家
java代理IP爬虫代理java开发语言Nutch下载器爬虫代理代理IP多线程
                        概述:Nutch是一款开源的Java爬虫框架，用于抓取、解析、提取和存储网页数据。基于Hadoop的分布式系统，Nutch支持大规模网络爬取，并提供各种插件，包括链接分析、语言检测和内容过滤等功能。本文旨在介绍如何使用Nutch库编写简单的Java下载器，即能从指定URL下载网页内容的程序。目标是帮助初学者了解Nutch库的基本用法，并展示如何通过代理IP技术和多线程技术提升下载效率。假设读者已安
                    
                    【java爬虫】获取个股详细数据并用echarts展示
                        haohulala
java网络爬虫金融数据分析前端学习笔记java爬虫vue
                        前言前面一篇文章介绍了获取个股数据的方法，本文将会对获取的接口进行一些优化，并且添加查询数据的接口，并且基于后端返回数据编写一个前端页面对数据进行展示。具体的获取个股数据的接口可以看上一篇文章【java爬虫】基于springboot+jdbcTemplate+sqlite+OkHttp获取个股的详细数据-CSDN博客下面是操作演示，首先是爬虫获取股票数据接着是进行获取个股详细数据并且进行数据展示数
                    
                    java爬虫（jsoup）如何设置HTTP代理ip爬数据
                        卑微阿文
java爬虫http
                        目录前言什么是HTTP代理IP使用Jsoup设置HTTP代理IP的步骤1.导入Jsoup依赖2.创建HttpProxy类3.设置代理服务器4.使用Jsoup进行爬取结论前言在Java中使用Jsoup进行网络爬虫操作时，有时需要使用HTTP代理IP来爬取数据。本文将介绍如何使用Jsoup设置HTTP代理IP进行爬取，并提供相关代码示例。什么是HTTP代理IPHTTP代理IP是一种允许我们通过代理服务
                    
                                jQuery 键盘事件keydown ,keypress ,keyup介绍
                                    107x
jsjquerykeydownkeypresskeyup
                                    本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。 
一、首先需要知道的是：  1、keydown()  keydown事件会在键盘按下时触发.  2、keyup()     代码如下 复制代码    
$('input').keyup(funciton(){      
                                
                                AngularJS中的Promise
                                    bijian1013
JavaScriptAngularJSPromise
                                    一.Promise 
        Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。 
        为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： 
var cu
                                
                                c++ 用数组实现栈类
                                    CrazyMizzz
数据结构C++
                                    #include<iostream>
#include<cassert>
using namespace std;

template<class T, int SIZE = 50>
class Stack{
private:
	T list[SIZE];//数组存放栈的元素
	int top;//栈顶位置

public:
	Stack(
                                
                                java和c语言的雷同
                                    麦田的设计者
java递归scaner
                                    软件启动时的初始化代码，加载用户信息2015年5月27号 
从头学java二 
1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： 
     a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句 
不会再继续执行。 
     b、for循环相比于whi
                                
                                LINUX环境并发服务器的三种实现模型
                                    被触发
linux
                                    服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 
1  循环服务器与并发服务器模型 
在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。 
目前最常用的服务器模型有： 
·循环服务器：服务器在同一时刻只能响应一个客户端的请求 
·并发服务器：服
                                
                                Oracle数据库查询指令
                                    肆无忌惮_
oracle数据库
                                    20140920 
  
单表查询 
-- 查询************************************************************************************************************ 
-- 使用scott用户登录 
  
-- 查看emp表 
  
desc emp 
  

                                
                                ext右下角浮动窗口
                                    知了ing
JavaScriptext
                                    第一种 
 
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/
                                
                                浅谈REDIS数据库的键值设计
                                    矮蛋蛋
redis
                                    http://www.cnblogs.com/aidandan/ 
原文地址：http://www.hoterran.info/redis_kv_design 
 
丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。 
 
                                
                                maven编译可执行jar包
                                    alleni123
maven
                                    http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven 
 
 
<build>
  <plugins>
    <plugin>
      <artifactId>maven-asse
                                
                                人力资源在现代企业中的作用
                                    百合不是茶
HR 企业管理
                                    //人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的 人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点： 工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源 在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着 明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只 知道人力资源是管理企业招聘的 当时我被招聘上了，当时给我们培训 的人
                                
                                Linux自启动设置详解
                                    bijian1013
linux
                                    linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。 
阅读之前建议先看一下附图。 
本文中假设inittab中设置的init tree为： 
/etc/rc.d/rc0.d
/etc/rc.d/rc1.d
/etc/rc.d/rc2.d
/etc/rc.d/rc3.d
/etc/rc.d/rc4.d
/etc/rc.d/rc5.d
/etc
                                
                                Spring Aop Schema实现
                                    bijian1013
javaspringAOP
                                    本例使用的是Spring2.5 
1.Aop配置文件spring-aop.xml 
<?xml version="1.0" encoding="UTF-8"?>  
<beans  
    xmlns="http://www.springframework.org/schema/beans"  
    xmln
                                
                                【Gson七】Gson预定义类型适配器
                                    bit1129
gson
                                    Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， 
  DateTypeAdapter 
  
public final class DateTypeAdapter extends TypeAdapter<Date> {
  public static final TypeAdapterFacto
                                
                                【Spark八十八】Spark Streaming累加器操作（updateStateByKey)
                                    bit1129
update
                                    在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。 
比如： 对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 
  
Spark Streaming的解决方案是累加器，工作原理是，定义
                                
                                linux系统下通过shell脚本快速找到哪个进程在写文件
                                    ronin47

                                    一个文件正在被进程写 我想查看这个进程 文件一直在增大 找不到谁在写 使用lsof也没找到 
这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 
linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。 
幸运的是systemtap的安装包里带了inodewatch.stp，位
                                
                                java-两种方法求第一个最长的可重复子串
                                    bylijinnan
java算法
                                    
import java.util.Arrays;
import java.util.Collections;
import java.util.List;


public class MaxPrefix {

	
	public static void main(String[] args) {
		String str="abbdabcdabcx";

                                
                                Netty源码学习-ServerBootstrap启动及事件处理过程
                                    bylijinnan
javanetty
                                    Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： 
 
http://bylijinnan.iteye.com/blog/1992325 
 
Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的 
文章里面提到的操作，每一步都能在Netty里面找到对应的代码 
其中Reactor里面的Acceptor就对应Netty的ServerBo
                                
                                servelt filter listener 的生命周期
                                    cngolon
filterlistenerservelt生命周期
                                    1. servlet    当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
                                
                                jmpopups获取input元素值
                                    ctrain
JavaScript
                                    jmpopups 获取弹出层form表单 
首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。 
当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。 
我们必须到jmpopups生成的代码中去查找这个值，$(
                                
                                vi查找替换命令详解
                                    daizj
linux正则表达式替换查找vim
                                    一、查找 
 
查找命令 
 
/pattern<Enter> ：向下查找pattern匹配字符串 
?pattern<Enter>：向上查找pattern匹配字符串 
使用了查找命令之后，使用如下两个键快速查找： 
n：按照同一方向继续查找 
N：按照反方向查找 
 
字符串匹配 
 
pattern是需要匹配的字符串，例如： 
 
1:  /abc<En
                                
                                对网站中的js,css文件进行打包
                                    dcj3sjt126com
PHP打包
                                    一，为什么要用smarty进行打包 
apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。 
为什么要进行打包呢，主要目的是为了合理的管理自己的代码 。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
                                
                                php Yii: 出现undefined offset 或者 undefined index解决方案
                                    dcj3sjt126com
undefined
                                    在开发Yii 时，在程序中定义了如下方式： 
       if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
                                
                                linux 文件格式（1） sed工具
                                    eksliang
linuxlinux sed工具sed工具linux sed详解
                                    转载请出自出处：
http://eksliang.iteye.com/blog/2106082  
简介 
      sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
                                
                                Android应用程序获取系统权限
                                    gqdy365
android
                                    引用   
如何使Android应用程序获取系统权限 
 
 
        第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 
 
        1. 在应用程序的AndroidManifest.xml中的manifest节点
                                
                                HoverTree开发日志之验证码
                                    hvt
.netC#asp.nethovertreewebform
                                    HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
                                
                                JSON API：用 JSON 构建 API 的标准指南中文版
                                    justjavac
json
                                    译文地址：https://github.com/justjavac/json-api-zh_CN 
如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式， 那么 JSON API 就是你的 anti-bikeshedding 武器。 
通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。 
基于 JSON API 的客户端还能够充分利用缓存，
                                
                                数据结构随记_2
                                    lx.asymmetric
数据结构笔记
                                    第三章 栈与队列 
一．简答题 
1. 在一个循环队列中，队首指针指向队首元素的  前一个    位置。  
2.在具有n个单元的循环队列中，队满时共有  n-1  个元素。  
3. 向栈中压入元素的操作是先  移动栈顶指针&n
                                
                                Linux下的监控工具dstat
                                    网络接口
linux
                                    1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是, 
                                
                                C 语言初级入门--二维数组和指针
                                    1140566087
二维数组c/c++指针
                                    /* 
 二维数组的定义和二维数组元素的引用 
 
 二维数组的定义： 
 当数组中的每个元素带有两个下标时，称这样的数组为二维数组； 
 (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 
 语法： 
 类型名 数组名[常量表达式1][常量表达式2] 
 
 二维数组的引用： 
 引用二维数组元素时必须带有两个下标，引用形式如下： 
 例如： 
 int a[3][4];  引用：
                                
                                10点睛Spring4.1-Application Event
                                    wiselyman
application
                                    10.1 Application Event 
 
 Spring使用Application Event给bean之间的消息通讯提供了手段 
 应按照如下部分实现bean之间的消息通讯 
   
   继承ApplicationEvent类实现自己的事件 
   实现继承ApplicationListener接口实现监听事件 
   使用ApplicationContext发布消息 
    
 
                                
                
            
        
    


    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    


    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.