johnson_moon

Java爬虫学习:使用HtmlUnit获取html页面

使用HtmlUnit获取html页面

HtmlUnit简介

官网介绍

HtmlUnit is a "GUI-Less browser for Java programs". It models HTML documents and provides an API that allows you to invoke pages, fill out forms, click links, etc... just like you do in your "normal" browser.

It has fairly good JavaScript support (which is constantly improving) and is able to work even with quite complex AJAX libraries, simulating Chrome, Firefox or Internet Explorer depending on the configuration used.

It is typically used for testing purposes or to retrieve information from web sites.

HtmlUnit is not a generic unit testing framework. It is specifically a way to simulate a browser for testing purposes and is intended to be used within another testing framework such as JUnit or TestNG. Refer to the document "Getting Started with HtmlUnit" for an introduction.

HtmlUnit is used as the underlying "browser" by different Open Source tools like Canoo WebTest, JWebUnit, WebDriver, JSFUnit, WETATOR, Celerity, Spring MVC Test HtmlUnit, ...

HtmlUnit was originally written by Mike Bowler of Gargoyle Software and is released under the Apache 2 license. Since then, it has received many contributions from other developers, and would not be where it is today without their assistance.

中文翻译


HtmlUnit是一个无界面浏览器Java程序。它为HTML文档建模，提供了调用页面、填写表单、单击链接等操作的API。就跟你在浏览器里做的操作一样。

HtmlUnit不错的JavaScript支持(不断改进)，甚至可以使用相当复杂的AJAX库，根据配置的不同模拟Chrome、Firefox或Internet Explorer等浏览器。

HtmlUnit通常用于测试或从web站点检索信息。

HtmlUnit使用场景

httpClient的局限性

对于使用java实现的网页爬虫程序，我们一般可以使用apache的HttpClient组件进行HTML页面信息的获取，HttpClient实现的http请求返回的响应一般是纯文本的document页面，即最原始的html页面。

对于一个静态的html页面来说，使用httpClient足够将我们所需要的信息爬取出来了。但是对于现在越来越多的动态网页来说，更多的数据是通过异步JS代码获取并渲染到的，最开始的html页面是不包含这部分数据的。

上图我们所见到的网页，在最初的document加载完成之后，并不会看到红框中的数据列表。浏览器通过执行异步JS请求，将获取到的动态数据，渲染到最初的document页面中，才最终变成了我们看到的网页。而对于这部分需要执行JS代码获取的数据，httpClient就显得无能为力了。虽然我们可以通过研究拿到JS执行的请求路径再用java代码获取我们需要的这部分数据，且不说我们能不能够从JS脚本中分析到这个请求路径和请求参数，光是分析这部分源码的代价就已经很高了。

HtmlUnit来解决

通过上面的介绍，我们了解了现在很大一部分动态网页，展现的数据都是通过异步JS请求获取，然后再通过JS对页面进行渲染得到的。那我们是不是可以进行这么一个假设，假设我们的爬虫程序模拟了一个浏览器，在获取html页面之后，像浏览器一样执行异步JS代码，等到JS将html页面渲染完成之后，就可以愉快的获取页面上的节点信息了。那么有没有这样的java程序呢？

答案是有的。

HtmlUnit就是这么一个程序库，用来做出了界面展示意外所有的异步工作。由于没有了展示这一块耗时的工作，HtmlUnit加载完成一个完整的网页要比实际的浏览器块多了。并且根据不同配置，HtmlUnit可以模拟市面上常用的浏览器如Chrome、Firefox、IE浏览器等。

通过HtmlUnit库，加载一个完整的Html页面（图片视频除外），然后就可以将其转换成我们常用的字串格式，用其他工具如Jsoup来获取其中的元素了。当然也可以直接在HtmlUnit提供的对象中获取网页元素，甚至是操作如按钮、表单等控件。除了不能像可见浏览器一样用鼠标键盘浏览网页之外，我们可以用HtmlUnit来模拟操作其他的一切操作，像登录网站，撰写博客等等都是可以完成的。当然网页内容爬取是最简单的一个应用了。

HtmlUnit使用方法

1.新建maven工程,添加HtmlUnit依赖:

<dependencies>
    <dependency>
        <groupId>net.sourceforge.htmlunitgroupId>
        <artifactId>htmlunitartifactId>
        <version>2.27version>
    dependency>
dependencies>

2.新建一个Junit TestCase来尝试一下程序库的使用

程序代码注释如下：

package xuyihao.util.depend;

import com.gargoylesoftware.htmlunit.BrowserVersion;
import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.junit.Test;

import java.util.List;

/**
 * Created by xuyh at 2017/11/6 14:03.
 */
public class HtmlUtilTest {
    @Test
    public void test() {
        final WebClient webClient = new WebClient(BrowserVersion.CHROME);//新建一个模拟谷歌Chrome浏览器的浏览器客户端对象

        webClient.getOptions().setThrowExceptionOnScriptError(false);//当JS执行出错的时候是否抛出异常, 这里选择不需要
        webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);//当HTTP的状态非200时是否抛出异常, 这里选择不需要
        webClient.getOptions().setActiveXNative(false);
        webClient.getOptions().setCssEnabled(false);//是否启用CSS, 因为不需要展现页面, 所以不需要启用
        webClient.getOptions().setJavaScriptEnabled(true); //很重要，启用JS
        webClient.setAjaxController(new NicelyResynchronizingAjaxController());//很重要，设置支持AJAX

        HtmlPage page = null;
        try {
            page = webClient.getPage("http://ent.sina.com.cn/film/");//尝试加载上面图片例子给出的网页
        } catch (Exception e) {
            e.printStackTrace();
        }finally {
            webClient.close();
        }

        webClient.waitForBackgroundJavaScript(30000);//异步JS执行需要耗时,所以这里线程要阻塞30秒,等待异步JS执行结束

        String pageXml = page.asXml();//直接将加载完成的页面转换成xml格式的字符串

        //TODO 下面的代码就是对字符串的操作了,常规的爬虫操作,用到了比较好用的Jsoup库

        Document document = Jsoup.parse(pageXml);//获取html文档
        List infoListEle = document.getElementById("feedCardContent").getElementsByAttributeValue("class", "feed-card-item");//获取元素节点等
        infoListEle.forEach(element -> {
            System.out.println(element.getElementsByTag("h2").first().getElementsByTag("a").text());
            System.out.println(element.getElementsByTag("h2").first().getElementsByTag("a").attr("href"));
        });
    }
}

上面的例子将获取到的页面中消息列表的标题和超链接URL打印到控制台,操作HTML文档的库是Jsoup,需要添加依赖：

<dependency>
    <groupId>org.jsoupgroupId>
    <artifactId>jsoupartifactId>
    <version>1.8.3version>
dependency>

经过三十秒的等待,控制台输出的结果是这样的：

十一月 06, 2017 2:17:05 下午 com.gargoylesoftware.htmlunit.IncorrectnessListenerImpl notify
警告: Obsolete content type encountered: 'application/x-javascript'.
十一月 06, 2017 2:17:06 下午 com.gargoylesoftware.htmlunit.javascript.StrictErrorReporter runtimeError
严重: runtimeError: message=[An invalid or illegal selector was specified (selector: '*,:x' error: Invalid selector: :x).] sourceName=[http://n.sinaimg.cn/lib/core/core.js] line=[1] lineSource=[null] lineOffset=[0]
十一月 06, 2017 2:17:06 下午 com.gargoylesoftware.htmlunit.IncorrectnessListenerImpl notify
警告: Obsolete content type encountered: 'application/x-javascript'.
2017-11-06 14:17:11.003:INFO::JS executor for com.gargoylesoftware.htmlunit.WebClient@618c5d94: Logging initialized @7179ms to org.eclipse.jetty.util.log.StdErrLog
十一月 06, 2017 2:17:11 下午 com.gargoylesoftware.htmlunit.javascript.host.WebSocket run
严重: WS connect error
java.util.concurrent.ExecutionException: org.eclipse.jetty.websocket.api.UpgradeException: 0 null
    at java.util.concurrent.CompletableFuture.reportGet(CompletableFuture.java:357)
    at java.util.concurrent.CompletableFuture.get(CompletableFuture.java:1895)
    at com.gargoylesoftware.htmlunit.javascript.host.WebSocket$1.run(WebSocket.java:151)
    at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:672)
    at org.eclipse.jetty.util.thread.QueuedThreadPool$2.run(QueuedThreadPool.java:590)
    at java.lang.Thread.run(Thread.java:748)
Caused by: org.eclipse.jetty.websocket.api.UpgradeException: 0 null
    at org.eclipse.jetty.websocket.client.WebSocketUpgradeRequest.onComplete(WebSocketUpgradeRequest.java:513)
    at org.eclipse.jetty.client.ResponseNotifier.notifyComplete(ResponseNotifier.java:193)
    at org.eclipse.jetty.client.ResponseNotifier.notifyComplete(ResponseNotifier.java:185)
    at org.eclipse.jetty.client.HttpExchange.notifyFailureComplete(HttpExchange.java:269)
    at org.eclipse.jetty.client.HttpExchange.abort(HttpExchange.java:240)
    at org.eclipse.jetty.client.HttpConversation.abort(HttpConversation.java:141)
    at org.eclipse.jetty.client.HttpRequest.abort(HttpRequest.java:748)
    at org.eclipse.jetty.client.HttpDestination.abort(HttpDestination.java:444)
    at org.eclipse.jetty.client.HttpDestination.failed(HttpDestination.java:224)
    at org.eclipse.jetty.client.AbstractConnectionPool$1.failed(AbstractConnectionPool.java:122)
    at org.eclipse.jetty.util.Promise$Wrapper.failed(Promise.java:136)
    at org.eclipse.jetty.client.HttpClient$1$1.failed(HttpClient.java:588)
    at org.eclipse.jetty.client.AbstractHttpClientTransport.connectFailed(AbstractHttpClientTransport.java:154)
    at org.eclipse.jetty.client.AbstractHttpClientTransport$ClientSelectorManager.connectionFailed(AbstractHttpClientTransport.java:199)
    at org.eclipse.jetty.io.ManagedSelector$Connect.failed(ManagedSelector.java:655)
    at org.eclipse.jetty.io.ManagedSelector$Connect.access$1300(ManagedSelector.java:622)
    at org.eclipse.jetty.io.ManagedSelector$1.failed(ManagedSelector.java:364)
    at org.eclipse.jetty.io.ManagedSelector$CreateEndPoint.run(ManagedSelector.java:604)
    ... 3 more
Caused by: java.lang.NullPointerException
    at org.eclipse.jetty.io.ssl.SslClientConnectionFactory.newConnection(SslClientConnectionFactory.java:59)
    at org.eclipse.jetty.client.AbstractHttpClientTransport$ClientSelectorManager.newConnection(AbstractHttpClientTransport.java:191)
    at org.eclipse.jetty.io.ManagedSelector.createEndPoint(ManagedSelector.java:420)
    at org.eclipse.jetty.io.ManagedSelector.access$1600(ManagedSelector.java:61)
    at org.eclipse.jetty.io.ManagedSelector$CreateEndPoint.run(ManagedSelector.java:599)
    ... 3 more

十一月 06, 2017 2:17:16 下午 com.gargoylesoftware.htmlunit.IncorrectnessListenerImpl notify
警告: Obsolete content type encountered: 'application/x-javascript'.
十一月 06, 2017 2:17:21 下午 com.gargoylesoftware.htmlunit.IncorrectnessListenerImpl notify
警告: Obsolete content type encountered: 'text/javascript'.
十一月 06, 2017 2:17:21 下午 com.gargoylesoftware.htmlunit.IncorrectnessListenerImpl notify
警告: Obsolete content type encountered: 'text/javascript'.
时隔17年重温《EUREKA》 宫崎葵：这次哭得很凶
http://ent.sina.com.cn/m/f/2017-11-06/doc-ifynmzrs7411439.shtml
模式单一成审美疲劳 超级英雄电影该如何突围？
http://ent.sina.com.cn/m/f/2017-11-06/doc-ifynmnae2196060.shtml
组图：《天生不对》首映 薛凯琪不规则红裙优雅可人 13
http://slide.ent.sina.com.cn/film/slide_4_704_247725.html
电影资料馆达成线上售票合作 影迷不必排队买票
http://ent.sina.com.cn/m/c/2017-11-06/doc-ifynmvuq8917282.shtml
组图：詹妮弗加纳去教堂路遇好友 白裙清新心情靓 4
http://slide.ent.sina.com.cn/film/h/slide_4_704_247702.html
《东方快车》发幕后特辑 唯美复古凸显品质
http://ent.sina.com.cn/m/f/2017-11-06/doc-ifynnnsc7188105.shtml
组图：梅根福克斯穿紧身衣身材火辣 踩拖鞋抱瑜伽垫 4
http://slide.ent.sina.com.cn/film/slide_4_704_247699.html

忽略HtmlUnit执行时候的报错信息，可以看到最后还是成功的将结果打印了出来了。

3.编写工具类

尝试了一下HtmlUnit加载网页并解析之后,我们可以编写一个工具类为之后的爬虫程序的使用铺路了,代码如下:


import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

import com.gargoylesoftware.htmlunit.BrowserVersion;
import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlPage;

/**
 *  * Http工具，包含：
 * 高级http工具(使用net.sourceforge.htmlunit获取完整的html页面,即完成后台js代码的运行)
 * 
 * Created by xuyh at 2017/7/17 19:08.
 */
public class HttpUtils {
    /**
     * 请求超时时间,默认20000ms
     */
    private int timeout = 20000;
    /**
     * 等待异步JS执行时间,默认20000ms
     */
    private int waitForBackgroundJavaScript = 20000;

    private static HttpUtils httpUtils;

    private HttpUtils() {
    }

    /**
     * 获取实例
     *
     * @return
     */
    public static HttpUtils getInstance() {
        if (httpUtils == null)
            httpUtils = new HttpUtils();
        return httpUtils;
    }

    public int getTimeout() {
        return timeout;
    }

    /**
     * 设置请求超时时间
     *
     * @param timeout
     */
    public void setTimeout(int timeout) {
        this.timeout = timeout;
    }

    public int getWaitForBackgroundJavaScript() {
        return waitForBackgroundJavaScript;
    }

    /**
     * 设置获取完整HTML页面时等待异步JS执行的时间
     *
     * @param waitForBackgroundJavaScript
     */
    public void setWaitForBackgroundJavaScript(int waitForBackgroundJavaScript) {
        this.waitForBackgroundJavaScript = waitForBackgroundJavaScript;
    }

    /**
     * 将网页返回为解析后的文档格式
     * 
     * @param html
     * @return
     * @throws Exception
     */
    public static Document parseHtmlToDoc(String html) throws Exception {
        return removeHtmlSpace(html);
    }

    private static Document removeHtmlSpace(String str) {
        Document doc = Jsoup.parse(str);
        String result = doc.html().replace(" ", "");
        return Jsoup.parse(result);
    }

    /**
     * 获取页面文档字串(等待异步JS执行)
     *
     * @param url 页面URL
     * @return
     * @throws Exception
     */
    public String getHtmlPageResponse(String url) throws Exception {
        String result = "";

        final WebClient webClient = new WebClient(BrowserVersion.CHROME);

        webClient.getOptions().setThrowExceptionOnScriptError(false);//当JS执行出错的时候是否抛出异常
        webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);//当HTTP的状态非200时是否抛出异常
        webClient.getOptions().setActiveXNative(false);
        webClient.getOptions().setCssEnabled(false);//是否启用CSS
        webClient.getOptions().setJavaScriptEnabled(true); //很重要，启用JS
        webClient.setAjaxController(new NicelyResynchronizingAjaxController());//很重要，设置支持AJAX

        webClient.getOptions().setTimeout(timeout);//设置“浏览器”的请求超时时间
        webClient.setJavaScriptTimeout(timeout);//设置JS执行的超时时间

        HtmlPage page;
        try {
            page = webClient.getPage(url);
        } catch (Exception e) {
            webClient.close();
            throw e;
        }
        webClient.waitForBackgroundJavaScript(waitForBackgroundJavaScript);//该方法阻塞线程

        result = page.asXml();
        webClient.close();

        return result;
    }

    /**
     * 获取页面文档Document对象(等待异步JS执行)
     *
     * @param url 页面URL
     * @return
     * @throws Exception
     */
    public Document getHtmlPageResponseAsDocument(String url) throws Exception {
        return parseHtmlToDoc(getHtmlPageResponse(url));
    }
}

可以通过这样的方式调用本工具:


import org.jsoup.nodes.Document;
import org.junit.Test;


public class HttpUtilsTest {
    private static final String TEST_URL = "http://www.google.com/";

    @Test
    public void testGetHtmlPageResponse() {
        HttpUtils httpUtils = HttpUtils.getInstance();
        httpUtils.setTimeout(30000);
        httpUtils.setWaitForBackgroundJavaScript(30000);
        try {
            String htmlPageStr = httpUtils.getHtmlPageResponse(TEST_URL);
            //TODO
            System.out.println(htmlPageStr);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    @Test
    public void testGetHtmlPageResponseAsDocument() {
        HttpUtils httpUtils = HttpUtils.getInstance();
        httpUtils.setTimeout(30000);
        httpUtils.setWaitForBackgroundJavaScript(30000);
        try {
            Document document = httpUtils.getHtmlPageResponseAsDocument(TEST_URL);
            //TODO
            System.out.println(document);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

}

源码地址

https://github.com/johnsonmoon/HttpUtils.git

【数据序列化协议】Protocol Buffers 茉菇网络
一、为什么需要序列化？数据跨平台/语言交互：不同编程语言（如Java、Python、Go）的数据结构不兼容，序列化提供统一的数据表示。例如：Java的HashMap和Python的dict需转换为通用格式（如JSON、Protobuf）才能通信。网络传输优化：原始内存中的对象包含指针、元数据等冗余信息，无法直接传输。序列化后数据体积更小，减少带宽占用，提升传输效率。持久化存储：将对象转换为字节流或
JavaScript 任务队列详解：Event Loop、宏任务与微任务咖啡虫前端中的一些概念及理解 javascript vim 开发语言
JavaScript任务队列详解：EventLoop、宏任务与微任务在JavaScript的世界里，异步编程是一个至关重要的概念。JavaScript采用单线程运行方式，但能够处理异步任务，这一切都要归功于事件循环（EventLoop）机制。本文将深入剖析JavaScript的任务队列（TaskQueue），包括宏任务（Macrotask）和微任务（Microtask），并结合示例解析代码的执行顺
JavaScript函数-arguments的使用難釋懷 javascript 开发语言
在JavaScript编程语言中，函数是构建复杂逻辑和实现代码复用的关键组件。虽然现代JavaScript（尤其是ES6及之后版本）提供了更多灵活的方式来处理函数参数（如剩余参数、默认参数等），但arguments对象仍然是一个非常有用且强大的特性，尤其是在处理不定数量参数的场景中。本文将深入探讨arguments对象的使用方法及其应用场景。arguments对象简介在每个函数内部，都有一个名为a
前端 fetch API 调用 Tushare 的数据接口获取免费的基金股票信息数据匹马夕阳开发工具前端开源
要在前端使用JavaScript的fetchAPI调用Tushare的数据接口，您需要遵循以下步骤：1.注册Tushare账号并获取Token首先，访问Tushare官网注册账号。注册成功后，登录账号，在个人中心获取您的APIToken。2.构建请求参数Tushare的API接口采用POST请求方式，参数需要以JSON格式传递。以下是一个示例请求参数：{"api_name":"stock_basi
linux下使用nohup命令不输出任何文件 Carrot_ly linux 运维
nohup"command">/dev/null2>&1&"command"代表不使用nohup时的命令全部内容例：nohupjava-jaraircas-1.0.0.jar>/dev/null2>&1&
Java Web开发 yourkin666 java 前端开发语言
JavaWeb开发Java部分：面向对象后，注重学集合，抛异常，泛型，线程，反射，注解【Java零基础视频教程（适合Java基础，Java入门）老杜Java13版】https://www.bilibili.com/video/BV1mE411x7Wt?vd_source=4543341eea15096fa471f9067cc841ff【【零基础快速学Java】韩顺平零基础30天学会Java】htt
AI赋能Spring Boot：打造智能应用的秘诀墨瑾轩一起学学Java【一】人工智能 spring boot 后端
关注墨瑾轩，带你探索Java的奥秘超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣引言各位技术探险家们，欢迎来到今天的冒险——我们将一起探索如何将SpringBoot与AI服务集成，利用OpenAI和TensorFlow提升应用的智能。想象一下，你的应用程序不再是一个简单的代码集合，而是一个拥有智慧的伙伴，能够理解和预测用户的需求。这就是
基于DeepSeek开发实战：抖音无水印视频下载爬虫 Developer-YC DeekSeek 大模型解读与实战教学音视频爬虫视频 python
引言嘿，小伙伴们！今天我要跟大家吐槽一下，那些让人抓狂的抖音短视频提取瞬间！你是不是也遇到过，明明看到一个超赞的舞蹈视频，想学着跳一跳，或者，有时候看到一个搞笑段子，想分享给朋友却发现，哎？点开分享发现视频无法下载或作者关闭了下载功能？简直急死人了！真是让人无语啊！这些抖音短视频的提取困难，简直就是我们追求快乐和分享乐趣路上的绊脚石！一、需求分析与技术选型1.1核心需求通过抖音分享链接实现：自动解
Python 爬虫实战：深入酷狗音乐，抓取热门歌手歌曲播放量数据西攻城狮北 python 爬虫开发语言实战案例
目录引言一、准备工作1.1技术选型1.2环境配置二、爬取热门歌手歌曲播放量数据2.1获取排行榜页面2.2解析HTML内容2.3数据存储三、数据分析与可视化3.1数据清洗3.2数据分析3.3数据可视化四、总结与展望引言在数字音乐时代，音乐平台的排行榜和歌曲播放量数据对于音乐爱好者、歌手以及音乐产业从业者来说具有重要的参考价值。通过分析这些数据，可以了解当前的音乐趋势、歌手的受欢迎程度以及用户的音乐偏
Kotlin中Retrofit网络请求简单封装 weixin_34293059 移动开发 java
使用Kotlin简单的对Retrofit+RxJava大多数普通请求进行封装提示:如果对Kotlin，RxLifecycle，Retrofit，RxJava等不太了解的小伙伴可以参考网上的基础资料1.惯例先添加依赖//Retrofitimplementation'com.squareup.retrofit2:retrofit:2.3.0'implementation'com.squareup.re
比Python、Java更快的 Go 语言，能否称霸江湖？ weixin_33686714 python java ruby
文章来源：jb51.net有一种语言堪称比语言排行榜前五热门选手的Python、Java更快，它就是GO语言。Go于2009年11月正式宣布推出，成为开放源代码项目，并在Linux及MacOSX平台上进行了实现，后来追加了Windows系统下的实现。在2016年，Go被软件评价公司TIOBE选为“TIOBE2016年最佳语言”。目前，Go每半年发布一个二级版本（即从a.x升级到a.y）。在Go语言
Java中的引用(reference)和C/C++中的指针鱼力舟 HOT100 java c语言 c++
publicListNodedetectCycle(ListNodehead){HashSetlistNodes=newHashSet的作用HashSet用来存储链表中的节点（ListNode对象）。每个节点在链表中都有一个唯一的引用（即内存地址），而HashSet用来检查是否已经遍历过这个节点。在这段代码中，HashSet的add()方法返回false时，说明该节点已经存在于集合中，也就意味着我
前端数据类型终极指南：从JavaScript到TypeScript 念九_ysl typescript 前端
前端数据类型全景解析.type-system{max-width:1000px;margin:0auto;padding:20px;}.type-card{border:1pxsolid#e0e0e0;padding:20px;margin:15px0;border-radius:8px;}.ts-badge{background:#3178c6;color:white;padding:2px5p
Future和FutureTask实现类详解以及使用。一个儒雅随和的男子多线程 java
前言Future是Java并发编程中的一个接口，用来表示异步计算的结果。它允许我们提交一个任务，然后之后再去获取结果，或者在结果可用时处理它。我们需要考虑Future的主要方法。根据文档，Future接口有几个关键方法：isDone()检查计算是否完成，get()获取结果（会阻塞直到完成），cancel()尝试取消任务，isCancelled()判断是否被取消。这些方法的作用和用法需要详细说明。然
Android 数据加载与分页业务抹香鲸的弟弟蓝鲸 android kotlin android java
1，前言这篇文章写的是数据加载和分页。用到的库有'androidx.lifecycle:lifecycle-service:2.4.0''androidx.lifecycle:lifecycle-extensions:2.2.0''androidx.lifecycle:lifecycle-viewmodel-ktx:2.2.0'io.reactivex.rxjava3:rxjava:3.0.4io
2.最多提取子串数目（100分）-附带Java逐行解析最遥远的瞬间华为OD机考试题算法
题目给定[a-z]，26个英文字母小写字符串组成的字符串A和B，其中A可能存在重复字母，B不会存在重复字母，现从字符串A中按规则挑选一些字母，可以组成字符串B。挑选规则如下：同一个位置的字母只能挑选一次被挑选字母的相对先后顺序不能被改变求最多可以同时从A中挑选多少组能组成B的字符串。输入描述输入为2行，第1行输入字符串A，第2行输入字符串B，行首行尾没有多余空格，其中：A、B均由[a-z]26个英
蓝桥杯Java大学A组-15届省赛学习笔记 You_know_kho 蓝桥杯Java大学A组真题蓝桥杯 java 学习
蓝桥杯历届真题蓝桥杯历届真题蓝桥杯评测平台蓝桥杯模拟考试结果填空题试题A：拼正方形解题思路题目中数据很大，这并不重要，找到解法后100和100万并无本质区别。首先，如果只有一种2x2规格的正方形，那么平方数个小正方形正好可以拼出一个大正方形，例如4个拼出4x4，9个拼出6x6。其次，四个1x1规格的正方形可以拼出一个2x2规格的正方形。结合以上两点，先计算1x1规格的正方形可以拼出多少个2x2规格
DeepSeek写俄罗斯方块手机小游戏浅痕~ 大模型游戏 DeepSeek 手机小游戏
DeepSeek写俄罗斯方块手机小游戏提问根据提的要求，让DeepSeek整理的需求，进行提问，内容如下：请生成一个包含以下功能的可运行移动端俄罗斯方块H5文件：核心功能要求原生JavaScript实现，适配手机屏幕支持触摸操作：左右滑动移动、点击屏幕旋转方块、往下滑方块快速下落下方显示虚拟控制按钮（左移/旋转/右移）、暂停/继续、重新开始按钮经典下落机制（自动下落、碰撞检测、行消除）右上角全屏切
Hutool - Http：基于 HttpUrlConnection 的 Http 客户端封装五行星辰业务系统应用技术 hive 大数据 hadoop java 后端
一、简介在现代的软件开发中，与外部服务进行HTTP通信是非常常见的需求，比如调用第三方API、获取网页内容等。Java标准库中的HttpUrlConnection提供了基本的HTTP请求功能，但使用起来较为繁琐，需要处理很多细节，如连接管理、请求头设置、响应处理等。Hutool-Http模块对HttpUrlConnection进行了封装，提供了简洁易用的API，使得开发者可以更方便地进行HTTP请
Yarn 依赖解析机制深度解析：确定性安装与版本冲突的工程哲学
引言：包管理工具的"圣杯问题"在现代前端工程中，依赖管理已成为构建稳定性的核心挑战。根据2023年JavaScript生态调查报告显示，平均每个前端项目依赖1,200+个第三方包，嵌套依赖层级超过15层。在这样的复杂度下，如何实现确定性安装（DeterministicInstallation）和版本冲突智能解决，成为Yarn这类包管理工具的核心战场。本文将深入探讨Yarn（特别是Classicv1
Spring Bean 如何保证并发安全？？？ G丶AEOM 八股普通学习区 java 八股 spring
SpringBean如何保证并发安全简单来说：1、可以设置Beon的作用域为原型，这样每次从容器中获取该Bean时，都会创建一个新的实例，避免了多线程共享同一个对象实例的问题2、在不改变Beon的作用域的情况下，可以避免在Beon中存在可变状态的声明，尽量将状态信息存在方法内部的局部变量中，或者使用线程安全的数据结构，如ConcurrentHashMap来管理状态3、使用Java并发编程中提供的锁
leetcode 205. 同构字符串-java实现依嘫_吃代码 LeetCode leetcode java 算法
题目所属分类华为校招原题链接给定两个字符串s和t，判断它们是否是同构的。如果s中的字符可以按某种映射关系替换得到t，那么这两个字符串是同构的。每个出现的字符都应当映射到另一个字符，同时不改变字符的顺序。不同字符不能映射到同一个字符上，相同字符只能映射到同一个字符上，字符可以映射到自己本身。代码案例：输入：s=“egg”,t=“add”输出：true输入：s=“foo”,t=“bar”输出：fals
ssm神马物流+vue 源码哆哆V+ymhydo Java毕设优质源码 vue.js 前端 javascript
摘要本神马物流管理系统设计目标是实现神马物流的信息化管理，提高管理效率，使得神马物流管理作规范化、科学化、高效化。本文重点阐述了神马物流管理系统的开发过程，以实际运用为开发背景，基于SSM+Vue框架，运用了Java编程语言和MYSQL数据库进行开发，充分保证系统的安全性和稳定性。本系统界面良好，操作简单方便，通过系统概述、系统分析、系统设计、数据库设计、系统测试这几个部分，详细的说明了系统的开发
2025蓝桥杯JAVA编程题练习Day4 起床悠悠 Java 蓝桥杯算法学习蓝桥杯职场和发展 java 算法
1.艺术与篮球问题描述小蓝出生在一个艺术与运动并重的家庭中。妈妈是位书法家，她希望小蓝能通过练习书法，继承她的艺术天赋，并练就一手好字。爸爸是一名篮球教练，他希望小蓝能通过篮球锻炼身体，培养运动的激情和团队合作的精神。为了既满足妈妈的期望，又不辜负爸爸的心意，小蓝决定根据日期的笔画数来安排自己的练习。首先，他会将当天的日期按照“YYYYMMDD”的格式转换成一个8位数，然后将这8位数对应到汉字上，
【华为OD技术面试手撕真题】98、同构字符串 | 手撕真题+思路参考+代码解析（C & C++ & Java & Python & JS）（0ms） KJ.JK 华为OD技术面试手撕真题华为od 面试 c语言华为od机试真题华为od机试E卷 javascript 同构字符串
文章目录一、题目题目描述样例1二、代码参考C语言思路C语言代码C++语言思路C++代码Java语言思路Java代码Python语言思路Python代码JS语言思路JS代码作者：KJ.JK个人博客首页：KJ.JK专栏介绍：本专栏更新每年华为OD机试的高频手撕代码题，每个题目都会使用五种语言进行解答（C&C++&Java&Python&JS），思路分析都非常详细，争取实现最低的时间复杂度和高通过率，每
2025蓝桥杯JAVA编程题练习Day5 起床悠悠蓝桥杯 Java 算法学习算法数据结构 java 蓝桥杯
1.最少步数【省模拟赛】问题描述小蓝要上一个楼梯，楼梯共有n级台阶（即小蓝总共要走nn级）。小蓝每一步可以走1级、2级或3级台阶。请问小蓝至少要多少步才能上到楼梯顶端？输入格式输入一行包含一个整数n。输出格式输出一行包含一个整数，表示答案。样例输入19样例输出13样例输入210样例输出24AC代码importjava.util.*;publicclassexercise1{staticScanne
Python爬虫 +数据采集分析：淘宝商品评论页面数据接口代码逐梦人爬虫技能晋升路线 python 爬虫开发语言
Python爬虫+数据采集分析：淘宝商品评论页面数据接口一、引言在当今数字化商业时代，电商平台的数据蕴含着巨大的价值。淘宝作为全球知名的电商平台，其商品评论数据能反映消费者的真实反馈、偏好和需求，对于商家优化产品、制定营销策略，以及研究人员进行市场分析等都具有重要意义。然而，直接从淘宝商品评论页面采集数据并非易事，淘宝有严格的反爬机制。为了高效、合法地获取这些数据，利用数据接口是一种可行的解决方案
java后端开发day19--学生管理系统升级元亓亓亓 java后端开发 java 开发语言
（以下内容全部来自上述课程）1.要求及思路1.总体框架2.注册3.登录4.忘记密码2.代码1.javabeanpublicclassUser1{privateStringusername;privateStringpassword;privateStringpersonID;privateStringphoneNumber;publicUser1(){}publicUser1(Stringuser
Python爬虫实战：爬取贝壳网二手房成交数据，将数据存入Excel。马虎的程序猿 python 爬虫 excel
importrequests,refromlxmlimporthtmlaaa=['heping','nankai','hexi','hebei','hedong','hongqiao','xiqing','beichen','dongli','jinnan','tanggu','kaifaqutj','wuqing','binhaixinqu','baodi','jizhou','jinghai'
BeautifulSoup爬取贝壳网成都二手房源信息（附：完整源代码）进击的SB 爬虫 python 大数据爬虫
BeautifulSoup爬取贝壳网成都二手房源信息最近想出一套二手房，刚好在学习爬虫，那就顺手爬一下贝壳上成都各区二手房信息了解一下行情，本篇先介绍数据爬取，数据分析稍后有时间再写。仅用于技术交流，请勿商业应用，如有侵权，联系删除。1.开发环境：python3.8.3；bs4,pandas,requests；存为csv,excel文件；个人比较喜欢用bs4,比较简洁，xpath也有优势，虽然路径
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str