wbzhongsy

Java爬虫（二）-- httpClient模拟Http请求+jsoup页面解析

写博客
发Chat
传资源
登录注册

原

Java爬虫（二）-- httpClient模拟Http请求+jsoup页面解析

2018年03月01日 15:00:12 阅读数：393 标签： java爬虫httpClientjsoup 更多

个人分类： java开发笔记

前言

在了解了爬虫的大概原理和目前的技术现状之后，我就开始了java爬虫的蹒跚之旅。

首先我想到的是用框架，了解到的主流的Nutch、webmagic、webcollector等等，都看了一遍，最好懂的是webmagic，因为是国人开发的，有中文文档，看的很舒服。刚开始写练手的demo之后发现都很舒服，设置好对应爬取规则、爬取深度之后，就能得到想要的数据。

但是当我正式准备开发的时候，很快就发现我的业务场景并不适用于这些框架（Emm..当然也有可能是我太菜了）。

为什么这么说呢，让我们先回到上篇中我摘录的爬虫原理，传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

也就是，目标数据所在的网页的url都是在上一层页面上可以抽取到的，对应到页面上具体的讲法就是，这些链接都是写在html 标签的 href 属性中的，所以可以直接抽取到。

那些demo中被当做抓取对象的网站一般是douban、baidu、zhihu之类的数据很大的公开网站，url都是写在页面上的，而我的目标网站时险企开放给代理公司的网站，具有不公开、私密的性质，一个页面转到下一个页面的请求一般都是通过js动态生成url发起的，并且很多是post请求。

虽然那些框架有很多优越诱人的特性和功能，本着先满足需求，在进行优化的原则，我准备先用比较底层的工具一步步的模拟这些http请求。

正好，我发现webmagic底层模拟请求的工具用的就是Apache HttpClient，所以就用这个工具来模拟了。

HttpClient

HttpClient 是 Apache Jakarta Common 下的子项目，用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包。它相比传统的 HttpURLConnection，增加了易用性和灵活性，它不仅让客户端发送 HTTP 请求变得更容易，而且也方便了开发人员测试接口（基于 HTTP 协议的），即提高了开发的效率，也方便提高代码的健壮性

在搜索相关资料的时候，会发现网上有两种HttpClient。

org.apache.commons.httpclient.HttpClient与org.apache.http.client.HttpClient的区别：Commons的HttpClient项目现在是生命的尽头，不再被开发，已被Apache HttpComponents项目HttpClient和的HttpCore模组取代，提供更好的性能和更大的灵活性

所以在查找的时候别搞混了哦，英语好的同学推荐阅读HttpClient的官方文档

实战

所有HTTP请求都有由方法名，请求URI和HTTP协议版本组成的请求行。

HttpClient支持开箱即用HTTP/1.1规范中定义的所有HTTP方法：GET, HEAD,POST, PUT, DELETE,TRACE and OPTIONS。它们都有一个特定的类对应这些方法类型: HttpGet,HttpHead, HttpPost,HttpPut, HttpDelete,HttpTrace, and HttpOptions.

请求的URI是统一资源定位符，它标识了应用于哪个请求之上的资源。HTTP请求的URI包含协议方案，主机名，可选的端口，资源路径，可选查询和可选片段。

在开发过程中，主要处理都是get和post请求。

HTTP GET

模拟get请求


 public static String sendGet(String url) {
        CloseableHttpClient httpclient = HttpClients.createDefault();
        CloseableHttpResponse response = null;
        String content = null;
        try {
            HttpGet get = new HttpGet(url);
            response = httpClient.execute(httpGet);
            HttpEntity entity = response.getEntity();
            content = EntityUtils.toString(entity);
            EntityUtils.consume(entity);
            return content;
        } catch (Exception e) {
            e.printStackTrace();
            if (response != null) {
                try {
                    response.close();
                } catch (IOException e1) {
                    e1.printStackTrace();
                }
            }
        }
        return content;
    }

url可以自己直接写上去，包括包含的参数。例如：http://www.test.com/test?msg=hello&type=test

HttpClient 提供 URIBuilder 实用类来简化请求 URL的创建和修改.

URI uri = new URIBuilder()
        .setScheme("http")
        .setHost("www.test.com")
        .setPath("/test")
        .setParameter("msg", "hello")
        .setParameter("type", "test")
        .build();
HttpGet httpget = new HttpGet(uri);

HTTP POST

发送POST请求时，需要向服务器写入一段数据。这里使用setEntity()函数来写入数据：

按照自己的经验，发送的数据由你要模拟的请求，按请求头中Content-type来分，可以分为application/x-www-form-urlencoded和application/json
对应常见的HTML表单提交和json数据提交

    // application/x-www-form-urlencoded
    public static String sendPost(HttpPost post, List nvps) {
        CloseableHttpClient httpclient = HttpClients.createDefault();
        CloseableHttpResponse response = null;
        String content = null;
        try {
            // nvps是包装请求参数的list
            if (nvps != null) {
                post.setEntity(new UrlEncodedFormEntity(nvps, "UTF-8"));
        }
            // 执行请求用execute方法，content用来帮我们附带上额外信息
            response = httpClient.execute(post);
            // 得到相应实体、包括响应头以及相应内容
            HttpEntity entity = response.getEntity();
            // 得到response的内容
            content = EntityUtils.toString(entity);
            EntityUtils.consume(entity);
            return content;
        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            if (response != null) {
                try {
                    response.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }
        return content;
    }

    // application/json
    public static String sendPostJson (String url, JSONObject object) {
        HttpPost httpPost = new HttpPost(url);
        CloseableHttpClient httpclient = HttpClients.createDefault();
        try {
            // json方式
            StringEntity entity = new StringEntity(object.toString(),"utf-8");//解决中文乱码问题
            entity.setContentEncoding("UTF-8");
            entity.setContentType("application/json;charset=UTF-8");
            httpPost.setEntity(entity);
            HttpResponse resp = httpClient.execute(httpPost);
            if(resp.getStatusLine().getStatusCode() == 200) {
                HttpEntity he = resp.getEntity();
                return EntityUtils.toString(he,"UTF-8");
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
        return null;
    }

HttpEntiy接口

Entity 是 HttpClient 中的一个特别的概念，有着各种的 Entity ，都实现自 HttpEntity 接口，输入是一个 Entity，输出也是一个 Entity 。这和 HttpURLConnection 的流有些不同，但是基本理念是相通的。对于 Entity ，HttpClient 提供给我们一个工具类 EntityUtils，使用它可以很方便的将其转换为字符串。

大多数的 HTTP 请求和响应都会包含两个部分：头和体，譬如请求头请求体，响应头响应体， Entity 也就是这里的 “体” 部分，这里暂且称之为 “实体” 。一般情况下，请求包含实体的有 POST 和 PUT 方法，而绝大多数的响应都是包含实体的，除了 HEAD 请求的响应，还有 204 No Content、304 Not Modified 和 205 Reset Content 这些不包含实体。

HttpClient 将实体分为三种类型：

streamed（流式）: 从流中获取或者是动态生成内容。尤其是这个类型包含了从HTTP响应中获取的实体。流式实体是不可重复生成的。
self-contained（自包含式）: 通过内存、使用独立的连接、其他实体的方式来获得内容。自包含实体可以重复生成。这种类型的实体将主要被用于封闭HTTP请求。
wrapping（包装式）: 通过其他实体来获得内容.

上面的例子中我们直接使用工具方法 EntityUtils.toString() 将一个 HttpEntity 转换为字符串，虽然使用起来非常方便，但是要特别注意的是这其实是不安全的做法，要确保返回内容的长度不能太长，如果太长的话，还是建议使用流的方式来读取：

CloseableHttpResponse response = httpclient.execute(request);
HttpEntity entity = response.getEntity();
if (entity != null) {
    long length = entity.getContentLength();
    if (length != -1 && length < 2048) {
        String responseBody = EntityUtils.toString(entity);
    }
    else {
        InputStream in = entity.getContent();
        // read from the input stream ...
    }
}

HTTP Header

HTTP Header 分为request header和response header。在我自己开发的时候，有时候需要把一次request header都模拟了，因为服务器端有可能会对请求的header进行验证，有些网页还会根据User-Agent不同返回不同的页面内容。也有时候需要对response header进行解析，因为服务器会将用于下一步验证所需的秘钥放在header中返回给客户端。

添加头部信息:

HttpPost post = new HttpPost(url);
post.setHeader("Content-Type", "application/json;charset=UTF-8");
post.setHeader("Host", "www.test.com.cn");

addHeader()和setHeader()，前者是新增头部信息，后者可以新增或者修改头部信息。

读取头部信息:

HttpResponse resp = httpClient.execute(···);
// 读取指定header的第一个值
resp.getFirstHeader(headerName).getValue();
// 读取指定header的最后一个值
resp.getLastHeader(headerName).getValue();
// 读取指定header
resp.getHeaders(headerName);
// 读取所有的header
resp.getAllHeaders();

页面解析

页面解析需要讲的东西太少，就直接放到这一章里面一起讲了。

前面讲了怎么用httpClient模拟Http请求，那怎么从html页面拿到我们想要的数据呢。

这里就引出了jsoup页面解析工具。

jsoup

Jsoup是一款 Java 的 HTML 解析器，可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API，可通过 DOM，CSS 以及类似于 jQuery 的操作方法来取出和操作数据。

以www.csdn.com为例。

如果我要获取当前选中元素中的标题文字。

String page = "..."; // 假设这是csdn页面的html
Document doc = Jsoup.parse(page);   //得到document对象
Element feedlist = doc.select("#feedlist_id").get(0); // 获取父级元素
String title = feedlist.select("a").get(0).text(); // 获取第一个a标签的内容
// 如果是input之类的标签，取value值就是用val()方法

上述代码用的是css选择器的方法，熟悉前端dom操作的童鞋们应该是蛮熟悉的。同时jsoup也支持直接获取dom元素的方法。

// 通过Class属性来定位元素，获取的是所有带这个class属性的集合
getElementsByClass()
// 通过标签名字来定位元素，获取的是所有带有这个标签名字的元素结合
getElementsByTag();
// 通过标签的ID来定位元素，这个是精准定位，因为页面的ID基本不会重复
getElementById();
// 通过属性和属性名来定位元素，获取的也是一个满足条件的集合;
getElementsByAttributeValue();
// 通过正则匹配属性
getElementsByAttributeValueMatching()

正则表达式

正则表达式实际上也是页面解析中非常好用的一种方式，主要是因为我在分析我需要抓取数据的页面上发现，我需要的数据并不在dom元素中，而是在js脚本中，所以直接用正则表达式获取会比较方便。

    Matcher matcher;
    String page; = "..."; // 页面html
    String regex = "..."; // 正则表达式
    matcher = Pattern.compile(regex).matcher(page);
    if (matcher.find())
         // 子询价单号
        String rst = matcher.group(1);

刚开始犯了一个很傻的错误，没有执行matcher.find()方法就直接用matcher.group(1)去赋值，导致报错。

这里推荐一个正则表达式工具.

区块链开发？会这个技术轻松找工作

区块链以太坊DApp开发是怎么炼成的？区块链的日益火爆和备受追捧，使得区块链开发人才稀缺，同时更加伴随着高薪，想要转型却不了解，特整理出学习大纲分享

想对作者说点什么？我来说一句

爬虫的常见陷阱以及Java的爬虫思路

9215

前言本文是这篇文章《Java实现爬虫给App提供数据（Jsoup 网络爬虫）》 http://blog.csdn.net/never_cxb/article/details/50524571 的衍生。...

java通过httpclient抓取需要登录的网站数据

794

最近遇到一个抓取网站数据的问题，普通的抓取，一般直接json解析或者用jsoup解析文档即可，这次遇到的网站首先需要登录，其次传递的参数也有点不一样。1、首先抓包获取登录的url，新建post请求Ht...

HttpUnit模拟按钮点击以及爬虫实现

1.1万

HttpUnit 简介 HttpUnit 本质上相当于一个后台的透明的浏览器引擎，使用java中的HttpUnit可以实现模拟点击按钮，抓取网页元素，实现动态爬虫，之前一直使用jsoup进行爬虫，不过...

JAVA 爬虫之httpclient post请求提交表单获取Ajax数据

1171

public static String httpPostWithJSON(String url) throws Exception { HttpPost httpPost = ne...

JAVA发送HttpClient请求及接收请求结果过程

1668

1、写一个HttpRequestUtils工具类，包括post请求和get请求 1 2 3 4 5 6 7 8 9 ...

如何将爬虫完全伪装成为用户在浏览器的点击行为

1.3万

另外解密恶意广告主识别的文章，据说涉密了，因为担心公司的保密协议，先删除了安全第一。本文讲述了一种使用浏览器内核进行伪装的新爬虫，它可以轻易的欺骗CNZZ的数据统计，抓取动态内容。我首先介...

中国海参85%都是假的！10年女参农曝光30年行业丑闻！闪靓网络 · 顶新

关于Jsoup 伪装请求头

5121

public static void main(String[] args) throws MalformedURLException, IOException { // Document pars...

[Jsoup] 模拟浏览器：post方式模拟登陆获取网页数据（二）

5642

本篇文章是利用Jsoup模拟登陆GitHub。这里仅限交流学习用，如利用代码进行恶意攻击他网站，和作者无关 ^ ^！从一个URL获取Document对象的其他姊妹章: 模拟浏览器：get方式简单获取...

Jsoup 爬取页面的数据和理解HTTP消息头

6491

推荐一本书：黑客攻防技术宝典.Web实战篇；顺便留下一个疑问：是否能通过jsoup大量并发访问web或者小型域名服务器，使其瘫痪？其实用jsoup熟悉的朋友可以用它解析url来干一件...

Jsoup系列学习(1)-发送get或post请求

211

原文地址简介 jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来...

文章热词

java word打开 java 模板+参数 java收集控制台一行 java代码抽奖 java 对象动态堆

个人资料

Richard易

关注

原创

粉丝

喜欢

等级：

访问：

5366

积分：

146

排名：

116万+

勋章：

个人分类

java开发笔记10篇

联系我们

请扫描二维码联系客服

[email protected]

400-660-0108

QQ客服客服论坛

关于招聘广告服务网站地图

百度提供搜索支持

经营性网站备案信息

网络110报警服务

中国互联网举报中心

北京互联网违法和不良信息举报中心

「码字计划」:拿万元写作基金！

你可能感兴趣的:(Java爬虫（二）-- httpClient模拟Http请求+jsoup页面解析)

Python 生成数据(使用Pygal模拟掷骰子) 钢铁男儿 Python 从入门到精通 python 开发语言
数据可视化指的是通过可视化表示来探索数据，它与数据挖掘紧密相关，而数据挖掘指的是使用代码来探索数据集的规律和关联。数据集可以是用一行代码就能表示的小型数字列表，也可以是数以吉字节的数据。使用Pygal模拟掷骰子在本节中，我们将使用Python可视化包Pygal来生成可缩放的矢量图形文件。对于需要在尺寸不同的屏幕上显示的图表，这很有用，因为它们将自动缩放，以适合观看者的屏幕。如果你打算以在线方式使用
使用 TensorFlow 进行图像处理：深度解析卷积神经网络（CNN）一碗黄焖鸡三碗米饭人工智能前沿与实践 tensorflow 图像处理 cnn 人工智能机器学习 python ai
目录使用TensorFlow进行图像处理：深度解析卷积神经网络（CNN）1.什么是卷积神经网络（CNN）？CNN的基本结构为什么CNN适合图像处理？2.使用TensorFlow构建CNN2.1环境准备2.2加载并预处理MNIST数据集2.3构建CNN模型2.4编译和训练模型2.5评估模型3.CNN的优化与改进3.1使用数据增强3.2调整网络结构4.CNN在其他图像处理任务中的应用5.总结参考文献在
C++中的双冒号：：逆旅可好 C++盲区 c++开发语言
在C++中，双冒号（::）被用作作用域解析运算符。类作用域解析运算符在C++中，如果要在类的定义外部定义或实现成员函数或静态成员变量，则必须使用双冒号运算符来引用类作用域中的成员。例如，如果有一个类叫做MyClass，其中有一个名为myMethod的成员函数，则可以使用以下方式引用该函数：voidMyClass::myMethod(){//函数体}其中的MyClass::表示myMethod属于M
集成学习（Ensemble Learning）基础知识1 代码骑士 #机器学习集成学习机器学习人工智能
文章目录一、集成学习1、基本概念2、回顾:误差的偏差-方差分解3、为什么集成学习有效？4、基学习器：“好而不同”5、集成学习的两个基本问题（1）如何训练出具有差异性的多个基学习器？（2）如何将多个基学习器的预测结果集成为最终的强学习器预测结果？二、自助法（Bagging）1、Bagging2、BootstrapBootstrap采样的数学性质3、Bagging:集成学习的两个基本问题（1）如何训练
FastAPI测试策略：参数解析单元测试 qcidyu 文章归档异常传播验证依赖注入测试请求模拟技术测试覆盖率优化 Pydantic验证测试单元测试策略参数解析测试
扫描二维码关注或者微信搜一搜：编程智域前端至全栈交流与成长探索数千个预构建的AI应用，开启你的下一个伟大创意第一章：核心测试方法论1.1三层测试体系架构#第一层：模型级测试deftest_user_model_validation():withpytest.raises(ValidationError):User(age=-5)#第二层：依赖项测试deftest_auth_dependency()
Vue3 + ECharts 数据可视化实战指南念九_ysl Vue echarts 信息可视化前端
一、为什么选择ECharts？百度开源的成熟可视化库支持30+种图表类型完善的文档和社区支持与Vue3完美兼容二、环境搭建1.创建Vue3项目npmcreatevue@latest#选择TypeScript、Pinia等按需配置2.安装核心依赖npminstallechartsvue-echarts@vueuse/core#推荐版本：#[email protected]#[email protected]
Python中 rstrip()、 lstrip（）、 strip() 的用法和区别一只小小的土拨鼠深度学习面试前端 java python 深度学习
目录：题目一：Python中rstrip()、lstrip（）、strip()的用法和区别题目二：python中append（）、expend（）函数的用法和区别题目三：Python中zip()、zip(*zipped)、*zip()函数的用法和区别题目一：Python中rstrip()、lstrip（）、strip()的用法和区别考点这三个函数都是去除头尾字符、空白符的函数strip：用来去除头
第六章第六节：C++STL之priority_queue（优先级队列）和仿函数快乐江湖队列 c++queue 优先级队列栈
pdf获取：7281文章目录一：priority_queue（优先级队列）（1）堆与堆排序（2）基本使用（3）“TOPK”问题（4）模拟实现二：仿函数（1）仿函数是什么（2）使用仿函数完成大顶堆和小顶堆的构建一：priority_queue（优先级队列）priority_queue（优先级队列）：在头文件中，除了基本的queue外，还有一个特殊的priority_queue，翻译过来是优先级队列的
【前端网络深潜行者】信息化人员必备知识&面试宝典：TCP连接中断，客户端突然“玩失踪”怎么办？ DTcode7 IT信息技术相关 #信息化技能面试宝典 HTML5 前端 javascript 前端三大核心 JS
【前端网络深潜行者】信息化人员必备知识&面试宝典：TCP连接中断，客户端突然“玩失踪”怎么办？TCP的忠诚卫士：保活与重传保活机制（Keepalive）超时重传与超时前端策略：优雅的应对与重连案例一：心跳检测案例二：断线重连逻辑安全与性能考量实战经验之谈排错思路结语与探讨在网络通信的迷宫中，TCP/IP协议犹如稳固的桥梁，承载着数据的往来。然而，当客户端这个“信使”突然玩起了失踪”，我们如何确保这
SQL语言的散点图苏墨瀚包罗万象 golang 开发语言后端
SQL语言的散点图引言在数据科学和数据分析的领域中，数据可视化是一项重要的技能。有效的数据可视化可以帮助我们理解复杂的数据集，发现数据中的潜在规律，进而支持决策制定。散点图作为一种基本而有效的数据可视化形式，广泛应用于各种领域。本文将深入探讨散点图的概念、使用场景、SQL查询与散点图的结合，以及如何通过SQL语言生成散点图。散点图的定义与特点散点图是一种二维图形，用来展示两个变量之间的关系。每个点
蓝桥刷题note4(位1的个数，爬楼梯）技术小白Byteman 算法数据结构 c++学习开发语言
1.位1的个数给定一个正整数n，编写一个函数，获取一个正整数的二进制形式并返回其二进制表达式中设置位的个数（也被称为汉明重量）。中心思路：利用汉明重量，n&（n-1）的操作可以去掉对应二进制数最低位的1.inthammingWeight(intn){intcount=0;while(n){n&=(n-1);//去掉最低位的1count++;}returncount;}2.爬楼梯假设你正在爬楼梯。需
腾讯云服务器标准型s2/sa1/sa2区别在哪？如何选择？ m0_58271257 腾讯云
腾讯云服务器标准型实例包括很多种不同机型的型号。本文主要说S2实例、sa1实例和sa2实例。这三款实例都是腾讯云页面比较常见的机型。这样对于新用户就容易产生困扰，不知道该选择哪个。下面详细说说在腾讯云常看到的这几款云服务器区别在哪，又该依据什么选择。我们选择电脑、服务器首先关心的都是CPU、内存怎么样。所以先这两个地方对比结果。CPU处理器不同1、标准型S2是于IntelCPU，也就是Intel云
腾讯云与阿里云，哪个更好些？云计算开发者小李阿里云腾讯云
借用一部电视剧的名字：都挺好！根据IDC最新的数据统计显示，国内前二的云计算平台分别是阿里云、腾讯云，分别背靠阿里、腾讯两大互联网集团，接下来我们就简单的介绍下两大平台。阿里云：国内最早成立的云计算平台，并且一开始就是独立运营，马爸爸宣称每年投入10亿，连续投入10年，最终阿里云的发展没有让阿里人失望，目前已成长为超千亿美元的独角兽，阿里云也由最早的带有明显淘系特色的云平台成长为综合性的云计算平台
自己搭建react + antd + less + ts项目可缺不可滥 react框架逻辑前端项目框架 react antd less ts
文章目录第一步通过官方的create-react-app，找个喜欢的目录，执行：第二步暴露配置的文件，执行：第三步支持less第四步创建路由第五步解决跨域问题第六步实现mockjs分离式开发第七步axios请求后台接口或mock接口第八步（可选）：配置antd，及其按需加载第九步将项目改造为typescript第一步通过官方的create-react-app，找个喜欢的目录，执行：/**最后面是项
AI数字人分身系统+deepseek深层技术刨析 Yxh18137784554 数字人人工智能音视频架构
#数字人分身系统##ai数字人#AI数字人分身系统：解码技术源头架构，重塑数字未来**在元宇宙加速渗透、人机交互边界持续突破的今天，AI数字人分身系统正从科幻概念演变为商业与社会的核心工具。其背后，一套融合顶尖AI技术与工程化思维的技术架构，正在重新定义“数字生命”的可能性。本文将从技术源头出发，深度解析AI数字人分身系统的核心架构设计，揭示其如何实现“形神兼备”的数字化身。---一、技术云罗数字
火山云服务器在市场中的用户占有量苹果企业签名分发服务器火山引擎
火山云服务器（即字节跳动旗下的火山引擎云服务）作为云计算市场的新兴参与者，其用户占有量目前尚未进入行业前列，但凭借字节跳动的技术背景和资源支持，正在逐步扩大市场渗透。以下是综合市场现状的分析：---###**1.整体市场格局**-**中国云计算市场前三**：阿里云、华为云、腾讯云占据主导地位（合计超60%份额）。-**第二梯队**：天翼云、AWS中国、百度智能云、京东云等。-**火山引擎**：属于
Electron对接语音唤醒Windows SDK 蚂蚁二娘 electron windows c++
一、项目主要依赖vuevue-cli-plugin-electron-builderelectronffi-napinodejs操作c++的dll库ref-napic++类型转换js-audio-recorder录音插件二、下载SDK设置好唤醒词后,下载windowsSdk,项目需要/bin目录下的msc_x64.dll和msc.dll(分别是64位和32位的dll,按需使用),以及/bin/ms
小黑笔记本，写的todolist效果，增删效果，显示隐藏，全部清除效果。 YangHuan3 html
先说一下总的大致要去实现的效果：1.新增2.删除3.统计4.清除5.隐藏给大家看一下todoList的大致样式吧！第一个效果：新增1.生成列表结构（v-for数组）2.获取用户输入（v-model）3.回车获取数据（v-on，enter添加数据）第二个效果：删除1.点击删除指定的内容（v-onsplice索引）通过对应的下标删除指定的元素，并且v-for指定的内部是可以获取到当前循环元素下标的，这
第十四届蓝桥杯省赛C++C组——子矩阵（蓝桥杯篇章完结撒花） Dawn_破晓蓝桥杯一个月速成日志蓝桥杯 c++c语言
本来想写的速成日志也没写多少，cb国二，最后一题树形DP调了一小时发现h数组没置-1，最后无果，如果没马虎可能有国一水平了，正儿八经准备用了两个月，因为要考研，每天只学2-3小时的算法，一共刷了300多道题吧，由于之前选过ACM（实验课因为周六去，懒得去还给我挂了）和算法分析课，所以还是有点基础的，如果算上一年前刷的题总共加起来也就400多道题吧。说一下历程吧，一年前的题都是老师布置的作业，迫不得
【OpenCV C++】如何快速高效的计算出图像中大于值的像素个数？遍历比较吗？ No，效率太低！那么如何更高效？ R-G-B OpenCV C++opencv c++计算机视觉
文章目录1问题2分析3代码实现（两种方法实现）方法1:使用cv::compare方法2:使用cv::threshold3.2compare和threshold看起来都有二值化效果？那么二者效率？4compare函数解释4.1参数解释4.2底层行为规则4.3应用示例4.4典型应用场景1问题一幅图像的目标区域ROI尺寸为60*35的灰度图，快速计算出大于backVal的像素个数，其中backVal=2
java-生成二维码，并写入word尾页【基础篇】橙-极纪元JJYCheng java word 开发语言
java-生成二维码，并写入word尾页【基础篇】介绍项目框架：SpringBoot项目管理：Maven推荐文章1：java-生成二维码，二维码增加logo，读取二维码推荐文章2：java-生成二维码，并写入word尾页【基础篇】推荐文章3：java-生成二维码，并写入word尾页【高级篇】推荐文章4：java
【C++篇】排队的艺术：用生活场景讲解优先级队列的实现 far away4002 C++c++stl 优先级队列向下（向上）调整算法
文章目录须知欢迎讨论：如果你在学习过程中有任何问题或想法，欢迎在评论区留言，我们一起交流学习。你的支持是我继续创作的动力！点赞、收藏与分享：觉得这篇文章对你有帮助吗？别忘了点赞、收藏并分享给更多的小伙伴哦！你们的支持是我不断进步的动力！分享给更多人：如果你觉得这篇文章对你有帮助，欢迎分享给更多对C++感兴趣的朋友，让我们一起进步！深入理解与实现：C++优先级队列的模拟实现1.引言在算法和数据结构中
Python获取tiktok视频数据信息 api 爬虫程序媛了了 python 开发语言
Tiktok通过ID爬取视频信息api采集页面如图：https://www.tiktok.com/@basketwithball2.0/video/7273119444522650912?q=irving&t=1706683319923请求APIhttp://api.xxxx.com/tt/video/info?video_id=7273119444522650912&token=test请求参数
新手必看——ctf六大题型介绍及六大题型解析&举例解题沛哥网络安全 web安全学习安全 udp 网络协议
CTF（CaptureTheFlag）介绍与六大题型解析一、什么是CTF？CTF（CaptureTheFlag），意为“夺旗赛”，是一种信息安全竞赛形式，广泛应用于网络安全领域。CTF竞赛通过模拟现实中的网络安全攻防战，让参赛者以攻防对抗的形式，利用各种信息安全技术进行解决一系列安全问题，最终获得“旗帜（Flag）”来获得积分。CTF赛事一般分为两种形式：Jeopardy（解题模式）：参赛者通过解
AI学习指南RAG篇(24)-RAGFlow的社区与开源贡献俞兆鹏 AI学习指南人工智能
一、引言RAGFlow是一款基于深度文档理解的开源RAG（Retrieval-AugmentedGeneration，检索增强生成）引擎，旨在解决现有RAG技术在数据处理和生成答案方面的挑战。RAGFlow通过结合大型语言模型（LLMs）的强大生成能力和高效的信息检索系统，为用户提供了一种全新的交互体验。本文将鼓励读者参与到RAGFlow的开源社区中，共同推动技术的发展和创新。二、RAGFlow的
C#实战：使用ZXing.NET库轻松生成二维码与条形码墨瑾轩一起学学C#【一】c#.net 开发语言
下面我将详细介绍C#中用于生成二维码和条形码的库——ZXing.NET，并附带一份详细的代码示例，其中每行代码均配有注释以解释其功能。ZXing.NET是基于开源项目ZXing（ZebraCrossing）的.NET移植版，它提供了生成和解析多种一维条形码和二维二维码的功能。准备工作首先，确保您已通过NuGet包管理器在项目中安装了ZXing.NET库。在VisualStudio中，可以通过以下步
Node.js 中使用 RabbitMQ 海上彼尚 node.js node.js rabbitmq 分布式
目录一、RabbitMQ简介二、核心概念解析三、环境搭建（以Ubuntu为例）四、Node.js实战：生产者与消费者1.安装依赖2.生产者代码（发送消息）3.消费者代码（处理消息）五、高级配置与最佳实践六、常见问题与解决方案七、总结一、RabbitMQ简介RabbitMQ是一个基于AMQP协议的开源消息代理工具，专为分布式系统设计。它通过解耦生产者和消费者实现异步通信，支持流量削峰、任务队列、服务
leetcode501-二叉搜索树中的众数记得早睡~ 算法小课堂 leetcode 算法 javascript 数据结构
leetcode501思路由于是二叉搜索树，那么我们知道它的特性：使用中序遍历得到的是从小到大排序的，所以我们利用这个规则，使用count来统计每次出现一个新的数的总个数，maxCount统计最大的个数值，result来存储二叉树中的众数，也就是要得到的结果值，pre用于统计前一个节点值初始化定义好值以后，我们需要使用中序遍历，中间处理逻辑值当pre还不存在的时候或者前一个节点跟后一个节点不相同时
leetcode530-二叉搜索树的最小绝对值记得早睡~ 算法小课堂 leetcode typescript javascript 算法数据结构
leetcode530思路这里题目有确切说明这个二叉树是：二叉搜索树那么我们可以想到二叉搜索树的特性，利用中序遍历：左中右得到的结果是从小到达排列的所以我们就只需要计算出每一个节点和前一个节点之间的差值，然后保存最小的差值就是本题答案所以我们在中序遍历的过程中需要存储最小的差值，我们首先初始化result为无穷大，还需要存储前一个节点，用于进行比较，每次遍历到一个节点的时候，我们比较resul和r
Vue2集成LuckExcel实现excel在线编辑及保存冉成未来 Web excel vue.js
文章目录LuckSheetnpm安装相关依赖vue使用luckSheet第一步：通过CDN引入第二步：指定一个excel编辑容器第三步：创建一个表格通过文件url实现excel文件的加载Excel工具类export.jsLuckSheetgitee网址：https://gitee.com/mengshukeji/LuckysheetluckSheet文档网址：https://dream-num.g
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出

Java爬虫（二）-- httpClient模拟Http请求+jsoup页面解析

Java爬虫（二）-- httpClient模拟Http请求+jsoup页面解析

前言

HttpClient

实战

HTTP GET

HTTP POST

HttpEntiy接口

HTTP Header

页面解析

jsoup

正则表达式

个人资料

最新文章

个人分类

归档

热门文章

联系我们

你可能感兴趣的:(Java爬虫（二）-- httpClient模拟Http请求+jsoup页面解析)