ailv6840

网络爬虫技术Jsoup——爬到一切你想要的（转）

转自：http://blog.csdn.net/ccg_201216323/article/details/53576654

本文由我的微信公众号（bruce常）原创首发，
并同步发表到csdn博客，欢迎转载，2016年12月11日。

概述：

本周五，接到一个任务，要使用爬虫技术来获取某点评网站里面关于健身场馆的数据，之前从未接触过爬虫技术，于是就从网上搜了一点学习资料，本篇文章就记录爬虫技术Jsoup技术，爬虫技术听名称很牛叉，其实没什么难点，慢慢的用心学习就会了。

Jsoup介绍：

Jsoup 是一个 Java 的开源HTML解析器，可直接解析某个URL地址、HTML文本内容，Jsoup官网jar包下载地址。

Jsoup主要有以下功能：
1. 从一个URL，文件或字符串中解析HTML
2. 使用DOM或CSS选择器来查找、取出数据
3. 对HTML元素、属性、文本进行操作
4. 清除不受信任的HTML (来防止XSS攻击)

使用Jsoup爬虫技术你需要的能力有：

我们是用安卓开发的，首先肯定要有一定的安卓开发能力，会写简单的页面。
Jsoup中用到了Javascript语言，没有此语言能力在获取数据的时候就比较吃力，这是此爬虫技术的重中之重。
查阅文档与解决问题的能力和技巧（有点废话）

上面三条中对于一个安卓开发者来说，最难的就是熟练使用Javascript语言，小编就遇到了这个问题，小编还有一定的javascript基础，系统的学习过此语言，但是在使用中还是很吃力的，问同学、问朋友、问同事，最后还是靠自己来获取自己想要的数据。

爬虫技术没那么难，思路就是这么的简单

得到自己想要爬取数据的url.
通过Jsoup的jar包中的方法将Html解析成Document，
使用Document中的一些列get、first、children等方法获取自己想要的数据，如图片地址、名称、时间。
将得到的数据封装成自己的实体类。
将实体中的数据在页面加载出来。

实战，获取**点评网站中的场馆数据：

先奉上效果图，没有图不说话：

这就是今天要实现的效果，左边图片是场馆的logo，右边上方是场馆的名称，下边是场馆的地址信息，点击进去可以根据超链接地址跳转新的页面，页面的Url地址小编已经拿到，但可能是因为重定向的问题，webview没有加载出来，有兴趣的可以输入链接地址来验证。

首先：新建一个空的项目.

上面的效果，只要接触过安卓开发的都能写出来，所以不是本篇文章的重点，这里就不过多说明，大家可以使用ListView或者RecyclerView来实现，我这里用ListView。

小编这里是为了加入侧边栏所以使用的是DrawerLayout，但后来没有用到，所以也就没有侧边栏的效果，不过后期如有时间会加上去的，上一页下一页是为了简单的模仿浏览器中的操作，此效果只能显示前9页数据，网页链接中有50页的数据，为什么没有实现呢？

很简单，因为50页的链接地址不是一次性返回的，小编为了方便，只获取了前9页数据的url，毕竟是为了抓取数据显示而已。

其次：主程序设计

通过网页得到**点评健身场馆的url地址是：http://www.dianping.com/search/category/2/45
抓取数据是一个耗时的操作，需要在一个线程中完成，这里使用 new Thread(runnable).start()方式，在runnable代码中获取场馆的logo、名称、地址如下：

Runnable runnable = new Runnable() {
        @Override
        public void run() {
            Connection conn = Jsoup.connect(url);
            // 修改http包中的header,伪装成浏览器进行抓取
            conn.header("User-Agent", userAgent); Document doc = null; try { doc = conn.get(); } catch (IOException e) { e.printStackTrace(); } //获取场馆的数据 Element elementDiv = doc.getElementById("shop-all-list"); Elements elementsUl = elementDiv.getElementsByTag("ul"); Elements elements = elementsUl.first().getElementsByTag("li"); for (Element element : elements) { Elements elements1 = element.children(); String targetUrl = elements1.get(0).getElementsByTag("a").attr("href"); String img = elements1.get(0).getElementsByTag("img").first().attr("data-src"); if (img.contains(".jpg")) { int a = img.indexOf(".jpg"); img = img.substring(0, a + 4); } String radiumName = elements1.get(1).child(0).getElementsByTag("h4").text(); String address0 = elements1.get(1).child(2).getElementsByTag("a").get(1).text(); String address1 = elements1.get(1).child(2).getElementsByClass("addr").text(); RadiumBean radiumBean = new RadiumBean(); radiumBean.setImg(img); radiumBean.setName(radiumName); radiumBean.setAddress(address0 + " " + address1); list.add(radiumBean); } // 执行完毕后给handler发送一个空消息 Message message = new Message(); message.arg1 = Integer.parseInt(curPage); handler.sendMessage(message); } };

通过Jsoup.connect()方法，根据目标地址url来得到Connection对象，

将我们的app伪装成浏览器，防止人家后台发现我们在爬取人家的数据，这需要修改修改http包中的header，来设置User-Agent，此值可以在谷歌浏览器中输入“about:version”来查看，也可以访问此地址查看。

通过Connection对象的get()方法来获得整个页面源代码所在的Document

通过分析源代码，使用Document的对象来得到我们想要的数据，上面程序中img待变场馆logo的url，radiumName是小编得到的场馆的名称，address0和address1是小编得到的场馆地址的信息，这里通过组合来使用。

构造我们ListView所用到的数据

通过Handle来更新页面信息，curPage（当前页）稍后说明。

在得到数据后页面加载显示

if (!list.isEmpty()) {
            MyAdapter adapter = new MyAdapter(list, MainActivity.this); info_list_view.setAdapter(adapter); }

4.点击跳转到场馆的详情页，这里本想用Webview加载的，但是可能是网页重定向的问题，webview也能加载出来，但一会就显示无法连接网络，所以场馆详情页就显示出了我们得到的场馆详情页的url。

基本的抓取数据、加载数据流程就是这样的，但是仅仅靠上面的数据还是不能完全实现我们的效果的。

完善页面，实现上下页翻页功能。

页面在爬取数据的时候显示一个ProgressDialog来提示用户。

ProgressDialog dialog = new ProgressDialog(this);
            dialog.setMessage("正在抓取数据...");
            dialog.setCancelable(false);
            dialog.show();

数据加载完毕，关闭此dialog。

 dialog.dismiss();

2.ProgresDialog加载前做是否有网络的判断，有网的时候才显示ProgressDialog，无网络的时候给出提示。

 public boolean isNetworkAvailable(Activity activity) {
        Context context = activity.getApplicationContext();
        ConnectivityManager cm = (ConnectivityManager) context.getSystemService(Context.CONNECTIVITY_SERVICE);
        if (cm == null) return false; else { // 获取所有NetworkInfo对象 NetworkInfo[] networkInfo = cm.getAllNetworkInfo(); if (networkInfo != null && networkInfo.length > 0) { for (int i = 0; i < networkInfo.length; i++) if (networkInfo[i].getState() == NetworkInfo.State.CONNECTED) return true; // 存在可用的网络连接 } } return false; }

3.完善runnable，抓取当前页码、上一页、下一页的链接地址。

// 获取页数的链接
            if (firstLoad) {
                Elements elementsPages = doc.getElementsByClass("content-wrap");
                Elements elementsPageA = elementsPages.first().getElementsByClass("shop-wrap").first().child(1).getElementsByTag("a"); for (int i = 0; i < elementsPageA.size() - 2; i++) { Element element = elementsPageA.get(i); Element element1 = element.getElementsByClass("cur").first(); Map map = new HashMap<>(); if (element1 != null) { curPage = element1.text(); map.put("page", "" + (i + 1)); map.put("url", url); mMapList.add(map); } else { map.put("page", "" + (i + 1)); map.put("url", element.attr("href")); mMapList.add(map); } } } firstLoad = false;

因为在网页中，第一次进入返回了前9页和第50页的数据，这里只取前9页的数据，firstLoad代表第一次加载，mMapList用来存放页码和页面跳转时候的url，对js中的代码不明白的朋友们，要好好学学js，这里小编就不介绍js了，至于我为什么知道取这些字段，那是小编盯着网页源程序代码看了半天看出来的。

这个时候就用到了之前runnable中的Message对象中的curPage

curPage代表当前页码，从1开始………………在handle接收到消息后显示此页码信息。

tvCurrentPage.setText("" + msg.arg1);

模仿网页的上一页下一页，我们需要处理TextView的点击事件。

下一页事件：

if (curPage.equals("" + (mMapList.size()))) {
                    Toast.makeText(this, "末页", Toast.LENGTH_SHORT).show(); } else { curPage = "" + (Integer.parseInt(curPage) + 1); url = "http://www.dianping.com" + mMapList.get(Integer.parseInt(curPage) - 1).get("url").toString(); switchOver(); tvCurrentPage.setText(curPage); }

上一页事件：

if (curPage.equals("1")) {
                    Toast.makeText(this, "首页", Toast.LENGTH_SHORT).show(); } else { curPage = "" + (Integer.parseInt(curPage) - 1); if (curPage.equals(1)) { url = "http://www.dianping.com/search/category/2/45"; } else { url = "http://www.dianping.com" + mMapList.get(Integer.parseInt(curPage) - 1).get("url").toString(); } switchOver(); tvCurrentPage.setText(curPage); }

经过小编测试，在点击下一页的时候没有bug，在点击上一页的时候，会出现doc为null，从而奔溃的bug，小编在努力解决中，但还没解决掉。

附上完整的runnable代码，毕竟这是此程序的关键部分。

Runnable runnable = new Runnable() {
        @Override
        public void run() {
            Connection conn = Jsoup.connect(url);
            // 修改http包中的header,伪装成浏览器进行抓取
            conn.header("User-Agent", userAgent); Document doc = null; try { doc = conn.get(); } catch (IOException e) { e.printStackTrace(); } // 获取页数的链接 if (firstLoad) { Elements elementsPages = doc.getElementsByClass("content-wrap"); Elements elementsPageA = elementsPages.first().getElementsByClass("shop-wrap").first().child(1).getElementsByTag("a"); for (int i = 0; i < elementsPageA.size() - 2; i++) { Element element = elementsPageA.get(i); Element element1 = element.getElementsByClass("cur").first(); Map map = new HashMap<>(); if (element1 != null) { curPage = element1.text(); map.put("page", "" + (i + 1)); map.put("url", url); mMapList.add(map); } else { map.put("page", "" + (i + 1)); map.put("url", element.attr("href")); mMapList.add(map); } } } firstLoad = false; //获取场馆的数据 Element elementDiv = doc.getElementById("shop-all-list"); Elements elementsUl = elementDiv.getElementsByTag("ul"); Elements elements = elementsUl.first().getElementsByTag("li"); for (Element element : elements) { Elements elements1 = element.children(); String targetUrl = elements1.get(0).getElementsByTag("a").attr("href"); String img = elements1.get(0).getElementsByTag("img").first().attr("data-src"); if (img.contains(".jpg")) { int a = img.indexOf(".jpg"); img = img.substring(0, a + 4); } String radiumName = elements1.get(1).child(0).getElementsByTag("h4").text(); String address0 = elements1.get(1).child(2).getElementsByTag("a").get(1).text(); String address1 = elements1.get(1).child(2).getElementsByClass("addr").text(); // StringBuilder stringBuilder = new StringBuilder(); // // if (elements1.get(2).child(0).children().size()>0){ // String youhui = ""; // if (!"".equals(elements1.get(2).child(0).child(0).getElementsByClass("more").text())){ // youhui = elements1.get(2).child(0).getElementsByTag("a").get(1).attr("title"); // }else { // youhui = elements1.get(2).child(0).getElementsByTag("a").get(1).attr("title"); // // } // // stringBuilder.append(youhui+"+++"); // } RadiumBean radiumBean = new RadiumBean(); radiumBean.setTargetUrl("http://www.dianping.com" + targetUrl); radiumBean.setImg(img); radiumBean.setName(radiumName); radiumBean.setAddress(address0 + " " + address1); list.add(radiumBean); } // 执行完毕后给handler发送一个空消息 Message message = new Message(); message.arg1 = Integer.parseInt(curPage); handler.sendMessage(message); } };

有不明白的可以对照完整的runnable代码来理解。

通过上面的步骤，我们已经完成了抓取、加载、上下页切换的效果。但但请看下面。

通过小编的切身体验，发现jsoup爬虫获取数据时候的几个需要注意的地方。
1. 个人要会js，再强调一遍，不会js，上面我写的js的程序应该会非常的迷糊，即便会的人，因为每个人写的也不一样，也是不好看懂的。
2. 我们在爬取数据的时候所用的class id 等字段一旦发生变化，那就得不到相应的标签了，页面就会发生奔溃，这一点也是致命的一点把。
3. 要想非常逼真的实现网页中的效果，那你就要好好的看看网页的源代码了，网页代码有很大的灵活性，需要你仔细分析记录规律。

测试程序已经上传到了github，有需要的可以下载源程序。

下载地址：点我点我点我

转载于:https://www.cnblogs.com/xiaohouzai/p/7643550.html

java web + mysql 实现图书管理系统鱼弦【练习两年半】程序基础【HOT】技术热谈 mysql 数据库
鱼弦：CSDN内容合伙人、CSDN新星导师、51CTO(Top红人+专家博主)、github开源爱好者（go-zero源码二次开发、游戏后端架构https://github.com/Peakchen）要使用JavaWeb和MySQL实现图书管理系统，你可以按照以下步骤进行操作：数据库设计：创建一个MySQL数据库，并命名为图书管理系统。设计数据库表，例如：图书表（Book）、用户表（User）等。
如何设计基于Java的高并发消息队列系统省赚客app开发者 java 开发语言
如何设计基于Java的高并发消息队列系统大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！在现代的分布式系统中，消息队列作为解耦和异步处理的关键组件，能够有效提升系统的可扩展性和高并发处理能力。本文将详细探讨如何设计一个基于Java的高并发消息队列系统，包括架构设计、核心组件实现及性能优化策略。一、消息队列系统的需求分析在设计高并发消息队列系统时，需要考虑以下几个核心需
Java应用中的高可用架构设计：从单点故障到故障恢复省赚客app开发者 java 开发语言
Java应用中的高可用架构设计：从单点故障到故障恢复大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！高可用架构设计是现代软件开发中的关键组成部分，尤其是在Java应用中。高可用性不仅能够提高用户满意度，还能减少因服务不可用导致的业务损失。本文将探讨如何从单点故障到故障恢复，构建一个高可用的Java应用架构。一、高可用性的定义与重要性高可用性（HighAvailabil
Java中的API设计与版本管理：RESTful API的最佳实践省赚客app开发者 java restful 开发语言
Java中的API设计与版本管理：RESTfulAPI的最佳实践大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！在现代软件开发中，API（应用程序接口）设计与版本管理是至关重要的。RESTfulAPI由于其简洁性和可扩展性，已经成为了最流行的Web服务架构风格。本文将探讨Java中如何设计和管理RESTfulAPI，提供最佳实践和实用的技术方案。1.RESTfulAP
（尚硅谷 java 学习 b 站大学版）Day11 面向对象基础知识初入门亢从文_Jackson java 学习 python
四、面向对象(上)终于到面向对象了，Java语言的重中之重奥利给！！！Java面向对象学习的三条主线：1、Java类及类的成员：属性、方法、构造器；代码块内部类2、面向对象三大特征：封装、继承、多态性、(抽象性)3、其他关键字：this\super\static\final\abstract\interface\package…4.1面向过程（POP）与面向对象(OOP)面向过程：强调是功能行为，
ecmascript标准周盛欢 ecmascript
一、什么是ECMAScriptECMAScript是一种脚本语言的标准，由EcmaInternational组织制定。简单来说，它就是JavaScript的“官方规范”，规定了JavaScript语言的语法和行为。就像英语有语法一样，JavaScript也有自己的“语法书”，而ECMAScript就是这本“语法书”。二、为什么需要ECMAScript以前，不同的浏览器（比如Chrome、Firef
2025蛇年喜庆HTML5代码学习&实践爱好者 HTML5与CSS3 JavaScrip技术编程实践系列 html5 前端 html
2025蛇年喜庆HTML5代码以下是一个简单的HTML5+CSS+JavaScript代码示例，用于庆祝2025年蛇年。先看效果图：源码如下：2025年蛇年快乐！body{font-family:'Arial',sans-serif;background-color:#0a0a23;/*深蓝色背景*/color:#ffffff;/*白色文字*/text-align:center;margin:0;
Java软件架构中的事件驱动模式：最佳实践与挑战省赚客app开发者 java 开发语言
Java软件架构中的事件驱动模式：最佳实践与挑战大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天我们来聊一聊**事件驱动架构（Event-DrivenArchitecture,EDA）**在Java软件开发中的应用。事件驱动模式已经成为现代分布式系统中广泛采用的设计方式，尤其是在需要解耦组件、提高系统响应能力和支持高并发的场景下。本文将探讨事件驱动架构的最佳实践以
ZooKeeper 提供了什么？思维导图代码示例（java 架构) 用心去追梦 java-zookeeper zookeeper java
ZooKeeper提供了一组核心服务和特性，旨在简化分布式系统的构建。它通过一个简单的接口来实现同步、配置管理、分组和命名等功能。下面我将提供一个关于ZooKeeper所提供的服务和特性的思维导图大纲，并给出一些Java代码示例以说明如何使用这些功能。思维导图大纲1.ZooKeeper提供的核心服务命名服务（NamingService）分布式系统中唯一标识资源配置管理（ConfigurationM
生产环境WAS产生javacore、dmp、dump文件分析 bubble小拾 1024程序员节 java 运维
目录一、分析工具二、Java转储（Javadump）Java转储内容（Javadumpcontents）标题(TITLE)GP信息（GPINFO）环境信息（ENVINFO）本地内存信息（NATIVEMEMINFO）内存信息（MEMINFO）锁（LOCKS）线程（THREADS）钩子（HOOKS）共享类（SHAREDCLASSES）类（CLASSES）场景（Scenarios）一般保护故障（Gene
Java程序员开发软件(工具)清单 nshkfhwr Java MySQL Linux java tomcat maven kafka eclipse
亲！你准备好了吗？【001】项目管理：禅道/JIRA【002】办公协同：钉钉【003】工作邮件：Foxmail/OutLook【004】项目文档：MS-Office(Word/Excel/PowerPoint)/WPS【005】MD-笔记：Typro【006】个人PKM：Zim-Wiki/思源笔记【007】ToDO清单：Todo清单【008】文件搜索：Everything【009】桌面整理：Fen
activeMQ笔记之一 kongxiangqi activemq jms session 消息中间件 api 企业应用
1.JMS介绍JMS源于企业应用对于消息中间件的需求，使应用程序可以通过消息进行异步处理而互不影响。Sun公司和它的合作伙伴设计的JMSAPI定义了一组公共的应用程序接口和相应语法，使得Java程序能够和其他消息组件进行通信。JMS有四个组成部分：JMS服务提供者、消息管理对象、消息的生产者消费者和消息本身。1)JMS服务提供者实现消息队列和通知，同时实现消息管理的API。JMS已经是J2EEAP
java 字符串日期字段格式化前端显示 qq_36608622 java 开发语言
在Java应用程序中，如果你有一个字符串类型的日期字段，并希望将其格式化后显示在前端，可以通过多种方式实现。这通常涉及到在后端将字符串转换为Date或LocalDateTime等对象，然后使用适当的注解或配置来确保它们以正确的格式序列化为JSON发送到前端。以下是几种常见方法：方法一：使用@JsonFormat注解(Jackson)如果你使用的是Jackson来处理JSON序列化和反序列化，可以在
刷题前必学！链表！用JavaScript学数据结构与算法
‍JavaScript数据结构与算法-HowieCong务必要熟悉JavaScript使用再来学！一、链表的基本形态链表和数组都是有序的列表，都是线性结构（有且仅有一个前驱，有且仅有一个后续）；不同点在于，链表中，数据单位的名称叫做“结点”，而结点和结点的分布，在内存中都是离散的1.数组的“连续”在内存中最为关键的一个特征，就是对应一段位于自身上界和下界之间的，一段连续的内存空间。元素与元素之间，
ambari-server页面错位问题解决王木头 ambari hadoop 大数据
背景：项目新安装的ambari集群页面错位如下解决办法（临时）：修改ambari-server的前端文件：/usr/lib/ambari-server/web/javascripts/app.js原代码：initNavigationBar:function(){if(App.get('router.mainController.isClusterDataLoaded')){$('body').on
前端的核心技术善良的小乔前端
前端开发的核心技术主要围绕HTML、CSS、JavaScript三大基础语言展开，同时结合现代前端开发的需求，还包括前端框架、构建工具、前端安全和性能优化等内容。下面，我们详细解析前端开发中的核心技术。一.HTML（超文本标记语言）详解HTML（HyperTextMarkupLanguage）是前端开发的基础，用于构建网页的结构。HTML由各种标签（Tag）组成，每个标签都有不同的作用，主要用于定
Python爬虫与窗口实现翻译小工具（仅限学习交流）纵码奔腾 python
Python爬虫与窗口实现翻译小工具（仅限学习交流）在工作中，遇到一个不懂的单词时，就会去网页找对应的翻译，我们可以用Python爬虫与窗口配合，制作一个简易的翻译小工具，不需要打开网页，自动把翻译结果显示出来。整个过程比较简单。#ThisisasamplePythonscript.#PressShift+F10toexecuteitorreplaceitwithyourcode.#PressDo
华为OD机试算法目录题库-1 国王护卫队华为OD面试最新手撕代码华为od 算法 python
(D卷,200分)-攀登者2（Java&JS&Python&C）(D卷,100分)-最大时间（Java&JS&Python）(D卷,200分)-最长子字符串的长度(二)（Java&JS&Python&C）(D卷,200分)-最小矩阵宽度（Java&JS&Python&C）(D卷,200分)-最小传输时延Ⅱ（Java&JS&Python）(D卷,200分)-最大社交距离（Java&JS&Python
CSS3网页加载进度条特效：13种炫酷实现 laforet
本文还有配套的精品资源，点击获取简介：本文深入探讨CSS3在网页加载进度条设计中的应用，包括动画、选择器、边框半径、过渡和阴影等新特性。通过介绍13种不同的进度条特效代码，指导开发者如何结合JavaScript实现丰富的进度显示效果，提升用户体验。详细描述了进度条的外观设计和动态效果，如计数器进度条、顶部进度条、背景进度条，并展示了利用Flexbox、Grid布局、Transforms、阴影和渐变
Python爬虫基础知识：从零开始的抓取艺术 egzosn python 爬虫开发语言
在大数据时代，网络数据成为宝贵的资源，而Python爬虫则是获取这些数据的重要工具。本文旨在为初学者提供一份Python爬虫的入门指南，涵盖基础知识、常用库介绍、实战案例以及注意事项，帮助你快速上手，成为一名合格的“网络矿工”。一、Python爬虫概述1.1什么是爬虫？爬虫，也称为网络爬虫或蜘蛛，是一种自动抓取互联网信息的程序。它通过模拟人类浏览网页的行为，自动地遍历和抓取网络上的数据，常用于数据
【网站架构部署与优化】Tomcat优化、Tomcat多实例部署 Karoku066 架构 tomcat firefox linux 运维服务器 bash
文章目录Tomcat优化Tomcat配置文件参数优化示例配置TomcatJVM参数配置参数解释注意总结Tomcat配置文件参数优化(`server.xml`)1.线程池参数2.网络连接参数3.性能优化参数Java虚拟机（JVM）调优1.堆内存设置2.新生代和老年代设置3.垃圾收集器设置4.其他性能优化参数常见错误及解决方法Tomcat多实例部署1.安装JDK和Tomcat2.配置Tomcat环境变
使用CSS实现一个加载的进度条 eqa11 css 前端进度条
文章目录使用CSS实现一个加载的进度条一、引言二、步骤一：HTML结构与CSS基础样式1、HTML结构2、CSS基础样式三、步骤二：添加动画效果1、使用CSS动画2、结合JavaScript控制动画四、使用示例五、总结使用CSS实现一个加载的进度条一、引言在现代网页设计中，加载速度对用户体验至关重要。为了提升用户体验，加载进度条成为了一个常见的交互元素。它不仅能告知用户页面加载的进度，还能减少用户
2024 java面试题 TPBoreas #Java面试开发语言后端
目录JAVA初级请简述你对MVC模式的理解SpringBean的生命周期可以分为以下几步:Spring自动装配bean有哪些方式？说一下类的加载过程？在使用HashMap的时候，用String做key有什么好处？HashMap、LinkedHashMap、TreeMap的区别？this与super之间有什么区别？乐观锁和悲观锁的实现是怎么样的？==与equals的区别Final在java中有什么作
[0157]基于JAVA的井下瓦斯及灾害预警智慧管理系统的设计与实现阿鑫学长【毕设工场】 java 开发语言毕业设计课程设计
毕业设计（论文）开题报告表姓名学院专业班级题目基于JAVA的井下瓦斯及灾害预警智慧管理系统的设计与实现指导老师（一）选题的背景和意义选题背景与意义：随着我国煤炭工业的持续发展，井下安全生产问题特别是瓦斯灾害防治成为制约煤矿高效、安全运营的关键环节。据统计数据显示，瓦斯爆炸事故在各类煤矿安全事故中占据较高比例，严重威胁矿工生命安全和煤矿生产秩序。因此，实现对井下瓦斯浓度的实时监测、智能预警以及高效的
【架构师基础（二）】Java 架构设计的基本原则架构学院 Java成神之路-架构师进阶 java 开发语言架构设计模式
Java架构设计的基本原则：构建稳健、可维护和可扩展的系统在Java开发领域，架构设计是构建高质量软件系统的关键环节。良好的架构不仅能保证系统在当前的正常运行，还能确保其在未来的扩展、维护和优化过程中保持高效和可靠。本文将深入探讨Java架构设计的一些基本原则，包括SOLID原则、设计模式以及代码重构对可维护性的影响，并通过实际的源码示例来详细阐述它们的实现原理、性能考量和应用场景。无套路、关注即
深入了解 React：从入门到高级应用 ╰つ゛木槿 web前端 react.js 前端前端框架
深入了解React：从入门到高级应用React是由Facebook开发并维护的一个开源JavaScript库，用于构建用户界面。自2013年发布以来，React在前端开发领域迅速崛起，成为最受欢迎的UI构建工具之一。无论是小型的单页应用（SPA）还是复杂的大型企业级应用，React都能提供高效、灵活的解决方案。本文将全面、详细地介绍React，包括其核心概念、工作原理、最佳实践以及生态系统。目录：
java JDBC操作Mysql解析一只肥瘫瘫 java java mysql 数据库
一.概念：JavaDataBaseConnectivityJava数据库连接，Java语言操作数据库。JDBC本质：其实是官方（sun公司）定义的一套操作所有关系型数据库的规则，即接口。各个数据库厂商去实现这套接口，提供数据库驱动jar包。我们可以使用这套接口（JDBC）编程，真正执行的代码是驱动jar包中的实现类。二.操作步骤：1.导入驱动jar包2.注册驱动3.获取数据库连接对象Connect
（面经总结）一篇文章带你整理面试过程中关于多线程中的线程池的相关知识点南淮北安冲刺大厂之面经总结面试 java 经验分享线程池多线程
文章目录一、线程池的工作原理二、线程复用三、线程池的核心组件和核心类四、Java线程池的工作流程五、线程池的拒绝策略六、5中常用的线程池1.newCachedThreadPool2.newFixedThreadPool3.newScheduledThreadPool4.newSingleThreadExecutor5.newWorkStealingPool六、面试题一、线程池的工作原理线程是非常宝
jhyperscan性能优化过程大明__ hyperscan java c++
因业务需求，对正则匹配进行优化，使用hyperscan进行文本内容提取优化；Hyperscan是一款来自于Intel的高性能的正则表达式匹配库；因为业务代码是java编写的，所以参照hyperscan-java的方法，使用C/C++编译Hyperscan，然后使用JNA调用的方式使用Hyperscan；不过经性能测试，发现Hyperscan-java，并未能产生明显的性能优化；隧开始定位为什么Hy
【Java 线程池】详解架构学院 Java成神之路-JAVA入门 Java成神之路-架构师进阶 java spring spring boot spring cloud jvm
线程池详解无套路、关注即可领。持续更新中关注公众号：搜【架构研究站】回复：资料领取，即可获取全部面试题以及1000+份学习资料在现代的Java并发编程领域，线程池扮演着至关重要的角色。它不仅能高效地管理线程资源，避免频繁创建和销毁线程带来的性能开销，还能提升系统整体的并发处理能力与稳定性。接下来，我们将深入剖析线程池的方方面面，包括其原理、核心组成部分、使用方法以及在实际项目中的具体运用。一、线程
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><