小关同学喜欢吃汉堡

Java爬取某旅游网站的景点信息

前言：这两周在做 Web 课的大作业，顺便琢磨了一下如何使用 Java 从网上获取一些数据，现在写这篇博客记录一下。
PS：这里仅限交流学习用，如利用代码进行恶意攻击他网站，和作者无关！！！

更新：修改了一些内容，本文章仅供参考。

Java爬取某旅游网站的景点信息

网上用 Java 做数据爬取的案例不少，但是很少是能用的，有些是几年前能用，但是现在不行了，有些则是只有一个思路，在上网查阅许多资料之后我琢磨出了一个可行的爬取去哪儿网的景点信息的方案。

使用工具：

HttpClient：发出请求
Jsoup：解析页面
MyBatis：数据保存

所需 Maven 依赖：

		<dependency>
            <groupId>mysqlgroupId>
            <artifactId>mysql-connector-javaartifactId>
            <version>8.0.20version>
        dependency>
        <dependency>
            <groupId>org.mybatisgroupId>
            <artifactId>mybatisartifactId>
            <version>3.5.4version>
        dependency>
        <dependency>
            <groupId>ch.qos.logbackgroupId>
            <artifactId>logback-classicartifactId>
            <version>1.2.3version>
        dependency>
        <dependency>
            <groupId>org.projectlombokgroupId>
            <artifactId>lombokartifactId>
            <version>RELEASEversion>
            <scope>testscope>
        dependency>


        <dependency>
            <groupId>org.apache.httpcomponentsgroupId>
            <artifactId>httpcoreartifactId>
            <version>4.4.14version>
        dependency>
        <dependency>
            <groupId>org.apache.httpcomponentsgroupId>
            <artifactId>httpclientartifactId>
            <version>4.5.13version>
        dependency>

        <dependency>
            <groupId>commons-httpclientgroupId>
            <artifactId>commons-httpclientartifactId>
            <version>3.1version>
        dependency>

        <dependency>
            
            <groupId>org.jsoupgroupId>
            <artifactId>jsoupartifactId>
            <version>1.11.3version>
        dependency>

        
        <dependency>
            <groupId>com.squareup.okhttp3groupId>
            <artifactId>okhttpartifactId>
            <version>4.1.0version>
        dependency>

一、发出请求

我这里使用 HttpClient 来发 Get 请求获取我想要的信息，代码如下：

import org.apache.commons.httpclient.DefaultHttpMethodRetryHandler;
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.cookie.CookiePolicy;
import org.apache.commons.httpclient.methods.GetMethod;
import org.apache.commons.httpclient.params.DefaultHttpParams;
import org.apache.commons.httpclient.params.HttpMethodParams;

import java.io.BufferedReader;
import java.io.InputStream;
import java.io.InputStreamReader;

/**
 * @author 小关同学
 * @create 2021/11/9
 */
public class Request {

    public static String doGet(String url) {
        // 输入流
        InputStream is = null;
        BufferedReader br = null;
        String result = null;
        // 创建httpClient实例
        HttpClient httpClient = new HttpClient();
        // 设置http连接主机服务超时时间：15000毫秒
        // 先获取连接管理器对象，再获取参数对象,再进行参数的赋值
        httpClient.getHttpConnectionManager().getParams().setConnectionTimeout(15000);
        // 创建一个Get方法实例对象
        GetMethod getMethod = new GetMethod(url);
        // 设置get请求超时为60000毫秒
        getMethod.getParams().setParameter(HttpMethodParams.SO_TIMEOUT, 60000);
        // 设置请求重试机制，默认重试次数：3次，参数设置为true，重试机制可用，false相反
        getMethod.getParams().setParameter(HttpMethodParams.RETRY_HANDLER, new DefaultHttpMethodRetryHandler(3, true));

        DefaultHttpParams.getDefaultParams().setParameter("http.protocol.cookie-policy", CookiePolicy.BROWSER_COMPATIBILITY);

        try {

            Thread.sleep(5000);
            // 执行Get方法
            int statusCode = httpClient.executeMethod(getMethod);
            System.out.println("请求状态码："+statusCode);
            
            // 判断返回码
//            if (statusCode != HttpStatus.SC_OK) {
            // 如果状态码返回的不是ok,说明失败了,打印错误信息
//                System.err.println("Method faild: " + getMethod.getStatusLine());
//            } else {


            // 通过getMethod实例，获取远程的一个输入流
            is = getMethod.getResponseBodyAsStream();
            // 包装输入流
            br = new BufferedReader(new InputStreamReader(is, "UTF-8"));

            StringBuffer sbf = new StringBuffer();
            // 读取封装的输入流
            String temp = null;
            while ((temp = br.readLine()) != null) {
                sbf.append(temp).append("\r\n");
            }
            result = sbf.toString();
//            }

        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            // 关闭资源
            if (null != br) {
                try {
                    br.close();
                } catch (Exception e) {
                    e.printStackTrace();
                }
            }
            if (null != is) {
                try {
                    is.close();
                } catch (Exception e) {
                    e.printStackTrace();
                }
            }
            // 释放连接
            getMethod.releaseConnection();
        }
        return result;

    }
}

这里的发出请求代码网上多得是，我这个是借鉴了网上的代码，然后稍作修改而来的，主要修改了判断返回状态码那里，使得一次请求不成功之后程序不会立即停止，而是继续发出请求，直到获取到想要的数据。

PS：这里按理说最好改一下请求头什么的，来避过反爬机制，但是我懒得改了，就让它那样了（能用就行）。

二、对 HTML 页面进行解析（重点）

对 HTML 页面进行解析的话就要使用 Jsoup 了，这里先介绍一下这个 Jsoup 是什么。

Jsoup 是一款 Java 的 HTML 解析器，可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API，可通过 DOM，CSS 以及类似于 jQuery 的操作方法来取出和操作数据。

Jsoup 的主要功能

从一个 URL，文件或字符串中解析 HTML；
使用 DOM 或 CSS 选择器来查找、取出数据；
可操作 HTML 元素、属性、文本。

我们这里使用 Jsoup 解析前面获取到的 HTML 页面信息，代码如下：

import com.entity.Spot;
import com.entity.SpotDetail;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.util.ArrayList;
import java.util.HashSet;
import java.util.List;
import java.util.Set;


/**
 * @author 小关同学
 * @create 2021/11/6
 * 爬取去哪儿旅行的数据
 */
public class SpotDataCrawler {

    /**
     * 爬取对应城市景点简介信息
     * @param city
     * @return
     */
    public static Set<Spot> requestSpotData(String city, int page) {
        String ascii = CodeTransition.stringToASCII(city);
        String target = Request.doGet("http://piao.qunar.com/ticket/list.htm?keyword="+ascii+"®ion=&from=mpl_search_suggest&page="+page);
        Document root_document = null;
        assert target != null;
        //是404页面时，返回null
        if (target.contains("非常抱歉，您访问的页面不存在。
")){
            return null;
        }
        root_document = Jsoup.parse(target);

        //获取需要数据的div
        Element e = root_document.getElementById("search-list");

        //得到网页上的景点列表(包含两个样式集合)
        Elements yy = e.getElementsByClass("sight_item sight_itempos");
        Elements yy2 = e.getElementsByClass("sight_item");
        yy.addAll(yy2);

        //图片
        //#search-list > div:nth-child(1) > div > div.sight_item_show > div > a

        //标题
        //#search-list > div:nth-child(1) > div > div.sight_item_about > h3 > a

        //地点
        //#search-list > div:nth-child(1) > div > div.sight_item_about > div > p > span

        //简介
        //#search-list > div:nth-child(1) > div > div.sight_item_about > div > div.intro.color999

        //热度
        //#search-list > div:nth-child(1) > div > div.sight_item_about > div > div.clrfix > div > span.product_star_level > em > span

        Set<Spot> spotList = new HashSet<>();
        for (int i = 0; i < yy.size(); i++) {

            Spot spot = new Spot();

            //得到每一条景点信息
            Element Info = yy.get(i);
            //分析网页得到景点的标题（使用选择器语法来查找元素）

            //景点名称信息
            Element nameStr = Info.selectFirst(" div > div.sight_item_about > h3 > a");
            String name = nameStr.html();
            spot.setName(name);
            System.out.println("景点名称：" + name);

            //景点图片信息
            Element pictureStr = Info.selectFirst("div > div.sight_item_show > div > a");
            String picture = pictureStr.html();
            int index = picture.indexOf(" alt");
            String url = picture.substring(20,index-1);
            spot.setPicture(url);
            System.out.println("景点图片地址：" + url);

            //价格
            Element priceStr = Info.selectFirst("div > div.sight_item_pop > table > tbody > tr:nth-child(1) > td > span > em");
            if (priceStr!=null){
                String price = priceStr.html();
                if (!price.isEmpty()){
                    spot.setPrice(Double.parseDouble(price));
                    System.out.println("价格：" + price);
                }
            }

            //景点地点信息
            Element addressStr = Info.selectFirst(" div > div.sight_item_about > div > p > span");
            String address = addressStr.html();
            spot.setArea(address);
            System.out.println("景点地点：" + address);

            //景点简介
            Element infoStr = Info.selectFirst(" div > div.sight_item_about > div > div.intro.color999");
            String info = infoStr.html();
            spot.setInfo(info);
            System.out.println("景点简介：" + info);

            //景点在网页中对应的id
            //#search-list > div:nth-child(1) > div > div.sight_item_about > div > p > a
            Element spotIdInWebStr = Info.selectFirst("div > div.sight_item_about > div > p > a");
            int start = spotIdInWebStr.toString().indexOf("data-sightid=\"");
            int end = spotIdInWebStr.toString().indexOf("\">地图");
            String spotWebId = spotIdInWebStr.toString().substring(start+14,end);
            spot.setSpotWebId(spotWebId);
            System.out.println("对应详情页面的id："+spotWebId);
            spotList.add(spot);
        }
        return spotList;
    }

    /**
     * 爬取景点的详细信息
     * @param name 景点名称
     * @param webId 景点对应的webId
     * @return 返回相关信息
     */
    public static Object[] requestSpotDetailData(String name,int id,String webId){
        Object[] result = new Object[2];
        Spot spot = new Spot();
        List<SpotDetail> list = new ArrayList<>();

        String ascii = CodeTransition.stringToASCII(name);
        String url = "http://piao.qunar.com/ticket/detail_" + webId + ".html?st="+ascii+"#from=mpl_search_suggest";
        String target = Request.doGet(url);
        assert target != null;
        //是404页面时，返回null
        if (target.contains("非常抱歉，您访问的页面不存在。
")){
            System.out.println("非常抱歉，您访问的页面不存在");
            return null;
        }
        Document root_document;
        root_document = Jsoup.parse(target);

        //分析网页得到景点的标题（使用选择器语法来查找元素）

        spot.setId(id);

        //特色看点->推荐理由(保存在Spot里面)
        //#mp-charact > div > div.mp-charact-intro > div.mp-charact-desc > p:nth-child(1)
        //#mp-charact > div > div.mp-charact-intro > div.mp-charact-desc > p:nth-child(2)
        String reason = "";
        Element reasonStr1 = root_document.selectFirst("#mp-charact > div:nth-child(1) > div.mp-charact-intro > div.mp-charact-desc > p");
        if (reasonStr1!=null){
            reason = reasonStr1.html();
        }
        Element reasonStr2 = root_document.selectFirst("#mp-charact > div > div.mp-charact-intro > div.mp-charact-desc > p:nth-child(1)");
        if (reasonStr2!=null){
            reason = reasonStr2.html();
        }
        spot.setInfoDetail(reason);
        System.out.println("推荐理由：" + reason);

        //开放时间
        Element openTimeStr = root_document.selectFirst("#mp-charact > div:nth-child(1) > div.mp-charact-time > div > div.mp-charact-desc > p");
        if (openTimeStr!=null){
            String openTime = openTimeStr.html();
            spot.setOpenTime(openTime);
            System.out.println("开放时间：" + openTime);
        }

        //景点详细信息
        //#mp-charact > div:nth-child(2)
        //#mp-charact > div:nth-child(2)
        Element infoDetailStr = root_document.selectFirst("#mp-charact > div:nth-child(2)");
        //如果没有图片等详细介绍
        if (infoDetailStr==null){
            result[0] = spot;
            result[1] = null;
            return result;
        }
        //得到网页上的景点列表(包含两个样式集合)
        Elements yy = infoDetailStr.getElementsByClass("mp-charact-event");
        System.out.println(yy.size());
        for (int i = 0; i < yy.size(); i++) {

            SpotDetail spotDetail = new SpotDetail();


            //得到每一条景点信息
            Element Info = yy.get(i);

            //#mp-charact > div:nth-child(2) > div:nth-child(3) > div > img
            //#mp-charact > div:nth-child(2) > div:nth-child(3) > div
            Element pictureStr = Info.selectFirst("div > img");
            if (pictureStr!=null){
                int index = pictureStr.toString().indexOf(">");
                String pictureUrl = pictureStr.toString().substring(10,index-1);
                spotDetail.setPicture(pictureUrl);
                System.out.println("景点图片地址：" + pictureUrl);
            }

            //#mp-charact > div:nth-child(2) > div:nth-child(2) > div > div.mp-event-desc > h3
            Element titleStr = Info.selectFirst("div > div.mp-event-desc > h3");
            if (titleStr!=null){
                String title = titleStr.html();
                spotDetail.setTitle(title);
                System.out.println("图片标题："+title);
            }

            Element pictureDetailStr = Info.selectFirst("div > div.mp-event-desc > p");
            if (pictureDetailStr!=null){
                String pictureDetail = pictureDetailStr.html();
                spotDetail.setInfo(pictureDetail);
                System.out.println("图片详情："+pictureDetail);
            }

            list.add(spotDetail);

        }

        result[0] = spot;
        result[1] = list;
        return result;
    }


    public static void main(String[] args) throws InterruptedException {
        //测试爬取景点简要信息
//        for (int i = 1;i <= 10;i++){
//            //生成1-10的随机数
//            int random = (int)(1+Math.random()*(10-1+1));
//            String str = random+"00";
//            Thread.sleep(Integer.parseInt(str));
//            System.out.println("=======================第"+i+"页=====================");
//            Object result = requestSpotData("西安",i);
//            if (result==null){
//                i--;
//            }else{
//                System.out.println(result.toString());
//            }
//        }

        //测试爬取景点详细信息
        Object[] param = SpotDataCrawler.requestSpotDetailData("陕西历史博物馆",1,"383907200");
        System.out.println("===========================分割线==================================");
        if (param!=null){
            System.out.println(((Spot)param[0]).toString());
            for (SpotDetail detail:(List<SpotDetail>)param[1]){
                System.out.println(detail.toString());
            }
        }
    }

}

1、对API查询接口的操作

现在进入了重头戏，首先，根据去哪儿景点查询页面获取到景点查询的API接口，如下图：

我们可以看到，去哪儿的景点查询API是这样的
http://piao.qunar.com/ticket/list.htm?keyword=要查询景点的UTF-8编码形式®ion=&from=mpl_search_suggest

这里我们要查询的景点是西安，所以得把“西安”这个 keyword 转换为 UTF-8 编码的形式，转换代码如下：

import java.io.UnsupportedEncodingException;
import java.net.URLEncoder;

/**
 * @author 小关同学
 * @create 2021/11/7
 * 中文转URL
 */
public class CodeTransition {

    public static String stringToASCII(String param) {
        String result = "";
        try {
            result = URLEncoder.encode(param,"utf-8");
        } catch (UnsupportedEncodingException e) {
            e.printStackTrace();
        }
        return result;
    }

    public static void main(String[] args){
        System.out.println(stringToASCII("西安"));
    }

}

2、对请求到的页面的解析操作

然后我们来对页面进行解析（这里只做部分讲解），
先将获取到的页面进行解析，如下图：

这里使用 Jsoup.parse 方法进行解析，把 String 类型的页面数据解析成 Document 对象，方便我们下一步操作。

3、HTML 中元素的定位

比如我们要获取景点的名称，如下图：

使用浏览器的调试功能定位到相应的 HTML 代码上，然后右键，选择 Copy 下的 Copy Selector 来获取代码在页面中的位置，如下：
#search-list > div:nth-child(1) > div > div.sight_item_about > h3 > a

然后使用 Element 对象定位元素，进而获取到信息，详细的过程我也不讲太多了，自己看代码去。

三、保存获取到的数据

现在我们获取并解析得到了数据，我们现在可以把它们放到数据库里面去了，这里我使用了 MyBatis 框架进行数据持久化操作，代码我就不贴了，想看完整代码的去我 Github 上面看。

最后

项目地址如下：
Github 地址：https://github.com/guanchanglong/DataCrawler
麻烦各位可否在看代码的时候顺手给一颗星 ^ _ ^，举手之劳感激不尽。

PS：可以到我的个人博客查看更多内容
个人博客地址：www.xiaoguantongxue.com

Vue教程｜搭建vue项目｜Vue-CLI新版脚手架 cnsxjean vue.js javascript 前端框架 npm ui
一、安装Node环境安装Node及Npm环境Node下载地址：Node.js—RunJavaScriptEverywhereNode.js®isaJavaScriptruntimebuiltonChrome'sV8JavaScriptengine.https://nodejs.org/en/安装完成后，检查安装是否成功，并检查版本，命令如下：node-vnpm-vmac@MacdeMacBook-
【学习总结|DAY033】后端Web进阶(AOP) 123yhy传奇 java mybatis 学习 springboot spring
在当今的软件开发领域，提高代码的可维护性、可扩展性以及减少重复代码是至关重要的。SpringAOP（AspectOrientedProgramming，面向切面编程）作为一种强大的编程思想和技术，在解决这些问题上发挥着重要作用。本文将结合实际代码示例，深入探讨SpringAOP的相关知识，帮助大家更好地掌握这一技术。一、AOP基础概念1.1什么是AOPAOP即面向切面编程，它可以简单理解为面向特定
【学习总结|DAY021】Java 多线程 123yhy传奇 java 学习开发语言
多线程是Java编程中非常重要的概念，它允许程序同时执行多个任务，提高程序的执行效率。本文将详细介绍多线程的创建方式、常用方法、线程安全、线程同步、线程池以及并发和并行的概念，并结合代码案例进行讲解。一、线程的创建方式Java中创建线程主要有三种方式：方式一：继承Thread类classMyThreadextendsThread{@Overridepublicvoidrun(){//线程执行的任务
使用@EmbeddedId实现复合主键的优雅方式 2501_90323865 java python 开发语言个人开发
在Java的JPA（JavaPersistenceAPI）中，复合主键是一个常见的需求，尤其是在处理多对多关系或需要多个字段共同作为主键的场景中。传统上，我们可以通过@IdClass来实现复合主键，但这种方式需要在实体类和主键类中重复定义相同的字段，显得有些冗余。相比之下，@EmbeddedId提供了一种更为简洁和直观的解决方案，它通过对象组合的方式，将复合主键类嵌入到实体类中，避免了字段的重复定
2025毕设springboot 基于web的电商后台管理系统的设计与实现论文+源码 zhihao503 课程设计 spring boot 前端
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容研究背景随着互联网技术的飞速发展和普及，电子商务已成为现代商业的重要组成部分。电商平台作为连接消费者与商家的桥梁，其后台管理系统的设计与实现直接关系到平台的运营效率和用户体验。当前，电商行业竞争激烈，用户对平台的稳定性、响应速度以及商品信息的准确性和丰富性有着越来越高的要求。因此，设计
Java：获取本地文件 dingcho Java java http
/***Function:todo**@program:获取本地图片*@Package:com.kingbal.king.dmp*@author:dingcho*@date:2025/01/22*@version:1.0*@Copyright:2024www.kingbal.comInc.Allrightsreserved.*/@Slf4jpublicclassBaseTest{publicsta
Java基础——数据类型（种类、包装类型、缓存机制、装拆箱、精度丢失） Camel卡蒙 Java基础 java 缓存 python
我是一个计算机专业研0的学生卡蒙Camel（刚保研）记录每天学习过程（主要学习Java、python、人工智能），总结知识点（内容来自：自我总结+网上借鉴）希望大家能一起发现问题和补充，也欢迎讨论文章目录Java数据类型数据类型种类包装类型和基本类型包装类型的缓存机制装箱与拆箱BigDecimal精度丢失问题使用BigDecimal解决Java数据类型数据类型种类Java有8大基本数据类型：类型关
算法——归并排序（基本思想、java实现、实现图解） Camel卡蒙数据结构与算法算法 java 排序算法
我是一个计算机专业研0的学生卡蒙Camel（刚保研）记录每天学习过程（主要学习Java、python、人工智能），总结知识点（内容来自：自我总结+网上借鉴）希望大家能一起发现问题和补充，也欢迎讨论文章目录归并排序介绍Java代码实现算法分析实现图解️和快速排序对比(面试)归并排序介绍归并排序（MergeSort）是一种基于分治法的排序算法。将已有序的子序列合并，得到完全有序的序列；即先使每个子序列
JAVA中的ObjectOutputStream类程序研 java I/O java 后端 I/O 开发语言
ObjectOutputStream是Java中用于序列化对象的一种输出流，它可以将Java对象的状态信息转换为字节流，以便于存储或通过网络传输。序列化是将对象转换为字节流的过程，而反序列化则是将字节流恢复为对象的过程。本文将详细介绍ObjectOutputStream的原理、使用方法以及相关代码例子。一、ObjectOutputStream简介概述ObjectOutputStream是Java.
CameraX 下使用 OpenCV 微信二维码识别 AndroidKt Android OpenCV android opencv kotlin 计算机视觉图像处理
前言前面，我们已经介绍了两种集成wechat_qrcode微信二维码识别能力的做法：完整编译OpenCV和OpenCVContribNativeC++单独集成wechat_qrcode模块这两种方式的预览和识别均是基于OpenCV提供的JavaCamera2View。今天介绍一下如何通过CameraX框架调用wechat_qrcode模块能力。CameraX基本使用CameraX具有以下最低版本要
Android Camera Framework Stream(一) miliang1688 android stream jni 通讯 service java
现在我们尝试从最开始的启动流程来熟悉androidcamera的整体framework流程:首先从上图的各个步骤来逐一分析流程，后续会根据具体的一些点进行内容的添加和扩充：?Camera.javapackages/apps/camera/src/com/android/最上层的应用就是从这个文件开始。该文件集中了整个android上层应用的所有相关内容，当然更多的则为界面的代码实现。如果出现了ca
洋酒销售系统的设计与实现 clover926 java毕设资料 java基础 redis
源码及论文下载：源码及论文下载：http://www.byamd.xyz/tag/java/摘要随着洋酒与中国市场的相互适应以及电子商务和网上商店的普及，洋酒类商品的网上展示与订购逐渐成为主流，如今洋酒不仅仅是贵族身份的象征，也渐渐进入了寻常百姓家。网上商店的技术实现同时也成为了一个比较常见的课题。本文就网上商店的实现做了一些研究。此设计主要采用JSP开发技术和mysql数据库技术来开发，根据实际
Java 大视界 -- Java 与大数据分布式机器学习平台搭建（58）青云交大数据新视界 Java 大视界大数据分布式机器学习 Apache Spark Hadoop Apache Flink 平台搭建架构设计
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、欢迎加入【福利社群
Spring缓存自定义KeyGenerator的实现与应用 2501_90323865 spring 缓存 java 个人开发
在Spring框架中，缓存机制是一种常用的优化手段，可以有效减少对数据库等后端系统的访问次数，提高应用性能。而自定义KeyGenerator则是让缓存更加灵活、精准地命中目标数据的关键所在。本文将通过一个实例，详细介绍如何实现并使用自定义的KeyGenerator。首先，我们需要创建一个自定义的KeyGenerator类。该类需要实现Spring提供的KeyGenerator接口，并重写gener
xss的过滤和绕过（2） rzydal 学习笔记网络安全 xss 计算机网络
xss的过滤和绕过分类过滤主要有两层，分别为WAF层和代码层，WAF（web应用防火墙）通常是在外部，在主机或者网络硬件上，对HTTP请求进行过滤拦截，而代码层是在编写web应用的过程中，直接实现或者音乐第三方库，对用户输入进行过滤，但是JavaScript语法非常灵活，所以对于普通的正则匹配，字符串比较，很难拦截xss。1.富文本过滤在发送邮件或者博客的情景下，用户有需求实现富文本的编辑，比如插
系统相关类——java.lang.Runtime 类（二）励志去大厂的菜鸟 Java思想和方法白话拆解Java Java学习 java 开发语言白话拆解Java 深度学习
前言：小编打算近期更俩三期类的专栏，一些常用的专集类，给大家分好类别总结和详细的代码举例解释。今天是第二个java.lang.Runtime类我们一直都是以这样的形式，让新手小白轻松理解复杂晦涩的概念，把Java代码拆解的清清楚楚，每一步都知道他是怎么来的，为什么用这串代码关键字，对比同类型的代码，让大家真正看完以后融会贯通，举一反三，实践应用！！！！①官方定义和大白话拆解对比②举生活中常见贴合例
2025届-2026届计算机专业毕业设计选题指南推荐—解答选题困惑以及三大选题方向 IT跃迁谷毕设展 Python实战项目专栏 Java实战项目专栏大数据实战项目专栏计算机毕业设计课程设计毕设毕业设计 java python 大数据
作者：IT跃迁谷毕设展个人简介：曾长期从事计算机专业培训教学，本人也热爱上课教学，语言擅长Java、微信小程序、Python、Golang、安卓Android等。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。平常喜欢分享一些自己开发中遇到的问题的解决办法，也喜欢交流技术，大家有技术代码这一块的问题可以问我！想说的话：感谢大家的关注与支持！Java实战项目集微信小
SpringBoot+Netty+WebSocket 实现消息推送 _小趴菜_ springboot websocket spring boot java
关于NettyNetty是一个利用Java的高级网络的能力，隐藏其背后的复杂性而提供一个易于使用的API的客户端/服务器框架。Maven依赖io.nettynetty-all4.1.36.FinalSpringBootApplication启动器中需要new一个NettyServer，并显式调用启动netty。@SpringBootApplicationpublicclassSpringCloud
java移动业务大厅案例_基于Java的SOSO移动大厅项目（功能全部实现了）都灵Turin java移动业务大厅案例
【实例简介】基于Java的SOSO移动大厅项目功能全部实现了可以下载去看看【实例截图】【核心代码】SOSO移动大厅项目└──SosoDemo├──bin│├──business││└──Menu.class│├──entity││├──CallService.class││├──ConsumInfo.class││├──MobileCard.class││├──NetPackage.class││
js高阶-响应式原理 silver687 javascript
在JavaScript中，响应式原理通常是指一种编程模式，它允许开发者创建能够自动响应数据变化的系统或应用。这种模式在现代前端框架（如Vue.js、React等）中非常常见，尤其是在数据绑定和UI更新方面。以下是响应式原理的核心概念和实现方式的详细解释：----1.响应式原理的核心概念响应式编程的核心是数据驱动和自动更新。当数据发生变化时，相关的UI或逻辑会自动更新，而无需手动触发更新操作。这种模
2025年前端发展趋势贵州数擎科技有限公司前端 javascript
开发领域：前端开发|AI应用|Web3D|元宇宙技术栈：JavaScript、React、ThreeJs、WebGL、Go经验经验：6年+前端开发经验，专注于图形渲染和AI技术开源项目：github晓智元宇宙、数字孪生引擎、前端面试题大家好！我是[晓智]，一位热爱探索新技术的前端开发者，在这里分享前端和Web3D、AI技术的干货与实战经验。如果你对技术有热情，欢迎关注我的文章，我们一起成长、进步！
搜索广告召回技术在美团的实践 ? 思维导图-java架构用心去追梦 java 架构开发语言
搜索广告召回技术在美团这样的大型互联网公司中扮演着至关重要的角色，它直接影响到广告的展示效果、用户体验以及商家的营销成效。通过有效的召回机制，可以确保用户看到的相关性和个性化的广告内容，从而提高点击率和转化率。以下是关于搜索广告召回技术在美团实践中的思维导图结构，特别关注Java架构师可能关心的技术细节：搜索广告召回技术在美团的实践│├───概述│├───定义与重要性││└───召回是指从大量候选
DDD 在大众点评交易系统演进中的应用思维导图-java架构用心去追梦 java 架构开发语言
领域驱动设计（DDD）在大众点评交易系统中的应用，主要体现在如何通过DDD的理念和技术手段来应对业务复杂性和系统的持续演进。随着业务的发展和用户需求的变化，交易系统需要不断调整和优化以保持竞争力。以下是关于DDD在大众点评交易系统演进中应用的思维导图结构：DDD在大众点评交易系统演进中的应用│├───面临挑战│├───业务复杂性增加││└───包括新的支付方式、促销规则、退款政策等。│├───系统
SpringBoot+Netty+WebSocket 如何实现消息推送技术琐事 rxjava java java-ee 架构后端
Netty是一个利用Java的高级网络的能力，隐藏底层的复杂性而提供一个易于使用/使用其服务器的API的客户端框架。基于SpringBoot+MyBatisPlus+Vue&Element实现的后台管理系统+用户小程序，支持RBAC动态权限、多租户、数据权限、工作流、三方登录、支付、短信、商城等功能项目地址：https://gitee.com/zhijiantianya/ruoyi-vue-pro
js能不能清楚浏览器缓存？涔溪 js javascript 缓存开发语言
JavaScript本身并没有直接清除浏览器缓存的API。但是，你可以使用一些间接的方法来促使浏览器刷新缓存或在某些情况下模拟清除缓存的行为。这里有几个方法：强制刷新页面资源：可以通过为资源链接添加查询字符串的方式（如版本号或时间戳）来确保加载最新的资源，而不是缓存的版本。例如：。使用ServiceWorker：如果你正在使用ServiceWorker来管理缓存，你可以编写代码来控制哪些资源应该被
javaScript 的语法糖全解 Young丶 vue3 js javascript 开发语言 ecmascript
最近在阅读一些JavaScript代码时，我们发现很多时候可以用更简洁的语法来完成相同的操作，这便是“语法糖”的魅力。语法糖是一种对底层语法的封装和简化，通过编译器将其转换成等价的标准语法来实现。例如，在Java中，泛型和Lambda表达式都是语法糖。泛型在编译过程中会被转换成非泛型的形式，而Lambda表达式会被转换为对应的匿名内部类形式。语法糖的优缺点‌优点‌：‌简洁性‌：语法糖使代码更加简洁
es 3期第22节-Bucket特殊分桶聚合实战 DavidSoCool elasticsearch elasticsearch 大数据搜索引擎
####1.Elasticsearch是数据库，不是普通的Java应用程序，传统数据库需要的硬件资源同样需要，提升性能最有效的就是升级硬件。####2.Elasticsearch是文档型数据库，不是关系型数据库，不具备严格的ACID事务特性，任何企图直接替代严格事务性场景的应用项目都会失败!!!####3.Elasticsearch原则上适合一切非事务性应用场景或能够容许一定的延迟的事务性场景;能
深入解析Spring ConcurrentTaskExecutor 2501_90323865 spring java 后端个人开发
java复制在Spring框架中，ConcurrentTaskExecutor是一个非常实用的组件，它为java.util.concurrent.Executor对象提供了一个适配器。通过使用ConcurrentTaskExecutor，我们可以方便地对任务执行进行装饰，从而实现任务执行的监控和统计等功能。下面，我们将通过一个具体的实例来深入解析ConcurrentTaskExecutor的使用方
【华为OD】| 最多获得的短信条数、云短信平台优惠活动_完全背包 buff会技术的程序媛 -JS】技术杂谈技术learn 算法 java
目录一.题目描述二.输入描述三.输出描述用例四.题目解析五.Java玩法六.JavaScript玩法一.题目描述某云短信厂商，为庆祝国庆，推出充值优惠活动。现在给出客户预算，和优惠售价序列，求最多可获得的短信总条数。二.输入描述第一行客户预算M，其中0<=M<=10^6第二行给出售价表，P1,P2,…Pn,其中1<=n<=100Pi为充值i元获得的短信条数。1<=Pi<=1000,1<=n<=10
华为OD机试E卷 --最多获得的短信条数--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript python c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述某云短信厂商，为庆祝国庆，推出充值优惠活动。现在给出客户预算，和优惠售价序列，求最多可获得的短信总条数。输入描述第一行客户预算M，其中0≤M≤10^6第二行给出售价表，P1,P2,…Pn,其中1≤n≤100,Pi为充值i元获得的短信条数。1≤Pi≤1000,1≤n≤100输出
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要

Java爬取某旅游网站的景点信息

Java爬取某旅游网站的景点信息

一、发出请求

二、对 HTML 页面进行解析（重点）

非常抱歉，您访问的页面不存在。

非常抱歉，您访问的页面不存在。

1、对API查询接口的操作

2、对请求到的页面的解析操作

3、HTML 中元素的定位

三、保存获取到的数据

最后

你可能感兴趣的:(个人项目,java,开发语言,后端)