Jiayuan96

基于webMagic实现爬虫开发

最近由于毕设一定的数据源，故需要进行爬虫方面的开发，网上的爬虫框架很多，包括scrapy（基于python），PySpider（基于python）,webMagic（基于Java）等等。在网上查找了一番资料后选定webMagic，一方面它可以基于Java进行爬虫的开发，更重要的还是它的学习成本很低，官方文档简单易懂（国人开发，中文文档）。作者提供了一组高效而简洁的api，使得我们能用少量的代码就能实现爬虫的开发。

什么是webMagic?

webmagic的是一个无须配置、便于二次开发的爬虫框架，它提供简单灵活的API，只需少量代码即可实现一个爬虫。

作者的说法：

WebMagic是一个简单灵活的Java爬虫框架。基于WebMagic，你可以快速开发出一个高效、易维护的爬虫。

特性：

简单的API，可快速上手
模块化的结构，可轻松扩展
提供多线程和分布式支持

webMagic组件结构

主要有四个组件：Downloader，PageProcessor，Pipeline，Scheduler。通过Spider则将这几个组件组织起来，让它们可以互相交互，流程化的执行，可以认为Spider是一个大的容器，它也是WebMagic逻辑的核心。

附官方提供的webMagic结构图：

1.Downloader

Downloader负责从互联网上下载页面，以便后续处理。WebMagic默认使用了Apache HttpClient作为下载工具。

2.PageProcessor

PageProcessor负责解析页面，抽取有用信息，以及发现新的链接。WebMagic使用Jsoup作为HTML解析工具，并基于其开发了解析XPath的工具Xsoup。

在这四个组件中，PageProcessor对于每个站点每个页面都不一样，是需要使用者定制的部分。

3.Scheduler

Scheduler负责管理待抓取的URL，以及一些去重的工作。WebMagic默认提供了JDK的内存队列来管理URL，并用集合来进行去重。也支持使用Redis进行分布式管理。

除非项目有一些特殊的分布式需求，否则无需自己定制Scheduler。

4.Pipeline

Pipeline负责抽取结果的处理，包括计算、持久化到文件、数据库等。WebMagic默认提供了“输出到控制台”和“保存到文件”两种结果处理方案。

Pipeline定义了结果保存的方式，如果你要保存到指定数据库，则需要编写对应的Pipeline。对于一类需求一般只需编写一个Pipeline。

基于webMagic进行爬虫开发

本次实践案例是爬取马蜂窝的热门旅游城市及对应城市下的所有旅游景点信息

不得不说马蜂窝旅游网的UI设计还是蛮赞的，相对于其他旅游网站很清新简洁，首页的大轮播图还提供了一种强烈的视觉冲击，给人很舒服的观感。

1.爬虫开发的步骤：

数据爬取：实现PageProcessor（PageProcessor的定制）
- 爬虫的配置
- 页面元素的抽取
- 链接的发现
数据持久化：使用Pipeline保存结果（定制Pipeline）
- 保存结果到文件、数据库等一系列功能
- 数据整理（利用SQL脚本将数据进行规范整理）

2. 爬取目标信息

1. 链接发现

爬取马蜂窝旅游网热门旅游城市及该城市的介绍信息（暂定国内）；

爬取该城市下的所有旅游景点详细信息；

2. 在页面打开链接：https://www.mafengwo.cn/mdd/，按f12，可以看到，每个城市对应的详情链接大致一样"/travel-scenic-spot/mafengwo/10065.html"，只有在.html前面的数字串不一样，这应该是马蜂窝网内部定义的城市编号信息，用于作为不同城市的标识。

3. 点开一个北京链接的页面，可以发现本页并没有关于北京市的详细介绍，其实具体介绍在深入另一个页面，即下图 "景点"，是一个新的链接“/jd/10065/gonglve.html”，同样带了一个标识城市的数字串，与上面的是一致的10065。点击进去。

4. 是的，我们要的信息找到了，城市名，城市介绍，图片等信息（该城市下的图片在本页有，不做过多截图）

5. 在上面当前页面上，会有该城市下的所有旅游景点信息，这就是我们第二部分要爬取的内容，页面链接组成是“/poi/3474.html”，跟上面同样的套路，用数字串作为该景点的标识。点击进去。

6. 看了下，大致排版相对固定，景点名，一大图两小图，景点详细介绍，这大概就是我们要爬取的数据。

7. 大概数据查找过程如上，接下来的工作便是编写爬虫逻辑。

b.编写爬虫逻辑 pageProcessor

1. 建立Java工程，由于本次开发是在毕设springboot工程的基础上进行的，故使用了一些spring相关的注解来配合其他功能的实现，但这完全不影响爬虫模块的编写，跟普通的Java工程实现是一致的。

注意引入webMagic相关包，本次以maven形式引入，版本0.7.3


    us.codecraft
    webmagic-core
    0.7.3


    us.codecraft
    webmagic-extension
    0.7.3

实现方式：

实现pageProcessor接口
设置爬取站点信息
实现process方法（爬取热门城市页，热门城市链接，该城市下所有景点信息）

核心process逻辑大致如下：

匹配城市列表页（即a-1步骤那个图），则执行doCityListProcess(Page page)方法
匹配城市页（即a-4步骤那个图），则执行doCityProcess(Page page)方法
匹配景点页（即a-5步骤那个图），则执行doScenicProcess(Page page)方法

/**
 * 爬取数据PageProcessor (城市列表，各城市下的所有景点）
 *
 * @author [email protected]
 * 2019-02-19 15:05
 * @version 1.0.0
 */
@Component
@Slf4j
public class PenguinPageProcessor implements PageProcessor {

    private Site site = Site
            .me()
            .setDomain(SpiderConstant.DOMAIN)
            .setSleepTime(SpiderConstant.SPIDER_SLEEP_TIME)
            .setUserAgent(SpiderConstant.BROWSER_USER_AGENT);

    @Override
    public void process(Page page) {
        try {
            if (page.getUrl().regex(SpiderConstant.URL_CITY_LIST).match()) {
                this.doCityListProcess(page);
            }
            if (page.getUrl().regex(SpiderConstant.URL_CITY).match()) {
                this.doCityProcess(page);
            }
            if (page.getUrl().regex(SpiderConstant.URL_SCENIC).match()) {
                this.doScenicProcess(page);
            }
        } catch (Exception e) {
            log.info("【爬虫爬取数据异常】");
            e.printStackTrace();
        }
    }

    @Override
    public Site getSite() {
        return site;
    }

2.爬取当前所有城市名（图a-1)

借用xpath解析器和强大的正则匹配，对页面需要抽取的信息进行提取，并在新发现链接后通过page.addTargetRequests(List list);将新链接加入到待爬取的目标链接中去（存储所有爬取链接的是List结构，FIFO）

private void doCityListProcess(Page page) throws Exception{
        Thread.sleep(SpiderConstant.SPIDER_SLEEP_TIME);
        List cityListPageRequest = page.getHtml()
                .xpath("div[@class=\"hot-list clearfix\"]")
                .links().regex("\\d+").all();
        List citysPageRequest = cityListPageRequest.stream()
                .map(url -> "/jd/" + url + "/gonglve.html")
                .distinct()
                .collect(Collectors.toList());
        page.addTargetRequests(citysPageRequest);
        log.info("【爬取城市列表链接信息】: {}", citysPageRequest);
    }

3.爬取当前城市的详情信息（图a-4)

这里的逻辑相对上面多一点，主要是除了爬取当前城市信息外，还要爬取当前城市下的所有景点链接

    private void doCityProcess(Page page) throws Exception{
        Thread.sleep(SpiderConstant.SPIDER_SLEEP_TIME);
        page.putField("pageType", SpiderEnum.CITY_PAGE.getCode());
        page.putField("cityName", page.getHtml()
                .xpath("//div[@class='crumb']//div[@class='drop']//span[@class='hd']//a//text()")
                .all()
                .get(SpiderConstant.CITY_INDEX));
        page.putField("introduce", page.getHtml()
                .xpath("//div[@class='wrapper']//span[@id='mdd_poi_desc']//text()"));
        if (page.getResultItems().get("introduce") == null) {
            page.setSkip(true);
        }
        page.putField("cityPic", page.getHtml()
                .xpath("//div[@class='large']//img/@src")
                .all());
        page.putField("headRate", page.getHtml()
                .xpath("//span[@class='rev-total']//em/text()")
                .all());
        List scenicListUrls = page.getHtml()
                .xpath("//div[@class='wrapper']")
                .links()
                .regex("/poi/\\d+\\.html").all();
        page.addTargetRequests(scenicListUrls
                .stream()
                .distinct()
                .collect(Collectors.toList()));
        log.info("【爬取城市详情信息】: {}", page.getResultItems());
    }

4.爬取景点的详细信息（图a-6)

    private void doScenicProcess(Page page) throws Exception{
        Thread.sleep(SpiderConstant.SPIDER_SLEEP_TIME);
        page.putField("pageType", SpiderEnum.SCENIC_PAGE.getCode());
        page.putField("cityName", page.getHtml()
                .xpath("//div[@class='crumb']//div[@class='drop']//span[@class='hd']//a//text()")
                .all()
                .get(SpiderConstant.SCENIC_CITY_INDEX));
        page.putField("scenicName", page.getHtml()
                .xpath("//div[@class='title']//h1/text()"));
        page.putField("scenicPic", page.getHtml()
                .xpath("//div[@class='bd']//img/@src")
                .all());
        page.putField("introduce", page.getHtml()
                .xpath("//div[@class='summary']/text()"));
        page.putField("headRate", page.getHtml()
                .xpath("//li[@data-scroll='commentlist']//span/text()")
                .regex("\\d+"));
        log.info("【爬取景点详情信息】: {}", page.getResultItems());
    }

5.注意点

可能你也注意到了，在每个爬取方法开始前都会执行 Thread.sleep(SpiderConstant.SPIDER_SLEEP_TIME); 这是统一设置的爬取时间间隔，非常必要（有钱租代理IP池的请忽略），要是对爬取速度不加以限制，对方的反爬机制就会认定你是爬虫而不是人（没有一个人（IP）能够在一个或几个页面一秒内点好几百次以上吧。。。），对方的反爬机制会将你当前的ip拉黑导致你无法访问和爬取数据。

c. 数据持久化 Pipeline

1. 在爬取完数据后，要对数据进行持久化操作，存储到本地数据库中（不然你爬它干嘛==）

实现Pipeline接口
实现process方法获取结果集resultItems
调用服务进行持久化（可以是原生实现也可以结合框架实现）

看下来其实跟pageProcessor的步骤差不多。

这里通过一个pageType标识来区分不同信息（城市信息，景点信息）的保存

/**
 * 爬虫数据持久化服务Pipeline
 *
 * @author [email protected]
 * 2019-02-19 15:07
 * @version 1.0.0
 */
@Component
@Slf4j
public class PenguinPipeline implements Pipeline {

    private PipelineService pipelineService = (PipelineService) SpringUtil.getBean(PipelineService.class);

    @Override
    public void process(ResultItems resultItems, Task task) {
        Map mapResults = resultItems.getAll();
        Iterator> iter = mapResults.entrySet().iterator();
        Map.Entry entry;
        System.out.println("======================PenguinPipeline started!======================");
        while (iter.hasNext()) {
            entry = iter.next();
            System.out.println(entry.getKey() + ":" + entry.getValue());
        }
        if (mapResults != null && mapResults.size() != SpiderConstant.ZERO) {
            if (mapResults.get("pageType").equals(SpiderEnum.CITY_PAGE.getCode())) {
                this.doCityPipeline(mapResults);
            }
            if (mapResults.get("pageType").equals(SpiderEnum.SCENIC_PAGE.getCode())) {
                this.doScenicPipeline(mapResults);
            }
        }
        System.out.println("======================PenguinPipeline ended!======================");
    }

2.城市信息持久化 doCityPipeline

这里涉及了城市热度（欢迎程度，假定以城市所有景点的评论总量）的计算（业务逻辑需要，可忽略～）。

    private void doCityPipeline(Map mapResults) {
        City city = new City();
        String headRatesStr = Arrays.asList(mapResults.get("headRate")).get(SpiderConstant.ZERO).toString();
        city.builder()
            .cityName(Optional.ofNullable(mapResults.get("cityName")).orElse("").toString())
            .introduce(Optional.ofNullable(mapResults.get("introduce")).orElse("").toString())
            .cityPic(Optional.ofNullable(mapResults.get("cityPic")).orElse("").toString())
            .headRate((int)Arrays.stream(headRatesStr.substring(1, headRatesStr.length() - 1)
                    .split(","))
                    .mapToDouble(eachHeadRate -> Double.parseDouble(eachHeadRate))
                    .sum())
            .status(SpiderEnum.NORMAL_STATUS.getCode())
            .build();
        if (city != null) {
            if (city.getIntroduce() != null) {
                city.setCityPic(Optional.ofNullable(city.getCityPic()).orElse(SpiderConstant.NULL_PIC)
                        .substring(1, city.getCityPic().length() - 1));
                pipelineService.insertIntoCity(city);
                log.info("【城市信息持久化】: {}",city);
            }
        }
    }

3.景点信息持久化

    private void doScenicPipeline(Map mapResults) {
        Scenic scenic = new Scenic();
        scenic.setCityId(
                pipelineService.selectCityIdByCityName(
                        Optional.ofNullable(mapResults.get("cityName"))
                                .orElse(SpiderConstant.NO_BELONG_CITY)
                                .toString()));
        String scenicPicStr = Optional.ofNullable(mapResults.get("scenicPic")).orElse(SpiderConstant.NULL_PIC).toString();
        scenic.builder()
            .scenicName(Optional.ofNullable(mapResults.get("scenicName")).orElse("").toString())
            .scenicPic(scenicPicStr.substring(1, scenicPicStr.length() - 1))
            .introduce(Optional.ofNullable(mapResults.get("introduce")).orElse("").toString())
            .headRate(Integer.parseInt(
                    Optional.ofNullable(mapResults.get("headRate"))
                            .orElse(SpiderConstant.ZERO)
                            .toString()))
            .status(new Byte(SpiderConstant.ZERO.toString()))
            .build();
        pipelineService.insertIntoScenic(scenic);
        log.info("【景点信息持久化】: {}",scenic);
    }

d. 爬虫启动

1.本次开发是在毕设springboot工程的基础上，故还是采用了springMVC的方式来进行爬虫的启动。在项目启动后通过postman发起请求进行触发。数据持久化服务这里通过spring bean的方式提供，若采用普通Java类进行爬虫的启动，会导致服务无法初始化，调用抛出空指针异常，故需要通过springUtils辅助我们进行服务的初始化（这方面资料网上很多，当然这是题外话了～）

/**
 * 爬虫启动
 *
 * @author [email protected]
 * 2019-02-20 15:16
 * @version 1.0.0
 */
@RestController
@RequestMapping("/spider")
public class SpiderController {

    private static final String SPIDER_URL = "https://www.mafengwo.cn/mdd/";

    @RequestMapping("/start")
    public void spiderStart() {
        Spider.create(new PenguinPageProcessor())
                .addUrl(SPIDER_URL)
                .addPipeline(new PenguinPipeline())
                .run();
    }
}

2. 爬虫的启动很简单，通过Spider提供的静态方法create()，指定PenguinPageProcessor和PenguinPipeline即可，这里也可以采用多线程启动加快爬取速度（当然这里担心IP被拉黑并没有这么做）

e. 爬取结果

本次共爬取了5000+条数据

f. 数据清洗

在我们对爬虫数据进行数据库存储后，可能有些信息并不合我们所预想的，这时就需要通过SQL脚本来对数据进行一定的整理。

本次数据遇到的问题有：

1.城市id与我数据库字典表中定义的不一致（这是肯定的，不同人有不同自定义的值，当然也有几个大致的版本，网上省市区县mysql数据源）

2.城市所在省份信息没有填充到城市表

  
      update city set province=#{province} where city_id=#{cityId}
  
  
      update city set city_id=#{cityId} where id=#{id}

具体情况要靠业务结合去编写，此处不过多赘述。

/**
 * 数据信息修复服务
 *
 * @author [email protected]
 * 2019-02-21 14:56
 * @version 1.0.0
 */

@Service
public class DataServiceImpl implements DataService {

    @Autowired
    private DictionaryMapper dictionaryMapper;

    @Autowired
    private CityMapper cityMapper;

    @Override
    public void updateProvinceByCityName() {
        List cities = cityMapper.selectAll();
        cities.stream().forEach(city -> {
            cityMapper.updateProvinceByCityId(city.getCityId(),
                    dictionaryMapper.selectProvinceBycityName(city.getCityName()));
        });
        System.out.println("======Run finished=====");
    }

    @Override
    public void updateCityIdByCityName() {
        List cities = cityMapper.selectAll();
        cities.stream().forEach(city -> {
            cityMapper.updateCityIdById(city.getId(),
                    dictionaryMapper.selectCityIdByCityName(city.getCityName()));
        });
    }
}

g. 结果集

1.城市表：

2.景点表：

h. 附webMagic官方文档：

http://webmagic.io/

官方教程，还是很有必要看一下的～

使用 request 的 axios 状态码分析 fridayCodeFly 前端 servlet
request.interceptors.response.use(function(response){},function(error){})后端返回结果code===400不经过response,直接跳到error。当后端返回状态码为400时直接进入error回调而不经过response回调，这是因为axios默认会将状态码不在200-299范围内的响应视为错误。解决1.修改validate
FerretDB 2.0：开源 MongoDB 替代品的安装与使用指南田猿笔记 MongoDB 开源数据库 FerretDB
介绍FerretDB2.0是一个开源数据库，旨在作为MongoDB的替代品。它与MongoDB5.0+的驱动程序和工具兼容，适合需要避免MongoDB许可复杂性的开发者。它的核心特点是使用PostgreSQL作为后端，并通过DocumentDB扩展提升性能，研究表明某些工作负载可快20倍。安装与使用安装FerretDB2.0使用dockercompose需要以下步骤：创建docker-compos
policy_does_not_allow_file_overwrite 前端uniapp云存储
uniapp云开发阿里云上传文件uniapp的出现，让前端人员和后端人员实现了“全栈”的小梦想，当然，真正跨端开发的时候，还是会遇到不少的问题，比如今天我们的主角，uniCloud.uploadFile,一般来说，这个api文件名动态生成，云端返回文件存储的链接即可，但是，假如我们的产品是针对用户存储的，即用户的头像、私有文件、图片等具有唯一性，要单独开个目录存放的时候，同样的文件名上传会存在无法
【后端】【django】Django 自带的用户系统与 RBAC 机制患得患失949 django知识数据库 sqlite django
Django自带的用户系统与RBAC机制Django自带的用户系统（django.contrib.auth）提供了身份验证（Authentication）和权限管理（Authorization），能够快速实现用户管理、权限控制、管理员后台等功能，同时具备RBAC（基于角色的访问控制，Role-BasedAccessControl）的基本实现。本文将详细介绍Django用户系统的功能、管理员账号创建
Telegram bot教程：通过BotFather设置Telegram bot的命令菜单鲲志说 Web3相关业界资讯 telegram bot 经验分享笔记 twitter Telegram Bot
最近在研究Telegrambot嘛，总有些小细节可以记录了，今天就记录一个通过BotFather设置Telegrambot的命令菜单功能➡️【好看的灵魂千篇一律，有趣的鲲志一百六七！】-欢迎认识我～～作者：鲲志说（公众号、B站同名，视频号：鲲志说996）科技博主：极星会星辉大使后端研发：java、go、python、TS，前电商、现web3主理人：COC杭州开发者社区主理人、周周黑客松杭州主理人、
Python,C++开发餐饮后厨环境远程管理APP Geeker-2025 python c++
开发一款用于**餐饮后厨环境远程管理**的App，结合Python和C++的优势，可以实现高效的后端数据处理、实时的环境监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python）-**编程语言**：Python-**Web框架**：Django或Flask-**数据库**：PostgreSQL或MySQL-**实时通信**：
Pydantic模型继承解析：从字段继承到多态模型
title:Pydantic模型继承解析：从字段继承到多态模型date:2025/3/19updated:2025/3/19author:cmdragonexcerpt:涵盖字段继承、属性覆盖、多态模型等关键机制。将掌握类型安全的继承体系构建方法，实现企业级数据校验方案，避免传统面向对象继承的常见陷阱。categories:后端开发FastAPItags:Pydantic模型继承字段覆盖机制多态数
vue3+springboot电影院售票选座管理系统 qq_3166678367 spring boot 后端 java
目录本系统(已开发完成)->成品实现截图开发技术本系统支持的技术栈源码获取详细视频演示：文章底部获取博主联系方式！！！！本课题重点核心代码部分展示论文提纲来自指导老师帅的肯定视频演示/源码获取本系统(已开发完成)->成品实现截图开发技术关键技术实现：在Java的开发过程中，可以使用HTML、CSS、JavaScript等前端技术来实现系统的用户界面设计和交互功能。后端可以使用Java语言编写业务逻
innovus命令每日精要 | setCheckMode：数字后端物理设计的必备神器数字后端物理设计知识库 innovus 命令每日精要后端性能优化
在数字后端物理设计的领域中，确保设计数据的完整性和正确性是至关重要的。今天，我们要深入探讨的是Innovus中的一个强大命令——setCheckMode。这个命令就像是你的设计流程中的“健康卫士”，能够在各个阶段帮你揪出潜在的数据问题，避免因小失大，让错误在流程中扩散。检查模式核心功能大揭秘1.设计数据完整性检查：全面扫描，无死角-all选项就像是给你的设计做一次“全身CT”，开启所有检查选项，确
数据库 + Spring Boot + Vue 全栈交互逻辑详解代码CC Java项目-开发 spring boot vue.js mysql 数据库开发语言
目录整体架构概述技术栈说明数据库设计规范SpringBoot后端架构Vue前端架构完整交互流程关键技术实现细节安全与性能优化异常处理机制整体架构概述graphTDA[Vue前端]-->|HTTP请求|B(SpringBoot后端)B-->|JDBC/ORM|C[(数据库)]C-->|返回数据|BB-->|JSON响应|AA-->|状态管理|D[VuexStore]B-->|缓存|E[Redis]B
web端 -- RPC - 通用方案扁舟·TF 爬虫爬虫
背景当一个目标站加密字段特别多，而且我们对其并不需要大规模爬取时，考虑到时间成本，我们就可以使用RPC来获取加密数据。原理：搭建一个后端服务器，然后在浏览器中hook加密函数，注册到web.js端中，最后通过client端来回调加密函数，实现rpc远程调用以上就是整个RPC获取加密数据的流程。自己封装了一个通用框架，使用时只需修改一个点就行：自定义client端的type自定义web端typecl
【一起学Rust | Tauri2.0框架】基于 Rust 与 Tauri 2.0 框架实现跨平台二维码扫描应用金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 rust 开发语言后端
《一起学Rust|Tauri2.0框架》是一个结合Rust语言与Tauri框架开发跨平台应用的教程。Tauri2.0是一个非常适合构建跨平台桌面应用的框架，它让开发者可以使用Web技术（如HTML、CSS、JavaScript）来创建前端，同时利用Rust编写后端逻辑，确保应用运行高效且轻量。在这个教程中，开发者可以学习如何使用Rust与Tauri2.0框架实现一个跨平台二维码扫描应用。具体步骤可
【含文档+PPT+源码】基于微信小程序农家乐美食餐厅预约推广系统编程毕设微信小程序美食小程序
项目介绍本课程演示的是一款基于微信小程序农家乐美食餐厅预约推广系统，主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的Java学习者。1.包含：项目源码、项目文档、数据库脚本、软件工具等所有资料2.带你从零开始部署运行本套系统3.该项目附带的源码资料可作为毕设使用该系统功能架构图如下：技术栈说明技术栈：后端：SpringBoot+Vue+ElementUI（后端是前后端分离的）前端：Un
【一起学Rust | Tauri2.0框架】基于 Rust 与 Tauri 2.0 框架实现生物识别（指纹识别）应用广龙宇 Tauri2应用开发一起学Rust rust 开发语言后端
前言Tauri，作为一个新兴的跨平台应用开发框架，允许开发者使用Web前端技术构建界面，并利用Rust的高性能和安全性编写后端逻辑。这种架构巧妙地结合了Web的灵活性和原生应用的性能，为开发者提供了一种构建高效、跨平台应用的全新选择。而生物识别技术，如指纹识别、面部识别等，则为应用安全提供了更高级别的保障。将生物识别技术集成到Tauri应用中，可以提升用户体验，增强应用安全性。试想一下，用户只需轻
计算机毕业设计PHP保利和院物业服务管理系统小程序（源码+程序+uni+lw+部署）计算机专业毕设程序课程设计 php 小程序
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
超越传统！wangEditor编辑器如何实现excel、ppt、pdf及word一键导入？ 2501_90699780 编辑器 excel powerpoint umeditor粘贴word ueditor粘贴word ueditor复制word ueditor上传word图片
要求：开源，免费，技术支持编辑器：wangEditor前端：vue2,vue3,vue-cli,html5后端：java,jsp,springboot,asp.net,php,asp,.netcore,.netmvc,.netform群体：学生,个人用户,外包,自由职业者,中小型网站,博客,场景：数字门户,数字中台,站群,内网，外网，信创国产化环境，web截屏行业：医疗，教育，建筑，政府，党政，国
Git 分支使用规范全解（多人协作开发适用）滴答滴答滴嗒滴开发入门指南 git 个人开发前端后端边缘计算
Git分支使用规范全解（多人协作开发适用）本文将为你梳理一套清晰、标准、适合企业/团队使用的Git分支管理策略，适用于前后端、边缘端、AI项目等多种场景。为什么要规范分支管理？防止多人协作混乱、冲突频发清晰区分：开发中/待发布/已上线的版本快速定位问题来源：feature？hotfix？bugfix？支持代码审查、回滚、自动部署等流程️分支结构总览main#生产环境分支，仅上线代码！develop
如何解决跨域请求的问题（CORS）？ okhttp前端
文章目录引言理解CORS2.1CORS基本概念2.2同源策略与跨域分类CORS的核心机制3.1预检请求（PreflightRequest）3.2简单请求服务器端配置CORS4.1关键响应头4.2Node.js(Express)示例4.3其他后端语言配置前端处理CORS请求5.1XMLHttpRequest与FetchAPIXMLHttpRequest示例FetchAPI示例5.2使用第三方库（ax
Springboot乐动健身房管理系统6xl64计算机毕业设计-课程设计-期末作业-毕设程序代做含宇网络 spring boot java 后端
Springboot乐动健身房管理系统6xl64计算机毕业设计-课程设计-期末作业-毕设程序代做【免费赠送源码】Springboot乐动健身房管理系统6xl64计算机毕业设计-课程设计-期末作业-毕设程序代做本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、
SpringMVC 皮不卡球秋 java Spring SpringMVC SpringBoot spring boot
SpringMVC一。概念：SpringWebMVC是一个Web框架，简称为SpringMVCMVC定义：MVC就是把一个项目分成三部分MVC是一种思想，Spring进行实现，因此称为SpringMVCSpringBoot是创建SpringMVC项目当前时期MVC已经发生了变化，后端人员不涉及前端页面的开发，所以就没有了view层所以View层有一种解释，之前返回的是视图，现在返回的是视图所需要的
JAVA毕业设计河南口腔医疗机构线上服务系统计算机源码+lw文档+系统+调试部署+数据库煦洋cxsj985 java jvm 开发语言
JAVA毕业设计河南口腔医疗机构线上服务系统计算机源码+lw文档+系统+调试部署+数据库JAVA毕业设计河南口腔医疗机构线上服务系统计算机源码+lw文档+系统+调试部署+数据库本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、JDK1.8数据库：MySQL5
题解 | 牛客周赛 Round 49 DEF Java题解 han_xue_feng java
面试又黄了反正不是什么喜欢的工作[牛泪]面试又黄了反正不是什么喜欢的工作2024秋招数据开发第一波面试题露出#字节##滴滴##大数据##面经##秋招#引流字节阿里巴巴腾讯百度美团美团后端暑期实习体验——实习的一天早上：8点半出门坐地铁，9点下地铁到惠新西街南口地铁站，出地铁站坐班车（这一点还是不错的），9点30深圳阿里实习day1领工牌mac，认工位mentor，配环境看文档，七点就润了。看各个文
Hyperlane：Rust 语言打造的 Web 后端框架新标杆 LTPP rust 前端 github ssl 网络协议网络开发语言
Hyperlane：Rust语言打造的Web后端框架新标杆在当今快节奏的数字化时代，Web应用程序的性能和开发效率成为了开发者们关注的焦点。Rust语言凭借其出色的性能、内存安全性和并发性，在Web开发领域逐渐崭露头角。而Hyperlane，作为一款专为Rust语言打造的轻量级、高性能HTTP服务器库，正以其独特的优势吸引着越来越多开发者的目光。一、性能卓越，数据说话Hyperlane在性能方面的
【python】Python中常见的KeyError报错分析景天科技苑 python 开发语言 python报错 KeyError
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，linux，shell脚本等实操
手机租赁系统开发全面解析与实现指南红点租赁系统开发其他
内容概要手机租赁系统的设计理念是为了满足用户对便捷、灵活的手机使用需求。想象一下，谁还愿意花大价钱买一部手机呢？尤其是当新款手机频繁推出时，租赁似乎成了更受欢迎的选择。这个系统旨在让用户可以随时随地选择租用不同型号的手机，极大提升了用户体验。接下来，我们将深入探讨这个系统的技术架构。它通常包含前端界面、后端处理和数据库管理三个核心部分。前端负责与用户交互，后端则处理数据逻辑，而数据库则是存储所有租
Python与C ++开发匿名捐赠1对1管理APP Geeker-2025 python c++
开发一款用于**匿名捐赠1对1管理**的App，结合Python和C++的优势，可以实现高效的后端数据处理、实时的捐赠监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python）-**编程语言**：Python-**Web框架**：Django或Flask-**数据库**：PostgreSQL或MySQL-**实时通信**：W
前后端的身份认证咖啡の猫 node.js 后端 express
在现代Web开发中，确保用户数据的安全性和隐私保护至关重要。身份认证是其中的核心环节之一，它用于验证用户的身份，并控制对资源的访问权限。本文将介绍几种常见的身份认证方法，并详细讲解如何在Node.js项目中实现这些方法。一、什么是身份认证？身份认证（Authentication）是确认用户身份的过程，通常通过用户名和密码组合或其他凭证来完成。一旦用户被认证，系统就可以基于其身份授予相应的访问权限（
前端大文件上传,分片方式上传 Sunsit 前端开发 vue 前端 javascript 开发语言
前端大文件分片上传文件上传超时：原因是前端请求框架限制最大请求时长，后端设置了接口访问的超时时间，或者是nginx（或其它代理/网关）限制了最大请求时长。文件大小超限：原因在于后端对单个请求大小做了限制，一般nginx和server都会做这个限制。上传时间过久（想想10个g的文件上传，这不得花个几个小时的时间）由于各种网络原因上传失败，且失败之后需要从头开始整体思路前端根据代码中设置好的分片大小将
前端大文件分片上传北凉柿子i 前端 javascript
1.分片上传整体流程开始上传：前端启动文件分片上传。后端返回唯一标识。分片上传：获取到上传的文件，然后设置一个固定的分片大小，将文件切成多个小片，计算出每一个分片的MD5值（32位）。将每个分片的内容和MD5标识符一同上传至服务器。服务端接收每个分片及相关信息后，通过对每个分片进行校验，来确保分片的完整性。结束上传：当分片上传完毕或者前端取消上传时，调用结束上传接口结束此次文件上传操作。结束上传时
前端大文件上传（分片上传）与下载束尘前端
文章目录一、问题二、思路1、选择文件2、校验文件是否符合规范3、文件切片上传4、分片上传注意点5、大文件下载一、问题日常业务中难免出现前端需要向后端传输大型文件的情况，这时单次的请求不能满足传输大文件的需求，就需要用到分片上传业务需求为：用户可以上传小于20G的镜像文件，并进显示当前上传进度前端：vue3.x+ElementPlus组件+axios二、思路解决思路简单为前端选择文件后读取到文件的基
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息

基于webMagic实现爬虫开发

什么是webMagic?

webMagic组件结构

基于webMagic进行爬虫开发

你可能感兴趣的:(后端)