咸鱼最牛逼

十二、学习爬虫框架WebMagic（八）---访问超时、402等解决办法

一、问题

备注：在前面一章我们提到，我们使用 redis 来实现去重和增量爬取，这是本篇文章的前提。

在使用 webmagic 爬取小说网站时，由于网络或者访问过于频繁时，小说网站服务器会返回超时、402/400/502等错误，但是这些URL依然会被记录到redis中，这样就带来一个问题：我们在下次进行增量爬取时，这些URL不会再被访问（PS：去重的依据就是redis中有的，将不会再被爬取，只爬取没有的），这样就会导致有些URL始终无法被爬取到。

二、解决办法

(一)初步想法

我初步的想法是，在爬取过程中，对报以上错误的地方使用一个全局 List errorUrls 变量记录这些错误的URL，然后在爬取结束时，使用 Springboot 自动装载的 ReidsTemplate 在redis中，将这些URL删除，这样既可下次进行增量爬取时，再爬取这些错误URL，直到成功为止。

（二）具体实现

1、寻找报错的地方，记录报错URL，并记数

根据Webmagic提供的报错日志，我确认了两个地方：

Spider#onDownloadSuccess() 方法：这里主要报400/402/502等错误
HttpClientDownloader#download() 方法：这里主要报访问超时异常。在这里调用了onError()方法来处理超时异常，但是原作者并没有具体实现这个方法，这里仅是个空实现。

根据上面的发现，需要改造这两个地方，以实现记录错误URL，并对他们的数量进行统计。

经网友建议，有一种更好的处理方法，即在 HttpClientDownloader 里重写 handleResponse() 方法：

protected Page handleResponse(Request request, String charset, HttpResponse httpResponse, Task task) throws IOException {
    Page page = new Page();
    if (httpResponse.getStatusLine().getStatusCode() != HttpConstant.StatusCode.CODE_200) {
        page.setDownloadSuccess(false);
    } else {
        byte[] bytes = IOUtils.toByteArray(httpResponse.getEntity().getContent());
        String contentType = httpResponse.getEntity().getContentType() == null ? "" : httpResponse.getEntity().getContentType().getValue();
        page.setBytes(bytes);
        if (!request.isBinaryContent()){
            if (charset == null) {
                charset = getHtmlCharset(contentType, bytes);
            }
            page.setCharset(charset);
            page.setRawText(new String(bytes, charset));
        }
        page.setUrl(new PlainText(request.getUrl()));
        page.setRequest(request);
        page.setStatusCode(httpResponse.getStatusLine().getStatusCode());
        page.setDownloadSuccess(true);
        if (responseHeader) {
            page.setHeaders(HttpClientUtils.convertHeaders(httpResponse.getAllHeaders()));
        }
    }
    return page;
}

核心思想就是：通过对返回状态码进行判断，非200状态码，则设置 page.setDownloadSuccess(false); ，同时配合 Spider 的实现类里 site = Site.me().setCycleRetryTimes(3000); 即可实现自动重试！

（1）改造Spider#onDownloadSuccess()

	/**
     * 自定义：对访问如403、502错误的URL进行处理
     */
    /**
     * 统计错误URL的数量
     */
    private final AtomicInteger errorCount = new AtomicInteger(0);
    /**
     * 统计错误URL
     */
    private List<String> errorUrls = Collections.synchronizedList(new ArrayList<>());

    public AtomicInteger getErrorCount(){
        return errorCount;
    }
    public List<String> getErrorUrls(){
        return errorUrls;
    }
    
	private void onDownloadSuccess(Request request, Page page) {
        if (site.getAcceptStatCode().contains(page.getStatusCode())){
            pageProcessor.process(page);
            extractAndAddRequests(page, spawnUrl);
            if (!page.getResultItems().isSkip()) {
                for (Pipeline pipeline : pipelines) {
                    pipeline.process(page.getResultItems(), this);
                }
            }
        } else {
            logger.info("page status code error, page {} , code: {}", request.getUrl(), page.getStatusCode());
            //todo 自定义对403错误等业务处理代码
            //增加一次错误次数
            errorCount.incrementAndGet();
            //将失败URL加入失败链接集合
            errorUrls.add(request.getUrl());
        }
        sleep(site.getSleepTime());
        return;
    }

（2）改造HttpClientDownloader#download()#onError()

	/**
     * 自定义：对访问超时的URL进行处理
     */
    private final AtomicInteger timeoutCount = new AtomicInteger(0);
    private List<String> timeoutUrls = Collections.synchronizedList(new ArrayList<>());

    public AtomicInteger getTimeoutCount() {
        return timeoutCount;
    }

    public List<String> getTimeoutUrls() {
        return timeoutUrls;
    }
	/**
     * 重载该方法，实现超时计数和统计超时Url
     */
    @Override
    protected void onError(Request request) {
        timeoutCount.incrementAndGet();
        timeoutUrls.add(request.getUrl());
    }

2、寻找爬取结束的地方，删除统计的所有错误URL和引导页（PS：引导页就是帮助我们发现最终目标页的URL，比如找到每本小说，则分类页就是引导页）

根据发现，Spider#run() 方法中有爬取线程的关闭，我们将在这里将前面统计的错误URL使用 RedisTemplate 进行删除。改造如下：

/**
     * redis工具类
     */
    private RedisUtils redisUtils = new RedisUtils();
    
	@Override
    public void run() {
        checkRunningStat();
        initComponent();
        logger.info("Spider {} started!",getUUID());
        while (!Thread.currentThread().isInterrupted() && stat.get() == STAT_RUNNING) {
            final Request request = scheduler.poll(this);
            if (request == null) {
                if (threadPool.getThreadAlive() == 0 && exitWhenComplete) {
                    break;
                }
                // wait until new url added
                waitNewUrl();
            } else {
                threadPool.execute(new Runnable() {
                    @Override
                    public void run() {
                        try {
                            processRequest(request);
                            onSuccess(request);
                        } catch (Exception e) {
                            onError(request);
                            logger.error("process request " + request + " error", e);
                        } finally {
                            pageCount.incrementAndGet();
                            signalNewUrl();
                        }
                    }
                });
            }
        }
        stat.set(STAT_STOPPED);
        // release some resources
        if (destroyWhenExit) {
            close();
        }
        logger.info("Spider {} closed! {} pages downloaded.", getUUID(), pageCount.get());

        /*
         * 在Spider关闭之后，将失败URL（主要是报403、502等错误的URL），从Redis中删除
         * 原因：因为这些页面已经失败了，且被存到了redis中，在下一周期增量爬取时，也会略过这些页面
         */
        //将超时的URL也统计进来
        if (this.downloader instanceof CustomHttpClientDownloader){
            CustomHttpClientDownloader httpClientDownloader = (CustomHttpClientDownloader) this.downloader;
            List<String> timeoutUrls = httpClientDownloader.getTimeoutUrls();
            errorUrls.addAll(timeoutUrls);
            logger.info("超时的Url有 {} 个", httpClientDownloader.getTimeoutCount());
        }
        logger.info("无法访问的Url有 {} 个", errorCount);
        //redis中存储URL的 set 集合的key
        String setKey = "set_" + site.getDomain();
        logger.info("{} Urls deleted in redis", redisUtils.removeValuesFromRedisSet(setKey, errorUrls));

	/*
         *     将引导页也进行删除：因为引导页也被记录进了redis，若我们需要进行增量查询时，因为
         * 引导URL已经存在，将不会再次进行爬取（PS：在NovelProcessor中统计引导页）
         */
        if (this.pageProcessor instanceof NovelProcessor){
            NovelProcessor novelProcessor = (NovelProcessor) this.pageProcessor;
            List<String> helpUrls = novelProcessor.getHelpUrls();
            logger.info("{} Help urls deleted in redis", redisUtils.removeValuesFromRedisSet(setKey, helpUrls));
        }
    }

上面用到的 redis 工具类如下 RedisUtils：

@Component
public class RedisUtils {
    @Autowired
    private RedisTemplate<String, String> redisTemplate;

    public static RedisUtils redisUtils;

    @PostConstruct
    public void init(){
        redisUtils = this;
        redisUtils.redisTemplate = this.redisTemplate;
    }

    public Long removeValuesFromRedisSet(String key, List<String> values){
        long removeCount = 0;
        String[] valueArray = list2String(values);
        if (valueArray != null){
            removeCount = redisUtils.redisTemplate.opsForSet().remove(key, valueArray);
        }
        return removeCount;
    }

    private String[] list2String(List<String> list){
        if (CollectionUtils.isNotEmpty(list)){
            String[] array = new String[list.size()];
            int i = 0;
            for (String str : list){
                array[i++] = str;
            }
            return array;
        }
        return null;
    }
}

3、调用改造后的 `Spider` 和 `HttpClientDownloader`

因为我们是无法修改源码的，所以我们需要自定义Spider 和 HttpClientDownloader，除改动代码部分外，其他全部和 Spider 和 HttpClientDownloader 一样，具体如下：

public class CustomSpider extends AbstractDownloader {
...
}

public class CustomHttpClientDownloader extends AbstractDownloader {
...
}

private static CustomSpider spider;
public static void startCraw() {
        spider = CustomSpider.create(new NovelProcessor())
                .addUrl(NOVEL_WEBSITE_URL)
                .addPipeline(new NovelPipeline())
                .setDownloader(new CustomHttpClientDownloader())
                .setScheduler(new RedisScheduler("192.168.10.130"))
                .thread(10);
        addSpiderListeners(spider);
        spider.run();
    }

（三）增量爬取优化

1、增量爬取问题
在进行上述的改进之后，项目运行过程中又发现了新的问题：Redis连接失败，项目突然崩溃，引导URL无法正常删除。这样我们在进行增量爬取时，由于引导URL已经在Redis中了，那么依然无法进行增量爬取。

2、解决办法
在爬取页面准备阶段，我们就将引导URL放入Redis中的Set集合中，然后在每次开启增量爬取时，在所有爬取的URL组成的Set集合中删除这些引导URL。这样做，即使程序突然崩溃，我们下次依然可以正常进行增量爬取，具体实现如下：

（1） NovelPipeline：主要实现将引导URL存入Redis的Set集合中

/**
 * @author 咸鱼
 * @date 2019-01-24 21:51
 */
@Slf4j
@Component
public class NovelPipeline implements Pipeline {
    @Autowired
    private BookService bookService;
    @Autowired
    private RedisUtils redisUtils;

    public static NovelPipeline novelPipeline;

    @PostConstruct
    public void init(){
        novelPipeline = this;
        novelPipeline.bookService = this.bookService;
        novelPipeline.redisUtils = this.redisUtils;
    }

    @Override
    public void process(ResultItems resultItems, Task task) {
        String helpUrl = resultItems.get("helpUrl");
        if (helpUrl != null){
            //TODO:将引导URL放入redis中
            if (novelPipeline.redisUtils.saveValueInRedis(NovelProcessor.PREFIX_NOVEL_HELP_URL_KEY_IN_REDIS +
                    task.getSite().getDomain(), helpUrl) == 1){
                log.info("引导URL：{} 成功存入redis", helpUrl);
            }
        } else {
            String bookName = resultItems.get("bookName");
            String author = resultItems.get("author");
            String bookUrl = resultItems.get("bookUrl");
            String categoryName = resultItems.get("category");
            String coverImgUrl = resultItems.get("coverImgUrl");
            String summary = resultItems.get("summary");
            //因为类别下的小说也会过来，他们过来，这些字段时空的，所以可以具体处理
            if (StringUtil.isParamsValid(bookName, author, bookUrl)){
                if (!novelPipeline.bookService.addBook(bookName, author, bookUrl, categoryName, coverImgUrl, summary)){
                    log.error("保存小说 {0} 失败，请重试！", bookName);
                }
            }
        }
    }
}

（2）改造CustomSpider#setScheduler()：实现在爬虫启动前删除所有的引导URL

public CustomSpider setScheduler(Scheduler scheduler) {
        //TODO:删除redis中的引导URL
        clearHelpUrls();

        checkIfRunning();
        Scheduler oldScheduler = this.scheduler;
        this.scheduler = scheduler;
        if (oldScheduler != null) {
            Request request;
            while ((request = oldScheduler.poll(this)) != null) {
                this.scheduler.push(request, this);
            }
        }
        return this;
    }

/**
     * 删除redis中的引导URL，实现增量下载
     */
    private void clearHelpUrls() {
        String helpUrlKey = NovelProcessor.PREFIX_NOVEL_HELP_URL_KEY_IN_REDIS + getSite().getDomain();
        String allUrlKey = "set_" + getSite().getDomain();
        logger.info("删除{}个引导URL", redisUtils.deleteSetValues(allUrlKey, helpUrlKey));
    }

补充：为什么在CustomSpider#setScheduler()中删除引导URL，而不是CustomSpider#run()中删除？
原因：因为我们在创建Spider时，已经会将爬取入口URL和redis中已经爬取到的URL进行比较，以实现去重，所以若我们在CustomSpider#run()中删除引导页，那么程序依然会认为该URL已经爬取过了，不会再被爬取！！！

RedisUtils

/**
     * 删除key的set集合中所有otherKey中set集合的所有元素
     */
    public Long deleteSetValues(String key, String otherKey) {
        long num = 0;
        Set<String> members = redisUtils.redisTemplate.opsForSet().members(otherKey);
        if (CollectionUtils.isNotEmpty(members)){
            num = redisUtils.redisTemplate.opsForSet().remove(key, members.toArray());
        }
        return num;
    }

（3）改造CustomSpider#run()：将这里的删除引导URL代码去掉

Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
如何在Java爬虫中设置代理IP：详解与技巧天启代理ip java 爬虫 tcp/ip
在进行网络爬虫时，使用代理IP可以有效地避免被目标网站封禁，提升数据抓取的成功率。本文将详细介绍如何在Java爬虫中设置代理IP，并提供一些实用的技巧和示例代码。为什么需要代理IP？在进行爬虫操作时，频繁的请求可能会引起目标网站的注意，甚至导致IP被封禁。就像一只贪心的小猫不停地偷鱼吃，迟早会被发现。为了避免这种情况，我们可以使用代理IP，模拟多个用户，从而降低被封禁的风险。获取代理IP获取代理I
2024年Java爬虫利器：Jsoup详细介绍与用法_java jsoup(1) 2401_84562143 程序员 java 爬虫开发语言
.method(Connection.Method.GET).execute();DocumentloginDoc=loginForm.parse();Elementform=loginDoc.select(“form”).first();//填充表单字段form.select(“input[name=username]”).val(“username”);form.select(“input[n
Java爬虫开发：Jsoup库在图片URL提取中的实战应用小白学大数据 python java 爬虫开发语言测试工具前端 javascript
在当今的互联网时代，数据的获取和处理变得尤为重要。对于网站内容的自动化抓取，爬虫技术扮演着不可或缺的角色。Java作为一种广泛使用的编程语言，拥有丰富的库支持网络爬虫的开发。其中，Jsoup库以其简洁、高效的特点，成为处理HTML内容和提取数据的优选工具。本文将详细介绍如何使用Jsoup库开发Java爬虫，以实现图片URL的提取。Jsoup库简介Jsoup是一个用于解析HTML文档的Java库，它
Java编写爬虫和Python编写爬虫到底有什么区别菜到极致就是渣网络知识爬虫 java 爬虫大数据 javascript
关于Java编写爬虫和Python编写爬虫，以前我就特别疑惑，但是却并没有放在心上，不知道最近我为什么会突然感兴趣。于是我就搜了一下爬虫相关知识以及学习课程，结果我发现全都是用Python来进行网络爬虫，基本上看不到Java爬虫，以前没学爬虫的时候，我还以为只能用Python进行爬虫，难道我还要再去学Python？后面我才发现Java也可以进行爬虫，但是竟然Java也可以爬虫的话，为什么很多教学网
【开源项目阅读】Java爬虫抓取豆瓣图书信息 IncludeFun java 爬虫开发语言
原项目链接Java爬虫抓取豆瓣图书信息本地运行运行过程另建项目，把四个源代码文件拷贝到自己的包下面在代码爆红处按ALT+ENTER自动导入maven依赖直接运行Main.main方法，启动项目运行结果在本地磁盘上生成三个xml文件其中的内容即位爬取后到的图书信息，包括：书名作者名出版社名isbn号图书对应的豆瓣链接图书封面图片地址可惜并没有直接爬取到图书的内容，不过可以凭借爬取得到的图书元数据去其
JAVA爬虫三种方法 weixin_40298650
文章目录前言一、JDK二、HttpClient三、Jsoup总结前言记录JAVA爬虫三种方式一、JDK使用JDK自带的URLConnection实现网络爬虫。publicvoidtestGet()throwsException{//1.确定要访问/爬取的URLURLurl=newURL("https://blog.csdn.net/weixin_40298650/article/details/1
Java爬虫与SSL代理：实际案例分析与技术探讨小白学大数据 python java 爬虫 ssl 开发语言
前言网络爬虫成为获取互联网数据的重要工具之一,然而，随着网络安全意识的提高，许多网站开始采用SSL加密来保护数据传输的安全性。本文将介绍如何使用Java编程语言结合SSL代理技术来实现网络爬虫，并通过实际案例分析和技术探讨来展示其应用价值。SSL代理技术优势SSL代理技术是一种能够在SSL加密通信中进行中间人攻击的技术，通过SSL代理，我们可以在客户端和服务器之间插入一个代理服务器，对SSL加密的
Java爬虫+协同过滤+Springboot+vue.js实现的小说推荐系统，小说推荐平台，小说管理系统计算机程序优异哥
互联网小说资源网站非常的多，但是很多阅读资源都需要收费开会员才能阅读。因此本次毕业设计程序立足于网络爬虫技术采集互联网小说资源分析汇总至本小说推荐平台，基于用户协同过滤推荐算法对不同的用户展开个性化的小说内容推荐阅读。一、程序设计本次基于爬虫的小说推荐系统主要内容涉及：主要功能模块：小说阅读推荐前端平台，小说数据管理与分析平台主要包含技术：java爬虫，redis，springboot，mybat
Java爬虫批量爬取图片 zxy199288 java java 爬虫 python
Java爬取图片现在开始学习爬虫，对于爬虫的入门来说，图片相对来说是比较容易获取的，因为大部分图片都不是敏感数据，所以不会遇到什么反爬措施，对于入门爬虫来说是比较合适的。使用技术：Java基础知识、HttpClient4.x、Jsoup学习目标：下载静态资源图片。爬取思路对于这种图片的获取，其实本质上就是就是文件的下载（HttpClient）。但是因为不只是获取一张图片，所以还会有一个页面解析的处
JAVA爬虫案例——JSOUP爬取图片并使用v-viewer实现图片预览北溟溟 JAVA java 爬虫
前言网络爬虫是大数据时代收集数据的一种有效手段，合理合法的运用技术手段获取网络数据，实现数据的再利用也是程序员的一项重要技能。本节我们使用java环境下的jsoup实现网络数据的爬取，主要是图片数据的异步爬取，并实现网络图片的下载及图片的预览功能，预览功能使用具有丰富功能的v-viewer实现。正文引入爬虫pom工具包org.apache.httpcomponentshttpclient4.5.6
Jsoup - 【Java爬虫】- 批量下载指定网站图片 QX_Java_Learner Java java
简介Jsoup是一款Java的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于JQuery的操作方法来取出和操作数据。Jsoup对多线程、连接池、代理等等的支持并不是很好，所以一般把Jsoup仅仅作为HTML解析工具使用。功能从一个URL、文件或字符串中解析HTML使用DOM或CSS选择器来查找、取出数据可操作HTML元素、属
Java爬虫，关于selenium/guava/JDK版本的兼容性说明佩洛君 java 爬虫 selenium
直接给maven这个是JDK1.8下绝对能跑的，测试时间：2024/1/18org.seleniumhq.seleniumselenium-java4.1.1com.google.guavaguava31.0.1-jre行吧，cloudFlare能挡住selenium，给我防麻了这个兼容性不行，版本差一点点就报错
java爬取数据放入mysql_Java爬虫历险记 -- （2）爬取数据并存放到mysql 郑默默 java爬取数据放入mysql
本文是对博客下雨天没带伞–JAVA实现网页爬虫及将数据写入数据库–http://blog.csdn.net/sinat_38224744/article/details/70652767中代码的理解和补充，并使用NavicatforMySQL软件实现对数据的可视化操作。代码分成两部分：Web.java+Jdbc.java一、Web.java/***原博客：http://blog.csdn.net/
Java爬虫爬取图片壁纸 .陌路 SpringBoot3.x Java java 爬虫 SpringBoot3.x Java17 springboot3 js html5
Java爬虫以sougou图片为例：https://pic.sogou.com/JDK17、SpringBoot3.2.X、hutool5.8.24实现Java爬虫，爬取页面图片项目介绍开发工具：IDEA2023.2.5JDK：Java17SpringBoot：3.2.x通过SpringBoot快速构建开发环境，通过Jsoup实现对网页的解析，并获取想要的资源数据使用hutool工具，将所需要的字
Java爬虫-使用jsoup爬取数据入门案例（爬取豆瓣电影Top250数据）丿BAIKAL巛 #Java爬虫 java 爬虫开发语言
有需要用到jsoup来获取数据，因为之前没有用过，所以就想写一个入门案例来巩固一下，这个案例的功能是爬取豆瓣电影Top250的电影数据（电影名称，简介，评分，评价等），并且将数据存到Excel表格中。这是豆瓣电影Top250的网址，https://movie.douban.com/top250?start=0文章目录一、前置工作1.1技术介绍JsoupApachePOI1.2依赖导入Jsoup入门
java爬虫和python爬虫的区别考一个红薯 python java 爬虫
java爬虫与python爬虫的对比：python做爬虫语法更简单，代码更简洁。java的语法比python严格，而且代码也更复杂示例如下：url请求：java版的代码如下：publicStringcall(Stringurl){Stringcontent="";BufferedReaderin=null;try{URLrealUrl=newURL(url);URLConnectionconnec
用Java爬取新房二手房数据看总体大环境 q56731523 java 开发语言 kotlin python 爬虫代理模式
都说现在房市惨淡，导致很多人在观望，那么今天我写一段爬虫，主要是抓取各地新房以及二手房成交状况，然后了解总体楼市是否回暖上升。以下是Java爬虫程序的代码示例，用于抓取贝壳网新房和二手房数据：importorg.jsoup.Jsoup;importorg.jsoup.nodes.Document;importorg.jsoup.nodes.Element;importorg.jsoup.selec
新车怎么选？用Java采集汽车之家车辆配置参数信息 q56731523 java 汽车开发语言 rust 后端 c语言
年关将至，辛苦一年了，总得犒劳犒劳自己，有人喜欢出去大吃一顿，逛街买东西，也有人会选择买车给自己增添一个代步工具买一辆汽车，而且现在车辆活动力度很大，将会吸引更多人购买欲。那么，普通人怎么选择车辆呢？下面我将通过java爬虫写一个车辆配置参数信息抓取程序，并进行分析对比，让选择也能手机刷刷就能完事。这是一个使用Java编写的爬虫程序，用于抓取汽车之家的车型、车系、配置参数数据。在开始之前，需要了解
【java爬虫】首页显示沪深300指数走势图以及前后端整合部署方法 haohulala java网络爬虫前端学习笔记 java 爬虫 vue.js
添加首页本文我们将在首页添加沪深300指数成立以来的整体走势数据展示，最后的效果是这样的单独贴一张沪深300整体走势图我感觉从总体上来看指数还是比较稳的，没有特别大的波动，当然，这只是相对而言哈哈。首先是前端页面更新沪深300成分股数据信息更新状态：{{update_status}}操作：重新更新信息importaxiosfrom"axios";import{ElMessage}from"elem
Java爬虫系列二：使用HttpClient抓取页面HTML 不會變承諾
爬虫要想爬取需要的信息，首先第一步就要抓取到页面html内容，然后对html进行分析，获取想要的内容。上一篇随笔《Java爬虫系列一：写在开始前》中提到了HttpClient可以抓取页面内容。今天就来介绍下抓取html内容的工具：HttpClient。一、什么是HttpClient度娘说：HttpClient是ApacheJakartaCommon下的子项目，可以用来提供高效的、最新的、功能丰富的
用Java编写图书网站信息采集程序教程 q56731523 java 开发语言 rust 后端 c语言爬虫
最近有个公司想要开发新产品，想要找到一些相关产品的功能以及工艺信息，之前有个负责人就通过传统的百度搜索来查找，但是效率太慢，然后请教我问我有什么办法收集这类产品信息以及配套的产品书籍以及信息，这不，饭都请我吃了，我能说不么？在开始编写Java爬虫程序之前，需要准备一些东西，包括Java开发环境，代理服务器，以及一个需要爬取的图书网站。假设我们已经有了这些工具，下面是用Java编写的爬虫程序，爬取图
Java爬虫之Jsoup sternschnapper 前端 javascript html
1.Jsoup相关概念Jsoup很多概念和js类似，可参照对比理解Document：文档对象。每份HTML页面都是一个文档对象，Document是jsoup体系中最顶层的结构。Element：元素对象。一个Document中可以着包含着多个Element对象，可以使用Element对象来遍历节点提取数据或者直接操作HTML。Elements：元素对象集合，类似于List。Node：节点对象。标签名
Java爬虫获取省市区镇村5级行政区划 sternschnapper java 爬虫开发语言
公司有个项目需要五级行政区划，没有现成的数据，写了一段代码，从gj统计j获取的数据。记录一下。1.引入maven解析htmlorg.jsoupjsoup1.11.32.Java代码实现@GetMapping("/hh")publicvoidhh(){Divisiond=newDivision();finalStringurl="https://www.stats.gov.cn/sj/tjbz/tj
【java爬虫】使用element-plus进行个股详细数据分页展示 haohulala java网络爬虫金融数据分析前端学习笔记 java element-plus 分页
前言前面的文章我们讲述了获取详细个股数据的方法，并且使用echarts对个股的价格走势图进行了展示，本文将编写一个页面，对个股详细数据进行展示。别问涉及到了element-plus中分页的写法，对于这部分知识将会做重点讲解。首先看一下效果之前我一直认为前端分页很难写，不过今天写完这个页面之后我发现，有了element-plus这样的框架，前端真的变得非常简单。获取所有有数据的股票代码我们的页面主要
【java爬虫】股票数据获取工具前后端代码 haohulala java网络爬虫金融数据分析前端学习笔记 java element-plus vue
前面我们有好多文章都是在介绍股票数据获取工具，这是一个前后端分离项目后端技术栈：springboot，sqlite，jdbcTemplate，okhttp前端技术栈：vue，element-plus，echarts，axios介绍的文章如下：【金融数据分析】计算沪深300指数行业权重分布并用饼图展示-CSDN博客【金融数据分析】获取沪深300成分股权重数据方法优化-CSDN博客【java爬虫】基于
专为初学者设计：Nutch库Java下载器入门指南亿牛云爬虫专家 java 代理IP 爬虫代理 java 开发语言 Nutch 下载器爬虫代理代理IP 多线程
概述:Nutch是一款开源的Java爬虫框架，用于抓取、解析、提取和存储网页数据。基于Hadoop的分布式系统，Nutch支持大规模网络爬取，并提供各种插件，包括链接分析、语言检测和内容过滤等功能。本文旨在介绍如何使用Nutch库编写简单的Java下载器，即能从指定URL下载网页内容的程序。目标是帮助初学者了解Nutch库的基本用法，并展示如何通过代理IP技术和多线程技术提升下载效率。假设读者已安
【java爬虫】获取个股详细数据并用echarts展示 haohulala java网络爬虫金融数据分析前端学习笔记 java 爬虫 vue
前言前面一篇文章介绍了获取个股数据的方法，本文将会对获取的接口进行一些优化，并且添加查询数据的接口，并且基于后端返回数据编写一个前端页面对数据进行展示。具体的获取个股数据的接口可以看上一篇文章【java爬虫】基于springboot+jdbcTemplate+sqlite+OkHttp获取个股的详细数据-CSDN博客下面是操作演示，首先是爬虫获取股票数据接着是进行获取个股详细数据并且进行数据展示数
java爬虫（jsoup）如何设置HTTP代理ip爬数据卑微阿文 java 爬虫 http
目录前言什么是HTTP代理IP使用Jsoup设置HTTP代理IP的步骤1.导入Jsoup依赖2.创建HttpProxy类3.设置代理服务器4.使用Jsoup进行爬取结论前言在Java中使用Jsoup进行网络爬虫操作时，有时需要使用HTTP代理IP来爬取数据。本文将介绍如何使用Jsoup设置HTTP代理IP进行爬取，并提供相关代码示例。什么是HTTP代理IPHTTP代理IP是一种允许我们通过代理服务
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/