KittyGirllll

使用WebCollector爬虫框架进行微信公众号文章爬取并持久化

〇、Java爬虫框架有哪些？

1.nutch：Apache下开源爬虫项目，适合做搜索引擎，分布式爬虫只是其中一个功能，功能丰富，文档完整。

2.heritrix：比较成熟，用的人较多，有自己的web管理控制台，包含了一个HTTP服务器。

3.crowler4j：只具有爬虫的核心功能，上手简单。

4.webmagic：一个可伸缩的爬虫框架，涵盖爬虫整个生命周期：下载、URL管理、内容提取和持久化。

5.gecco：轻量集网络爬虫，整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等优秀框架。

6.webcollector：一个无需配置、便于二次开发的爬虫框架，参考了crawler4j。

4、5、6皆为国人所写。

一、网络爬虫基本概念

基本的网络爬虫框架如图所示：

基本的网络爬虫工作流程如下：

1.精心挑选一部分种子URL；

2.将这些URL放入待抓取URL队列；

3.从待抓取URL队列中取出URL，解析DNS得到主机ip地址，将网页内容下载下来，解析有用的内容存储到库中，将这些URL放入已抓取URL队列；

4.分析已抓取URL队列中的URL，分析其中包含的其他URL，抽取新的URL放入待抓取队列，重复循环。

基本的抓取策略：

1.深度优先遍历策略：一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。

2.宽度优先遍历策略：将新下载网页中发现的链接直接插入待抓取URL队列的末尾。也就是指网络爬虫会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。

二、WebCollector框架介绍

作为我的第一款入门爬虫框架，先不论其好坏，重点是需要借助该框架理解爬虫的原理、流程和关键技术，故下面进行详细梳理。

WebCollector 是一个无须配置、便于二次开发的 Java 爬虫框架（内核），它提供精简的的 API，只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop 是 WebCollector 的 Hadoop 版本，支持分布式爬取。

WebCollector 致力于维护一个稳定、可扩的爬虫内核，便于开发者进行灵活的二次开发。内核具有很强的扩展性，用户可以在内核基础上开发自己想要的爬虫。源码中集成了 Jsoup，可进行精准的网页解析。2.x 版本中集成了 selenium，可以处理 JavaScript 生成的数据。

其内核架构如图所示：

WebCollector 2.X版本特性

1.自定义遍历策略，可完成更为复杂的遍历业务，例如分页、AJAX。

2.可以为每个URL设置附加信息(MetaData)，利用附加信息可以完成深度获取、锚文本获取、引用页面获取、POST参数传递、增量更新等。

3.使用插件机制，用户可定制自己的Http请求、过滤器、执行器等插件。

4.内置一套基于内存的插件(RamCrawler)，不依赖文件系统或数据库，适合一次性爬取，例如实时爬取搜索引擎。

5.内置一套基于Berkeley DB的插件(BreadthCrawler)，适合处理长期和大量级的任务，具有断点爬取功能。

6.集成selenium，可以对JavaScript生成信息进行抽取。

7.可轻松自定义http请求，并内置多代理随机切换功能，可通过定义http请求实现模拟登录。

8.使用slf4j作为日志门面，可对接多种日志。

9.使用类似Hadoop的Configuration机制，可为每个爬虫定制配置信息。

WebCollector与HttpClient、Jsoup的区别

WebCollector是爬虫框架，HttpClient是Http请求组件，JSoup是网页解析器，在自己手动编写爬虫时需要调用HttpClient和JSoup进行数据采集。而框架的好处是将底层公共的实现包装好，WebCollector框架自带多线程和URL维护，在编写爬虫时无需考虑线程池、URL去重和断电爬取的问题。

WebCollector的遍历

采用一种粗略的广度遍历，网络爬虫在访问页面时，从页面中探索新的URL，继续爬取。WebCollector为探索新的URL提供了两种机制，自动解析和手动解析。

三、功能实现

整体功能可以拆分为两部分，一是通过搜狗微信搜索接口获取微信公众号文章内容，二是将解析出来的内容持久化到MySQL数据库。

1.爬取微信公众号

通过搜狗微信搜索可以得到微信公众号的网页入口，在这里可以搜索公众号的任何信息，相当于搜狗也是一个爬虫爬取微信的数据并显示出来。这样获取到的文章URL是一个带时间戳的临时链接，也就是说该链接一段时间后就会失效无法访问，因此不能存储该链接，如图所示。（这里有一个问题，经常会出现“请输入验证码”页面，还没有解决。）

在visit()函数里处理三种页面：公众号搜索页面、公众号文章列表页和文章详情页。相关代码如下，讲解参见注释，这里主要是参考这篇文章，改用Alibaba的fastjson解析JSON数据，并修改了原文中的一些小bug。

/**
 * 自定义的WxAccountCrawler继承框架中的BreathCrawler插件，实现功能自定制
 */
public class WxAccountCrawler extends BreadthCrawler {

    public static final Logger LOG = LoggerFactory.getLogger(WxAccountCrawler.class);

    protected String historyKeysPath;//历史值存放路径，一个txt文件
    protected BufferedWriter historyKeysWriter;
//类的构造函数
    public WxAccountCrawler(String crawlPath, String historyKeysPath) throws Exception {
        //自动解析为false，也就是手动解析探索新的URL
        super(crawlPath, false);
        this.historyKeysPath = historyKeysPath;
        LOG.info("initializing history-keys-filter ......");
        //设置URL过滤器
        this.setNextFilter(new HistoryKeysFilter(historyKeysPath));
        LOG.info("creating history-keys-writer");
        //历史值文件写入
        historyKeysWriter = new BufferedWriter(new OutputStreamWriter(
                new FileOutputStream(historyKeysPath, true), "utf-8"));

    }

    @Override
    public void visit(Page page, CrawlDatums next) {
        String account = page.meta("account");

        if (page.matchType("account_search")) {
            //对于账号搜索页面，手动解析，抽取公众号文章列表页URL
            Element accountLinkEle = page.select("p.tit>a").first();
            //防止搜索结果为空
            if (accountLinkEle == null) {
                LOG.info("公众号\"" + account + "\"不存在，请给出准确的公众号名");
                return;
            }
            //防止公众号名错误
            String detectedAccount = accountLinkEle.text().trim();
            if (!account.equals(detectedAccount)) {
                LOG.info("公众号\"" + account + "\"与搜索结果\"" + detectedAccount + "\"名称不符，请给出准确的公众号名");
                return;
            }
            //解析出公众号搜索结果页面中的URL
            String accountUrl = accountLinkEle.attr("abs:href");
            //添加到待抓取URL队列中
            next.add(new CrawlDatum(accountUrl, "article_list").meta("account", account));

        } else if (page.matchType("article_list")) {
            //对于公众号文章列表页，只显示最近的10篇文章
            String prefix = "msgList = ";
            String suffix = "seajs.use";
            int startIndex = page.html().indexOf(prefix) + prefix.length();
            int endIndex = page.html().indexOf(suffix);
            //trim()函数去除首尾空格
            String jsonStr = page.html().substring(startIndex, endIndex).trim();
            int len = jsonStr.length();
            //去掉最后一个分号，否则无法解析为jsonobject
            jsonStr = jsonStr.substring(0,len-1);
            //System.out.println(jsonStr);
            //将字符串转换为jsonobject
            JSONObject json = JSONObject.parseObject(jsonStr);
            JSONArray articleJSONArray = JSONArray.parseArray(json.getString("list"));
            for (int i = 0; i < articleJSONArray.size(); i++) {
                JSONObject articleJSON = articleJSONArray.getJSONObject(i).getJSONObject("app_msg_ext_info");
                String title = articleJSON.getString("title").trim();
                String key = account + "_" + title;
                //原来问题在这里！！！replace("&", "&")
                //这里是文章的临时链接
                String articleUrl = "http://mp.weixin.qq.com" + articleJSON.getString("content_url").replace("&", "&");
               //添加到待抓取URL队列中
                next.add(new CrawlDatum(articleUrl, "article").key(key).meta("account", account));
            }

        } else if (page.matchType("article")) {
            try {
            //对于文章详情页，抽取标题、内容等信息
            String title = page.select("h2.rich_media_title").first().text().trim();
            //String date = page.select("em#post-date").first().text().trim();
            String content = page.select("div.rich_media_content").first().text().trim();
            //适应数据库中content大小
            content = content.substring(0,255);
            //将页面key写入文件中用来去重
            writeHistoryKey(page.key());
            //持久化到数据库
            writeNewstoDB(title,content);
            //JSONObject articleJSON = new JSONObject();
            //articleJSON.fluentPut("account", account)
            //            .fluentPut("title", title)
            //           .fluentPut("content", content);
            //System.out.println(articleJSON);
            } catch (Exception ex) {
                LOG.info("writer exception", ex);
            }
        }
    }

    @Override
    public void start(int depth) throws Exception {
        super.start(depth);
        //关闭文件，保存history keys
        historyKeysWriter.close();
        LOG.info("save history keys");
    }

    public void addAccount(String account) throws UnsupportedEncodingException {
        //根据公众号名称设置种子URL
        String seedUrl = "http://weixin.sogou.com/weixin?type=1&"
                + "s_from=input&ie=utf8&query=" + URLEncoder.encode(account, "utf-8");
        CrawlDatum seed = new CrawlDatum(seedUrl, "account_search").meta("account", account);
        addSeed(seed);
    }

    public class HistoryKeysFilter extends HashSetNextFilter {

        //读取历史文章标题，用于去重
        public HistoryKeysFilter(String historyKeysPath) throws Exception {
            File historyFile = new File(historyKeysPath);
            if (historyFile.exists()) {
                FileInputStream fis = new FileInputStream(historyKeysPath);
                BufferedReader reader = new BufferedReader(new InputStreamReader(fis, "utf-8"));
                String line;
                while ((line = reader.readLine()) != null) {
                    this.add(line);
                }
                reader.close();
            }
        }
    }
public static void main(String[] args) throws Exception {//主函数
        WxAccountCrawler crawler = new WxAccountCrawler("crawl_weixin", "wx_history.txt");
        crawler.addAccount("西电研究生");
        crawler.setThreads(5);
        crawler.start(10);
    }
}

2.持久化数据到MySQL

这里遇到的问题详见上一篇文章。按照这篇文章的思路创建一个JDBCHelper类，在爬虫程序visit()中的writeNewstoDB中调用JDBCHelper的getJdbcTemplate方法来获取一个JdbcTemplate。相关代码如下。

public class JDBCHelper {

    public static HashMap templateMap
            = new HashMap();

    public static JdbcTemplate createMysqlTemplate(String templateName,
                                                   String url, String username, String password,
                                                   int initialSize) {

        BasicDataSource dataSource = new BasicDataSource();
        dataSource.setDriverClassName("com.mysql.jdbc.Driver");
        dataSource.setUrl(url);
        dataSource.setUsername(username);
        dataSource.setPassword(password);
        dataSource.setInitialSize(initialSize);
        JdbcTemplate template = new JdbcTemplate(dataSource);
        templateMap.put(templateName, template);
        return template;
    }

    public static JdbcTemplate getJdbcTemplate(String templateName){
        return templateMap.get(templateName);
    }
}

public synchronized void writeNewstoDB(String title, String content) throws Exception {

        JdbcTemplate jdbcTemplate = null;
        try {
            jdbcTemplate = JDBCHelper.createMysqlTemplate("mysql1",
                    "jdbc:mysql://localhost:3306/toutiao?useUnicode=true&characterEncoding=utf8&useSSL=false",
                    "username", "password", 5);
//如果数据库中没有相关的表这里需要添加建表操作
        } catch (Exception ex) {
            jdbcTemplate = null;
            System.out.println("mysql未开启或JDBCHelper.createMysqlTemplate中参数配置不正确!");
        }
        if (jdbcTemplate != null) {
            int updates=jdbcTemplate.update("insert into news"
                           +" (title, link, image, like_count, comment_count, created_date, user_id) value(?,?,?,?,?,?,?)",
                    title, content, "http://images.nowcoder.com/head/23m.png", 0, 0, new Date(), 3);
            if(updates==1){
                System.out.println("mysql插入成功");
            }
        }
    }

四、项目地址

本文中参考的WebCollector项目源代码和示例程序见本文第一部分。

本文完整Maven项目地址：https://github.com/IrisChenXiaoyan/weChatCrawler，欢迎star&fork

参考文献：

https://www.zhihu.com/question/31427895

http://www.cnblogs.com/wawlian/archive/2012/06/18/2553061.html

https://oschina.net/p/webcollector

http://www.jianshu.com/p/7e310e848480

PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
Spring MVC 全面指南：从入门到精通的详细解析一杯梅子酱技术栈学习 spring mvc java
引言：SpringMVC，作为Spring框架的一个重要模块，为构建Web应用提供了强大的功能和灵活性。无论是初学者还是有一定经验的开发者，掌握SpringMVC都将显著提升你的Web开发技能。本文旨在为初学者提供一个全面且易于理解的学习路径，通过详细的知识点分析和实际案例，帮助你快速上手SpringMVC，让学习过程既深刻又高效。一、SpringMVC简介1.1什么是SpringMVC？Spri
基于JavaWeb开发的Java+SpringMvc+vue+element实现上海汽车博物馆平台网顺技术团队成品程序项目 java vue.js 汽车课程设计 spring boot
基于JavaWeb开发的Java+SpringMvc+vue+element实现上海汽车博物馆平台作者主页网顺技术团队欢迎点赞收藏⭐留言文末获取源码联系方式查看下方微信号获取联系方式承接各种定制系统精彩系列推荐精彩专栏推荐订阅不然下次找不到哟Java毕设项目精品实战案例《1000套》感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人文章目录基
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
什么是 PHP? 为什么用 PHP? 谁在用 PHP? m0_37438181 永远学习 php 开发语言
一、什么是PHP？PHP（HypertextPreprocessor，超文本预处理器）是一种广泛应用于Web开发的通用开源脚本语言。PHP主要用于服务器端编程，可以嵌入HTML中，与数据库进行交互，生成动态网页内容。它具有以下特点：简单易学：语法相对简单，容易上手，对于初学者来说是一个不错的选择。跨平台性：可以在多种操作系统上运行，如Windows、Linux、Unix等。丰富的函数库：提供了大量
SpringBoot2：web开发常用功能实现及原理解析-整合EasyExcel实现Excel导入导出功能生产队队长 Spring All excel spring boot
1、工程包结构主要是这5个Java类2、导入EasyExcel包这里同时贴出其他相关springboot的基础包org.springframework.bootspring-boot-starter-weborg.springframework.bootspring-boot-devtoolsruntimetrueorg.springframework.bootspring-boot-config
Web开发详解你可以自己看前端
要做Web开发，就好像你在厨房里要做一顿丰盛的晚餐，从准备食材到最后上桌，整个过程得协调得当。Web开发的流程有前端、后端、数据库、API，以及其他的工具和技术来共同组成。别担心，听起来复杂，但我会给你讲得生动有趣，让你感受到Web开发的美妙。1.前端开发（Web开发的颜值担当）前端就是用户能直接看到和互动的部分，给人的第一印象尤为重要，简直就是网站的“面子工程”。1.1HTML-构建页面骨架HT
React 前端应用结合 Nginx 部署指南及常见错误排查蜗牛去旅行吧前端 react.js nginx
在现代Web开发中，React已成为构建用户界面的流行选择，而Nginx则是一个高性能的Web服务器，广泛用于静态文件的托管和负载均衡。在本篇博客中，我们将详细介绍如何将一个React应用部署到Nginx上，并探讨在部署过程中可能遇到的常见错误及其解决方案。部署步骤1.准备React应用首先，确保你已经创建了一个React应用。如果还没有，可以使用CreateReactApp快速生成一个基础项目：
Java 学习路线：语言、框架、中间件与数据库高危型 java
Java是一门功能强大、应用广泛的编程语言，适用于企业级应用、Web开发、大数据处理、Android开发等各种场景。这里为大家介绍了一下我认为较为合适的学习路线一、Java基础1.1Java语言基础1.1.1安装JDK和IDE安装JDK：下载JDK：访问Oracle官网，下载最新的JavaDevelopmentKit（JDK）。安装JDK：按照操作系统要求安装JDK并配置环境变量。Windows上
Json格式化微赚淘客系统@聚娃科技 json
Json格式化大家好，我是微赚淘客机器人的小编，也是冬天不穿秋裤，天冷也要风度的程序猿！Json格式化：让数据更亮眼，解密Json的奇妙世界在现代Web开发中，Json（JavaScriptObjectNotation）已经成为数据交换的标准之一。然而，对于人眼来说，一串紧凑的Json字符串并不直观，而经过格式化处理后的Json却如同一幅清晰的画面。本文将深入探讨Json格式化的重要性、实现方法以
CTF——web方向学习攻略一则孤庸 CTF 网络安全 CTF
1计算机基础操作系统：熟悉Linux命令，方便使用Kali。网络技术：HCNA、CCNA。编程能力：拔高项，有更好。2web应用HTTP协议：必须掌握web开发框架web安全测试3数据库数据库基本操作SQL语句数据库优化4刷题
生成一个完整的App代码通常不会仅仅通过单一的文件或几种语言的简单组合来完成，因为App的开发涉及前端用户界面、后端逻辑处理、数据库管理以及可能的第三方服务集成等多个方面。不过，我可以为你提供一个概念 NewmanEdwarda2 前端 ui 数据库
前端(用户界面)yinanjinying.comHTML/CSS/JavaScript(原生Web开发)对于简单的WebApp，你可以直接使用HTML来构建页面结构，CSS来设置样式，JavaScript来添加交互性。React(JavaScript/TypeScript)对于更复杂的单页应用（SPA），React是一个流行的选择。它允许你构建可复用的UI组件。Flutter(Dart)如果你想要
利用Leaflet.js创建交互式地图：绘制固定尺寸的长方形小金子J 前端框架 WebGIS javascript 开发语言 ecmascript 前端框架信息可视化
在现代Web开发中，交互式地图已成为展示地理位置数据的重要工具。Leaflet.js是一个轻量级、功能丰富的开源JavaScript库，用于构建移动友好的交互式地图。在本文中，我们将探讨如何利用Leaflet.js在地图上绘制一个固定尺寸的长方形，扩展我们之前实现的单个多边形绘制功能。背景我们已经实现了一个功能，允许用户在地图上绘制任意形状的多边形。现在，我们希望在此基础上增加一个新功能：用户可以
asp.net core的入门教学 21软件外包1班-庞兴南 asp.net 后端
什么是ASP.NETCoreasp.netcore是一个基于HTML和ASP的动态Web开发框架，主要用于web应用程序的开发。它是一个轻量级框架，使用HTML、ASP、CSS、JavaScript等技术。它易于使用和部署，可以快速构建web应用程序。asp.netcore提供了丰富的功能，包括模板引擎、文件解析、数据处理和用户管理等。本文将介绍asp.netcore的主要功能和特点，并提供使用方
探索未来Web开发的精简之道：ASP.NET Core 8.0 Minimal API 示例项目尚舰舸Elsie
探索未来Web开发的精简之道：ASP.NETCore8.0MinimalAPI示例项目随着微服务和云原生架构的兴起，轻量级API成为了开发社区的新宠。ASP.NETCore8.0MinimalAPIExample正是这样一个项目，它集成了最新技术栈，简化了API开发过程，让开发者能够以最少的代码实现强大的功能。本文将带你深入了解这一开源杰作，揭示其技术魅力，并探索其应用场景。项目介绍ASP.NET
Servlet 文件上传 lly202406 开发语言
Servlet文件上传在JavaWeb开发中，文件上传是一个常见的需求。Servlet作为一种服务器端的技术，可以轻松实现文件上传功能。本文将详细介绍如何在Servlet中处理文件上传，包括环境配置、代码实现以及常见问题的解决方案。环境配置1.添加依赖在项目的pom.xml文件中，添加ApacheCommonsFileUpload库的依赖。这个库提供了易于使用的API来处理文件上传。commons
异步任务处理：FastAPI结合Celery的实战典范赖蓉旖Marlon
异步任务处理：FastAPI结合Celery的实战典范fastapi-celeryExampleofhowtohandlebackgroundprocesseswithFastAPI,Celery,andDocker项目地址:https://gitcode.com/gh_mirrors/fas/fastapi-celery在现代Web开发中，异步处理和后台任务调度成为了提高应用性能与响应速度的关键
前后端时间转换的那些常见问题及处理方法繁依Fanyi 状态模式 python 算法 java 开发语言 android github
在现代的Web开发中，前后端分离的架构已经成为主流，尤其是在SpringBoot和Vue.js的组合中。开发者在这种架构下经常遇到的一个问题就是如何处理时间的转换和显示。前端和后端对时间的处理方式不同，可能会导致时间在传递过程中出现问题，比如时区不同步、格式不一致等。因此，本文将详细讨论在SpringBoot+Vue前后端分离架构中如何处理时间转换问题，并提供一些解决方案。一、前后端时间处理的常见
HTML/CSS/JavaScript 全景指南：构建现代Web应用的基石一杯梅子酱技术栈学习前端 html css
引言：在Web开发中，HTML、CSS和JavaScript是三个不可或缺的技术，它们共同构成了前端开发的核心。本文旨在全面解析这三个技术的关键知识点，探讨它们之间的联系，并通过实际案例加深理解，最后分享一些宝贵的经验总结。一、HTML：内容的骨架1.基本结构标签的使用：,,文本内容：,至链接与图像：,列表：,,表格：,,,表单：,,,,2.语义化标签,,,,,3.案例创建一个简单的网页：Html
Java 学习路线：适合小白的超细学习路线及实例代码 Dreams°123 后端 java eclipse jvm spring tomcat ide intellij-idea
Java学习路线：适合小白的超细学习路线及实例代码一、入门基础1.1、Java基础语法1.2、面向对象编程(OOP)二、核心Java编程2.1、数据结构和算法基础2.2、输入输出(I/O)三、进阶Java编程3.1、多线程编程3.2、网络编程四、高级应用4.1、数据库编程4.2、Web开发4.3、框架与库五、实践项目与进阶学习（留作业啦）5.1、实践项目5.2、持续学习一、入门基础1.1、Java
11- 【JavaWeb】Cookie 、Session、Filter、Listener weixin_44329069 JavaWeb hive python hadoop
了解Cookie、Session、Filter和Listener是JavaWeb开发中非常重要的部分。1.CookieCookie是服务器在客户端浏览器上存储的小数据片段，用于在不同请求之间保持状态。Cookie通常用于保存用户信息、跟踪会话、保存用户偏好等。示例：创建和读取Cookie设置Cookie（在Servlet中）：@WebServlet("/setCookie")publicclass
Rust在Web开发中的并发模型编程小智星网络
Rust是一种系统编程语言，以其高效、安全和并发性而著称。随着Web应用规模的不断扩大和复杂性的增加，对并发处理能力的需求也日益突出。Rust作为一种新兴的编程语言，在Web开发中展现出了强大的并发处理能力。本文将深入探讨Rust在Web开发中的并发模型，分析其核心特性以及如何在Web应用中发挥优势。一、Rust并发模型概述Rust的并发模型主要基于其独特的所有权系统和无锁数据结构。所有权系统通过
【Python百日进阶-Web开发-Peewee】Day295 - 查询示例（四）聚合1 岳涛@心馨电脑 Dash python 前端 dash
文章目录14.6聚合14.6.1计算设施数量Countthenumberoffacilities14.6.2计算昂贵设施的数量Countthenumberofexpensivefacilities14.6.3计算每个成员提出的建议数量。Countthenumberofrecommendationseachmembermakes.14.6.4列出每个设施预订的总空位Listthetotalslots
二整合web开发 guideEmotion
一整合Servlet1通过注解扫描完成Servlet组件的注册1.编写servlet@WebServlet(name="FirstServlet",urlPatterns="/first")publicclassFirstServletextendsHttpServlet{@OverrideprotectedvoiddoGet(HttpServletRequestreq,HttpServletRe
【Python百日进阶-Web开发-Peewee】Day289 - Peewee 的扩展（九）pwiz / 架构迁移（上）岳涛@心馨电脑数据库 python dash 前端
文章目录13.15pwiz,模型生成器13.15.1命令行选项13.16架构迁移SchemaMigrations13.16.1示例用法13.16.2支持的操作13.15pwiz,模型生成器pwiz是peewee附带的一个小脚本，能够自省现有数据库并生成适合与底层数据交互的模型代码。如果您已经有一个数据库，pwiz可以通过生成具有正确列关联和外键的骨架代码来给您一个很好的提升。如果您使用安装peew
10个非常基础的 Javascript 问题 2401_86367399 面试辅导大厂内推 javascript 开发语言 ecmascript
作者简介：CSDN全栈领域优质创作者、HDZ核心组成员粉丝福利：粉丝群每周送6-9本书，不定期送各种小礼品（往期获奖记录）直接跳到末尾去评论区领书本文特别适合正在寻找Javascript开发工作的初学者。我搜索了许多Javascript面试问题，这10个对我来说似乎最重要。让我们深入研究一下。1.什么是Javascript？Javascript是一种用于Web开发的编程语言。JavaScript在
在JavaScript中实现简单的发布/订阅模式 2401_85812053 javascript 开发语言 ecmascript
在现代Web开发中，发布/订阅模式是一种常见的设计模式，它允许不同部分的应用程序之间进行解耦和通信。这种模式特别适用于事件驱动的编程模型，能够有效地管理复杂的交互和数据流。本文将详细介绍如何在JavaScript中实现一个简单的发布/订阅模式，包括其工作原理、实现步骤以及实际应用示例。1.理解发布/订阅模式发布/订阅模式是一种消息传递模式，允许对象之间进行通信而不需要彼此直接引用。它主要由两个角色
Gateway Timeout504: 网关超时的完美解决方法潘多编程 gateway
引言在Web开发中，遇到HTTP状态码504（GatewayTimeout）是相当常见的。这个状态码表示前端服务器（如负载均衡器或代理服务器）作为网关工作时，在尝试访问后端服务器处理请求时未能及时得到响应。本文将探讨导致504错误的原因以及如何有效地诊断和解决这类问题。GatewayTimeout是什么？HTTP状态码504表示前端服务器已经收到了客户端的请求，并且知道应该由哪个后端服务器来处理该
移动WEB开发（第四天）__响应式布局加蓓努力我先飞 5.移动web开发资料前端
移动WEB开发（第四天）__响应式布局移动端WEB开发之响应式布局1.0响应式开发原理1.1响应式开发原理1.2响应式布局容器2.0bootstrap的介绍2.1Bootstrap简介2.2bootstrap优点2.3版本简介2.4bootstrap基本使用2.5bootstrap布局容器2.6bootstrap栅格系统3.0阿里百秀案例制作3.1技术选型移动端WEB开发之响应式布局1.0响应式开
如何优化PHP的数据库查询性能提高自己的动手能力？ xiaohuojian1 数据库 php oracle
如何优化PHP的数据库查询性能：提升动手能力与技术基础在Web开发中，数据库是应用程序的核心组成部分。优化数据库查询性能不仅可以显著提高应用的响应速度，还能提升用户体验和系统的可扩展性。本文将探讨如何在PHP中优化数据库查询性能，包括高效查询编写、https://github.com/xhj3/索引使用、缓存策略以及性能监控。1.编写高效的SQL查询编写高效的SQL查询是提升数据库性能的第一步。以
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟

使用WebCollector爬虫框架进行微信公众号文章爬取并持久化

你可能感兴趣的:(WEB开发)