coder1479

简单爬虫设计（一）——基本模型

目录

什么是爬虫程序？
爬虫软件设计
- 起始网址（Start URLs）
- 链接（Link）
- 网页（Webpage）
- 遍历规则（Crawling Rule）
- 爬取范围（Crawling Scope）
- 处理范围（Processing Scope）
- 爬取任务（Crawling Task）
- 爬虫（Crawler）
- 待采集链接集合（Target Links）
- 已采集链接集合（Fetched Links）
- 下载器（Downloader）
代码示例
- 基本构造模块
- 爬虫构建过程
- 爬虫控制过程
小结
继续阅读

本系列文章记录了一个简单的网页爬虫的设计过程，设计过程主要采用面向对象设计思想。下面开始正式内容。

一个简单的爬虫一般由网页爬取（Crawler）和网页解析（Parser）两部分组成。这个系列，主要讨论网页爬取部分的设计。

什么是爬虫程序？

简单来说，爬虫程序就是从起始网址开始，按照某种规则遍历目标网站，并处理特定网页的程序。

爬虫软件设计

从爬虫程序的工作内容，大概可以梳理出以下概念。

起始网址（Start URLs）

起始网址是爬虫程序最先爬取的网址，是一次爬取任务的入口，入口可以有多个，一般会选择网站主页或者链接列表页作为入口。

链接（Link）

包括链接文字，URL，链接深度，父URL，起始网址是深度为0链接。

网页（Webpage）

对于简单爬虫，网页可以抽象为链接的集合和HTML文件，因为简单爬虫不对HTML包含的媒体内容进行信息抽取。

对于需要抽取特定网页信息的爬虫，根据抽取内容不同，需要对网页进行不同的抽象。比如抽取网页元数据的爬虫，需要解析HTML文件的所有meta标签信息；抽取关联数据（Linked Data）的爬虫，可能需要解析网页内部的json-ld；抽取视频内容的爬虫，需要关注视频标题、作者、视频链接、视频长度，还要下载视频文件。

网页是一个HTML文件，HTML的英文全称是 Hyper Text Markup Language，即超文本标记语言，超文本的含义是除了文本，还可以包含多种类型媒体内容。

遍历规则（Crawling Rule）

遍历规则由用户设置，这些规则决定了爬虫访问哪些链接。

例如，如果要采集某个网站的所有网页，那么遍历规则就是该网站域名下的所有链接。如果要便利某个网站的特定频道，遍历规则就要限定为某个字域名或者特定的父路径。如果只采集某个页面内的链接，那么遍历规则就要控制链接深度（如果规定起始URL深度为0，那么这里就要设置链接深度为1）。有时候，还需要采集并保存包含特定特征的网页，比如包含正文详情的页面。

从上面的分析，发现遍历规则这个概念可以细分为爬取范围和处理范围，爬取范围还包含了起始网址的概念。

爬取范围（Crawling Scope）

起始网址和遍历规则实际上约束了爬虫的爬取范围，可以对这个概念显示建模。爬取范围包括：

起始网址
要遍历的链接深度
要遍历的链接特征
最大遍历链接数量
是否只采集域名内链接

处理范围（Processing Scope）

需要后续处理的链接和网页规则，包括：

URL特征
网页内部特征
最多处理网页数量

有了上面这些基础要素，就很容易定义一个爬取任务了。

爬取任务（Crawling Task）

爬取任务应该至少包含如下信息：

任务名称和ID
爬取范围
处理范围
任务调度约束
网页保存位置
其他所需的信息

爬虫（Crawler）

爬虫负责采集过程的控制。

输入，是一个爬取任务，包含了爬虫运行所需的基本信息和控制信息。
输出，是网页集合，这些网页可能需要保存到文件系统或者数据库中。
在采集过程中，需要根据爬取任务下载网页，同时满足采集间隔、采集总网页数等限制条件。因为网页之间链接关系构成了一张图，为了不重复地遍历这些网页，爬虫内部要维护待采集链接和已采集链接的集合，还要选择一种遍历方式：深度优先或者广度优先。

待采集链接集合（Target Links）

爬虫从每个网页内收集链接，把需要采集的链接放入待采集集合中。

已采集链接集合（Fetched Links）

爬虫把已经遍历过的链接放入已采集链接的集合，这样可以避免对相同链接进行重复采集。

下载器（Downloader）

爬虫遍历网页时，需要使用网页下载器，通常是一个Http客户端，有些场景需要通过代理访问目标网站。

代码示例

有了上述这些基本要素，就可以开始组装一个简单的网页爬虫了。

基本构造模块


public class Link {
    String url;
    int depth;
    //getter setter
}

public class Webpage {
    Set<Links> links;
    String html;
    //getter setter
}

interface CrawlingScope {  //爬取范围
    //起始网址
    List<String> getStartUrls();
    //哪些URL会继续爬取
    boolean contains(Link link);
    //最多爬取多少个链接
    long maxToCrawl();
    //爬取的最大深度
    int getMaxHops();
}

interface ProcessingScope {  //处理范围
    //某个网页是否要被处理
    boolean contains(Webpage webpage);
    //最多处理多少个网页
    long maxToProcess();

    long maxToProcessPerSubDomain();
}

interface TargetLinks {  //待采集链接集合

    void add(Link link);

    long size();

    Link next();

    void clear();
}

interface FetchedLinks {  //已采集链接集合

    boolean contains(Link link);

    void add(Link link);

    long total();

    void clear();
}

class CrawlingTask {  //爬取任务
    String name;
    private boolean enable;
    CrawlingScope crawlingScope;
    ProcessingScope processingScope;

}

interface Crawler {  //爬虫
    void crawl();
}

爬虫构建过程

主要是把CrawlingTask中的约束传递给Crawler。

//示意代码，忽略了部分实现细节
public class CrawlerBuilder {

    public Crawler build(CrawlingTask task) {
        CrawlerImpl crawler = new CrawlerImpl();
        //其他信息略...
        crawler.setCrawlingScope(task.getCrawlingScope());
        crawler.setProcessingScope(task.getProcessingScope());

        TargetLinksImpl targets = new TargetLinksImpl();
        targets.addAll(task.startUrls());
        crawler.setTargetLinks(targets);

        FetchedLinksImpl fetched = new FetchedLinksImpl();
        crawler.setFetchedLinks(fetched);
        
        return crawler;
    }
}

爬虫控制过程

//示意代码，忽略了部分实现细节
public class CrawlerImpl implements Crawler {
     
    public void crawl() {
        Link target = null;
        while (null != (target = targetLinks.next())) {
            try {
                fetchAndProcess(target);
                if (this.fetchedLinks.total() >= crawlingScope.maxToCrawl()) {
                    return;
                }
                TimeUnit.MILLISECONDS.sleep(this.crawlDelay);
            } catch (Exception e) {
                //处理错误信息，略
            }
        }
    }
}

private void fetchAndProcess(Link target) {
        //不在爬取范围内，略过
        if (!this.crawlingScope.contains(target)) {
            return;
        }
        //已经爬取过，略过
        if (target.getDepth() > 0 && this.fetchedLinks.contains(target)) {
            return;
        }
        
        Webpage webpage = fetch(target);  //下载网页

        if (processingScope.contains(webpage)) {
            webpageRepository.add(webpage);  //保存网页
        }

        Links allLinks = webpage.links();
        for (Link link : allLinks) {
            if (this.crawlingScope.contains(link) && 
                !this.fetchedLinks.contains(link)) {
                targetLinks.add(link);  //保存链接
            }
        }
        //当前链接为放入已采集集合
        this.fetchedLinks.add(target);
    }

更新：在后续文章中对上面的这段代码进行了重构，控制逻辑更加清晰。
简单爬虫设计（五）——重构控制流程

小结

通过这篇文章，大概描述了一个简单爬虫的建模过程。后续文章将对爬虫的各个组成部分的实现细节进行介绍。

继续阅读

简单爬虫设计（二）——爬取范围

简单爬虫设计（三）——需要处理的网页范围

简单爬虫设计（四）——管理爬虫内部状态

简单爬虫设计（五）——重构控制流程

你可能感兴趣的:(软件设计,设计模式,java,爬虫)

Python 爬虫实战：舞台剧与演出信息获取西攻城狮北 python 爬虫开发语言
作为一名对文化艺术活动和数据获取感兴趣的内容创作者，我决定利用Python爬虫技术抓取舞台剧与演出信息。这对于文艺爱好者、文化活动组织者以及相关研究人员来说，是一个极具价值的探索。一、项目背景舞台剧和各类演出活动丰富了人们的精神文化生活。许多城市都有专业的演出场馆，如国家大剧院、上海大剧院等，它们会定期发布演出信息。通过爬虫技术，我们可以自动化地获取这些演出信息，方便用户查询和分析。二、技术选型在
Vue——Vue-cli脚手架+前端路由 pdsu_zhao Vue Vue学习之旅 vue v-router v-resource vue-cli ES6
Vue-cli是Vue的脚手架工具可以进行目录结构、本地调试、代码部署、热加载、单元测试1、MVVM框架View——ViewModel——Model（视图）（通讯）（数据）“DOM”“观察者vue实例”“Javascript”注意：交互为双向的特点：（1）针对具有复杂交互逻辑的前端应用；（2）提供基础的架构抽象；（3）通过Ajax数据持久化，保证前端用户体验。2、什么是Vue.js它是一个轻量级M
AsyncHttpClient使用说明书有梦想的攻城狮 netty学习专栏 Java asynchttpclient 异步处理 netty
[[toc]]AsyncHttpClient（AHC）是一个高性能、异步的HTTP客户端库，广泛用于Java和Scala应用中，特别适合处理高并发、非阻塞的HTTP请求。它基于Netty或Java原生的异步HTTP客户端实现，支持HTTP/1.1和HTTP/2协议，适用于微服务、API调用、爬虫等场景。1.核心特性特性说明异步非阻塞基于事件驱动模型，避免线程阻塞，支持高并发（如每秒数千请求）。HT
Java的包结构 MingDong523 笔记
Java的包结构类就相当于文件夹(目录)。包结构的作用一般有以下两个方面第一个就是Java的包是根据Java文件的功能和性质来区分，方便区分和查找另一个就是重复的文件名可以存在于不同的包(文件夹)里。当我们选择去创建Java包时有两种创建方式，其中一种就是手动创建，手动创建包太过繁琐，不推荐。而另一种就是使用代码去创建(打包语句package)，当我们使用打包语句时要注意一下几点1.在写packa
Java中String类型的20个方法 MingDong523 笔记
根据长度来使用的方法：返回类型：int方法签名：String.length()作用：用来计算String中字符的个数根据数组来使用的方法：返回类型：byte类型的数组byte[]方法签名：String.getBytes()作用：将String类型转换成byte类型的数组返回类型：char类型的数组char[]方法签名：String.toCharArray()作用：将String类型转变成char类
深入浅出：序列化与反序列化的全面解析进击的小白菜一些开发常识开发语言开发常识
文章目录1.引言2.什么是序列化？2.1为什么需要序列化？3.什么是反序列化？3.1反序列化的重要性4.序列化与反序列化的实现4.1JSON(JavaScriptObjectNotation)4.2XML(eXtensibleMarkupLanguage)4.3ProtocolBuffers(Protobuf)4.4MessagePack5.安全性考虑6.性能优化7.结论附录：常见问题解答Q1:什
Android 使用设计模式：装饰者设计模式，对功能进行封装升级，学会可以让我们的代码更加的简洁。前期后期设计模式 android 设计模式
一、前言我遇到什么问题要使用装饰者设计模式？看源码的时候：我们发现明明ui有一个功能，但是在这个ui类找不到，后来发现，这个ui被当做一个参数传递到了一个类里面，后来才在这个类里找到了这个功能。突然醍醐灌顶，这不就是装饰者设计模式吗？写代码的时候：如果我们想给一个功能增加新的东西，可以借助装饰者设计模式来装饰，如果不需要则可以把这个方法去掉，非常的简洁和优雅，并且新增的功能放到了另外一个类里面，也
Java高频面试之集合-13 牛马baby 面试职场和发展 java 哈希算法 HashMap
hello啊，各位观众姥爷们！！！本baby今天来报道了！哈哈哈哈哈嗝面试官：为什么hash函数能降哈希碰撞？哈希函数通过以下核心机制有效降低碰撞概率，确保不同输入尽可能映射到不同的哈希值：一、设计原理与数学基础均匀分布（UniformDistribution）目标：使任意输入经过哈希计算后，结果在输出空间中均匀分布。数学方法：利用模运算、位操作等，确保输入变化时哈希值的变化无规律。示例：#简单哈
Java高频面试之集合-08 牛马baby java 面试 python
hello啊，各位观众姥爷们！！！本baby今天来报道了！哈哈哈哈哈嗝面试官：详细说说CopyOnWriteArrayListCopyOnWriteArrayList详解CopyOnWriteArrayList是Java并发包（java.util.concurrent）中提供的线程安全列表，基于“写时复制”（Copy-On-Write）机制实现。它适用于读多写少的高并发场景，如事件监听器列表、配置
Java高频面试之集合-02 牛马baby java 面试开发语言
hello啊，各位观众姥爷们！！！本baby今天来报道了！哈哈哈哈哈嗝面试官：说说队列queueJava队列（Queue）详解队列（Queue）是Java集合框架中一种先进先出（FIFO）的线性数据结构，广泛应用于生产者-消费者模型、任务调度、线程池等场景。Java提供了丰富的队列实现，涵盖线程安全、阻塞、优先级等特性。一、队列的核心接口与操作Java队列的顶层接口是java.util.Queue
Java高频面试之集合-07 牛马baby java 面试开发语言
hello啊，各位观众姥爷们！！！本baby今天来报道了！哈哈哈哈哈嗝面试官：ArrayList和Vector的区别是什么？ArrayList与Vector的区别详解ArrayList和Vector都是Java中基于动态数组实现的List接口的实现类，但它们在设计、性能和线程安全性上有显著差异。以下是两者的核心区别：1.线程安全性特性ArrayListVector线程安全非线程安全（方法未同步）线
Java高频面试之SE-23 牛马baby java 面试 windows
hello啊，各位观众姥爷们！！！本baby今天又来了！哈哈哈哈哈嗝Java中的Stream是Java8引入的一种全新的数据处理方式，它基于函数式编程思想，提供了一种高效、简洁且灵活的方式来操作集合数据。Stream的核心思想是声明式编程（告诉程序“做什么”，而不是“怎么做”）。1.Stream的核心特点无存储：Stream不存储数据，只是对数据源的视图（如集合、数组、I/O通道等）。函数式操作：
2025计算机毕设全流程实战指南：Java/Python+协同过滤+小程序开发避坑手册启点毕设课程设计 java python 大四论文指南查重降重技巧毕业设计 spring
技术框架的选择是项目开发的关键起点，直接影响开发效率和最终成果质量。然而，许多开发者在选择技术框架时面临困难：现有知识储备不足以支撑复杂项目需求，团队经验有限，框架选择缺乏前瞻性常导致后期问题。尽管技术框架的选择过程充满挑战，但合适的框架能为项目开发和维护奠定基础，而不当的选择则可能带来持续的技术债务和开发困扰。所以，建议对项目技术框架把握不好的同学，最好是找自己的研究生学长或者老师详细的把关机技
linux服务器上的项目读取本地文件,java访问linux服务器读取文件路径防晒霜白癜风患者
java访问linux服务器读取文件路径内容精选换一换通过ADC将文件传输到Host。参见准备环境完成环境配置。以运行用户登录安装Toolkit组件的服务器。执行命令，将A.java文件传输到Host的指定路径下。adc--hostxx.xx.xx.xx:22118--sync/tmp/A.java"~/ide_daemon"将xx.xx.xx.xx替换为实际的Host的IP地址。如果Conv2D
[0948]基于JAVA的城市路网智慧管理系统的设计与实现阿鑫学长【毕设工场】 java python 人工智能毕业设计课程设计
毕业设计（论文）开题报告表姓名学院专业班级题目基于JAVA的城市路网智慧管理系统的设计与实现指导老师（一）选题的背景和意义开题报告背景与意义：随着我国城市化进程的加快，城市路网系统日益庞大复杂，交通管理面临的挑战愈发严峻。传统的路网管理模式由于信息更新不及时、数据处理效率低下、智能化程度不足等问题，已无法满足现代城市管理对高效、精准、智能交通管理的需求。因此，设计并实现一套基于Java的城市路网智
45-JavaEE 开发中的动态代理与序列化技术只不过是胆小鬼罢了 WEB安全开发 java
在JavaEE开发领域，动态代理与序列化技术是两个关键知识点，它们在很多场景下发挥着重要作用。以下是对这两部分知识的深入探讨。动态代理代理模式概述代理模式是Java中常用的设计模式之一，其核心思想是代理类与委托类实现相同的接口。代理类的主要职责是为委托类进行预处理、消息过滤、转发消息以及事后处理等操作。这种模式在很多场景下都有应用，比如权限控制、日志记录、事务管理等。JDK动态代理实现步骤创建接口
Electron打包文件生成.exe文件打开即可使用糕冷小美n electron javascript 前端
1、Electron打包，包括需要下载的内容和环境配置步骤注意：Electron是一个使用JavaScript、HTML和CSS构建跨平台桌面应用程序的框架首先需要电脑环境有Node.js和npm我之前的文章有关nvm下载node的说明也可以去官网下载检查是否有node和npm环境命令node-vnpm-v输出版本号，说明安装成功2、创建Electron项目2.1创建项目目录打开命令行工具，创建一
JavaScript基础-事件对象難釋懷 javascript 开发语言
在现代Web开发中，事件处理是实现动态和交互式网页的核心。当用户与页面进行交互时（如点击按钮、提交表单等），浏览器会生成相应的事件。为了有效地响应这些事件，JavaScript提供了事件对象，它包含了关于事件的详细信息。本文将详细介绍事件对象的概念、重要的属性和方法，并通过实例展示其应用场景。一、什么是事件对象？每当一个事件被触发时，浏览器都会创建一个事件对象，这个对象包含了该事件的所有相关信息，
Java 常用类Date 浅橙boy java 开发语言
这次介绍Java中常用类中的一种Date，一般常用的Date的包名为util即java.util.Date。还有一种Date类的包名为spl即java.spl.Date，这次不做介绍。包名为spl的Date类作用于和spl数据库打交道，其内容只包括日期，没有时间，包名为util的Date类作用于平常日期使用其内容包括日期和时间，且大部分的构造器和方法已经过时了，下面介绍的是平时还可以使用的方法和构
学习-Java常用类之Calendar类 AIains Educoder—Java java
第1关：学习-Java常用类之Calendar类任务描述相关知识编程要求测试说明任务描述本关任务：获取给定年月的最后一天。相关知识我们通过之前的学习已经能够格式化并创建一个日期对象了，但是我们如何才能设置和获取日期数据的特定部分呢，比如说小时，日，或者分钟?我们又如何在日期的这些部分加上或者减去值呢?calendar类是一个抽象类，是Java日期处理的核心类之一。Calendar类为操作日历字段，
Java基础回顾 Day5 小斌的Debug日记 Java基础回顾 java 开发语言
基础数据类型4类8种byte8位（常用流操作）short16位（运用场景不多）int32位（最常用）long64位（常用于表示时间毫秒）float32位（精度为7位，精度低）double64位（精度为15位，更常用）char16位（也可以算术运算）boolean8位（值为true或者false）基本数据类型的转换小转大为隐式转换，大转小为显式转换可能会丢失精度i++和++ii++是先取值在加1，而
Three.js世界中的三要素：场景、相机、渲染器 Front_Yue 3D技术实践指南 javascript three.js 3d
一、Three.js简介Three.js是一个基于WebGL的JavaScript库，它允许开发者在网页上创建和显示复杂的3D图形和动画，而无需用户安装任何额外的插件或软件。Three.js在Web开发中的地位非常重要，它通过提供简单直观的API，极大地降低了3D图形开发的门槛，使得开发者可以更专注于实现创意。Three.js广泛应用于游戏开发、虚拟现实、数据可视化、艺术创作等多个领域。二、场景：
【Kivy App】Pyjnius是什么？ Botiway 移动APP Kivy python
Pyjnius是一个Python库，用于在Python中访问Java类和方法，特别适用于在Kivy或其它Python应用中调用AndroidAPI。以下是Pyjnius的详细介绍、安装和使用方法：1.Pyjnius是什么？Pyjnius是一个Python-to-Java的桥接工具，允许Python代码直接调用Java类和方法。它基于JavaNativeInterface(JNI)，主要用于以下场景
代码训练day7哈希表2 徵686 散列表数据结构
1.四数相加IIleetcode454哈希表判断是否存在classSolution{//四数相加ii统计个数publicintfourSumCount(int[]nums1,int[]nums2,int[]nums3,int[]nums4){HashMapmap=newHashMapmagazine.length())returnfalse;//java字符串长度s.length()for(cha
若依集成knife4j实现swagger文档增强 Roc-xb knife4j
knife4j的前身是swagger-bootstrap-ui，为了契合微服务的架构发展,由于原来swagger-bootstrap-ui采用的是后端Java代码+前端Ui混合打包的方式,在微服务架构下显的很臃肿,因此项目正式更名为knife4j。目录一、单体版本1、ruoyi-admin\pom.xml模块添加整合依赖2、SwaggerController.java修改跳转访问地址二、前后端分离
猫头虎分享已解决Bug || java.lang.ClassNotFoundException 全解析与解决方案 AI后端已解决的Bug专栏 bug java 开发语言服务发现 rust python pip
猫头虎分享已解决Bug||java.lang.ClassNotFoundException全解析与解决方案摘要：最近有粉丝在后台留言，问到项目启动时遇到了一个经典问题：java.lang.ClassNotFoundException。这个问题看似简单，却困扰了无数开发者。今天，猫头虎以真实开发经历为背景，从Bug原因剖析到全方位解决方案，手把手带你攻克这个问题！本文涵盖了：问题原因：从类加载机制到
Android Studio 中将 AAR 包发布到 Maven 本地仓库帅次 Android Studio android studio maven android kotlin flutter gradle macos
目录1.配置build.gradle.kts（或build.gradle）2.配置publishing任务3.发布到本地Maven仓库3.1Couldnotfindmethodpublications()forarguments...3.2bash:./gradlew:Permissiondenied3.3AndroidGradlepluginrequiresJava17torun.Youarec
android视频缓存框架 [AndroidVideoCache](https://github.com/danikula/AndroidVideoCache) 源码解析与评估 MrJarvisDong third party 源码
文章目录android视频缓存框架[AndroidVideoCache](https://github.com/danikula/AndroidVideoCache)源码解析与评估引言使用方式关键类解析HttpProxyCacheServer代理缓存服务类**java.net.ProxySelector**代理选择Pinger判断本地serverSocket是否存活GetRequest封装用于获取
基于JAVA中的spring框架和jsp实现自然灾害论坛平台项目【附项目源码+论文说明】大雄是个程序员项目实践自然灾害论坛平台 java 项目源码 spring 毕业设计课程设计网页设计
摘要在上个世纪末期，也就是20世纪末，随着计算机技术的发展与进步和数据库方面的知识在互联网的大力运用，互联网技术以及网站技术在网上的大力推广，网上论坛（自然灾害论坛）也逐渐在网兴起，它的出现帮助了网上各种特定的群体进行一个在线的知识传递与信息的交流。本计算机自然灾害论坛设计，采用了JSP（JAVA）技术和MYSQL数据库开发，尝试实现了自然灾害论坛的基本功能以及帮助我们掌握了论坛技术的核心特点。该
Java架构师成长之路 hweiyu00 分享 spring 微服务 spring cloud java
概述本教程主要从6个方面，全面讲解Java技术栈的知识。1.性能调优深入理解MySQL底层原理、索引逻辑，数据结构与算法。使用Explain进行优化分析MVCC原理剖析日志机制解析2.框架源码掌握Spring底层原理带你手写一个Spring解析IOC、AOP源码、以及事务原理3.并发编程剖析Java底层锁机制CAS、JUC工具使用、AQS源码分析以及并发的集合类的讲解4.分布式开发剖析分布式中使用
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他