_清欢

Java网络爬虫之Webmagic快速入门

Webmagic简介

WebMagic是一个简单灵活的Java爬虫框架。基于WebMagic，你可以快速开发出一个高效、易维护的爬虫。

以上是webmagic的官方简介，webmagic是一个用于开发网络爬虫的Java框架，底层是httpclient和jsoup，相比httpclient和jsoup开发，webmagic具有以下优点：

简单的API，可快速上手
模块化的结构，可轻松扩展
提供多线程和分布式支持

Webmagic官网：http://webmagic.io/

Webmagic官方文档：http://webmagic.io/docs/zh/

Webmagic架构

WebMagic的结构分为Downloader、PageProcessor、Scheduler、Pipeline四大组件，并由Spider将它们彼此组织起来。这四大组件对应爬虫生命周期中的下载、处理、管理和持久化等功能。WebMagic的设计参考了Scapy，但是实现方式更Java化一些。

而Spider则将这几个组件组织起来，让它们可以互相交互，流程化的执行，可以认为Spider是一个大的容器，它也是WebMagic逻辑的核心。

WebMagic总体架构图如下：

1.Downloader

Downloader负责从互联网上下载页面，以便后续处理。WebMagic默认使用了Apache HttpClient作为下载工具。

2.PageProcessor

PageProcessor负责解析页面，抽取有用信息，以及发现新的链接。WebMagic使用Jsoup作为HTML解析工具，并基于其开发了解析XPath的工具Xsoup。

在这四个组件中，PageProcessor对于每个站点每个页面都不一样，是需要使用者定制的部分。

3.Scheduler

Scheduler负责管理待抓取的URL，以及一些去重的工作。WebMagic默认提供了JDK的内存队列来管理URL，并用HashSet集合来进行去重。也支持使用Redis进行分布式管理。

除非项目有一些特殊的分布式需求，否则无需自己定制Scheduler。

4.Pipeline

Pipeline负责抽取结果的处理，包括计算、持久化到文件、数据库等。WebMagic默认提供了“输出到控制台”和“保存到文件”两种结果处理方案。

Pipeline定义了结果保存的方式，如果你要保存到指定数据库，则需要编写对应的Pipeline。对于一类需求一般只需编写一个Pipeline。

用于数据流转的对象

1. Request

Request是对URL地址的一层封装，一个Request对应一个URL地址。

它是PageProcessor与Downloader交互的载体，也是PageProcessor控制Downloader唯一方式。

除了URL本身外，它还包含一个Key-Value结构的字段extra。你可以在extra中保存一些特殊的属性，然后在其他地方读取，以完成不同的功能。例如附加上一个页面的一些信息等。

2. Page

Page代表了从Downloader下载到的一个页面——可能是HTML，也可能是JSON或者其他文本格式的内容。

Page是WebMagic抽取过程的核心对象，它提供一些方法可供抽取、结果保存等。

3. ResultItems

ResultItems相当于一个Map，它保存PageProcessor处理的结果，供Pipeline使用。它的API与Map很类似，值得注意的是它有一个字段skip，若设置为true，则不应被Pipeline处理。

控制爬虫运转的引擎--Spider

Spider是WebMagic内部流程的核心。Downloader、PageProcessor、Scheduler、Pipeline都是Spider的一个属性，这些属性是可以自由设置的，通过设置这个属性可以实现不同的功能。Spider也是WebMagic操作的入口，它封装了爬虫的创建、启动、停止、多线程等功能。

爬虫配置Site

Site可以对爬虫进行一些配置配置，包括编码、抓取间隔、超时时间、重试次数等。

一般来说，对于编写一个爬虫，PageProcessor是需要编写的部分，而Spider则是创建和控制爬虫的入口。

快速入门Demo

1. 创建maven工程，添加如下依赖


    us.codecraft
    webmagic-core
    0.7.3


    us.codecraft
    webmagic-extension
    0.7.3

2. 编写代码，测试webmagic

编写一个页面解析器PageProcessor，实现Processor接口

package cn.lzx.magic;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.processor.PageProcessor;

public class MyPageProcessor implements PageProcessor {


    //爬虫配置信息设置
    private Site site = new Site()
            .setCharset("utf-8")    //设置编码
            .setSleepTime(1)        //设置抓取间隔
            .setTimeOut(10)         //设置超时时间
            .setRetrySleepTime(3)      //设置重试时间
            .setRetryTimes(3);       //设置重试次数



    @Override
    public void process(Page page) {

        //对抓取到的页面进行处理
        page.putField("title",page.getHtml().css(".c44380").all());

    }

    @Override
    public Site getSite() {
        return this.site;
    }
}

开启爬虫

package cn.lzx.magic;

import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.pipeline.ConsolePipeline;
import us.codecraft.webmagic.pipeline.FilePipeline;
import us.codecraft.webmagic.pipeline.JsonFilePipeline;

public class WebMagicDemo {

    public static void main(String[] args) {

        //创建爬虫
        Spider.create(new MyPageProcessor())            //将创建好的PageProcessor页面处理器交给Spider
                .addUrl("http://www.xiyou.edu.cn/xwzx/zhxw.htm")   //输入url
                //.addPipeline(new FilePipeline())          //设置结果 保存到文件
                //.addPipeline(new ConsolePipeline())         //设置结果 控制台输出
                //.addPipeline(new JsonFilePipeline())        //设置结果 以Json格式输出
                            //当没有设置结果输出时 默认控制台输出
                .thread(5)                  //设置5个线程同时执行
                .run();                   //启动爬虫

    }


}

至此，一个简单的爬虫入门程序已经完成，下面我们来看一下webmagic各组件的详细API

各组件详解

PageProcessor获取元素方式：

WebMagic里主要使用了三种抽取技术：XPath、正则表达式和CSS选择器。另外，对于JSON格式的内容，可使用JsonPath进行解析。

1. XPath

以下是获取属性class=mt的div标签，里面的h1标签的内容

page.getHtml().xpath("//div[@class=mt]/h1/text()")

2. CSS选择器

CSS选择器是与XPath类似的语言。它比XPath写起来要简单一些，但是如果写复杂一点的抽取规则，就相对要麻烦一点。

div.mt>h1表示class为mt的div标签下的直接子元素h1标签

page.getHtml().css("div.mt>h1").toString()

可是使用:nth-child(n)选择第几个元素，如下选择第一个元素

page.getHtml().css("div#news_div > ul > li:nth-child(1) a").toString()

注意：需要使用>，就是直接子元素才可以选择第几个元素

3. 正则表达式

正则表达式则是一种通用的文本抽取语言。在这里一般用于获取url地址。

抽取元素API

Selectable相关的抽取元素链式API是WebMagic的一个核心功能。使用Selectable接口，可以直接完成页面元素的链式抽取，也无需去关心抽取的细节。

在刚才的例子中可以看到，page.getHtml()返回的是一个Html对象，它实现了Selectable接口。这个接口包含的方法分为两类：抽取部分和获取结果部分。

获取结果API

当链式调用结束时，我们一般都想要拿到一个字符串类型的结果。这时候就需要用到获取结果的API了。

我们知道，一条抽取规则，无论是XPath、CSS选择器或者正则表达式，总有可能抽取到多条元素。WebMagic对这些进行了统一，可以通过不同的API获取到一个或者多个元素。

Pipeline结果保存

WebMagic用于保存结果的组件叫做Pipeline。可以通过在splider里进行设置来选择不同的结果输出，webmagic提供了控制台输出和文件输出，如果不设置，默认采用控制台输出，如果需要结果保存到数据库，需要自己写一个类去实现Pipeline接口。

Site配置信息

网页去重

在解析页面的时候，很可能会解析出相同的url地址，如果不进行处理，同样的url会解析处理多次，浪费资源。

所以我们需要有一个url去重的功能

WebMagic提供了Scheduler可以帮助我们解决以上问题。

Scheduler是WebMagic中进行URL管理的组件。一般来说，Scheduler包括两个作用：

对待抓取的URL队列进行管理。
对已抓取的URL进行去重。

WebMagic内置了几个常用的Scheduler。如果你只是在本地执行规模比较小的爬虫，那么基本无需定制Scheduler。

去重部分被单独抽象成了一个接口：DuplicateRemover，从而可以为同一个Scheduler选择不同的去重方式，以适应不同的需要，目前提供了两种去重方式。

RedisScheduler是使用Redis的set进行去重，其他的Scheduler默认都使用HashSetDuplicateRemover来进行去重。

三种URL去重方式对比：

HashSet

使用java中的HashSet不能重复的特点去重。优点是容易理解。使用方便。

缺点：占用内存大，性能较低。

Redis去重

使用Redis的set进行去重。优点是速度快（Redis本身速度就很快），而且去重不会占用爬虫服务器的资源，可以处理更大数据量的数据爬取。

缺点：需要准备Redis服务器，增加开发和使用成本。

布隆过滤器（BloomFilter）

使用布隆过滤器也可以实现去重。优点是占用的内存要比使用HashSet要小的多，也适合大量数据的去重操作。

缺点：有误判的可能。没有重复可能会判定重复，但是重复数据一定会判定重复。

你可能感兴趣的:(Java网络爬虫之Webmagic快速入门)

学习111 麋鹿叔叔学习
项目名称项目简介主要功能技术原理GitHub地址browser-use智能浏览器工具，让AI像人类一样操作浏览器，实现网页自动化网页浏览与操作、多标签页管理、视觉识别与内容提取、操作记录与重复执行、自定义动作支持、主流LLM模型支持为大语言模型服务的创新Python工具库GitHubEkoFellouAI推出的生产就绪型JavaScript框架，基于自然语言驱动创建智能代理支持所有平台，提供统一便
3.19学习总结 2402_88131930 学习
学习了Java中的面向对象的知识点完成一道算法题，找树左下角的值，错误的以为左下角只能是最底层的左节点，但指的是最底层最左边的节点
【从零开始学习JAVA】异常体系介绍 Cools0613 从0开始学Java 学习
前言：本文我们将为大家介绍一下异常的整个体系，而我们学习异常，不是为了敲代码的时候不出异常，而是为了能够熟练的处理异常，如何解决代码中的异常。异常的两大分类：我们就以这张图作为线索来详细介绍一下Java中的异常：1.Exceptions（异常）在Java中，Exception（异常）是一种表示非致命错误或异常情况的类或接口。Exception通常是由应用程序引发的，可以被程序员捕获、处理或抛出。E
程序员学商务英语之Don‘t jinx it、l have a half mind to do sth、Don‘t change the subject、Quality over quantity.. 李匠2024 英文
1463-Don'tjinxit.-别鸟鸦嘴A:Whatifitrainstheweekend?Youknow,theweather'sbeenchangeablethesedays!如果这个周末下雨怎么办?你知道，这些天的天气变化无常!B:Don'tiinxit.i'vespentalotoftimepreparingforthiscamping.lhopeitstaysfineforthewe
android sqlite 数据库简单封装示例（java） mmsx android 作业源码分享 java 数据库 android
sqlite数据库简单封装示例，使用记事本数据库表进行示例。首先继承SQLiteOpenHelper使用sql语句进行创建一张表。publicclassnoteDBHelperextendsSQLiteOpenHelper{publicnoteDBHelper(Contextcontext,Stringname,SQLiteDatabase.CursorFactoryfactory,intvers
拥抱健康养生，开启活力生活 lanlande33 生活
在快节奏的现代社会，健康养生不再是一句口号，而是我们对高品质生活的追求。它贯穿于日常的点点滴滴，对我们的身心状态有着深远影响。饮食养生是基础。秉持均衡原则，每日的餐盘应是色彩斑斓的。新鲜蔬菜富含维生素与膳食纤维，像菠菜、西兰花，助力肠道蠕动，维持身体代谢平衡；水果提供丰富果酸与天然糖分，苹果、橙子等，补充水分与营养。优质蛋白质不可或缺，瘦肉、鱼类、豆类都是上佳之选，为身体修复与生长提供原料。同时，
java工程师常用开发工具 Monika Zhang 开发工具 java
背景：最近换新电脑，记录下本岗位需要安装的软件，也顺便给大家参考，欢迎各位留言补充1JDK（JavaDevelopmentKit）JDK是Java程序员开发Java应用程序所必需的软件包。下载地址：JavaDownloads|Oracle安装配置教程：window下win10jdk8安装与环境变量的配置（超级详细）_jdk8环境变量配置-CSDN博客目前主流的JDK版本还是JAVA8查看版本命令：
PHP与Java的区别分析 Monika Zhang java 架构设计 php java 开发语言
一、语言特点php：一种的像Python的动态弱语言类型的服务器脚本语言，不需要编译代码；它是专为Web开发目的而开发和设计的，而且简单容易上手。Java：是一种通用的面向对象编程语言，属于强势优选语言类型，在执行前必须先正确编译。是面向对象的和人类可读的；支持服务器端和客户端；可用于开发独立应用程序或基于Web的应用程序，上手比PHP难。二、语法1.PHP是一种脚本语言，代码在服务器上执行，而结
Android 12.0 WiFi连接流程分析之IP地址分配流程安卓兼职framework应用工程师 android 12.0 Rom开发疑难问题分析 android tcp/ip wifi连接 ip地址分配ip
1.前言在12.0的系统rom定制化开发中，对于wifi的定制功能也是比较多的，在关于wifi连接流程模块的分析，了解整个wifi连接流程也是非常重要的，接下来看下wifi的连接流程分析下相关功能实现2.WiFi连接流程分析之IP地址分配流程的核心类frameworks/opt/net/wifi/service/java/com/android/server/wifi/ClientModeImpl
Maven简介 z迦在线 maven java
Maven简介Maven是Apache软件基金会的一个开源项目,是一个优秀的项目构建工具,它用来帮助开发者管理项目中的jar,以及jar之间的依赖关系、完成项目的编译（.java--->.class）、测试、打包（源代码--->.jar文件）和发布等工作。Maven是如何管理项目中的jar文件的？Maven简化了Java项目中的JAR文件管理，主要通过以下几个关键点：POM文件：Maven使用po
Spring系列学习之Spring Messaging消息支持 m0_74825488 面试学习路线阿里巴巴 spring linq java
英文原文：https://docs.spring.io/spring-boot/docs/current/reference/html/boot-features-messaging.html目录JMSActiveMQ支持Artemis支持使用JNDIConnectionFactory发送消息接收消息AMQPRabbitMQ支持发送消息接收消息ApacheKafka支持发送消息接收消息Kafka流
算法之魂：深入剖析数据结构中的七大排序算法 GeminiGlory 数据结构数据结构排序算法算法
目录1.冒泡排序（BubbleSort）2.选择排序（SelectionSort）3.插入排序（InsertionSort）4.希尔排序（ShellSort）5.快速排序（QuickSort）6.归并排序（MergeSort）7.堆排序（HeapSort）在计算机科学领域，排序是一项基础但至关重要的操作。无论你是处理数据库查询结果还是优化搜索效率，了解不同的排序算法及其适用场景都至关重要。本文将介
Java基础 3.22 anlogic java java 开发语言 jvm
1.break练习//1-100之内的数求和，求当和第一次大于20的当前数ipublicclassBreak01{publicstaticvoidmain(String[]args){intn=0;intcount=0;for(inti=1;i20){n=i;System.out.println("和大于20，退出循环，当前i为"+n);break;}}}}//实现登录验证，有3次机会，如果用户名
《java面向对象(5)》＜不含基本语法＞ java小白板 java 开发语言
本笔记基于黑马程序员java教程整理，仅供参考1.异常1.1异常分类1.1.1Error指系统级别的错误，程序员无法解决，不必理会1.1.2Exception（异常）分为两类：RuntimeException：运行时异常，编译时程序不会报错，运行时报错，如数组越界其他异常：编译时异常，编译时就会报错运行时异常：publicclassText{publicstaticvoidmain(String[
Oracle数据库与Java全栈开发一篇搞定（指南式教学） Aphelios380 Oracle 数据库 oracle java
一、基础操作篇1.数据定义语言（DDL）核心操作1.1表结构设计技巧--电商用户表设计示例CREATETABLEtb_users(user_idNUMBER(10)PRIMARYKEY,usernameVARCHAR2(30)UNIQUENOTNULL,passwordCHAR(32)DEFAULT'e10adc3949ba59abbe56e057f20f883e',emailVARCHAR2(5
HarmonyOS Next～HarmonyOS应用开发工具之AppGallery Connect Bruce_xiaowei 总结经验编程笔记 harmonyos 华为
HarmonyOS应用开发工具之AppGalleryConnect一、AppGalleryConnect概述1.1定位与核心价值AppGalleryConnect（AGC）是华为面向HarmonyOS开发者打造的全生命周期服务平台，作为HarmonyOS应用开发的核心工具链，提供从开发、测试、上架到运营的全流程支持。其核心价值体现在：服务集成化：聚合40+云端服务能力开发效率提升：平均缩短30%开
Javascript基础 GesLuck javascript 开发语言 ecmascript
目录1.变量声明2.基本数据类型3.复杂数据类型4.字符串方法5.对象方法6.时间方法7.条件（if）8.循环（for/while）9.遍历（forin/of）10.多选（Switch）END1.变量声明const：除非变量需要重新赋值（优先使用）——consta=true;let：需要修改值时使用{大括号内用}（其次使用）——letb="hello"var：除非维护旧代码（避免使用）——varc
Java学习------常用类String 日暮南城故里 Java学习记录 java 学习开发语言 String类
1.介绍Java中的String属于引用数据类型，Java专门在堆中准备了一个字符串常量池。我们在开发时，字符串使用的频率是很高的，因此将这些字符串放在常量池中可以省去对象的创建过程，提高效率。常量池属于一种缓存技术，缓存技术是一种可以提高程序执行效率的手段。Strings1=“hello”;Strings2=“hello”;System.out.println(s1==s2);//这里输出的结果
Python 标准库之 logging 模块 36度道 python系列学习笔记 python
1.logging模块简介在软件开发过程中，了解程序的运行状态、记录重要事件以及排查错误是至关重要的。logging模块为Python提供了灵活且强大的日志记录功能。它允许开发者控制日志的输出内容、输出位置（如文件、控制台）、日志级别（用于过滤不同重要程度的日志信息）等，帮助开发者更好地监控和调试程序。2.基本使用简单配置与输出：importlogging#配置日志基本设置logging.basi
python 标准库之 functools 模块 36度道 python系列学习笔记 python
functools模块提供了一系列用于处理函数的工具。其中，像partial可以创建一个新的可调用对象，这个对象固定了原函数的部分参数，有点像给函数穿上了“参数防护服”；reduce能对一个序列进行累积计算，就好比是一个勤劳的小会计，按顺序把序列里的数加起来或者做其他运算；wraps主要用于装饰器，它能帮助装饰器函数保留被装饰函数的元信息，比如函数名、文档字符串等，让被装饰函数“表里如一”。底层原
Eclipse 快捷键 lsx202406 开发语言
Eclipse快捷键Eclipse是一款功能强大的集成开发环境（IDE），广泛应用于Java开发领域。熟练掌握Eclipse的快捷键可以大大提高开发效率。本文将详细介绍Eclipse中一些常用的快捷键，帮助开发者更快地熟悉和使用Eclipse。1.基础操作1.1打开文件Ctrl+O：快速打开文件Ctrl+Shift+O：查找类或文件1.2保存文件Ctrl+S：保存当前文件1.3运行程序Ctrl+F
《南京日报》专题报道 | 耘瞳科技“工业之眼”加码“中国智造” 耘瞳科技科技
在江宁开发区，机器人已不再是科幻电影里的遥远想象，他们就像人类的“同事”，在工地上忙着贴砖、刷墙、搬运、检测；在体育训练场上帮助运动员矫正姿势；在医院里帮助医生发现帕金森早期征兆，在智慧工厂里与人类分工协作……作为南京市机器人产业“一核多翼”布局的“核”，江宁开发区当前聚集人工智能产业核心及上下游关联企业超百家。近日，《南京日报》走访了多家链条上的“明星企业”，耘瞳科技作为中国领先的智能检测与测量
JavaScript 箭头函数使用总结及注意事项（适合新手到进阶）我真聪明。 javascript 开发语言 ecmascript
箭头函数（=>）是ES6的核心特性之一，它简化了函数写法并改变了this的指向逻辑，但在使用时需要明确其适用场景和限制。以下是详细总结：一、箭头函数核心特点简洁语法：//传统函数constadd=function(a,b){returna+b;};//箭头函数constadd=(a,b)=>a+b;//单行省略returnconstadd=(a,b)=>{returna+b;};//多行需显式re
Linux 上安装 PostgreSQL lsx202406 开发语言
Linux上安装PostgreSQL引言PostgreSQL是一款功能强大、性能卓越的开源关系型数据库管理系统。它支持多种操作系统，包括Linux。本文将详细介绍如何在Linux系统上安装PostgreSQL，帮助您快速入门。准备工作在开始安装之前，请确保您的Linux系统满足以下条件：系统版本：Linux发行版，如Ubuntu、CentOS等。网络连接：确保您的系统可以访问互联网。用户权限：具有
Spring Boot 3.2+ 升级Mybatis-Plus 3.5.x 兼容性问题与解决方案Invalid value type for attribute ‘factoryBeanObjectT z2637305611 spring boot mybatis 后端
一、当升级遭遇滑铁卢当我们将SpringBoot升级到3.2.0+版本时，熟悉的Invalidvaluetypeforattribute'factoryBeanObjectType':java.lang.String错误突然吞噬了控制台。这个看似神秘的错误频繁出现在整合Mybatis-Plus3.5.x时，甚至会附赠Invalidbeandefinitionwithname'xxxMapper'的
JAVA泛型的作用时光呢 java windows python
‌1.类型安全（TypeSafety）‌在泛型出现之前，集合类（如ArrayList、HashMap）只能存储Object类型元素，导致以下问题：‌问题‌：从集合中取出元素时，需手动强制类型转换，容易因类型不匹配导致运行时错误（如ClassCastException）。//JDK1.4时代：非泛型示例Listlist=newArrayList();list.add("Hello");Integer
使用 React 和 Cypress 进行单元测试 pxr007 单元测试 react.js junit
每个开发人员都希望发布一个没有错误的生产应用程序。为了实现这一点，我们需要考虑如何将测试集成到我们的应用程序中。我们可以使用许多测试工具、框架和测试类型。Cypress是一个现代化的自动化测试套件。它是一个基于JavaScript的完全开源的测试框架，由Mocha和Chai等支持BDD和TDD断言样式的库构建。此外，如果您熟悉用JavaScript编写测试，那么使用Cypress会很容易。Cypr
无锁并发环形队列(Java版) 呆呆的蜗牛数据结构和算法队列 java 多线程
环形队列是顺序队列的一种。普通的顺序队列，当队列不满且tail指针移动到数组的最后位置时，就需要将数组中的元素整体向前搬移，而环形队列却不用。这就提高了入队的效率。无锁并发主要基于CAS原理，在java中Unsafe类中提供了底层的CAS操作。但是我们可以不直接操作Unsafe类，JDK提供了一系列的Atomic类来满足一般的无锁需求。importjava.util.concurrent.atom
RTOS之环形缓冲区和队列三五度 RTOS 单片机 stm32 嵌入式硬件 c语言
一、环形缓冲区（CircularBuffer）类似一个环形跑道，运动员（数据）在跑道上循环奔跑。跑道首尾相连，运动员跑到终点后又会回到起点继续跑。实际上环形缓冲区是一个固定大小的连续内存空间，用两个指针管理数据：写指针：指向下一个可以写入数据的位置。读指针：指向下一个可以读取的数据位置。当数据写到缓冲区末尾时，会自动回到开头继续写（类似“循环”），覆盖旧数据或阻止写入（取决于设计）。运行机制关键设
Stream 流中 flatMap 方法详解遇见伯灵说 Java 开发语言 java stream流
1.flatMap()到底是啥？flatMap()是Stream里的中间操作，它的作用可以分两步理解：第一步：对流里的每个元素，先**映射（转换）**成一个Stream。第二步：把多个子流拍平成一个大的扁平流。简单记忆：map()是一对一，flatMap()是一对多。️2.基础用法拆解来看个例子：Listlist=List.of("HelloWorld","JavaStream");Listres
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他