阿无，

WebMagic

介绍

WebMagic项目代码分为核心和扩展两部分。核心部分(webmagic-core)是一个精简的、模块化的爬虫实现，而扩展部分则包括一些便利的、实用性的功能。

WebMagic的设计目标是尽量的模块化，并体现爬虫的功能特点。这部分提供非常简单、灵活的API，在基本不改变开发模式的情况下，编写一个爬虫。

扩展部分(webmagic-extension)提供一些便捷的功能，例如注解模式编写爬虫等。同时内置了一些常用的组件，便于爬虫开发。

架构

WebMagic的结构分为Downloader(下载，向Scheduler要下载的地址)、PageProcessor(页面解析)、Scheduler（存放url下载队列）、Pipeline（输出到mysql,文件等）四大组件，并由Spider将它们彼此组织起来。这四大组件对应爬虫生命周期中的下载、处理、管理和持久化等功能。WebMagic的设计参考了Scapy，但是实现方式更Java化一些。

而Spider则将这几个组件组织起来，让它们可以互相交互，流程化的执行，可以认为Spider是一个大的容器，它也是WebMagic逻辑的核心

WebMagic的四个组件

1.Downloader
Downloader负责从互联网上下载页面，以便后续处理。WebMagic默认使用了Apache HttpClient作为下载工具。

2.PageProcessor
PageProcessor负责解析页面，抽取有用信息，以及发现新的链接。WebMagic使用Jsoup作为HTML解析工具，并基于其开发了解析XPath的工具Xsoup。

在这四个组件中，PageProcessor对于每个站点每个页面都不一样，是需要使用者定制的部分。

3.Scheduler
Scheduler负责管理待抓取的URL，以及一些去重的工作。WebMagic默认提供了JDK的内存队列来管理URL，并用集合来进行去重。也支持使用Redis进行分布式管理。

4.Pipeline
Pipeline负责抽取结果的处理，包括计算、持久化到文件、数据库等。WebMagic默认提供了“输出到控制台”和“保存到文件”两种结果处理方案。

Pipeline定义了结果保存的方式，如果你要保存到指定数据库，则需要编写对应的Pipeline。对于一类需求一般只需编写一个Pipeline。

架构图

Downloader从互联网下载一般用的是http请求，下载之后拿到的是一个html页面,把下载的内容封装为一个page对象

1）PageProcessor对page对象进行解析，把需要的数据封装到ResultItems中，传递给Pipeline
2）Scheduler 通过request（对url地址的封装）从PageProcesser中拿到url，Scheduler再通过request分发给downloader

Pipeline拿到ResultItems（相当于一个map），做对应的持久化

PageProcessor组件及入门案例

PageProcessor组件

PageProcessor组件是实现核心业务逻辑的组件，在使用WebMagic的使用必须要自定义PageProcessor组件。需要自定一个类实现PageProcessor接口。此接口中有两个方法需要实现一个是getSite方法，此方法需要返回一个Site对象。一个是一个是process方法，此方法没有返回值，方法有个参数是Page对象。

入门案例

依赖


<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0modelVersion>

    <groupId>com.itheimagroupId>
    <artifactId>crawler_day02_1artifactId>
    <version>1.0-SNAPSHOTversion>

    <dependencies>
        
        <dependency>
            <groupId>us.codecraftgroupId>
            <artifactId>webmagic-coreartifactId>
            <version>0.7.3version>
        dependency>
        <dependency>
            <groupId>us.codecraftgroupId>
            <artifactId>webmagic-extensionartifactId>
            <version>0.7.3version>
        dependency>
        <dependency>
            <groupId>com.google.guavagroupId>
            <artifactId>guavaartifactId>
            <version>16.0version>
        dependency>

    dependencies>

project>

代码实现

package com.itheima.webmagic;

import org.apache.commons.io.FileUtils;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.pipeline.ConsolePipeline;
import us.codecraft.webmagic.pipeline.FilePipeline;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.scheduler.BloomFilterDuplicateRemover;
import us.codecraft.webmagic.scheduler.QueueScheduler;

import java.util.BitSet;
import java.util.List;

public class MyPageProcessor implements PageProcessor {
    public void process(Page page) {

	//把数据交给Pipeline进行输出
    page.putField("content",page.getHtml().css("div#news_div ul li a",
    "text").all());

	//可以对爬虫进行一些配置
    private Site site = Site.me();

	public Site getSite() {
        return site;
    }
    
	//WebMagic使用的默认下载器是HttpClient
    public static void main(String[] args) {

        //提供自己定义的PageProcessor
        Spider.create(new MyPageProcessor())
                //设置初始下载url地址
                .addUrl("https://www.jd.com/moreSubject.aspx")
                .run();

Site对象

Site对象，可以使用Site.me()创建。
在此对象中可以对爬虫进行一些配置配置，包括编码、抓取间隔、超时时间、重试次数等。

//可以对爬虫进行一些配置
    private Site site = Site.me()
    		// 单位是秒
            .setCharset("UTF-8")//编码
            .setSleepTime(1)//抓取间隔时间,可以解决一些反爬限制
            .setTimeOut(1000 * 10)//超时时间
            .setRetrySleepTime(3000)//重试时间
            .setRetryTimes(3);//重试次数

Site对象中提供的配置方法列表：

方法	说明	示例
setCharset(String)	设置编码	site.setCharset(“utf-8”)
setUserAgent(String)	设置UserAgent	site.setUserAgent(“Spider”)
setTimeOut(int)	设置超时时间，单位是毫秒	site.setTimeOut(3000)
setRetryTimes(int)	设置重试次数	site.setRetryTimes(3)
setCycleRetryTimes(int)	设置循环重试次数	site.setCycleRetryTimes(3)
addCookie(String,String)	添加一条cookie	site.addCookie(“dotcomt_user”,“code4craft”)
setDomain(String)	设置域名，需设置域名后，addCookie才可生效	site.setDomain(“github.com”)
addHeader(String,String)	添加一条addHeader	site.addHeader(“Referer”,“https://github.com”)

page对象

Page对象是PageProcess组件中的核心对象，此对象中包含三个核心操作：

获取Downloader对象下载结果。
当我们需要从page对象中获得下载结果时，可以使用page对象的getHtml()方法。
此方法的返回结果就是一个Html对象，也可以看做把这个html页面解析之后映射成一个Html对象，Html对象实现了Selectable接口，是可以直接使用Selectable接口中提供的选择器。
向Scheduler对象中添加Request对象也就是待访问的url，
使用addTargetRequest或者addTargetRequests方法可以将解析出来的链接添加到url访问队列，系统会把url封装成Request对象供Scheduler对象使用。

3）向Pipeline对象中设置输出结果
使用putField方法可以将解析的结果添加到ResultItems对象中，将来在Pipeline对象中可以取到这个数据。

Selectable对象

抽取元素

Selectable相关的抽取元素链式API是WebMagic的一个核心功能。使用Selectable接口，可以直接完成页面元素的链式抽取，也无需去关心抽取的细节。

XPath
以下是获取属性class=mt的div标签，里面的h2标签的内容
page.getHtml().xpath("//div[@class=mt]/h2/text()")
CSS选择器
CSS选择器是与XPath类似的语言。它比XPath写起来要简单一些，但是如果写复杂一点的抽取规则，就相对要麻烦一点。
div.mt>h1表示class为mt的div标签下的直接子元素h2标签
page.getHtml().css(“div.mt>h2”).toString()。
具体规则见css选择器
正则表达式
正则表达式则是一种通用的文本抽取语言。在这里一般用于获取url地址。正则表达式学习难度要大一些。
建议不是专门用的话，不需要去专门的学。
但是如果是专业爬虫的话，很多语言是都支持正则的，并且在代码量上来说更简洁。

	//links:获取所有连接  regex:使用正则  
	// addTargetRequests添加多个url到url任务队列中
     page.addTargetRequests(page.getHtml()
    .css("#news_diva").links()
    .regex("https://www.jd.com/news.html.*3$")
    .all());

获取结果

方法	说明	示例
get()	返回一条String类型的结果	String link= html.links().get()
toString()	同get()，返回一条String类型的结果	String link= html.links().toString()
all()	返回所有抽取结果	List links= html.links().all()

使用Pipeline保存结果

在WebMagic中，Pileline是抽取结束后，进行数据处理的部分，它主要用于抽取结果的保存，也可以定制Pileline可以实现一些通用的功能。
在这里我们可以指定输出的位置，可以是控制台也可以是文件，当然也可以用户自定义Pipeline实现数据导入到数据库中。

现有的Pipeline

类	说明	备注
ConsolePipeline	输出结果到控制台	抽取结果需要实现toString方法
FilePipeline	保存结果到文件	抽取结果需要实现toString方法
JsonFilePipeline	JSON格式保存结果到文件
ConsolePageModelPipeline	(注解模式)输出结果到控制台
FilePageModelPipeline	(注解模式)保存结果到文件
JsonFilePageModelPipeline	(注解模式)JSON格式保存结果到文件想持久化的字段需要有getter方法

代码实现添加FilePipeline

//提供自己定义的PageProcessor
Spider.create(new MyPageProcessor())
//设置初始下载url地址
      .addUrl("https://www.jd.com/moreSubject.aspx")
//添加文件输出的Pipeline
	  .addPipeline(new FilePipeline("D:\\crawler"))

Scheduler组件

WebMagic提供了Scheduler可以帮助我们解决下载目标url管理的问题。

Scheduler是WebMagic中进行URL管理的组件。一般来说，Scheduler包括两个作用：

对待抓取的URL队列进行管理。
对已抓取的URL进行去重。

WebMagic内置了几个常用的Scheduler。如果你只是在本地执行规模比较小的爬虫，那么基本无需定制Scheduler，但是了解一下已经提供的几个Scheduler还是有意义的。

去重部分被单独抽象成了一个接口：DuplicateRemover，从而可以为同一个Scheduler选择不同的去重方式，以适应不同的需要，目前提供了两种去重方式。

RedisScheduler是使用Redis的set进行去重，其他的Scheduler默认都使用HashSetDuplicateRemover来进行去重。

三种去重方式

HashSet（小型爬虫）
使用java中的HashSet不能重复的特点去重。优点是容易理解。使用方便。
缺点：占用内存大，性能较低。
Redis去重（超大型爬虫，可以搭集群）
使用Redis的set进行去重。优点是速度快（Redis本身速度就很快），而且去重不会占用爬虫服务器的资源，可以处理更大数据量的数据爬取。
缺点：需要准备Redis服务器，增加开发和使用成本。
布隆过滤器（BloomFilter）（大型爬虫）
使用布隆过滤器也可以实现去重。优点是占用的内存要比使用HashSet要小的多，也适合大量数据的去重操作。
缺点：有误判的可能。没有重复可能会判定重复，但是重复数据一定会判定重复。

布隆过滤器 (Bloom Filter)是由Burton Howard Bloom于1970年提出，它是一种space efficient的概率型数据结构，用于判断一个元素是否在集合中。在垃圾邮件过滤的黑白名单方法、爬虫(Crawler)的网址判重模块中等等经常被用到。
哈希表也能用于判断元素是否在集合中，但是布隆过滤器只需要哈希表的1/8或1/4的空间复杂度就能完成同样的问题。布隆过滤器可以插入元素，但不可以删除已有元素。其中的元素越多，误报率越大，但是漏报是不可能的（重复的一定找得到，但是有可能漏抓）。原理见算法

Spider

Spider是爬虫启动的入口。在启动爬虫之前，我们需要使用一个PageProcessor创建一个Spider对象，然后使用run()进行启动。

同时Spider的其他组件（Downloader、Scheduler、Pipeline）都可以通过set方法来进行设置。

案例：爬取51job上的招聘信息

依赖

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <parent>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-parent</artifactId>
        <version>2.0.2.RELEASE</version>
    </parent>
    <groupId>com.ithiema</groupId>
    <artifactId>crawler_day02_51job</artifactId>
    <version>1.0-SNAPSHOT</version>


    <properties>
        <java.version>1.8</java.version>
    </properties>

    <dependencies>
        <!--SpringMVC-->
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-web</artifactId>
        </dependency>

        <!--测试组件-->
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-test</artifactId>
        </dependency>

        <!--SpringData Jpa-->
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-data-jpa</artifactId>
        </dependency>

        <!--MySQL连接包-->
        <dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
        </dependency>

        <!--WebMagic核心包-->
        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-core</artifactId>
            <version>0.7.3</version>
            <exclusions>
                <exclusion>
                    <groupId>org.slf4j</groupId>
                    <artifactId>slf4j-log4j12</artifactId>
                </exclusion>
            </exclusions>
        </dependency>
        <!--WebMagic扩展-->
        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-extension</artifactId>
            <version>0.7.3</version>
        </dependency>
        <!--WebMagic对布隆过滤器的支持-->
        <dependency>
            <groupId>com.google.guava</groupId>
            <artifactId>guava</artifactId>
            <version>16.0</version>
        </dependency>

    </dependencies>
</project>

JobPageProcessor

package com.itheima.wuyijob.crawler;

import com.itheima.wuyijob.pojo.JobInfo;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.scheduling.annotation.Scheduled;
import org.springframework.stereotype.Component;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.selector.Html;

import java.util.List;

@Component
public class JobPageProcessor implements PageProcessor {

    @Autowired
    private JpaPipeline jpaPipeline;

    // 测试代码
//    String url = "https://www.jd.com/news.html?id=38673";
    String url = "https://search.51job.com/list/010000,000000,0000,32%252C38,9,99,java,2,1.html?" +
        "lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99" +
        "&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=";

    @Override
    public void process(Page page) {
        // 测试代码
//        page.putField("content",page.getHtml().css("div.mt h1","text").all());

        // 获取列表页的职位详情url
        List<String> urlList = page.getHtml().css("div#resultList div.el p.t1").links().all();
//        urlList.forEach(e -> System.out.println(e));

        // urlList没有值，页面是职位详情页，如果有值，是职位列表页
        if (urlList.size()>0){
            // 把职位详情url放到url管理列表中
            page.addTargetRequests(urlList);
            // 获取下一页的地址,到这就一直不会停，会一直下一页，具体原因参考csdn架构图
            page.addTargetRequests(page.getHtml().css("li.bk").links().all());
        }else {
            // 解析页面并存放结果到ResultItems里
            parseJobInfo(page);
        }
    }

    private void parseJobInfo(Page page) {
        // 创建职位详情对象，用来存放解析的数据
        JobInfo jobInfo = new JobInfo();
        // 解析页面获取数据
        Html html = page.getHtml();
        jobInfo.setJobName(html.css("body > div.tCompanyPage > div.tCompany_center.clearfix > div.tHeader.tHjob > div > div.cn > h1","text").get());
        jobInfo.setSalary(html.css("body > div.tCompanyPage > div.tCompany_center.clearfix > div.tHeader.tHjob > div > div.cn > strong","text").get());
        jobInfo.setCompanyName(html.css("body > div.tCompanyPage > div.tCompany_center.clearfix > div.tHeader.tHjob > div > div.cn > p.cname > a.catn","text").get());
        jobInfo.setJobAddr(html.css("body > div.tCompanyPage > div.tCompany_center.clearfix > div.tHeader.tHjob > div > div.cn > p.msg.ltype","text").get());
        jobInfo.setJobInfo(html.css("body > div.tCompanyPage > div.tCompany_center.clearfix > div.tCompany_main > div:nth-child(1) > div","text").get());
        jobInfo.setUrl(page.getUrl().toString());
        // 封装好的职位详情数据存放到resultItems中
        page.putField("jobInfo",jobInfo);
    }

    // 添加定时任务配置
    // initialDelay，项目启动成功后，多久执行任务，单位毫秒
    // fixedDelay，任务执行完成后，间隔多久下一次任务执行，单位毫秒
    @Scheduled(initialDelay = 1000, fixedDelay = 10000)
    public void run(){
        Spider.create(new JobPageProcessor())
        // 使用自定义的PipeLine保存数据
        .addPipeline(jpaPipeline)
        .addUrl(url)
        .thread(20)
        .run();
    }

    private Site site = Site.me()
            .setTimeOut(10*  1000); // 超时10s

    @Override
    public Site getSite() {
        return site;
    }
}

JpaPipeline

package com.itheima.wuyijob.crawler;

import com.itheima.wuyijob.pojo.JobInfo;
import com.itheima.wuyijob.service.JobInfoService;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.stereotype.Component;
import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.pipeline.Pipeline;

/**
 * 实现PipeLine和使用定时器
 */
@Component
public class JpaPipeline implements Pipeline {

    @Autowired
    private JobInfoService jobInfoService;

    @Override
    public void process(ResultItems resultItems, Task task) {
        // 获取职位数据
        JobInfo jobInfo = resultItems.get("jobInfo");


        if (jobInfo!=null){
                jobInfoService.save(jobInfo);
        }
    }
}

代理的使用

有些网站不允许爬虫进行数据爬取，因为会加大服务器的压力。其中一种最有效的方式是通过ip+时间进行鉴别，因为正常人不可能短时间开启太多的页面，发起太多的请求。

提供两个免费代理ip的服务商网站：
米扑代理
https://proxy.mimvp.com/free.php
西刺免费代理IP
http://www.xicidaili.com/

代码实现

package com.itheima.day03.job;

import org.springframework.stereotype.Component;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.downloader.HttpClientDownloader;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.proxy.Proxy;
import us.codecraft.webmagic.proxy.SimpleProxyProvider;


public class ProxyTest implements PageProcessor {
    @Override
    public void process(Page page) {
        System.out.println("获取到的自己的ip地址是:");
        System.out.println(page.getHtml().css("center", "text").get());
    }

    private Site site = Site.me();

    @Override
    public Site getSite() {
        return site;
    }

    public static void main(String[] args) {
        //创建下载器
        HttpClientDownloader httpClientDownloader = new HttpClientDownloader();
        //设置代理服务器
        httpClientDownloader.setProxyProvider(SimpleProxyProvider.from(
                new Proxy("27.203.165.139",8060 )
        ));
        Spider.create(new ProxyTest())
                .addUrl("http://2019.ip138.com/ic.asp")
                //把设置好代理服务器的下载器进行使用
                .setDownloader(httpClientDownloader)
                .run();
    }
}

Selenium+headless浏览器实现动态爬虫

我们可以使用HttpClient模拟浏览器抓取静态html，但是对js的解析部分还是很薄弱。虽然我们可以读取js的运作机制并且找到相关数据，但是这样会耗费大量时间。为了解决这个问题我们可以使用工具来模拟浏览器的运行，直接获取解析结果。这就是使用Selenium+headless浏览器来实现动态爬虫。

例如京东商品页：先加载的一个html没有价格，加载完之后会执行js，js会发起ajax或者类似的远程调用获取价格，然后再写入html页面中的价格去。所以此时页面的价格是一般爬虫无法爬取的，它的价格是在另一个请求中。

Selenium
Selenium是一个用于Web应用程序测试的工具。Selenium可以使用代码控制浏览器，就像真正的用户在操作一样。而对于爬虫来说，使用Selenium操控浏览器来爬取网上的数据那么肯定是爬虫中的杀手武器。Selenium支持多种浏览器可以是chrome、Firefox、PhantomJS等

使用WebDriver在Chrome浏览器上进行测试时或者做页面抓取，需要从http://chromedriver.storage.googleapis.com/index.html网址中下载与本机chrome浏览器对应的驱动程序，驱动程序名为chromedriver。chromedriver的版本需要和本机的chrome浏览器对应，才能正常使用，一般情况下下载最新版就可以了。

headless浏览器(PhantomJS(这个和headless应该是等价的，但是这个已经被弃用了))
一个基于webkit内核的无头浏览器，即没有UI界面，即它就是一个浏览器，只是其内的点击、翻页等人为相关操作需要程序设计实现

使用动态爬虫爬取京东商城的完整数据

京东现在貌似增加了反爬策略，在之后爬取的过程中报sesssion错误的问题，不过不是很确定

需求分析

要爬取京东商城的完整商品数据，需要使用无头浏览器来进行数据抓取，这样就可以取到搜索结果页面的后半部分数据。（这个案例）只能爬取30个详情，具体为什么不太明白。

WebMagic框架默认使用的是HttpClient下载页面，所以我们需要把HttpClient换成无头浏览器，那么就需要定制Downloader组件。

依赖

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>
    <parent>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-parent</artifactId>
        <version>2.0.2.RELEASE</version>
    </parent>

    <groupId>com.itheima</groupId>
    <artifactId>crawler_day03_jd</artifactId>
    <version>1.0-SNAPSHOT</version>

    <dependencies>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-web</artifactId>
        </dependency>

        <!--SpringData Jpa-->
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-data-jpa</artifactId>
        </dependency>

        <!--单元测试-->
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-test</artifactId>
        </dependency>

        <!--MySQL连接包-->
        <dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
        </dependency>

        <!--WebMagic核心包-->
        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-core</artifactId>
            <version>0.7.3</version>
            <exclusions>
                <exclusion>
                    <groupId>org.slf4j</groupId>
                    <artifactId>slf4j-log4j12</artifactId>
                </exclusion>
            </exclusions>
        </dependency>
        <!--WebMagic扩展-->
        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-extension</artifactId>
            <version>0.7.3</version>
        </dependency>

        <!--selenium依赖-->
        <dependency>
            <groupId>org.seleniumhq.selenium</groupId>
            <artifactId>selenium-java</artifactId>
            <version>3.13.0</version>
        </dependency>
    </dependencies>


</project>

JdChromeDownloader

package com.itheima.cralwer.crawler;

import org.openqa.selenium.By;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.chrome.ChromeOptions;
import org.openqa.selenium.remote.RemoteWebDriver;
import org.springframework.stereotype.Component;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.downloader.Downloader;
import us.codecraft.webmagic.selector.PlainText;

@Component
public class JdChromeDownloader implements Downloader {

    //声明驱动
    private RemoteWebDriver driver;

    public JdChromeDownloader() {
        //第一个参数是使用哪种浏览器驱动
        //第二个参数是浏览器驱动的地址
        System.setProperty("webdriver.chrome.driver","C:\\Users\\Administrator\\AppData\\Local\\Google\\Chrome\\Application\\chromedriver\\chromedriver.exe");

        //创建浏览器参数对象
        ChromeOptions chromeOptions = new ChromeOptions();

        // 设置为 headless 模式,上课演示,或者学习不要打开
        // chromeOptions.addArguments("--headless");
        // 设置浏览器窗口打开大小
        chromeOptions.addArguments("--window-size=1280,700");

        //创建驱动
        this.driver = new ChromeDriver(chromeOptions);
    }

    @Override
    public Page download(Request request, Task task) {
        try {
            driver.get(request.getUrl());
            Thread.sleep(2000);

            //无论是搜索页还是详情页,都滚动到页面底部,所有该加载的资源都加载
            //需要滚动到页面的底部,获取完整的商品数据
            driver.executeScript("window.scrollTo(0, document.body.scrollHeight - 1000)");
            Thread.sleep(2000l);

            //获取页面对象
            Page page = createPage(request.getUrl(), driver.getPageSource());

            //判断是否是搜索页
            if (request.getUrl().contains("search")) {
                //如果请求url包含search,说明是搜索结果页
                //在搜索结果页,需要获取下一页的链接地址
                //点击下一页按钮,在下一页中获取当前页的url(就是下一页的url),放到任务队列中
                WebElement next = driver.findElement(By.cssSelector("a.pn-next"));
                //点击
                next.click();

                //获取当前页面(其实就是下一页)的url地址
                String nextUrl = driver.getCurrentUrl();

                //使用page对象,把下一页url放到任务列表中
                page.addTargetRequest(nextUrl);
            }

            //关闭浏览器
            //driver.close();

            return page;

        } catch (InterruptedException e) {
            e.printStackTrace();
        }


        return null;
    }

    @Override
    public void setThread(int threadNum) {

    }

    //构建page返回对象
    private Page createPage(String url, String content) {
        Page page = new Page();
        page.setRawText(content);
        page.setUrl(new PlainText(url));
        page.setRequest(new Request(url));
        page.setDownloadSuccess(true);

        return page;
    }

}

JdPageProcessor

package com.itheima.cralwer.crawler;

import com.itheima.cralwer.pojo.Item;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.selector.Selectable;

import java.util.ArrayList;
import java.util.Date;
import java.util.List;

public class JdPageProcessor implements PageProcessor {
    @Override
    public void process(Page page) {
        //System.out.println(page.getHtml().css("div.mt h1", "text"));
        //获取页面中的商品列表数据,只有搜索结果页才有商品列表
        List<Selectable> nodes = page.getHtml().css("#J_goodsList li.gl-item").nodes();

        //判断nodes是否有值
        if (nodes != null && nodes.size() > 0) {
            //如果有值表示是搜索结果页

            //声明存放商品的集合
            List<Item> itemList = new ArrayList<>();

            //遍历商品项
            for (Selectable node : nodes) {
                //获取商品spu
                String spu = node.css("li", "data-spu").get();

                //获取商品的sku,一个spu有可能有多个sku
                List<String> skuList = node.css("li.ps-item img", "data-sku").all();


                //遍历sku
                for (String sku : skuList) {
                    //创建对象
                    Item item = new Item();

                    //设置数据
                    item.setSpu(Long.parseLong(spu));
                    item.setSku(Long.parseLong(sku));
                    item.setCreated(new Date());
                    item.setUpdated(item.getCreated());

                    //放到集合中
                    itemList.add(item);

                    //把商品详情页的url放到url任务队列中
                    page.addTargetRequest("https://item.jd.com/" + sku + ".html");
                }

            }

            //把需要持久化的数据放到ResultItems中
            page.putField("itemList", itemList);


        } else {
            //如果没有值表示是商品详情页
            //创建商品对象
            Item item = new Item();
            String sku = page.getHtml().css("div.left-btns a.J-follow", "data-id").get();

            item.setSku(Long.parseLong(sku));
            item.setTitle(page.getHtml().css("div.sku-name", "text").get());
            item.setPrice(page.getHtml().css("span.p-price span.price", "text").get());
            item.setUrl(page.getUrl().toString());

            //保存到ResultItems中
            page.putField("item", item);
        }


    }

    private Site site = Site.me().setTimeOut(2000);

    @Override
    public Site getSite() {
        return site;
    }
}

JpaPipeline

package com.itheima.cralwer.crawler;

import com.itheima.cralwer.pojo.Item;
import com.itheima.cralwer.service.ItemService;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.stereotype.Component;
import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.pipeline.Pipeline;

import java.util.List;

@Component
public class JpaPipeline implements Pipeline {

    @Autowired
    private ItemService itemService;

    @Override
    public void process(ResultItems resultItems, Task task) {
        //获取商品列表页数据
        List<Item> itemList = resultItems.get("itemList");

        if (itemList != null && itemList.size() > 0) {
            itemService.saveItemList(itemList);
        }


        //获取商品详情页数据
        Item item = resultItems.get("item");
        if (item != null) {
            itemService.saveItem(item);
        }

    }
}

StartCrawler

package com.itheima.cralwer.crawler;

import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.scheduling.annotation.Scheduled;
import org.springframework.stereotype.Component;
import us.codecraft.webmagic.Spider;

@Component
public class StartCrawler {

    @Autowired
    private JdChromeDownloader downloader;
    @Autowired
    private JpaPipeline jpaPipeline;

    //声明搜索页的初始地址
    String url = "https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8" +
            "&suggest=1.his.0.0&wq=&pvid=72c93b8e6951419f83e22a7daee906d0";

    @Scheduled(cron = "0/5 * * * * *")
    public void run() {
        Spider.create(new JdPageProcessor())
                //.addUrl("https://www.jd.com/news.html?id=38673")
                .addUrl(url)
                //设置下载器
                .setDownloader(downloader)
                //设置使用jpa的输出
                .addPipeline(jpaPipeline)
                .run();
    }
}

你可能感兴趣的:(爬虫,webmejic)

【Python 开发网络爬虫抓取客户订单网站数据】局外人_Jia python 爬虫数据库开发语言字符串正则表达式
以下是使用Python开发网络爬虫抓取客户订单网站数据的完整指南，包含技术实现、注意事项和法律合规性说明：一、准备工作：法律与合规性确认合法性：检查目标网站的robots.txt文件（如https://example.com/robots.txt）。确保遵守网站的《服务条款》（TermsofService）。如果涉及用户隐私数据（如订单详情），需获得明确授权。推荐替代方案：优先使用网站提供的API
别错过！Python 爬虫微专业完结撒花，海量实战干货打包带走七七知享 Python从入门到精通 python 爬虫开发语言职场和发展程序人生学习方法改行学it
在数字化浪潮汹涌澎湃的当下，数据已然成为驱动各行业前行的关键燃料。而Python高级爬虫工程师，正是高效采集海量数据的先锋力量。微专业Python高级爬虫工程师课程重磅来袭，如今已完美收官！本课程精心搭建系统架构，从基础语法的深度剖析，到网络请求、数据解析、反爬虫策略等核心技能的传授，逐步引领学员攀登技术高峰。课堂上，讲师凭借丰富实战经验，结合前沿案例，将晦涩理论转化为生动实践，助力学员轻松掌握。
基于python的网络爬虫爬取天气数据及可视化分析 Soft_Leader python 爬虫开发语言
要创建一个基于Python的网络爬虫来爬取天气数据并进行可视化分析，我们可以采用以下几个步骤来实现：1.选择数据源首先，需要确定一个可靠的天气数据源。常用的有OpenWeatherMap、WeatherAPI、Weatherstack等。这些API通常需要注册并获取一个API密钥（APIKey）来使用。2.安装必要的库我们将使用requests库来发送HTTP请求，pandas来处理数据，matp
python 控制浏览器注入js_js注入+chrome插件爬虫 weixin_39574555 python 控制浏览器注入js
本例以http://www.biqugexsw.com/30_30505/为例页面如下(1)什么是js注入首先观察控制台例子的控制台，发现所有的链接在.linsmain下在console.log下输入Vars=$(".listmaina");for(vari=0;i便能获得所有链接这就是简单的js注入python爬虫Python简单便捷为爬虫首选语言爬取(1)中的内容并用正则表达式处理开始爬取单章
mac系统下安装pycharm 连小黑 python pycharm macos python
mac系统下安装pycharm前言Windows系统安装教程传送门链接:https://blog.csdn.net/lianxiaohei/article/details/121694126随着人工智能的不断发展，机器学习这门技术也越来越重要，也有很多人都因为做自动化，爬虫会学python，今天写的是pycharm编译器，在mac上如何安装,废话不多说，上步骤一、第一步下载示例：下载安装软件的第一
如何设置HTTP请求中的参数？数据小爬虫@ http 网络协议网络
在Java中设置HTTP请求的参数是爬虫开发中的一个常见任务。这可以通过多种方式实现，具体取决于你使用的库。以下将展示如何使用ApacheHttpClient和Java11+的HttpClient设置HTTP请求中的参数。一、使用ApacheHttpClient设置请求参数（一）添加依赖如果你使用的是Maven，可以在pom.xml文件中添加以下依赖：org.apache.httpcomponen
如何使用Java爬虫处理API接口返回的JSON数据？小爬虫程序猿 API java json 开发语言
处理API接口返回的JSON数据是Java爬虫开发中的一个常见任务。在Java中，有多个库可以帮助我们解析JSON数据，其中最流行的是Jackson和Gson。以下是使用这两个库处理JSON数据的基本步骤和示例代码。使用Jackson处理JSONJackson是一个功能强大的JSON处理库，它不仅可以将JSON字符串解析为Java对象，还可以将Java对象转换为JSON字符串。添加Jackson依
爬虫和词云一缕白烟爬虫 python numpy
目录爬虫词云1.1.引入库1.2.设置文件路径2.文本处理2.1读取文本2.2分词和过滤2.3统计词频:3.1默认颜色爬虫对于爬虫顾名思义就是爬的虫子，而对于网络上的爬虫的作用是爬取网页上的信息并且把它保存在用户的电脑中我的爬虫是由python来实现的对于python来说原始的库并不能满足对于爬虫的实现还需要添加一些额外的包比如BeautifulSoup包以及re正则包urllib包下边是添加的包
解锁数据抓取新高度：Python 分布式爬虫与逆向进阶实战课七七知享 Python从入门到精通 python 分布式爬虫数据结构个人开发职场和发展学习方法
在数据为王的当下，高效获取有价值的数据是众多开发者的核心诉求。《Python分布式爬虫与逆向进阶实战》课程，堪称数据抓取领域的宝藏指南。课程专注于前沿技术，深入剖析分布式爬虫原理，教你如何巧妙构建分布式爬虫架构，突破大规模数据爬取的效率瓶颈，让数据收集如虎添翼。同时，逆向进阶部分更是一大亮点。它带领开发者深入钻研反爬虫机制，传授如何通过逆向思维与技术手段，精准破解各类复杂的反爬策略，确保爬虫稳定运
Python网络爬虫技术：现代应用、对抗策略与伦理边界自学不成才 python 爬虫开发语言
版权声明：本文仅供学术研究和技术探讨使用。在实践中应用本文技术时，请遵守相关法律法规、网站使用条款和道德准则。作者不对读者使用本文内容产生的任何后果负责。未经授权，请勿转载或用于商业用途。引言随着互联网数据量呈指数级增长，网络爬虫技术在数据采集、市场分析、学术研究等领域扮演着越来越重要的角色。Python凭借其简洁的语法和丰富的库生态，已成为网络爬虫开发的首选语言。然而，当今网络环境下，爬虫开发者
基于springboot+vue在线小说阅读平台系统(源码+lw+部署文档+讲解等) QQ3295391197 Java毕业设计项目 spring boot vue.js 后端
前言博主介绍：✌全网粉丝10W+,CSDN特邀作者、博客专家、CSDN新星计划导师、全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌主要内容：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。精彩专栏推荐订
【python】六个常见爬虫方法介绍代码逐梦人爬虫技能晋升路线 python 爬虫开发语言
在Python中，爬虫是获取网页数据的常用工具。以下是六种常见的爬虫方法，涵盖了从简单的静态网页抓取到动态网页处理的多种场景。1.使用requests+BeautifulSoup抓取静态网页这是最基础的爬虫方法，适用于静态网页（HTML内容直接嵌入在网页中）。示例代码：python复制importrequestsfrombs4importBeautifulSoup#发送HTTP请求url='htt
c#和python更适合爬虫_为什么python适合写爬虫？（python到底有啥好的？！） weixin_39974811 c#和python更适合爬虫
我用c#,java都写过爬虫。区别不大，原理就是利用好正则表达式。只不过是平台问题。后来了解到很多爬虫都是用python写的。因为目前对python并不熟，所以也不知道这是为什么。百度了下结果：1）抓取网页本身的接口相比与其他静态编程语言，如java，c#，C++，python抓取网页文档的接口更简洁；相比其他动态脚本语言，如perl，shell，python的urllib2包提供了较为完整的访问
初学者如何用 Python 写第一个爬虫？ ADFVBM 面试学习路线阿里巴巴 python 爬虫开发语言
??欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。??博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark
通过java下载B站视频 KeepeVile Java
本项目分为以下几点获取Bvid获取Cid获取视频原始链接使用Java下载视频文件1.获取Bvid我们首先需要获取Bvid，也就是视频id，如果只想下载一个指定的视频那么直接输入Bvid即可。如果需要批量下载那么就需要程序帮我们抓取Bvid，关于如何使用爬虫爬取我们需要的信息，可以参考我的另一篇文章：通过Java爬虫实现51job申请职位的第四部分获取Bvid2.获取Cid这里我们需要用到一条api
25.3.2技术日志 MoonSunhhhhh python
任务概述当天任务：继续复习9节的爬虫内容目标与预期：复习完毕，记录知识具体编码活动实施过程：继续昨日文件第1节技术细节：1.网站后加/robots.txt是网站管理员写给爬虫的君子协定；2.requests.get(“URL”)函数用于模拟浏览器请求网页3.如果后续的代码逻辑（例如进行登录请求等操作）需要用到这些用户名和密码信息，那就需要保留和使用这个user字典4.HTTPPOST请求通常用于向
b站视频爬虫-词云分析 kaka_R-Py 多元统计分析音视频爬虫
一、设置爬虫程序#requests请求b站视频importjsonimportfake_useragentimportrequestsfromlxmlimportetreeif__name__=='__main__':#UA伪装head={"User-Agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeG
Go 语言中常用的爬虫框架和工具库 iuhart Go 笔记 golang 爬虫开发语言
以下是Go语言中常用的爬虫框架和工具库，涵盖从轻量级解析到分布式爬虫的多种场景，供参考：1.主流爬虫框架(1)CollyGitHub:https://github.com/gocolly/colly特点：轻量级、高性能，基于回调函数设计。支持分布式、速率限制、自动Cookie管理。内置HTML解析（支持CSS选择器）。适用场景：中等规模网站爬取，适合需要灵活控制的开发者。示例代码：packagem
Python爬虫实现爬取下载网站数据的几种方法 2301_79698214 python 爬虫 php
使用脚本进行下载的需求很常见，可以是常规文件、web页面、AmazonS3和其他资源。Python提供了很多模块从web下载文件。下面介绍一、使用requestsrequests模块是模仿网页请求的形式从一个URL下载文件示例代码：1234567importrequestsurl='xxxxxxxx'#目标下载链接r=requests.get(url)#发送请求#保存withopen('r.txt
Python爬虫岱宗夫up 教学 python 爬虫开发语言
python凭借其简洁的语法和强大的库支持，成为编写爬虫程序的首选语言之一。今天，我将通过一个简单的示例，带你入门Python爬虫，并展示如何爬取网页内容并保存到文本文件中。一、爬虫的基本概念爬虫（WebCrawler）是一种自动获取网页内容的程序。它模拟浏览器的行为，向目标网站发送请求，获取网页的HTML代码，然后通过解析HTML提取所需的数据。爬虫广泛应用于数据挖掘、搜索引擎优化、信息采集等领
开源AI网络爬虫工具Crawl4AI m0_74823983 面试学习路线阿里巴巴人工智能爬虫
引言在信息化时代，网络爬虫作为从互联网中提取信息的重要工具，扮演着至关重要的角色。Crawl4AI作为一款开源AI网络爬虫工具，凭借其功能强大和易用性，受到了广泛关注。本文将详细探讨Crawl4AI的定义、特点、优势，以及其具体使用和效果。一、Crawl4AI是什么？1.1定义与背景Crawl4AI是一款开源的网络爬虫框架，旨在利用人工智能技术，从互联网上自动抓取并分析数据。它不仅能处理常规的网页
Python网络爬虫：从原理到实践的全面解析九月 linux python 网络爬虫爬虫
1.什么是Python爬虫？Python网络爬虫是一种通过Python编写的自动化程序，用于从互联网上的网页、数据库或服务器中提取结构化数据。其核心功能是模拟人类浏览网页的行为，按照预设规则遍历目标网站，抓取文本、图片、链接等信息。爬虫也被称为“网页蜘蛛”或“网络机器人”，广泛应用于搜索引擎索引构建、数据挖掘等领域。2.Python爬虫的运作机制爬虫的工作流程可分为以下步骤：发送请求：通过HTTP
Python网络爬虫：从原理到实践的全面解析九月 python 爬虫开发语言网络爬虫
在信息爆炸的时代，Python网络爬虫已成为获取和分析网络数据的核心技术。它不仅能够自动化采集海量网页信息，还能通过数据挖掘创造商业价值。本文将系统讲解Python爬虫的核心概念、技术实现、应用场景及法律边界，为读者构建完整的知识框架。一、什么是Python网络爬虫？Python网络爬虫是一种自动化脚本程序，通过模拟浏览器行为访问网页，按照预设规则抓取目标数据。其核心原理是：发送HTTP请求：向目
网络爬虫全解析网安-轩逸爬虫 web安全网络安全
1.网络爬虫的认识网络爬虫是自动从互联网定向或不定向地采集信息地一种程序工具。网络爬虫分为很多类别，常见的有批量型网络爬虫、增量型网络爬虫（通用爬虫）、垂直网络爬虫（聚焦爬虫）。2.网络爬虫的工作原理通用爬虫：首先给定初始URL，爬虫会自动获取这个URL上的所有URL并将已经在爬取的地址存放在已爬取列表中。将新的URL放在队列并依次读取新的URL，依次判读是否满足所设置的停止获取的条件。聚焦爬虫：
Python 爬虫 – BeautifulSoup ONE_PUNCH_Ge python
Python爬虫（WebScraping）是指通过编写Python程序从互联网上自动提取信息的过程。爬虫的基本流程通常包括发送HTTP请求获取网页内容、解析网页并提取数据，然后存储数据。Python的丰富生态使其成为开发爬虫的热门语言，特别是由于其强大的库支持。一般来说，爬虫的流程可以分为以下几个步骤：发送HTTP请求：爬虫通过HTTP请求从目标网站获取HTML页面，常用的库包括[requests
Python大数据处理实验报告（三）小李独爱秋 python 开发语言 pycharm 大数据
实验目的本次实验的目的是练习使用Python编程语言和相关库进行网络爬虫和数据处理任务。具体来说，您将学习以下内容：使用Python中的requests库和BeautifulSoup库来爬取当当网某一本书的网页内容，并将其保存为html格式文件。学习使用Python中的requests库和正则表达式来爬取豆瓣网上某本书的前50条短评内容，并计算评分的平均值。了解如何使用Python中的reques
AI时代保护自己的隐私好运工具 - HapTool 人工智能好运工具 HapTool DeepSeek chatgpt
人工智能最重要的就是数据，让我们面对现实，大多数人都不知道他们每天要向人工智能提供多少数据。你输入的每条聊天记录，你发出的每条语音命令，人工智能生成的每张图片、电子邮件和文本。我建设了一个网站(haptool.com)，经常能在后台看到chatgpt的爬虫浏览过，就和百度，Google的爬虫一样，他们同样在爬取网络的上的数据。所有这些都在被处理、分析和（有时）存储。如果你认为人工智能公司没有使用这
从零打造 Python 爬虫项目：需求分析到部署西攻城狮北 python 爬虫实战案例
一、项目概述二、需求分析三、开发环境搭建四、代码实现1.爬虫基础2.数据解析与存储3.应对反爬虫机制4.多页爬取五、部署与运行1.定时任务2.云服务器部署六、常见问题解决七、总结随着互联网的飞速发展，信息获取成为了人们日常生活和工作中不可或缺的一部分。然而，传统的手动收集信息的方式效率低下、准确性难以保证，无法满足大量数据需求。Python爬虫技术应运而生，它能够自动化地从互联网上获取大量数据，为
【Python爬虫(96)】从0到1：打造爬虫驱动的数据分析平台奔跑吧邓邓子 Python爬虫 python 爬虫数据分析开发语言平台
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、平台搭建基础1.1明确平台目标与定位1.2技术选型依据二、数据
python爬取网页的方法总结,python爬虫获取网页数据阳阳2013哈哈 python
大家好，小编来为大家解答以下问题，python爬取网页信息代码正确爬取不到，利用python爬取简单网页数据步骤，今天让我们一起来看看吧！文章目录1.抓取网页源代码2.抓取一个网页源代码中的某标签内容3.抓取多个网页子标签的内容Python用做数据处理还是相当不错的，如果你想要做爬虫，Python是很好的选择，它有很多已经写好的类包，只要调用，即可完成很多复杂的功能在我们开始之前，我们需要安装一些
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数