wu_amber

MQ分发Webmagic爬虫任务项目实现

引言

一个基于垂直爬虫框架 webmagic 的 Java 爬虫实战项目，旨在提供一套完整的数据爬取，持久化存储和搜索分析的实践样例。

项目简介

本项目主要实现对媒体车系车型报价的爬取，解析主要车系车型数据，提醒预警报价数据的邮件和短信的通知，利用Elasticsearch实现数据的分析与搜索，形成数据的可视化分析与报表显示。

项目设计思想

基于爬虫任务统计与可配置开启需求下，针对垂直爬虫框架 webmagic在爬虫任务监控方面个性化定制方面，本项目给出自身的解决方案与思路。

本项目基于RocketMq分发爬虫任务管理系统采用了高性能消息中间件，在爬虫方面启动方面，配合LTS可配置爬虫任务的自定义开启时间，实现爬虫消息任务的分发与消费，利用RocketMq的消费可靠性与由业务逻辑实现的幂等性消费保证，更好异步解耦任务的分发与消费；在数据存储持久化方面，结合主流缓存Redis实现队列进行数据的解析，封装，通过分布式可扩展的实时搜索和分析引擎Elasticsearch实现数据的分析与搜索功能；在爬虫任务监控方面，搭配爬虫框架 webmagic实现爬虫监听器，有效地处理爬虫任务失败的入库统计与重试爬虫；在爬虫预警方面，通过前端页面录入预警条件、通知人、通过方式(支持短信与邮件通知)，基于页面的截屏实现爬虫的有效总结。

本项目很好解决困扰爬虫监控与预警方面的一些问题，整合了爬虫的抓取与任务监控，数据有效输出，提供一种爬虫任务处理的具体实现方案。

项目流程

项目主要流程描述：

前端页面提供入口配置爬虫任务设置，设置任务的执行时间，执行间隔时间与是否启用，入库任务设置。

后端查询爬虫任务配置，通过LTS api接口生成Cron爬虫任务，更方便地启用任务，省去在LTS后台管理页面手动配置任务的中间操作，一步到位。
Cron JobRunner通过媒体与车系信息的逻辑处理，拼装爬虫消息体，分发爬虫任务到RocketMq，启动任务信息统计线程。
配置MessageListener消息监听器，组装爬虫任务信息进行页面爬虫。
爬虫管道数据进行处理，原始数据入队列定时串行消费，推送预警数据RocketMq消息进行报价阈值校验截屏定时邮件或短信通知，推送业务数据入Redis进行定时批量数据添加到Elasticsearch执行报价数据的分析与搜索处理。

项目主要目录结构

async、parallel 主要为NamedThreadFactory线程池配置信息，拒绝策略配置和异步任务执行器的实现通用逻辑等
common、config 爬虫配置通用常量信息，包括爬虫重试次数，爬虫休眠时间，详情任务统计间隔时间等
handler 推送爬虫子任务处理器，预警通知处理器等
http 主要为车系，车型，经销商映射信息请求接口等
lts 主要为爬虫MQCron JobRunner，包括推送mq任务消息JobRunner，批量添加Elasticsearch业务数据JobRunner，原始数据队列入库JobRunner等
manager 任务入库表的封装CURD处理实现
mq 主要为mq配置信息，爬虫任务消息监听器，推送预警mq信息处理器等
pipeline 爬虫管道实现封装逻辑，webmagic#Pipeline接口的实现
processor 媒体页面解析器，webmagic#PageProcessor接口的实现
service 媒体爬虫经销商，车系信息封装处理层
util 工具类
validation 前端入参校验器等
vo 主要为项目pojo等

webmagic源码分析

webmagic组件

webmagic的各个功能分别通过组件来实现，很好的实现了各功能之间的解耦，主要包括四大组件：Scheduler、Downloader、Pipeline、PageProcessor，四大组件通过Spider类进行相互协作完成框架功能

一、Scheduler

抓取url的管理，包含添加待抓取url以及取出需要抓取的url功能，分别通过push方法和poll方法完成两项功能，抓取url进行了抽象，以Request进行表示。

二、PageProcessor

如何对一个页面内容进行处理，是用户主要需要实现的接口，一般用户需要实现对页面内容的抽取以及更多待抓取url的获取

三、Pipeline

对PageProcessor的抽取结果进行持久化处理，比如写入文件、存入数据库、或者简单的打印到控制台

四、Downloader

负责对待抓取的url进行下载，可配置下载线程数

辅助类

一、CountableThreadPool

负责spider的线程管理，实现了一个堵塞线程池，可以实时获取线程池中正在使用的线程以及等待状态的线程数量，线程数的统计以AtomicInteger实现线程安全，内部默认的ExecutorService通过Executors.newFixedThreadPool生成，主要方法execute接受一个Runnable对象作为待执行任务，线程池中无可用线程时会进入阻塞状态

二、Proxy

进行spider的代理管理，抽取为单独的组件可以实现解耦

三、Selector

实现对下载后的页面内容进行选择的功能，主要实现有xpath、css、regex以及jsonPath

四、Request

对抓取url的封装

五、Page

存储抽取的内容以及抓取的url（非线程安全）

六、SpiderListener

页面爬取解析结果监听器

配置类

一、Spider

爬虫的入口，对各个组件进行协调，包含一个Downloader，一个PageProcessor，一个Scheduler以及一个PipeLine列表，抓取任务的执行线程调度以CountableThreadPool完成

二、site

抓取站点的配置，包括域名、ua、默认cookie、默认编码、默认http头等

webmagic源码分析

爬虫任务需要PageProcessor页面解析器，爬虫链接url，Pipeline管道参数，可以选择添加爬虫监听器等，同步或者异步启动，建议同步启动，框架对异步启动支持不是很好。

//官方案例
Spider.create(new ZhihuPageProcessor()).
        addUrl("http://www.zhihu.com/search?type=question&q=java").
        addPipeline(new FilePipeline("D:\\webmagic\\")).
        thread(5).
        run();

项目同步启动方法，先检查爬虫运行状态，接着进行爬虫组件的初始化，设置线程数等，判断爬虫为运行状态，处理爬虫请求

@Override
public void run() {
		//检查爬虫运行状态
    checkRunningStat();
    //初始化容器，包括downloader，pipeline，线程池等
    initComponent();
    logger.info("Spider {} started!",getUUID());
    while (!Thread.currentThread().isInterrupted() && stat.get() == STAT_RUNNING) {
        final Request request = scheduler.poll(this);
        //待爬虫url为空，线程进入等待状态，通过waitNewUrl实现，阻塞状态通过signalNewUrl方法进行解除
        if (request == null) {
            if (threadPool.getThreadAlive() == 0 && exitWhenComplete) {
                break;
            }
            // wait until new url added
            waitNewUrl();
        } else {
        		//执行爬虫任务
            threadPool.execute(new Runnable() {
                @Override
                public void run() {
                    try {
                    		//处理爬虫请求
                        processRequest(request);
                        //设置爬虫成功状态，可通过SpiderListener监听改状态，实现自身业务逻辑处理
                        onSuccess(request);
                    } catch (Exception e) {
                    		//设置爬虫失败状态
                        onError(request);
                        logger.error("process request " + request + " error", e);
                    } finally {
                    		//页面爬取计数
                        pageCount.incrementAndGet();
                        signalNewUrl();
                    }
                }
            });
        }
    }
    //爬虫完成，设置状态停止
    stat.set(STAT_STOPPED);
    // release some resources
    if (destroyWhenExit) {
        close();
    }
    logger.info("Spider {} closed! {} pages downloaded.", getUUID(), pageCount.get());
}

初始化默认容器

protected void initComponent() {
    if (downloader == null) {
      	//默认使用apache HttpClient进行页面的下载功能，实现了代理配置功能
        this.downloader = new HttpClientDownloader();
    }
    if (pipelines.isEmpty()) {
      	//直接将结果输出到控制台,项目自定义实现
        pipelines.add(new ConsolePipeline());
    }
  	//设置线程数
    downloader.setThread(threadNum);
    if (threadPool == null || threadPool.isShutdown()) {
        if (executorService != null && !executorService.isShutdown()) {
          	//堵塞线程池，可以实时获取线程池中正在使用的线程以及等待状态的线程数量
            threadPool = new CountableThreadPool(threadNum, executorService);
        } else {
            threadPool = new CountableThreadPool(threadNum);
        }
    }
    if (startRequests != null) {
      	//添加爬虫链接请求
        for (Request request : startRequests) {
            addRequest(request);
        }
        startRequests.clear();
    }
    startTime = new Date();
}

处理爬虫处理请求，加载爬虫页面，解析页面，数据管理处理

private void processRequest(Request request) {
		//加载爬虫页面
    Page page = downloader.download(request, this);
    if (page.isDownloadSuccess()){
        onDownloadSuccess(request, page);
    } else {
        onDownloaderFail(request);
    }
}

private void onDownloadSuccess(Request request, Page page) {
		//注意站点的状态码配置，匹配上了才进行页面的解析，通常页面加载被限状态码不为200，需在加上站点对应的状态码才可以进入页面解析逻辑
    if (site.getAcceptStatCode().contains(page.getStatusCode())){
    		//页面解析，项目自身定义实现
        pageProcessor.process(page);
        //页面爬虫链接再次加入调度
        extractAndAddRequests(page, spawnUrl);
        //是否跳过数据管道处理
        if (!page.getResultItems().isSkip()) {
        		//数据管道处理，项目自身定义实现
            for (Pipeline pipeline : pipelines) {
                pipeline.process(page.getResultItems(), this);
            }
        }
        //打印日志，旧版本没有这块日志，注意版本升级
    } else {
        logger.info("page status code error, page {} , code: {}", request.getUrl(), page.getStatusCode());
    }
    //执行站点设置的睡眠时间
    sleep(site.getSleepTime());
    return;
}

页面加载

@Override
public Page download(Request request, Task task) {
    //主要逻辑
    Page page = Page.fail();
    try {
      	//发起http请求页面
        httpResponse = httpClient.execute(requestContext.getHttpUriRequest(), requestContext.getHttpClientContext());
      	//处理响应结果
        page = handleResponse(request, request.getCharset() != null ? request.getCharset() : task.getSite().getCharset(), httpResponse, task);
      	//添加页面加载成功状态，可以覆盖 Downloader#onSuccess实现页面加载成功失败处理逻辑
        onSuccess(request);
        logger.info("downloading page success {}", request.getUrl());
        return page;
    } catch (IOException e) {
        logger.warn("download page {} error", request.getUrl(), e);
        onError(request);
        return page;
    } 
  	
}

项目实现逻辑

LTS爬虫任务Cron JobRunner实现，获取LST context上下文参数，入库爬虫任务信息，获取具体媒体爬虫service类进行爬虫详情mq任务分发。

@JobRunnerItem(shardValue = CrawlerCommonConstant.CRAWLER_JOB_LTS_NAME)
public Result addCrawlerJob(JobContext context) {

    String crawlerJobDesc = null;
    try {
        Map<String, String> extParams = context.getJob().getExtParams();
        CrawlerJobVo crawlerJobVo = JSON.parseObject(JSON.toJSONString(extParams), CrawlerJobVo.class);
        //更新爬虫任务
        CrawlerJob crawlerJob = crawlerJobService.doHandlerCrawlerJob(crawlerJobVo);

        crawlerJobDesc = MediaTypeEnum.getEnum(crawlerJob.getMediaId()).getDesc() +
                CrawlerTypeEnum.getEnum(crawlerJob.getCrawlerType()).getDesc();

        //映射抽象类处理
        AbstractCrawlerService abstractCrawlerService = applicationContext.getBean(crawlerInstanceName(crawlerJobVo), AbstractCrawlerService.class);
        		   abstractCrawlerService.crawlHandler(crawlerJob.getId(),crawlerJob.getMediaId(),crawlerJob.getCrawlerType());

        context.getBizLogger().info(crawlerJobDesc+"爬虫任务推送成功" );

        return new Result(Action.EXECUTE_SUCCESS, crawlerJobDesc+"爬虫任务推送成功" );
    } catch (Exception e) {
        logger.warn(crawlerJobDesc + "爬虫任务推送失败,{}", e);
        return new Result(Action.EXECUTE_FAILED, e.getMessage());
    }

}

AbstractCrawlerService初始化任务详情计数集合，计数锁，失败计数锁，任务详情失败计数集合，实现HttpClientDownloader页面加载失败的逻辑处理，提供了获取爬虫实现的方法，获取爬虫链接正则表达式的抽象方法，提供爬虫任务与详情子任务的入库与统计方法等

 	public abstract class AbstractCrawlerService implements InitializingBean {

		/**
     * 获取爬虫连接
     */
    public abstract String getCrawlUrl();

		/**
     * 需要具体爬虫实现的方法
     * 默认实现
     * @param jobId
     * @param mediaId
     * @param crawlerType
     */
    public abstract void crawlHandler(Integer jobId,Integer mediaId,Integer crawlerType);


 		@Override
    public void afterPropertiesSet() throws Exception {
      	//任务详情失败计数集合
        failCountMap = new ConcurrentHashMap<>();
      	//任务详情计数集合
        countMap = new ConcurrentHashMap<>();
      	//计数锁
        countlock = new ReentrantLock();
      	//失败计数锁
        failCountlock = new ReentrantLock();
        httpClientDownloader = new HttpClientDownloader(){
            @Override
            protected void onError(Request request) {
                String crawlerJobNum = JSON.parseObject(request.getExtra("crawler_param").toString()).getString("crawlerJobNum");
                failCountlock.lock();
                try {
                    AtomicInteger countInteger = countMap.get(crawlerJobNum);
                    if (countInteger == null) {
                        countInteger = new AtomicInteger(0);
                        countInteger.incrementAndGet();
                        countMap.put(crawlerJobNum, countInteger);
                    }else {
                        countInteger.incrementAndGet();
                    }
                } finally {
                    failCountlock.unlock();
                }
                logger.warn("页面加载异常,爬虫任务序号{}重试次数为:{}", crawlerJobNum, countMap.get(crawlerJobNum).get());
                if (countMap.get(crawlerJobNum).get() == CrawlerCommonConstant.SPIDER_RETRY_TIMES) {
                    logger.warn("页面加载异常,爬虫任务序号:{}链接抓取失败",crawlerJobNum);
                    //任务状态，0成功，1失败
                    dealWithDetailJob(request.getExtra("crawler_param").toString(), request.getUrl(),1, "爬虫链接页面加载失败");
                    failCountMap.remove(crawlerJobNum);
                }
            }
        };
        httpClientDownloader.setProxyProvider(dndcProxyPoolProvider);
    }
  }

详情子任务参数封装，加锁计算任务总数，通过while循环每间隔5分钟计算成功子任务数与失败子任务数，遇到异常退出循环

public abstract class BaseCrawlerService extends AbstractCrawlerService{
  								//推送爬虫 实时任务
                    asyncInvoker.execute(new Runnable() {
                        @Override
                        public void run() {
                            //并发计数
                            countlock.lock();
                            try {
                                AtomicInteger countInteger = countMap.get(crawlerDetailJobMap.get("jobId"));
                                if (countInteger == null) {
                                    countInteger = new AtomicInteger(0);
                                    countInteger.incrementAndGet();
                                    countMap.put(crawlerDetailJobMap.get("jobId"), countInteger);
                                }else {
                                    countInteger.incrementAndGet();
                                }
                              	//crawlerDetailJobMap消息body数据封装
                                crawlerDetailJobMap.put("mqKey", MessageFormat.format(CrawlerCommonConstant.CRAWLER_JOB_MQ_KEY,jobId.toString(),
                                        String.valueOf(countMap.get(crawlerDetailJobMap.get("jobId")).get())));
                                crawlerDetailJobMap.put("crawlerJobNum", String.valueOf(countMap.get(crawlerDetailJobMap.get("jobId")).get()));
                            } finally {
                                countlock.unlock();
                            }
                          	//mq任务推送
                            mqCrawlerJobHandler.handle(crawlerDetailJobMap);
                        }
                    });
  									//启动任务间隔计数
                    asyncInvoker.execute(new Runnable() {
                              @Override
                              public void run() {
                                  try {
                                      //获取爬虫任务
                                      CrawlerJob crawlerJob = getCrawlerJob(jobId);
                                      long crawlerStartTime = SystemClock.now();
                                      if (crawlerJob != null) {
                                          while (crawlerJob.getSuccessTasks() + crawlerJob.getFailureTasks() != countMap.get(String.valueOf(jobId)).get()) {
                                              int successTasks = getJobDetailStatusStatistics(jobId, 0);
                                              int failureTasks = getJobDetailStatusStatistics(jobId, 1);
                                              logger.info("{}{}爬虫任务id:{},推送爬虫mq总任务数:{},成功任务数:{},失败任务数:{}",MediaTypeEnum.getEnum(mediaId).getDesc(),CrawlerTypeEnum.getEnum(crawlerType).getDesc(),jobId,
                                                      countMap.get(String.valueOf(jobId)).get(), successTasks, failureTasks);
                                              boolean exitFlag = dealWithJob(jobId, countMap.get(String.valueOf(jobId)).get(), successTasks, failureTasks);
                                              crawlerJob = getCrawlerJob(jobId);
                                              //计数完成或者计数异常退出循环
                                              if (!exitFlag || crawlerJob.getSuccessTasks() + crawlerJob.getFailureTasks() == countMap.get(String.valueOf(jobId)).get()) {
                                                  break;
                                              }
                                              Thread.sleep(CrawlerCommonConstant.JOB_STATISTICAL_INTERVAL);

                                          }
                                          logger.info("{}{}爬虫任务id:{}统计完成,耗时{},循环方法次数:{}",MediaTypeEnum.getEnum(mediaId).getDesc(),CrawlerTypeEnum.getEnum(crawlerType).getDesc(),jobId,
                                                  SystemClock.now() - crawlerStartTime,totalCount.get());

                                      }

                                  } catch (Exception e) {
                                      logger.warn("{}{}爬虫任务id:{}统计异常 {},{}", MediaTypeEnum.getEnum(mediaId).getDesc(), CrawlerTypeEnum.getEnum(crawlerType).getDesc(), jobId, e.getMessage(), e);
                                  }finally {
                                      countMap.remove(String.valueOf(jobId));
                                  }
                              }
                          });
  
}

推送mq爬虫任务，设置key，唯一定位消息，排查与定位问题事半功倍，延时10秒推送，测试环境项目由于使用RocketMq配置默认10秒推送，线上环境使用阿里云ONS消息服务，可指定具体时间定时消息。

Tip:RocketMQ 支持定时消息，但是不支持任意时间精度，仅支持特定的 level，例如定时 5s， 10s， 1m 等。其中，level=0 级表示不延时，level=1 表示 1 级延时，level=2 表示 2 级延时，以此类推。

@Component
public class CrawlerMqProcessor {
      /**
       * 推送爬虫链接子任务数据
       * @param crawlerDetailJobMap
       */
      public void sendCrawlerDetailJob(Map<String,String> crawlerDetailJobMap) {
          Message jobMessage = new Message();
          jobMessage.setTopic(config.getChebabaCrawlerJobTopic());
          //延迟10秒推送
          jobMessage.setStartDeliverTime(System.currentTimeMillis() + 10000);
          jobMessage.setTag(crawlerDetailJobMap.get("dataType"));
          jobMessage.setBody(JSON.toJSONString(crawlerDetailJobMap).getBytes());
          jobMessage.setKey(crawlerDetailJobMap.get("mqKey"));
          SendResult priceSendResult = producer.send(jobMessage);
          LOGGER.info("推送爬虫链接子任务数据,job_id:{},media_id:{},crawler_type:{},crawler_unique_id:{},crawler_job_num:{},{}",crawlerDetailJobMap.get("jobId"),
                  crawlerDetailJobMap.get("mediaId"), crawlerDetailJobMap.get("crawlerType"),crawlerDetailJobMap.get("crawlerUniqueId"),
                  crawlerDetailJobMap.get("crawlerJobNum"),priceSendResult);
      }
}

mq消息监听器

@Component("crawlerJobListener")
public class CrawlerJobListener implements MessageListener {		

		@Override
    public  Action consume(Message message, ConsumeContext consumeContext) {
       			
      			//创建爬虫实例
      			 Request crawlerRequest = new Request(crawlerUrl);
                crawlerRequest.putExtra("crawler_param",detailJobJson);
                Spider.create(abstractCrawlerProcessor).setDownloader(abstractCrawlerService.getHttpClientDownloader()).addRequest(crawlerRequest)
                        .setSpiderListeners(addSpiderListeners(bodyParams, crawlerUrl)).addPipeline(baseCrawlerPipeline).thread(threadNums).run();

            return Action.CommitMessage;
        } catch (Exception e) {
            logger.warn("{}爬虫链接执行失败,{},{}", crawlerUrl, e.getMessage(), e);
            //任务失败
            //任务状态，0成功，1失败
            dealWithDetailJob(bodyParams, crawlerUrl,1, "爬虫链接执行失败");
            return Action.ReconsumeLater;
        }
    }

		/**
     * 添加爬虫监听器
     * @param bodyParams
     * @param crawlerUrl
     * @return
     */
    private ArrayList<SpiderListener> addSpiderListeners(String bodyParams,String crawlerUrl) {
        ArrayList<SpiderListener> spiderListeners = new ArrayList<>();
        spiderListeners.add(new SpiderListener() {
            volatile int failureCount = 0;
            @Override
            public void onSuccess(Request request) {
            }

            @Override
            public void onError(Request request) {
                failureCount++;
                logger.info("爬虫任务序号{}重试次数为:{}", JSON.parseObject(bodyParams).get("crawlerJobNum"), failureCount);
                if (failureCount == CrawlerCommonConstant.SPIDER_RETRY_TIMES) {
                    logger.warn("爬虫任务序号:{}链接解析失败",JSON.parseObject(bodyParams).get("crawlerJobNum"));
                    //任务状态，0成功，1失败
                    dealWithDetailJob(bodyParams, crawlerUrl,1, "爬虫链接解析失败");
                }
            }
        });
        return spiderListeners;
    }
}

AbstractCrawlerProcessor实现通用方法，process方法爬虫页面解析具体处理

public abstract class AbstractCrawlerProcessor  implements PageProcessor{
  public Site getSiteConfig() {
        Site site = Site.me().setCycleRetryTimes(CrawlerCommonConstant.SPIDER_RETRY_TIMES).setRetryTimes(CrawlerCommonConstant.SPIDER_RETRY_TIMES).
                setSleepTime(CrawlerCommonConstant.SPIDER_SLEEP_TIME).setTimeOut(CrawlerCommonConstant.SPIDER_TIME_OUT_TIME);
        site.addHeader("Accept",
                "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8");
        site.addHeader("Accept-Encoding", "gzip, deflate");
        site.addHeader("Accept-Language", "zh-CN,zh;q=0.8,en;q=0.6");
        site.addHeader("Cache-Control", "max-age=0");
        site.addHeader("Connection", "keep-alive");
        site.addHeader("Cookie", "_lxsdk_cuid=" + UUID.randomUUID().toString().replaceAll("-", "") + ";SESSION="
                + UUID.randomUUID().toString());
        site.addHeader("Upgrade-Insecure-Requests", "" + Math.random());
        site.addHeader("User-Agent",
                "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36");

        //添加站点接收状态码
        Set<Integer> acceptStatCode = new HashSet<>();
        //成功标识码
        acceptStatCode.add(200);
        //错误网关
        acceptStatCode.add(502);
        //请求过多
        acceptStatCode.add(429);
        site.setAcceptStatCode(acceptStatCode);
        return site;
    }
}

管道数据处理，原始数据入队列Queue添加LTS任务每5分钟消费，推送预警mq任务等待报价数据阈值校验与截屏邮件或短信定时通知，推送业务数据到redis添加LTS任务每5分钟批量添加到Elasticsearch

@Component
public class BaseCrawlerPipeline  implements Pipeline {
@Override
    public void process(ResultItems resultItems, Task task) {
        CrawlerDetailJobVo detailJobVo = resultItems.get("crawlerDatas");
        if( null == detailJobVo ){
            return;
        }

        if (StringUtil.isBlank(detailJobVo.getRemark())) {
            detailJobVo.setRemark("爬虫链接执行成功");
        }

        //添加爬虫详情任务
        CrawlerCommonConstant.queue.offer(detailJobVo);

        //推送原始数据，及预警数据
        List<Map> mqCrawlerDatas = JSONArray.parseArray(detailJobVo.getCrawlerData(), Map.class);
        if (detailJobVo.getCrawlerData() != null && mqCrawlerDatas != null && mqCrawlerDatas.size() > 0) {

            CrawlerMqVo mqVo = new CrawlerMqVo();
            mqVo.setJobId(detailJobVo.getJobId());
            if (detailJobVo.getCrawlerType().equals(CrawlerCommonConstant.CRAWLER_TYPE_PRICE_FLAG)) {
                mqVo.setCrawlerCode(CrawlerCommonConstant.CRAWLER_TYPE_PRICE);
            }
            if (detailJobVo.getCrawlerType().equals(CrawlerCommonConstant.CRAWLER_TYPE_CMS_ARTICLE_FLAG)) {
                mqVo.setCrawlerCode(CrawlerCommonConstant.CRAWLER_TYPE_CMS_ARTICLE);
            }
            if (detailJobVo.getCrawlerType().equals(CrawlerCommonConstant.CRAWLER_TYPE_ACTIVITY_SALES_FLAG)) {
                mqVo.setCrawlerCode(CrawlerCommonConstant.CRAWLER_TYPE_ACTIVITY_SALES);
            }
            mqVo.setCrawlerPkData(detailJobVo.getDealerCode());
            mqVo.setMediaId(detailJobVo.getMediaId());
            //过滤掉 es 显示数据
            if (mqCrawlerDatas != null && mqCrawlerDatas.size() > 0) {
                mqCrawlerDatas = mqCrawlerDatas.stream().map(x -> {
                    x.remove("esParamMap");
                    return x;
                }).collect(Collectors.toList());
            }
            mqVo.setCrawlerData(JSONArray.toJSONString(mqCrawlerDatas));
            mqVo.setCrawlerUrl(detailJobVo.getCrawlerUrl());
            mqVo.setCrawlerDate(ConcurrentDateUtil.format(new Date()));
            crawlerMqProcessor.sendCrawlerInstanceData(mqVo);
        }


        //添加本品数据到缓存
        List<Map> crawlerDatas = JSONArray.parseArray(detailJobVo.getCrawlerData(), Map.class);
        if (crawlerDatas!=null && crawlerDatas.size() > 0) {
            crawlerDatas = crawlerDatas.stream().filter(x -> x.get("esParamMap") != null).map(x -> {
                Map esCrawlerMap = new HashMap();
                esCrawlerMap.putAll(JSONObject.parseObject(MapUtils.getString(x, "esParamMap")));
                return esCrawlerMap;
            }).collect(Collectors.toList());
            detailJobVo.setCrawlerData(JSONArray.toJSONString(crawlerDatas));
            redisTemplateUtil.setCacheList(CrawlerCommonConstant.CRAWLER_LIST_CACHE_COMPETITOR_KEY,detailJobVo );
        }
    }
}

总结

这次爬虫项目的重构，是锻炼自己的一次很好机会，见证了一个项目的设计到实现的全过程。在设计的过程中把自己的想法付诸实践，一点点实现它，感觉蛮有成就感的。

当然也有一些困难的需要克服。一个系统从设计到实现是一个不易的过程，不可能一蹴而就，很多问题会反复出现，一个功能模块的实现，要经历数据库字段的增加删除，算法的改进，逻辑的错误实现等一系列改进，才能最终完成目标。

特别是这次项目爬虫的爬取数量一多，定位问题变得极其花费心力，多打印日志，细心点，多抱怀疑的态度看待项目用的框架，才能定位到问题，再具体想解决的办法。例如这次使用的webmagic框架，在爬虫请求过多被限时，爬取的页面信息状态码429(成功状态码200)在新版源码才有日志打印，配合站点设置，才能进行后面爬虫失败监听器处理逻辑，还有download页面失败带来的问题以及怎么想办法记录这次爬虫任务的失败情况，方便后面进行爬虫任务计数与重试。很感谢有这次经历，让自己积累经验，慢步前进。

你可能感兴趣的:(java)

Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
JavaScript `Map` 和 `WeakMap`详细解释跳房子的前端 JavaScript 原生方法 javascript 前端开发语言
在JavaScript中，Map和WeakMap都是用于存储键值对的数据结构，但它们有一些关键的不同之处。MapMap是一种可以存储任意类型的键值对的集合。它保持了键值对的插入顺序，并且可以通过键快速查找对应的值。Map提供了一些非常有用的方法和属性来操作这些数据对：set(key,value):将一个键值对添加到Map中。如果键已经存在，则更新其对应的值。get(key):获取指定键的值。如果键
切换淘宝最新npm镜像源是 hai40587 npm 前端 node.js
切换淘宝最新npm镜像源是一个相对简单的过程，但首先需要明确当前淘宝npm镜像源的状态和最新的镜像地址。由于网络环境和服务更新，镜像源的具体地址可能会发生变化，因此，我将基于当前可获取的信息，提供一个通用的切换步骤，并附上最新的镜像地址（截至回答时）。一、了解npm镜像源npm（NodePackageManager）是JavaScript的包管理器，用于安装、更新和管理项目依赖。由于npm官方仓库
【Java】已解决：java.util.concurrent.CompletionException 屿小夏 java 开发语言
文章目录一、分析问题背景出现问题的场景代码片段二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决：java.util.concurrent.CompletionException一、分析问题背景在Java并发编程中，java.util.concurrent.CompletionException是一种常见的运行时异常，通常在使用CompletableFuture进行异步计算时出现
设计模式之建造者模式(通俗易懂--代码辅助理解【Java版】） ok!ko 设计模式设计模式建造者模式 java
文章目录设计模式概述1、建造者模式2、建造者模式使用场景3、优点4、缺点5、主要角色6、代码示例：1）实现要求2）UML图3)实现步骤：1）创建一个表示食物条目和食物包装的接口2）创建实现Packing接口的实体类3）创建实现Item接口的抽象类，该类提供了默认的功能4）创建扩展了Burger和ColdDrink的实体类5）创建一个Meal类，带有上面定义的Item对象6）创建一个MealBuil
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro