如何简单的抓取网站数据

1.首先,用带debug的火狐浏览器,访问要抓取的网站,通过debug的控制台或网络找到数据的接口。

如何简单的抓取网站数据_第1张图片

2.Spring框架自3.0版本起,自带了任务调度功能,好比是一个轻量级的Quartz,而且使用起来也方便、简单,且不需要依赖其他的JAR包。秉承着Spring的一贯风格,Spring任务调度的实现同时支持注解配置和XML配置两种方式。

  先来看下Spring常规定时任务的配置,如下:

[html]  view plain  copy
  1. xml version="1.0" encoding="UTF-8"?>  
  2. <beans xmlns="http://www.springframework.org/schema/beans"  
  3.     xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"  
  4.     xmlns:task="http://www.springframework.org/schema/task"  
  5.     xmlns:context="http://www.springframework.org/schema/context"  
  6.     xsi:schemaLocation="  
  7.         http://www.springframework.org/schema/beans http://www.springframework.org/schema/beans/spring-beans.xsd   
  8.         http://www.springframework.org/schema/task http://www.springframework.org/schema/task/spring-task.xsd   
  9.         http://www.springframework.org/schema/context http://www.springframework.org/schema/context/spring-context.xsd ">  
  10.       
  11.     <context:component-scan base-package="com.pes_soft.task.demo" />  
  12.       
  13.       
  14.     <task:executor id="executor" pool-size="3"/>  
  15.     <task:scheduler id="scheduler" pool-size="3"/>  
  16.     <task:annotation-driven executor="executor" scheduler="scheduler"/>  
  17. beans>  

  注意:配置Spring定时任务时,需要在Spring配置文件的xml头部加入xmlns:task="http://www.springframework.org/schema/task"和xsi:schemaLocation位置中加入http://www.springframework.org/schema/task

 http://www.springframework.org/schema/task/spring-task.xsd

  

3.代码实现如下:

  1. 在定时任务类上增加@EnableScheduling注解,并实现SchedulingConfigurer接口。(值得注意的是:@EnableScheduling对Spring的版本要求比较高,一开始使用的3.2.6版本时一直未成功,后来改成4.2.5版本就可以了)
  2. 设置一个静态变量cron,用于存放任务执行周期参数。
  3. 另辟一线程,用于模拟实际业务中外部原因修改了任务执行周期(修改了周期时间,不用重启服务器)。
  4. 设置任务触发器,触发任务执行,其中就可以修改任务的执行周期。

  完整的SpringDynamicCronTask.java代码如下:

[java]  view plain  copy
  1. package com.pes_soft.task.demo;  
  2.   
  3. import java.util.Date;  
  4.   
  5. import org.slf4j.Logger;  
  6. import org.slf4j.LoggerFactory;  
  7. import org.springframework.context.annotation.Lazy;  
  8. import org.springframework.scheduling.Trigger;  
  9. import org.springframework.scheduling.TriggerContext;  
  10. import org.springframework.scheduling.annotation.EnableScheduling;  
  11. import org.springframework.scheduling.annotation.SchedulingConfigurer;  
  12. import org.springframework.scheduling.config.ScheduledTaskRegistrar;  
  13. import org.springframework.scheduling.support.CronTrigger;  
  14. import org.springframework.stereotype.Component;  
  15.   
  16. /** 
  17.  * Spring动态周期定时任务
     
  18.  * 在不停应用的情况下更改任务执行周期 
  19.  * @Author 许亮 
  20.  * @Create 2016-11-10 16:31:29 
  21.  */  
  22. @Lazy(false)  
  23. @Component  
  24. @EnableScheduling  
  25. public class SpringDynamicCronTask implements SchedulingConfigurer {  
  26.     private static final Logger logger = LoggerFactory.getLogger(SpringDynamicCronTask.class);  
  27.       
  28.     private static String cron;  
  29.       
  30.     public SpringDynamicCronTask() {  
  31.         cron = "0/5 * * * * ?";  
  32.           
  33.         // 开启新线程模拟外部更改了任务执行周期  
  34.         new Thread(new Runnable() {  
  35.             @Override  
  36.             public void run() {  
  37.                 try {  
  38.                     Thread.sleep(15 * 1000);  
  39.                 } catch (InterruptedException e) {  
  40.                     e.printStackTrace();  
  41.                 }  
  42.                   
  43.                 cron = "0/10 * * * * ?";  
  44.                 System.err.println("cron change to: " + cron);  
  45.             }  
  46.         }).start();  
  47.     }  
  48.   
  49.     @Override  
  50.     public void configureTasks(ScheduledTaskRegistrar taskRegistrar) {  
  51.         taskRegistrar.addTriggerTask(new Runnable() {  
  52.             @Override  
  53.             public void run() {  
  54.                 // 任务逻辑  
  55.                 logger.debug("dynamicCronTask is running...");  
  56.             }  
  57.         }, new Trigger() {  
  58.             @Override  
  59.             public Date nextExecutionTime(TriggerContext triggerContext) {  
  60.                 // 任务触发,可修改任务的执行周期  
  61.                 CronTrigger trigger = new CronTrigger(cron);  
  62.                 Date nextExec = trigger.nextExecutionTime(triggerContext);  
  63.                 return nextExec;  
  64.             }  
  65.         });  
  66.     }  
  67. }  


  


你可能感兴趣的:(如何简单的抓取网站数据)