成长中的大牛

Java爬虫框架WebMagic的使用总结

最近，项目做一个公司新闻网站，分为PC&移动端(h5)，数据来源是从HSZX与huanqiu2个网站爬取，主要使用java编写的WebMagic作为爬虫框架，数据分为批量抓取、增量抓取，批量抓当前所有历史数据，增量需要每10分钟定时抓取一次，由于从2个网站抓取，并且频道很多，数据量大，更新频繁；开发过程中遇到很多的坑，今天腾出时间，感觉有必要做以总结。

工具说明：

1、WebMagic是一个简单灵活的爬虫框架。基于WebMagic，你可以快速开发出一个高效、易维护的爬虫。

官网地址：http://webmagic.io/

文档说明：http://webmagic.io/docs/zh/

2、jsoup是Java的一个html解析工作，解析性能很不错。

文档地址：http://www.open-open.com/jsoup/

3、Jdiy一款超轻量的java极速开发框架，javaEE/javaSE环境均适用，便捷的数据库CRUD操作API。支持各大主流数据库。

官网地址：http://www.jdiy.org/jdiy.jd

一、使用到的技术，如下：
WebMagic作为爬虫框架、httpclient作为获取网页工具、Jsoup作为分析页面定位抓取内容、ExecutorService线程池作为定时增量抓取、Jdiy作为持久层框架

二、历史抓取代码，如下:

package com.spider.huanqiu.history;

import java.util.ArrayList;
import java.util.List;
import org.apache.commons.lang3.StringUtils;
import org.jdiy.core.Rs;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
import com.spider.huasheng.history.Pindao;
import com.spider.utils.Config;
import com.spider.utils.ConfigBase;
import com.spider.utils.DateUtil;
import com.spider.utils.HttpClientUtil;
import com.spider.utils.service.CommService;

/**
 * 描        述：抓取xxx-国际频道历史数据
 * 创建时间：2016-11-9
 * @author Jibaole
 */
public class HQNewsDao extends ConfigBase  implements PageProcessor{
	   public static final String index_list = "(.*).huanqiu.com/(.*)pindao=(.*)";//校验地址正则
	   public static String pic_dir = fun.getProValue(PINDAO_PIC_FILE_PATH);//获取图片保存路径
	   
	
	// 部分一：抓取网站的相关配置，包括编码、重试次数、抓取间隔、超时时间、请求消息头、UA信息等
		private Site site = Site.me().setRetryTimes(3).setSleepTime(1000).setTimeOut(6000)
				           .addHeader("Accept-Encoding", "/").setUserAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.59 Safari/537.36");
	@Override
	public Site getSite() {  
		return site;
	}
	
	
	 @Override
	    public void process(Page page) {
		try {
	        //列表页
			if (page.getUrl().regex(index_list).match()) {
				List Urllist =new ArrayList();
				String url =page.getUrl().toString();
				String pageUrl = url.substring(0,url.lastIndexOf("?"));
				String pindaoId =url.substring(url.lastIndexOf("=")+1);
				Urllist = saveNewsListData(pageUrl,pindaoId);
				page.addTargetRequests(Urllist);//添加地址，根据url对该地址处理
			}
			//可增加else if 处理不同URL地址
		} catch (Exception e) {
			e.printStackTrace();
		}
	 }


	private List saveNewsListData(String pageUrl,String pindaoId) {
	List urlList = new ArrayList();
	Document docList = null;
   String newsIdFirst="";
   String pageListStr=HttpClientUtil.getPage(pageUrl);//HttpClientUtil方式获取网页内容
	if(StringUtils.isNotEmpty(pageListStr)){
	 try {
		docList = Jsoup.parse(pageListStr);
		Elements fallsFlow=docList.getElementsByClass("fallsFlow");
		if(!fallsFlow.isEmpty()){
 			Elements liTag=fallsFlow.get(0).getElementsByTag("li");
			if(!liTag.isEmpty()){
				for(int i=0;i0){
							    	  absContent = absContent.substring(0, absContent.indexOf("["));
							      }
							 }
							 
							  if(!obj.getElementsByTag("h6").isEmpty()){
								  pushTime = obj.getElementsByTag("h6").text(); 
								  timeFalg=pushTime.substring(0, 4);
							  }
							  String hrmlStr=HttpClientUtil.getPage(contentUrl);
							  if(StringUtils.isNotEmpty(hrmlStr)){
								  Document docPage = Jsoup.parse(hrmlStr);
							  Elements pageContent = docPage.getElementsByClass("conText");
                                if(!pageContent.isEmpty()){
									String comefrom = pageContent.get(0).getElementsByClass("fromSummary").text();//来源
									if(StringUtils.isNotEmpty(comefrom) && comefrom.contains("环球")){
										String author=pageContent.get(0).getElementsByClass("author").text();//作者
									    Element contentDom = pageContent.get(0).getElementById("text");
									    if(!contentDom.getElementsByTag("a").isEmpty()){
									    	contentDom.getElementsByTag("a").removeAttr("href");//移除外跳连接
									    }
									    if(!contentDom.getElementsByClass("reTopics").isEmpty()){
									    	 contentDom.getElementsByClass("reTopics").remove();//推荐位
									    }
									   if(!contentDom.getElementsByClass("spTopic").isEmpty()){
										   contentDom.getElementsByClass("spTopic").remove(); //去除排行榜列表
									   }
									   if(!contentDom.getElementsByClass("editorSign").isEmpty()){
										   contentDom.getElementsByClass("editorSign").remove();//移除编辑标签
									   }
									   
										String content = contentDom.toString();
										if(!StringUtils.isEmpty(content)){
											content = content.replaceAll("\r\n|\r|\n|\t|\b|~|\f", "");//去掉回车换行符
											content = replaceForNews(content,pic_dir+"article/"+newsId+"/");//替换内容中的图片
											while (true) {
												 if(content.indexOf("")>0){
													      String moveContent= content.substring(content.indexOf("")+3);//去除注释
														  content = content.replace(moveContent, "");
													        }
												         if(content.indexOf("0 && content.lastIndexOf("")>0){
													      String moveContent= content.substring(content.indexOf("")+9);//去除JS
														  content = content.replace(moveContent, "");
													      }
											   }
											}
										}
									if(StringUtils.isEmpty(timeFalg) || "2016".equals(timeFalg) || 
										"28".equals(pindaoId) || "29".equals(pindaoId) || "30".equals(pindaoId)){
											Rs news= new Rs("News");
											news.set("title", title);
											news.set("shortTitle",title);
											news.set("beizhu",absContent);
											news.set("savetime", pushTime);
											if(StringUtils.isNotEmpty(pic)){
												news.set("path", pic);
												news.set("mini_image", pic);
											}
											news.set("pindaoId", pindaoId);
											news.set("status", 0);//不显示
											news.set("canComment", 1);//是否被评论
											news.set("syn", 1);//是否异步
											news.set("type", 1);//是否异步
											news.set("comefrom",comefrom);
											news.set("author", author);
											news.set("content", content);
											news.set("content2", content);
											CommService.save(news);

											  System.err.println("------新增(xxx历史):"+title+"------>>>>>>>");
									}else{
										break;
									}
									  }
                                  }
							  }
						      }
					}catch (Exception e) {
						e.printStackTrace();  
					}
				}
		    }
			if(!pageUrl.contains(".htm")){
				//得到分页内容
				Element pages = docList.getElementById("pages");
				int num = pages.getElementsByTag("a").size();
				String pageMaxStr = pages.getElementsByTag("a").get(num-2).text();
				int pageMax=0;
				if(StringUtils.isNotEmpty(pageMaxStr)){
					pageMax= Integer.parseInt(pageMaxStr);
				}
				if(pageMax>historyMaxPage){//控制历史抓取页数
					pageMax = historyMaxPage;
				}
				for(int i=1 ;i strList=new ArrayList();
		    strList.add("http://www.xxx/exclusive/?pindao="+Pindao.getKey("国际"));
		    //滚动新闻
			strList.add("http://www.xxx/article/?pindao="+Pindao.getKey("国际"));
		
		for(String str:strList){
			Spider.create(new HQNewsDao()).addUrl(str).thread(1).run(); 
		}
 }
	
    //所有频道Action
	public static void runNewsList(List strList){
		for(String str:strList){
			Spider.create(new HQNewsDao()).addUrl(str).thread(1).run(); //添加爬取地址、设置线程数	
		}
	}
}

三、增量抓取代码，如下(在历史上改动):

说明：增量每10分钟执行一次，每次只抓取最新一页数据，根据增量标识(上一次第一条新闻news_id)，存在相同news_id或一页爬完就终止抓取。

package com.spider.huanqiu.task;

import java.util.ArrayList;
import java.util.List;
import org.apache.commons.lang3.StringUtils;
import org.jdiy.core.Rs;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
import com.spider.huasheng.history.Pindao;
import com.spider.utils.Config;
import com.spider.utils.ConfigBase;
import com.spider.utils.DateUtil;
import com.spider.utils.HttpClientUtil;
import com.spider.utils.service.CommService;

public class HQNewsTaskDao extends ConfigBase  implements PageProcessor{
	   public static final String index_list = "(.*).huanqiu.com/(.*)pindao=(.*)";
	   public static String pic_dir = fun.getProValue(PINDAO_PIC_FILE_PATH);
	   public static String new_id="";	   
	
	// 部分一：抓取网站的相关配置，包括编码、抓取间隔、重试次数等
	private Site site = Site.me().setRetryTimes(3).setSleepTime(1000).setTimeOut(6000)
			           .addHeader("Accept-Encoding", "/").setUserAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.59 Safari/537.36");
	@Override
	public Site getSite() {  
		return site;
	}
	
	 @Override
	    public void process(Page page) {
		try {
	        //列表页
			if (page.getUrl().regex(index_list).match()) {
				List Urllist =new ArrayList();
				String url =page.getUrl().toString();
				String pageUrl = url.substring(0,url.lastIndexOf("?"));
				String pindaoId =url.substring(url.lastIndexOf("=")+1);
				Rs isFlag =	CommService.checkPd(pindaoId,pageUrl,Config.SITE_HQ);
			    if(!isFlag.isNull()){
			    	 new_id=isFlag.getString("news_id");
			    }
				Urllist = saveNewsListData(pageUrl,pindaoId);
				page.addTargetRequests(Urllist);
			}
		} catch (Exception e) {
			e.printStackTrace();
		}
	 }

	private List saveNewsListData(String pageUrl,String pindaoId) {
	List urlList = new ArrayList();
	Document docList = null;
	String pageListStr=HttpClientUtil.getPage(pageUrl);
	if(StringUtils.isNotEmpty(pageListStr)){
	 try {
		docList = Jsoup.parse(pageListStr);
		Elements fallsFlow=docList.getElementsByClass("fallsFlow");
		if(!fallsFlow.isEmpty()){
			String newsIdFirst="";
			Boolean isIng = true;
 			Elements liTag=fallsFlow.get(0).getElementsByTag("li");
			if(!liTag.isEmpty()){
				for(int i=0;i0){
							    	  absContent = absContent.substring(0, absContent.indexOf("["));
							      } 
							 }
							if(!obj.getElementsByTag("h6").isEmpty()){
								pushTime = obj.getElementsByTag("h6").text();
							}
							String hrmlStr=HttpClientUtil.getPage(contentUrl);
							if(StringUtils.isNotEmpty(hrmlStr)){
							  Document docPage = Jsoup.parse(hrmlStr);
							  Elements pageContent = docPage.getElementsByClass("conText");
                                if(!pageContent.isEmpty()){
									String comefrom = pageContent.get(0).getElementsByClass("fromSummary").text();//来源
									if(StringUtils.isNotEmpty(comefrom) && comefrom.contains("环球")){
										String author=pageContent.get(0).getElementsByClass("author").text();//作者
									    Element contentDom = pageContent.get(0).getElementById("text");
									    if(!contentDom.getElementsByTag("a").isEmpty()){
									    	contentDom.getElementsByTag("a").removeAttr("href");//移除外跳连接
									    }
									    if(!contentDom.getElementsByClass("reTopics").isEmpty()){
									    	 contentDom.getElementsByClass("reTopics").remove();//推荐位
									    }
									    if(!contentDom.getElementsByClass("spTopic").isEmpty()){
										   contentDom.getElementsByClass("spTopic").remove(); 
									   }
									    if(!contentDom.getElementsByClass("editorSign").isEmpty()){
										   contentDom.getElementsByClass("editorSign").remove();//移除编辑 
									   }
										String content = contentDom.toString();
										if(!StringUtils.isEmpty(content)){
											content = content.replaceAll("\r\n|\r|\n|\t|\b|~|\f", "");//去掉回车换行符
											content = replaceForNews(content,pic_dir+"article/"+newsId+"/");//替换内容中的图片
											while (true) {
												 if(content.indexOf("")>0){
													      String moveContent= content.substring(content.indexOf("")+3);//去除注释
														  content = content.replace(moveContent, "");
													        }
												         if(content.indexOf("0 && content.lastIndexOf("")>0){
													      String moveContent= content.substring(content.indexOf("")+9);//去除JS
														  content = content.replace(moveContent, "");
													      }
											   }
											}
										}
										if(StringUtils.isNotEmpty(content) && StringUtils.isNotEmpty(title)){
											Rs news= new Rs("News");
											news.set("title", title);
											news.set("shortTitle",title);
											news.set("beizhu",absContent);
											news.set("savetime", pushTime);
											if(StringUtils.isNotEmpty(pic)){
												news.set("path", pic);
												news.set("mini_image", pic);
											}
											news.set("pindaoId", pindaoId);
											news.set("status", 1);//不显示
											news.set("canComment", 1);//是否被评论
											news.set("syn", 1);//是否异步
											news.set("type", 1);//是否异步
											news.set("comefrom",comefrom);
											news.set("author", author);
											news.set("content", content);
											news.set("content2", content);
											CommService.save(news);
										}
									  }
                                  }
							}
						    }else{
						    	isIng=false;
								break;
						    }
						      }
					}catch (Exception e) {
						e.printStackTrace();  
					}
				}
		    }
			if(!pageUrl.contains(".htm")){
				//增量标识
				 Rs flag = CommService.checkPd(pindaoId,pageUrl,Config.SITE_HQ);
					//初始化
					if(flag.isNull()){
						Rs task= new Rs("TaskInfo");
						task.set("pindao_id", pindaoId);
						task.set("news_id", newsIdFirst);
						task.set("page_url", pageUrl);
						task.set("site", Config.SITE_HQ);
						task.set("create_time", DateUtil.fullDate());
						CommService.save(task);	
					}else if(StringUtils.isNotEmpty(newsIdFirst)){
						flag.set("news_id", newsIdFirst);
						flag.set("update_time", DateUtil.fullDate());
						CommService.save(flag);
					}
			 }
		}
	  } catch (Exception e) {
		e.printStackTrace();
	  }
	}
	return urlList;
	}

	public static void main(String[] args) {
		List strList=new ArrayList();
		    strList.add("http://www.xxx/exclusive/?pindao="+Pindao.getKey("国际"));
		    //滚动新闻
			strList.add("http://www.xxx/article/?pindao="+Pindao.getKey("国际"));
		
		for(String str:strList){
			Spider.create(new HQNewsTaskDao()).addUrl(str).thread(1).run(); 
		}
 }
	
    //所有频道Action
	public static void runNewsList(List strList){
		for(String str:strList){
			Spider.create(new HQNewsTaskDao()).addUrl(str).thread(1).run(); 	
		}
	}
}

四、定时抓取，配置如下：
1、web.xml重配置监听

 
     
        com.spider.utils.AutoRun

2、定时代码

package com.spider.utils;

import java.util.concurrent.Executors;
import java.util.concurrent.ScheduledExecutorService;
import java.util.concurrent.TimeUnit;
import javax.servlet.ServletContextEvent;
import javax.servlet.ServletContextListener;
import com.spider.huanqiu.timer.HQJob1;
import com.spider.huanqiu.timer.HQJob2;
import com.spider.huanqiu.timer.HQJob3;
import com.spider.huanqiu.timer.HQJob4;
import com.spider.huasheng.timer.HSJob1;
import com.spider.huasheng.timer.HSJob2;
/**
 * 描        述：监听增量抓取Job
 * 创建时间：2016-11-4
 * @author Jibaole
 */
public class AutoRun implements ServletContextListener { 
  
  public void contextInitialized(ServletContextEvent event) { 
	  ScheduledExecutorService scheduExec =  Executors.newScheduledThreadPool(6);
    /* 
     * 这里开始循环执行 HSJob()方法了 
     * schedule(param1, param2,param3)这个函数的三个参数的意思分别是： 
     *    param1：你要执行的方法；param2：延迟执行的时间，单位毫秒；param3：循环间隔时间，单位毫秒 
     */ 
    scheduExec.scheduleAtFixedRate(new HSJob1(), 1*1000*60,1000*60*10,TimeUnit.MILLISECONDS);  //延迟1分钟，设置没10分钟执行一次
    scheduExec.scheduleAtFixedRate(new HSJob2(), 3*1000*60,1000*60*10,TimeUnit.MILLISECONDS);  //延迟3分钟，设置没10分钟执行一次
    
    scheduExec.scheduleAtFixedRate(new HQJob1(), 5*1000*60,1000*60*10,TimeUnit.MILLISECONDS);  //延迟5分钟，设置没10分钟执行一次
    scheduExec.scheduleAtFixedRate(new HQJob2(), 7*1000*60,1000*60*10,TimeUnit.MILLISECONDS);  //延迟7分钟，设置没10分钟执行一次
    scheduExec.scheduleAtFixedRate(new HQJob3(), 9*1000*60,1000*60*14,TimeUnit.MILLISECONDS);  //延迟9分钟，设置没10分钟执行一次
    scheduExec.scheduleAtFixedRate(new HQJob4(), 11*1000*60,1000*60*10,TimeUnit.MILLISECONDS);  //延迟11分钟，设置没10分钟执行一次
  } 
  public void contextDestroyed(ServletContextEvent event) { 
	  System.out.println("=======timer销毁==========");
    //timer.cancel(); 
  } 
}

3、具体执行业务(举一个例子)

package com.spider.huasheng.timer;

import java.util.ArrayList;
import java.util.List;
import java.util.TimerTask;
import com.spider.huasheng.task.HSTaskDao;
import com.spider.huasheng.task.HSTaskDao1;
import com.spider.huasheng.task.HSTaskDao2;

/**
 * 描        述：国际、社会、国内、评论等频道定时任务
 * 创建时间：2016-11-9
 * @author Jibaole
 */
public class HSJob1 implements Runnable{ 
    @Override 
    public void run() { 
        System.out.println("======>>>开始：xxx-任务1====");
  try { 
      runNews();
        runNews1();
        runNews2();
     } catch (Throwable t) {  
         System.out.println("Error");  
     } 
       System.out.println("======xxx-任务1>>>结束！！！====");
    } 
    /**
	 * 抓取-新闻 频道列表
	 */
	public void runNews(){
		List strList=new ArrayList();
		/**##############>>>16、国际<<<##################*/
		//国际视野
	    strList.add("http://xxx/class/2199.html?pindao=国际");
	    
	    /**##############>>>17、社会<<<##################*/
		//社会
		strList.add("http://xxx/class/2200.html?pindao=社会");
	    
		/**##############>>>18、国内<<<##################*/
		//国内动态
		strList.add("http://xxx/class/1922.html?pindao=国内");
		HQNewsTaskDao.runNewsList(strList);
	}
	
	/**
	 * 抓取-新闻 频道列表
	 */
	public void runNews1(){
		List strList=new ArrayList();
		/**##############>>>19、评论<<<##################*/
		//华声视点
		strList.add("http://xxx/class/709.html?pindao=评论");
		//财经观察
		strList.add("http://xxx/class/2557.html?pindao=评论");
		/**##############>>>20、军事<<<##################*/
		//军事
		strList.add("http://xxx/class/2201.html?pindao=军事");
		HQNewsTaskDao.runNewsList(strList);
	}
	/**
	 * 抓取-新闻 频道列表
	 */
	public void runNews2(){
		List strList=new ArrayList();
		/**##############>>>24、财经<<<##################*/
		//财讯
		strList.add("http://xxx/class/2353.html?pindao=财经");
		//经济观察
		strList.add("http://xxx/class/2348.html?pindao=财经");
		/**##############>>>30、人文<<<##################*/
		//历史上的今天
		strList.add("http://xxx/class/1313.html?pindao=人文");
		//正史风云
		strList.add("http://xxx/class/1362.html?pindao=人文");
		HSTaskDao2.runNewsList(strList);
	}
}

五、使用到的工具类

1、HttpClientUtil工具类

package com.spider.utils;


import java.io.BufferedReader;
import java.io.File;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URL;
import java.util.ArrayList;
import java.util.List;
import java.util.Map;
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.HttpStatus;
import org.apache.commons.httpclient.methods.GetMethod;
import org.apache.http.HttpEntity;
import org.apache.http.NameValuePair;
import org.apache.http.client.config.RequestConfig;
import org.apache.http.client.entity.UrlEncodedFormEntity;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.client.methods.HttpPost;
import org.apache.http.conn.ssl.DefaultHostnameVerifier;
import org.apache.http.conn.util.PublicSuffixMatcher;
import org.apache.http.conn.util.PublicSuffixMatcherLoader;
import org.apache.http.entity.ContentType;
import org.apache.http.entity.StringEntity;
import org.apache.http.entity.mime.MultipartEntityBuilder;
import org.apache.http.entity.mime.content.FileBody;
import org.apache.http.entity.mime.content.StringBody;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.message.BasicNameValuePair;
import org.apache.http.util.EntityUtils;


public class HttpClientUtil {
	private final static String charset = "UTF-8";
	private RequestConfig requestConfig = RequestConfig.custom().setSocketTimeout(15000)
            .setConnectTimeout(15000)
            .setConnectionRequestTimeout(15000)
            .build();
	
	private static HttpClientUtil instance = null;
	private HttpClientUtil(){}
	public static HttpClientUtil getInstance(){
		if (instance == null) {
			instance = new HttpClientUtil();
		}
		return instance;
	}
	
	/**
	 * 发送 post请求
	 * @param httpUrl 地址
	 */
	public String sendHttpPost(String httpUrl) {
		HttpPost httpPost = new HttpPost(httpUrl);// 创建httpPost  
		return sendHttpPost(httpPost);
	}
	
	/**
	 * 发送 post请求
	 * @param httpUrl 地址
	 * @param params 参数(格式:key1=value1&key2=value2)
	 */
	public String sendHttpPost(String httpUrl, String params) {
		HttpPost httpPost = new HttpPost(httpUrl);// 创建httpPost  
		try {
			//设置参数
			StringEntity stringEntity = new StringEntity(params, "UTF-8");
			stringEntity.setContentType("application/x-www-form-urlencoded"); 
			httpPost.setEntity(stringEntity);
		} catch (Exception e) {
			e.printStackTrace();
		}
		return sendHttpPost(httpPost);
	}
	 
	/**
	 * 发送 post请求
	 * @param httpUrl 地址
	 * @param maps 参数
	 */
	public String sendHttpPost(String httpUrl, Map maps) {
		HttpPost httpPost = new HttpPost(httpUrl);// 创建httpPost  
		httpPost.setHeader("Content-Type","application/x-www-form-urlencoded;charset="+charset);
		httpPost.setHeader("User-Agent","Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.");
		// 创建参数队列  
		List nameValuePairs = new ArrayList();
		for (String key : maps.keySet()) {
			nameValuePairs.add(new BasicNameValuePair(key, maps.get(key)));
		}
		try {
			httpPost.setEntity(new UrlEncodedFormEntity(nameValuePairs, "UTF-8"));
		} catch (Exception e) {
			e.printStackTrace();
		}
		return sendHttpPost(httpPost);
	}
	
	
	/**
	 * 发送 post请求（带文件）
	 * @param httpUrl 地址
	 * @param maps 参数
	 * @param fileLists 附件
	 */
	public String sendHttpPost(String httpUrl, Map maps, List fileLists) {
		HttpPost httpPost = new HttpPost(httpUrl);// 创建httpPost
		MultipartEntityBuilder meBuilder = MultipartEntityBuilder.create();
		for (String key : maps.keySet()) {
			meBuilder.addPart(key, new StringBody(maps.get(key), ContentType.TEXT_PLAIN));
		}
		for(File file : fileLists) {
			FileBody fileBody = new FileBody(file);
			meBuilder.addPart("files", fileBody);
		}
		HttpEntity reqEntity = meBuilder.build();
		httpPost.setEntity(reqEntity);
		return sendHttpPost(httpPost);
	}
	
	/**
	 * 发送Post请求
	 * @param httpPost
	 * @return
	 */
	private String sendHttpPost(HttpPost httpPost) {
		CloseableHttpClient httpClient = null;
		CloseableHttpResponse response = null;
		HttpEntity entity = null;
		String responseContent = null;
		try {
			// 创建默认的httpClient实例.
			httpClient = HttpClients.createDefault();
			httpPost.setConfig(requestConfig);
			// 执行请求
			response = httpClient.execute(httpPost);
			entity = response.getEntity();
			responseContent = EntityUtils.toString(entity, "UTF-8");
		} catch (Exception e) {
			e.printStackTrace();
		} finally {
			try {
				// 关闭连接,释放资源
				if (response != null) {
					response.close();
				}
				if (httpClient != null) {
					httpClient.close();
				}
			} catch (IOException e) {
				e.printStackTrace();
			}
		}
		return responseContent;
	}

	/**
	 * 发送 get请求
	 * @param httpUrl
	 */
	public String sendHttpGet(String httpUrl) {
		HttpGet httpGet = new HttpGet(httpUrl);// 创建get请求
		return sendHttpGet(httpGet);
	}

	/**
	 * 发送 get请求Https
	 * @param httpUrl
	 */
	public String sendHttpsGet(String httpUrl) {
		HttpGet httpGet = new HttpGet(httpUrl);// 创建get请求
		return sendHttpsGet(httpGet);
	}
	
	/**
	 * 发送Get请求
	 * @param httpPost
	 * @return
	 */
	private String sendHttpGet(HttpGet httpGet) {
		CloseableHttpClient httpClient = null;
		CloseableHttpResponse response = null;
		HttpEntity entity = null;
		String responseContent = null;
		try {
			// 创建默认的httpClient实例.
			httpClient = HttpClients.createDefault();
			httpGet.setConfig(requestConfig);
			// 执行请求
			response = httpClient.execute(httpGet);
			entity = response.getEntity();
			responseContent = EntityUtils.toString(entity, "UTF-8");
		} catch (Exception e) {
			e.printStackTrace();
		} finally {
			try {
				// 关闭连接,释放资源
				if (response != null) {
					response.close();
				}
				if (httpClient != null) {
					httpClient.close();
				}
			} catch (IOException e) {
				e.printStackTrace();
			}
		}
		return responseContent;
	}
	
	/**
	 * 发送Get请求Https
	 * @param httpPost
	 * @return
	 */
	private String sendHttpsGet(HttpGet httpGet) {
		CloseableHttpClient httpClient = null;
		CloseableHttpResponse response = null;
		HttpEntity entity = null;
		String responseContent = null;
		try {
			// 创建默认的httpClient实例.
			PublicSuffixMatcher publicSuffixMatcher = PublicSuffixMatcherLoader.load(new URL(httpGet.getURI().toString()));
			DefaultHostnameVerifier hostnameVerifier = new DefaultHostnameVerifier(publicSuffixMatcher);
			httpClient = HttpClients.custom().setSSLHostnameVerifier(hostnameVerifier).build();
			httpGet.setConfig(requestConfig);
			// 执行请求
			response = httpClient.execute(httpGet);
			entity = response.getEntity();
			responseContent = EntityUtils.toString(entity, "UTF-8");
		} catch (Exception e) {
			e.printStackTrace();
		} finally {
			try {
				// 关闭连接,释放资源
				if (response != null) {
					response.close();
				}
				if (httpClient != null) {
					httpClient.close();
				}
			} catch (IOException e) {
				e.printStackTrace();
			}
		}
		return responseContent;
	}
	
	/**
	 * 利用httpClient获取页面
	 * @param url
	 * @return
	 */
	 public static String getPage(String url){
         String result="";
		HttpClient httpClient = new HttpClient();
		GetMethod getMethod = new GetMethod(url+"?date=" + new Date().getTime());//加时间戳，防止页面缓存
		try {
			int statusCode = httpClient.executeMethod(getMethod);
			httpClient.setTimeout(5000);
			httpClient.setConnectionTimeout(5000);
			if (statusCode != HttpStatus.SC_OK) {
				System.err.println("Method failed: "+ getMethod.getStatusLine());
			}
			
			// 读取内容
			//byte[] responseBody = getMethod.getResponseBody();
			BufferedReader reader = new BufferedReader(new InputStreamReader(getMethod.getResponseBodyAsStream()));  
			StringBuffer stringBuffer = new StringBuffer();  
			String str = "";  
			while((str = reader.readLine())!=null){  
			    stringBuffer.append(str);  
			}  
			// 处理内容
			result = stringBuffer.toString();
		} catch (Exception e) {
			System.err.println("页面无法访问");
		}
		getMethod.releaseConnection();
		return result;
  }
}

2、下载图片方法

/**
     * 下载图片到本地
     * @param picUrl 图片Url
     * @param localPath 本地保存图片地址
     * @return
     */
    public String downloadPic(String picUrl,String localPath){
        String filePath = null;
        String url = null;
        try {  
            URL httpurl = new URL(picUrl);  
            String fileName = getFileNameFromUrl(picUrl);  
            filePath = localPath + fileName;
            File f = new File(filePath);  
            FileUtils.copyURLToFile(httpurl, f); 
            Function fun = new Function();
            url = filePath.replace("/www/web/imgs", fun.getProValue("IMG_PATH"));
        } catch (Exception e) {  
            logger.info(e);  
            return null;  
        } 
        return url;
    }

1、替换咨询内容图片方法

/**
	 * 替换内容中图片地址为本地地址
	 * @param content html内容
	 * @param pic_dir 本地地址文件路径
	 * @return html内容
	 */
	public static String replaceForNews(String content,String pic_dir){
		String str = content;
		String cont = content;
		while (true) {
			int i = str.indexOf("src=\"");
			if (i != -1) {
				str = str.substring(i+5, str.length());
				int j = str.indexOf("\"");
				String pic_url = str.substring(0, j);
				//下载图片到本地并返回图片地址
				String pic_path = fun.downloadPicForNews(pic_url,pic_dir);
				if(StringUtils.isNotEmpty(pic_url) && StringUtils.isNotEmpty(pic_path)){
				cont = cont.replace(pic_url, pic_path);
				str = str.substring(j,str.length());
				}
			} else{
				break;
			}
		}
		return cont;
	}

/**
	 * 下载图片到本地
	 * @param picUrl 图片Url
	 * @param localPath 本地保存图片地址
	 * @return
	 */
	public String downloadPicForNews(String picUrl,String localPath){
		String filePath = "";
		String url = "";
		try {  
            URL httpurl = new URL(picUrl);
           HttpURLConnection urlcon = (HttpURLConnection) httpurl.openConnection();
           urlcon.setReadTimeout(3000);
           urlcon.setConnectTimeout(3000);
           int state = urlcon.getResponseCode(); //图片状态
           if(state == 200){
        	   String fileName = getFileNameFromUrl(picUrl);  
               filePath = localPath + fileName;
               File f = new File(filePath);  
               FileUtils.copyURLToFile(httpurl, f); 
               Function fun = new Function();
               url = filePath.replace("/www/web/imgs", fun.getProValue("IMG_PATH"));
           }
        } catch (Exception e) {  
            logger.info(e);  
            return null;  
        } 
        return url;
	}

获取文件名称，根绝时间戳自定义

/**
	 * 根据url获取文件名
	 * @param url 
	 * @return 文件名
	 */
	public static String getFileNameFromUrl(String url){  
		//获取后缀
		String sux = url.substring(url.lastIndexOf("."));
		if(sux.length() > 4){
			sux = ".jpg";
		}
		int i = (int)(Math.random()*1000);
		//随机时间戳文件名称
        String name = new Long(System.currentTimeMillis()).toString()+ i + sux; 
        return name;  
    }

五、遇到的坑
1、增量抓取经常遇到这2个异常，如下
抓取超时：Jsoup 获取页面内容，替换为 httpclient获取，Jsoup去解析

页面gzip异常（这个问题特别坑，导致历史、增量抓取数据严重缺失，线上一直有问题）

解决方案：

增加：Site..addHeader("Accept-Encoding", "/")

这个是WebMagic的框架源码有点小Bug,如果没有设置Header，默认页面Accept-Encoding为：gzip

2、定时抓取
由ScheduledExecutorService多线程并行执行任务，替换Timer单线程串行

原方式代码，如下：

package com.spider.utils;

import java.util.Timer; 
import javax.servlet.ServletContextEvent;
import javax.servlet.ServletContextListener;
import com.spider.huanqiu.timer.HQJob1;
import com.spider.huanqiu.timer.HQJob2;
import com.spider.huanqiu.timer.HQJob3;
import com.spider.huanqiu.timer.HQJob4;
import com.spider.huasheng.timer.HSJob1;
import com.spider.huasheng.timer.HSJob2;
/**
 * 描    述：监听增量抓取Job
 * 创建时间：2016-11-4
 * @author Jibaole
 */
public class AutoRun implements ServletContextListener { 
  //HS-job 
  private Timer hsTimer1 = null; 
  private Timer hsTimer2 = null; 
  //HQZX-job
  private Timer hqTimer1 = null; 
  private Timer hqTimer2 = null; 
  private Timer hqTimer3 = null; 
  private Timer hqTimer4 = null; 
  
  public void contextInitialized(ServletContextEvent event) { 
    hsTimer1 = new Timer(true); 
    hsTimer2 = new Timer(true);
    
    hqTimer1 = new Timer(true);
    hqTimer2 = new Timer(true);
    hqTimer3 = new Timer(true);
    hqTimer4 = new Timer(true);
    /* 
     * 这里开始循环执行 HSJob()方法了 
     * schedule(param1, param2,param3)这个函数的三个参数的意思分别是： 
     *    param1：你要执行的方法；param2：延迟执行的时间，单位毫秒；param3：循环间隔时间，单位毫秒 
     */ 
    hsTimer1.scheduleAtFixedRate(new HSJob1(), 1*1000*60,1000*60*10);  //延迟1分钟，设置没10分钟执行一次
    hsTimer2.scheduleAtFixedRate(new HSJob2(), 3*1000*60,1000*60*10);  //延迟3分钟，设置没10分钟执行一次
    
    hqTimer1.scheduleAtFixedRate(new HQJob1(), 5*1000*60,1000*60*10);  //延迟5分钟，设置没10分钟执行一次
    hqTimer2.scheduleAtFixedRate(new HQJob2(), 7*1000*60,1000*60*10);  //延迟7分钟，设置没10分钟执行一次
    hqTimer3.scheduleAtFixedRate(new HQJob3(), 9*1000*60,1000*60*10);  //延迟9分钟，设置没10分钟执行一次
    hqTimer4.scheduleAtFixedRate(new HQJob4(), 11*1000*60,1000*60*10);  //延迟11分钟，设置没10分钟执行一次   
  } 
  public void contextDestroyed(ServletContextEvent event) { 
	  System.out.println("=======timer销毁==========");
    //timer.cancel(); 
  } 
}

3、定时多个任务时，使用多线程，遇到某个线程抛异常终止任务

解决方案：在多线程run()方法里面，增加try{}catch{}

4、通过HttpClient定时获取页面内容时，页面缓存，抓不到最新内容

解决方案：在工具类请求URL地址后面增加：url+"?date=" + new Date().getTime()

六、一些方面的处理
1、页面抓取规则调整
     先抓列表，在抓内容；改为抓取列表的同时，需要获取内容详情
2、保存数据方式作调整
      先抓取标题等概要信息，保存数据库，然后，更新内容信息，根据业务需求再删除一些非来源文章(版权问题)；改为：直接控制来源，得到完整数据，再做批量保存；
3、页面有一个不想要的内容，处理方法

注释、JS代码、移除无用标签块

想了解更多，加微信公众号(jblPaul)

你可能感兴趣的:(Java)

Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
JavaScript `Map` 和 `WeakMap`详细解释跳房子的前端 JavaScript 原生方法 javascript 前端开发语言
在JavaScript中，Map和WeakMap都是用于存储键值对的数据结构，但它们有一些关键的不同之处。MapMap是一种可以存储任意类型的键值对的集合。它保持了键值对的插入顺序，并且可以通过键快速查找对应的值。Map提供了一些非常有用的方法和属性来操作这些数据对：set(key,value):将一个键值对添加到Map中。如果键已经存在，则更新其对应的值。get(key):获取指定键的值。如果键
切换淘宝最新npm镜像源是 hai40587 npm 前端 node.js
切换淘宝最新npm镜像源是一个相对简单的过程，但首先需要明确当前淘宝npm镜像源的状态和最新的镜像地址。由于网络环境和服务更新，镜像源的具体地址可能会发生变化，因此，我将基于当前可获取的信息，提供一个通用的切换步骤，并附上最新的镜像地址（截至回答时）。一、了解npm镜像源npm（NodePackageManager）是JavaScript的包管理器，用于安装、更新和管理项目依赖。由于npm官方仓库
【Java】已解决：java.util.concurrent.CompletionException 屿小夏 java 开发语言
文章目录一、分析问题背景出现问题的场景代码片段二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决：java.util.concurrent.CompletionException一、分析问题背景在Java并发编程中，java.util.concurrent.CompletionException是一种常见的运行时异常，通常在使用CompletableFuture进行异步计算时出现
设计模式之建造者模式(通俗易懂--代码辅助理解【Java版】） ok!ko 设计模式设计模式建造者模式 java
文章目录设计模式概述1、建造者模式2、建造者模式使用场景3、优点4、缺点5、主要角色6、代码示例：1）实现要求2）UML图3)实现步骤：1）创建一个表示食物条目和食物包装的接口2）创建实现Packing接口的实体类3）创建实现Item接口的抽象类，该类提供了默认的功能4）创建扩展了Burger和ColdDrink的实体类5）创建一个Meal类，带有上面定义的Item对象6）创建一个MealBuil
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。