jingqiang521

基于HttpClient实现网络爬虫~以百度新闻为例

时间 2014-11-07 13:48:55 CSDN博客

原文 http://blog.csdn.net/xiaojimanman/article/details/40891791

主题 HttpComponents 网络爬虫

转载请注明出处： http://blog.csdn.net/xiaojimanman/article/details/40891791

在以前的工作中，实现过简单的网络爬虫，没有系统的介绍过，这篇博客就系统的介绍以下如何使用java的HttpClient实现网络爬虫。

关于网络爬虫的一些理论知识、实现思想以及策略问题，可以参考百度百科“网络爬虫”，那里已经介绍的十分详细，这里也不再啰嗦，下面就主要介绍如何去实现。

http请求：

代码开始之前，还是首先介绍以下如何通过浏览器获取http请求信息，这一步是分析网站资源的第一步。在浏览器界面右键有“审查元素”这一功能（如果没找到，F12一样可以的），谷歌浏览器效果如下：

点击“审查元素”之后会出现如下界面：

其中的Network栏目是做爬虫应该重点关注的，打开会看到当前网页所有的http请求信息，如下图：

单击每个信息，可以看到http请求的详细信息，如下图所示：

通过程序伪装成浏览器请求的时候，就多需要关注Request Headers里面的信息，还有一些需要登录的网站也是需要关注这些的。Response里面的信息就是服务器返回的内容，这里只做对文本信息的处理，对图片、音频、视频等信息不做介绍。

Response里面就包含这我们爬虫想获取的信息内容。如果里面的格式不好看的话，可以在浏览器中输入该http请求的url地址，然后右键-->查看网页源代码的形式查看相关信息。通过分析网页源代码中的字符串，总结出统一的规则，提取相应的文本信息。

代码实现：

CrawlBase类，模拟http请求的基类

/**  
 *@Description: 获取网页信息基类
 */ 
package com.lulei.crawl;  

import java.io.BufferedReader;
import java.io.ByteArrayInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.util.HashMap;
import java.util.Iterator;
import java.util.Map;
import java.util.Map.Entry;

import org.apache.commons.httpclient.Header;
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.HttpException;
import org.apache.commons.httpclient.HttpMethod;
import org.apache.commons.httpclient.HttpStatus;
import org.apache.commons.httpclient.methods.GetMethod;
import org.apache.commons.httpclient.methods.PostMethod;
import org.apache.log4j.Logger;

import com.lulei.util.CharsetUtil;


public abstract class CrawlBase {
  private static Logger log = Logger.getLogger(CrawlBase.class);
  
  //链接源代码
  private String pageSourceCode = "";
  //返回头信息
  private Header[] responseHeaders = null;
  //连接超时时间
  private static int connectTimeout = 3500;
  //连接读取时间
  private static int readTimeout = 3500;
  //默认最大访问次数
  private static int maxConnectTimes = 3;
  //网页默认编码方式
  private static String charsetName = "iso-8859-1";
  private static HttpClient httpClient = new HttpClient();
  
  static {
    httpClient.getHttpConnectionManager().getParams().setConnectionTimeout(connectTimeout);
    httpClient.getHttpConnectionManager().getParams().setSoTimeout(readTimeout);
  }
  
  /**
   * @param urlStr
   * @param charsetName
   * @param method
   * @param params
   * @return
   * @throws HttpException
   * @throws IOException
   * @Author: lulei  
   * @Description: method方式访问页面
   */
  public boolean readPage(String urlStr, String charsetName, String method, HashMap params) throws HttpException, IOException {
    if ("post".equals(method) || "POST".equals(method)) {
      return readPageByPost(urlStr, charsetName, params);
    } else {
      return readPageByGet(urlStr, charsetName, params);	
    }
  }
  
  /**
   * @param urlStr
   * @param charsetName
   * @param params
   * @return 访问是否成功
   * @throws HttpException
   * @throws IOException
   * @Author: lulei  
   * @Description: Get方式访问页面
   */
  public boolean readPageByGet(String urlStr, String charsetName, HashMap params) throws HttpException, IOException {
    GetMethod getMethod = createGetMethod(urlStr, params);
    return readPage(getMethod, charsetName, urlStr);
  }
  
  /**
   * @param urlStr
   * @param charsetName
   * @param params
   * @return 访问是否成功
   * @throws HttpException
   * @throws IOException
   * @Author: lulei  
   * @Description: Post方式访问页面
   */
  public boolean readPageByPost(String urlStr, String charsetName, HashMap params) throws HttpException, IOException{
    PostMethod postMethod = createPostMethod(urlStr, params);
    return readPage(postMethod, charsetName, urlStr);
  }
  
  /**
   * @param method
   * @param defaultCharset
   * @param urlStr
   * @return 访问是否成功
   * @throws HttpException
   * @throws IOException
   * @Author: lulei  
   * @Description: 读取页面信息和头信息
   */
  private boolean readPage(HttpMethod method, String defaultCharset, String urlStr) throws HttpException, IOException{
    int n = maxConnectTimes;
    while (n > 0) {
      try {
        if (httpClient.executeMethod(method) != HttpStatus.SC_OK){
          log.error("can not connect " + urlStr + "\t" + (maxConnectTimes - n + 1) + "\t" + httpClient.executeMethod(method));
          n--;
        } else {
          //获取头信息
          responseHeaders = method.getResponseHeaders();
          //获取页面源代码
          InputStream inputStream = method.getResponseBodyAsStream();
          BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(inputStream, charsetName));
          StringBuffer stringBuffer = new StringBuffer();
          String lineString = null;
          while ((lineString = bufferedReader.readLine()) != null){
            stringBuffer.append(lineString);
            stringBuffer.append("\n");
          }
          pageSourceCode = stringBuffer.toString();
          InputStream in =new  ByteArrayInputStream(pageSourceCode.getBytes(charsetName));
          String charset = CharsetUtil.getStreamCharset(in, defaultCharset);
          //下面这个判断是为了IP归属地查询特意加上去的
          if ("Big5".equals(charset)) {
            charset = "gbk";
          }
          if (!charsetName.toLowerCase().equals(charset.toLowerCase())) {
            pageSourceCode = new String(pageSourceCode.getBytes(charsetName), charset);
          }
          return true;
        }
      } catch (Exception e) {
        e.printStackTrace();
        System.out.println(urlStr + " -- can't connect  " + (maxConnectTimes - n + 1));
        n--;
      }
    }
    return false;
  }
  
  /**
   * @param urlStr
   * @param params
   * @return GetMethod
   * @Author: lulei  
   * @Description: 设置get请求参数
   */
  @SuppressWarnings("rawtypes")
  private GetMethod createGetMethod(String urlStr, HashMap params){
    GetMethod getMethod = new GetMethod(urlStr);
    if (params == null){
      return getMethod;
    }
    Iterator iter = params.entrySet().iterator();
    while (iter.hasNext()) {
      Map.Entry entry = (Map.Entry) iter.next();
      String key = (String) entry.getKey();
      String val = (String) entry.getValue();
      getMethod.setRequestHeader(key, val);
    }
    return getMethod;
  }
  
  /**
   * @param urlStr
   * @param params
   * @return PostMethod
   * @Author: lulei  
   * @Description: 设置post请求参数
   */
  private PostMethod createPostMethod(String urlStr, HashMap params){
    PostMethod postMethod = new PostMethod(urlStr);
    if (params == null){
      return postMethod;
    }
    Iterator> iter = params.entrySet().iterator();
    while (iter.hasNext()) {
      Map.Entry entry =  iter.next();
      String key = (String) entry.getKey();
      String val = (String) entry.getValue();
      postMethod.setParameter(key, val);
    }
    return postMethod;
  }
  
  /**
   * @param urlStr
   * @param charsetName
   * @return 访问是否成功
   * @throws IOException
   * @Author: lulei  
   * @Description: 不设置任何头信息直接访问网页
   */
  public boolean readPageByGet(String urlStr, String charsetName) throws IOException{
    return this.readPageByGet(urlStr, charsetName, null);
  }
  
  /**
   * @return String
   * @Author: lulei  
   * @Description: 获取网页源代码
   */
  public String getPageSourceCode(){
    return pageSourceCode;
  }
  
  /**
   * @return Header[]
   * @Author: lulei  
   * @Description: 获取网页返回头信息
   */
  public Header[] getHeader(){
    return responseHeaders;
  }
  
  /**
   * @param timeout
   * @Author: lulei  
   * @Description: 设置连接超时时间
   */
  public void setConnectTimeout(int timeout){
    httpClient.getHttpConnectionManager().getParams().setConnectionTimeout(timeout);
  }
  
  /**
   * @param timeout
   * @Author: lulei  
   * @Description: 设置读取超时时间
   */
  public void setReadTimeout(int timeout){
    httpClient.getHttpConnectionManager().getParams().setSoTimeout(timeout);
  }
  
  /**
   * @param maxConnectTimes
   * @Author: lulei  
   * @Description: 设置最大访问次数，链接失败的情况下使用
   */
  public static void setMaxConnectTimes(int maxConnectTimes) {
    CrawlBase.maxConnectTimes = maxConnectTimes;
  }

  /**
   * @param connectTimeout
   * @param readTimeout
   * @Author: lulei  
   * @Description: 设置连接超时时间和读取超时时间
   */
  public void setTimeout(int connectTimeout, int readTimeout){
    setConnectTimeout(connectTimeout);
    setReadTimeout(readTimeout);
  }

  /**
   * @param charsetName
   * @Author: lulei  
   * @Description: 设置默认编码方式
   */
  public static void setCharsetName(String charsetName) {
    CrawlBase.charsetName = charsetName;
  }
}

CrawlListPageBase类是CrawlBase的子类，实现了从页面中获取链接的URL信息基类

/**  
  *@Description: 获取页面链接地址信息基类  
 */ 
package com.lulei.crawl;  

import java.io.IOException;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;

import com.lulei.util.DoRegex;


public abstract class CrawlListPageBase extends CrawlBase {
  private String pageurl;
  
  /**
  * @param urlStr
  * @param charsetName
  * @throws IOException
   */
  public CrawlListPageBase(String urlStr, String charsetName) throws IOException{
    readPageByGet(urlStr, charsetName);
    pageurl = urlStr;
  }
  
  /**
  * @param urlStr
  * @param charsetName
  * @param method
  * @param params
  * @throws IOException
   */
  public CrawlListPageBase(String urlStr, String charsetName, String method, HashMap params) throws IOException{
    readPage(urlStr, charsetName, method, params);	
    pageurl = urlStr;
  }
  
  /**
   * @return List
   * @Author: lulei  
   * @Description: 返回页面上需求的链接地址
   */
  public List getPageUrls(){
    List pageUrls = new ArrayList();
    pageUrls = DoRegex.getArrayList(getPageSourceCode(), getUrlRegexString(), pageurl, getUrlRegexStringNum());
    return pageUrls;
  }
  
  /**
   * @return String
   * @Author: lulei  
   * @Description: 返回页面上需求的网址连接的正则表达式
   */
  public abstract String getUrlRegexString();
  
  /**
   * @return int
   * @Author: lulei  
   * @Description: 正则表达式中要去的字段位置
   */
  public abstract int getUrlRegexStringNum();	
}

DoRegex类，封装的一些基于正则表达式字符串匹配查找类

/**  
 * @Description: 正则处理工具   
 */ 
package com.lulei.util;  

import java.io.UnsupportedEncodingException;
import java.net.URLEncoder;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
  
public class DoRegex {
  
  private static String rootUrlRegex = "(http://.*?/)";
  private static String currentUrlRegex = "(http://.*/)";
  private static String ChRegex = "([\u4e00-\u9fa5]+)";

  /**
   * @param dealStr
   * @param regexStr
   * @param splitStr
   * @param n
   * @return String
   * @Author: lulei  
   * @Description: 正则匹配结果，每条记录用splitStr分割
   */
  public static String getString(String dealStr, String regexStr, String splitStr, int n){
    String reStr = "";
    if (dealStr == null || regexStr == null || n < 1 || dealStr.isEmpty()){
      return reStr;
    }
    splitStr = (splitStr == null) ? "" : splitStr;
    Pattern pattern = Pattern.compile(regexStr, Pattern.CASE_INSENSITIVE | Pattern.DOTALL);
    Matcher matcher = pattern.matcher(dealStr);
    StringBuffer stringBuffer = new StringBuffer();
    while (matcher.find()) {
      stringBuffer.append(matcher.group(n).trim());
      stringBuffer.append(splitStr);
    }
    reStr = stringBuffer.toString();
    if (splitStr != "" && reStr.endsWith(splitStr)){
      reStr = reStr.substring(0, reStr.length() - splitStr.length());
    }
    return reStr;
  }
  
  /**
   * @param dealStr
   * @param regexStr
   * @param n
   * @return String
   * @Author: lulei  
   * @Description: 正则匹配结果，将所有匹配记录组装成字符串
   */
  public static String getString(String dealStr, String regexStr, int n){
    return getString(dealStr, regexStr, null, n);
  }
  
  /**
   * @param dealStr
   * @param regexStr
   * @param n
   * @return String
   * @Author: lulei  
   * @Description: 正则匹配第一条结果
   */
  public static String getFirstString(String dealStr, String regexStr, int n){
    if (dealStr == null || regexStr == null || n < 1 || dealStr.isEmpty()){
      return "";
    }
    Pattern pattern = Pattern.compile(regexStr, Pattern.CASE_INSENSITIVE | Pattern.DOTALL);
    Matcher matcher = pattern.matcher(dealStr);
    while (matcher.find()) {
      return matcher.group(n).trim();
    }
    return "";
  }
  
  /**
   * @param dealStr
   * @param regexStr
   * @param n
   * @return ArrayList
   * @Author: lulei  
   * @Description: 正则匹配结果，将匹配结果组装成数组
   */
  public static List getList(String dealStr, String regexStr, int n){
    List reArrayList = new ArrayList();
    if (dealStr == null || regexStr == null || n < 1 || dealStr.isEmpty()){
      return reArrayList;
    }
    Pattern pattern = Pattern.compile(regexStr, Pattern.CASE_INSENSITIVE | Pattern.DOTALL);
    Matcher matcher = pattern.matcher(dealStr);
    while (matcher.find()) {
      reArrayList.add(matcher.group(n).trim());
    }
    return reArrayList;
  }
  
  /**
   * @param url
   * @param currentUrl
   * @return String
   * @Author: lulei  
   * @Description: 组装网址，网页的url
   */
  private static String getHttpUrl(String url, String currentUrl){
    try {
      url = encodeUrlCh(url);
    } catch (UnsupportedEncodingException e) {
      // TODO Auto-generated catch block  
      e.printStackTrace();
    }
    if (url.indexOf("http") == 0){
      return url;
    }
    if  (url.indexOf("/") == 0){
      return getFirstString(currentUrl, rootUrlRegex, 1) + url.substring(1);
    }
    return getFirstString(currentUrl, currentUrlRegex, 1) + url;
  }
  
  /**
   * @param dealStr
   * @param regexStr
   * @param currentUrl
   * @param n
   * @return ArrayList
   * @Author: lulei  
   * @Description: 获取和正则匹配的绝对链接地址
   */
  public static List getArrayList(String dealStr, String regexStr, String currentUrl, int n){
    List reArrayList = new ArrayList();
    if (dealStr == null || regexStr == null || n < 1 || dealStr.isEmpty()){
      return reArrayList;
    }
    Pattern pattern = Pattern.compile(regexStr, Pattern.CASE_INSENSITIVE | Pattern.DOTALL);
    Matcher matcher = pattern.matcher(dealStr);
    while (matcher.find()) {
      reArrayList.add(getHttpUrl(matcher.group(n).trim(), currentUrl));
    }
    return reArrayList;
  }
  
  /**
   * @param url
   * @return
   * @throws UnsupportedEncodingException
   * @Author: lulei  
   * @Description: 将连接地址中的中文进行编码处理
   */
  public static String encodeUrlCh (String url) throws UnsupportedEncodingException {
    while (true) {
      String s = getFirstString(url, ChRegex, 1);
      if ("".equals(s)){
        return url;
      }
      url = url.replaceAll(s, URLEncoder.encode(s, "utf-8"));
    }
  }
  
  /**
   * @param dealStr
   * @param regexStr
   * @param array 正则位置数组
   * @return
   * @Author:lulei  
   * @Description: 获取全部
   */
  public static List getListArray(String dealStr, String regexStr, int[] array) {
    List reArrayList = new ArrayList();
    if (dealStr == null || regexStr == null || array == null) {
      return reArrayList;
    }
    for (int i = 0; i < array.length; i++) {
      if (array[i] < 1) {
        return reArrayList;
      }
    }
    Pattern pattern = Pattern.compile(regexStr, Pattern.CASE_INSENSITIVE | Pattern.DOTALL);
    Matcher matcher = pattern.matcher(dealStr);
    while (matcher.find()) {
      String[] ss = new String[array.length]; 
      for (int i = 0; i < array.length; i++) {
        ss[i] = matcher.group(array[i]).trim();
      }
      reArrayList.add(ss);
    }
    return reArrayList;
  }
  
  /**
   * @param dealStr
   * @param regexStr
   * @param array
   * @return
   * @Author:lulei  
   * @Description: 获取全部
   */
  public static List getStringArray(String dealStr, String regexStr, int[] array) {
    List reStringList = new ArrayList();
    if (dealStr == null || regexStr == null || array == null) {
      return reStringList;
    }
    for (int i = 0; i < array.length; i++) {
      if (array[i] < 1) {
        return reStringList;
      }
    }
    Pattern pattern = Pattern.compile(regexStr, Pattern.CASE_INSENSITIVE | Pattern.DOTALL);
    Matcher matcher = pattern.matcher(dealStr);
    while (matcher.find()) {
      StringBuffer sb = new StringBuffer();
      for (int i = 0; i < array.length; i++) {
        sb.append(matcher.group(array[i]).trim());
      }
      reStringList.add(sb.toString());
    }
    return reStringList;
  }
  
  /**
   * @param dealStr
   * @param regexStr
   * @param array 正则位置数组
   * @return
   * @Author:lulei  
   * @Description: 获取第一个
   */
  public static String[] getFirstArray(String dealStr, String regexStr, int[] array) {
    if (dealStr == null || regexStr == null || array == null) {
      return null;
    }
    for (int i = 0; i < array.length; i++) {
      if (array[i] < 1) {
        return null;
      }
    }
    Pattern pattern = Pattern.compile(regexStr, Pattern.CASE_INSENSITIVE | Pattern.DOTALL);
    Matcher matcher = pattern.matcher(dealStr);
    while (matcher.find()) {
      String[] ss = new String[array.length]; 
      for (int i = 0; i < array.length; i++) {
        ss[i] = matcher.group(array[i]).trim();
      }
      return ss;
    }
    return null;
  }
}

CharsetUtil类，编码方式检测类

/**  
 *@Description:  编码方式检测类  
 */ 
package com.lulei.util;  

import java.io.IOException;
import java.io.InputStream;
import java.net.URL;
import java.nio.charset.Charset;

import info.monitorenter.cpdetector.io.ASCIIDetector;
import info.monitorenter.cpdetector.io.CodepageDetectorProxy;
import info.monitorenter.cpdetector.io.JChardetFacade;
import info.monitorenter.cpdetector.io.ParsingDetector;
import info.monitorenter.cpdetector.io.UnicodeDetector;
  
public class CharsetUtil {
  private static final CodepageDetectorProxy detector;
  
  static {//初始化探测器
    detector = CodepageDetectorProxy.getInstance();
    detector.add(new ParsingDetector(false));
    detector.add(ASCIIDetector.getInstance());
    detector.add(UnicodeDetector.getInstance());
    detector.add(JChardetFacade.getInstance());
  }

  /**
   * @param url
   * @param defaultCharset
   * @Author:lulei  
   * @return 获取文件的编码方式
   */
  public static String getStreamCharset (URL url, String defaultCharset) {
    if (url == null) {
      return defaultCharset;
    }
    try {
      //使用第三方jar包检测文件的编码
      Charset charset = detector.detectCodepage(url);
      if (charset != null) {
        return charset.name();
      }
    } catch (Exception e1) {
      // TODO Auto-generated catch block
      e1.printStackTrace();
    }
    return defaultCharset;
  }
  
  /**
   * @param inputStream
   * @param defaultCharset
   * @return
   * @Author:lulei  
   * @Description: 获取文件流的编码方式
   */
  public static String getStreamCharset (InputStream inputStream, String defaultCharset) {
    if (inputStream == null) {
      return defaultCharset;
    }
    int count = 200;
    try {
      count = inputStream.available();
    } catch (IOException e) {
      // TODO Auto-generated catch block
      e.printStackTrace();
    }
    try {
      //使用第三方jar包检测文件的编码
      Charset charset = detector.detectCodepage(inputStream, count);
      if (charset != null) {
        return charset.name();
      }
    } catch (Exception e1) {
      // TODO Auto-generated catch block
      e1.printStackTrace();
    }
    return defaultCharset;
  }
}

上面四个类，就实现了网络文本资源信息抓取的基本架构，下面就通过一个实际的例子介绍如何使用上述类实现网络文本资源信息的获取。

百度新闻案例：

1）找到百度新闻更新列表页，如http://news.baidu.com/n?cmd=4&class=civilnews&pn=1&from=tab 界面如下图所示：

文章URL链接地址如下图所示：

通过对源文件的分析，编写BaiduNewList类，实现百度新闻列表页信息的抓取，代码如下：

/**  
 *@Description:   百度新闻滚动列表页，可以获取当前页面上的链接
 */ 
package com.lulei.crawl.news;  

import java.io.IOException;
import java.util.HashMap;

import com.lulei.crawl.CrawlListPageBase;
  
public class BaiduNewList extends CrawlListPageBase{
  private static HashMap params;
  
  /**
   * 添加相关头信息，对请求进行伪装
   */
  static {
    params = new HashMap();
    params.put("Referer", "http://www.baidu.com");
    params.put("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36");
  }

  public BaiduNewList(String urlStr) throws IOException {
    super(urlStr, "utf-8", "get", params);  
  }

  @Override
  public String getUrlRegexString() {
    // TODO Auto-generated method stub  
    //新闻列表页中文章链接地址的正则表达式
    return "• ;
  }

  @Override
  public int getUrlRegexStringNum() {
    // TODO Auto-generated method stub  
    //链接地址在正则表达式中的位置
    return 1;
  }

  /**  
   * @param args
   * @throws IOException 
   * @Author:lulei  
   * @Description:  测试用例
   */
  public static void main(String[] args) throws IOException {
    // TODO Auto-generated method stub  
    BaiduNewList baidu = new BaiduNewList("http://news.baidu.com/n?cmd=4&class=sportnews&pn=1&from=tab");
    for (String s : baidu.getPageUrls()) {
      System.out.println(s);
    }
  }
}

2）

通过第一步获取的URL，得到新闻所在的内容页面URL，由于百度新闻列表页面上的新闻来自不同的站，所以很难找到一个通用的结构，大多数的新闻类网站，内容都是放在p标签内，所以就采用了如下的方式获取新闻的内容，如下图：

News类具体实现如下所示：

/**  
 *@Description:   新闻类网站新闻内容 
 */ 
package com.lulei.crawl.news;  

import java.io.IOException;
import java.util.HashMap;

import org.apache.commons.httpclient.HttpException;

import com.lulei.crawl.CrawlBase;
import com.lulei.util.DoRegex;
  
public class News extends CrawlBase{
  private String url;
  private String content;
  private String title;
  private String type;
  
  private static String contentRegex = "(.*?)
";
  private static String titleRegex = "(.*?)";
  private static int maxLength = 300;
  
  private static HashMap params;
  /**
   * 添加相关头信息，对请求进行伪装
   */
  static {
    params = new HashMap();
    params.put("Referer", "http://www.baidu.com");
    params.put("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36");
  }
  
  /**
   * @Author:lulei  
   * @Description: 默认p标签内的内容为正文，如果正文长度查过设置的最大长度，则截取前半部分
   */
  private void setContent() {
    String content = DoRegex.getString(getPageSourceCode(), contentRegex, 1);
    content = content.replaceAll("\n", "")
                    .replaceAll("", "")
                    .replaceAll("", "")
                    .replaceAll("<.*?>", "");
    this.content = content.length() > maxLength ? content.substring(0, maxLength) : content;
  }
  
  /**
   * @Author:lulei  
   * @Description: 默认title标签内的内容为标题
   */
  private void setTitle() {
    this.title = DoRegex.getString(getPageSourceCode(), titleRegex, 1);;
  }
  
  public News(String url) throws HttpException, IOException {
    this.url = url;
    readPageByGet(url, "utf-8", params);
    setContent();
    setTitle();
  }

  public String getUrl() {
    return url;
  }

  public void setUrl(String url) {
    this.url = url;
  }

  public String getContent() {
    return content;
  }

  public String getTitle() {
    return title;
  }

  public String getType() {
    return type;
  }

  public void setType(String type) {
    this.type = type;
  }

  public static void setMaxLength(int maxLength) {
    News.maxLength = maxLength;
  }

  /**
   * @param args
   * @throws HttpException
   * @throws IOException
   * @Author:lulei  
   * @Description: 测试用例
   */
  public static void main(String[] args) throws HttpException, IOException {
    // TODO Auto-generated method stub  
    News news = new News("http://we.sportscn.com/viewnews-1634777.html");
    System.out.println(news.getContent());
    System.out.println(news.getTitle());
  }

}

3）

编写抓取的入口，这里为了简单，只做了两层的分析，所以新闻更新列表也的URL就直接写在程序中。如下图所示：

执行一次采集任务如下图所示：

在main函数里面只需要一次性或周期性的去执行run函数即可，具体代码如下：

/**  
 *@Description:     
 */ 
package com.lulei.knn.data;  

import java.io.IOException;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;

import com.lulei.crawl.news.BaiduNewList;
import com.lulei.crawl.news.News;
import com.lulei.knn.index.KnnIndex;
import com.lulei.knn.index.KnnSearch;
import com.lulei.util.ParseMD5;
  
public class CrawlNews {
  private static List infos;
  private static KnnIndex knnIndex = new KnnIndex();
  private static KnnSearch knnSearch = new KnnSearch();
  private static HashMap result;
  
  static {
    infos = new ArrayList();
    infos.add(new Info("http://news.baidu.com/n?cmd=4&class=sportnews&pn=1&from=tab", "体育类"));
    infos.add(new Info("http://news.baidu.com/n?cmd=4&class=sportnews&pn=2&from=tab", "体育类"));
    infos.add(new Info("http://news.baidu.com/n?cmd=4&class=sportnews&pn=3&from=tab", "体育类"));
    
    infos.add(new Info("http://news.baidu.com/n?cmd=4&class=mil&pn=1⊂=0", "军事类"));
    infos.add(new Info("http://news.baidu.com/n?cmd=4&class=mil&pn=2⊂=0", "军事类"));
    infos.add(new Info("http://news.baidu.com/n?cmd=4&class=mil&pn=3⊂=0", "军事类"));
    
    infos.add(new Info("http://news.baidu.com/n?cmd=4&class=finannews&pn=1⊂=0", "财经类"));
    infos.add(new Info("http://news.baidu.com/n?cmd=4&class=finannews&pn=2⊂=0", "财经类"));
    infos.add(new Info("http://news.baidu.com/n?cmd=4&class=finannews&pn=3⊂=0", "财经类"));
    
    infos.add(new Info("http://news.baidu.com/n?cmd=4&class=internet&pn=1&from=tab", "互联网"));
    
    infos.add(new Info("http://news.baidu.com/n?cmd=4&class=housenews&pn=1⊂=0", "房产类"));
    infos.add(new Info("http://news.baidu.com/n?cmd=4&class=housenews&pn=2⊂=0", "房产类"));
    infos.add(new Info("http://news.baidu.com/n?cmd=4&class=housenews&pn=3⊂=0", "房产类"));
    
    infos.add(new Info("http://news.baidu.com/n?cmd=4&class=gamenews&pn=1⊂=0", "游戏类"));
    infos.add(new Info("http://news.baidu.com/n?cmd=4&class=gamenews&pn=2⊂=0", "游戏类"));
    infos.add(new Info("http://news.baidu.com/n?cmd=4&class=gamenews&pn=3⊂=0", "游戏类"));
  }
  
  /**
   *@Description:  抓取网址信息
   *@Author:lulei  
   */
  static class Info{
    String url;
    String type;
    Info(String url, String type) {
      this.url = url;
      this.type = type;
    }
  }
  
  /**
   * @param info
   * @Author:lulei  
   * @Description: 抓取一个列表页面下的新闻信息
   */
  private void crawl(Info info) {
    if (info == null) {
      return;
    }
    try {
      BaiduNewList baiduNewList = new BaiduNewList(info.url);
      List urls = baiduNewList.getPageUrls();
      for (String url : urls) {
        News news = new News(url);
        NewsBean newBean = new NewsBean();
        newBean.setId(ParseMD5.parseStrToMd5L32(url));
        newBean.setType(info.type);
        newBean.setUrl(url);
        newBean.setTitle(news.getTitle());
        newBean.setContent(news.getContent());
        //保存到索引文件中
        knnIndex.add(newBean);
        //knn验证
        if (news.getContent() == null || "".equals(news.getContent())) {
          result.put("E", 1+result.get("E"));
          continue;
        }
        if (info.type.equals(knnSearch.getType(news.getContent()))) {
          result.put("R", 1+result.get("R"));
        } else {
          result.put("W", 1+result.get("W"));
        }
      }
    } catch (Exception e) {
      e.printStackTrace();
    }
  }
  
  /**
   * @Author:lulei  
   * @Description: 启动入口
   */
  public void run() {
    result = new HashMap(); 
    result.put("R", 0);
    result.put("W", 0);
    result.put("E", 0);
    for (Info info : infos) {
      System.out.println(info.url + "------start");
      crawl(info);
      System.out.println(info.url + "------end");
    }
    try {
      knnIndex.commit();
      System.out.println("R = " + result.get("R"));
      System.out.println("W = " + result.get("W"));
      System.out.println("E = " + result.get("E"));
      System.out.println("精确度：" + (result.get("R") * 1.0 / (result.get("R") + result.get("W"))));
      System.out.println("-------------finished---------------");
    } catch (IOException e) {
      e.printStackTrace();
    }
  }
  
  public static void main(String[] args) {
    new CrawlNews().run();
  }
}

到此为止，一个完整的采集程序就完成了。

你可能感兴趣的:(21,网页爬虫)

绘本讲师训练营【24期】8/21阅读原创《独生小孩》 1784e22615e0
24016-孟娟《独生小孩》图片发自App今天我想分享一个蛮特别的绘本，讲的是一个特殊的群体，我也是属于这个群体，80后的独生小孩。这是一本中国绘本，作者郭婧，也是一个80厚。全书一百多页，均为铅笔绘制，虽然为黑白色调，但并不显得沉闷。全书没有文字，犹如“默片”，但并不影响读者对该作品的理解，反而显得神秘，梦幻，給读者留下想象的空间。作者在前蝴蝶页这样写到：“我更希望父母和孩子一起分享这本书，使他
开心蒋泳频
从无比抗拒来上课到接受，感动，收获～看着波哥成长，晶晶幸福笑容满面。感觉自己做的事情很有意义，很开心！还有3个感召目标就是还有三个有缘人，哈哈。明天感召去明日计划：8：30-11：00小公益11：00-21点上班，感召图片发自App图片发自App图片发自App
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
【韩玲】领读小组2月21日打卡文集合 9ce517ee104c
【输出者】健芳【打卡素材】对财富说是Day50【作者】［澳］奥南朵【标题】让努力看得见【字数】7931建立新信念做事情失败的原因都由我们自己无意识的旧有的信念去掌控着。故步自封，没让自己去更新迭代自己的信念。建立新的信念，相信自己的财富会越来越多。2改掉坏习惯以前的懒床、刷手机、煲剧、这些都是封锁自己思想的坏习惯，以为这样就可以让自己过得充实。其实真的不是，而是带给自己一种伤害，阻碍自己努力上进的
2021年2月21日 1000天演讲打卡第52天乒乓球巅峰_时刻
哈喽大家好，我是嘟嘟，今天是2021年2月21日，也是我1000天演讲打卡第52天，今天我要与大家探讨的主题关于乒乓球。乒乓球，是我目前和小伙伴们最喜欢的一项运动，记得第一次打乒乓球的时候，还是4年前与姥姥娱乐，当时姥姥姥爷来深圳了，这边没有朋友，所以他们每天都会去打乒乓球，有一次我初于好奇心，找他们打了几局，打完下来我大汗淋漓，可心中觉得乒乓球比篮球好多了，也是从那是开始，我要求与姥姥姥爷一起打
科幻游戏《外卖员模拟器》主要地理环境设定 (1) 穷人小水滴游戏科幻设计
游戏名称:《外卖员模拟器》(英文名称:waimai_se)作者:穷人小水滴本故事纯属虚构,如有雷同实属巧合.故事发生在一个(架空)平行宇宙的地球,21世纪(超低空科幻流派).相关文章:https://blog.csdn.net/secext2022/article/details/141790630目录1星球整体地理设定2巨蛇国主要设定3海蛇市主要设定3.1主要地标建筑3.2交通3.3能源(电力)
阅读《别说你懂思维导图》21～23章day27 Ling宝尔
合理期待——思维导图的应用效果很多人问我，思维导图真的有用么？我常常回答，如果你觉得是它“没用”，一定是因为你没“用”，有“用”才“有用”。实际上，学习思维导图和学习木工、驾驶等技能型学习一样，都要经历从了解到应用、从应用到受益的过程。在使用前，我们很多人的思维处于“无意识的低效”状态，经过一段时间的学习，虽然掌握了思维导图的基本使用方法，但可能并没有太好的效果，这个阶段可称为“有意识的低效”状态
亮剑的背后晖晖晓
今天是2018年12月21日是【晓晖有话说】陪伴你的第七百一十七天【亮剑的背后】：重新看《亮剑》的小说，沉重大过于狂乱的心情。历史的前进不是直线，不是渐进，可能是进很多步，退很多步，低速的螺旋上升。上升的方向却不明朗，或者是我们人为的设定好了前方的目的，但是整体人类文明的发展却总是产生种种意外，小进步小倒退，小倒退，小进步，我们还年轻。
《错嫁傻王：王妃她又黑化了》南君宥乔洛染（独家小说）精彩TXT阅读海边书楼
《错嫁傻王：王妃她又黑化了》南君宥乔洛染（独家小说）精彩TXT阅读主角：南君宥乔洛染简介：堂堂21世纪金牌特种兵乔洛染，穿来的第一天，就被人诬陷私通被逼投江。而前来解救她的，正是她的夫婿——智力受损的痴傻王爷南君宥。傻子娶了一个不贞女，全京城都在等着看他们的笑话。殊不知，乔洛染一手医术济天下，一手制毒退万敌。关注微信公众号【花车文学】去回个书號【36】，即可阅读【错嫁傻王：王妃她又黑化了】小说全文
润忻21天跨年魔力打卡D12早.正月初九《感恩日记》尧安妈咪呀
1.感恩阳光透过窗帘照进我家。2.感恩暖气让我们家如此温暖。3.感恩水让我们可以洗漱。4.感恩老公对我的包容。5.感恩及时进入工作状态。6.感恩孩子们一如既往的可爱。7.感恩孩子们对我的爱。8.感恩一切顺利。8.感恩工作高效。9.感恩钱宝宝。10.感恩一切的发生。
leetcode中等.数组(21-40)python 九日火 python leetcode
80.RemoveDuplicatesfromSortedArrayII(m-21)Givenasortedarraynums,removetheduplicatesin-placesuchthatduplicatesappearedatmosttwiceandreturnthenewlength.Donotallocateextraspaceforanotherarray,youmustdoth
2020-10-05感恩日记第21-21天越努力越幸运_58b3
不知不觉，我已经写了21天日记了，这些天我收获了好多，谢谢小伙伴的鼓励和支持。感恩小哥哥帮我把桶盖打开，谢谢你的爱心。感恩今天来帮忙考察店铺的陈，谢谢你给的建议，也谢谢你让我看到了另外的自己。感恩今天来店里消费的每个人，谢谢你们带着爱把金钱回流给我。感谢建习和小迪宝贝，谢谢你们对我无条件的信任愿意把钱借给我。感恩小迪宝贝陪伴着我，谢谢你如此的爱我。感恩智琼，提供给我们那么舒服的房间。感恩依依老师的
2024年华为杯数学建模研赛C题思路代码+论文助攻 DS数模 2024华为杯数学建模华为 2024华为杯 2024研究生数学建模 2024研赛
2024年华为杯研究生数学建模竞赛（以下简研赛）将于9月21日上午8时正式开始。下文包含：2024研赛思路解析、研赛参赛时间及规则信息说明、好用的数模技巧及如何备战数学建模竞赛C君将会第一时间发布选题建议、所有题目的思路解析、相关代码、参考文献、参考论文等多项资料，帮助大家取得好成绩。2024年研赛将于9月21日上午8时正式开始这里有些资料，大家可以看看：【2024最全国赛研赛数模资料包】C君珍贵
2023-09-21郝晓东教师专业阅读第一讲每天坚持
20230921六点零三星期四郝晓东教师专业阅读第一讲昨天早上起床比较晚，完成了八九百字，今天早上起床又是有点晚，估计今天早上又是完不成两千字的电子日记了。昨天晚上本来是打算去河里游泳的，但是到了河边感觉有点冷，不想下水了，刚好老表打电话，本来是打电话说去八里滩温泉洗澡的，但是没有人，我们就去河对面转了一圈，见了朱总、李总，走了两万多步，感觉很累，早上起来感觉腰比较不舒服，我就把厚睡衣穿上了，主要
2019-07-21 珊珊正常奋斗中
姓名：方珊梅公司：深圳市雅诺讯科技有限公司【日精进打卡第49天】(知学)大学通编【经营12条：【口号】让世界信号无线连接(冶企)持续的改善现在的状态，持续的引进新的产品，持续创新，持续引领公司所有上下一条心，为自己为公司为目标而奋斗，持续的持续，就能改良现在的企业经营。【感悟】1：2：天塌下来，手上都要有一样产品是可以赚钱的3：相信团队的力量【感恩】1：感恩父母养育之恩2：感恩上天伺我一个这么优秀
2021-10-22 c6a82911a6e5
致良知线上正心班学习第11天时间：2021年10月21日姓名：李克聪地区：山东淄博志愿：修己度人，自省利他｜当｜下｜即｜未｜来｜【自省利他致良知】今日功课1、读原文✔：2分2、准时交功课✔：2分3、日行一善✔：2分4、每日自省✔：2分（1）时刻保持恩悲敬（2）不抱怨，不说谎5、读书践行心得✔:2分菩萨为因，凡夫为果，因上努力，成果必达。自然的规律是天道，人和自然的规律是一样的。我们平时经常讲做人做
商希峰||援坦漫记（21）培训结束商希峰
为期两周的培训结束，下周就开始正式上班了。这个NPC(NewPaediatricComplex)就是以后工作的地方了。图片发自App算起来，这两周经历的事情真不少，已初步适应时间、气侯、社会关系、工作场合和制度；不同地域、不同人种、不同健康卫生体系在共同职业条件下的特别感受，以及如何来应对缺少设备和仪器条件下对更复杂疾病的救治；语言能力也得到了很好的适应，尤其是在许多场合都会遇到几位会讲一点中文的
2021-10-21 宸人间日志
//：小心机的设计大户型看风格，小户型看心机把细节做呈现也会是很有趣的事_____雨不会一直下但一直会有雨下它的意思是？_____爸妈真的是奇怪且神奇的生物朋友圈的谣言一听就信可我编的瞎话没说完就被猜穿真的是毫无悬念_____再说一遍笑里藏刀的故事吧：哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈刀哈哈哈哈哈哈哈_____社畜上线，嘀从7：48分醒来就知道今天又是好值的一天呐
AIGC图生视频技术下的巴黎奥运高光时刻阿里云视频云 AIGC与媒体生产 AIGC
共享，奥运夺金时刻。巴黎奥运会的高光片段中国奥运的夺金时刻动漫风格下的别样风态以下AI动漫视频内容BY「阿里云视频云」智能生成从首金到21金镜头倒转尽情回顾······更多巴黎奥运高光时刻更多AIGC精彩内容可在「新华社官方」新媒体账号观看阿里云视频云用视频云+AI，持续助力奥运
2022年9月30日日记 Sinceyang杨
周五，阴转阵雨（27～32℃）1、一日三餐打卡①早（8:30）：香蕉、猪肉包②午（12:38）：米饭、肉末茄子、黑椒肠炒蒲瓜丝③晚（21:33）：泡面④加：香蕉、芒果2、独白上大学后，工作后，似乎近乡情怯更加明显了。大学时期还有挺多时间可以回家的，工作之后，时间不多，工资的现实问题，特殊情况的影响，回家成了更加不容易的一件事儿。早上去公司坐电梯时，我又出错了电梯楼层，也不晓得是谁中途按了16楼的按
【校园故事】我，讨厌下雨！（21） 95后老葉故事屋
我，讨厌下雨（20）文：葉天涯“你又失眠了？”“嗯。”“你又在想什么？”“没有，每到下雨天都是这样。”“因为……学校的事情么？”“您好烦啊……明天不是有重要的会吗？您先去休息吧，让我一个人静静。”“傻孩子，你现在这状态，我怎么放心去休息。”父亲也来到我身旁，默默点了一支烟，缕缕青烟在雨幕中环绕，最终，还是被这狂风暴雨所吞噬。奇妙的是，那刺激的烟草味，仍倔强地在雨幕中苟延；迟迟不肯消散。“放心，过了
⭐算法入门⭐《归并排序》简单01 —— LeetCode 21. 合并两个有序链表英雄哪里出来《LeetCode算法全集》算法数据结构链表 c++归并排序
饭不食，水不饮，题必须刷C语言免费动漫教程，和我一起打卡！《光天化日学C语言》LeetCode太难？先看简单题！《C语言入门100例》数据结构难？不存在的！《数据结构入门》LeetCode太简单？算法学起来！《夜深人静写算法》文章目录一、题目1、题目描述2、基础框架3、原题链接二、解题报告1、思路分析2、时间复杂度3、代码详解三、本题小知识一、题目1、题目描述将两个不降序链表合并为一个新的不降
2021-08-18 e48c6f9239a1
忆往事——谨以此文感谢阿荀婶在禹州市方山镇方山寨南麓的半山腰，有一个叫东坡岭荀家门的小山村(不知何故，大思想家政治家荀子的后代，为什么要选择这么偏僻的地方居住），这也是阿荀婶娘家的地方。阿婶全名荀秋红，她的微信名是“阿荀”，我觉得这名有新意、有亲意，也能体现出对婶儿的敬意，就在文中称呼她阿荀婶吧！说是叫婶是长辈，并没有比我年纪大很多，只是她辈分长。阿荀婶还是很年轻漂亮的！1988年9月，21岁的阿
21天|生如夏花组合《蔡康永的说话之道》 summer_8f83
【day12】今日阅读《蔡康永的说话之道》p1-p30这本书在前几年读过，当时没有留下深刻的印象，记忆里就是一个影视名人趁红出的一本书。前几天看到一位老铁推荐这本书，又找出来读一读，没想到读了以后跟以前相比有了很深刻的感悟和认同。会说话坚持太重要了，我觉得这本书叫跟《非暴力沟通》有异曲同工之处。“良言一句三冬暖”，“一样话百样说”所以，说话时候技巧的，是可以练习的。作者提示我们：每天我们说那么多话
茶界“董明珠”，黄红缨，她跑了12万公里嫁给了一片山黄红缨茶庄
黄红缨，一个专注农业21年、爱喝茶的女人，深知中国“三农”的痛点，对茶产业土地极度污染、农药化肥滥用、价格混乱、品质低劣等问题深恶痛绝。图片发自App驱车12万余公里走遍全国各大茶区，终于在茶叶生长黄金经纬线上下找到了一片平均海拔1350米的净土，她义无反顾地娶了那片山、嫁给了这片茶，一头扎在云雾高山之间用6年时间开辟了12000多亩茶山，她带着团队钻进灌木林拓荒平整梯田，不远千里从内蒙原生牧场拖
5/3亲子践行豆果妈
90天打卡累计天数：53/90#宣言（做好当知当觉的父母，处理情绪是第一步）#孩子第一个30天目标：每晚21:45前睡觉家长第一个30天目标：每晚23:00前睡觉加油小宝（黄唯嘉+10岁）践行打卡53/901.早睡早起：22：30-8：302.先吃青蛙：13.️今日闪光点：（1）早晨和爸爸一起去晨跑（2）上午带弟弟，陪弟弟玩了一个上午（3）下午完成了部分作业，还剩数学卷和采访小报#父母教练检视#孩
王琳能量感恩日记Day21 王琳linda
感恩自己坚持了21天写感恩日记，她带来的能量真的是无法言喻的。感恩一个神仙女子的出现，让我链接了好多美好的事务和美好的人儿。是谁，你猜？感恩我老师遇事直言不讳的话术让我处理问题多了一层理性和智慧感恩琦哥能够为我们考虑一切，细心的尽所能想到他能做的所有感恩宝宝健康快乐成长和给我带来的温暖感恩娜娜的信任让我们双向奔赴遇见更好的自己和迎接全新的未来感恩米雪的热情活泼，传递对工作的热情把我彻底感染了感恩钱
Joey-晓得-2023-02-21 晓楠得一录
#HAIO#H:今天的HAIO恰巧是健康之我见，发现这我自己这方面的知识匮乏；聊早起，聊睡眠发现没有相关的知识做支撑~A:后面在读《心态》这本书的时候，才会明白，应该可以介绍成长型的心态，进取型的心态，开放型和外向型的心态；在说服力的介绍中明白该怎么介绍了。比如，参加HAIO的好处有:①学会成长，每日的朗读，早起，都让我们在做有价值的输入，每天正能量开启我们的生活；②学会分享，共读一本书，当听别人
2023-04-21 风中摇曳的红头绳
如何解决精神内耗？1：首先不要把精力放在不可控的结果上当我们把精力过多放在这件事的结果上的时候，自然容易患得患失，因为太想成功了，我觉得可以换个角度来看，不管这件事最终结果怎么样，对我来说都是一种成功！2：不要对自己要求或期待太高很多人之所以内耗，就是因为对自己要求太高，比如我有些时候写作一旦要求过高，追求完美主义，就很容易产生拖延症，因为期待值太高就会导致生怕自己写得不好，耽误大家的时间了，其实
21天“优质提问”训练第8天 Athena1513
我一直在想，优质提问应该是有套路的，我摸索了一个星期，试图找到一些套路去落地。但是事实上在提问过程中，永远对方不按套路出牌。我又在反问自己，是不是提问也是没有存粹的套路，就是说在一定的套路结构下，也需要灵活变化，顺势而行？我的感受是提问肯定是有逻辑的，但一定没有一个百分百好用的套路。更多时候节奏都是跟着对方的节奏在走。因为提问，是以“你”为核心，所以“你”的情绪变化以及思维导向，决定了接下来提问的
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要