聆听的幻树

爬取京东本周热卖商品基本信息存入MySQL

网络爬虫介绍

概述

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

产生背景

随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine)，例如传统的通用搜索引擎AltaVista，Yahoo!和Google等，作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是，这些通用性搜索引擎也存在着一定的局限性，如：

1、不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎所返回的结果包含大量用户不关心的网页。

2、通用搜索引擎的目标是尽可能大的网络覆盖率，有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。

3、万维网数据形式的丰富和网络技术的不断发展，图片、数据库、音频、视频多媒体等不同数据大量出现，通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力，不能很好地发现和获取。

4、通用搜索引擎大多提供基于关键字的检索，难以支持根据语义信息提出的查询。

为了解决上述问题，定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序，它根据既定的抓取目标，有选择的访问万维网上的网页与相关的链接，获取所需要的信息。与通用爬虫(general?purpose web crawler)不同，聚焦爬虫并不追求大的覆盖，而将目标定为抓取与某一特定主题内容相关的网页，为面向主题的用户查询准备数据资源。

抓取策略

网页的抓取策略可以分为深度优先、广度优先和最佳优先三种。深度优先在很多情况下会导致爬虫的陷入(trapped)问题，目前常见的是广度优先和最佳优先方法。三种具体的差异大家可以自己查阅，在这里我就不多说了。

项目简介

需求概要

1、按照下面所述进入京东本周热卖页面，抓取本周热卖页面所有商品链接。

2、抓取所有商品链接后，进入商品详情页面，抓取商品ID、名称、图片链接等基本信息。

3、将抓取的所有信息存入设计好的MySQL表中。

注意事项

1、由于抓取多个页面，所以需要用多线程。

2、京东商品的价格以及评价都是通过JS异步传输的，所以从网页源码中无法获取商品这些信息，需要用调试工具加载页面所有内容，然后找到JS异步传输所请求的URL，然后继续请求并获取Response（商品价格和评价）。

3、我所使用的环境为浏览器（Chrome）、IDE（Eclipse）、项目（Maven）、Maven依赖（junit4.12、httpclient 4.4、htmlcleaner2.10、json 20140107）。

4、依赖中的httpclient、htmlcleaner、json的版本最好使用我所指定的，其他的版本很容易出现问题。同时获取XPath最好用Chrome抓，火狐等容易出错。

5、抓取日期为2016/4/30日，京东页面以后很可能会改动，所以这套代码之后可能抓不到正确数据。所以大家要注重爬取过程和原理。

6、由于我对每个页面用了一个线程，所以爬取的商品超过100的时候，插入商品信息到数据库时，可能会出现超过MySQL最大连接数错（默认100），可以在配置文件my.ini中修改（打开 MYSQL 安装目录，打开 my.ini 找到 max_connections ，默认是 100，一般设置到500～1000比较合适，然后重启MySQL）。

其他

这篇文章主要演示了爬取京东本周热点的所有商品基本信息，如果要继续了解如何爬取所有用户评价的话，可以参考另一篇文章：

爬取京东本周热卖商品所有用户评价存入MySQL：http://blog.csdn.net/u011204847/article/details/51292546

爬取的页面导航

首先进入京东首页，然后鼠标移到全部商品分类—》电脑、办公—》玩3C—》本周热卖。

进入本周热卖（要抓取的网页，抓取这个页面所有商品的URL以及商品基本信息）

点击本周热卖中第一个商品：价格为3499的戴尔电脑链接后，商品详情如下。

工具使用介绍

获取商品元素的XPath

1、使用Chrome浏览器（其他浏览器获取的XPath可能无法识别）打开商品详情页面，然后按键盘上面的F12键打开开发者工具。接下来操作流程如下图中所示：

2、选择网页元素中的商品ID，然后右键选择Copy XPath

XPath示例：

*[@id="short-share"]/div/span[2]

3、然后我们就可以用此方法获取商品URL、商品名称。注意，价格和商品评价都是JS异步传输，无法通过XPath方法获取。所以需要特殊处理。

查找JS异步传输请求的URL

详细流程如下图中所示：

现在我们知道如何去查找我们所需要的信息，接下来将使用代码去获取这些信息，最后写入MySQL数据库。

代码实现

工具类：

由于接下来代码会使用到工具类，所以先贴出来。为了方便解释代码，一些冗余的代码就不抽取成方法了。

import java.io.IOException;
import org.apache.http.HttpEntity;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClientBuilder;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;

public class SpiderUtils {

    //下载给定URL的网页实体
    public static String download(String url) {
        //构建HTTP请求
        HttpClientBuilder builder = HttpClients.custom();
        CloseableHttpClient client = builder.build();
        HttpGet request = new HttpGet(url);
        String str = "";
        try {
            //执行请求
            CloseableHttpResponse response = client.execute(request);
            //获取网页实体
            HttpEntity entity = response.getEntity();
            //返回网页实体字符串
            str = EntityUtils.toString(entity);
        } catch (ClientProtocolException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
        return str;
    }

}

获取热卖页面所有商品的URL

热卖页面：

1、页面示例

2、分析获取所有商品URL

通过查找页面源码可以发现所有商品URL都类似 //item.jd.com/2717678.html 这种格式，只是2717678这个商品ID不同而已，所以我们可以用正则获取这些URL。

3、代码及打印结果

代码示例：

@Test   //单元测试 : 获取本周热卖所有商品URL
public void test6() {
    //获取本周热卖网页源码
    String content = SpiderUtils.download("http://sale.jd.com/act/6hd0T3HtkcEmqjpM.html");
    //匹配这个网页所有商品网址
    Pattern compile = Pattern.compile("//item.jd.com/([0-9]+).html");
    //使用正则进行匹配
    Matcher matcher = compile.matcher(content);
    //使用正则进行查找,查找过程中可能会出现重复的URL，所以我们需要存入HashSet从而保证URL唯一
    HashSet hashSet = new HashSet();
    while (matcher.find()) {
        String goodURL = matcher.group(0);
        hashSet.add(goodURL);
    }
    for (String url : hashSet) {
        System.out.println(url);
    }
}

打印的部分结果：（实际代码中使用时需要再添加”http:”前缀）

获取所有商品名称

1、商品名称页面示例

2、我们可以使用代码加载商品详情页面，然后通过工具获取XPath（获取方法可以参考之前的工具使用介绍），然后使用代码通过XPath获取Path中的商品名称。

3、代码及打印结果（所有商品的名称）

代码示例：

    @Test   //单元测试 ：获取商品的名称
    public void test7() {

        //获取本周热卖网页源码
        String content = SpiderUtils.download("http://sale.jd.com/act/6hd0T3HtkcEmqjpM.html");
        //匹配这个网页所有商品网址
        Pattern compile = Pattern.compile("//item.jd.com/([0-9]+).html");
        //使用正则进行匹配
        Matcher matcher = compile.matcher(content);
        //使用正则进行查找,查找过程中可能会出现重复的URL，所以我们需要存入HashSet从而保证URL唯一
        HashSet hashSet = new HashSet();
        while (matcher.find()) {
            //获取每个商品对应的URL
            String goodURL = matcher.group(0);
            //把URL添加进HashSet
            hashSet.add(goodURL);
        }

        for (String goodURL : hashSet) {
            //获取商品页面源码
            String contents = SpiderUtils.download("http:" + goodURL);
            HtmlCleaner htmlCleaner = new HtmlCleaner();
            //获取所有节点
            TagNode tn = htmlCleaner.clean(contents);
            //商品名称的XPath
            String xpath = "//*[@id=\"name\"]/h1";
            Object[] objects = null;
            String name = "";

            try {
                //通过XPath查找商品名称所在节点
                objects = tn.evaluateXPath(xpath);
            } catch (XPatherException e) {
                e.printStackTrace();
            }

            if (objects != null && objects.length > 0) {
                //获取商品名称节点
                TagNode node = (TagNode) objects[0];
                //获取商品名称
                name = node.getText().toString();
            }
            System.out.println(goodURL);
        }
    }

}

打印的部分结果：

获取所有商品ID

1、商品编号页面

2、使用Chrome的开发者工具（F12）获取商品编号的XPath，然后通过代码查找到所有的ID。

3、代码及打印结果（所有商品ID）

代码示例：

@Test   //单元测试 ：获取商品的Id
public void test8(){

    //获取本周热卖网页源码
    String content = SpiderUtils.download("http://sale.jd.com/act/6hd0T3HtkcEmqjpM.html");
    //匹配这个网页所有商品网址
    Pattern compile = Pattern.compile("//item.jd.com/([0-9]+).html");
    //使用正则进行匹配
    Matcher matcher = compile.matcher(content);
    //使用正则进行查找,查找过程中可能会出现重复的URL，所以我们需要存入HashSet从而保证URL唯一
    HashSet hashSet = new HashSet();
    while (matcher.find()) {
        //获取每个商品对应的URL
        String goodURL = matcher.group(0);
        //把URL添加进HashSet
        hashSet.add(goodURL);
    }

    for (String goodURL : hashSet) {
        //获取商品页面源码
        String contents = SpiderUtils.download("http:"+goodURL);
        HtmlCleaner htmlCleaner = new HtmlCleaner();
        //获取所有节点
        TagNode tn = htmlCleaner.clean(contents);
        //商品名称的XPath
        String xpath = "//*[@id=\"short-share\"]/div/span[2]";
        Object[] objects = null;
        try {
            objects = tn.evaluateXPath(xpath);
        } catch (XPatherException e) {
            e.printStackTrace();
        }
        TagNode node = (TagNode)objects[0];
        //获取ID
        String id = node.getText().toString();
        System.out.println(id);
    }
}

打印的部分结果：

获取所有商品的图片URL

代码示例：

@Test   //单元测试 ：获取商品的图片的URL
public void test9() {

    //获取本周热卖网页源码
    String content = SpiderUtils.download("http://sale.jd.com/act/6hd0T3HtkcEmqjpM.html");
    //匹配这个网页所有商品网址
    Pattern compile = Pattern.compile("//item.jd.com/([0-9]+).html");
    //使用正则进行匹配
    Matcher matcher = compile.matcher(content);
    //使用正则进行查找,查找过程中可能会出现重复的URL，所以我们需要存入HashSet从而保证URL唯一
    HashSet hashSet = new HashSet();
    while (matcher.find()) {
        //获取每个商品对应的URL
        String goodURL = matcher.group(0);
        //把URL添加进HashSet
        hashSet.add(goodURL);
    }

    //遍历hashSet
    for (String goodURL : hashSet) {
        //获取商品页面源码
        String contents = SpiderUtils.download("http:" + goodURL);
        HtmlCleaner htmlCleaner = new HtmlCleaner();
        //获取所有节点
        TagNode tn = htmlCleaner.clean(contents);
        //商品名称的XPath
        String xpath = "//*[@id=\"spec-n1\"]/img";
        Object[] objects = null;
        String picUrl = "";

        try {
            objects = tn.evaluateXPath(xpath);
        } catch (XPatherException e) {
            e.printStackTrace();
        }

        if (objects != null && objects.length > 0) {
            TagNode node = (TagNode) objects[0];
            //通过节点的属性获取图片URL
            picUrl = node.getAttributeByName("src").toString();
        }
        System.out.println(picUrl);
    }
}

打印的部分结果：

获取所有商品价格

1、商品价格是通过JS异步传输的数据，无法通过XPath方法直接获取。所以首先需要我们通过之前工具使用的介绍，找到JS异步请求的URL。

2、拷贝找到的URL：http://p.3.cn/prices/get?type=1&area=1_72_2799&pdtk=&pduid=1340247559&pdpin=&pdbp=0&skuid=J_1308551&callback=cnp

在浏览器中打开可以看到

这个URL中还有不需要的东西：&callback=cnp ，去掉之后为：

http://p.3.cn/prices/get?type=1&area=1_72_2799&pdtk=&pduid=1340247559&pdpin=&pdbp=0&skuid=J_1308551

再在浏览器中打开，结果为：（是一个Json格式字符串）

这才是我们最终要请求的URL。

3、代码及打印结果

单个商品代码：

@Test   //单元测试  ： 获取所有商品价格
public void test12() {
    //拼接JS异步请求的URL
    String pricURl = "http://p.3.cn/prices/get?type=1&area=1_72_2799&pdtk=&pduid=1340247559&pdpin=&pdbp=0&skuid=J_1308551";
    //获取响应的内容
    String con = SpiderUtils.download(pricURl);
    //把json格式的字符串格式化为Json数组
    JSONArray jsonArray = new JSONArray(con);
    //之前获取的结果可用看出是只有一个json元素的json数组。
    JSONObject jsonObject = jsonArray.getJSONObject(0);
    //获取Json，并获取其中键为p的值。
    String priceStr = jsonObject.getString("p");
    double price = Double.parseDouble(priceStr);
    System.out.println(price);
}

打印结果：

多个商品代码：

代码示例：

@Test   //单元测试  ： 获取所有商品价格
public void test11() {
    //取之前获得ID集合
    HashSet goodIds = goodId();
    //遍历ID结合，然后通过每个ID拼接JS异步请求的URL，然后获得响应
    for (String goodId : goodIds) {
        //拼接JS异步请求的URL
        String pricURl = "http://p.3.cn/prices/get?type=1&area=1_72_2799&pdtk=&pduid=1340247559&pdpin=&pdbp=0&skuid=J_" + goodId;
        //获取响应的内容
        String con = SpiderUtils.download(pricURl);
        //把json格式的字符串格式化为Json数组
        JSONArray jsonArray = new JSONArray(con);
        //之前获取的结果可用看出是只有一个json元素的json数组。
        JSONObject jsonObject = jsonArray.getJSONObject(0);
        //获取Json，并获取其中键为p的值。
        String priceStr = jsonObject.getString("p");
        double price = Double.parseDouble(priceStr);
        System.out.println(price);
    }
}

打印的部分结果示例：

获取商品详情

1、商品介绍页面

2、代码及打印结果（这里只测试一个商品，之后代码中是获取所有商品）

代码示例：

@Test   //单元测试 ：获取商品介绍（由于数据比较多，这里就获取单个商品的介绍）
public void test10(){
    //获取商品页面源码
    String contents = SpiderUtils.download("http://item.jd.com/1308551.html");
    HtmlCleaner htmlCleaner = new HtmlCleaner();
    //获取所有节点
    TagNode tn = htmlCleaner.clean(contents);
    //商品名称的XPath
    String xpath = "//*[@id=\"parameter2\"]/li";
    Object[] objects = null;
    try {
        objects = tn.evaluateXPath(xpath);
    } catch (XPatherException e) {
        e.printStackTrace();
    }

    for (Object obj : objects) {
        TagNode node = (TagNode)obj;
        String val = node.getText().toString();
        System.out.println(val);
    }

}

打印结果：

保存爬取的数据到MySQL

注意事项

1、由于本周热卖每个页面都用一个线程去跑，每个线程都有一个数据库链接，所以Mysql的数据库连接数需要修改大一点。

解决方式：

打开 MYSQL 安装目录打开my.ini找到max_connections默认是100，一般设置到500～1000比较合适，然后重启MySQL。

2、这里只是演示爬取数据插入表格，所以表格的设计不是很合理。

插入商品信息

1、商品信息页面展示

2、数据库表设计

数据表说明：

数据表创建语句：

CREATE TABLE `goodInfo` (
  `id` int(10) NOT NULL AUTO_INCREMENT,
  `goodId` varchar(20) DEFAULT NULL,
  `goodName` varchar(300) DEFAULT NULL,
  `goodPrice` varchar(10) DEFAULT NULL,
  `goodUrl` varchar(300) DEFAULT NULL,
  `goodPicUrl` varchar(300) DEFAULT NULL,
  `goodDetail` text,
  `current_time` datetime DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8;

3、插入的本周热卖所有商品的信息：ID、名称、URL、图片URL、详情、插入日期。

4、代码示例和部分执行结果

代码示例：（插入商品信息的功能代码在实际代码中会抽取为方法）

//将每个页面的业务逻辑放在Runnable接口的run()方法中，这样可以调用多线程爬取每个页面。
public void run() {

    String contents = SpiderUtils.download(url);
    HtmlCleaner htmlCleaner = new HtmlCleaner();
    //获取所有节点
    TagNode tn = htmlCleaner.clean(contents);
    //获取商品ID、名称、价格、URL、图片URL、详情、插入日期，插入到MySQL
    //个商品ID添加"jd_",这样可以和其他爬取的电商数据区分开来。
    String goodsId = "jd_" + goodsId(tn);
    String goodsName = goodsName(tn);
    String goodsPrice = goodsPrice(tn);
    //构造函数中的参数，初始化时传入的页面URL
    String goodsUrl = url;
    String goodsPicUrl = goodsPicUrl(tn);
    String goodsDetils = goodsDetils(tn);
    Date date = new Date();
    //MyDateUtils是个人封装的工具类
    String curr_time = MyDateUtils.formatDate2(date);

    //MyDbUtils是个人封装的工具类
    MyDbUtils.update(MyDbUtils.INSERT_LOG, goodsId, goodsName, goodsPrice, goodsUrl, goodsPicUrl, goodsDetils, curr_time);
}

执行结果：

项目代码

注意：MyDbUtils、MyDateUtils这两个工具类的代码就不贴了，项目中用到这两个工具类的方法，大家可以自己实现，比较简单。

Pom依赖


    
        junit
        junit
        4.12
        test
    
    
        org.apache.httpcomponents
        httpclient
        4.4
    
    
        net.sourceforge.htmlcleaner
        htmlcleaner
        2.10
    
    
        org.json
        json
        20140107
    
    
        commons-dbutils
        commons-dbutils
        1.6
    
    
        mysql
        mysql-connector-java
        5.1.29

工具类

import java.io.IOException;

import org.apache.http.HttpEntity;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClientBuilder;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;

public class SpiderUtils {

    // 下载给定URL的网页实体
    public staticString download(String url) {
        HttpClientBuilder builder = HttpClients.custom();
        CloseableHttpClient client = builder.build();
        HttpGet request = new HttpGet(url);
        String str = "";
        try {
            CloseableHttpResponse response = client.execute(request);
            HttpEntity entity = response.getEntity();
            str = EntityUtils.toString(entity);
        } catch (ClientProtocolException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        return str;
    }

}

业务逻辑处理类

import java.util.Date;

import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;
import org.htmlcleaner.XPatherException;
import org.json.JSONArray;
import org.json.JSONObject;

public class parsePage implements Runnable {

   private String url;

   public parsePage(String url) {
      this.url= url;
   }

   // 将每个页面的业务逻辑放在Runnable接口的run()方法中，这样可以调用多线程爬取每个页面。
   public voidrun() {
      // 通过构造函数插入的url,然后获取该URL的响应结果
      String contents = SpiderUtils.download(url);
      HtmlCleaner htmlCleaner = new HtmlCleaner();
      // 获取所有节点
      TagNode tn = htmlCleaner.clean(contents);
        // 插入商品信息到数据库
        insertGoodInfo(tn);
    }
    

   // 插入商品信息到数据库
   private voidinsertGoodInfo(TagNode tn) {
      // 获取商品ID、名称、价格、URL、图片URL、详情、插入日期，插入到MySQL
      // 个商品ID添加"jd_",这样可以和其他爬取的电商数据区分开来。
      String goodsId = "jd_" + goodsId(tn);
      String goodsName = goodsName(tn);
      String goodsPrice = goodsPrice(tn);
      // 构造函数中的参数，初始化时传入的页面URL
      String goodsUrl = url;
      String goodsPicUrl = goodsPicUrl(tn);
      String goodsDetils = goodsDetils(tn);
      Date date = new Date();
      // MyDateUtils是个人封装的工具类
      String curr_time = MyDateUtils.formatDate2(date);

      // MyDbUtils是个人封装的工具类
      MyDbUtils.update(MyDbUtils.INSERT_LOG, goodsId, goodsName, goodsPrice,
            goodsUrl, goodsPicUrl, goodsDetils, curr_time);
   }

   // 获取商品详情
   privateString goodsDetils(TagNode tn) {
      String xpath = "//*[@id=\"parameter2\"]/li";
      StringBuilder info = new StringBuilder();
      Object[] objects = null;
      try {
         objects = tn.evaluateXPath(xpath);
      } catch (XPatherException e) {
         e.printStackTrace();
      }

      for (Object obj : objects) {
         TagNode node = (TagNode) obj;

         String goodInfo = node.getText().toString();
         info.append(goodInfo);
         info.append("--");
      }
      return info.toString();
   }

   // 获取商品价格
   privateString goodsPrice(TagNode tn) {
      String pricURl = "http://p.3.cn/prices/get?type=1&area=1_72_2799&pdtk=&pduid=1340247559&pdpin=&pdbp=0&skuid=J_"+ goodsId(tn);
      String con = SpiderUtils.download(pricURl);
      JSONArray jsonArray = new JSONArray(con);
      JSONObject jsonObject = jsonArray.getJSONObject(0);
      String priceStr = jsonObject.getString("p");
      return priceStr;
   }

   // 获取商品ID
   privateString goodsId(TagNode tn) {
      String xpath = "//*[@id=\"short-share\"]/div/span[2]";
      Object[] objects = null;
      try {
         objects = tn.evaluateXPath(xpath);
      } catch (XPatherException e) {
         e.printStackTrace();
      }
      TagNode node = (TagNode) objects[0];
      String id = node.getText().toString();
      return id;
   }

   // 获取商品图片URL (全URL，包括http:)
   privateString goodsPicUrl(TagNode tn) {
      //商品图片的XPath
      String xpath = "//*[@id=\"spec-n1\"]/img";
      Object[] objects = null;
      String picUrl = "";

      try {
         objects = tn.evaluateXPath(xpath);
      } catch (XPatherException e) {
         e.printStackTrace();
      }

      if (objects != null && objects.length> 0) {
         TagNode node = (TagNode) objects[0];
         picUrl = node.getAttributeByName("src").toString();
      }

      return "http:"+ picUrl;
   }

   // 获取商品名称
   privateString goodsName(TagNode tn) {
      //商品名称的XPath
      String xpath = "//*[@id=\"name\"]/h1";
      Object[] objects = null;
      String name = "";

      try {
         objects = tn.evaluateXPath(xpath);
      } catch (XPatherException e) {
         e.printStackTrace();
      }

      if (objects != null && objects.length> 0) {
         TagNode node = (TagNode) objects[0];
         name = node.getText().toString();
      }
      return name;
   }

}

项目入口类

import org.htmlcleaner.XPatherException;

import java.util.HashSet;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Spider {
    public static void main(String[] args)throws XPatherException {
        Spider spider = new Spider();
        spider.start();
    }

    public void start() throws XPatherException {
        System.out.println("开始启动爬虫");
        //爬取本周热卖网页
        String content = SpiderUtils.download("http://sale.jd.com/act/6hd0T3HtkcEmqjpM.html");

        // 匹配这个网页所有商品网址
        Pattern compile = Pattern.compile("//item.jd.com/([0-9]+).html");
        // 使用正则进行匹配
        Matcher matcher = compile.matcher(content);
        // 使用正则进行查找,查找过程中可能会出现重复的URL，所以我们需要存入HashSet从而保证URL唯一
        HashSet hashSet =new HashSet();
        String goodId = "";
        // 使用正则进行查找
        while(matcher.find()) {
            String goodURL = matcher.group(0);
            hashSet.add(goodURL);
        }
        for (String goodUrl : hashSet) {
            Thread th = new Thread(newparsePage("http:" + goodUrl));
            th.start();
        }

    }

}

你可能感兴趣的:(网络爬虫)

爬虫的精准识别：基于 User-Agent 的正则实现 Small踢倒coffee_氕氘氚经验分享笔记
##摘要随着互联网技术的飞速发展，网络爬虫在数据采集、搜索引擎优化等领域的应用日益广泛。然而，恶意爬虫的存在也给网站安全和数据隐私带来了严重威胁。因此，精准识别爬虫行为成为网络安全领域的重要课题。本文提出了一种基于User-Agent正则表达式的爬虫识别方法，通过分析User-Agent字符串的特征，构建正则表达式规则，实现对爬虫的精准识别。实验结果表明，该方法具有较高的识别准确率和较低的误报率，
Python全栈开发爬虫+自动化办公+数据分析教程 jijihusong006 程序 python 爬虫自动化
以下是一份系统化的Python全栈开发综合教程，涵盖Web开发、网络爬虫、自动化办公和数据分析四大核心领域，采用模块化结构进行深度技术解析：Python全栈开发综合实战教程1、Python全栈开发教程、+爬虫+自动化办公+数据分析课程https://pan.quark.cn/s/9bbb9c39e9652、传送资料库查询https://link3.cc/aa99第一部分全栈开发体系1.1技术架构全
Python爬虫学习笔记_DAY_26_Python爬虫之requests库的安装与基本使用【Python爬虫】_requests库ip 苹果Android开发组程序员 python 爬虫学习
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
6个必备的 Node 网络爬虫库 zz_jesse 爬虫
作为一名程序员，你是否曾遇到过需要从各大网站提取数据的需求？随着互联网的快速扩展，能够高效地进行网络爬虫已经成为企业、研究人员以及个人的一项重要技能。在这个数据为王的时代，如何利用JavaScript和Node.js来实现高效的数据抓取，是每一个开发者都应该掌握的技巧。网络爬虫，即从网站提取数据的过程，已经成为各行各业的重要工具。而JavaScript和Node.js因其强大的功能和丰富的库，成为
Python爬虫：从人民网提取视频链接的完整指南小白学大数据 python python 爬虫音视频开发语言大数据
无论是用于数据分析、内容提取还是资源收集，Python爬虫都因其高效性和易用性而备受开发者青睐。本文将通过一个实际案例——从人民网提取视频链接，详细介绍如何使用Python构建一个完整的爬虫程序。我们将涵盖从基础的网络请求到HTML解析，再到最终提取视频链接的全过程。一、爬虫技术概述网络爬虫（WebCrawler）是一种自动化的程序，用于在互联网上浏览网页并收集信息。它通过模拟浏览器的行为，发送H
Python网络爬虫实战：抓取猫眼TOP100电影信息莱财一哥
本文还有配套的精品资源，点击获取简介：在Python中，Web爬虫是获取互联网数据的关键技能。本教程将指导如何结合使用requests库和正则表达式来从猫眼电影网站的TOP100榜单中抓取电影信息。首先通过requests库发送HTTP请求获取网页内容，然后运用正则表达式提取电影名和评分等信息。在进行网络爬虫时，遵守robots.txt规则，设置请求延时，并考虑处理网站的反爬虫策略。对于更复杂的网
探秘Python电影票数据爬虫：Maoyan Spider 仰北帅Bobbie
探秘Python电影票数据爬虫：MaoyanSpider去发现同类优质开源项目:https://gitcode.com/在大数据和数据分析的世界里，高效的数据获取是第一步。对于电影爱好者或者市场研究者，了解实时的电影票务信息无疑极具价值。今天，我们要推荐一个开源的Python项目——，这是一个针对猫眼电影平台的网络爬虫，它可以帮助你轻松抓取电影信息、场次、票价等关键数据。项目简介MaoyanSpi
【爬虫实战】python入门爬取猫眼电影排行进击的C语言爬虫自动化网络
爬虫爬虫概述应用场景：1、抓取特定网站或应用的内容，提取出有价值的信息。2、模拟用户在浏览器或应用中的操作，实现自动化流程。爬虫是什么专业术语：网络爬虫（又称网页蜘蛛、网络机器人）网络爬虫是一种自动按照特定规则抓取网页信息的程序或脚本。爬虫起源随着网络的迅猛发展，万维网成为海量信息的载体，如何有效地提取和利用这些信息成为一项巨大挑战。搜索引擎如Yahoo、Google、百度等，作为帮助人们检索信息
requests入门以及requests库实例和with,os的解释（Python网络爬虫和信息提取）眸生 Python爬虫 python 爬虫开发语言笔记
导学定向网络数据爬取和网页解析的基本能力requests入门安装方法首先cmdpipinstallrequests然后打开idle测试**>>>importrequests>>>r=requests.get("http://www.baidu.com")>>>r.status_code200>>>r.encoding='utf-8'>>>r.text**requests库的7个主要方法reques
第八课：Scrapy框架入门：工业级爬虫开发 deming_su Python scrapy 爬虫 python
在当今大数据时代，数据抓取已成为信息获取的重要手段。Scrapy作为一个基于Python的开源网络爬虫框架，凭借其高效、灵活的特性，在工业级爬虫开发中占据重要地位。本文将详细介绍Scrapy框架的基本架构、工作流程、关键组件（如Spider类与ItemPipeline）以及中间件机制，并通过一个电商产品爬虫案例，展示如何使用Scrapy框架进行数据抓取。1.Scrapy架构与工作流程Scrapy架
《Python实战进阶》No20: 网络爬虫开发：Scrapy框架详解带娃的IT创业者 Python实战进阶 python 爬虫 scrapy
No20:网络爬虫开发：Scrapy框架详解摘要本文深入解析Scrapy核心架构，通过中间件链式处理、布隆过滤器增量爬取、Splash动态渲染、分布式指纹策略四大核心技术，结合政府数据爬取与动态API逆向工程实战案例，构建企业级爬虫系统。提供完整代码与运行结果，包含法律合规设计与反爬对抗方案。Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中
Python简介 Gao_xu_sheng python 开发语言
Python前言Python一直是一门优秀的编程语言，不仅简洁、易用，而且功能强大，它能做到的事情太多了，既可用于开发桌面应用，也可用于做网络编程，网络爬虫，还有很重要的领域就是AI大模型开发。近年来，随着人工智能（AI）和机器学习（ML）领域的迅猛发展，Python在这些前沿技术中扮演了至关重要的角色，特别是在构建和训练大规模机器学习方面。Python拥有丰富的库和框架，这些工具极大地促进了AI
Python从入门到精通系列专栏文章导航站 hacker707 Python从入门到精通 python 开发语言
Python从入门到精通系列专栏文章导航站专栏导读Part1✨零基础入门篇专栏导读本文是Python从入门到精通的文章导航站。专栏分为零基础入门篇、模块篇、网络爬虫篇、Web开发篇、办公自动化篇、数据分析篇…为了方便专栏订阅者更方便的阅读专栏文章，点击链接即可跳转到具体文章，欢迎订阅持续更新…专栏限时一个月(5.8~6.8)重磅福利专栏订阅者再邀请10人订阅即可获得清华大学出版社书单图书任选一本(
python爬虫是什么架构_Python爬虫是什么?常用框架有哪些? weixin_39596090 python爬虫是什么架构
大家都知道python是一门多岗位编程语言，学习python之后可以从事的岗位有很多，python爬虫便在其中，不过很多人对python不是很了解，所以也不知道python爬虫是什么，接下来带着你的疑问小编为大家介绍一下。Python是一门非常适合开发网络爬虫的编程语言，相比于其他静态编程语言，Python抓取网页文档的接口更简洁;相比于其他动态脚本语言，Python的urllib2包提供了较为完
Python与数据可视化案例：电影评分可视化 master_chenchengg python python 办公效率 python开发 IT
Python与数据可视化案例：电影评分可视化电影评分数据的魅力：为什么可视化很重要数据收集：如何获取电影评分数据使用API接口网络爬虫技术数据清洗与预处理：让数据变得干净整洁可视化实战：用Matplotlib和Seaborn绘制电影评分图表电影评分数据的魅力：为什么可视化很重要对于电影爱好者而言，电影评分不仅仅是数字那么简单，它承载着无数影迷的期待与梦想。想象一下，当你站在电影院门口，面对琳琅满目
使用PHP爬虫获取1688商品分类：实战案例指南数据小爬虫@ php 爬虫开发语言
在电商领域，商品分类信息是商家进行市场调研、选品分析和竞争情报收集的重要基础。1688作为国内领先的B2B电商平台，提供了丰富且详细的商品分类数据。通过PHP爬虫技术，我们可以高效地获取这些分类信息，为商业决策提供有力支持。一、为什么选择PHP爬虫？PHP是一种广泛使用的服务器端脚本语言，特别适合用于Web开发和网络爬虫。它具有强大的网络请求和HTML解析能力，能够轻松实现从网页中提取数据的功能。
awesome python 中文版相见恨晚！(pythonNB的第三方资源库) weixin_30788731
AwesomePython中文版来啦！原文链接：Python资源大全内容包括：Web框架、网络爬虫、网络内容提取、模板引擎、数据库、数据可视化、图片处理、文本处理、自然语言处理、机器学习、日志、代码分析等。GitHub-jobbole/awesome-python-cn:Python资源大全中文版环境管理管理Python版本和环境的工具p–非常简单的交互式python版本管理工具。pyenv–简单
2024年Python最新蓝桥杯基础练习全解答案+解析共17题 python，三年经验Python开发面经总结 2401_84139963 程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
解析Python网络爬虫：核心技术、Scrapy框架、分布式爬虫（期末重点题目）一口酪 python scrapy
第一章网络爬虫又称网页蜘蛛或（网络机器人）网络爬虫能够按照一定的（规则），自动请求万维网站并提取网络数据爬虫是手动请求万维网网站且提取网页数据的程序。（×）爬虫爬取的是网站后台的数据。（×）通用爬虫用于将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。（√）简答题：简述通用爬虫和聚焦爬虫。1.通用爬虫又称全网爬虫，主要用于将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。聚焦网络爬
Python爬虫实战：四个常见案例详解！ Python_trys python 爬虫开发语言 Python基础编程语言 Python爬虫 Python入门
包含编程籽料、学习路线图、爬虫代码、安装包等！【点击这里领取！】网络爬虫是数据采集的重要工具，Python凭借其丰富的库和简洁的语法，成为了爬虫开发的首选语言。本文将详细介绍四个常见的Python爬虫实战案例，帮助你从入门到精通。目录案例一：静态网页数据抓取案例二：动态网页数据抓取案例三：模拟登录与表单提交案例四：数据存储与导出1.环境准备在开始之前，确保你已经安装了以下Python库：pipin
基于Python零基础制作一个自己的爬虫程序与光同尘大道至简 python 爬虫开发语言青少年编程 visual studio code github html5
此博客为一个详细的Python爬虫教程，从基础知识到完整实现，包括爬取网页内容、解析数据、存储数据、使用代理、反反爬策略等。稍后会提供完整的教程供你参考。1.爬虫基础什么是爬虫：网络爬虫（WebCrawler），又称网络蜘蛛（Spider），是一种自动化脚本或程序，用于按照一定规则批量获取网页数据。爬虫通过模拟浏览器行为向目标网站发送HTTP请求，获取网页的HTML源码，然后解析并提取所需的信息。
【Python 开发网络爬虫抓取客户订单网站数据】局外人_Jia python 爬虫数据库开发语言字符串正则表达式
以下是使用Python开发网络爬虫抓取客户订单网站数据的完整指南，包含技术实现、注意事项和法律合规性说明：一、准备工作：法律与合规性确认合法性：检查目标网站的robots.txt文件（如https://example.com/robots.txt）。确保遵守网站的《服务条款》（TermsofService）。如果涉及用户隐私数据（如订单详情），需获得明确授权。推荐替代方案：优先使用网站提供的API
基于python的网络爬虫爬取天气数据及可视化分析 Soft_Leader python 爬虫开发语言
要创建一个基于Python的网络爬虫来爬取天气数据并进行可视化分析，我们可以采用以下几个步骤来实现：1.选择数据源首先，需要确定一个可靠的天气数据源。常用的有OpenWeatherMap、WeatherAPI、Weatherstack等。这些API通常需要注册并获取一个API密钥（APIKey）来使用。2.安装必要的库我们将使用requests库来发送HTTP请求，pandas来处理数据，matp
Python网络爬虫技术：现代应用、对抗策略与伦理边界自学不成才 python 爬虫开发语言
版权声明：本文仅供学术研究和技术探讨使用。在实践中应用本文技术时，请遵守相关法律法规、网站使用条款和道德准则。作者不对读者使用本文内容产生的任何后果负责。未经授权，请勿转载或用于商业用途。引言随着互联网数据量呈指数级增长，网络爬虫技术在数据采集、市场分析、学术研究等领域扮演着越来越重要的角色。Python凭借其简洁的语法和丰富的库生态，已成为网络爬虫开发的首选语言。然而，当今网络环境下，爬虫开发者
开源AI网络爬虫工具Crawl4AI m0_74823983 面试学习路线阿里巴巴人工智能爬虫
引言在信息化时代，网络爬虫作为从互联网中提取信息的重要工具，扮演着至关重要的角色。Crawl4AI作为一款开源AI网络爬虫工具，凭借其功能强大和易用性，受到了广泛关注。本文将详细探讨Crawl4AI的定义、特点、优势，以及其具体使用和效果。一、Crawl4AI是什么？1.1定义与背景Crawl4AI是一款开源的网络爬虫框架，旨在利用人工智能技术，从互联网上自动抓取并分析数据。它不仅能处理常规的网页
Python网络爬虫：从原理到实践的全面解析九月 linux python 网络爬虫爬虫
1.什么是Python爬虫？Python网络爬虫是一种通过Python编写的自动化程序，用于从互联网上的网页、数据库或服务器中提取结构化数据。其核心功能是模拟人类浏览网页的行为，按照预设规则遍历目标网站，抓取文本、图片、链接等信息。爬虫也被称为“网页蜘蛛”或“网络机器人”，广泛应用于搜索引擎索引构建、数据挖掘等领域。2.Python爬虫的运作机制爬虫的工作流程可分为以下步骤：发送请求：通过HTTP
Python网络爬虫：从原理到实践的全面解析九月 python 爬虫开发语言网络爬虫
在信息爆炸的时代，Python网络爬虫已成为获取和分析网络数据的核心技术。它不仅能够自动化采集海量网页信息，还能通过数据挖掘创造商业价值。本文将系统讲解Python爬虫的核心概念、技术实现、应用场景及法律边界，为读者构建完整的知识框架。一、什么是Python网络爬虫？Python网络爬虫是一种自动化脚本程序，通过模拟浏览器行为访问网页，按照预设规则抓取目标数据。其核心原理是：发送HTTP请求：向目
网络爬虫全解析网安-轩逸爬虫 web安全网络安全
1.网络爬虫的认识网络爬虫是自动从互联网定向或不定向地采集信息地一种程序工具。网络爬虫分为很多类别，常见的有批量型网络爬虫、增量型网络爬虫（通用爬虫）、垂直网络爬虫（聚焦爬虫）。2.网络爬虫的工作原理通用爬虫：首先给定初始URL，爬虫会自动获取这个URL上的所有URL并将已经在爬取的地址存放在已爬取列表中。将新的URL放在队列并依次读取新的URL，依次判读是否满足所设置的停止获取的条件。聚焦爬虫：
Python大数据处理实验报告（三）小李独爱秋 python 开发语言 pycharm 大数据
实验目的本次实验的目的是练习使用Python编程语言和相关库进行网络爬虫和数据处理任务。具体来说，您将学习以下内容：使用Python中的requests库和BeautifulSoup库来爬取当当网某一本书的网页内容，并将其保存为html格式文件。学习使用Python中的requests库和正则表达式来爬取豆瓣网上某本书的前50条短评内容，并计算评分的平均值。了解如何使用Python中的reques
数据界的达克摩斯之剑----深入浅出带你理解网络爬虫(First) web18285997089 面试学习路线阿里巴巴爬虫
目录一.引言二.网络爬虫产生的背景三.爬虫背后的相关技术和原理1.插入URL的概念解析2.常见的几种URL格式四.网络爬虫的分类1.通用网络爬虫2.增量式网络爬虫3.DeepWeb爬虫一.引言网络爬虫是一种自动获取网页内容的程序或技术。它就像一只“小蜘蛛”，在互联网上爬行，抓取各种信息。想象一下，网络就像一张大网，上面有无数的网页，而爬虫就是在这张网上穿梭的“小虫子”。它可以根据预设的规则和目标，
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h