chengwangbaiko

Java爬虫，信息抓取的实现

    
    
        
        标签：
          数据抓取爬虫jsoup
        
    
    
        2014-04-09 15:50
        140596人阅读
         评论(120)
         收藏
          举报

    


    本文章已收录于：
    



  
    
       
        分类：
    
    
                
                    【Java 并发专题】（14）
                  
                  
                    
                        作者同类文章X
                                                    
                        
                    
                                    
    

             
        版权声明：本文为博主原创文章，未经博主允许不得转载。

转载请注明出处：http://blog.csdn.NET/lmj623565791/article/details/23272657

今天公司有个需求，需要做一些指定网站查询后的数据的抓取，于是花了点时间写了个demo供演示使用。

思想很简单：就是通过Java访问的链接，然后拿到html字符串，然后就是解析链接等需要的数据。

技术上使用Jsoup方便页面的解析，当然Jsoup很方便，也很简单，一行代码就能知道怎么用了：

[java] view plain copy

print ?

Document doc = Jsoup.connect(“http://www.oschina.net/”)
.data(”query”, “Java”) // 请求参数
.userAgent(”I ’ m jsoup”) // 设置 User-Agent
.cookie(”auth”, “token”) // 设置 cookie
.timeout(3000) // 设置连接超时时间
.post(); // 使用 POST 方法访问 URL

 Document doc = Jsoup.connect("http://www.oschina.net/") 
  .data("query", "Java")   // 请求参数
  .userAgent("I ’ m jsoup") // 设置 User-Agent 
  .cookie("auth", "token") // 设置 cookie 
  .timeout(3000)           // 设置连接超时时间
  .post();                 // 使用 POST 方法访问 URL

下面介绍整个实现过程：

1、分析需要解析的页面：

网址：http://www1.sxcredit.gov.cn/public/infocomquery.do?method=publicIndexQuery

页面：

先在这个页面上做一次查询：观察下请求的url，参数，method等。

这里我们使用chrome内置的开发者工具（快捷键F12），下面是查询的结果：

我们可以看到url，method，以及参数。知道了如何或者查询的URL，下面就开始代码了，为了重用与扩展，我定义了几个类：

1、Rule.java用于指定查询url,method,params等

[java] view plain copy

print ?

package com.zhy.spider.rule;
/**
* 规则类
*
* @author zhy
*
*/
public class Rule
{
/**
* 链接
*/
private String url;
/**
* 参数集合
*/
private String[] params;
/**
* 参数对应的值
*/
private String[] values;
/**
* 对返回的HTML，第一次过滤所用的标签，请先设置type
*/
private String resultTagName;
/**
* CLASS / ID / SELECTION
* 设置resultTagName的类型，默认为ID
*/
private int type = ID ;
/**
*GET / POST
* 请求的类型，默认GET
*/
private int requestMoethod = GET ;
public final static int GET = 0 ;
public final static int POST = 1 ;
public final static int CLASS = 0;
public final static int ID = 1;
public final static int SELECTION = 2;
public Rule()
{
}
public Rule(String url, String[] params, String[] values,
String resultTagName, int type, int requestMoethod)
{
super();
this.url = url;
this.params = params;
this.values = values;
this.resultTagName = resultTagName;
this.type = type;
this.requestMoethod = requestMoethod;
}
public String getUrl()
{
return url;
}
public void setUrl(String url)
{
this.url = url;
}
public String[] getParams()
{
return params;
}
public void setParams(String[] params)
{
this.params = params;
}
public String[] getValues()
{
return values;
}
public void setValues(String[] values)
{
this.values = values;
}
public String getResultTagName()
{
return resultTagName;
}
public void setResultTagName(String resultTagName)
{
this.resultTagName = resultTagName;
}
public int getType()
{
return type;
}
public void setType(int type)
{
this.type = type;
}
public int getRequestMoethod()
{
return requestMoethod;
}
public void setRequestMoethod(int requestMoethod)
{
this.requestMoethod = requestMoethod;
}
}

package com.zhy.spider.rule;

/**
 * 规则类
 * 
 * @author zhy
 * 
 */
public class Rule
{
    /**
     * 链接
     */
    private String url;

    /**
     * 参数集合
     */
    private String[] params;
    /**
     * 参数对应的值
     */
    private String[] values;

    /**
     * 对返回的HTML，第一次过滤所用的标签，请先设置type
     */
    private String resultTagName;

    /**
     * CLASS / ID / SELECTION
     * 设置resultTagName的类型，默认为ID 
     */
    private int type = ID ;

    /**
     *GET / POST
     * 请求的类型，默认GET
     */
    private int requestMoethod = GET ; 

    public final static int GET = 0 ;
    public final static int POST = 1 ;


    public final static int CLASS = 0;
    public final static int ID = 1;
    public final static int SELECTION = 2;

    public Rule()
    {
    }


    public Rule(String url, String[] params, String[] values,
            String resultTagName, int type, int requestMoethod)
    {
        super();
        this.url = url;
        this.params = params;
        this.values = values;
        this.resultTagName = resultTagName;
        this.type = type;
        this.requestMoethod = requestMoethod;
    }

    public String getUrl()
    {
        return url;
    }

    public void setUrl(String url)
    {
        this.url = url;
    }

    public String[] getParams()
    {
        return params;
    }

    public void setParams(String[] params)
    {
        this.params = params;
    }

    public String[] getValues()
    {
        return values;
    }

    public void setValues(String[] values)
    {
        this.values = values;
    }

    public String getResultTagName()
    {
        return resultTagName;
    }

    public void setResultTagName(String resultTagName)
    {
        this.resultTagName = resultTagName;
    }

    public int getType()
    {
        return type;
    }

    public void setType(int type)
    {
        this.type = type;
    }

    public int getRequestMoethod()
    {
        return requestMoethod;
    }

    public void setRequestMoethod(int requestMoethod)
    {
        this.requestMoethod = requestMoethod;
    }

}

简单说一下：这个规则类定义了我们查询过程中需要的所有信息，方便我们的扩展，以及代码的重用，我们不可能针对每个需要抓取的网站写一套代码。

2、需要的数据对象，目前只需要链接，LinkTypeData.java

[java] view plain copy

print ?

package com.zhy.spider.bean;
public class LinkTypeData
{
private int id;
/**
* 链接的地址
*/
private String linkHref;
/**
* 链接的标题
*/
private String linkText;
/**
* 摘要
*/
private String summary;
/**
* 内容
*/
private String content;
public int getId()
{
return id;
}
public void setId(int id)
{
this.id = id;
}
public String getLinkHref()
{
return linkHref;
}
public void setLinkHref(String linkHref)
{
this.linkHref = linkHref;
}
public String getLinkText()
{
return linkText;
}
public void setLinkText(String linkText)
{
this.linkText = linkText;
}
public String getSummary()
{
return summary;
}
public void setSummary(String summary)
{
this.summary = summary;
}
public String getContent()
{
return content;
}
public void setContent(String content)
{
this.content = content;
}
}

package com.zhy.spider.bean;

public class LinkTypeData
{
    private int id;
    /**
     * 链接的地址
     */
    private String linkHref;
    /**
     * 链接的标题
     */
    private String linkText;
    /**
     * 摘要
     */
    private String summary;
    /**
     * 内容
     */
    private String content;
    public int getId()
    {
        return id;
    }
    public void setId(int id)
    {
        this.id = id;
    }
    public String getLinkHref()
    {
        return linkHref;
    }
    public void setLinkHref(String linkHref)
    {
        this.linkHref = linkHref;
    }
    public String getLinkText()
    {
        return linkText;
    }
    public void setLinkText(String linkText)
    {
        this.linkText = linkText;
    }
    public String getSummary()
    {
        return summary;
    }
    public void setSummary(String summary)
    {
        this.summary = summary;
    }
    public String getContent()
    {
        return content;
    }
    public void setContent(String content)
    {
        this.content = content;
    }
}

3、核心的查询类：ExtractService.java

[java] view plain copy

print ?

package com.zhy.spider.core;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import java.util.Map;
import javax.swing.plaf.TextUI;
import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import com.zhy.spider.bean.LinkTypeData;
import com.zhy.spider.rule.Rule;
import com.zhy.spider.rule.RuleException;
import com.zhy.spider.util.TextUtil;
/**
*
* @author zhy
*
*/
public class ExtractService
{
/**
* @param rule
* @return
*/
public static List extract(Rule rule)
{
// 进行对rule的必要校验
validateRule(rule);
List datas = new ArrayList();
LinkTypeData data = null;
try
{
/**
* 解析rule
*/
String url = rule.getUrl();
String[] params = rule.getParams();
String[] values = rule.getValues();
String resultTagName = rule.getResultTagName();
int type = rule.getType();
int requestType = rule.getRequestMoethod();
Connection conn = Jsoup.connect(url);
// 设置查询参数
if (params != null)
{
for (int i = 0; i < params.length; i++)
{
conn.data(params[i], values[i]);
}
}
// 设置请求类型
Document doc = null;
switch (requestType)
{
case Rule.GET:
doc = conn.timeout(100000).get();
break;
case Rule.POST:
doc = conn.timeout(100000).post();
break;
}
//处理返回数据
Elements results = new Elements();
switch (type)
{
case Rule.CLASS:
results = doc.getElementsByClass(resultTagName);
break;
case Rule.ID:
Element result = doc.getElementById(resultTagName);
results.add(result);
break;
case Rule.SELECTION:
results = doc.select(resultTagName);
break;
default:
//当resultTagName为空时默认去body标签
if (TextUtil.isEmpty(resultTagName))
{
results = doc.getElementsByTag(”body”);
}
}
for (Element result : results)
{
Elements links = result.getElementsByTag(”a”);
for (Element link : links)
{
//必要的筛选
String linkHref = link.attr(”href”);
String linkText = link.text();
data = new LinkTypeData();
data.setLinkHref(linkHref);
data.setLinkText(linkText);
datas.add(data);
}
}
} catch (IOException e)
{
e.printStackTrace();
}
return datas;
}
/**
* 对传入的参数进行必要的校验
*/
private static void validateRule(Rule rule)
{
String url = rule.getUrl();
if (TextUtil.isEmpty(url))
{
throw new RuleException(“url不能为空！”);
}
if (!url.startsWith(“http://”))
{
throw new RuleException(“url的格式不正确！”);
}
if (rule.getParams() != null && rule.getValues() != null)
{
if (rule.getParams().length != rule.getValues().length)
{
throw new RuleException(“参数的键值对个数不匹配！”);
}
}
}
}

package com.zhy.spider.core;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import java.util.Map;

import javax.swing.plaf.TextUI;

import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import com.zhy.spider.bean.LinkTypeData;
import com.zhy.spider.rule.Rule;
import com.zhy.spider.rule.RuleException;
import com.zhy.spider.util.TextUtil;

/**
 * 
 * @author zhy
 * 
 */
public class ExtractService
{
    /**
     * @param rule
     * @return
     */
    public static List extract(Rule rule)
    {

        // 进行对rule的必要校验
        validateRule(rule);

        List datas = new ArrayList();
        LinkTypeData data = null;
        try
        {
            /**
             * 解析rule
             */
            String url = rule.getUrl();
            String[] params = rule.getParams();
            String[] values = rule.getValues();
            String resultTagName = rule.getResultTagName();
            int type = rule.getType();
            int requestType = rule.getRequestMoethod();

            Connection conn = Jsoup.connect(url);
            // 设置查询参数

            if (params != null)
            {
                for (int i = 0; i < params.length; i++)
                {
                    conn.data(params[i], values[i]);
                }
            }

            // 设置请求类型
            Document doc = null;
            switch (requestType)
            {
            case Rule.GET:
                doc = conn.timeout(100000).get();
                break;
            case Rule.POST:
                doc = conn.timeout(100000).post();
                break;
            }

            //处理返回数据
            Elements results = new Elements();
            switch (type)
            {
            case Rule.CLASS:
                results = doc.getElementsByClass(resultTagName);
                break;
            case Rule.ID:
                Element result = doc.getElementById(resultTagName);
                results.add(result);
                break;
            case Rule.SELECTION:
                results = doc.select(resultTagName);
                break;
            default:
                //当resultTagName为空时默认去body标签
                if (TextUtil.isEmpty(resultTagName))
                {
                    results = doc.getElementsByTag("body");
                }
            }

            for (Element result : results)
            {
                Elements links = result.getElementsByTag("a");

                for (Element link : links)
                {
                    //必要的筛选
                    String linkHref = link.attr("href");
                    String linkText = link.text();

                    data = new LinkTypeData();
                    data.setLinkHref(linkHref);
                    data.setLinkText(linkText);

                    datas.add(data);
                }
            }

        } catch (IOException e)
        {
            e.printStackTrace();
        }

        return datas;
    }

    /**
     * 对传入的参数进行必要的校验
     */
    private static void validateRule(Rule rule)
    {
        String url = rule.getUrl();
        if (TextUtil.isEmpty(url))
        {
            throw new RuleException("url不能为空！");
        }
        if (!url.startsWith("http://"))
        {
            throw new RuleException("url的格式不正确！");
        }

        if (rule.getParams() != null && rule.getValues() != null)
        {
            if (rule.getParams().length != rule.getValues().length)
            {
                throw new RuleException("参数的键值对个数不匹配！");
            }
        }

    }


}

4、里面用了一个异常类：RuleException.java

[java] view plain copy

print ?

package com.zhy.spider.rule;
public class RuleException extends RuntimeException
{
public RuleException()
{
super();
// TODO Auto-generated constructor stub
}
public RuleException(String message, Throwable cause)
{
super(message, cause);
// TODO Auto-generated constructor stub
}
public RuleException(String message)
{
super(message);
// TODO Auto-generated constructor stub
}
public RuleException(Throwable cause)
{
super(cause);
// TODO Auto-generated constructor stub
}
}

package com.zhy.spider.rule;

public class RuleException extends RuntimeException
{

    public RuleException()
    {
        super();
        // TODO Auto-generated constructor stub
    }

    public RuleException(String message, Throwable cause)
    {
        super(message, cause);
        // TODO Auto-generated constructor stub
    }

    public RuleException(String message)
    {
        super(message);
        // TODO Auto-generated constructor stub
    }

    public RuleException(Throwable cause)
    {
        super(cause);
        // TODO Auto-generated constructor stub
    }

}

5、最后是测试了：这里使用了两个网站进行测试，采用了不同的规则，具体看代码吧

[java] view plain copy

print ?

package com.zhy.spider.test;
import java.util.List;
import com.zhy.spider.bean.LinkTypeData;
import com.zhy.spider.core.ExtractService;
import com.zhy.spider.rule.Rule;
public class Test
{
@org.junit.Test
public void getDatasByClass()
{
Rule rule = new Rule(
”http://www1.sxcredit.gov.cn/public/infocomquery.do?method=publicIndexQuery”,
new String[] { “query.enterprisename”,“query.registationnumber” }, new String[] { “兴网”,“” },
”cont_right”, Rule.CLASS, Rule.POST);
List extracts = ExtractService.extract(rule);
printf(extracts);
}
@org.junit.Test
public void getDatasByCssQuery()
{
Rule rule = new Rule(“http://www.11315.com/search”,
new String[] { “name” }, new String[] { “兴网” },
”div.g-mn div.con-model”, Rule.SELECTION, Rule.GET);
List extracts = ExtractService.extract(rule);
printf(extracts);
}
public void printf(List datas)
{
for (LinkTypeData data : datas)
{
System.out.println(data.getLinkText());
System.out.println(data.getLinkHref());
System.out.println(”***********************************”);
}
}
}

package com.zhy.spider.test;

import java.util.List;

import com.zhy.spider.bean.LinkTypeData;
import com.zhy.spider.core.ExtractService;
import com.zhy.spider.rule.Rule;

public class Test
{
    @org.junit.Test
    public void getDatasByClass()
    {
        Rule rule = new Rule(
                "http://www1.sxcredit.gov.cn/public/infocomquery.do?method=publicIndexQuery",
        new String[] { "query.enterprisename","query.registationnumber" }, new String[] { "兴网","" },
                "cont_right", Rule.CLASS, Rule.POST);
        List extracts = ExtractService.extract(rule);
        printf(extracts);
    }

    @org.junit.Test
    public void getDatasByCssQuery()
    {
        Rule rule = new Rule("http://www.11315.com/search",
                new String[] { "name" }, new String[] { "兴网" },
                "div.g-mn div.con-model", Rule.SELECTION, Rule.GET);
        List extracts = ExtractService.extract(rule);
        printf(extracts);
    }

    public void printf(List datas)
    {
        for (LinkTypeData data : datas)
        {
            System.out.println(data.getLinkText());
            System.out.println(data.getLinkHref());
            System.out.println("***********************************");
        }

    }
}

输出结果：

[java] view plain copy

print ?

深圳市网兴科技有限公司
http://14603257.11315.com
***********************************
荆州市兴网公路物资有限公司
http://05155980.11315.com
***********************************
西安市全兴网吧
#
***********************************
子长县新兴网城
#
***********************************
陕西同兴网络信息有限责任公司第三分公司
#
***********************************
西安高兴网络科技有限公司
#
***********************************
陕西同兴网络信息有限责任公司西安分公司
#
***********************************

深圳市网兴科技有限公司
http://14603257.11315.com
***********************************
荆州市兴网公路物资有限公司
http://05155980.11315.com
***********************************
西安市全兴网吧
#
***********************************
子长县新兴网城
#
***********************************
陕西同兴网络信息有限责任公司第三分公司
#
***********************************
西安高兴网络科技有限公司
#
***********************************
陕西同兴网络信息有限责任公司西安分公司
#
***********************************

最后使用一个Baidu新闻来测试我们的代码：说明我们的代码是通用的。

[java] view plain copy

print ?

/**
* 使用百度新闻，只设置url和关键字与返回类型
*/
@org.junit.Test
public void getDatasByCssQueryUserBaidu()
{
Rule rule = new Rule(“http://news.baidu.com/ns”,
new String[] { “word” }, new String[] { “支付宝” },
null, -1, Rule.GET);
List extracts = ExtractService.extract(rule);
printf(extracts);
}

         /**
     * 使用百度新闻，只设置url和关键字与返回类型
     */
    @org.junit.Test
    public void getDatasByCssQueryUserBaidu()
    {
        Rule rule = new Rule("http://news.baidu.com/ns",
                new String[] { "word" }, new String[] { "支付宝" },
                null, -1, Rule.GET);
        List extracts = ExtractService.extract(rule);
        printf(extracts);
    }

我们只设置了链接、关键字、和请求类型，不设置具体的筛选条件。

结果：有一定的垃圾数据是肯定的，但是需要的数据肯定也抓取出来了。我们可以设置Rule.SECTION,以及筛选条件进一步的限制。

[html] view plain copy

print ?

按时间排序
/ns?word=支付宝&ie=utf-8&bs=支付宝&sr=0&cl=2&rn=20&tn=news&ct=0&clk=sortbytime
***********************************
x
javascript:void(0)
***********************************
支付宝将联合多方共建安全基金首批投入4000万
http://finance.ifeng.com/a/20140409/12081871_0.shtml
***********************************
7条相同新闻
/ns?word=%E6%94%AF%E4%BB%98%E5%AE%9D+cont:2465146414%7C697779368%7C3832159921&same=7&cl=1&tn=news&rn=30&fm=sd
***********************************
百度快照
http://cache.baidu.com/c?m=9d78d513d9d437ab4f9e91697d1cc0161d4381132ba7d3020cd0870fd33a541b0120a1ac26510d19879e20345dfe1e4bea876d26605f75a09bbfd91782a6c1352f8a2432721a844a0fd019adc1452fc423875d9dad0ee7cdb168d5f18c&p=c96ec64ad48b2def49bd9b780b64&newp=c4769a4790934ea95ea28e281c4092695912c10e3dd796&user=baidu&fm=sc&query=%D6%A7%B8%B6%B1%A6&qid=a400f3660007a6c5&p1=1
***********************************
OpenSSL漏洞涉及众多网站支付宝称暂无数据泄露
http://tech.ifeng.com/internet/detail_2014_04/09/35590390_0.shtml
***********************************
26条相同新闻
/ns?word=%E6%94%AF%E4%BB%98%E5%AE%9D+cont:3869124100&same=26&cl=1&tn=news&rn=30&fm=sd
***********************************
百度快照
http://cache.baidu.com/c?m=9f65cb4a8c8507ed4fece7631050803743438014678387492ac3933fc239045c1c3aa5ec677e4742ce932b2152f4174bed843670340537b0efca8e57dfb08f29288f2c367117845615a71bb8cb31649b66cf04fdea44a7ecff25e5aac5a0da4323c044757e97f1fb4d7017dd1cf4&p=8b2a970d95df11a05aa4c32013&newp=9e39c64ad4dd50fa40bd9b7c5253d8304503c52251d5ce042acc&user=baidu&fm=sc&query=%D6%A7%B8%B6%B1%A6&qid=a400f3660007a6c5&p1=2
***********************************
雅虎日本6月起开始支持支付宝付款
http://www.techweb.com.cn/ucweb/news/id/2025843
***********************************

按时间排序
/ns?word=支付宝&ie=utf-8&bs=支付宝&sr=0&cl=2&rn=20&tn=news&ct=0&clk=sortbytime
***********************************
x
javascript:void(0)
***********************************
支付宝将联合多方共建安全基金 首批投入4000万
http://finance.ifeng.com/a/20140409/12081871_0.shtml
***********************************
7条相同新闻
/ns?word=%E6%94%AF%E4%BB%98%E5%AE%9D+cont:2465146414%7C697779368%7C3832159921&same=7&cl=1&tn=news&rn=30&fm=sd
***********************************
百度快照
http://cache.baidu.com/c?m=9d78d513d9d437ab4f9e91697d1cc0161d4381132ba7d3020cd0870fd33a541b0120a1ac26510d19879e20345dfe1e4bea876d26605f75a09bbfd91782a6c1352f8a2432721a844a0fd019adc1452fc423875d9dad0ee7cdb168d5f18c&p=c96ec64ad48b2def49bd9b780b64&newp=c4769a4790934ea95ea28e281c4092695912c10e3dd796&user=baidu&fm=sc&query=%D6%A7%B8%B6%B1%A6&qid=a400f3660007a6c5&p1=1
***********************************
OpenSSL漏洞涉及众多网站 支付宝称暂无数据泄露
http://tech.ifeng.com/internet/detail_2014_04/09/35590390_0.shtml
***********************************
26条相同新闻
/ns?word=%E6%94%AF%E4%BB%98%E5%AE%9D+cont:3869124100&same=26&cl=1&tn=news&rn=30&fm=sd
***********************************
百度快照
http://cache.baidu.com/c?m=9f65cb4a8c8507ed4fece7631050803743438014678387492ac3933fc239045c1c3aa5ec677e4742ce932b2152f4174bed843670340537b0efca8e57dfb08f29288f2c367117845615a71bb8cb31649b66cf04fdea44a7ecff25e5aac5a0da4323c044757e97f1fb4d7017dd1cf4&p=8b2a970d95df11a05aa4c32013&newp=9e39c64ad4dd50fa40bd9b7c5253d8304503c52251d5ce042acc&user=baidu&fm=sc&query=%D6%A7%B8%B6%B1%A6&qid=a400f3660007a6c5&p1=2
***********************************
雅虎日本6月起开始支持支付宝付款
http://www.techweb.com.cn/ucweb/news/id/2025843
***********************************

如果有什么不足，可以指出；如果觉得对你有用，顶一下~~哈哈

源码下载，点击这里。

Java爬虫技术详解：原理、实现与优势 cyc&阿灿 Java 多线程 java 爬虫开发语言
一、什么是网络爬虫？网络爬虫（WebCrawler），又称网络蜘蛛或网络机器人，是一种自动化程序，能够按照一定的规则自动浏览和抓取互联网上的信息。爬虫技术是大数据时代获取网络数据的重要手段，广泛应用于搜索引擎、数据分析、价格监控等领域。Java作为一种稳定、高效的编程语言，凭借其强大的网络编程能力和丰富的生态库，成为开发网络爬虫的热门选择。二、Java爬虫核心组件一个完整的Java爬虫通常包含以下
Java爬虫实战指南：按关键字搜索京东商品爬虫程序猿 java 爬虫开发语言
在电商领域，快速获取商品信息对于市场分析、选品上架、库存管理和价格策略制定等方面至关重要。京东作为国内领先的电商平台之一，提供了丰富的商品数据。虽然京东开放平台提供了官方API来获取商品信息，但有时使用爬虫技术来抓取数据也是一种有效的手段。本文将介绍如何利用Java按关键字搜索京东商品，并提供详细的代码示例。一、准备工作（一）Java开发环境确保你的Java开发环境已经安装了以下必要的库：Jsou
Java爬虫｜爬虫爬jj榜单数据写入excel Chrison_mu 爬虫 java
大学的时候选python课课设就是让我们用爬虫去爬取数据写入文件然后再做数据分析词云图地图分类等python已经记不清了现在用Java尝试一下爬取数据爬虫分为三步骤：1.获取你自己电脑访问网站的时候的请求头2.目标网站的url3.对爬出来的网页返回值进行切分出有用的部分packagecom.example.concurrent;importorg.apache.poi.ss.usermodel.C
如何利用 Java 爬虫获得微店商品详情：实战指南爬虫程序猿 java 爬虫开发语言
在电商领域，微店作为众多商家的线上销售渠道之一，其商品详情数据对于市场分析、竞品研究和商业决策具有重要价值。Java爬虫技术可以帮助我们高效地获取这些数据。本文将详细介绍如何使用Java编写爬虫，获取微店商品详情。一、准备工作（一）环境搭建确保你的Java开发环境已经安装了以下必要的库：Jsoup：用于解析HTML页面。HttpClient：用于发送HTTP请求。可以通过Maven来管理这些依赖，
使用 Jsoup 构建你的第一个 Java 爬虫一碗黄焖鸡三碗米饭爬虫实战 java 爬虫开发语言
目录使用Jsoup构建你的第一个Java爬虫1.Jsoup简介2.环境准备Maven依赖配置：Gradle依赖配置：3.构建一个简单的网页爬虫代码实现：4.代码解析5.执行效果6.进阶功能：处理分页和数据存储模拟分页抓取数据存储：将数据保存为CSV文件7.小结网页爬虫（WebScraping）已经成为数据收集和分析中的重要工具。通过爬虫技术，我们可以从互联网上获取大量的公开数据，并利用这些数据进行
java爬虫框架，简单高效，易用，附带可运行案例 java龙王* java 爬虫开发语言
WebScraper工具类使用手册序言：java简单易用的封装爬虫工具类，代码和案例奉上，把你的点击和收藏也一并奉上吧[狗头]，springboot版本：3.4.5java版本：17安装依赖：1711114.20.05.8.02.10.1org.seleniumhq.seleniumselenium-java${selenium.version}io.github.bonigarciawebdri
java使用WebMagic架构写个分布式爬虫 q56731523 java 架构分布式
前一个项目是通过java完成，因此，本次大型项目依然需要用java语言，但是这里是需要分布式爬虫，所以的需要使用WebMagic架构。我们知道WebMagic是一个功能强大且灵活的Java爬虫框架，支持多线程和分布式抓取。要实现基于WebMagic的分布式爬虫，需要结合其核心组件与扩展功能，并通过一些外部工具或服务来协调多个爬虫实例之间的任务分配与数据共享。废话不多说，以下是使用Java的WebM
淘宝按图搜索商品（拍立淘）Java 爬虫实战指南 API小爬虫图搜索算法 java 爬虫
在电商领域，按图搜索商品功能为用户提供了更直观、便捷的购物体验。淘宝的拍立淘功能更是凭借其强大的图像识别技术，成为许多开发者和商家关注的焦点。本文将详细介绍如何利用Java爬虫技术实现淘宝按图搜索商品功能，包括注册账号、上传图片、调用API及解析响应等关键步骤。一、准备工作（一）注册淘宝开放平台账号在使用淘宝按图搜索功能之前，需要在淘宝开放平台注册账号并创建应用。注册成功后，平台会分配一个AppK
Jsoup与HtmlUnit：两大Java爬虫工具对比解析静谧空间 Java 爬虫
Jsoup：HTML解析利器定位：专注HTML解析的轻量级库（也就是快，但动态页面无法抓取）核心能力：DOM树解析与CSS选择器查询HTML净化与格式化支持元素遍历与属性提取应用场景：静态页面数据抽取、内容清洗publicstaticDocumentgetJsoupDoc(Stringurl,Integerfrequency,IntegerconnectTimeout){Documentdocum
java爬虫：cdp4j+jsoup实现网页爬取和解析熊子不爱吃香菜 springboot
目的使用cdp4j爬取动态网页后用jsoup解析网页获取相关数据。环境chrome客户端jdk1.8依赖org.jsoupjsoup1.8.1io.webfoldercdp4j3.0.15org.jvnet.winpwinp1.28案例packagecn.zhangpf.reptilescsdn.utils;importio.webfolder.cdp.Launcher;importio.webf
利用 Java 爬虫按关键字搜索淘宝商品 API小爬虫 java 爬虫 python
在电商领域，通过关键字搜索商品是常见的需求。淘宝作为国内知名的电商平台，提供了丰富的商品搜索功能。本文将详细介绍如何使用Java爬虫技术按关键字搜索淘宝商品，并获取搜索结果的详细信息。一、准备工作1.注册淘宝开放平台账号要使用淘宝商品搜索API，首先需要在淘宝开放平台（淘宝开放平台）注册账号，并创建应用以获取AppKey和AppSecret。这些是调用API所必需的凭证。2.安装必要的Java库确
Java爬虫：深入探索1688接口的奥秘 API快乐传递者 1688API java 爬虫开发语言
在数字化时代，数据成为了企业最宝贵的资产之一。对于电商企业来说，获取和分析数据的能力直接关系到其市场竞争力。阿里巴巴旗下的1688平台，作为中国领先的批发贸易平台，拥有海量的商家和商品信息，成为了众多企业获取数据的重要来源。本文将深入探讨如何使用Java编写爬虫，以合法合规的方式，高效地从1688平台获取接口数据。一、Java爬虫的基础知识在开始之前，我们需要了解一些Java爬虫的基础知识。爬虫（
Selenium用法详解【定位页面元素】【JAVA爬虫】泰山AI Selenium自动化爬虫 selenium java 爬虫
目录定位页面元素id定位name定位class定位tag定位link定位partialLinkText定位xpath定位绝对路径（层级关系）定位相对路径（层级关系）定位利用元素属性定位层级+元素属性定位逻辑运算符定位通过文字定位通过部分文字定位通过部分属性值定位css定位1.通过class属性定位2.通过id属性定位3.通过标签名定位4.通过父子关系定位5.通过属性定位6.通配符7.组合定位定位一
Java爬虫如何解析返回的JSON数据？数据小小爬虫 java 爬虫 json
在Java中解析JSON数据通常使用一些流行的库，如Jackson或Gson。这些库提供了强大的功能，可以轻松地将JSON字符串转换为Java对象，或者从Java对象生成JSON字符串。以下是如何使用Jackson库解析返回的JSON数据的详细步骤和示例。一、添加依赖首先，确保你的项目中已经添加了Jackson库的依赖。如果你使用Maven，可以在pom.xml文件中添加以下依赖：xmlcom.f
使用Java爬虫按关键字搜索1688商品小爬虫程序猿 java 爬虫开发语言
在电商领域，获取1688商品信息对于市场分析、选品上架、库存管理和价格策略制定等方面至关重要。1688作为国内领先的B2B电商平台，提供了丰富的商品数据。虽然1688开放平台提供了官方API来获取商品信息，但有时使用爬虫技术来抓取数据也是一种有效的手段。本文将介绍如何利用Java按关键字搜索1688商品，并提供详细的代码示例。一、准备工作1.Java开发环境确保你的Java开发环境已经安装了以下必
使用Java爬虫根据关键词获取Shopee商品列表？小爬虫程序猿 java 爬虫开发语言
在跨境电商领域，Shopee作为东南亚及中国台湾地区领先的电商平台，拥有海量的商品信息。无论是进行市场调研、数据分析，还是寻找热门商品，根据关键词获取Shopee商品列表都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写Java爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用Java爬虫根据关键词获取Shopee商品列表，并提供完整的代码示例
用Java爬虫轻松获取微店店铺所有商品信息数据小爬虫@ java 爬虫开发语言
在当今电商蓬勃发展的时代，微店作为一个轻量级且功能强大的电商平台，吸引了众多商家和消费者。无论是进行市场调研、数据分析，还是寻找热门商品，获取微店店铺的所有商品信息都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写Java爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用Java爬虫获取微店店铺的所有商品信息。一、为什么选择Java爬虫？Jav
利用Java爬虫根据关键词获取商品列表：实战指南数据小爬虫@ java 爬虫开发语言
在电商领域，通过关键词搜索商品并获取商品列表是常见的需求。本文将详细介绍如何使用Java编写爬虫程序，根据关键词获取商品列表，并确保爬虫行为符合平台规范。为了确保代码的准确性和实用性，我们将提供详细的代码示例和解释。一、环境准备（一）Java开发环境确保你的系统中已安装Java开发环境，推荐使用JDK11或更高版本。（二）安装所需库使用Maven管理项目依赖，主要包括以下库：Jsoup：用于解析H
利用Java爬虫获取衣联网商品详情：实战指南 Jason-河山 java 爬虫开发语言
在电商领域，获取商品详情是数据分析和市场研究的重要环节。衣联网作为知名的电商平台，提供了丰富的服装商品资源。本文将详细介绍如何利用Java编写爬虫程序，通过商品ID获取衣联网商品详情。一、准备工作（一）环境搭建Java安装：确保已安装Java开发环境，推荐使用JDK11或更高版本。开发工具配置：使用IntelliJIDEA或Eclipse等Java开发工具，创建一个新的Maven项目。依赖库添加：
利用Java爬虫根据关键词获取17网（17zwd）商品列表：实战指南小爬虫程序猿 java 爬虫开发语言
在电商领域，通过关键词搜索商品并获取商品列表是常见的需求。17网（17zwd）作为知名的电商平台，提供了丰富的商品资源。本文将详细介绍如何使用Java爬虫技术根据关键词获取17网商品列表，并确保爬虫行为符合平台规范。一、环境准备（一）Java开发环境确保你的系统中已安装Java开发环境（推荐使用JDK1.8及以上版本）。（二）安装所需依赖使用Maven管理项目依赖，主要包括以下库：Jsoup：用于
利用爬虫按图搜索1688商品（拍立淘）：实战指南 Jason-河山爬虫图搜索算法算法
在电商领域，按图搜索商品（拍立淘）是一种非常实用的功能，尤其适合用户通过图片快速查找相似商品。1688开放平台提供了按图搜索商品的API接口，允许开发者通过图片获取相关的商品信息。本文将详细介绍如何使用Java爬虫技术调用1688的按图搜索API接口，并解析返回的数据。一、前期准备（一）Java开发环境确保已安装Java开发环境，推荐使用JDK1.8或更高版本。（二）依赖管理使用Maven或Gra
利用Java爬虫按图搜索1688商品（拍立淘）：实战指南 Jason-河山 java 爬虫图搜索算法
在电商领域，按图搜索商品（拍立淘）已成为一种重要的功能，尤其适合用户通过图片快速查找相似商品。1688开放平台提供了按图搜索商品的API接口，允许开发者通过图片获取相关的商品信息。本文将详细介绍如何使用Java爬虫技术调用1688的按图搜索API接口，并解析返回的数据。一、前期准备1.Java开发环境确保已安装Java开发环境，推荐使用JDK1.8或更高版本。2.依赖管理使用Maven或Gradl
如何利用Java爬虫按图搜索1688商品（拍立淘）：实战指南数据小爬虫@ java 爬虫图搜索算法
在电商领域，按图搜索商品（类似“拍立淘”功能）是一种非常实用的功能，尤其适合用户通过图片快速查找相似商品。1688开放平台提供了按图搜索商品的API接口，允许开发者通过图片获取相关的商品信息。本文将详细介绍如何使用Java爬虫技术调用1688的按图搜索API接口，并解析返回的数据。一、前期准备（一）Java开发环境确保已安装Java开发环境，推荐使用JDK1.8或更高版本。（二）依赖管理使用Mav
如何使用Java爬虫处理API接口返回的JSON数据？小爬虫程序猿 API java json 开发语言
处理API接口返回的JSON数据是Java爬虫开发中的一个常见任务。在Java中，有多个库可以帮助我们解析JSON数据，其中最流行的是Jackson和Gson。以下是使用这两个库处理JSON数据的基本步骤和示例代码。使用Jackson处理JSONJackson是一个功能强大的JSON处理库，它不仅可以将JSON字符串解析为Java对象，还可以将Java对象转换为JSON字符串。添加Jackson依
通过java下载B站视频 KeepeVile Java
本项目分为以下几点获取Bvid获取Cid获取视频原始链接使用Java下载视频文件1.获取Bvid我们首先需要获取Bvid，也就是视频id，如果只想下载一个指定的视频那么直接输入Bvid即可。如果需要批量下载那么就需要程序帮我们抓取Bvid，关于如何使用爬虫爬取我们需要的信息，可以参考我的另一篇文章：通过Java爬虫实现51job申请职位的第四部分获取Bvid2.获取Cid这里我们需要用到一条api
Java爬虫——jsoup xxxmine java 爬虫开发语言
JSoup是一个用于处理HTML的Java库，它提供了一个非常方便类似于使用DOM，CSS和jquery的方法的API来提取和操作数据。Jsoup能做什么？从URL、文件或字符串中抓取和解析HTML（爬虫）使用DOM遍历或CSS选择器查找和提取数据操作HTML元素、属性和文本根据安全列表清理用户提交的内容，以防止XSS攻击输出整洁的网页Jsoup相关概念Document：文档对象。每份HTML页面
利用Java爬虫精准获取商品销量详情：实战案例指南小爬虫程序猿 java 爬虫开发语言
在电商领域，商品销量数据是衡量产品受欢迎程度和市场表现的关键指标。精准获取商品销量详情不仅能帮助商家优化产品策略，还能为市场研究和数据分析提供丰富的数据资源。本文将详细介绍如何利用Java爬虫技术精准获取商品销量详情，并分享关键技术和代码示例。一、前期准备（一）环境搭建确保你的开发环境已安装以下必要的Java库：Jsoup：用于解析HTML页面。HttpClient：用于发送HTTP请求。Log4
利用Java爬虫获取Amazon商品详情：实战案例指南数据小小爬虫 java 爬虫开发语言
在电商领域，Amazon作为全球最大的电商平台之一，其商品详情数据对于市场分析、竞争策略制定以及电商运营优化具有极高的价值。通过Java爬虫技术，我们可以高效地获取这些数据，为电商从业者提供强大的数据支持。本文将详细介绍如何利用Java爬虫技术获取Amazon商品详情数据。一、准备工作（一）环境搭建确保你的开发环境中已经安装了以下必要的Java库：Jsoup：用于解析HTML页面。HttpClie
使用Java爬虫获取淘宝商品详情API返回值说明案例指南数据小小爬虫 java 爬虫开发语言
在电商数据分析和运营中，获取淘宝商品详情是常见的需求。淘宝开放平台提供了丰富的API接口，允许开发者通过合法的方式获取商品信息。本文将详细介绍如何使用Java编写爬虫，通过淘宝API获取商品详情，并解析API返回值的含义和结构。一、准备工作在开始编写爬虫之前，需要准备以下工具和库：Java开发环境：推荐使用IDEA或Eclipse。HttpClient库：用于发送HTTP请求。Jsoup库：用于解
利用Java爬虫精准获取淘宝分类详情：实战案例指南 Jason-河山 java 爬虫开发语言
在电商领域，淘宝作为中国最大的电商平台之一，其分类详情数据对于市场分析、竞争策略制定以及电商运营优化具有极高的价值。通过Java爬虫技术，我们可以高效地获取这些数据，为电商从业者提供强大的数据支持。本文将详细介绍如何利用Java编写爬虫程序，快速获取淘宝分类详情数据。一、准备工作（一）环境搭建确保你的开发环境中已经安装了以下必要的库：HttpClient：用于发送HTTP请求。Jsoup：用于解析
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu

Java爬虫，信息抓取的实现

Java爬虫，信息抓取的实现

源码下载，点击这里。

你可能感兴趣的:(java爬虫)