刻苦的樊同学

Java爬虫的底层及实现过程（可动手实现爬取京东官网的商品信息数据并保存到数据库中）

一，什么是网络爬虫？

网络爬虫（web crawer），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。从功能上来讲，爬虫一般分为数据采集，处理，储存三个部分。

1，入门程序

环境准备

（1）jdk1.8 （2）idea环境（3）maven

（4）需要导入httpClient的依赖。（去官网找用的最多的一个版本，不要找最新的）

 
        <dependency>
            <groupId>org.apache.httpcomponentsgroupId>
            <artifactId>httpclientartifactId>
            <version>4.5.2version>
        dependency>

2，写一个爬虫小例子带你初次体验爬虫

这里写一个测试类，把传智播客官网首页的代码全都爬出来。

public class CrawerFirst {
    public static void main(String[] args) throws IOException {
        //1，打开浏览器，创建HTTPClient对象
        CloseableHttpClient httpClient = HttpClients.createDefault();
        //2，输入网址，发起get请求，创建httpGet对象
        HttpGet httpGet=new HttpGet("http://www.itcast.cn");
        //3，按回车发送请求，返回响应，使用HttpClient对象发起请求
        CloseableHttpResponse response = httpClient.execute(httpGet);
        //4，解析响应，获取数据
        //判断状态码是否为200
        if(response.getStatusLine().getStatusCode()==200){
            HttpEntity httpEntity=response.getEntity();
            String content = EntityUtils.toString(httpEntity, "utf-8");
            System.out.println(content);
        }
    }
}

然后就可以打印出content，即首页的所有html代码信息。

3，HttpClient

这里我们使用Java的Http协议客户端HttpClient这个技术，来实现抓取网页数据。

3.1 Get请求

 public static void main(String[] args) throws IOException {
        //创建HttpClient对象
        CloseableHttpClient httpClient = HttpClients.createDefault();
        //创建HttpGet对象，设置url访问地址
        HttpGet httpGet=new HttpGet("http://www.itcast.cn");
        //使用httpClient发起请求，获取response
        CloseableHttpResponse response = null;
        try{
            response=httpClient.execute(httpGet);
            //解析响应
            if(response.getStatusLine().getStatusCode()==200){
                //得到响应体，并把结果通过EntityUtils工具类把结果转换为字符串
                String content= EntityUtils.toString(response.getEntity(),"utf8");
                System.out.println(content.length());
            }
        }catch (Exception e){
            e.printStackTrace();
        }finally {
            //关闭response
            response.close();
            httpClient.close();
        }
    }

3.2 带参数的Get请求

通过URIBuilder来设置参数。

public class HttpGetTest {
    public static void main(String[] args) throws Exception {
        //创建HttpClient对象
        CloseableHttpClient httpClient = HttpClients.createDefault();

        //设置请求地址是：http://yun.itheima.com/search?keys=Java
        //创建URIBuilder
        URIBuilder uriBuilder=new URIBuilder("http://yun.itheima.com/search");
        //设置参数
        uriBuilder.setParameter("keys","Java");


        //创建HttpGet对象，设置url访问地址
        HttpGet httpGet=new HttpGet(uriBuilder.build());

        System.err.println("发送的请求是"+httpGet);
        //使用httpClient发起请求，获取response
        CloseableHttpResponse response = null;
        try{
            response=httpClient.execute(httpGet);
            //解析响应
            if(response.getStatusLine().getStatusCode()==200){
                //得到响应体，并把结果通过EntityUtils工具类把结果转换为字符串
                String content= EntityUtils.toString(response.getEntity(),"utf8");
                System.out.println(content.length());
            }
        }catch (Exception e){
            e.printStackTrace();
        }finally {
            //关闭response
            response.close();
            httpClient.close();
        }
    }
}

3.3 不带参数的 Post请求

不带参数的post请求和get请求的区别只有一个，就是请求的声明。

//get请求
HttpGet httpGet=new HttpGet("url路径地址");
//post请求
HttpPost httpPost=new HttpPost("url路径地址");

3.4 带参数的Post请求

带参的话，使用post请求，url地址没有参数，参数keys=Java放在表单中进行提交。

public static void main(String[] args) throws Exception {
        //创建HttpClient对象
        CloseableHttpClient httpClient = HttpClients.createDefault();

        //设置请求地址是：http://yun.itheima.com/search?keys=Java

        //创建HttpPost对象，设置url访问地址
        HttpPost httpPost=new HttpPost("http://yun.itheima.com/search");

        //声明list集合，封装表单中的参数
        List<NameValuePair> params=new ArrayList<NameValuePair>();
        //设置参数
        params.add(new BasicNameValuePair("keys","Java"));

        //创建表单的Entity对象，第一个参数就是封装好的表单数据，第二个参数就是编码
        UrlEncodedFormEntity formEntity=new UrlEncodedFormEntity(params,"utf8");

        //设置表单的Entity对象到post请求中
        httpPost.setEntity(formEntity);

        //使用httpClient发起请求，获取response
        CloseableHttpResponse response = null;
        try{
            response=httpClient.execute(httpPost);
            //解析响应
            if(response.getStatusLine().getStatusCode()==200){
                //得到响应体，并把结果通过EntityUtils工具类把结果转换为字符串
                String content= EntityUtils.toString(response.getEntity(),"utf8");
                System.out.println(content.length());
            }
        }catch (Exception e){
            e.printStackTrace();
        }finally {
            //关闭response
            response.close();
            httpClient.close();
        }
    }

3.5 连接池

如果每次请求都要创建HttpClient，会有频繁创建和销毁的问题，可以使用连接池来解决这个问题。

public class HttpClientPoolTest {
    public static void main(String[] args) throws Exception {
        //创建连接池管理器
        PoolingHttpClientConnectionManager cm=new PoolingHttpClientConnectionManager();

        //设置最大连接数
        cm.setMaxTotal(100);

        //设置每个主机的最大连接数
        cm.setDefaultMaxPerRoute(10);        

        //使用连接池管理器发送请求
        doGet(cm);

    }

    private static void doGet(PoolingHttpClientConnectionManager cm) throws Exception {
        //不是每次都创建新的HttpClient，而是从连接池中获取HttpClient对象
        CloseableHttpClient httpClient = HttpClients.custom().setConnectionManager(cm).build();

        HttpGet httpGet=new HttpGet("http://www.itcast.cn");
        CloseableHttpResponse response=null;
        try{
            response=httpClient.execute(httpGet);

            if(response.getStatusLine().getStatusCode()==200){
                String content = EntityUtils.toString(response.getEntity(), "utf8");
                System.out.println(content.length());
            }

        }catch (Exception e){
            throw new Exception("发生异常");
        }finally {
            if(response!=null){
                response.close();
            }

            //不能关闭HttpClient,由连接池管理HttpClient
            //httpClient.close();
        }
    }
}

4,请求参数（配置请求信息RequestConfig）

有时候因为网络，或者目标服务器的原因，请求需要更长的时间才能完成，我么需要自定义相关时间。

public class HttpConfigTest {
    public static void main(String[] args) {
        //创建HttpClient对象
        CloseableHttpClient httpClient = HttpClients.createDefault();

        //创建httpGet对象，设置url访问地址
        HttpGet httpGet=new HttpGet("http://www.itcast.cn");

        //配置请求信息
        RequestConfig config=RequestConfig.custom().setConnectTimeout(1000) //创建连接的最长时间,单位是毫秒
        .setConnectionRequestTimeout(500)   //设置获取连接的最长时间，单位是毫秒
        .setSocketTimeout(10*1000)  //设置数据传输的最长时间，单位是毫秒
        .build();

        //给请求设置请求信息
        httpGet.setConfig(config);
    }
}

二，Jsoup

我们抓取到页面之后，还需要对页面进行解析，可以使用字符串处理工具解析页面，也可以使用正则表达式，但是这些方法都会带来很大的开发成本，所以我们需要使用一款专门解析html页面的技术。

2.1 Jsoup介绍

jsoup是一款java的html解析器，可直接解析某个url地址，html文本等内容，它提供了一套非常省力的api，可通过dom，css以及类似于jquery的操作方法来取出和操作数据。

Jsonp的主要功能如下：

1，从一个url，文件或字符串中解析html；

2，使用dom或css选择器来查找、取出数据。

2.2 使用Jsoup需要导入的依赖

 
        
        <dependency>
            <groupId>org.jsoupgroupId>
            <artifactId>jsoupartifactId>
            <version>1.10.2version>
        dependency>
        
        <dependency>
            <groupId>junitgroupId>
            <artifactId>junitartifactId>
            <version>4.12version>
            <scope>testscope>
        dependency>
        
        <dependency>
            <groupId>commons-iogroupId>
            <artifactId>commons-ioartifactId>
            <version>2.4version>
        dependency>
        
        <dependency>
            <groupId>org.apache.commonsgroupId>
            <artifactId>commons-lang3artifactId>
            <version>3.9version>
        dependency>

2.3 Jsoup解析URL

这里写一个小例子，抓取黑马官网主页的title的内容。

 @Test
    public void testUrl() throws Exception{
        //解析url地址，第一个参数是访问的url地址，第二个参数是访问时候的超时时间。
        //返回类型是一个dom对象，可以理解为抓取到的html页面。
        Document doc = Jsoup.parse(new URL("http://www.itcast.cn"), 1000);
        //使用标签选择器，获取title标签中的内容
        String title = doc.getElementsByTag("title").first().text();//第一个的文本内容
        System.out.println(title);
    }

[外链图片转存失败(img-szceJTJD-1567139877894)(D:\文件笔记\image\1566883592525.png)]

说明：虽然使用Jsoup可以替代HttpClient直接发起请求解析数据，但是往往不会这样用，因为实际的开发过程中，需要使用到多线程，连接池，代理等等方式，而Jsoup对这些的支持并不是很好，所以我们一般把jsoup仅仅作为html解析工具使用。

2.4 Jsoup解析字符串

@Test
    public void testString() throws Exception{
        //使用工具类读取文件，获取字符串
        String content=FileUtils.readFileToString(new File("D:\\IdeaProjects\\党建项目	  \\client\\src\\main\\resources\\templates\\web\\demo\\student\\lzjj_test.html"),"utf8");
        //解析字符串
        Document doc = Jsoup.parse(content);
        //获取title内容
        String title = doc.getElementsByTag("title").first().text();
        System.out.println(title);
    }

[外链图片转存失败(img-6UmUVM3Q-1567139877896)(D:\文件笔记\image\1566885700972.png)]

2.5 Jsoup解析文件

@Test
    public void testFile() throws Exception{
        //解析文件
        Document doc = Jsoup.parse(new File("D:\\IdeaProjects\\党建项目\\light-client\\src\\main\\resources\\templates\\web\\demo\\student\\lzjj_test.html"), "utf8");
        String title=doc.getElementsByTag("title").first().text();
        System.out.println(title);
    }

[外链图片转存失败(img-fhj4dlUk-1567139877896)(D:\文件笔记\image\1566885760260.png)]

2.6 使用dom的方式获取元素

 @Test
    public void testDom() throws Exception{
        //解析文件，获取document对象
        Document doc = Jsoup.parse(new File("D:\\IdeaProjects\\党建项目\\light-client\\src\\main\\resources\\templates\\web\\demo\\student\\lzjj_test.html"), "utf8");
        //获取元素
        //根据id获取
        /*Element a = doc.getElementById("a");
        System.out.println(a.text());*/
        //根据标签获取
        Element element = doc.getElementsByTag("td").last();
        System.out.println(element);
         //根据class类获取
        Element test = doc.getElementsByClass("test").first();
        //根据属性获取
        Elements abc = doc.getElementsByAttribute("abc");
         //通过指定的属性名和属性值指定获取
        Elements href = doc.getElementsByAttributeValue("href", "www.baidu.com");
    }

2.7 获取元素中的数据

上一步已经获取到了元素，怎么获取到元素中的诸多数据呢？

1，从元素中获取id

2，从元素中获取className

3，从元素中获取属性的值attr

4，从元素中获取所有属性attributes

5，从元素中获取文本内容text

 @Test
    public void testData() throws Exception{
        //解析文件，获取document对象
        Document doc = Jsoup.parse(new File("D:\\IdeaProjects\\党建项目\\light-client\\src\\main\\resources\\templates\\web\\demo\\student\\lzjj_test.html"), "utf8");
        Element element = doc.getElementsByTag("td").last();
        //获取元素的id值
        String id = element.id();
        //获取元素的class类的值（className）
        String className = element.className();
        System.out.println(className);
        //如果className的值是有多个class组成，这里获取每一个className，把它们拆分开
        Set<String> strings = element.classNames();
        for(String s:strings){
            System.out.println(s);
        }
        //从元素中获取class属性的值attr
        String aClass = element.attr("class");
        //从元素中获取文本内容text
        String text = element.text();
    }

2.8 使用组合选择器获取元素

@Test
    public void testSelectors() throws Exception{
        //解析文件，获取document对象
        Document doc = Jsoup.parse(new File("D:\\IdeaProjects\\党建项目\\light-client\\src\\main\\resources\\templates\\web\\demo\\student\\lzjj_test.html"), "utf8");
        //元素 + ID
        Element element = doc.select("p#lese").first();
        //元素 + class
        Element ele = doc.select("p.lese").first();
        //元素 + 属性名
        Elements select = doc.select("p[abc]");
        //任意组合（元素+class+id+属性名的任意组合）
        Element first = doc.select("p[abc].lese").first();
        //查找某个元素下的子元素  比如 .city li
        Element first1 = doc.select(".city li").first();
        //查找某个元素下的直接子元素  比如 .city>li
        Element first2 = doc.select(".city>ul>li").first();
        //parent > *    查找某个父元素下的所有直接子元素
        Element first3 = doc.select(".city>ul>*").first();
        System.out.println(first);
    }

三，案例–抓取京东的商品信息

这里只抓取京东的一部分数据就行了，商品的图片，价格，颜色等信息。

3.1 先在数据库建表

[外链图片转存失败(img-d6avaMTn-1567139877896)(D:\文件笔记\image\1566984565304.png)]

3.2 添加依赖

使用springboot+spring Data JPA和定时任务完成开发。

需要创建maven工程并添加以下依赖。

<dependencies>
        
        <dependency>
            <groupId>org.springframework.bootgroupId>
            <artifactId>spring-boot-starter-webartifactId>
            <version>2.1.3.RELEASEversion>
        dependency>
        
        <dependency>
            <groupId>mysqlgroupId>
            <artifactId>mysql-connector-javaartifactId>
            <version>8.0.13version>
        dependency>
        
        <dependency>
            <groupId>org.apache.httpcomponentsgroupId>
            <artifactId>httpclientartifactId>
            <version>4.5.2version>
        dependency>
        
        
        <dependency>
            <groupId>org.jsoupgroupId>
            <artifactId>jsoupartifactId>
            <version>1.10.2version>
        dependency>
        
        <dependency>
            <groupId>junitgroupId>
            <artifactId>junitartifactId>
            <version>4.12version>
            <scope>testscope>
        dependency>
        
        <dependency>
            <groupId>commons-iogroupId>
            <artifactId>commons-ioartifactId>
            <version>2.4version>
        dependency>
        
        <dependency>
            <groupId>org.apache.commonsgroupId>
            <artifactId>commons-lang3artifactId>
            <version>3.9version>
        dependency>

        
        <dependency>
            <groupId>org.springframework.bootgroupId>
            <artifactId>spring-boot-starter-data-jpaartifactId>
            <version>2.1.4.RELEASEversion>
        dependency>
    dependencies>

3.3 添加配置文件

加入application.properties配置文件

# DB 配置
spring.datasource.driver-class-name=com.mysql.jdbc.Driver
spring.datasource.url=jdbc:mysql://127.0.0.1:3306/jsoup
spring.datasource.username=root
spring.datasource.password=1234
# JPA 配置
spring.jpa.database=mysql
spring.jpa.show-sql=true

3.4 代码实现

先写pojo类

@Entity
@Table(name = "jd_item")
public class item {
    private Long id;
    private Long spu;
    private Long sku;
    private String title;
    private double price;
    private String pic;
    private String url;
    private Date created;
    private Date updated;
}

3.5 封装HttpClient

我们经常要使用HttpClient，所以需要进行封装，方便使用。

package com.qianlong.jd.util;
import org.apache.http.client.config.RequestConfig;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.impl.conn.PoolingHttpClientConnectionManager;
import org.apache.http.util.EntityUtils;
import org.springframework.stereotype.Component;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStream;
import java.util.UUID;

@Component  //创建实例
public class HttpUtils {
    //使用连接池
    private PoolingHttpClientConnectionManager cm;
    //需要声明构造方法，因为参数不需要从外面传进来，所以不需要参数
    //为什么需要构造方法，是因为声明的这个连接池需要赋于属性的值
    public HttpUtils() {
        this.cm = new PoolingHttpClientConnectionManager();
        //设置最大连接数
        this.cm.setMaxTotal(100);
        //设置每个主机的最大连接数
        this.cm.setDefaultMaxPerRoute(10);
    }


    //这里使用get请求获取页面数据，返回类型是string字符串类型

    /**
     * 根据请求地址下载页面数据
     * @param url
     * @return
     */
    public String doGetHTML(String url){
        //获取HttpClient对象
        CloseableHttpClient httpClient = HttpClients.custom().setConnectionManager(cm).build();
        //创建httpGet对象，设置url地址
        HttpGet httpGet=new HttpGet(url);
        //设置请求信息
        httpGet.setConfig(this.getConfig());


        CloseableHttpResponse response=null;

            try {
                //使用httpClient发起请求，获取响应
                response=httpClient.execute(httpGet);
                //解析响应，返回结果
                if(response.getStatusLine().getStatusCode()==200){
                    //判断响应体Entity是否为空，如果不为空就可以使用HttpUtils
                    if(response.getEntity()!=null){
                        String content = EntityUtils.toString(response.getEntity(), "utf8");

                    }
                }

            } catch (IOException e) {
                e.printStackTrace();
            }finally {
                //关闭response
                if(response!=null){
                    try {
                        response.close();
                    } catch (IOException e) {
                        e.printStackTrace();
                    }
                }
            }

        return "";
    }
    //设置请求的信息
    private RequestConfig getConfig() {
        RequestConfig config=RequestConfig.custom()
                .setConnectTimeout(1000)//创建连接的最长时间
                .setConnectionRequestTimeout(500)//获取连接的最长时间
                .setSocketTimeout(500)//数据传输的最长时间
                .build();
        return config;
    }

    /**
     * 下载图片
     * @param url
     * @return
     */
    public String doGetImage(String url){
        //获取HttpClient对象
        CloseableHttpClient httpClient = HttpClients.custom().setConnectionManager(cm).build();
        //创建httpGet对象，设置url地址
        HttpGet httpGet=new HttpGet(url);
        //设置请求信息
        httpGet.setConfig(this.getConfig());


        CloseableHttpResponse response=null;

        try {
            //使用httpClient发起请求，获取响应
            response=httpClient.execute(httpGet);
            //解析响应，返回结果
            if(response.getStatusLine().getStatusCode()==200){
                //判断响应体Entity是否为空，如果不为空就可以使用HttpUtils
                if(response.getEntity()!=null){
                   //下载图片
                    //获取图片的后缀
                    String extName=url.substring(url.lastIndexOf("."));
                    //创建图片名，重命名图片
                    String picName= UUID.randomUUID().toString()+extName;
                    //下载图片
                    //声明OutputStream
                    OutputStream outputStream=new FileOutputStream(new File("D:\\suibian\\image")+picName);
                    response.getEntity().writeTo(outputStream);
                    //图片下载完成，返回图片名称
                    return picName;

                }
            }

        } catch (IOException e) {
            e.printStackTrace();
        }finally {
            //关闭response
            if(response!=null){
                try {
                    response.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }

        return "";
    }
}

3.6 实现数据抓取

使用定时任务，可以定时抓取最新的数据。

先写好springboot的启动类（这里就不仔细说明启动类文件的位置了，和包同级）

//使用定时任务，需要先开启定时任务，需要添加注解
@EnableScheduling
@SpringBootApplication
public class Application {
    public static void main(String[] args) {
        SpringApplication.run(Application.class,args);
    }
}

然后就开始写主角了，开始抓取数据

package com.qianlong.jd.task;

import com.qianlong.jd.pojo.Item;
import com.qianlong.jd.service.ItemService;
import com.qianlong.jd.service.ItemServiceImpl;
import com.qianlong.jd.util.HttpUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.scheduling.annotation.Scheduled;
import org.springframework.stereotype.Component;

import java.util.List;

@Component
public class ItemTask {
    @Autowired
    private HttpUtils httpUtils;
    @Autowired
    private ItemService itemService;
    
    //当下载任务完成后，间隔100秒进行下一次的任务
    @Scheduled(fixedDelay = 100*1000)
    public void itemTask() throws Exception{
    //声明需要解析的初始地址
        String url="https://search.jd.com/Search?keyword=iphone&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=iphone&page=1&s=1&click=";

        //这里下载前五页（1，3，5，7---顺序）
        //按照页面对手机的搜索结果进行遍历解析
        for(int i=1;i<10;i=i+2){
        String html=httpUtils.doGetHTML(url+i);
        //解析页面，获取商品数据并存储
            parse(html);
        }
        System.out.println("手机数据抓取完成");
    }

    /**
     * 对页面进行解析
     * @param html
     */
    private void parse(String html) throws Exception {
        System.err.println("进到了解析方法");
        //解析html获取dom对象
        Document dom = Jsoup.parse(html);
        //获取spu信息
        Elements elements = dom.select("div#J_goodsList>ul>li");
        for(Element element:elements){
            //获取spu
            long spu=Long.parseLong(element.attr("data-spu"));
            //获取sku信息
            Elements elements1 = element.select("li.ps-item");
            for(Element skuEle:elements1){
                //获取sku
                long sku=Long.parseLong(skuEle.select("[data-sku]").attr("data-sku"));
                System.err.println(sku);
                //根据sku查询商品信息
                Item item=new Item();
                item.setSku(sku);
                List<Item> list = itemService.findAll(item);
                //如果商品存在，就进行下一个循环，该商品不保存，因为已存在
                if(list.size()>0){
                    continue;
                }

                //设置商品的spu
                item.setSpu(spu);
                //获取商品的详情的url
                String itemUrl="https://item.jd.com/"+sku+".html";
                item.setUrl(itemUrl);
                //获取商品的图片
              String picUrl = "https:"+skuEle.select("img[data-sku]").first().attr("data-lazy-img");
               String picName=httpUtils.doGetImage(picUrl);
               item.setPic(picName);

               //保存数据到数据库中
                itemService.save(item);
            }
        }
    }
}

来到这里案例基本已经结束了，接下来就是处理dao的数据了，插入数据到数据库，这里省略。

到这里爬虫已经结束了，上面是Java爬虫的基础，可以实现一些小的demo，比如爬取一个网站的部分数据，但是在实际的爬虫项目中使用的都是爬虫框架，例如WebMagic框架，底层使用的就是HttpClient和Jsoup，更方便的开发爬虫，同时内置了一些常用的组件，便于爬虫开发。如果你想更深的学习爬虫的话，你必须深入学习那些更优秀的框架才行，以上是实现爬虫的基础内容。

如果想看源码的话就自己下载，如果觉得还不错的话就留下你的足迹吧！

项目链接：https://pan.baidu.com/s/1ArXk_QlmtbhzW_wfMrerFw
提取码：sqms

你可能感兴趣的:(Java爬虫)

Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
如何在Java爬虫中设置代理IP：详解与技巧天启代理ip java 爬虫 tcp/ip
在进行网络爬虫时，使用代理IP可以有效地避免被目标网站封禁，提升数据抓取的成功率。本文将详细介绍如何在Java爬虫中设置代理IP，并提供一些实用的技巧和示例代码。为什么需要代理IP？在进行爬虫操作时，频繁的请求可能会引起目标网站的注意，甚至导致IP被封禁。就像一只贪心的小猫不停地偷鱼吃，迟早会被发现。为了避免这种情况，我们可以使用代理IP，模拟多个用户，从而降低被封禁的风险。获取代理IP获取代理I
2024年Java爬虫利器：Jsoup详细介绍与用法_java jsoup(1) 2401_84562143 程序员 java 爬虫开发语言
.method(Connection.Method.GET).execute();DocumentloginDoc=loginForm.parse();Elementform=loginDoc.select(“form”).first();//填充表单字段form.select(“input[name=username]”).val(“username”);form.select(“input[n
Java爬虫开发：Jsoup库在图片URL提取中的实战应用小白学大数据 python java 爬虫开发语言测试工具前端 javascript
在当今的互联网时代，数据的获取和处理变得尤为重要。对于网站内容的自动化抓取，爬虫技术扮演着不可或缺的角色。Java作为一种广泛使用的编程语言，拥有丰富的库支持网络爬虫的开发。其中，Jsoup库以其简洁、高效的特点，成为处理HTML内容和提取数据的优选工具。本文将详细介绍如何使用Jsoup库开发Java爬虫，以实现图片URL的提取。Jsoup库简介Jsoup是一个用于解析HTML文档的Java库，它
Java编写爬虫和Python编写爬虫到底有什么区别菜到极致就是渣网络知识爬虫 java 爬虫大数据 javascript
关于Java编写爬虫和Python编写爬虫，以前我就特别疑惑，但是却并没有放在心上，不知道最近我为什么会突然感兴趣。于是我就搜了一下爬虫相关知识以及学习课程，结果我发现全都是用Python来进行网络爬虫，基本上看不到Java爬虫，以前没学爬虫的时候，我还以为只能用Python进行爬虫，难道我还要再去学Python？后面我才发现Java也可以进行爬虫，但是竟然Java也可以爬虫的话，为什么很多教学网
【开源项目阅读】Java爬虫抓取豆瓣图书信息 IncludeFun java 爬虫开发语言
原项目链接Java爬虫抓取豆瓣图书信息本地运行运行过程另建项目，把四个源代码文件拷贝到自己的包下面在代码爆红处按ALT+ENTER自动导入maven依赖直接运行Main.main方法，启动项目运行结果在本地磁盘上生成三个xml文件其中的内容即位爬取后到的图书信息，包括：书名作者名出版社名isbn号图书对应的豆瓣链接图书封面图片地址可惜并没有直接爬取到图书的内容，不过可以凭借爬取得到的图书元数据去其
JAVA爬虫三种方法 weixin_40298650
文章目录前言一、JDK二、HttpClient三、Jsoup总结前言记录JAVA爬虫三种方式一、JDK使用JDK自带的URLConnection实现网络爬虫。publicvoidtestGet()throwsException{//1.确定要访问/爬取的URLURLurl=newURL("https://blog.csdn.net/weixin_40298650/article/details/1
Java爬虫与SSL代理：实际案例分析与技术探讨小白学大数据 python java 爬虫 ssl 开发语言
前言网络爬虫成为获取互联网数据的重要工具之一,然而，随着网络安全意识的提高，许多网站开始采用SSL加密来保护数据传输的安全性。本文将介绍如何使用Java编程语言结合SSL代理技术来实现网络爬虫，并通过实际案例分析和技术探讨来展示其应用价值。SSL代理技术优势SSL代理技术是一种能够在SSL加密通信中进行中间人攻击的技术，通过SSL代理，我们可以在客户端和服务器之间插入一个代理服务器，对SSL加密的
Java爬虫+协同过滤+Springboot+vue.js实现的小说推荐系统，小说推荐平台，小说管理系统计算机程序优异哥
互联网小说资源网站非常的多，但是很多阅读资源都需要收费开会员才能阅读。因此本次毕业设计程序立足于网络爬虫技术采集互联网小说资源分析汇总至本小说推荐平台，基于用户协同过滤推荐算法对不同的用户展开个性化的小说内容推荐阅读。一、程序设计本次基于爬虫的小说推荐系统主要内容涉及：主要功能模块：小说阅读推荐前端平台，小说数据管理与分析平台主要包含技术：java爬虫，redis，springboot，mybat
Java爬虫批量爬取图片 zxy199288 java java 爬虫 python
Java爬取图片现在开始学习爬虫，对于爬虫的入门来说，图片相对来说是比较容易获取的，因为大部分图片都不是敏感数据，所以不会遇到什么反爬措施，对于入门爬虫来说是比较合适的。使用技术：Java基础知识、HttpClient4.x、Jsoup学习目标：下载静态资源图片。爬取思路对于这种图片的获取，其实本质上就是就是文件的下载（HttpClient）。但是因为不只是获取一张图片，所以还会有一个页面解析的处
JAVA爬虫案例——JSOUP爬取图片并使用v-viewer实现图片预览北溟溟 JAVA java 爬虫
前言网络爬虫是大数据时代收集数据的一种有效手段，合理合法的运用技术手段获取网络数据，实现数据的再利用也是程序员的一项重要技能。本节我们使用java环境下的jsoup实现网络数据的爬取，主要是图片数据的异步爬取，并实现网络图片的下载及图片的预览功能，预览功能使用具有丰富功能的v-viewer实现。正文引入爬虫pom工具包org.apache.httpcomponentshttpclient4.5.6
Jsoup - 【Java爬虫】- 批量下载指定网站图片 QX_Java_Learner Java java
简介Jsoup是一款Java的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于JQuery的操作方法来取出和操作数据。Jsoup对多线程、连接池、代理等等的支持并不是很好，所以一般把Jsoup仅仅作为HTML解析工具使用。功能从一个URL、文件或字符串中解析HTML使用DOM或CSS选择器来查找、取出数据可操作HTML元素、属
Java爬虫，关于selenium/guava/JDK版本的兼容性说明佩洛君 java 爬虫 selenium
直接给maven这个是JDK1.8下绝对能跑的，测试时间：2024/1/18org.seleniumhq.seleniumselenium-java4.1.1com.google.guavaguava31.0.1-jre行吧，cloudFlare能挡住selenium，给我防麻了这个兼容性不行，版本差一点点就报错
java爬取数据放入mysql_Java爬虫历险记 -- （2）爬取数据并存放到mysql 郑默默 java爬取数据放入mysql
本文是对博客下雨天没带伞–JAVA实现网页爬虫及将数据写入数据库–http://blog.csdn.net/sinat_38224744/article/details/70652767中代码的理解和补充，并使用NavicatforMySQL软件实现对数据的可视化操作。代码分成两部分：Web.java+Jdbc.java一、Web.java/***原博客：http://blog.csdn.net/
Java爬虫爬取图片壁纸 .陌路 SpringBoot3.x Java java 爬虫 SpringBoot3.x Java17 springboot3 js html5
Java爬虫以sougou图片为例：https://pic.sogou.com/JDK17、SpringBoot3.2.X、hutool5.8.24实现Java爬虫，爬取页面图片项目介绍开发工具：IDEA2023.2.5JDK：Java17SpringBoot：3.2.x通过SpringBoot快速构建开发环境，通过Jsoup实现对网页的解析，并获取想要的资源数据使用hutool工具，将所需要的字
Java爬虫-使用jsoup爬取数据入门案例（爬取豆瓣电影Top250数据）丿BAIKAL巛 #Java爬虫 java 爬虫开发语言
有需要用到jsoup来获取数据，因为之前没有用过，所以就想写一个入门案例来巩固一下，这个案例的功能是爬取豆瓣电影Top250的电影数据（电影名称，简介，评分，评价等），并且将数据存到Excel表格中。这是豆瓣电影Top250的网址，https://movie.douban.com/top250?start=0文章目录一、前置工作1.1技术介绍JsoupApachePOI1.2依赖导入Jsoup入门
java爬虫和python爬虫的区别考一个红薯 python java 爬虫
java爬虫与python爬虫的对比：python做爬虫语法更简单，代码更简洁。java的语法比python严格，而且代码也更复杂示例如下：url请求：java版的代码如下：publicStringcall(Stringurl){Stringcontent="";BufferedReaderin=null;try{URLrealUrl=newURL(url);URLConnectionconnec
用Java爬取新房二手房数据看总体大环境 q56731523 java 开发语言 kotlin python 爬虫代理模式
都说现在房市惨淡，导致很多人在观望，那么今天我写一段爬虫，主要是抓取各地新房以及二手房成交状况，然后了解总体楼市是否回暖上升。以下是Java爬虫程序的代码示例，用于抓取贝壳网新房和二手房数据：importorg.jsoup.Jsoup;importorg.jsoup.nodes.Document;importorg.jsoup.nodes.Element;importorg.jsoup.selec
新车怎么选？用Java采集汽车之家车辆配置参数信息 q56731523 java 汽车开发语言 rust 后端 c语言
年关将至，辛苦一年了，总得犒劳犒劳自己，有人喜欢出去大吃一顿，逛街买东西，也有人会选择买车给自己增添一个代步工具买一辆汽车，而且现在车辆活动力度很大，将会吸引更多人购买欲。那么，普通人怎么选择车辆呢？下面我将通过java爬虫写一个车辆配置参数信息抓取程序，并进行分析对比，让选择也能手机刷刷就能完事。这是一个使用Java编写的爬虫程序，用于抓取汽车之家的车型、车系、配置参数数据。在开始之前，需要了解
【java爬虫】首页显示沪深300指数走势图以及前后端整合部署方法 haohulala java网络爬虫前端学习笔记 java 爬虫 vue.js
添加首页本文我们将在首页添加沪深300指数成立以来的整体走势数据展示，最后的效果是这样的单独贴一张沪深300整体走势图我感觉从总体上来看指数还是比较稳的，没有特别大的波动，当然，这只是相对而言哈哈。首先是前端页面更新沪深300成分股数据信息更新状态：{{update_status}}操作：重新更新信息importaxiosfrom"axios";import{ElMessage}from"elem
Java爬虫系列二：使用HttpClient抓取页面HTML 不會變承諾
爬虫要想爬取需要的信息，首先第一步就要抓取到页面html内容，然后对html进行分析，获取想要的内容。上一篇随笔《Java爬虫系列一：写在开始前》中提到了HttpClient可以抓取页面内容。今天就来介绍下抓取html内容的工具：HttpClient。一、什么是HttpClient度娘说：HttpClient是ApacheJakartaCommon下的子项目，可以用来提供高效的、最新的、功能丰富的
用Java编写图书网站信息采集程序教程 q56731523 java 开发语言 rust 后端 c语言爬虫
最近有个公司想要开发新产品，想要找到一些相关产品的功能以及工艺信息，之前有个负责人就通过传统的百度搜索来查找，但是效率太慢，然后请教我问我有什么办法收集这类产品信息以及配套的产品书籍以及信息，这不，饭都请我吃了，我能说不么？在开始编写Java爬虫程序之前，需要准备一些东西，包括Java开发环境，代理服务器，以及一个需要爬取的图书网站。假设我们已经有了这些工具，下面是用Java编写的爬虫程序，爬取图
Java爬虫之Jsoup sternschnapper 前端 javascript html
1.Jsoup相关概念Jsoup很多概念和js类似，可参照对比理解Document：文档对象。每份HTML页面都是一个文档对象，Document是jsoup体系中最顶层的结构。Element：元素对象。一个Document中可以着包含着多个Element对象，可以使用Element对象来遍历节点提取数据或者直接操作HTML。Elements：元素对象集合，类似于List。Node：节点对象。标签名
Java爬虫获取省市区镇村5级行政区划 sternschnapper java 爬虫开发语言
公司有个项目需要五级行政区划，没有现成的数据，写了一段代码，从gj统计j获取的数据。记录一下。1.引入maven解析htmlorg.jsoupjsoup1.11.32.Java代码实现@GetMapping("/hh")publicvoidhh(){Divisiond=newDivision();finalStringurl="https://www.stats.gov.cn/sj/tjbz/tj
【java爬虫】使用element-plus进行个股详细数据分页展示 haohulala java网络爬虫金融数据分析前端学习笔记 java element-plus 分页
前言前面的文章我们讲述了获取详细个股数据的方法，并且使用echarts对个股的价格走势图进行了展示，本文将编写一个页面，对个股详细数据进行展示。别问涉及到了element-plus中分页的写法，对于这部分知识将会做重点讲解。首先看一下效果之前我一直认为前端分页很难写，不过今天写完这个页面之后我发现，有了element-plus这样的框架，前端真的变得非常简单。获取所有有数据的股票代码我们的页面主要
【java爬虫】股票数据获取工具前后端代码 haohulala java网络爬虫金融数据分析前端学习笔记 java element-plus vue
前面我们有好多文章都是在介绍股票数据获取工具，这是一个前后端分离项目后端技术栈：springboot，sqlite，jdbcTemplate，okhttp前端技术栈：vue，element-plus，echarts，axios介绍的文章如下：【金融数据分析】计算沪深300指数行业权重分布并用饼图展示-CSDN博客【金融数据分析】获取沪深300成分股权重数据方法优化-CSDN博客【java爬虫】基于
专为初学者设计：Nutch库Java下载器入门指南亿牛云爬虫专家 java 代理IP 爬虫代理 java 开发语言 Nutch 下载器爬虫代理代理IP 多线程
概述:Nutch是一款开源的Java爬虫框架，用于抓取、解析、提取和存储网页数据。基于Hadoop的分布式系统，Nutch支持大规模网络爬取，并提供各种插件，包括链接分析、语言检测和内容过滤等功能。本文旨在介绍如何使用Nutch库编写简单的Java下载器，即能从指定URL下载网页内容的程序。目标是帮助初学者了解Nutch库的基本用法，并展示如何通过代理IP技术和多线程技术提升下载效率。假设读者已安
【java爬虫】获取个股详细数据并用echarts展示 haohulala java网络爬虫金融数据分析前端学习笔记 java 爬虫 vue
前言前面一篇文章介绍了获取个股数据的方法，本文将会对获取的接口进行一些优化，并且添加查询数据的接口，并且基于后端返回数据编写一个前端页面对数据进行展示。具体的获取个股数据的接口可以看上一篇文章【java爬虫】基于springboot+jdbcTemplate+sqlite+OkHttp获取个股的详细数据-CSDN博客下面是操作演示，首先是爬虫获取股票数据接着是进行获取个股详细数据并且进行数据展示数
java爬虫（jsoup）如何设置HTTP代理ip爬数据卑微阿文 java 爬虫 http
目录前言什么是HTTP代理IP使用Jsoup设置HTTP代理IP的步骤1.导入Jsoup依赖2.创建HttpProxy类3.设置代理服务器4.使用Jsoup进行爬取结论前言在Java中使用Jsoup进行网络爬虫操作时，有时需要使用HTTP代理IP来爬取数据。本文将介绍如何使用Jsoup设置HTTP代理IP进行爬取，并提供相关代码示例。什么是HTTP代理IPHTTP代理IP是一种允许我们通过代理服务
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR