weixin_30872671

java实现网络爬虫

接着上面一篇对爬虫需要的java知识，这一篇目的就是在于网络爬虫的实现，对数据的获取，以便分析。

----->

1、爬虫原理

2、本地文件数据提取及分析

3、单网页数据的读取

4、运用正则表达式完成超连接的连接匹配和提取

5、广度优先遍历，多网页的数据爬取

6、多线程的网页爬取

7、总结

爬虫实现原理

网络爬虫基本技术处理

网络爬虫是数据采集的一种方法，实际项目开发中，通过爬虫做数据采集一般只有以下几种情况：

1）搜索引擎

2）竞品调研

3）舆情监控

4）市场分析

网络爬虫的整体执行流程：

1）确定一个（多个）种子网页

2）进行数据的内容提取

3）将网页中的关联网页连接提取出来

4）将尚未爬取的关联网页内容放到一个队列中

5）从队列中取出一个待爬取的页面，判断之前是否爬过。

6）把没有爬过的进行爬取，并进行之前的重复操作。

7）直到队列中没有新的内容，爬虫执行结束。

这样完成爬虫时，会有一些概念必须知道的：

1）深度（depth）：一般来说，表示从种子页到当前页的打开连接数，一般建议不要超过5层。

2）广度（宽度）优先和深度优先：表示爬取时的优先级。建议使用广度优先，按深度的层级来顺序爬取。

Ⅰ　　在进行网页爬虫前，我们先针对一个飞机事故失事的文档进行数据提取的练习，主要是温习一下上一篇的java知识，也是为了下面爬虫实现作一个热身准备。

　首先分析这个文档，，关于美国历来每次飞机失事的数据，包含时间地点、驾驶员、死亡人数、总人数、事件描述，一共有12列，第一列是标题，下面一共有5268条数据。

　现在我要对这个文件进行数据提取，并实现一下分析：　　

根据飞机事故的数据文档来进行简单数据统计。

1） 哪年出事故次数最多

2） 哪个时间段（上午 8 – 12，下午 12 – 18，晚上 18 – 24，凌晨 0 – 8 ）事故出现次数最多。

3） 哪年死亡人数最多

4）哪条数据的幸存率最高。

代码实现：（一切知识从源码获取！）

  1 package com.plane;
  2 
  3 import java.io.*;
  4 import java.text.ParseException;
  5 import java.text.SimpleDateFormat;
  6 import java.util.*;
  7 /**
  8  * 飞机事故统计
  9  * @author k04
 10  *sunwengang    
 11  *2017-08-11
 12  */
 13 public class planeaccident {
 14         //数据获取存取链表
 15         private static List  alldata=new ArrayList<>();
 16         
 17         public static void main(String args[]){            
 18             getData("飞行事故数据统计_Since_1908.csv");
 19             alldata.remove(0);
 20             //System.out.println(alldata.size());
 21             //死亡人数最多的年份
 22             MaxDeadYear();
 23             //事故发生次数最多的年份
 24             MaxAccidentsYear();
 25             //事故各个时间段发生的次数
 26             FrequencyPeriod();
 27             //幸村率最高的一条数据
 28              MaximumSurvival();        
 29         }
 30         
 31         /**
 32          * 从源文件爬取数据
 33          * getData(String filepath)
 34          * @param filepath
 35          */
 36         public static void getData(String filepath){
 37             File f=new File(filepath);
 38             //行读取数据
 39             try{
 40                 BufferedReader br=new BufferedReader(new FileReader(f));
 41                 String line=null;
 42                 while((line=(br.readLine()))!=null){
 43                     alldata.add(line);
 44                 }
 45                 br.close();
 46             }catch(Exception e){
 47                 e.printStackTrace();
 48             }
 49         }
 50         /**
 51          * 记录每年对应的死亡人数
 52          * @throws  
 53          * 并输出死亡人数最多的年份，及该年死亡人数
 54          */
 55         public static void MaxDeadYear(){
 56             //记录年份对应死亡人数
 57             Map map=new HashMap<>();
 58             //时间用date显示
 59             SimpleDateFormat sdf=new SimpleDateFormat("MM/dd/YYYY");
 60             //循环所有数据
 61             for(String data:alldata){
 62                 //用逗号将数据分离，第一个是年份，第11个是死亡人数
 63                 String[] strs=data.split(",");
 64                 if(strs[0]!=null){
 65                     //获取年份
 66                     try {
 67                         Date date=sdf.parse(strs[0]);
 68                         int year=date.getYear();
 69                         //判断map中是否记录过这个数据
 70                         if(map.containsKey(year)){
 71                             //已存在，则记录数+该年死亡人数
 72                             map.put(year, map.get(year)+Integer.parseInt(strs[10]));
 73                         }else{
 74                             map.put(year, Integer.parseInt(strs[10]));
 75                         }
 76                         
 77                     } catch (Exception e) {
 78                         // TODO Auto-generated catch block
 79                         
 80                     }
 81                     
 82                 }
 83             }
 84             //System.out.println(map);
 85             
 86             //记录死亡人数最多的年份
 87             int max_year=-1;
 88             //记录死亡人数
 89             int dead_count=0;
 90             //用set无序获取map中的key值，即年份
 91             Set keyset=map.keySet();
 92             //
 93             for(int year:keyset){
 94                 //当前年事故死亡最多的年份，记录年和次数
 95                 if(map.get(year)>dead_count&&map.get(year)<10000){
 96                     max_year=year;
 97                     dead_count=map.get(year);
 98                 }
 99             }
100             
101             System.out.println("死亡人数最多的年份:"+(max_year+1901)+"   死亡人数："+dead_count);
102         }
103         /**
104          * 记录事故次数最多的年份
105          * 输出该年及事故次数
106          */
107         public static void MaxAccidentsYear(){
108             //存放年份，该年的事故次数
109             Map map=new HashMap<>();
110             SimpleDateFormat sdf =new SimpleDateFormat("MM/dd/YYYY");
111             //循环所有数据
112             for(String data:alldata){
113                 String[] strs=data.split(",");
114                 if(strs[0]!=null){
115                     try {
116                         Date date=sdf.parse(strs[0]);
117                         //获取年份
118                         int year=date.getYear();
119                         //判断是否存在记录
120                         if(map.containsKey(year)){
121                             //已存在记录，+1
122                             map.put(year, map.get(year)+1);
123                         }else{
124                             map.put(year, 1);
125                         }
126                     } catch (Exception e) {
127                         // TODO Auto-generated catch block                        
128                     }                                                
129                 }
130             }
131             //记录事故次数最多的年份
132             int max_year=0;
133             //该年事故发生次数
134             int acc_count=0;
135             //循环所有数据，获取事故次数最多的年份
136             Set keyset=map.keySet();
137             for(int year:keyset){
138                 if(map.get(year)>acc_count){
139                     max_year=year;
140                     acc_count=map.get(year);
141                 }
142             }
143             //输出结果
144             System.out.println("事故次数最多的年份"+(max_year+1901)+"  该年事故发生次数："+acc_count);
145         }
146         /**
147          * FrequencyPeriod()
148          * 各个时间段发生事故的次数
149          */
150         public static void FrequencyPeriod(){
151             //key为时间段，value为发生事故次数
152             Map  map=new HashMap<>();
153             //String数组存放时间段
154             String[] strsTime={"上午（6:00~12:00）","下午（12:00~18:00）","晚上（18:00~24:00）","凌晨（0:00~6:00）"};
155             //小时：分钟
156             SimpleDateFormat sdf=new SimpleDateFormat("HH:mm");
157             
158             for(String data:alldata){
159                 String[] strs=data.split(",");
160                 //判断时间是否记录，未记录则忽略
161                 if(strs[1]!=null){
162                     try {
163                         Date date=sdf.parse(strs[1]);
164                         //取得小时数
165                         int hour=date.getHours();
166                         //判断小时数在哪个范围中
167                         int index=0;
168                         if(hour>=12&&hour<18){
169                             index=1;
170                         }else if(hour>=18){
171                             index=2;
172                         }else if(hour<6){
173                             index=3;
174                         }
175                         //记录到map中
176                         if(map.containsKey(strsTime[index])){
177                             map.put(strsTime[index], map.get(strsTime[index])+1);
178                         }else{
179                             map.put(strsTime[index], 1);
180                         }                                                            
181                     } catch (ParseException e) {                        
182                     }                
183                 }
184                 
185             }
186             /*
187             System.out.println("各时间段发生事故次数：");
188             for(int i=0;i189             System.out.println(strsTime[i]+" : "+map.get(strsTime[i]));
190             }        
191             */
192             // 记录出事故最多的时间范围
193             String maxTime = null;
194             // 记录出事故最多的次数
195             int maxCount = 0;
196 
197             Set keySet = map.keySet();
198             for (String timeScope : keySet) {
199                 if (map.get(timeScope) > maxCount) {
200                     // 当前年就是出事故最多的年份，记录下年和次数
201                     maxTime = timeScope;
202                     maxCount = map.get(timeScope);
203                 }
204             }
205             System.out.println("发生事故次数最多的时间段：");
206             System.out.println(maxTime+" : "+maxCount);                            
207         }
208         /**
209          * 获取幸村率最高的一条数据的内容
210          * 返回该内容及幸存率
211          */
212         public static void MaximumSurvival(){
213             //存放事故信息以及该事故的幸村率
214             Map map=new HashMap<>();
215             //SimpleDateFormat sdf =new SimpleDateFormat("MM/dd/YYYY");
216             //事故幸存率=1-死亡率，第十一个是死亡人数，第十个是总人数
217             float survial=0;        
218             //循环所有数据
219             for(String data:alldata){
220                 try{
221                 String[] strs=data.split(",");
222                 //计算幸存率
223                 float m=Float.parseFloat(strs[10]);
224                 float n=Float.parseFloat(strs[9]);
225                 survial=1-m/n;
226                 map.put(data, survial);
227                 }catch(Exception e){
228                     
229                 }
230             }
231             //记录事故次数最多的年份
232             float max_survial=0;    
233             //幸存率最高的数据信息
234             String this_data="null";
235             //循环所有数据，获取事故次数最多的年份
236             Set keyset=map.keySet();
237             for(String data:keyset){
238                 if(map.get(data)>max_survial){
239                     this_data=data;
240                     max_survial=map.get(data);
241                 }
242             }
243             System.out.println("幸存率最高的事故是："+this_data);
244             System.out.println("幸存率为："+survial);
245         }    
246 }

Ⅱ　　接下来我们就可以在网页的数据上下手了。

下面先实现一个单网页数据提取的功能。

使用的技术可以有以下几类：

1）原生代码实现：

　　a) URL类

2）使用第三方的URL库

　　a) HttpClient库

3）开源爬虫框架

　　a) Heritrix

　　b) Nutch

【一】

先使用URL类，来将当当网下搜索机械表的内容提取出来。

 1 package com.exe1;
 2 /**
 3  * 读取当当网下机械表的数据，并进行分析
 4  * sunwengang   2017-08-13  20：00
 5  */
 6 import java.io.*;
 7 import java.net.*;
 8 
 9 public class URLDemo {
10     public static void main(String args[]){
11         //确定爬取的网页地址，此处为当当网搜机械表显示的网页
12         //网址为        http://search.dangdang.com/?key=%BB%FA%D0%B5%B1%ED&act=input
13         String strurl="http://search.dangdang.com/?key=%BB%FA%D0%B5%B1%ED&act=input";
14         //建立url爬取核心对象
15         try {
16             URL url=new URL(strurl);
17             //通过url建立与网页的连接
18             URLConnection conn=url.openConnection();
19             //通过链接取得网页返回的数据
20             InputStream is=conn.getInputStream();
21             
22             System.out.println(conn.getContentEncoding());
23             //一般按行读取网页数据，并进行内容分析
24             //因此用BufferedReader和InputStreamReader把字节流转化为字符流的缓冲流
25             //进行转换时，需要处理编码格式问题
26             BufferedReader br=new BufferedReader(new InputStreamReader(is,"UTF-8"));
27         
28             //按行读取并打印
29             String line=null;
30             while((line=br.readLine())!=null){
31                 System.out.println(line);
32             }
33             
34             br.close();
35         } catch (Exception e) {
36             // TODO Auto-generated catch block
37             e.printStackTrace();
38         }
39         
40     }
41 }

结果显示：

【二】

下面尝试将这个网页的源代码保存成为本地的一个文本文件，以便后续做离线分析。

如果想根据条件提取网页中的内容信息，那么就需要使用Java的正则表达式。

正则表达式

Java.util包下提供了Pattern和Matcher这两个类，可以根据我们给定的条件来进行数据的匹配和提取。

通过Pattern类中提供的规则字符或字符串，我们需要自己拼凑出我们的匹配规则。

正则表达式最常用的地方是用来做表单提交的数据格式验证的。

常用的正则表达式规则一般分为两类：

1）内容匹配

　　a) \d：是否是数字

　　b) \w：匹配字母、数字或下划线

　　c) .：任意字符

　　d) [a-z]：字符是否在给定范围内。

2）数量匹配

　　a) +：1个或以上

　　b) *：0个或以上

　　c) ?：0或1次

　　d) {n,m}：n-m次

匹配手机电话号码：

规则：1\\d{10}

匹配邮件地址：

规则：\\w+@\\w+.\\w+(\\.\\w+)?

通过Pattern和Matcher的配合，我们可以把一段内容中匹配我们要求的文字提取出来，方便我们来处理。

例如：将一段内容中的电话号码提取出来。

 1 public class PatternDemo {
 2 
 3     public static void main(String[] args) {
 4         Pattern p = Pattern.compile("1\\d{10}");
 5 
 6         String content = "[转让]17610866588由 张云龙 300元转让,联系电话：17610866588
[转让]17777351513由 胡俊宏 888元转让,QQ：762670775,联系电话：17777351513,可以小砍价..
[求购]15019890606由 张宝红 600元求购,联系电话：15026815169
";
 7 
 8         Matcher m = p.matcher(content);
 9         // System.out.println(p.matcher("sf@sina").matches());
10         Set set = new HashSet<>();
11         // 通过Matcher类的group方法和find方法来进行查找和匹配
12         while (m.find()) {
13             String value = m.group();
14             set.add(value);
15         }
16         System.out.println(set);
17     }
18 }

通过正则表达式完成超连接的连接匹配和提取

对爬取的HTML页面来说，如果想提取连接地址，就必须找到所有超连接的标签和对应的属性。

超连接标签是，保存连接的属性是：href。

…

规则：

广度优先遍历

需要有一个队列（这里直接使用ArrayList来作为队列）保存所有等待爬取的连接。

还需要一个Set集合记录下所有已经爬取过的连接。

还需要一个深度值，记录当前爬取的网页深度，判断是否满足要求

此时对当当网首页分类里的图书进行深度为2的网页爬取，参照上述对机械表单网页的爬取，利用递归的方式进行数据获取存到E:/dangdang_book/目录下：

  1 package com.exe1;
  2 /**
  3  * 读取当当网下首页图书的数据，并进行分析
  4  * 爬取深度为2
  5  * 爬去数据存储到E:/dangdang_book/目录下，需自行创建
  6  * sunwengang   2017-08-13  20：00
  7  */
  8 import java.io.*;
  9 import java.net.*;
 10 import java.util.*;
 11 import java.util.regex.*;
 12 
 13 public class URLDemo {
 14     //提取的数据存放到该目录下
 15     private static String savepath="E:/dangdang_book/";
 16     //等待爬取的url
 17     private static List allwaiturl=new ArrayList<>();
 18     //爬取过的url
 19     private static Set alloverurl=new HashSet<>();
 20     //记录所有url的深度进行爬取判断
 21     private static Map allurldepth=new HashMap<>();
 22     //爬取得深度
 23     private static int maxdepth=2;
 24     
 25     public static void main(String args[]){
 26         //确定爬取的网页地址，此处为当当网首页上的图书分类进去的网页
 27         //网址为        http://book.dangdang.com/
 28 //        String strurl="http://search.dangdang.com/?key=%BB%FA%D0%B5%B1%ED&act=input";
 29         String strurl="http://book.dangdang.com/";
 30         
 31         workurl(strurl,1);
 32         
 33     }
 34     public static void workurl(String strurl,int depth){
 35         //判断当前url是否爬取过
 36         if(!(alloverurl.contains(strurl)||depth>maxdepth)){
 37         //建立url爬取核心对象
 38         try {
 39             URL url=new URL(strurl);
 40             //通过url建立与网页的连接
 41             URLConnection conn=url.openConnection();
 42             //通过链接取得网页返回的数据
 43             InputStream is=conn.getInputStream();
 44             
 45             System.out.println(conn.getContentEncoding());
 46             //一般按行读取网页数据，并进行内容分析
 47             //因此用BufferedReader和InputStreamReader把字节流转化为字符流的缓冲流
 48             //进行转换时，需要处理编码格式问题
 49             BufferedReader br=new BufferedReader(new InputStreamReader(is,"GB2312"));
 50         
 51             //按行读取并打印
 52             String line=null;
 53             //正则表达式的匹配规则提取该网页的链接
 54             Pattern p=Pattern.compile("");
 55             //建立一个输出流，用于保存文件,文件名为执行时间，以防重复
 56             PrintWriter pw=new PrintWriter(new File(savepath+System.currentTimeMillis()+".txt"));
 57             
 58             while((line=br.readLine())!=null){
 59                 //System.out.println(line);
 60                 //编写正则，匹配超链接地址
 61                 pw.println(line);
 62                 Matcher m=p.matcher(line);
 63                 while(m.find()){
 64                     String href=m.group();
 65                     //找到超链接地址并截取字符串
 66                     //有无引号
 67                     href=href.substring(href.indexOf("href="));
 68                     if(href.charAt(5)=='\"'){
 69                         href=href.substring(6);
 70                     }else{
 71                         href=href.substring(5);
 72                     }
 73                     //截取到引号或者空格或者到">"结束
 74                 try{
 75                     href=href.substring(0,href.indexOf("\""));
 76                 }catch(Exception e){
 77                     try{
 78                         href=href.substring(0,href.indexOf(" "));
 79                     }catch(Exception e1){
 80                         href=href.substring(0,href.indexOf(">"));
 81                     }
 82                 }
 83                 if(href.startsWith("http:")||href.startsWith("https:")){
 84                     //输出该网页存在的链接
 85                     //System.out.println(href);
 86                     //将url地址放到队列中
 87                     allwaiturl.add(href);
 88                     allurldepth.put(href,depth+1);
 89                         }
 90                 
 91                     }
 92                 
 93                 }
 94             pw.close();
 95             br.close();
 96         } catch (Exception e) {
 97             // TODO Auto-generated catch block
 98             e.printStackTrace();
 99         }
100         //将当前url归列到alloverurl中
101         alloverurl.add(strurl);
102         System.out.println(strurl+"网页爬取完成，已爬取数量："+alloverurl.size()+"，剩余爬取数量："+allwaiturl.size());
103         }
104         //用递归的方法继续爬取其他链接
105         String nexturl=allwaiturl.get(0);
106         allwaiturl.remove(0);
107         workurl(nexturl,allurldepth.get(nexturl));                
108         }
109 }

控制台显示：

本地目录显示：

但是，仅是深度为2的也运行不短地时间，

如果想提高爬虫性能，那么我们就需要使用多线程来处理，例如：准备好5个线程来同时进行爬虫操作。

这些线程需要标注出当前状态，是在等待，还是在爬取。

如果是等待状态，那么就需要取得集合中的一个连接，来完成爬虫操作。

如果是爬取状态，则在爬完以后，需要变为等待状态。

多线程中如果想设置等待状态，有一个方法可以实现：wait()，如果想从等待状态唤醒，则可以使用notify()。

因此在多个线程中间我们需要一个对象来帮助我们进行线程之间的通信，以便唤醒其它线程。

多线程同时处理时，容易出现线程不安全的问题，导致数据出现错误。

为了保证线程的安全，就需要使用同步关键字，来对取得连接和放入连接操作加锁。

多线程爬虫实现

需要先自定义一个线程的操作类，在这个操作类中判断不同的状态，并且根据状态来决定是进行wait()等待，还是取得一个新的url进行处理。

  1 package com.exe1;
  2 /**
  3  * 读取当当网下首页图书的数据，并进行分析
  4  * 爬取深度为2
  5  * 爬去数据存储到E:/dangdang_book/目录下，需自行创建
  6  * 孙文刚   2017-08-13  20：00
  7  */
  8 import java.io.*;
  9 import java.net.*;
 10 import java.util.*;
 11 import java.util.regex.*;
 12 
 13 public class URLDemo {
 14     //提取的数据存放到该目录下
 15     private static String savepath="E:/dangdang_book/";
 16     //等待爬取的url
 17     private static List allwaiturl=new ArrayList<>();
 18     //爬取过的url
 19     private static Set alloverurl=new HashSet<>();
 20     //记录所有url的深度进行爬取判断
 21     private static Map allurldepth=new HashMap<>();
 22     //爬取得深度
 23     private static int maxdepth=2;
 24     //生命对象，帮助进行线程的等待操作
 25     private static Object obj=new Object();
 26     //记录总线程数5条
 27     private static int MAX_THREAD=5;
 28     //记录空闲的线程数
 29     private static int count=0;
 30     
 31     public static void main(String args[]){
 32         //确定爬取的网页地址，此处为当当网首页上的图书分类进去的网页
 33         //网址为        http://book.dangdang.com/
 34 //        String strurl="http://search.dangdang.com/?key=%BB%FA%D0%B5%B1%ED&act=input";
 35         String strurl="http://book.dangdang.com/";
 36         
 37         //workurl(strurl,1);
 38         addurl(strurl,0);
 39         for(int i=0;i){
 40             new URLDemo().new MyThread().start();
 41         }
 42     }
 43     /**
 44      * 网页数据爬取
 45      * @param strurl
 46      * @param depth
 47      */
 48     public static void workurl(String strurl,int depth){
 49         //判断当前url是否爬取过
 50         if(!(alloverurl.contains(strurl)||depth>maxdepth)){
 51             //检测线程是否执行
 52             System.out.println("当前执行："+Thread.currentThread().getName()+" 爬取线程处理爬取："+strurl);
 53         //建立url爬取核心对象
 54         try {
 55             URL url=new URL(strurl);
 56             //通过url建立与网页的连接
 57             URLConnection conn=url.openConnection();
 58             //通过链接取得网页返回的数据
 59             InputStream is=conn.getInputStream();
 60             
 61             //提取text类型的数据
 62             if(conn.getContentType().startsWith("text")){
 63                 
 64             }
 65             System.out.println(conn.getContentEncoding());
 66             //一般按行读取网页数据，并进行内容分析
 67             //因此用BufferedReader和InputStreamReader把字节流转化为字符流的缓冲流
 68             //进行转换时，需要处理编码格式问题
 69             BufferedReader br=new BufferedReader(new InputStreamReader(is,"GB2312"));
 70         
 71             //按行读取并打印
 72             String line=null;
 73             //正则表达式的匹配规则提取该网页的链接
 74             Pattern p=Pattern.compile("");
 75             //建立一个输出流，用于保存文件,文件名为执行时间，以防重复
 76             PrintWriter pw=new PrintWriter(new File(savepath+System.currentTimeMillis()+".txt"));
 77             
 78             while((line=br.readLine())!=null){
 79                 //System.out.println(line);
 80                 //编写正则，匹配超链接地址
 81                 pw.println(line);
 82                 Matcher m=p.matcher(line);
 83                 while(m.find()){
 84                     String href=m.group();
 85                     //找到超链接地址并截取字符串
 86                     //有无引号
 87                     href=href.substring(href.indexOf("href="));
 88                     if(href.charAt(5)=='\"'){
 89                         href=href.substring(6);
 90                     }else{
 91                         href=href.substring(5);
 92                     }
 93                     //截取到引号或者空格或者到">"结束
 94                 try{
 95                     href=href.substring(0,href.indexOf("\""));
 96                 }catch(Exception e){
 97                     try{
 98                         href=href.substring(0,href.indexOf(" "));
 99                     }catch(Exception e1){
100                         href=href.substring(0,href.indexOf(">"));
101                     }
102                 }
103                 if(href.startsWith("http:")||href.startsWith("https:")){
104                     /*
105                     //输出该网页存在的链接
106                     //System.out.println(href);
107                     //将url地址放到队列中
108                     allwaiturl.add(href);
109                     allurldepth.put(href,depth+1);
110                     */
111                     //调用addurl方法
112                     addurl(href,depth);
113                         }
114                 
115                     }
116                 
117                 }
118             pw.close();
119             br.close();
120         } catch (Exception e) {
121             // TODO Auto-generated catch block
122             //e.printStackTrace();
123         }
124         //将当前url归列到alloverurl中        
125         alloverurl.add(strurl);        
126         System.out.println(strurl+"网页爬取完成，已爬取数量："+alloverurl.size()+"，剩余爬取数量："+allwaiturl.size());
127         }
128         /*
129         //用递归的方法继续爬取其他链接
130         String nexturl=allwaiturl.get(0);
131         allwaiturl.remove(0);
132         workurl(nexturl,allurldepth.get(nexturl));
133         */
134         if(allwaiturl.size()>0){
135             synchronized(obj){
136                 obj.notify();
137             }
138         }else{
139             System.out.println("爬取结束.......");
140         }
141                 
142         }
143     /**
144      * 将获取的url放入等待队列中，同时判断是否已经放过
145      * @param href
146      * @param depth
147      */
148     public static synchronized void addurl(String href,int depth){
149         //将url放到队列中
150         allwaiturl.add(href);
151         //判断url是否放过
152         if(!allurldepth.containsKey(href)){
153             allurldepth.put(href, depth+1);
154         }
155     }
156     /**
157      * 移除爬取完成的url，获取下一个未爬取得url
158      * @return
159      */
160     public static synchronized String geturl(){
161         String nexturl=allwaiturl.get(0);
162         allwaiturl.remove(0);
163         return nexturl;
164     }
165     /**
166      * 线程分配任务
167      */
168     public class MyThread extends Thread{
169         @Override
170         public void run(){
171             //设定一个死循环，让线程一直存在
172             while(true){
173                 //判断是否新链接，有则获取
174                 if(allwaiturl.size()>0){
175                     //获取url进行处理
176                     String url=geturl();
177                     //调用workurl方法爬取
178                     workurl(url,allurldepth.get(url));
179                 }else{
180                     System.out.println("当前线程准备就绪，等待连接爬取："+this.getName());
181                     count++;
182                     //建立一个对象，让线程进入等待状态，即wait（）
183                     synchronized(obj){
184                         try{
185                             obj.wait();
186                         }catch(Exception e){
187                             
188                         }
189                     }
190                     count--;
191                 }
192             }
193         }
194         
195     }
196 }

控制台显示：

本地目录显示：

总结：

对于网页数据爬取，用到了线程，类集处理，继承，正则表达式等各方面的知识，从一个网页以深度为主，广度为基本进行爬取，获取每一个网页的源代码，并写入到一个本地的目录下。

1、给出一个网页链接，创建一个本地目录；

2、用URL类本地连接，用字符流进行读取，并写入到本地；

3、利用正则表达式在按行读取时获取该网页所存在的所有链接，以便进行深度+1的数据收集；

4、利用递归的方法，借助容器list，Set，Map来对链接进行爬取和未爬取得划分；

5、每次爬取一个网页时，所获得的所有链接在当前基础上深度+1，并且从未爬取队列中移除，加入到已爬取队列中；

6、为提升性能，在进行递归的时候，可以利用线程，复写Thread的run()方法，用多线程进行网页数据爬取；

7、直到爬取得网页深度达到你期望的深度时，爬取结束，此时可以查看本地目录生成的文件；

8、后续对本地生成的文件进行数据分析，即可获取你想要的信息。

借此，我们就可以对这些数据进行归约，分析，处理，来获取我们想要的信息。

这也是大数据数据收集的一个基础。

转载于:https://www.cnblogs.com/1996swg/p/7355577.html

你可能感兴趣的:(java实现网络爬虫)

Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
设计模式】Listener模式和Visitor模式的区别不爱洗脚的小滕设计模式访问者模式 java golang
文章目录前言一、介绍Listener模式Visitor模式二、代码实现2.1Listener模式的Java实现2.2Listener模式的Go实现2.3Visitor模式的Java实现2.4Visitor模式的Go实现三、总结前言在软件设计中，设计模式是解决特定问题的通用解决方案。Listener模式和Visitor模式是两种常见的行为设计模式，它们在不同的场景下提供了解决问题的有效方法。本文将详
Python精选200Tips：121-125 AnFany Python200+Tips python 开发语言
Spendyourtimeonself-improvement121Requests-简化的HTTP请求处理发送GET请求发送POST请求发送PUT请求发送DELETE请求会话管理处理超时文件上传122BeautifulSoup-网页解析和抓取解析HTML和XML文档查找单个标签查找多个标签使用CSS选择器查找标签提取文本修改文档内容删除标签处理XML文档123Scrapy-强大的网络爬虫框架示例
爬虫之隧道代理：如何在爬虫中使用代理IP？ 2401_87251497 python 开发语言爬虫网络 tcp/ip 网络协议
在进行网络爬虫时，使用代理IP是一种常见的方式来绕过网站的反爬虫机制，提高爬取效率和数据质量。本文将详细介绍如何在爬虫中使用隧道代理，包括其原理、优势以及具体的实现方法。无论您是爬虫新手还是有经验的开发者，这篇文章都将为您提供实用的指导。什么是隧道代理？隧道代理是一种高级的代理技术，它通过创建一个加密的隧道，将数据从客户端传输到代理服务器，再由代理服务器转发到目标服务器。这样不仅可以隐藏客户端的真
上传文件到钉盘流程详解 jspyth 开发场景案例分析开发语言 java 后端
文章目录前言准备工作实现过程Maven依赖封装一个工具类获取文件上传信息unionId获取钉盘目录spaceId创建上传到钉盘前言本文详解如何通过钉钉的API实现上传文件到钉盘目录，代码通过JAVA实现。准备工作1、在钉钉开发者后台创建一个钉钉企业内部应用；2、创建并保存好应用的appKey和appSecret，后面用于获取调用API的请求token；3、应用中配置好所需权限：企业存储文件上传
Python爬虫代理池极客李华 python授课 python 爬虫开发语言
Python爬虫代理池网络爬虫在数据采集和信息抓取方面起到了关键作用。然而，为了应对网站的反爬虫机制和保护爬虫的真实身份，使用代理池变得至关重要。1.代理池的基本概念：代理池是一组包含多个代理IP地址的集合。通过在爬虫中使用代理池，我们能够隐藏爬虫的真实IP地址，实现一定程度的匿名性。这有助于防止被目标网站封锁或限制访问频率。2.为何使用代理池：匿名性：代理池允许爬虫在请求目标网站时使用不同的IP
Java的多态性 zaneily JAVA java 开发语言
Java的多态性多态性是面向对象编程的一个重要特征，是指在父类中定义的属性和方法被子类继承之后，可以具有不同的数据类型或表现出不同的行为，这使得同一个属性或方法在父类及其各个子类中具有不同的涵义。可以理解为一个事务的多种形态。Java实现多态有三个条件：继承，重写和向上转型。继承：在多态中必须存在有继承关系的子类和父类。重写：子类对父类中某些方法进行重新定义，在调用这些方法时就会调用重写的子类方法
盘点一个Python网络爬虫抓取股票代码问题（上篇）皮皮_f075
大家好，我是皮皮。一、前言前几天在Python白银群【厚德载物】问了一个Python网络爬虫的问题，这里拿出来给大家分享下。image.png二、实现过程这个问题其实for循环就可以搞定了，看上去粉丝的代码没有带请求头那些，导致获取不到数据。后来【瑜亮老师】、【小王子】给了具体思路，代码如下图所示：image.png后来【小王子】也给了一个具体代码，如下：importrequestsimportt
ArcGIS地图切片原理与算法数智侠 GIS
ArcGIS地图切图系列之（一）切片原理解析点击打开链接ArcGIS地图切图系列之（二）JAVA实现点击打开链接ArcGIS地图切图系列之（三）MapReduce实现点击打开链接
java实现将数据生成图表至excel导出 AdoredU
1.目的根据已有数据，手动（java后台）生成图表至excel并导出。用于后台查询到数据后直接创建图表，可以代替直接使用图表信息字符串。2.说明使用jfree图表绘制类库绘制图表，并生成到本地或读取至输出流用于在excel中生成；使用poi操作excel；3.使用jar包使用maven管理jar包，主要包含poi和jfree：3.11org.apache.poipoi${poi-version}o
基于Java实现的扫雷游戏 Java小诚 Java java
基于Java实现扫雷游戏扫雷游戏是一款经典的智力游戏。具体要求如下:扫雷游戏分为初级、中级和高级3个级别，扫雷英雄榜存储每个级别的最好成绩，即挖出全部的地雷且用时最少者。单击游戏菜单可以选择初级、中级或高级查看英雄榜。选择级别后将出现相应级别的扫雷区域，这时用户单击雷区中的任何一个方块便启动计时器。用户要揭开某个方块，可单击它。若所揭方块是雷，用户便输了这一局程序发出爆炸的声音。若所揭方块不是雷，
python ray分布式_取代 Python 多进程！伯克利开源分布式框架 Ray weixin_39946313 python ray分布式
Ray由伯克利开源，是一个用于并行计算和分布式Python开发的开源项目。本文将介绍如何使用Ray轻松构建可从笔记本电脑扩展到大型集群的应用程序。并行和分布式计算是现代应用程序的主要内容。我们需要利用多个核心或多台机器来加速应用程序或大规模运行它们。网络爬虫和搜索所使用的基础设施并不是在某人笔记本电脑上运行的单线程程序，而是相互通信和交互的服务的集合。云计算承诺在所有维度上(内存、计算、存储等)实
常见数学应用计算的java实现星月梦瑾 code java 算法数据结构
1、判断是否素数publicstaticbooleanisPrime(intnum){if(num1;if(num%6!=1&&num%6!=5)returnfalse;for(inti=5;i<=Math.sqrt(num);i+=6){if(num%i==0||num%(i+2)==0){returnfalse;}}returntrue;}
KMP模式匹配的java实现星月梦瑾 code java 算法开发语言
importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){try(Scanners=newScanner(System.in)){Stringt=s.nextLine();Stringp=s.nextLine();solveMethod(t,p);}}privatestaticvoidsolveMethod
JVM是什么？ .suki... JVM 1024程序员节
JVM是java虚拟机栈，用于运行java执行字节码文件的。是java实现跨平台的核心机制，因为它的目的是使用相同的字节码文件，在不同的操作系统运行的结果相同。一、java内存模型在JDK1.8之前，它是分为线程共享和线程私有的，在线程共享的部分分为堆区和方法区；在线程私有的部分分为jvm虚拟机栈、程序计数器、本地方法栈。在1.8之后，它是将方法区换为元空间。jvm虚拟机栈：是由一个个的栈帧组成，
选择排序（java实现）歌颂者_ 算法 java 算法数据结构
核心思想选择排序的核心思想是：从左往右遍历待排序数组，每次保存其中最小值的索引，将最小值与待排序数组的开头交换，再进行下一次遍历，直到待排序序列的长度为1。代码选择排序(遍历数组，每次从待排序列中选取最小值，放到数组的开头)publicstaticvoidSelectsort(int[]arr){intl=0,r=arr.length-1;while(larr[max]){max=i;}}swap
java实现es分页查询_elasticsearch high level rest api分页查询数据 weixin_42565971 java实现es分页查询
Transport方式查询数据，在今后的elasticsearch中将不在维护，官方推荐用用highlevelrestapi或者lowerlevelapi去操作elasticsearch中的数据。在elasticsearch的增删改查操作中，其实最复杂的也就是分页查询了，根据elasticsearch官方资料，做个简单的笔记.1.准备jar包,我用的elasticsearch7.3版本,各版本需要
如何用python爬取股票数据选股_用python爬取股票数据 weixin_39752087
获取数据是数据分析中必不可少的一部分，而网络爬虫是是获取数据的一个重要渠道之一。鉴于此，我拾起了Python这把利器，开启了网络爬虫之路。本篇使用的版本为python3.5，意在抓取证券之星上当天所有A股数据。程序主要分为三个部分：网页源码的获取、所需内容的提取、所得结果的整理。一、网页源码的获取很多人喜欢用python爬虫的原因之一就是它容易上手。只需以下几行代码既可抓取大部分网页的源码。imp
Java实现建造者模式和源码中的应用 coffee_baby JAVA实现设计模式 java 建造者模式开发语言
Java实现建造者模式（BuilderPattern）文章目录Java实现建造者模式（BuilderPattern）案例：汉堡制作建造者模式的核心角色代码实现：汉堡制作内部类实现：Step1：产品类BurgerStep2：指挥者DirectorStep3：客户端代码结果总结抽象类实现Step1：产品类BurgerStep2：抽象的Builder类Step3：具体的Builder类Step4：指挥者
Java实现单例模式 coffee_baby JAVA实现设计模式 java 单例模式 javascript
文章目录Java实现单例模式饿汉式（静态常量）代码实现优缺点说明饿汉式（静态代码块）代码实现优缺点说明：懒汉式(线程不安全)代码实现优缺点说明：懒汉式(线程安全，同步方法)优缺点说明：懒汉式(线程安全，同步代码块)代码实现优缺点说明：双重检查实现代码实现优缺点说明：静态内部类代码实现优缺点说明：枚举代码实现优缺点说明：单例在JDK中的应用单例模式注意事项Java实现单例模式单例模式（Singlet
使用 RecursiveUrlLoader 实现递归网页爬取：深入解析与实践指南 qq_37836323 python 前端数据库
使用RecursiveUrlLoader实现递归网页爬取：深入解析与实践指南1.引言在当今的数字时代，网络爬虫已成为获取和分析大量在线信息的重要工具。LangChain提供的RecursiveUrlLoader是一个强大的工具，能够递归地爬取网页内容，并将其转换为易于处理的文档格式。本文将深入探讨RecursiveUrlLoader的使用方法、特性以及实际应用场景。2.RecursiveUrlLo
Python 协程 & 异步编程 (asyncio) 入门介绍 linmeiyun 后端 python python 爬虫学习开发语言机器学习
在近期的编码工作过程中遇到了async和await装饰的函数，查询资料后了解到这种函数是基于协程的异步函数。这类编程方式称为异步编程，常用在IO较频繁的系统中，如：Tornadoweb框架、文件下载、网络爬虫等应用。协程能够在IO等待时间就去切换执行其他任务，当IO操作结束后再自动回调，那么就会大大节省资源并提供性能。接下来便简单的讲解一下异步编程相关概念以及案例演示。1.协程简介1.1协程的含义
python网络爬虫（五）——爬取天气预报光电的一只菜鸡 python python 爬虫开发语言
1.注册高德天气key 点击高德天气，然后按照开发者文档完成key注册；作为爬虫练习项目之一。从高德地图json数据接口获取天气，可以获取某省的所有城市天气，高德地图的这个接口还能获取县城的天气。其天气查询API服务地址为https://restapi.amap.com/v3/weather/weatherInfo?parameters，若要获取某城市的天气推荐2.安装MongoDB Mong
顶级的python入门教程！小白到大师，从这篇教程开始！马大哈（Python） python pycharm 开发语言学习青少年编程
1.为什么要学习Python？学习Python的原因有很多，以下是几个主要的原因：广泛应用：Python被广泛应用于Web开发、数据科学、人工智能、机器学习、自动化运维、网络爬虫、科学计算、游戏开发等多个领域。掌握Python意味着你可以在这些领域中找到丰富的职业机会。入门简单：Python的语法简洁明了，易于学习和理解，对于编程初学者来说非常友好。它的代码风格一致，可读性强，有助于培养良好的编程
Java实现 LeetCode 230 2的幂南墙 LeetCode 位运算 2的幂
231.2的幂给定一个整数，编写一个函数来判断它是否是2的幂次方。示例1:输入:1输出:true解释:20=1示例2:输入:16输出:true解释:24=16示例3:输入:218输出:falsePS：2的次幂和他的上一位数&的结果为08的二进制就是10007的二进制就是0111结果========0000classSolution{publicbooleanisPowerOfTwo(intn){i
爬虫更换ip地址 xiaoxiongip666 爬虫 tcp/ip 网络协议
网络爬虫更换IP地址是为了应对网站的反爬策略，如IP限制、频率控制等。IP地址轮换的主要目的是保持匿名性和隐蔽性，防止被目标服务器识别为同一个爬虫客户端。以下是一些常见的IP更换方法：使用代理IP池：通过购买或使用免费的代理IP服务，爬虫程序会周期性地从池中获取一个新的IP地址，然后进行请求。常见的代理服务提供商有小熊IP等。间隔时间更换：爬虫可以在每次请求之间设置一个随机或固定的等待时间，然后更
地产行业如何利用Java实现精准营销乐讯通云通信 java python 开发语言
在当今竞争激烈的地产市场中，如何有效触达潜在客户并促进销售转化，成为众多房企关注的焦点。106短信平台作为一种精准的营销工具，在地产行业中发挥着越来越重要的作用。支持免费对接试用：乐讯通PaaS平台找好用的短信平台,选择乐讯通,短信群发|短信平台|群发短信软件|群发短信平台|乐讯通PaaS平台http://yun.loktong.com/login/register/0c61bafb77packa
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在