codingCoge

Java爬虫入门(六)——课程设计报告

Java高级程序设计课程设计任务书
一题目
Java并发爬取静态小说系统
二目的与要求:
2.1目的:
JAVA爬虫并发爬取静态小说网站的全部小说：
https://www.bookbao8.com/BookList-c_0-t_2-o_1.html

2.2要求:
(1)掌握Java高级程序设计的基础知识,爬虫知识,线程池连接池和正则表达式匹配以及相关多线程内容进行Java爬虫.
(2)将Java和爬虫的理论知识和实际项目结合起来,熟练掌握Eclipse等开发工具,锻炼应用开发能力.
要求:
(1):要求利用软件工程的方法来完成系统的设计
(2):要求学生掌握Java爬虫的方法,熟练使用正则表达式
(3):能够进行基本的多线程操作
(4):能够完成基本的网络通信
最终实现目标：使用JAVA爬虫并发爬取静态小说网站的全部小说

三主要内容及技术要求
3.1 运行环境:

Eclipse
3.2所需知识:
HttpClient请求
连接池并发
线程池并发
多线程并发
正则表达式
IO流保存本地文件
需要的jar包管理：

四主要参考资料

Effective Java（第2版）,（美）Joshua Bloch（约书亚•布洛赫）, 电子工业出版社, 2016.3.

2.自己动手写网络爬虫, 罗刚 / 王振东 , 清华大学出版社, 2010.10
3.Java编程思想, （第4版） [美] Bruce Eckel, 机械工业出版社， 2007-6

概述:

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动得抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine)，例如传统的通用搜索引擎如AltaVista，Yahoo!和Google等，作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是，这些通用性搜索引擎也存在着一定的局限性，为了解决上述问题，定向抓取相关网页资源的聚焦爬虫应运而生。

同学一：
五需求分析:
5.1系统业务分析
爬取指定页面小说的小说信息是本系统的业务主线.业务目标是访问指定页面小说并且下载点击率最多板块的所有小说信息以及章节目录.本系统设计时访问静态页面并且爬取小说信息不需要会员登录,直接在浏览器输入网站地址即可.一个页面内有多本小说,而且分页.综合分析核心业务如图2-1所示。

图2-1系统核心业务主线图

六系统分析:
6.1 分析系统功能:
6.1.1并发处理分页功能:
并发处理分页线程类AddBookUrlThread调用run方法,创建GetContent类,调用GetContent类的getCOntent方法获得分页信息.根据分页信息将爬取分页信息的URL地址传入到线程池中Pool的静态方法execute中,可以实现多并发处理分页小说信息.如图2-5所示图2-5并发处理分页时序图

七系统设计
7.1 类属性和方法的命名规则

7.1.1 类属性命名规则:

对于属性的命名，要求属性的名称简单易懂，做到见名知意。具体例子如下所示：

public class Book {
private String book_name; // 书本名字
private String author; // 作者
private String type; // 类型
private String status; // 连载状态
private String update_time; // 更新时间
private String book_Introduction; // 书本简介
private String url; // 书本链接
}

7.1.2 方法请求的命名规则：
public class AdBookChaptersThread implements Runnable {
public boolean getBookInformation(Book book) {}
}

7.2 系统类设计
7.2.1 实体类相关设计:

与小说相关的实体类是小说类,应该设置为Book,包含如下属性:
book_name; // 书本名字
author; // 作者
type; // 类型
status; // 连载状态
update_time; // 更新时间
book_Introduction; // 书本简介
url; // 书本链接
以上信息都可以通过String字符串存储信息,
为了满足面向对象编程的操作,应该将实体类属性设置为private访问属性,通过set和get方法获取和设置属性值.这样子有利于封装属性,外部无法轻易修改实体类的属性,保证了安全性和标准性.

7.2.2 并发处理分页信息类相关设计:

AddBookUrlThread类实现Runnable接口,是一个线程类,设计为线程类的目的是为了并发操作.包含url使用String字符串存储,保存传递的分页URL地址.包含GetContent类可以获取分页中的小说息.AddBookUrlThread的构造器接收String的地址参数,保存传入的分页地址.重写run方法,其中调用content类的getContent方法获取分页信息,使用正则表达式获取该分页信息上的所有小说信息,如书名以及章节链接,通过循环将爬取具体小说信息的线程加入到线程池.
八系统实现:
8.1 爬取指定url的html源码和总页数:

包含 BufferedReader缓冲流属性提取爬取的html内容.
包含 StringBuilder可修改的字符串动态追加提取到的html内容.
getContent()方法通过 URI和HttpGet 链接指定网络,将连接HttpGet加入到连接池中以便下次使用.创建缓冲流 BufferedReader按行读取内容,循环读取内容并且使用StringBuilder动态字符串追加,并返回指定url的html源码.
PageAll()方法通过正则表达式:"/共(\d+?)页"返回指定url中html内容中的总页数.

public class GetContent {
private BufferedReader bufferedReader = null;
private StringBuilder conTent = null;
/**
* 爬取指定网页的全部内容
*
* @param urlin
* 传入地址
* @return 爬取指定网页的全部内容
* @throws URISyntaxException
* @throws IOException
/
public String getContent(String urlin) throws URISyntaxException, IOException {
// 获取爬取网络的地址
URI url = new URIBuilder().setScheme(“https”).setHost(urlin).build();
conTent = new StringBuilder();
HttpGet httpGet = new HttpGet(url);
/
* httpGet.setHeader(“User-Agent”,
* “Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36”
* );
/
CloseableHttpResponse httpResponse = null;
try {
httpResponse = Pool.httpClient.execute(httpGet);
HttpEntity entity = httpResponse.getEntity();
// 获取编码信息
InputStream is = entity.getContent();
String line = “”;
// 转换为缓冲流，提高效率，可以按行读取
bufferedReader = new BufferedReader(new InputStreamReader(is, “utf-8”));
while ((line = bufferedReader.readLine()) != null) {
conTent.append(line);
}
is.close();
return conTent.toString();
} catch (IOException e) {
e.printStackTrace();
throw new RuntimeException(e);
} finally {
if (httpResponse != null) {
httpResponse.close();
}
}
}
/*
* 爬取指定内容中的总分页数
*
* @param text
* 指定网页源码内容
* @return 总分页数
*/
public String PageAll(String text) {
String regex = “/共(\d+?)页”;
Pattern pattern = Pattern.compile(regex);
Matcher matcher = pattern.matcher(text);
boolean is = matcher.find();
if (is) {
return matcher.group(1);
} else {
return null;
}
}
}

8.2 系统入口类:Main
Main类包含 GetAll方法()下载传入地址的全部书籍,GetAll方法()创建 GetContent实体类调用其 getContent()方法,再加入到并发爬取分页线程池.main()方法是系统入口,需要解决异常,抛出Exception,设置爬取的网页地址"www.bookbao8.com/BookList-c_0-t_2-o_1.html",通过 GetAll()方法将爬取小说的线程加入到线程池中,创建分页线程池和小说线程池,调用Pool.executorServicePage的shutdown()方法//等待加入线程全部执行完毕.通过每10秒判断是否全部结束,如果成功结束即显示”获取小说书名信息和链接成功！”反之则报错.

public class Main {

/** 下载urlFirst网页中的全部书籍
* @param urlFirst
* @throws URISyntaxException
* @throws IOException
* @throws InterruptedException
*/
public static void GetAll(String urlFirst) throws Exception {
GetContent content = new GetContent();
String text = content.getContent(urlFirst);
String pageTotalString = content.PageAll(text);

  if (pageTotalString != null) {
     Integer pageTotal = Integer.valueOf(pageTotalString);
     //值为1万多  为了测试起见  下面for循环的pageTotal可以改成1 表示一个分页 （也有十几本小说）
     for (int i = 1; i <= pageTotal; i++) {
        //小说的网址
        String url = "www.bookbao8.com/booklist-p_" + i + "-c_0-t_2-o_1.html";
        //加入线程池并发处理
        Pool.executorServicePage.execute(new AddBookUrlThread(url));
     }
  }

}
public static void main(String[] args) throws Exception {
String url = “www.bookbao8.com/BookList-c_0-t_2-o_1.html”;
GetAll(url);
ExecutorService executorServicePage = Pool.executorServicePage;
ExecutorService executorServiceBook = Pool.executorServiceBook;

  //等待加入线程全部执行完毕
  executorServicePage.shutdown();
  //awaitTermination限制每10秒循环一次是否全部结束，
  while (!executorServicePage.awaitTermination(5, TimeUnit.SECONDS));
  //如果线程全部结束isTerminated则为true
  boolean PageEnd = executorServicePage.isTerminated();
  
  if(PageEnd) {
     System.out.println("获取小说书名信息和链接成功！");
     executorServiceBook.shutdown();
  } 
  System.out.println("*************************************************");
  while (!executorServiceBook.awaitTermination(3, TimeUnit.SECONDS));
  
  //如果线程全部结束isTerminated则为true
  boolean BooksEnd = executorServicePage.isTerminated();
  if(BooksEnd) {
     System.out.println("获取小说成功！");
  }

}
}

8.3 AddBookUrlThread并发爬取分页信息线程类:

public class AddBookUrlThread implements Runnable {
private String url;
private GetContent content = new GetContent();
//爬取全部小说的网址，书名
private String regex = “class=“bookname”>.*?href=”(.+?)".+?>(.+?)";

public AddBookUrlThread(String url) {
this.url = url;
}
@Override
public void run() {
System.out.println(“开启获取分页线程：” + Thread.currentThread().getName());
String text = null;
try {
text = content.getContent(url);
} catch (Exception e) {
e.printStackTrace();
throw new RuntimeException(e);
}
Book book = null;
Pattern pattern = Pattern.compile(regex);
Matcher matcher = pattern.matcher(text);
String bookurl = “”;
//下载一个分页中的所有小说
while(matcher.find()) {
book = new Book();
bookurl = “www.bookbao8.com” + matcher.group(1);
book.setUrl(bookurl);
book.setBook_name(matcher.group(2));
// ReturnBooks.addBook(book);
//并发处理单个书籍信息读取线程
Pool.executorServiceBook.execute(new AdBookChaptersThread(book));
}
}
}

效果展示：
开启获取分页线程：pool-1-thread-1
获取小说书名信息和链接成功！

开启获取书籍线程：pool-2-thread-1
开启获取书籍线程：pool-2-thread-2
开启获取书籍线程：pool-2-thread-3
开启获取书籍线程：pool-2-thread-4
开启获取书籍线程：pool-2-thread-5
穿越六十年代之末世女王信息爬取成功
爬取穿越六十年代之末世女王信息成功
穿越1979信息爬取成功
爬取穿越1979信息成功
你的青梅，她的竹马信息爬取成功
爬取你的青梅，她的竹马信息成功
帝国甜宠：首席的秘密恋人信息爬取成功
爬取帝国甜宠：首席的秘密恋人信息成功
随身空间之叶莫信息爬取成功
爬取随身空间之叶莫信息成功
穿越六十年代之末世女王章节爬取成功！
穿越1979章节爬取成功！
你的青梅，她的竹马章节爬取成功！
穿越六十年代之末世女王章节爬取成功！
穿越1979章节爬取成功！
你的青梅，她的竹马章节爬取成功！
穿越六十年代之末世女王章节爬取成功！
随身空间之叶莫章节爬取成功！
帝国甜宠：首席的秘密恋人章节爬取成功！
穿越1979章节爬取成功！
你的青梅，她的竹马章节爬取成功！
穿越六十年代之末世女王章节爬取成功！
随身空间之叶莫章节爬取成功！

查看本地磁盘D：

查看小说内容：

九结论及存在问题:
在这次实验项目中，我负责的是总体流程设计和并发线程的设计与实现。一个项目的重心是核心业务的分析考虑，在这次的项目中，我也是学到了很多关于分析流程的知识，也知道了百度真的是好帮手，这是我以前盲人摸象没有使用到的工具。过程中我也应用了软件工程的需求分析，系统设计之内的内容，刚好学以致用使得这学期学的内容进一步巩固。在这期间遇到的难题其实是分页之间的数据爬取，通过观察法，发现分页网页的地址其实和页数是有关系的，这也是项目的一个突破口，根据分页地址，就可以提取到不同分页内的多本小说信息。并且提高效率，结合了同学的分析帮助采用了多线程的思想，速度提高了好几倍。也认识到了团队协作的重要性。以前都是单打独斗一个人完全实现一整个小项目的时候并没有发现团队的重要性，在这次的三人小组中，我们交流思想和技术，共同完成了这次项目。我也学会了很多知识，如多线程，爬虫的知识。
感谢我的三人小组和老师！

同学二：
五需求分析:
5.1系统业务分析
分析系统对象之间的交互,系统访问静态小说地址显示主页,系统获取页面html到内存,网页显示分页信息并且提取分页信息,系统提取小说信息,网页显示小说信息,系统保存小说到本地为TXT格式.如图2-2时序图所示。

图2-2系统核心对象交互活动图
六系统分析:
6.1 分析系统功能:
6.1.1连接网络功能:
分析连接网络功能,系统调用GetAll(String)方法,将消息地址传GetContent类,GetContent类调用getContent(String)方法,传入访问静态小说地址,创建URI类获取到连接指定IP地址.为了实现分页爬虫效果需要连接每个分页的地址创建连接,GetContent类调用PageAll获取总页数.然后通过观察网站可知分页地址跟页数有关系,即可通过循环将分页地址传入.针对连接网络,原始方法即每次访问一次IP地址,效率低下,回馈缓慢.改进方法多次访问,即每次访问同一IP地址多次,可以模拟人的作息时间每两分钟访问一次,因为很多网站都采用了反爬虫机制,根据同一时间访问该网站的次数,如果超过阀值即阻止其请求.所以我们可以调用连接Pool类的静态属性Pool.executorServicePage,调用execute()方法传入创建的爬虫分页的线程AddBookUrlThread.如图2-4时序图所示.
图2-4连接网络时序图

6.1.2保存小说信息到本地功能:
Main系统类调用main()方法,调用GetAll()方法,创建AddBookUrlThread线程类对象加入到并发处理页面的线程池中,再调用AddBookUrlThread类的run方法,创建AdBookChaptersThread线程类对象加入到处理单个页面中小说并发处理的线程池当中,其中AdBookChaptersThread线程类的run方法调用FIleReaderWriter工具类的writeINtoFile静态方法将小说的简介信息写入到磁盘中,通过循环获取该小说的章节信息,再调用FIleReaderWriter工具类的writeINtoFile静态方法将将其章节正文写入到该小说指定位置.如图2-7时序图所示。

图2-7保存小说信息到本地时序图

七系统设计:
7.1 连接池和线程池类相关设计:
通过池子,可以从池子中调用连接和线程来执行操作,当不使用的时候保留一定数量的线程,当需要的时候直接调用线程池,减少了创建线程的时间和性能消耗.当需要并发操作的时候,线程池和连接池是很好的选择.
连接池存在的目的就是为了并发访问指定IP地址,提高访问效率
线程池存在的目的就是为了并发爬取小说信息.连接池又可以分为两种连接池:

分页线程池为了同时处理多个页面
小说线程池,为了同时处理一个页面上的多个小说

而章节的爬取不需要创建线程池,因为章节爬取需要有先后顺序,比如:第一章后是第二章,具有有序性.反之分页之间和小说之间可以具有无序性,因为分页和小说之间具有原子性,可以独立存在,彼此之间没有先后顺序之分.
既然是池子,那么就是工具类,里面的连接池和线程池都应该设置为静态属性:

CloseableHttpClient httpClient
ExecutorService executorServicePage
ExecutorService executorServiceBook
既然是静态属性,那么可以通过静态代码块设置静态属性,如设置连接池最大连接数,创建并发量,置请求超时后重试次数,线程池最大连接数等

7.2 数据操作类相关设计:

FileReaderWriter类是工具类,包含两个静态方法:

createNewFile()方法创建一个存储小说的文件夹
writeIntoFile()方法实现将传入的Book实体类中存储的信息存储到本地磁盘
之所以设置为静态方法是因为该类是工具类,将常用方法定义为静态的好处是方便调用并且唯一性.

八系统实现:

基于面向对象的设计,设计实体类存储系统涉及到的用例,即小说类,包含该小说的所有信息,如:

book_name; //书本名字
author; // 作者
type; // 类型
status; // 连载状态
update_time; // 更新时间
book_Introduction; // 书本简介
String url; // 书本链接

8.1 实体类:
package entity;
public class Book {
private String book_name; // 书本名字
private String author; // 作者
private String type; // 类型
private String status; // 连载状态
private String update_time; // 更新时间
private String book_Introduction; // 书本简介
private String url; // 书本链接
public String getBook_name() {
return book_name;
}
public void setBook_name(String book_name) {
this.book_name = book_name;
}
public String getAuthor() {
return author;
}
public void setAuthor(String author) {
this.author = author;
}
public String getType() {
return type;
}
public void setType(String type) {
this.type = type;
}
public String getStatus() {
return status;
}
public void setStatus(String status) {
this.status = status;
}
public String getUpdate_time() {
return update_time;
}
public void setUpdate_time(String update_time) {
this.update_time = update_time;
}
public String getBook_Introduction() {
return book_Introduction;
}
public void setBook_Introduction(String book_Introduction) {
this.book_Introduction = book_Introduction;
}
public String getUrl() {
return url;
}
public void setUrl(String url) {
this.url = url;
}
@Override
public String toString() {
return book_name + "\r\n类型： " + type + "\r\n作者： " + author + "\r\n状态： " + status + "\r\n最新更新时间： "
+ update_time + "\r\n书本简介： " + book_Introduction + “\r\n\r\n\r\n\r\n”;
}
}

8.2 连接池和线程池工具类:
通过池子,可以从池子中调用连接和线程来执行操作,当不使用的时候保留一定数量的线程,当需要的时候直接调用线程池,减少了创建线程的时间和性能消耗.当需要并发操作的时候,线程池和连接池是很好的选择.
连接池存在的目的就是为了并发访问指定IP地址,提高访问效率
线程池存在的目的就是为了并发爬取小说信息.连接池又可以分为两种连接池:

分页线程池为了同时处理多个页面
小说线程池,为了同时处理一个页面上的多个小说

CloseableHttpClient httpClient
ExecutorService executorServicePage
ExecutorService executorServiceBook

既然是静态属性,那么可以通过静态代码块设置静态属性,如设置连接池最大连接数,创建并发量,置请求超时后重试次数,线程池最大连接数等

package getContent;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.DefaultHttpRequestRetryHandler;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.impl.conn.PoolingHttpClientConnectionManager;
public class Pool {
public static CloseableHttpClient httpClient = null;
public static ExecutorService executorServicePage = null;
public static ExecutorService executorServiceBook = null;
static {
PoolingHttpClientConnectionManager cm1 = new PoolingHttpClientConnectionManager();
cm1.setMaxTotal(200);// 设置最大连接数
cm1.setDefaultMaxPerRoute(200);// 对每个指定连接的服务器（指定的ip）可以创建并发200 socket进行访问
httpClient = HttpClients.custom().setRetryHandler(new DefaultHttpRequestRetryHandler())// 设置请求超时后重试次数
.setConnectionManager(cm1).build();
//设置处理分页的线程池
executorServicePage = Executors.newFixedThreadPool(100);
executorServiceBook = Executors.newFixedThreadPool(100);
}
}

8.3 数据操作类: FileReaderWriter

createNewFile()方法创建一个存储小说的文件夹
writeIntoFile()方法实现将传入的Book实体类中存储的信息存储到本地磁盘
之所以设置为静态方法是因为该类是工具类,将常用方法定义为静态的好处是方便调用并且唯一性.

public class FileReaderWriter {
public static boolean createNewFile(String filePath) {
boolean isSuccess = true;
//如有则将“\”转换成“/”，没有则不产生任何变化
String filePathTurn = filePath.replaceAll("\\", “/”);
//先过滤掉文件名
int index = filePathTurn.lastIndexOf("/");
String dir = filePathTurn.substring(0, index);
//再创建文件夹
File fileDir = new File(dir);
isSuccess = fileDir.mkdirs();
//创建文件
File file = new File(filePathTurn);
try {
isSuccess = file.createNewFile();
} catch (IOException e) {
isSuccess = false;
e.printStackTrace();
}
return false;
}
public static boolean writeIntoFile(String content, String filePath, boolean isAppend) {
boolean isSuccess = true;
//先过滤掉文件名
int index = filePath.lastIndexOf("/");
String dir = filePath.substring(0, index);
//创建文件路径
File fileDir = new File(dir);
fileDir.mkdirs();
//再创建路径下咋文件
File file = null;
try {
file = new File(filePath);
file.createNewFile();
} catch (IOException e) {
isSuccess = false;
e.printStackTrace();
}
//写入文件
FileWriter fileWriter = null;
try {
fileWriter = new FileWriter(file, isAppend);
fileWriter.write(content);
fileWriter.flush();
} catch (IOException e) {
isSuccess = false;
e.printStackTrace();
} finally {
try {
if (fileWriter != null) {
fileWriter.close();
}
} catch (IOException e) {
e.printStackTrace();
}
}
return false;
}
}

效果展示：
开启获取分页线程：pool-1-thread-1
获取小说书名信息和链接成功！

查看本地磁盘D：

查看小说内容：

九结论及存在问题:
在这次报告中我负责实体类的设计以及连接网络，保存到本地的设计与代码实现。在这里我先总结下这次报告中遇到的问题：
问题1：一开始因为爬虫的速度过慢而设计了连接池，使得1秒内可以用访问该小说网站20次，提高了访问html的速度，而又遇到了爬取小说速度过慢的问题，又设计了线程池，速度提高了好几倍。
小结1：平时处理的数据都是几百，几千没有到达一定的量级，这次实验中我们处理的数据量达到了千级甚至万级，单线程已经远远无法达到我们的期望值，所以当数据量巨大时要考虑多并发处理，但这里要考虑数据不一致的问题，即多线程处理同一变量如全局或者静态，这里没有涉及到这方面也就不考虑了。
问题2：内存保存爬取内容的选择，一开始我使用String来保存内容，然后循环添加导致内存爆出。
小结2：百度了String字符串每次追加都会创建一个新的字符串，导致内存爆出，这个时候可以考虑StringBuilder类型。当频繁追加修改字符串的时候，应该使用StringBuilder，但是它是线程不安全的，这方面也没有涉及到所以不考虑。
问题3：内存中数据的保留，一开始我使用FileOutStream流保存到本地，不过发现效果不佳。
小结3：后来使用FileWriter效果提高了不少。
在这次项目的参与中，对软件开发设计结合了软件工程的思想，使得项目更加有计划目的，开发效率也提高了很多。也从这次项目中应用了爬虫的知识，对爬虫有了更加深入的了解。不仅知识上获取了很多，也在团队协作上和别人有了更多的交流和合作，发现团队的力量是无限的。
在这里也要感谢其他同学的帮助和老师的指导，谢谢！

同学三：
五需求分析:
5.1业务需求分析
5.1.1系统爬虫需求分析
通过分析可以得出系统爬虫功能:连接网络管理,下载指定html页面管理,提取指定内容管理,保存到本地等功能.系统有获取信息操作,进行保存,提取关键内容操作,保存到数据库或者本地操作.分析图2-3 用例图所示.
分析系统爬虫业务,其中一个业务是连接网络管理,通过传入URL地址,访问目标地址内容,并且保存到系统内存.如图2-4时序图所示.

图2-3 系统爬虫需求分析用例图
图2-4系统爬虫业务时序图

六系统分析:
6.1 分析系统功能:
6.1.1处理单本小说信息功能:
AdBookChaptersThread处理单本小说信息线程类调用run方法类,调用getInformation方法判断是否爬取小说信息成功,如果该小说简介等信息已爬取则调用FileReaderWriter工具类(存储类)的writeIntoFile静态方法(写入方法),写入本地磁盘,然后反馈给系统是否存储成功的信息.run方法调用getTextAll方法获取到该小说章节信息,循环写入磁盘,并且提示写入成功或者失败.如图2-6所示.

						图2-6处理单本小说信息时序图

七系统设计
7.1系统命名规则
7.1.1 包命名有如下规则：

实体包:

获取信息包:

爬取分页和小说包:

下载到本地包:

7.2 小说处理爬取信息类相关设计:

AdBookChaptersThread 实现Runnable接口,是一个线程类,设计为线程类的目的是为了并发操作.属性包含实体类Book存储小说信息,包含 GetContent类方法处理指定网页的html信息.方法包括:
1.getBookInformation()方法爬取该小说信息,
2.getInformation()方法下载该小说简介等信息,
3.getChapterUrl()方法获取小说章节链接信息,
4.getTextAll()方法爬起小说的章节列表区域源代码,
5.getText()方法爬取指定章节链接的内容,
6.重写 run方法实现下载该小说信息到本地磁盘

public class AdBookChaptersThread implements Runnable {
private Book book;
private GetContent content = new GetContent();
public AdBookChaptersThread(Book book) {
this.book = book;
}
public boolean getBookInformation(Book book) {}
public boolean getInformation() {}
public String getChapterUrl(String ulString) {}
public String getTextAll() {}
public String getText(String url) {}
@Override
public void run() { }
}

7.3 系统入口类相关设计:
Main类包含 GetAll方法()下载传入地址的全部书籍,GetAll方法()创建 GetContent实体类调用其 getContent()方法,再加入到并发爬取分页线程池.main()方法是系统入口,需要解决异常,抛出Exception,设置爬取的网页地址"www.bookbao8.com/BookList-c_0-t_2-o_1.html",通过 GetAll()方法将爬取小说的线程加入到线程池中,创建分页线程池和小说线程池,调用Pool.executorServicePage的shutdown()方法//等待加入线程全部执行完毕.通过每10秒判断是否全部结束,如果成功结束即显示”获取小说书名信息和链接成功！”反之则报错.

public class Main {
public static void GetAll(String urlFirst) throws Exception {
GetContent content = new GetContent();
String text = content.getContent(urlFirst);
}
public static void main(String[] args) throws Exception{ String url = “www.bookbao8.com/BookList-c_0-t_2-o_1.html”;
GetAll(url);
ExecutorService executorServicePage = Pool.executorServicePage;
ExecutorService executorServiceBook = Pool.executorServiceBook;executorServicePage.shutdown();
}

7.4获取类相关设计:

GetContent类获取网页html信息:

设计成public公有类方便调用
包含BufferedReader类存储爬取的信息,和getContent()方法爬取指定URI
网页的全部内容以及PageAll()方法爬取指定内容中的总分页数.比如getContent()方法使用URI获取网络连接,使用StringBuilder缓冲流的append追加内容,返回传入url地址的全部html源码.PageAll()方法通过正则表达式返回内容中的总页数信息.
public class GetContent {
private BufferedReader bufferedReader = null;
private StringBuilder conTent = null;
public String getContent{}
public String PageAll(String text) {}
}

八系统实现:

8.1 线程类:

AdBookChaptersThread爬取指定小说信息
AddBookUrlThread 爬取指定分页信息

8.2 AdBookChaptersThread爬取指定小说线程类:

AdBookChaptersThread 实现Runnable接口,是一个线程类,设计为线程类的目的是为了并发操作.属性包含实体类Book存储小说信息,包含 GetContent类方法处理指定网页的html信息.方法包括
1.getBookInformation()方法爬取该小说信息,
2.getInformation()方法下载该小说简介等信息,
3.getChapterUrl()方法获取小说章节链接信息,
4.getTextAll()方法爬起小说的章节列表区域源代码,
5.getText()方法爬取指定章节链接的内容,
6.重写 run方法实现下载该小说信息到本地磁盘

public class AdBookChaptersThread implements Runnable {
private Book book;
private GetContent content = new GetContent();
public AdBookChaptersThread(Book book) {
this.book = book;
}
/**
* 爬取该书本信息
*
* @param book
* @return
/
public boolean getBookInformation(Book book) {
// FileReaderWriter.writeIntoFile(“zz1”, “D:/知乎-编辑推荐.txt”, false);
String xx;
try {
xx = content.getContent(book.getUrl());
} catch (Exception e) {
// TODO Auto-generated catch block
System.out.println(“获取书本信息失败”);
e.printStackTrace();
throw new RuntimeException(e);
}
// book中目前只有地址和书名
String regex = "id=“info”>.?(.+?).?" + "(.?).?" + "

状态：(.+?)

.?"
+ “

更新时间：(.+?)

.*?class=“infocontent”>(.+?)”;
Pattern pattern = Pattern.compile(regex);
Matcher matcher = pattern.matcher(xx);
boolean is = matcher.find();
String information = “”;
if (is) {
book.setAuthor(matcher.group(1));
book.setType(matcher.group(2));
book.setStatus(matcher.group(3));
book.setUpdate_time(matcher.group(4));
information = matcher.group(5);
information = information.replaceAll("
", “\r\n”);
book.setBook_Introduction(information);
return true;
}
return false;
}
/**
* 下载该书籍简介等信息
*
* @param bookName
* @return
/
public boolean getInformation() {
if (getBookInformation(book)) {
FileReaderWriter.writeIntoFile(book.toString(), “D:/书籍/” + book.getBook_name() + “.txt”, true);
System.out.println(book.getBook_name() + “信息爬取成功”);
return true;
}
return false;
}
/*
* @return 获取章节页面链接
/
public String getChapterUrl(String ulString) {
String url = book.getUrl();
int index = url.indexOf("/");
// 截取首页www.bookbao8.com
StringBuilder dir = new StringBuilder(url.substring(0, index));
dir.append(ulString);
return dir.toString();
}
/*
* @return 爬起小说的章节列表区域源代码
/
public String getTextAll() {
String text = “”;
String url = book.getUrl();
try {
text = content.getContent(url);
} catch (Exception e) {
e.printStackTrace();
throw new RuntimeException(e);
}
// 获取章节的列表内容，而不是其他如热门排行榜
String regex = "class=“wp b2 info_chapterlist”>.";
Pattern pattern = Pattern.compile(regex);
Matcher matcher = pattern.matcher(text);
boolean is = matcher.find();
if (is) {
String ulString = matcher.group();
return ulString;
}
return null;
}
/**
* 爬取指定章节链接的内容
*
* @param url
* 章节链接
* @return 返回的文章内容
/
public String getText(String url) {
// http://www.bookbao8.com/views/201708/29/id_XNTg3MTc5_7.html
String text = “”;
try {
text = content.getContent(url);
} catch (URISyntaxException | IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
String regex = "id=“contents”.?>(.+?)";
Pattern pattern = Pattern.compile(regex);
Matcher matcher = pattern.matcher(text);
boolean is = matcher.find();
if (is) {
String One = matcher.group(1);
One = One.replace("
", “\r\n”);
return One;
}
return null;
}
@Override
public void run() {
System.out.println(“开启获取书籍线程：” + Thread.currentThread().getName());
String bookName = book.getBook_name();
if (getInformation()) {
System.out.println(“爬取” + bookName + “信息成功”);
}
// 获取该小说的章节源内容
String ulString = getTextAll();
// 获取标题内容和链接
String regex = “href=”(.+?)".+?>(.+?)";
String chapter = “”;
String contentText = “”;
StringBuilder All = new StringBuilder();
Pattern pattern = Pattern.compile(regex);
Matcher matcher = pattern.matcher(ulString);
while (matcher.find()) {
// 获取章节链接
chapter = getChapterUrl(matcher.group(1));
// 爬取文章内容
contentText = getText(chapter);
// 下载标题
All.append(matcher.group(2));
All.append("\r\n\r\n");
//下载章节内容
All.append(contentText);
All.append("\r\n\r\n\r\n");
FileReaderWriter.writeIntoFile(All.toString(), “D:/书籍/” + bookName + “.txt”, true);
System.out.println(book.getBook_name() + “章节爬取成功！”);
}
System.out.println(bookName + “全部爬取成功！”);
}
}

效果展示：
开启获取分页线程：pool-1-thread-1
获取小说书名信息和链接成功！

查看本地磁盘D：

查看小说内容：

九结论及存在问题:
我在项目的开发过程中遇到了挺多问题，也学到了挺多知识，比如对于爬虫有了更深入的了解。这次爬虫题目我们考虑了好久，最终定为爬取静态网站的小说原因如下：
网页最终显示的页面源码是经过浏览器解释后的，当get或者post请求到的源码是服务器直接返回的，需要浏览器js渲染解释后正常显示。最基础的爬虫只能爬取没有动态加载的纯静态网页，而目前主流的网站都是有反爬虫的措施，以及各种验证措施。就比如2017年知乎就已经改版了，爬虫更加困难，之前的关于知乎的爬虫项目也都是无效的，因为爬虫模式不一样的，也就是说更难了。所以对于我们初学者来说，选择一个静态网站是一个好的选择。虽然这个所谓的”小”项目也是折磨了我们挺长一段时间。
这次项目中我和我的两个队友都采用了软件工程的思想，按照规范使用需求分析，系统实现等，使得项目具有扩展性和强壮性。应用了软件思想的项目，开发起来确实得心应手，有了一个目标和具体的规划让这次的爬虫的编写更有规范性。
除外，我还负责类名等名字设计，这方面虽然小，但是也不容忽视，好的方法命名可以让人一目了然，省去了很多不必要的交流。
当然，主线还是负责小说信息的爬取，这里用到了大量的正则表达式，为也是google了大量内容学习，一步步测试才最终完成了这一块内容。但是问题也是显而易见的，那就是耦合性太强，只适合这一个项目，这也是我目前还没有解决的问题，我的目的是想写出一个可扩展的爬虫，不过现在的技术还远远不够，不过在以后的学习中，我会加强爬虫这方面的学习。
不仅仅是技术上的不断尝试和提升，这次的三人团队协作也让我学到了很多东西，有句话说的好”三个臭皮匠，顶个诸葛亮”。就我一个人的努力是很难单独完成的，队友的弥补与意见给了我很多的帮助。

在这里也感谢一直帮助我们的老师，谢谢！

你可能感兴趣的:(JAVA爬虫系列)

鸿蒙与web混合开发双向通信屿筱鸿蒙 HarmonyOS5
鸿蒙与web混合开发双向通信用runJavaScript和registerJavaScriptProxywebentry/src/main/resources/rawfile/1.html混合开发打开相册//直接写js代码functionchangeImg(){//1.获取img这个元素constimg=document.querySelector('img')//2.修改元素的属性img.src
java毕业设计-基于Javaweb的家常小菜烹饪学习管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿刘 vue spring boot 毕业设计 java 课程设计学习
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费开题报告、任务书、全bao定制+
java毕业设计源码案例-基于ssm+协同过滤的个性化小说推荐系统设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 项目帮 springboot java 计算机毕设 java 课程设计开发语言
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
Javascript 异步编程（三）定时器夏末远歌
Javascript异步编程（三）并行？并发？异步？同步：synchronous:指所有任务按出现的先后顺序依次执行如果出现阻塞的任务，那么线程就会等待这个任务完成，接着执行下一个任务。异步：asynchronous:不保证所有任务按出现的顺序执行并发：concurrent:从宏观上，某个时间段里面多个程序都得到了运行，但不是说“同时运行”并行：parallel：在多核心下，因进程和线程独立运行，
springboot+vue生态系统的气象数据可视化平台Java+python-计算机毕业设计
目录功能和技术介绍具体实现截图开发核心技术：开发环境开发步骤编译运行核心代码部分展示系统设计详细视频演示可行性论证软件测试源码获取功能和技术介绍该系统基于浏览器的方式进行访问，采用springboot集成快速开发框架，前端使用vue方式，基于es5的语法，开发工具IntelliJIDEAx64，因为该开发工具，内嵌了Tomcat服务运行机制，可不用单独下载Tomcatserver服务器。由于考虑到
计算机专业大数据毕业设计-基于 Spark 的音乐数据分析项目(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥数据可视化计算机毕设 spark 大数据课程设计 spark
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
Java程序设计笔记是程序蜂啊 java 笔记开发语言
Java程序设计目录Java程序设计第一章java语言开发环境1.1工具篇1.2Eclipse调整字体第三章Java基础3.1java基本数据类型3.2关键字与标识符3.3常数3.4变量3.5.数据类型转换3.6由键盘输入数据4.1顺序结构4.2分支语句5.1什么是数组5.2数组赋值：5.3一维数组5.4二维数组6.1类的基本概念6.2定义类6.3对象的创建与使用6.4参数的传递第七章java语言
Javascript 平行四边形周长计算程序(Program for Circumference of a Parallelogram)
给定平行四边形的边，计算周长。示例：输入：a=10，b=8输出：36.00输入：a=25.12，b=20.4输出：91.04平行四边形的对边长度相等且平行。两角相等，但不一定为90度。平行四边形的周长可以计算为两条相邻边之和，每条边乘以2。计算平行四边形周长的公式：（2*a）+（2*b）//JavascriptProgramtocalculatethe//CircumferenceofaParal
什么是Java？想学习却不知道从哪开始？不熬夜不是好程序员
谈起Java，相信有很多小伙伴们也跟我刚开始一样，对他的了解只有难，学成之后工资高，从入门学到入土，但当你真正开始系统的学习之后才发现其实哪些程序猿们也不过尔尔（刚学习完刚入职那种。。。）什么是Java?Java是一门编程语言，Java是一门掌握了技术就可以拿到高薪的工作岗位。Java这个语言在我国发展的很完善，相当于你掌握了Java技术出来，具备一定的开发经验，既可以在一线城市找到合适的岗位工作
绝佳组合 SpringBoot + Lua + Redis = 王炸！
Java精选面试题（微信小程序）：5000+道面试题和选择题，真实面经，简历模版，包含Java基础、并发、JVM、线程、MQ系列、Redis、Spring系列、Elasticsearch、Docker、K8s、Flink、Spark、架构设计、大厂真题等，在线随时刷题！前言曾经有一位魔术师，他擅长将SpringBoot和Redis这两个强大的工具结合成一种令人惊叹的组合。他的魔法武器是Redis的
聊聊flink的RpcService go4it
序本文主要研究一下flink的RpcServiceRpcServiceflink-release-1.7.2/flink-runtime/src/main/java/org/apache/flink/runtime/rpc/RpcService.javapublicinterfaceRpcService{StringgetAddress();intgetPort();CompletableFutu
java--单元测试、内省
junit(单元测试框架)junit要注意的细节：1.如果使用junit测试一个方法的时候，在junit窗口上显示绿条那么代表测试正确，如果是出现了红条，则代表该方法测试出现了异常不通过。2.如果点击方法名、类名、包名、工程名运行junit分别测试的是对应的方法，类、包中的所有类的test方法，工程中的所有test方法。3.@Test测试的方法不能是static修饰与不能带有形参（可以写一个测试方
MySQL(149)如何进行数据清洗？辞暮尔尔-烟火年年 MySQL mysql python 数据库
数据清洗在数据处理和分析过程中至关重要，确保数据质量和一致性。以下是一个详细的指南，展示如何使用Java进行数据清洗，包括处理缺失值、重复值、异常值、数据类型转换以及标准化等步骤。一、准备工作确保安装有Java开发环境（JDK）和Maven或Gradle等依赖管理工具。我们将使用ApacheCommonsCSV库来处理CSV文件，并使用Java标准库进行数据清洗操作。二、加载数据首先，我们加载数据
（详细！！）2024最新Neo4j详细使用指南熊猫发电机：miniqq207 neo4j neo4j
Neo4j详细使用指南一、介绍Neo4j是什么Neo4j是一个高性能的,NOSQL图形数据库，它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎，但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。Neo4j也可以被看作是一个高性能的图引擎，该引擎具有成熟数据库的所有特性。程序员工作在一个面向对象的、灵活的网络结构下而不是严格、静态
（详细文档）java web在线商城系统（jsp + servlet）熊猫发电机：miniqq207 实训项目数据仓库大数据
目录一、设计任务......................................................................................41.1设计意义................................................................................41.2设计目的..........
mysql事物详解
前言：事物是什么？作为一个java程序员，也许我们仅仅只是停留在会使用的程度上，会通过在类上或者方法上使用@Transactional注解的方式来使用事物，但是背后的原理，为什么使用这个注解就能使事物生效可能并不是很清楚。下面本文详细一一介绍事物是什么，事物的特性，怎么使用等等。1.事物是什么所谓事物，在我的理解中就是一系列操作的一个集合，一旦其中一个操作失败，那么整个操作集合必须全部失败，回滚到
JAVAWeb2 DanB24 oracle 数据库
1.数据库设计1.软件的研发步骤数据库设计概念数据库设计就是根据业务系统的具体需求，结合我们所选用的DBMS，为这个业务系统构造出最优的数据存储模型。建立数据库中的表结构以及表与表之间的关联关系的过程。有哪些表？表里有哪些字段？表和表之间有什么关系？数据库设计的步骤需求分析（数据是什么?数据具有哪些属性?数据与属性的特点是什么）逻辑分析（通过ER图对数据库进行逻辑建模，不需要考虑我们所选用的数据库
白帽必备技术栏目一（javascript基础）
直接进入主题正好也在带学生会把笔记同步发送到csdn上后期不管是去就业还是在家里挖洞都都行javascript基础注意事项局部作用域里面给到的变量不加var就会变成全局变量数据类型boolean布尔类型boolean除了0和空字符串以及nullundefined其他的都是truevarbool=true;varbool=false;number类型varnum=10;//10varnum=0x23
从零开发推客小程序系统：完整技术方案与实战经验 wx_ywyy6798 小程序推客小程序开发推客系统开发微信小程序推客小程序推客系统推客分销系统开发
一、推客小程序的市场价值社交电商爆发式增长背景推客模式的优势：低成本获客、用户裂变小程序作为推客系统载体的天然优势二、技术架构设计text1.前端技术栈：-微信小程序原生开发/uni-app跨平台方案-自定义分享组件开发-可视化数据看板实现2.后端技术选型：-Node.js/PHP/JavaSpringBoot等后端框架对比-高性能分销关系链存储方案-佣金结算系统的设计要点3.数据库设计：-用户层
linux如何使用jstack分析线程状态 ycllycll linux
在高并发，多线程环境下的java程序经常需要分析线程状态，本本是一个分析步骤无具体讲解（具体命令可自行google学习）一般流程：1.使用jps-l查看有哪些java程序在运行2.使用top查看步骤1中进程号（pid或者vmid）所占用cpu以及内存情况（或者省略步骤1）3.使用top-Hppid查看具体该pid下各个线程所占用的cpu情况（进程下的线程有一个nid，后面需要用到）4.使用jsta
混合开发Hybrid，JSBridge原理简述永恒即是最美
混合开发（Hybrid），是一种开发模式，指使用多种开发模型开发App。一般有两大模式：原生Native、WebH5。混合开发时，原生、Web相互通信都离不开JSBridge。JSBridge：以JavaScript引擎或Webview容器作为媒介，通过协定协议进行通信，实现Native端和Web端双向通信的一种机制。（webView是移动端提供的运行JavaScript的环境，是系统渲染Web网
数字图像处理（三：图像如果当作矩阵，那加减乘除处理了矩阵，那图像咋变）：从LED冬奥会、奥运会及春晚等等大屏，到手机小屏，快来挖一挖里面都有什么
数字图像处理（三）一、（准备工作：咋玩，用什么玩具）图像以矩阵形式存储，那矩阵一变、图像立刻跟着变？1.Python+JupyterNotebook/Lab+库(NumPy,OpenCV,Matplotlib,scikit-image)2.MATLAB+ImageProcessingToolbox3.JavaScript+HTML5Canvas+浏览器4.专业的图像处理软件(带脚本/插件功能)二、
Android图书借阅系统完整App开发教程(源码+数据库)
本文还有配套的精品资源，点击获取简介：本教程深入介绍了基于Android平台的图书借阅系统App开发过程，涵盖了从UI设计、网络通信到数据库操作的全面实践。项目包含源码和数据库文件，让学生能够通过实际案例学习并掌握Android应用开发的核心技术。本App具有预约借书、书籍评论、图书推荐和逾期提醒等功能，要求开发者熟悉Java语言和Android系统，以及实现后端逻辑和数据存储。此项目是一个宝贵的
Spring 中的 Bean 作用域(Scope)有哪些？各自适用于什么场景？
面试考察重点Spring框架核心概念的理解深度Bean生命周期管理机制的掌握不同作用域的适用场景判断能力Web环境与非Web环境的差异认知Spring配置与使用的实际经验粉丝福利！需要全套2025最新Java面试笔记的【点击此处即可】即可免费获取！面试核心知识点详解Spring提供的标准作用域：singleton(单例)：默认作用域每个SpringIoC容器只存在一个Bean实例所有对该Bean的
Spring的IOC是什么？它解决了哪些问题？浮生带你学Java Java面试题 Spring spring rpc java
面试考察重点Spring核心机制的理解程度依赖注入和控制反转概念的区分解耦思想和设计模式的应用能力Spring容器实现原理的掌握Bean生命周期管理的认知粉丝福利！需要全套2025最新Java面试笔记的【点击此处即可】即可免费获取！面试核心知识点详解IOC基本概念：IOC(InversionofControl)：控制反转，是一种设计思想DI(DependencyInjection)：依赖注入，是I
题解 | #使用join查询找出没有分类的电影id以及名称# 愤怒的小青春 java
58同城java后端一面凉经主流的哈希算法有哪几种？帮闺蜜们找靠谱男票hc多多光彩积云是什么企业，查不到有用信息太抽象了！培训班装公司招聘阿里巴巴前端暑期实习——无语八面挂怎么写自我介绍|自我介绍保姆级教学灵犀互娱客户端一面面经(求过啊)24找运维实习，这简历可行吗拓竹科技测试开发面经（25届暑期实习）分享一波攒了整个秋招的NLP算法岗面经腾讯广告暑期实习面试1、JVM垃圾回收机制2、syncho
深入理解浏览器解析机制和XSS向量编码 lq_ioi_pl xss 前端编码
URL编码"javascript:alert(1)"---->%6a%61%76%61%73%63%72%69%70%74:%61%6c%65%72%74%28%31%29aaa-------浏览器解析不了。页面识别在url解码之前，在识别标签和属性的时候还没解码，页面就不认识这串编码，不会把它们当作JS代码执行页面识别的时候，已经进行HTML实体解码，变成了aaaaa浏览器会识别它为可执行JS代
【hc多多】华为25届实习生招聘（东莞、北京、成都、西安） 2301_78234743 java
被面试官羞辱。。。快手—Java日常实习组内急招智谱华章前端一面凉经pdd你真是饿了......2024年4月最新腾讯后端校招实习面经概答：面面俱到的考察千亿元宇宙市场，Soul、映客的新动力学3个月后端了嵌入式简历制作简历优化荣耀错过面试是不是没约面机会了？微众银行25届暑期实习招聘正式启动！荣耀错过面试是不是没约面机会了？成都经纬恒润CE视景仿真部成都经纬恒润CE视景仿真部软件实习生是做什么的
XSS的介绍 lq_ioi_pl xss 前端
目录XSS的原理反射型XSSDOM型XSS存储型XSS常见的XSSPayloadXSS的原理XSS全称跨站脚本(CrossSiteScripting)，为避免与层叠样式表(CascadingStyleSheets,CSS)的缩写混淆，故缩写为XSS。这是一种将任意Javascript代码插入到其他Web用户页面中执行以达到攻击目的的漏洞。攻击者利用浏览器的动态展示数据功能，在HTML页面里嵌入恶意
JAVA刷题记录: 专题十五 BFS解决FloodFill算法用屁屁笑宽度优先算法
733.图像渲染-力扣（LeetCode）classSolution{int[]dx={0,0,-1,1};int[]dy={1,-1,0,0};publicint[][]floodFill(int[][]image,intsr,intsc,intcolor){intprev=image[sr][sc];if(color==prev)returnimage;Queueq=newLinkedList
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep