CrazyDragon_King

Java IO流和网络的简单应用--图片爬虫

Java IO流和网络的简单应用

最近看到了 URL 类的用法，简单的做了一个Java 版的爬虫。发现还挺有趣的，就拿出来分享一下。通过关键字爬取百度图片，这个和我们使用搜索引擎搜索百度图片是一样的，只是通过爬虫可以学习技术的使用。（这个程序只是用来学习使用的，没有其它用途！）

Java IO 流和 URL 类

Java IO流

Java 的 IO 流是实现输入/输出的基础，它可以方便的实现数据的输入/输出操作，在 Java 中把不同的输入/输出源（键盘、文件、网络连接等)抽象表述为”流“（Stream），通过流的方法运行Java 程序使用相同的方式来访问不同的输入/输出源。

因为 IO流已经对各种输入输出源做了一个抽象处理，所以我们可以使用相对一致的代码处理各种的源，只需要把它们作为输入输出流来进行处理就行了，这就是面向抽象的好处。

URL 类

URI 和 URL

先来了解一下什么是 URL 吧，说 URL 之前先简单了解URI。
**URI，统一资源标识符（Uniform Resource Identifier）**是采用一种特定语法标识一个资源的字符串。所标识的资源可能是服务器上的一个文件或者其它任何内容。URI 的语法是由一个模式和一个模式特定部分组成，模式和模式特定部分用一个冒号分隔，如下所示：
模式:模式特定部分

URI 中的模式特定部分没有特定的语法，很多都采用一种层次结构形式，如：
//authority/path?query

**URL，统一资源定位符（Uniform Resource Location）**是URI的一个子集，它除了标识一个资源外，还会为资源提供一个特定的网络位置，客户端可以用它来获取这个资源的一个表示。
注意：URL和URI并不是完全相同的，通用的URI可以告诉你一个资源是什么，但是无法告诉你它在哪里，以及如何得到这个资源。
在Java中，这二者都有相应的实现，java.net.URI 类（只标识资源）与 java.net.URL 类（既能标识资源，又能获取资源）

URL 中的网络位置通常包括用来访问服务器的协议（FTP、HTTP等）、服务器的主机名或IP地址，以及文件在该服务器上的路径。典型的 URL 类似于 https://www.baidu.com/。它表示百度服务器上的一个 html 文件（百度搜索的首页），它可以通过 HTTP 协议访问虽然没有直接在 URL 后面加上 html 文件的名字。如果使用 tomcat 的话，通常是 http://127.0.0.1:8080/foods/index.html 这种形式，其实二者是相同的。

好了，简单的了解就到此为止了，感兴趣的话，可以查阅相关书籍了解更详细的知识，上面只是提到一些基础的概念。

URL类

java.net.URL类是对统一资源定位符的抽象表示。它不依赖于继承来配置不同类型的URL的实例，而使用了策略设计模式。协议处理器就是策略，URL 类构成上下文，通过它来选择不同的策略。（值得一提的是：
java 的 IO流也是使用了一种设计模式：装饰器模式。例如如下代码：DataOutputStream dos = new DataOutputStream(new BufferedOutputStream(new FileOutputStream(new File())))。

URL 类包含很多的构造方法，我也只是第一次使用，就使用了最简单的一种形式：（刚开始学习，根本不需要了解这么多，先用着再说，慢慢掌握知识。）

public URL(String url) throws MalformedURLException

Java 爬虫

Talk is cheap, show me the code!
前面主要是一下简单的基础知识，如果已经了解可以直接看下面这部分。

项目的基本结构：

Client

package dragon;

import java.io.File;
import java.io.IOException;

public class Client {
	public static final String downloadFilePath = "D:\\DragonDataFile\\cat";
	public static void main(String[] args) throws IOException {
		//初始化创建文件下载目录
		File dir = new File(Client.downloadFilePath);
		if (!dir.exists()) {
			dir.mkdirs();
		}
		//启动下载窗口
		new Window("龙");
	}
}

DataProcessUtil

package dragon;

import java.io.BufferedInputStream;
import java.io.IOException;
import java.net.URL;
import java.net.URLConnection;
import java.util.LinkedList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import java.util.stream.Collectors;

public class DataProcessUtil {
	
	//根据链接获取 html 文件数据。
	public static String getData(String link) throws IOException {
		URL url = new URL(link);
		URLConnection connection = url.openConnection();
		StringBuilder strBuilder = new StringBuilder();
		try (
			BufferedInputStream bis = new BufferedInputStream(connection.getInputStream())){
			int hasRead = 0;
			byte[] b = new byte[1024];
			while ((hasRead = bis.read(b)) != -1) {
				strBuilder.append(new String(b, 0, hasRead));
			}
		}
		return strBuilder.toString();
	}
	
	public static List<String> getLinkList(String str){
		String regx = "\"objURL\":\"(.*?)\",";
		Pattern p = Pattern.compile(regx);
		Matcher m = p.matcher(str);
		List<String> strs = new LinkedList<>();
		while (m.find()) {
			strs.add(m.group(0));
		}
		//使用 Stream API 进行处理并返回。
		 return strs.stream()
				.map(s->s.substring(10, s.length()-2))
				.collect(Collectors.toList());
	}
}

说明：
获取html页面的信息，并进行处理，使用正则表达式从html中提取图片的链接。
（正则表达式是参考其它人的实现，这个涉及到对html内容的分析）

String regx = "\"objURL\":\"(.*?)\",";

//使用 Stream API 进行处理并返回。
		 return strs.stream()
				.map(s->s.substring(10, s.length()-2))
				.collect(Collectors.toList());

使用Java 8新增加的 Stream 对数据进行遍历，提取所有的图片的 URL 组成一个列表集合返回。

DownLoadUtil

package dragon;

import java.io.BufferedInputStream;
import java.io.BufferedOutputStream;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.net.URL;
import java.util.Date;
import java.util.List;
import java.util.Random;

public class DownLoadUtil {
	public static void downLoad(List<String> strs) {
		strs.stream().forEach(u->{
			try {
				URL url = new URL(u);
				String contentType  = url.openConnection().getContentType();
				if (contentType != null && contentType.contains("image/")) {
					//获取图片的类型：content type
					String filetype = null;
					if (contentType.contains("jpeg")) {
						filetype = ".jpeg";
					} else if (contentType.contains("jpg")) {
						filetype = ".jpg";
					} else{
						filetype = ".png";
					} //gif 格式图片，似乎无法正常显示		
					
					//使用当前日期的毫秒数+随机数+contentType 作为文件名
					Random rand = new Random(System.currentTimeMillis());
					String filename = new Date().getTime()+rand.nextInt(10000)+filetype;		
					Runnable r = ()->{
						int flag = 0;
						File imageFile = new File(Client.downloadFilePath, filename);
						try(
							BufferedInputStream bis = new BufferedInputStream(url.openConnection().getInputStream());
							BufferedOutputStream bos = new BufferedOutputStream(new FileOutputStream(imageFile))){
							int hasRead = 0;
							byte[] b = new byte[1024];
							while ((hasRead = bis.read(b)) != -1) {
								bos.write(b, 0, hasRead);
							}
						} catch (IOException e) {
							System.out.println("下载失败！");
							//对于下载失败的图片进行删除，不然会出现错误！图片只能正常现实一部分
							if (imageFile.exists()) {
								boolean b = imageFile.delete();
								System.out.println("下载失败，删除图片"+b);
							}
							flag = 1;
							e.printStackTrace();
						}
						if (flag == 0)
							System.out.println("下载完成："+filename);
					};
					Thread t = new Thread(r);
					t.start();   //启动下载线程。
				}
			} catch (IOException e) {
				e.printStackTrace();
				System.out.println("链接错误！");
			}
		});
	}
}

**注意：这里遇到一个问题，就是图片的下载过程受到网络因素的影响，有时候会下载失败，但是如果图片已经开始下载，仍然提示下载失败，那么这张图片可以能会出现异常，比如出现一下奇怪的颜色，我对下载失败的图片，进行了处理，发现，似乎没有效果。所以我代码中处理下载失败图片的部分，可能不起效果。或许，可以通过获取资源文件的大小和下载后文件的大小进行比对，如果不相等就删除，感兴趣的可以试试。 **
单纯的判断大小无法解决图片变形的问题，还有一种情况需要考虑！在最下面，会有详细说明解决方法。

Window

package dragon;

import java.awt.FlowLayout;
import java.io.IOException;
import java.util.List;
import javax.swing.Box;
import javax.swing.JButton;
import javax.swing.JFrame;
import javax.swing.JLabel;
import javax.swing.JOptionPane;
import javax.swing.JTextField;

public class Window extends JFrame{
	/**
	 * 自动生成的序列化版本号
	 */
	private static final long serialVersionUID = 7809323808831342296L;
	private JLabel label_keyWord, label_Page;
	private JTextField textField, textPage;
	private JButton download;
	
	public Window(String name) {
		super(name);
		this.init();
		//设置布局
		this.setLayout(new FlowLayout());
		this.setBounds(400, 400, 250, 150);
		this.setDefaultCloseOperation(JFrame.EXIT_ON_CLOSE);
		this.setVisible(true);
	}
	
	private void init() {
		label_keyWord = new JLabel("关键字");
		label_Page = new JLabel("页数");
		textField = new JTextField(10);
		textPage = new JTextField(10);
		download = new JButton("下载");
		
		download.addActionListener(e->{
			String keyWord = textField.getText().trim();
			String page = textPage.getText().trim();
			int download_page = 0;   
			if (keyWord.length() == 0 || page.length() == 0) {
				JOptionPane.showMessageDialog(null, "关键字或页数不能为空！", "警告", JOptionPane.WARNING_MESSAGE);
				return ;
			}
			
			try {
				download_page = Integer.parseInt(page);  //匹配单个数字，如果数字很多使用正则表达式
			} catch (NumberFormatException exp) {
				JOptionPane.showMessageDialog(null, "页数必须为数字！", "警告", JOptionPane.WARNING_MESSAGE);
				return ;
			}
			
			String link = null;
			for (int i = 1; i <= download_page; i++) {
				//分页下载图片！
				link = "http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word="+keyWord+"&pn="+i*20;
				this.download(link);
			}
		});

		Box boxH1 = Box.createHorizontalBox();
		boxH1.add(label_keyWord);
		boxH1.add(Box.createHorizontalStrut(10));
		boxH1.add(textField);
		Box boxH2 = Box.createHorizontalBox();
		boxH2.add(label_Page);
		boxH2.add(Box.createHorizontalStrut(23));
		boxH2.add(textPage);
		Box boxH3 = Box.createHorizontalBox();
		boxH3.add(download);
		
		Box boxV = Box.createVerticalBox();
		boxV.add(boxH1);
		boxV.add(Box.createVerticalStrut(10));
		boxV.add(boxH2);
		boxV.add(Box.createVerticalStrut(10));
		boxV.add(boxH3);
		this.add(boxV);
	}
	
	private void download(String link) {
		try {
			String str = DataProcessUtil.getData(link);
			List<String> links = DataProcessUtil.getLinkList(str);
			//尝试下载！使用线程进行下载，防止阻塞！
			Thread t = new Thread(()->{
				DownLoadUtil.downLoad(links);
			});
			t.start();
		} catch (IOException e1) {
			e1.printStackTrace();
			JOptionPane.showMessageDialog(null, "啥都没有！", "警告", JOptionPane.WARNING_MESSAGE);
		}
	}
}

说明：
当图片没有下载完成时，不要再次点击下载按钮，否则会报错。因为线程不能被再次启动。

运行结果

基本原理

我来简单画一个示意图，大家凑合着看：

说明：首先通过百度图片的URL来获取百度图片那个页面的信息（html的内容），我们平时在浏览器使用，看到的都是浏览器处理好的页面，如果使用爬虫爬取的就是原始的html页面，在浏览器按 F12 也可以看到。因为图片的链接都在html 中，所以我们需要取出这些图片，这里就用到了**正则表达式（Regular Expression）**的知识了，通过正则表达式可以取出需要的信息（资源的URL或者说资源的地址）。其实获取html的过程和获取图片的过程，都是一样的。

这里说一下，这个步骤：

	//根据链接获取 html 文件数据。
	public static String getData(String link) throws IOException {
		URL url = new URL(link);
		URLConnection connection = url.openConnection();
		StringBuilder strBuilder = new StringBuilder();
		try (
			BufferedInputStream bis = new BufferedInputStream(connection.getInputStream())){
			int hasRead = 0;
			byte[] b = new byte[1024];
			while ((hasRead = bis.read(b)) != -1) {
				strBuilder.append(new String(b, 0, hasRead));
			}
		}
		return strBuilder.toString();
	}

通过参数 link，创建一个 URL 对象，然后通过使用URLConnection connection = url.openConnection();获取 URLConnection 对象，在通过 URLConnection 对象的getInputStream() 方法，获取输入流即可。这样就完成了对资源的获取。我这里强调资源，因为下载图片其实和这个过程是一样的。

总结

这个小软件虽然功能很简单，但是也用到了很多知识点，比较适合初学者进行学习（Java IO流、网络、Stream、线程的知识），知识虽然用到的都不难（一些基础知识），但是融合起来使用，还是很有意思的。

附

对于图片的奇怪颜色问题，可以确定是图片的大小和原来图片的大小不一致导致的，至于为什么是这样的，估计需要具备一定的图形学知识，才能解答，这个超出了这个东西的范围了。所以为了判断哪些图片出错，我就使用大小判断的方法，对最后生成的文件大小和网络图片文件大小进行比对，删除了一些无法下载的图片，但是有一些图片居然无法删除，我查阅了资料，大多说它被另一个进程占用，但是我这个图片应该是没有的。后来，经过检查发现是多线程惹得祸，因为是多线程，并且代码执行速度太快了（对的，和这个也有关系），因为我的文件命名是当前时间的毫秒数+一个种子为当前时间的随机数，在多线程的情况下，重复的概率居然还挺高的。
所以，原因就出现了，当发现图片大小不对，试图删除图片时，图片被另一个线程占用，无法删除。（关于名字重复的问题，就是两个线程在同一个毫秒启动了，所以随机数也是相等的（种子相等），因此有些图片就会和其它图片写入同一个图片文件，导致出现异常情况。）

总结一下：
图片异常的情况有两种：
1.网络原因，导致图片无法完整下载，这是无法解决的，只能删除。
2.图片名字重复，导致多张图片数据被写入同一张图片当中，这是程序错误，可以避免的。

解决方法：
对于第一种情况，只需要把错误的图片删除即可；
对于第二种情况，要避免图片名字重复，所以我重新设计了图片的命名方法，
采用：当前时间的毫秒数+UUID随机数（查阅资料，这个挺好用的）作为文件的命名方式。注：UUID 也有一个缺点，就是名字太长了。

修改后的源文件：

package dragon;

import java.io.BufferedInputStream;
import java.io.BufferedOutputStream;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.net.URL;
import java.net.URLConnection;
import java.util.List;
import java.util.UUID;

public class DownLoadUtil {
	public static void downLoad(List<String> strs) {
		strs.stream().forEach(u->{
			try {
				URL url = new URL(u);
				URLConnection urlConnection = url.openConnection();
				String contentType  = urlConnection.getContentType();
				//获取资源文件的大小
				long size = urlConnection.getContentLengthLong();
				if (contentType != null && contentType.contains("image/")) {
					//获取图片的类型：content type
					String filetype = null;
					if (contentType.contains("jpeg")) {
						filetype = ".jpeg";
					} else if (contentType.contains("jpg")) {
						filetype = ".jpg";
					} else{
						filetype = ".png";
					} //gif 格式图片，似乎无法正常显示		
					
					//使用当前时间戳+随机数+contentType 作为文件名
					String filename = System.currentTimeMillis()+UUID.randomUUID().toString()+filetype;
					//使用线程进行下载
					Runnable r = ()->{
						File imageFile = new File(Client.downloadFilePath, filename);
						try(
							BufferedInputStream bis = new BufferedInputStream(urlConnection.getInputStream());
							BufferedOutputStream bos = new BufferedOutputStream(new FileOutputStream(imageFile))){
							int hasRead = 0;
							byte[] b = new byte[1024];
							while ((hasRead = bis.read(b)) != -1) {
								bos.write(b, 0, hasRead);
							}
						} catch (IOException e) {
							System.out.println("下载失败！");
							e.printStackTrace();
						}
						//对下载失败的图片进行删除。
						if (imageFile.length() != size) {
							boolean result = imageFile.delete();
							System.out.println(imageFile.length()+"  "+size+" "+filename+" 删除结果："+result);
							//大小不符合，说明图片下载有问题，删除图片。
						} else {
							System.out.println("下载完成："+filename);
						}
					};
					Thread t = new Thread(r);
					t.start();   //启动下载线程。
				}
			} catch (IOException e) {
				e.printStackTrace();
				System.out.println("链接错误！");
			}
		});
	}
}

运行截图
这样网络原因错误的图片直接删除，代码原因的错误，已经改正了。

注：还有一些图片无法显示，这个可能是官方不允许我们进行爬取，有的图片，爬取的就是不允许爬取那种图片，还有一些图片，不支持格式（这个原因，我也不太明白，希望明白的人，可以指出来为什么）。

Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
JavaScript `Map` 和 `WeakMap`详细解释跳房子的前端 JavaScript 原生方法 javascript 前端开发语言
在JavaScript中，Map和WeakMap都是用于存储键值对的数据结构，但它们有一些关键的不同之处。MapMap是一种可以存储任意类型的键值对的集合。它保持了键值对的插入顺序，并且可以通过键快速查找对应的值。Map提供了一些非常有用的方法和属性来操作这些数据对：set(key,value):将一个键值对添加到Map中。如果键已经存在，则更新其对应的值。get(key):获取指定键的值。如果键
切换淘宝最新npm镜像源是 hai40587 npm 前端 node.js
切换淘宝最新npm镜像源是一个相对简单的过程，但首先需要明确当前淘宝npm镜像源的状态和最新的镜像地址。由于网络环境和服务更新，镜像源的具体地址可能会发生变化，因此，我将基于当前可获取的信息，提供一个通用的切换步骤，并附上最新的镜像地址（截至回答时）。一、了解npm镜像源npm（NodePackageManager）是JavaScript的包管理器，用于安装、更新和管理项目依赖。由于npm官方仓库
【Java】已解决：java.util.concurrent.CompletionException 屿小夏 java 开发语言
文章目录一、分析问题背景出现问题的场景代码片段二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决：java.util.concurrent.CompletionException一、分析问题背景在Java并发编程中，java.util.concurrent.CompletionException是一种常见的运行时异常，通常在使用CompletableFuture进行异步计算时出现
设计模式之建造者模式(通俗易懂--代码辅助理解【Java版】） ok!ko 设计模式设计模式建造者模式 java
文章目录设计模式概述1、建造者模式2、建造者模式使用场景3、优点4、缺点5、主要角色6、代码示例：1）实现要求2）UML图3)实现步骤：1）创建一个表示食物条目和食物包装的接口2）创建实现Packing接口的实体类3）创建实现Item接口的抽象类，该类提供了默认的功能4）创建扩展了Burger和ColdDrink的实体类5）创建一个Meal类，带有上面定义的Item对象6）创建一个MealBuil
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它