宇运

java爬虫——爬取网站图片

目录

问题：java能否实现爬虫，如何爬取
jsoup简介
- 获取jsoup
- - Maven
  - Gradle
- jsoup几个常用的类
- - Document
  - Element及Elements
解决办法：jsoup实现爬虫功能
- 获取目标网站的html
- 解析html并获取图片url
- 下载图片
- 获取本页面所有链接中的所有图片
- 实现图形化界面
代码展示
应用展示
总结
参考资料

问题：java能否实现爬虫，如何爬取

在学习爬虫的时候，我是从python入门的。爬虫的原理也不难，获取服务器返回的html文件，然后通过正则表达式对html字符串进行解析，至于想要获得什么信息，则是看自己的业务逻辑，比如获取网站上所有邮箱，所有QQ号等。而我则是想爬取网站上所有图片。
一开始学习爬虫，想要获取网站上一些元素就需要自己写正则表达式筛选了，比如获取所有链接元素，（".*"）。但是随着学习的深入，了解到python有Beautiful Soup这个库，提供了很多方便的方法来获取网站的元素，因本人对python了解不多，浅尝辄止，就不再妄论。
此时我就想，难道java不能获取html进行解析吗，就没有实用的工具类进行调用吗？毕竟java是做网站开发的利器啊。果然，java提供了jsoup工具来做爬虫开发，而且个人觉得很好用。

jsoup简介

想要深入学习jsoup的同学可以去jsoup官网查看文档学习，使用非常简单，不难看懂。这里我先简单介绍一下。
jsoup是用于处理实际HTML的Java库。它提供了使用DOM，CSS和类似jquery的最好方法提取和处理数据的非常方便的API。
jsoup实现WHATWG HTML5规范，并将HTML解析为与现代浏览器相同的DOM。

从URL，文件或字符串中抓取并解析 HTML
使用DOM遍历或CSS选择器查找和提取数据
处理 HTML元素，属性和文本
根据安全的白名单清除用户提交的内容，以防止XSS攻击
输出整洁的HTML

获取jsoup

Maven

<dependency>
  <!-- jsoup HTML parser library @ https://jsoup.org/ -->
  <groupId>org.jsoup</groupId>
  <artifactId>jsoup</artifactId>
  <version>1.12.1</version>
</dependency>

Gradle

// jsoup HTML parser library @ https://jsoup.org/
compile 'org.jsoup:jsoup:1.12.1'

当然你也可以通过自行下载jsoup-1.12.1.jar，并把它放入你的项目中。

jsoup几个常用的类

Document

Document是jsoup解析完html之后返回的一个对象，由Elements和TextNode组成，封装好了很多方法，可以通过它很方便地获取指定元素。获取Document对象也很简单。

从URL加载Document

Document doc = Jsoup.connect("http://example.com")
  .data("query", "Java")
  .userAgent("Mozilla")
  .cookie("auth", "token")
  .timeout(3000)
  .post();//只需要connect()就行了，后面的方法指定http请求的一些属性，使用默认的亦可

从字符串加载Document

String html = "First parse"
  + "Parsed HTML into a doc.
";
Document doc = Jsoup.parse(html);

从文件加载Document

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

该parse(File in, String charsetName, String baseUri)方法加载并解析HTML文件。如果在加载文件时发生错误，它将抛出一个IOException，您应该适当地处理它。

baseUri解析器使用该参数在找到元素之前解析文档中的相对URL 。如果您不担心此问题，可以改为传递一个空字符串。

有一种姐妹方法parse(File in, String charsetName)，该方法使用文件的位置作为baseUri。如果您在本地文件系统站点上工作，并且指向该站点的相对链接也在文件系统上，则此功能很有用。

Element及Elements

获得了Document之后，我们可以通过它做一些更有趣的事情，比如获取特定元素。Element就是这些元素在java的特定实现，而Elements可以理解为Element的一个容器。获取元素方法也很简单，使用了jQuery和css的选择器，对前端熟悉的很容易理解这一点，不熟悉前端技术的也不用害怕，因为这并不难。

通过元素id获得Element

//获取id为content的元素
Element content = doc.getElementById("content");

通过元素class获得Elements

//获取class为confirmButton的所有元素
Elements confirmButtons= doc.getElementsByClass("confirmButton");

通过元素tag获得Elements

//获取所有链接
Elements links = doc.getElementsByTag("a");

还有很多，不再赘述
- getElementsByAttribute(String key)
- 元素的兄弟姐妹：siblingElements()，firstElementSibling()，lastElementSibling()，nextElementSibling()，previousElementSibling()
- parent()，children()，child(int index)

获取Element后，我们就可以使用Element封装的一些方法获取元素中的信息，比如链接<\a>的地址href。

Elements links = content.getElementsByTag("a");
for (Element link : links) {
     
  String linkHref = link.attr("href");
  String linkText = link.text();
}

这些是Element的常用方法：

attr(String key)获取和attr(String key, String value)设置属性
attributes() 获取所有属性
id()，className()和classNames()
text()获取并text(String value)设置文本内容
html()获取并html(String value)设置内部HTML内容
outerHtml() 获得外部HTML值
data()获取数据内容（例如script和style标签）
tag() 和 tagName()

解决办法：jsoup实现爬虫功能

熟悉了jsoup之后，我们就可以很方便的实现自己的爬虫工具了。

获取目标网站的html

//这里我们没有通过jsoup的方法获取，而是使用HttpClient，效果是一样的
public String getHtml(String myURL) {
     
       CloseableHttpClient httpClient = HttpClients.createDefault();
       CloseableHttpResponse response = null;
       String html="";
       HttpGet request = new HttpGet(myURL);
       request.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36");
       
       try {
     
           //3.执行get请求，相当于在输入地址栏后敲回车键
           response = httpClient.execute(request);
           
           //4.判断响应状态为200，进行处理
           if(response.getStatusLine().getStatusCode() == HttpStatus.SC_OK) {
     
               //5.获取响应内容
               HttpEntity httpEntity = response.getEntity();
               html = EntityUtils.toString(httpEntity, "utf-8");
           } else {
     
               //如果返回状态不是200，比如404（页面不存在）等，根据情况做处理，这里略
               System.out.println("返回状态不是200");
               System.out.println(EntityUtils.toString(response.getEntity(), "utf-8"));
           }
       } catch (ParseException | IOException e) {
     
            e.printStackTrace();
       } finally {
     
           //6.关闭
           HttpClientUtils.closeQuietly(response);
           HttpClientUtils.closeQuietly(httpClient);
       }
       return html;
}

解析html并获取图片url

public void getImages(String html,String myURL) {
     
	Document document = Jsoup.parse(html);
	//像js一样，通过标签获取title
       //获取所有图片
       Elements imgs=document.getElementsByTag("img");
       for(Element img:imgs) {
     
       	String imgUrl = img.attr("src");
       	//无协议添加协议
       	if(imgUrl.startsWith("//")) {
     
       		imgUrl="http:"+imgUrl;
       	}
       	//相对地址转绝对地址，getHostName()是获得网站域名
       	else if(imgUrl.startsWith("/")){
     
			imgUrl=getHostName(myURL)+imgUrl;
		}
        //如果网址为空或者下载过这张图片（HashMap中已经有URL）就跳过
       	if(imgUrl==null||imgUrl.equals("")||imgURLMap.containsKey(imgUrl)) {
     
       		continue;
       	}
       	System.out.println(imgUrl);
       	//通过url下载图片
       	if(imgUrl.startsWith("http")) {
     
       		downImagesByHttp(imgUrl);
       	}
       	//通过base64解码下载图片
       	else {
     
			downImagesByBase64(imgUrl);
		}
       }
}
private String getHostName(String myURL) {
     
	return myURL.substring(0,myURL.indexOf("/",8));
}

下载图片

private void downImagesByHttp(String imgUrl){
     
	imgURLMap.put(imgUrl, mapValue);
	String fileName = imgUrl.substring(imgUrl.lastIndexOf("."));
	HttpURLConnection connection=null;
	InputStream is = null;
	File file=null;
	FileOutputStream out = null;
	
	try {
     
		URL url = new URL(imgUrl);
		connection = (HttpURLConnection)url.openConnection();
		if(connection.getContentLength()>imgSize) {
     
			is = connection.getInputStream();
			if(fileName.matches(".+?((png)|(jpg)|(jpeg)|(gif)|(svg))$")) {
     
				file=new File(filePath+"zsy"+UUID.randomUUID().toString().substring(28)+fileName);
			}
			else {
     
				file=File.createTempFile("zsy", ".png",new File(filePath));
			}
			out = new FileOutputStream(file);
			int i = 0;
			while((i = is.read()) != -1){
     
				out.write(i);
			}
		}
	} catch (Exception e) {
     
		 e.printStackTrace();
	}
	finally {
     
		try {
     
			connection.disconnect();
			out.close();
			is.close();
		} catch (Exception e) {
     
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}
}

//这里的Base64类来自Apache Commons Codec,可以通过Maven获取，用于解码Base64
/*
这个是它的gav


    commons-codec
    commons-codec
    1.12

*/
private void downImagesByBase64(String imgUrl) {
     
	// TODO Auto-generated method stub
	String fileName="."+imgUrl.substring(imgUrl.indexOf('/')+1, imgUrl.indexOf(';'));
	String fileBase64=imgUrl.substring(imgUrl.indexOf(',')+1);
	File file=null;
	FileOutputStream out = null;
	try {
     
		file=new File(filePath+"zsy"+UUID.randomUUID().toString().substring(28)+fileName);
		out = new FileOutputStream(file);
		byte[] b=Base64.decodeBase64(fileBase64);
		out.write(b);
	} catch (Exception e) {
     
		 e.printStackTrace();
	}
	finally {
     
		try {
     
			out.close();
		} catch (Exception e) {
     
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}
}

获取本页面所有链接中的所有图片

如果只是获得当前URL的图片，那程序就结束了。但是爬虫的厉害之处在于应当能够通过链接爬取其他网页的内容，所以应该获取当前页面的所有链接，但是注意不能重复，同样通过HashMap来存储已经访问过的URL。

public void getAllImages(String myURL) {
     
	System.out.println(myURL);
	String html=getHtml(myURL);
	getImages(html,myURL);
	URLMap.put(myURL,mapValue);
	String hostName=getHostName(myURL);
	LinkedList<String> curURLs=new LinkedList<>();
	Document document = Jsoup.parse(html);
	Elements links=document.getElementsByTag("a");
	for(Element link:links) {
     
		String nextLink=link.attr("href");
		if(nextLink.startsWith("http")||nextLink.startsWith("/")) {
     
			if(nextLink.startsWith("/")) {
     
				nextLink=hostName+nextLink;
			}
			if(!URLMap.containsKey(nextLink)) {
     
				curURLs.add(nextLink);
			}
		}
	}
	while(!curURLs.isEmpty()) {
     
		String curURL=curURLs.pollFirst();
		pool.submit(()->{
     
			getAllImages(curURL);
		});
	}
}

实现图形化界面

通过调用getAllImage(URL)，即可把图片全部下载下来，我们实现GUI界面更友好的接受数据（URL，文件存储位置）。

public void init() {
     
		JFrame uiFrame=new JFrame("世缘科技");
    	JPanel panelURL=new JPanel();
    	JTextField urlField=new JTextField(40);
    	JButton start=new JButton("开始");
    	JButton stop=new JButton("结束");
    	panelURL.add(urlField);
    	panelURL.add(start);
    	panelURL.add(stop);
    	
    	//urlField.setText("");
    	
    	start.addActionListener(startEve->{
     
    		pool=Executors.newFixedThreadPool(threadNum);
    		pool.submit(()->{
     
    			if(!urlField.getText().startsWith("http")) {
     
    				urlField.setText("http://"+urlField.getText());
    			}
    			getAllImages(urlField.getText());
    		});
    	});
    	
    	stop.addActionListener(stopEve->{
     
    		if(!pool.isShutdown()) {
     
    			pool.shutdownNow();
    		}
    		URLMap.clear();
    		imgURLMap.clear();
    	});
    	
    	JPanel panelFilePath=new JPanel();
    	JTextField filePathField=new JTextField(44);
    	JButton choose=new JButton("选择文件");
    	panelFilePath.add(filePathField);
    	panelFilePath.add(choose);
    	
    	filePathField.setText(filePath);
    	choose.addActionListener(chooseEve->{
     
    		JFileChooser fileChooser=new JFileChooser(".");
    		fileChooser.setFileSelectionMode(JFileChooser.DIRECTORIES_ONLY);
    		int result=fileChooser.showDialog(uiFrame,"选择存储路径");
			if(result==JFileChooser.APPROVE_OPTION){
     
				filePath=fileChooser.getSelectedFile().getPath()+"\\";
				filePathField.setText(filePath);
			}
    	});
    	
    	uiFrame.add(panelURL);
    	uiFrame.add(panelFilePath,BorderLayout.SOUTH);
    	uiFrame.setDefaultCloseOperation(JFrame.EXIT_ON_CLOSE);
    	uiFrame.pack();
    	uiFrame.setLocation(500, 200);
    	uiFrame.setVisible(true);
	}

代码展示

可以从我的git仓库中获取源码https://github.com/noblegongzi/imgSpider.git

应用展示

主页面
选择存储路径
填写网址选择文件夹后开始下载
成果展示

总结

整体而言，爬虫并不是很难，但是需要处理的细节很多，因为每种元素属性会出现很多种情况，比如URL有//开头，有/开头，也有完整URL，需要分别处理，还要记录已经访问过的URL，防止重复访问。img的src也是如此，而且还有通过base64传输的图片，也需要另外处理。

参考资料

《jsoup使用说明》–作者：jsoup开发人员
《Java爬虫系列三：使用Jsoup解析HTML》–作者：JAVA开发老菜鸟

你可能感兴趣的:(java成长之路,java,爬虫,爬取图片)

C# 上位机开发：从“编程小白”到“工业控制专家”的成长之路威哥说编程单片机 stm32 嵌入式硬件 c#开发语言
在现代工业自动化中，上位机软件是至关重要的一环。上位机通常负责与下位机（如PLC、单片机等）进行通信，进行数据采集、处理、显示和控制。C#作为一种现代化的编程语言，以其易用性和强大的功能被广泛应用于上位机开发。如果你是从“代码小白”起步，想要进入工业控制领域，C#是一个理想的起点。本文将带你从零开始，逐步理解C#在上位机开发中的应用，帮助你从基础到进阶，最终成为一名工业控制的高手。一、认识上位机与
物联网 - JetLinks与ThingsBoard技术选型对比天机️灵韵物联网开源项目物联网
JetLinks与ThingsBoard作为两款主流的开源物联网平台，在技术架构、功能特性及适用场景上存在显著差异。以下从技术选型的关键维度进行深度对比分析：JetLinks与ThingsBoard物联网平台的深度技术对比及选型建议，综合多个维度分析两者的核心差异与适用场景：一、技术架构与性能技术栈JetLinks：基于Java8、SpringBoot2.x、WebFlux、Netty等，采用响应
使用Java实现Oracle表结构转换为PostgreSQL的示例方案(AI) 秉承初心 AI创造 java oracle postgresql
核心代码importjava.sql.*;importjava.util.ArrayList;importjava.util.HashMap;importjava.util.List;importjava.util.Map;publicclassOracleToPGConverter{//类型映射表privatestaticfinalMapTYPE_MAPPING=newHashMapcolumn
Java并发编程之ReentrantReadWriteLock Johnny Lnex Java并发编程 java 开发语言 jvm
基本使用方法创建锁对象首先，通过newReentrantReadWriteLock()创建一个锁实例。获取读锁和写锁使用readLock()方法获得读锁对象，使用writeLock()方法获得写锁对象。使用锁保护共享资源在需要保护的代码块前后分别调用lock()和unlock()方法，确保对共享资源的访问安全。示例代码：importjava.util.concurrent.locks.Reentr
Python逆向爬取Tik Tok，MsToken,X-Bogus以及signature 才华是浅浅的耐心 python javascript 前端
自5月起，抖音正式开放Web接口，并不断升级风控机制。从最初的_signature参数，到增加滑块验证，再到如今的JSVM混淆处理，以及mstoken和x-bougs等参数的引入。分析发现，部分国内接口仅需提供Cookie即可访问，无需额外验签，而获取Cookie的方式多种多样，其中利用OpenCV识别滑块验证码是一种简单可行的方法。相比之下，TikTok的接口无需Cookie，但对签名的校验更加
java中如何根据已有word文件快速生成目录和页码？ bug菌¹ 全栈Bug调优(实战版)java word python 生成目录生成页码文件操作
本文收录于《全栈Bug调优(实战版)》专栏，主要记录项目实战过程中所遇到的Bug或因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！全文目录：问题描述解决方案优化基于Docx4j的TOC生成性能问题及日志警告解决方案**1.性能优化****1.1避免使用FOP渲染获取页码****1.2使用更高效的文档
java 离线语音_Java通过JNA&麦克风调离线语音唤醒不吃芹菜的鸭梨君 java 离线语音
packagecom.day.iFlyInterface.commonUtil.dll.ivw;importjava.io.File;importjava.io.FileInputStream;importjava.io.FileNotFoundException;importjava.io.IOException;importjava.util.Arrays;importjavax.sound.
2023第十四届蓝桥杯Java大学生C组真题？（真题+附链接）大C爱编程蓝桥杯 java 算法
第十四届蓝桥杯大赛软件赛省赛Java大学A组试题A:求和本题总分：5分【问题描述】求1（含）至20230408（含）中每个数的和。【答案提交】这是一道结果填空的题，你只需要算出结果后提交即可。本题的结果为一个整数，在提交答案时只填写这个整数，填写多余的内容将无法得分。试题B:分糖果本题总分：5分【问题描述】两种糖果分别有9个和16个，要全部分给7个小朋友，每个小朋友得到的糖果总数最少为2个最多为5
java-生成二维码，并写入word尾页【基础篇】橙-极纪元JJYCheng java word 开发语言
java-生成二维码，并写入word尾页【基础篇】介绍项目框架：SpringBoot项目管理：Maven推荐文章1：java-生成二维码，二维码增加logo，读取二维码推荐文章2：java-生成二维码，并写入word尾页【基础篇】推荐文章3：java-生成二维码，并写入word尾页【高级篇】推荐文章4：java
【总结篇】java多线程,新建线程有几种写法,以及每种写法的优劣势橙-极纪元JJYCheng java免费文章 java 开发语言 java多线程新建线程有几种写法
java多线程新建线程有几种写法,以及每种写法的优劣势[1/5]java多线程新建线程有几种写法–继承Thread类以及他的优劣势[2/5]java多线程-新建线程有几种写法–实现Runnable接口以及他的优劣势[3/5]java多线程新建线程有几种写法–实现Callable接口结合FutureTask使用以及他的优劣势[4/5]java多线程新建线程有几种写法–利用Executor框架以及他的
Linux篇1-初识Linux 逃跑的机械工 Linux linux
1.Linux能干什么Linux能够进行各种语言的开发工作，基本主要以后端语言为主C++，JAVA,python;Linux能进行各种指令操作，从而完成各种的文件相关的管理工作2.Linux基本指令2.1ls指令在Linux中，以.开头的文件，叫做隐藏文件；ls-a显示隐藏文件隐藏文件：Linux配置文件，可以隐藏起来，防止误操作，起到保护作用；ls-l列出文件的详细信息-d将目录象文件一样显示，
Python获取tiktok视频数据信息 api 爬虫程序媛了了 python 开发语言
Tiktok通过ID爬取视频信息api采集页面如图：https://www.tiktok.com/@basketwithball2.0/video/7273119444522650912?q=irving&t=1706683319923请求APIhttp://api.xxxx.com/tt/video/info?video_id=7273119444522650912&token=test请求参数
Java设计模式之代理模式飞翔中文网 Java java 设计模式
概念和作用代理模式是一种结构型设计模式，它允许为其他对象提供一种代理以控制对这个对象的访问。代理对象在客户端和目标对象之间起到中介作用，可以在目标对象执行某些操作前后添加额外的功能。使用场景1.访问控制：根据用户权限决定是否允许访问目标对象。2.日志记录：在访问目标对象前后记录日志信息。3.性能监控：测量目标对象方法的执行时间。4.延迟加载：按需加载资源，避免过早占用内存。举例静态代理静态代理在编
在Ubuntu上安装MEAN Stack的4个步骤 ubuntu
在Ubuntu上安装MEANStack的4个步骤为：1.安装MEAN；2.安装MongoDB；3.安装NodeJS，Git和NPM；4.安装剩余的依赖项。什么是MEANStack？平均堆栈一直在很大程度上升高为基于稳健的基于JavaScript的开发堆栈。名称的意思是指其组件;MongoDB，ExpressJS，Angularjs和NodeJS。第1步：安装MEAN对于此安装，我们将在本指南中使用
在线视频创作平台（Vidnami） deepdata_cn 视频生成视频剪辑视频创作
Vidnami是一款功能强大的在线视频创作平台，前身为ContentSamurai，于2015年推出，2020年更名为Vidnami。它运用人工智能技术，能够分析输入的文本，自动从大量素材中选取合适的图像和视频片段，将文字快速转化为具有专业外观的视频，无需用户具备视频编辑经验。该平台提供多种视频模板、全主题定制功能以及内置的免版权媒体库，包括3000万张图片和3万首音乐，还支持自动配音，用户可以录
Java面试八股之Redis集群Cluster 天哥不爱学习 Java面试八股文 java 面试 redis
Redis集群ClusterRedisCluster是一种基于数据分片（Sharding）的分布式缓存和存储系统，它实现了数据的水平扩展、高可用性和自动故障转移。以下是对RedisCluster模式详细实现流程的描述：1.初始化与配置部署节点：在不同的服务器上部署多个Redis节点，每个节点既可以作为主节点也可以作为从节点。配置集群模式：为每个节点启用Cluster模式，指定Cluster所需的端
Java24的新特性 jdk24java24
Java语言特性系列Java5的新特性Java6的新特性Java7的新特性Java8的新特性Java9的新特性Java10的新特性Java11的新特性Java12的新特性Java13的新特性Java14的新特性Java15的新特性Java16的新特性Java17的新特性Java18的新特性Java19的新特性Java20的新特性Java21的新特性Java22的新特性Java23的新特性Java2
移动端IOS的H5页面被键盘顶起后，底部有一大片空白区域的解决方法不怕麻烦的鹿丸浏览器 HTML5 JavaScript 前端 html5 javascript
在移动端开发中，当使用HTML5(特别是在Vue.js框架下)构建应用时，经常会遇到键盘弹出导致页面内容被顶起的问题。当键盘收起后，页面未能自动恢复到原来的位置。当键盘弹出时，你可以通过JavaScript监听键盘的显示和隐藏事件，并相应地调整页面的滚动位置。exportdefault{mounted(){window.addEventListener('focusin',this.handleF
java八股之redis面试题 MinusZXX 八股文-redis java redis 开发语言面试
目录1、redis是单线程还是多线程2、Redis为什么那么快3、Redis底层数据是如何用跳表来存储的4、RedisKey过期了为什么内存没释放（附删除策略）5、Redis没设置key的过期时间，为什么被Redis主动删除了（淘汰策略）6、Redis主从、哨兵、集群架构优缺点比较7、Redis集群数据分片8、Redis主从切换导致缓存雪崩9、Redis持久化RDB、AOF和混合持久化AOF4.0
python、JavaScript 、JAVA等实例代码演示教你如何免费获取股票数据（实时数据、历史数据、CDMA、KDJ等指标数据）配有股票数据API接口说明文档详解参数说明蝶澈乐乐 python javascript java 股票数据接口 api 开发语言
近一两年来，股票量化分析逐渐受到广泛关注。而作为这一领域的初学者，首先需要面对的挑战就是如何获取全面且准确的股票数据。因为无论是实时交易数据、历史交易记录、财务数据还是基本面信息，这些数据都是我们进行量化分析时不可或缺的宝贵资源。我们的核心任务是从这些数据中挖掘出有价值的信息，为我们的投资策略提供有力的支持。在寻找数据的过程中，我尝试了多种途径，包括自编网易股票页面爬虫、申万行业数据爬虫，以及同花
Java通过QRCode生成二维码(1) 2401_84006757 程序员 java 开发语言
QRCode码，是由Denso公司于1994年9月研制的一种矩阵二维码符号，它具有一维条码及其它二维条码所具有的信息容量大、可靠性高、可表示汉字及图象多种文字信息、保密防伪性强等优点。先下载QRCode.jar包：https://pan.baidu.com/s/1Pb9XzWKhumgwaYrE90vyWg二、代码实例1、生成二维码//加密：文字信息->二维码publicstaticvoidenc
Opencv计算机视觉编程攻略-第一节图像读取与基本处理 weixin_44242403 深度学习 opencv 计算机视觉
1.图像读取导入依赖项的h文件#include#include#include#include项目Valuecore.hpp基础数据结构和操作（图像存储、矩阵运算、文件I/O）highgui.hpp图像显示、窗口管理、用户交互（图像/视频显示、用户输入处理、结果保存）imgproc.hpp图像处理算法（图像滤波、几何变换、边缘检测、形态学操作）二读取图片Matimage;//图像矩阵std::co
java替换特殊字符,如何替换字符串中的特殊字符？大禹昆仑
那取决于你的意思。如果您只是想摆脱它们，请执行以下操作：(更新：显然您也想保留数字，在这种情况下，请使用第二行)StringalphaOnly=input.replaceAll("[^a-zA-Z]+","");StringalphaAndDigits=input.replaceAll("[^a-zA-Z0-9]+","");或等效的：StringalphaOnly=input.replaceAl
【Flutter】从安卓与iOS包体优化到一键自动打包脚本的一条龙服务 sugood Flutter android flutter ios
系统信息Systemversion:MacOS12Flutterversion:1.22.5Dartversion:2.10.4AndroidStudioversion:4.1.1介绍APK优化包体大小APK多渠道打包APK一键打包脚本IPA优化包体大小IPA无签名打包IPA一键打包脚本脚本地址github脚本地址安卓APK优化包体大小优化图片等资源大小，删除无用资源只选择保留必要的so库。第三方
打造城市二手房分析与可视化系统+聚类分析+58爬虫+线性回归 OverlordDuke 聚类算法数据可视化爬虫线性回归算法
打造城市二手房分析与可视化系统+聚类分析+58爬虫+线性回归利用数据实现全面分析数据分析与可视化功能创新的聚类分析功能结语在如今房地产市场日益复杂的背景下，对于投资者、购房者和市场分析师来说，了解市场动态并做出明智的决策至关重要。基于此，我们开发了一款基于Python的城市二手房分析与可视化系统，为用户提供了强大的工具，帮助他们深入了解当地房地产市场。利用数据实现全面分析我们的系统利用爬取的58同
爬虫基础--request库详解 amo的代码园_毕设 Java基础爬虫 java spring boot vue.js python 开发语言
爬虫基础–request库详解1.requests模块介绍request库中文文档：https://docs.python-requests.org/zh_CN/latest/user/quickstart.htmlrequests是一个非常流行的PythonHTTP第三方库，它允许你发送各种HTTP请求，处理cookies、会话、连接池、重定向、多种认证方式等，使得处理HTTP请求变得非常便捷，
电商API接口防爬虫实战：日均拦截千万级恶意请求的技术揭秘 lovelin+vI7809804594 python 人工智能 java 大数据数据库
在电子商务蓬勃发展的今天，API（应用程序编程接口）接口作为电商平台与外部系统交互的桥梁，承载着商品管理、订单处理、支付结算、用户管理、数据分析等重要功能。然而，这些功能也使电商API接口成为攻击者的目标，面临着来自多个方面的安全挑战。本文将深入探讨电商API接口防爬虫的策略与技术，揭秘日均拦截千万级恶意请求的实践过程。一、电商API接口的重要性与风险1.API接口的定义与作用API接口是一种定义
基于百度翻译的python爬虫示例魂万劫 python 爬虫开发语言百度翻译
(今年java工作真难找啊，有广州java高级岗位招人的好心人麻烦推一下，拜谢。。）花了一周时间，从零基础开始学习了python，学有所获之后，就总想爬些什么，不然感觉不得劲，所以花了一天时间整出了个百度翻译的爬虫示例，主要卡点花在了找token、sign以及调试请求上。代码有点乱，毕竟是demo，但是功能是实现了的。importrequestsimportjs2pyimportrefromurl
python3实现爬取淘宝页面的商品的数据信息（selenium+pyquery+mongodb） flood_d mongodb python selenium pyquery 爬虫
1.环境须知做这个爬取的时候需要安装好python3.6和selenium、pyquery等等一些比较常用的爬取和解析库，还需要安装MongoDB这个分布式数据库。2.直接上代码spider.pyimportrefromconfigimport*importpymongofromseleniumimportwebdriverfromselenium.common.exceptionsimportT
什么是 XSS（跨站脚本攻击）？ Aishenyanying33 web漏洞 owastop10 xss xss漏洞
XSS（Cross-SiteScripting）是黑客通过在网页中注入恶意JavaScript代码，让受害者的浏览器执行这些代码的攻击方式。常见攻击场景XSS攻击通常发生在网站允许用户提交内容的地方，例如：论坛、留言板（黑客发布恶意评论）博客文章（黑客在评论区插入恶意代码）搜索框（黑客让受害者访问特定链接）XSS实战演示1️⃣漏洞场景：不安全的留言板假设一个网站vulnerable.com允许用户
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他