Insomniaaaaaaa

正则表达式基础

原作者:工匠若水

一、概述

正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里，正则表达式通常被用来检索、替换那些符合某个模式的文本。由于正则表达式主要应用对象是文本，因此它在各种文本编辑器场合都有应用，小到著名编辑器EditPlus，大到Microsoft Word、Visual Studio等大型编辑器，都可以使用正则表达式来处理文本内容。（PS：初学者一般都认为正则表达式非常抓狂的！理解，你会发现他的强大！）

给定一个正则表达式和另一个字符串，我们可以达到如下的目的：

给定的字符串是否符合正则表达式的过滤逻辑（称作“匹配”）；
可以通过正则表达式，从字符串中获取我们想要的特定部分。
正则表达式的特点是：

灵活性、逻辑性和功能性非常的强；
可以迅速地用极简单的方式达到字符串的复杂控制。
对于刚接触的人来说，比较晦涩难懂。
开始学习前的装逼工具技能：

1、正则表达式在线验证工具推荐regexpal。

Regexpal是一个基于Javascript的在线正则表达式验证工具，上面的输入框中，是让我们输入正则表达式（匹配规则），下面的输入框则是让我们输入待匹配的数据。此外，根据具体要求，还可以设置忽略大小写、多行匹配等参数。

2、本地安装工具推荐 regexbuddy3

RegexBuddy一款正则表达式编辑工具，帮助你的编写需要的正则表达式，还可以使用它理解别人编写的表达式。

3、学习装逼的工具regexr

不解释，自己Google吧。

总结：

工具使用不多解释，这都是小儿科工具，码农都可以自己搞定的。接下来继续带你装逼带你飞。

二、模式匹配基础

匹配字符串字面值：

原始字符串：”yanbo”
正则表达式：”yanbo”

如上就是最简单最直接的字面匹配字符串，属于最简单的正则表达式。

匹配数字：

正则表达式： “\d” 或者 “[0-9]” 或者 “[0123456789]”
原始字符串：”3”

如上三个正则表达式的匹配效果是一样的，都是匹配指定字串中的一个0-9的数字，只是匹配一个数字。三种写法各有优势，”\d”可以表示任意数字，”[m-n]”可以表示m-n的一位数字，”[abcd]”可以匹配指定的abcd中的一个数字。特别的认为”[0123456789]”匹配的是”0123456789”字符串是错误的想法，特别留意，匹配的是一位！！！还可以如下：

正则表达式：”[015-7]”
可匹配的数字：0,1,5,6,7

匹配非数字字符：

正则表达式：”\D” 或者 “[^0-9]” 或者 “[^\d]”
匹配字串：非数字字符（切记：也是匹配一个字符）。

如上三个正则表达式的匹配效果是一样的，都是匹配一个非数字字符。”[]”中的”^”就是取反，除去”^”后面的内容。

匹配单词和非单词字符：

首先强调一点，匹配的是单词和非单词的字符，不是单词！！！

“\w” 这个简写式将匹配所有单词字符（字母、数字、下划线）。
“\D” 匹配非数字字符，包含空格、标点（引号、连字符、反斜杠、方括弧）等字符。
在英语环境下 “\w” 与 “[_a-z0-9A-Z]” 匹配相同的单词字符。
“\W” 匹配非单词字符（空格、标点及其他非字母、数字字符等）。
在英语环境下 “\W” 与 “[^_a-z0-9A-Z]” 匹配相同的单词字符。

如下提供更多的字符简写式，不过要注意！！！！不是所有的正则表达式处理器可以识别以下简写式。

字符简写式	描述
\a	报警符
[\b]	退格字符
\c x	控制字符
\d	数字符
\D	非数字符
\w	单词字符
\W	非单词字符
\0	空字符
\x xx	字符的十六进制值
\u xxx	字符的Unicode值

匹配空白符与非空白符：

正则表达式：”\s” 或者 “[ \t\n\r]”
匹配结果：空白符（空格、制表符、换行符、回车符）

如上 “[ \t\n\r]” 的 “\t\n\r” 前至少有一个空格，否则无效。

正则表达式：”\S” 或者 “[^\s]” 或者 “[^ \t\n\r]”
匹配结果：非空白符（除空格、制表符、换行符、回车符以外的字符）。

除过 “\s” 匹配的字符之外还有如下一些不太常见的空白符：

字符简写式	描述
\s	空白符
\S	非空白符
\f	换页符
\h	水平空白符
\H	非水平空白符
\n	换行符
\r	回车符
\t	水平制表符
\v	垂直制表符
\V	非垂直制表符

匹配任意符：

“.” 匹配除过行结束符以外的所有字符，个别情况除外。

正则表达式：”\b\w\w\w\b”
匹配字符串：三个字符的单词

如上表达式中”\b”简写式匹配单词边界，不消耗任何字符，一般两个边界都写。如下例子是”.”的特例。

正则表达式： "a.c\."
匹配字符串：axc.

如上匹配的是axc. 其中x可以是任意字符，而最后 . 就是转义字符而不是 . 。

实战装逼展示：

学习了一些入门级的正则表达式以后我们就来装装逼，装逼也要装的有逼格，所以如上第一章的工具就太简单了，我们用Linux的sed流编辑器来装逼。（PS：不了解Linux的sed流编辑器的请自己google或者度娘）。

这里演示一个将字符串”This is YanBo’s Blog!”以Html二级标题输出的例子。

sed编辑器命令：

echo "This is YanBo's Blog!" | sed 's/^/<h2>/;s/$/<\/h2>/p;q'

如上命令在linux终端执行之后如下：

echo打印”This is YanBo’s Blog!”到屏幕，然后通过”|”管道将输出作为sed的输入。
sed默认操作是直接复制每行输入并输出。
s/^/<h2>/在行的开头(^)添加HTML的二级标题<h2>标签。
分号(;)用于分割命令。
s/$/<\/h2>/用于在结尾($)添加HTML二级标题</h2>标签。
命令p打印受影响的一行。
命令q结束sed程序。

总结：

这一部分我们学习正则表达式的基础匹配，算是入门技能。接下来继续带你装逼带你飞。

三、正则表达式—边界

热身准备：

不多BB，边界这部分算是正则表达式的核心之一。断言（零宽度断言）这一词足矣。

断言（零宽度断言）标记边界，并不耗费字符，不匹配字符，匹配字符串中的位置。

字符串或者行起始与结束：

“^” 匹配行或者字符串的起始位置，或者整个文档的起始位置。
“$” 匹配行或者字符串结尾位置。

例子：
正则表达式： “^word$”
匹配字符串： word（仅有该单词的字符串，w开头，d结束）。

单词编辑与非单词边界：

“\bxxx\b” 匹配单词边界。

“\b” 是一个零宽度断言，表面上它会匹配空格或者行起始，实际上它匹配的是一个零宽度不存在的东西。

“\B” 是一个匹配非单词边界，匹配除单词之外的位置。

例子：
正则表达式： “\Ba\B”
匹配字符串： “fhrrhahhr”(类似这样的a两边不是单词边界的字符，这里匹配字符a)。

其他锚位符：

“\A” 与”^”相似，该锚位符匹配主题词的开始。这个写法不是在所有的正则表达式程序中都可以使用的，但是可以在Perl和PCRE中使用，要匹配主题词的结尾用”\Z”, 某些上下文中还可以用”\z”。

例子：
正则表达式：”\Aaaaa\Z”
匹配字串：”aaaa” (仅仅aaaa开头结尾的字符串，也即主题词开始结束)

使用元字符的字面值：

可以用”\Q”和”\E”之间的字符集匹配字符串字面值。”.^$*+?|(){}[]-“这15个元字符在正则表达式中有特殊含义，用来编写匹配模式。其中的连字符”-“在正则表达式的方括号中用来表示范围，其他情况下无特殊含义。你在正则表达式中直接输入这些字符不会显示，如果想显示这些字符本身你就需要把他放在”\Q”和”\E”之间，当然，也可以在其前面加”\”即可。

例子：
正则表达式： "\Q$\E" 或者 "\$"
匹配字符： $字符本身

实战装逼一把：

继续像上一节一样装逼，继续添加标签，继续使用linux的sed命令BB。sed中的命令(i)允许你在文件或者字符串中的某个位子之前插入文本，与(i)相反的命令是(a)，他是在某个位置之后添加文本。关于sed（或者grep或者vi与vim）的实战正则表达式例子这里不给出，自行google尝试，这里重在讲解正则表达式。

总结：

学习了边界与断言（零宽度断言）。没啥总结的，开始正则表达式的精华，继续BB。

四、选择、分组和后向引用

选择操作：

选择操作可以在多个可选模式中匹配一个。譬如你想在”The android developer need fix bug on the Bug System.”中找出”the”（the, The, THE）出现过多少次，这时候就使用选择模式。

正则表达式：”(the|The|THe|THE|tHE|thE|ThE|tHe)” 或者 “(?i)the”
原始字符串：”The android developer need fix bug on the Bug System.”
匹配结果： The，the

如上正则表达式匹配所有大小写的the。

以下是其他各种选项和修饰符(注意：如下选项不实用所有正则表达式的平台)：

选项	描述	支持平台
(?d)	unix中的行	java
(?i)	不区分大小写	PCRE、Perl、Java
(?J)	允许重复的名字	PCRE
(?m)	多行	PCRE、Perl、Java
(?s)	单行(dotall)	PCRE、Perl、Java
(?u)	Unicode	java
(?U)	默认最短匹配	PCRE
(?x)	忽略空格和注释	PCRE、Perl、Java
(?-…)	复原或者关闭选项	PCRE

子模式：

子模式是正则表达式分组中的一个或者多个分组，就是模式中的模式。多数情况，子模式中的条件能得到匹配的前提是前面的模式得到匹配，但是也有例外（譬如”(the|THE|The)”匹配THE不依赖于the，因为the会先去匹配，这个例子有三个子模式，分别是the、THE、The），子摸式写法很多种，这里只关注括弧中的子模式。

例子（子模式匹配依赖于前面的模式）：

正则表达式：(t|T)h(e|E)
匹配：the、The、thE、ThE

上面例子中第二个子模式”(e|E)”依赖于第一个子模式”(t|T)”。

特别的，括弧对于子模式不是必须的！！！！！如下：

正则表达式：”\b[tT]h[eE]”
匹配：the、The、thE、ThE

以上”[tT]”字符组可以看作第一个子模式，同理第二个。

捕获分组和后向引用：

当一个模式的全部或者部分内容由一对括号分组时，他就对内容进行捕获并临时存储于内存中，可以通过后向引用重用捕获的内容，形式如下：

“\1” 、”\2” 或者 “1”、”2”，捕获的n个分组。

在sed命令中只接受”\1”这种分组。

例子（使用linux的sed命令模拟后向引用）：

echo "YanBo is an Android Developer!" | sed -En 's/(YanBo is) (an Android Developer)/\2 \1/p'

输出：an Android Developer YanBo is!
解释：
-E 是sed调运ERE（扩展正则表达式），因此，括号可以当作字面值来使用。
-n 覆盖打印每一行的默认设置。
捕获分组1,2进行替换。

命名分组：

命名分组就是有名字的分组。由此可以通过名字引用分组而不是数字。

命名分组语法：

语法	描述
(?…)	命名分组
(?name…)	另一种命名分组方式
(?P…)	Python中的命名分组
\k	在Perl中引用分组名
\k’name’	在Perl中引用分组名
\g{name}	在Perl中引用分组名
\k{name}	在.NET中引用分组名
(?P=name)	在Python中引用分组名

非捕获分组：**

非捕获分组不会将其内容存储在内存中。在你并不想引用分组时可以使用它。由于不存储分组，所以非捕获分组性能较高。

例子：

捕获分组的写法：”(the|THE|The)”
不需要任何后向引用可以写为：”(?:the|The|THE)”
不区分大小写：”(?i)(?:the)” 或者 “(?:(?i)the)” 或者（推荐）”(?i:the)”

原子分组：

还有一种非捕获分组时原子分组。如果你用正则表达式引擎进行回朔操作，这种分组可以关闭回朔操作，但是他只争对原子分组部分，而不是整个表达式。语法如下：

“(?>the)”

正则表达式慢的一个原因就是回朔操作。

总结：

没啥总结的，继续装逼继续飞，下面的逼格更高更嗨！！！

六、正则表达式—量词

贪心、懒惰、占有：

量词本来是贪心的。贪心量词首先会匹配整个字串，然后一个一个回退（回朔），直到找到匹配的为止。所以他最消耗资源。

懒惰的量词使用另一种策略，他从目标的起始位置开始寻找匹配，每次检查一个字符，最后尝试匹配整个字符串。想要量词变为懒惰的，必须在普通量词后添加一个问号(？)。

占有量词会覆盖整个目标然后尝试寻找匹配内容，但是只尝试一次，不会回朔。占有量词是在普通量词之后添加一个加号(+)。

**正则表达式`*、+、?`进行匹配：**

如下基本量词默认都是贪心的。

语法	描述
?	零个或者一个
+	一个或者多个
*	零个或者多个

例如：
正则表达式：”9+”
匹配：一个或者多个9

匹配特定次数：

如下花括弧量词是匹配最精确的量词，默认也是贪心的。

语法	描述
{n}	精确匹配n次
{n,}	匹配n或者更多次
{m,n}	匹配m-n次
{0,1}	与？相同，零次或一次
{1,0}	与+相同，一次或更多
{0,}	与*相同，零次或者更多

懒惰量词：

这个懒惰量词直接实战来说：

正则表达式：”8?”
匹配：一个或者0个8

正则表达式：”8?？” (懒惰)
匹配：一个8都没匹配，因为懒惰，尽可能少。

正则表达式：”8*？” (懒惰)
匹配：一个8都没匹配，因为懒惰，尽可能少。

正则表达式：”8+？” (懒惰)
匹配：匹配了一个8。

正则表达式：”8{3,8}？” (懒惰)
匹配：匹配了三个8。

懒惰量词表：

语法	描述
??	懒惰匹配0-1次
+?	懒惰匹配1-多次
*?	懒惰匹配0-多次
{n}?	懒惰匹配多次
{n,}?	懒惰匹配n-多次
{m,n}?	懒惰匹配m-n次

占有量词：

占有量词表：

语法	描述
?+	占有匹配0-1次
++	占有匹配1-多次
*+	占有匹配0-多次
{n}+	占有匹配多次
{n,}+	占有匹配n-多次
{m,n}+	占有匹配m-n次

例子：

正则表达式：”1.*+”
匹配：所有的1全被高亮。

正则表达式：”.*+1”
匹配：没有匹配，因为没有回朔。

正则表达式：”.*1”
匹配：匹配末尾为1的字串，贪心模式。

总结：

这里介绍的量词算是正则表达式效率方面的精华所在，没啥解释的，继续装逼继续飞。

七、正则表达式—环视

环视是非捕获分组，也称作零宽断言。

正前瞻：

例子：

正则表达式：”(?i)aaa (?=bbb)”
原始串：”aaa ccc bbb aaa bbb ccc aaa”
匹配：只匹配第二处”aaa”。

以上就是匹配aaa，同时要求aaa单词之后紧随的是bbb。使用了正前瞻达到目的。

反前瞻：

反前瞻是正前瞻的取反操作。

例子：

正则表达式：”(?i)aaa (?!bbb)”
原始串：”aaa ccc bbb aaa bbb ccc”
匹配：只匹配第一处”aaa”。

以上就是匹配aaa，同时要求aaa单词之后紧随的不能是bbb。使用了反前瞻达到目的。

正后顾：

正后顾与正前瞻方向相反。

例子：

正则表达式：”(?<=aaa) bbb”
原始串：”aaa ccc bbb aaa bbb ccc aaa ”
匹配：只匹配第二处”bbb”。

反后顾：

反后顾与反前瞻方向相反。

例子：

正则表达式：”(?

总结：

这块更加不需要BB总结，就是例子理解，照猫画虎就行。

大结局

整个正则表达式基础到这就差不多够用了。总结学习方法就是大胆实践，多乱想然后编辑器验证就行了。

Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
JavaScript `Map` 和 `WeakMap`详细解释跳房子的前端 JavaScript 原生方法 javascript 前端开发语言
在JavaScript中，Map和WeakMap都是用于存储键值对的数据结构，但它们有一些关键的不同之处。MapMap是一种可以存储任意类型的键值对的集合。它保持了键值对的插入顺序，并且可以通过键快速查找对应的值。Map提供了一些非常有用的方法和属性来操作这些数据对：set(key,value):将一个键值对添加到Map中。如果键已经存在，则更新其对应的值。get(key):获取指定键的值。如果键
切换淘宝最新npm镜像源是 hai40587 npm 前端 node.js
切换淘宝最新npm镜像源是一个相对简单的过程，但首先需要明确当前淘宝npm镜像源的状态和最新的镜像地址。由于网络环境和服务更新，镜像源的具体地址可能会发生变化，因此，我将基于当前可获取的信息，提供一个通用的切换步骤，并附上最新的镜像地址（截至回答时）。一、了解npm镜像源npm（NodePackageManager）是JavaScript的包管理器，用于安装、更新和管理项目依赖。由于npm官方仓库
【Java】已解决：java.util.concurrent.CompletionException 屿小夏 java 开发语言
文章目录一、分析问题背景出现问题的场景代码片段二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决：java.util.concurrent.CompletionException一、分析问题背景在Java并发编程中，java.util.concurrent.CompletionException是一种常见的运行时异常，通常在使用CompletableFuture进行异步计算时出现
设计模式之建造者模式(通俗易懂--代码辅助理解【Java版】） ok!ko 设计模式设计模式建造者模式 java
文章目录设计模式概述1、建造者模式2、建造者模式使用场景3、优点4、缺点5、主要角色6、代码示例：1）实现要求2）UML图3)实现步骤：1）创建一个表示食物条目和食物包装的接口2）创建实现Packing接口的实体类3）创建实现Item接口的抽象类，该类提供了默认的功能4）创建扩展了Burger和ColdDrink的实体类5）创建一个Meal类，带有上面定义的Item对象6）创建一个MealBuil
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR