Jurbo

编译原理（3）：词法分析

本文内容：介绍正则定义，正则表达式，有穷自动机（确定的有穷自动机 DFA，不确定的有穷自动机 NFA）， NFA 转换为等价的 DFA，DFA 的化简，识别单词的 DFA ，典型例题及详细解答。

在前面我们说过，程序设计语言中的大多数单词都可以用正则文法来描述，在这一章中我们将介绍描述正则语言的更紧凑的方法——正则表达式。

正则表达式

语言是一个集合，因此我们可以在语言上进行多种集合运算。比如说并运算，乘积运算（即连接运算），闭包运算等等。

接下来我们看一个语言的例子，如下图所示：

这个语言的字首是字母 a，接下来连接一个任意长度的 a,b 串，再接下来连接一个空串。连接一个空串就代表句子已经结束了。除此之外，我们还可以连接一个点号（.）或者下划线（_）或者一个长度大于等于1 的 a,b串。

这个式子写起来比较复杂，因此我们要介绍正则表达式。

正则表达式（Regular Expression，RE）是一种用来描述正则语言的更紧凑的表达方式。

例如上面的语言可以用正则表达式来表示，如下图所示。

这个正则表达式表示，句子的第一个符号是字母 a ，接下来连接一个任意长度的 a,b串，再接下来连接一个空串。连接一个空串就代表句子已经结束了。除此之外，我们还可以连接一个点号（.）或者下划线（_）或者一个长度大于等于1 的 a,b 串。

从这个例子中，我们可以看出，正则表达式可以用较小的正则表达式根据特定规则来构建。

每个正则表达式 r 定义（表示）一个语言，记为 L（r）。这个语言也是根据 r 的子表达式所表示的语言递归定义的。

正则表达式的定义

空串是一个正则表达式，那么它所表达的语言也只包括空串。
字母表上的任何一个符号都是一个正则表达式，那么它所表示的语言只包含它本身。
假设 r 和 s 都是正则表达式，它们表示的语言分别是 L（r）和 L（s），则
- r|s （r 或 s）也是一个正则表达式，它们表示的语言是 L（r|s）=L（r）∪ L（s）
- rs（r 和 s 的连接）也是一个正则表达式，它们表示的语言是 L（rs）=L（r）L（s）
- r* （r 的克林闭包）也是一个正则表达式，它们表示的语言是 L（r*）=（L（r）） *
- （r）也是一个正则表达式，它表示的语言是 L（（r））=L（r）

例子

例1：假设符号表中有 a,b。则 a 是一个正则表达式，b 也是一个正则表达式。可以推导出以下的正则表达式：

a|b（a或b）也是一个正则表达式（直接通过正则表达式的定义得到）
（a|b）( a|b )（a或b 连接上 a或b）也是一个正则表达式。它表示这个串由两个符号构成，第一个符号是 a 或者 b，第二个符号也是 a 或者 b。（因为L（r）可以由 r 的子表达式所表示的语言递归构建而成，所以结合正则表达式的定义也成立）
a*（a的克林闭包）也是一个正则表达式（直接通过正则表达式的定义得到）a 的克林闭包表示将任意个 a 连接起来。
（a|b）* （a 或 b 的克林闭包，表示任意长度的 a,b 串）也是一个正则表达式。（递归定义正则表达式）
（a|a*b）（a或 a的克林闭包b，表示 a 或者若干个 a 后面连接一个 b）

例2：描述 C 语言中无符号整数的正则表达式

十进制整数的正则表达式：第一个符号是1~9中的一个数字，接下来连接若干个 0~9 的数字，或者连接符号 0。
八进制整数的正则表达式：第一个符号是数字0，第二个符号是1~7中的一个数字，接下来连接若干个 0~7 中的数字。
十六进制整数的正则表达式：第一个符号是0，第二个符号是 x，第三个符号是1~f中的符号，接下来连接若干个0~f 中的符号。

正则语言

可以用正则表达式定义的语言叫做正则语言或正则集合。

正则表达式的代数定律

正则表达式也遵循一些代数定律，如下图所示：

正则文法与正则表达式等价

对于任何一个正则文法 G，存在定义同一语言的正则表达式 r。

对任何正则表达式 r，存在生成同一语言的正则文法 G。

正则定义

为了方便起见，我们可以给某些正则表达式命名，像使用字母表中的符号一样，使用这些名字来构造正则表达式。（这就是正则定义提出的定义和基本思想）

例题

例1：C语言中标识符的正则定义。

第一个正则表达式，表示0~9中的某个数字，我们给它取一个名字，digit

第二个正则表示式，表示一个字母（小写字母或大写字母）和一个下划线。我们给它取一个名字，letter_

接下来我们用起好的这两个名字，来构造第三个正则表达式。

第三个正则表示式，首先是一个 letter_，接下来连接一个 letter _ 或 digit 构成的字符串。这个表达式表示的是字母打头的字符数字串。（正是标识符的定义）

例2：（整型或浮点数）无符号数的正则定义

digit，还是表示一个数字

digits，digit 连接上一个 digit 的克林闭包，表示的是一个长度>=1 的数字串。

optionalFraction，点号（.）后面连接一个 digits 或这个表达式是一个空串。（这个符号表示的是一个小数部分，或一个空串）代表可选的小数部分。

optionalExponent，大写字母 E 后面连接一个 + （正号）或一个 -（负号）或直接连接一个长度大于等于1 的数字串（digits），或者这个表达式为空串。可选的指数部分。

number，长度大于等于1 的数字串，连接一个可选的小数部分，连接一个可选的指数部分。

当可选的小数部分为空串时，这个表达式为一个整数的若干次幂，如 2E-3
若可选的指数部分为空串时，这个正则表达式为小数。比如说 2.15
若可选的小数部分和可选的指数部分都为空串时，这个正则表达式为整数。比如说 2
若可选的小数部分和可选的指数部分都不为空串时，这个正则表达式为指数形式的浮点数。比如说 2.15E+3, 2.15E-3。
- 当指数为正号时，指数是可以省略的，如 2.15E3

有穷自动机 FA

有穷自动机（Finite Automata，FA）由两位神经物理学家Meculoch 和 Pitts 于 1948年提出，是对一类处理系统建立的数学模型。

这类系统具有一系列离散的输入输出信息和有穷数目的内部状态。

系统只需要根据当前所处的状态和当前面临的输入信息，就可以决定系统的后继行为。每当系统处理了当前的输入后，系统的内部状态也将发生改变。

FA 的典型例子

电梯控制装置

输入：顾客的乘梯需求（所要到达的层号）
状态：电梯所处的层数+运动方向
电梯控制装置并不需要记住先前全部的服务要求，只需要知道电梯当前所处的状态以及还没有满足的所有服务请求。

FA 模型

输入带：用来存放输入符号串

读头：从左向右逐个读取输入符号，不能修改（只读），不能往返移动

有穷控制器：具有有穷个状态数，根据当前的状态和当前输入符号控制转入下一状态。

FA 的表示：转换图

有穷自动机可以用转换图来表示。

转换图

结点：FA 的状态

初始状态（开始状态）：只有一个，由 start 箭头指向
终止状态：可以由多个，用双圈表示（下例中的 3）

带标记的有向边：如果对于输入 a ，存在一个从状态 p 到状态 q 的转换，就在 p、q 之间画一条有向边，并标记上 a。

在这个图中，一共有4个状态，分别为状态0，状态1，状态2，状态3。状态0为初始状态，状态3为终止状态。

FA定义（接受）的语言

给定输入串 x，如果存在一个对应于串 x 的从初始状态到某个终止状态的转换序列，则称 串 x 被该 FA 接受。

由一个有穷自动机 M 接受的所有串构成的集合称为是该 FA定义（或接收）的语言，记为 L（M）。

对于 abbaabb来说，我们可以判断是否为这个 FA 所接受。

接受第一个 a后，由初始状态0转换到状态 0，再遇到两个 b 后，依然保持状态 0，遇到下个 a 时，还保持状态 0，再遇到一个 a 时，转换到状态1，接下来两个 b，分别转换到状态2，和最终状态3。

最长子串匹配原则

当输入串的多个前缀与一个或多个模式匹配时，我们总是选择最长的前缀进行匹配。

对于上图来说，当遇到 < 号时，转换到状态1，当遇到 < = 号时，转换到状态2。

即：在到达某个终态之后，只要输入带上还有符号，DFA 就继续前进，以便找到尽可能长的匹配。

有穷自动机的分类

确定的有穷自动机（DFA）
不确定的有穷自动机（NFA）

确定的有穷自动机 DFA

例子

在这个有穷自动机DFA 中，

状态集S 包含 4个状态。分别是：状态0，状态1，状态2，状态3。

输入字母表Σ 中包含的元素是符号a，符号b。

转换函数 δ ，我们用一个转换表来表示。例：状态0 遇到符号 a 时，变成状态1，状态0 遇到符号 b 时，依旧是状态 0。以此类推，完成转换表。

DFA 的算法实现

输入：以文件结束符 eof 结尾的字符串 x，DFA 的开始状态为 s0，接受状态集 F，转换函数 move
输出：如果 D 接受 x，则回答“yes”，否则回答“no”
方法：将下述算法应用于输入串 x

s=s0;
c=nextChar();    //返回输入串x的下一个符号
while(c!=eof)
{
    s=move(s,c); //从状态s出发，沿着标记为c的边所能到达的状态
    c=nextChar();
}
if(s在F中)
    return "yes";
else
    return "no";

非确定的有穷自动机 NFA

非确定有穷自动机NFA 和确定的有穷自动机DFA 唯一的区别是：从状态 s 出发，能到达的状态可能有多个。（并不是唯一确定的）

因此，转换函数为集合，而不是元素。

例子

在这个例子中，在初始状态0，遇到符号 a 的时候，它进入的状态包含状态0和状态1 ，两个元素。在状态0 时，遇到符号 b 时，它进入的状态只有状态 0，因此集合中只有状态 0 一个元素。

如果转换函数 没有给出对应于状态-输入对的信息，就把空集放入到相应的表项中。

带有 ε边的 NFA

在状态 a，不需要遇到任何符号，即可进入状态 b，在状态 b，不需要任何符号，即可进入状态 c。

一旦进入状态 b，就不再接受符号 0，同理，一旦进入状态 c，就不在接受符号 1。

这个带有空边的NFA 接受的语言是由若干个 0 连接若干个 1 再连接上若干个 2。（r=0 * 1 * 2*）

带有 ε边和不带有 ε边的 NFA的等价性

不带空边的状态 A：由若干个0构成
不带空边的状态 B：由若干个0 连接若干个 1 构成
不带空边的状态 C：由若干个0 连接若干个 1 连接若干个 2 构成

但是状态A,B,C 都可以概括为若干个 0 连接若干个 1 再连接上若干个 2 构成。

DFA 和 NFA 的等价性

对任何非确定的有穷自动机 N，存在定义同一语言的确定的有穷自动机 D。

对任何确定的有穷自动机 D，存在定义同一语言的非确定的有穷自动机 N。

DFA 和 NFA 可以识别相同的语言

这两个 DFA 和 NFA 都识别的是以 abb结尾的 a,b 串。

从正则表达式到有穷自动机

正则表达式是采用符号序列的模式，它可以很直观的描述单词的构成。但在构造分析器时，我们真正实现和模拟的是 DFA。因此这涉及到从正则表达式到有穷自动机的转换。

我们知道，从正则表达式到 DFA 的转换是比较困难的。所以我们通常是 将正则表达式转换成 NFA ，再将 NFA 转换成 DFA。

根据 RE 构造 NFA

不停的分解子表达式，即可求得最终的 NFA。

例子

r=（a|b）*abb 对应的 NFA

我们首先将（a|b)* abb 分解成 4 个子表达式连接的形式。再将（a|b）* 继续进行分解，最终得到最后结果。

从 NFA 到 DFA 的转换

从 NFA 转换到 DFA 时，我们要构造新的状态。

比如说，在初始状态 a ，遇到符号 a 时，可能继续保持状态 a，也有可能转换到状态 b。因此构造新的状态 a,b。

DFA 的每个状态都是由 NFA 中的状态构成的集合，即 NFA 状态集合的一个子集。

从带有 ε 边的 NFA 到 DFA 的转换

因为状态 A 不需要任何输入，即可转换成状态 B，状态 C。所有在遇到输入 0时，它既可以是状态 A，也可以是状态 B，状态 C。后面同理，即可得状态表。

子集构造法

计算 ε-closure 空闭包函数

识别单词的 DFA

识别标识符的 DFA

第一部分识别字母和下划线，第二部分识别字母和下换线和数字组成的串。

因为这个 NFA 就是 DFA，因此不需要进行转换。

识别无符号数的 DFA

第一部分是长度大于等于1的数字串，第二部分是可选的小数部分（两个子表达式进行或运算得到的），第三部分是可选的指数部分（两个子表达式进行或运算得到的）。

再将 NFA 转换成 DFA，如下图所示。

识别各进制无符号整数的 DFA

识别注释的 DFA

识别 token 的 DFA

词法分析阶段的错误处理

词法分析阶段可检测错误的类型
- 单词拼写错误，例：int i=0x3G,float j=1.05e
- 非法字符，例：~@
词法错误检测
- 如果当前状态与当前输入符号在转换表对应项中的信息为空，而当前状态又不是终止状态，则调用错误处理程序。

错误处理

查找已扫描字符串中最后一个对应于某终态的字符

如果找到了，将该字符与其前面的字符识别成一个单词。然后将输入指针退回到该字符，扫描器重新回到初始状态，继续识别下一个单词
如果没找到，则确定出错，采用错误恢复策略。

错误恢复策略

最简单的错误恢复策略：“恐慌模式”恢复

从剩余的输入中不断删除字符，直到词法分析器能够在剩余输入的开头发现一个正确的字符为止。

典型例题及详细解答

答案：D。词法分析器的输出结果是单词的种别编码和自身值

答案：D。词法分析器不能发现括号不匹配。

答案：B，不存在这样一些语言，它们能被确定的有穷自动机识别，但不能用正则表达式表示。

答案：A，词法分析器的输入是符号串。

答案：C，两个有穷自动机等价是指它们的所识别的语言相等。

答案：C，词法分析器用于识别单词。

答案：C，正则表达式和等价是指代表同一正则集。

答案：D。A->A1|A10|0。可看出来是C。第一个数字是0，第二个数字是 0或 10 组成的任意长度的符号串，第三个数字是1。

答案：C。交换律。

答案：D，aabb。根据输入走自动机，发现不能到终态，即不能识别。

答案：C，有限状态自动机能识别正规语言。

答案：B，多个初始状态的集合不是DFA的成分。

答案：D。含偶数个0的二进制数，才能转换到最终状态。

答案：C，定义。

答案：B。可以进行恒等变换。

答案：D。定义。

答案：D。两个DFA等价是指这两个DFA接受的语言相同。

答案：D。可以进行恒等变换。

答案：C，词法分析器的加工对象是源程序

答案：C，如果一个正规式所代表的集合是无穷的，则它必含有的运算是闭包运算“* ”

答案：C，恒等变换。

答案：B。

答案：A。

[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
python实现规则引擎_规则引擎python weixin_39601511 python实现规则引擎
广告关闭回望2020，你在技术之路上，有什么收获和成长么？对于未来，你有什么期待么？云+社区年度征文，各种定制好礼等你！我正在用python编写日志收集分析应用程序，我需要编写一个“规则引擎”来匹配和处理日志消息。它需要具有以下特点：正则表达式匹配消息本身消息严重性优先级的算术比较布尔运算符我设想一个例子规则可能是这样的：(message~program:messageandseverity>=h
Regular Expression 正则表达式 Aimyon_36 Data Development 正则表达式 redis 数据库
RegularExpression前言1.基本匹配2.元字符2.1点运算符.2.2字符集2.2.1否定字符集2.3重复次数2.3.1*号2.3.2+号2.3.3?号2.4{}号2.5(...)特征标群2.6|或运算符2.7转码特殊字符2.8锚点2.8.1^号2.8.2$号3.简写字符集4.零宽度断言（前后预查）4.1?=...正先行断言4.2?!...负先行断言4.3?Thefatcatsaton
Nginx从入门到实践(三) 听你讲故事啊
动静分离动静分离是将网站静态资源（JavaScript，CSS，img等文件）与后台应用分开部署，提高用户访问静态代码的速度，降低对后台应用访问。动静分离的一种做法是将静态资源部署在nginx上，后台项目部署到应用服务器上，根据一定规则静态资源的请求全部请求nginx服务器，达到动静分离的目标。rewrite规则Rewrite规则常见正则表达式Rewrite主要的功能就是实现URL的重写，Ngin
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是一种自动化获取网站数据的技术，它可以模拟人类浏览器的行为，访问网页并提取所需的信息。以下是爬虫技术抓取网站数据的一般步骤：发起HTTP请求：爬虫首先会发送HTTP请求到目标网站，获取网页的内容。解析HTML：获取到网页内容后，爬虫会使用HTML解析器解析HTML代码，提取出需要的数据。数据提取：通过使用XPath、CSS选择器或正则表达式等工具，爬虫可以从HTML中提取出所需的数据，如文
【编译原理】方舟编译技术课程 — 词法分析 CSU_THU_SUT 编译原理编译器编译原理 llvm
打开目录阅读更佳参考视频：方舟·编译技术入门与实战以及西交冯博琴老师的相关视频编译的过程包括词法分析（分析程序符号）、语法分析（分析语法单位）、中间代码生成、代码优化和目标代码生成。一、编译过程各部分的任务（1）词法分析：输入源程序，扫描分解源程序字符串，识别五类符号，包括定义符、标识符、运算符、界符和常数，转为单词符号。（2）语法分析：在词法分析基础上，将单词符号转为语法单位（如短句、子句、句子
互联网 Java 工程师面试题（Java 面试题四）苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
下面列出这份Java面试问题列表包含的主题多线程，并发及线程基础数据类型转换的基本原则垃圾回收（GC）Java集合框架数组字符串GOF设计模式SOLID抽象类与接口Java基础，如equals和hashcode泛型与枚举JavaIO与NIO常用网络协议Java中的数据结构和算法正则表达式JVM底层Java最佳实JDBCDate,Time与CalendarJava处理XMLJUnit编程现在是时候给
【无标题】正则表达式笔记 qis_qis 正则表达式笔记
作用查找特殊规则的字符串编写一个正则表达式，用来查找所有以0开头，后面跟着2-3个数字，然后是一个连字号“-”，最后是7或8位数字的字符串(像010-12345678或0376-7654321)。0\d{2,3}-\d{7,8}基本匹配区分大小写cat会匹配"cat"CAt会匹配"CAt"元字符元字符是正则表达式的基本组成元素。元字符在这里跟它通常表达的意思不一样，而是以某种特殊的含义去解释。有些
python学习第七节：正则表达式一只会敲代码的小灰灰 python学习 python 学习正则表达式
python学习第七节：正则表达式正则表达式基本上在所有开发语言中都会使用到，在python中尤为重要。当我们使用python开发爬虫程序将目标网页扒下来之后我们要从网页中解析出我们想要的信息，这个时候就需要正则表达式去进行匹配。importrere的常量re模块中有9个常量，常量的值都是int类型！（知道就行）修饰符描述re.l使匹配对大小写不敏感re.L做本地化识别(locale-aware)
Linux三剑客之grep命令详解 promise524 Linux linux 服务器 python shell bash 后端运维
grep是Linux中最常用的文本搜索工具，用于在文件或文本输出中查找与指定模式匹配的行。它支持基本正则表达式、扩展正则表达式、多文件搜索、递归搜索等多种功能，非常适合过滤、搜索和提取文本内容。1.grep的基本语法grep[选项]模式[文件...]模式：搜索的文本模式，可以是普通字符串或正则表达式。[文件...]：要搜索的文件。如果没有指定文件，grep会从标准输入中读取数据。2.常用选项-i：
Linux三剑客与管道使用许琳珊
一、管道1、什么是管道linux提供管道符“|”将两个命令隔开，管道符左边命令的输出就会作为管道符右边命令的输入2、例子echo"hello123"|grep"hello"二、正则1、什么是正则正则表达式就是记录文本规则的代码2、正则的用法常用元字符代码说明.匹配除换行符以外的任意字符\w匹配字母或数字或下划线或汉字\s匹配任意的空白符\d匹配数字\b匹配单词的开始或结束^匹配字符串的开始$匹配字
Java 正则表达式详解艾伦~耶格尔 Java初级 java 正则表达式开发语言学习
正则表达式(RegularExpression，简称regex)是一种强大的文本处理工具，可以用来匹配、搜索和替换文本中的特定模式。在Java中，正则表达式由java.util.regex包提供支持。1.理解正则表达式语法正则表达式使用特殊的字符和符号来定义匹配模式。一些常用的元字符如下：.:匹配任意单个字符*:匹配前面的字符零次或多次+:匹配前面的字符一次或多次?:匹配前面的字符零次或一次[]:
Linux三剑客-sed krb___ linux 运维服务器
前言：sed是StreamEditor（字符流）的缩写，简称流编辑器。sed是操作、过滤和转换问吧内容的强大工具。sed是一次读取一行数据常用功能包括结合正则表达式对文件实现快速增删改查，其中查询的功能中最常用的两大功能是过滤（过滤指定字符串），取行（取出指定行）sed命令语法：sed[选项][sed内置命令字符][输入文件]选项参数解释-n取消默认sed的输出，常与sed内置命令p一起使用-i直
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
Java中的数组和字符串 RenX000 Java SE java
文章目录数组一维数组创立默认值转型多维数组可变长参数基本格式应用字符串String类StringBuilder类裁剪正则表达式检测数组数组类型本身也是类，即使是基本类型的数组也是以对象形式存在的，并不是基本数据类型一维数组int[]array=newint[10];//创建数组时需要指定长度创立类型[]变量名称=new类型[数组大小];类型变量名称[]=new类型[数组大小];//支持C语言样式，
你若不殇，岁月无恙乔斤
尺有所长，寸有所短，高有高的长处，低有低的优势。富有富的苦恼，穷有穷的开心。何必盯着他人风光，抱着嫉妒独自惆怅。只要尽本分，做好自己就好。合适的鞋，只有脚知道；合适的人，只有心知道。走千条路，只一条适合；遇万般人，得一人足够。
Linux如何使用sed命令进行文本替换 yang295242361 linux 运维服务器
在Linux中，sed（StreamEditor）是一个用于处理文本流的命令行工具，它非常适合用于执行基本的文本转换。sed可以读取输入的文本文件，根据指定的指令对文本进行处理，并将结果输出到标准输出设备。以下是如何使用sed命令进行文本替换的详细说明：1.基本语法sed命令的基本语法如下：sed's/regexp/replacement/flags'fileregexp：正则表达式，用于匹配要替
包含所有的计算机视频教程 rart2008 程序人生 windows 移动开发企业应用网络分布式应用 asp.net
计算机视频教程http://www.study66.cn/soft/show.asp?id=1237北京师范大-多媒体视频http://www.study66.cn/soft/show.asp?id=1240北京理工大学编译原理串讲http://www.study66.cn/soft/show.asp?id=1241北京大学计算机网络视频教程http://www.study66.cn/soft/s
Linux 运维三剑客：grep、sed 和 awk 实战案例与命令参数详解 Lyle_Tu Linux 云计算运维运维 linux chrome 云计算服务器
在Linux运维中，grep、sed和awk是三个非常强大的文本处理工具，它们在处理文本数据时发挥着重要作用。本文将通过一些实战案例，展示这三个工具的使用方法和强大功能，并对它们的命令参数进行详解。grep：文本搜索利器grep是一个强大的文本搜索工具，它使用正则表达式来匹配文本模式。以下是grep的一些常用命令参数：-i：忽略大小写进行匹配。-v：反向查找，只打印不匹配的行。-n：显示匹配行的行
python核心编程课后习题答案--第一章 NewForMe
正则表达式1-1[bh][aiu]t;1-2\w+\w+;1-3\w+,\s\w+;1-4[A-Za-z_]+[\w_]+python有效标识符的定义：1.python中的标识符是区分大小写的。2.标示符以字母或下划线开头，可包括字母，下划线和数字。3.以下划线开头的标识符是有特殊意义的。1-5\d+(\s\w+)+1-6(1)^w{3}://.+com/?$(2)^\w+://.+?\.\w{3
Java 正则表达式南风_001
正则表达式定义了字符串的模式。正则表达式可以用来搜索、编辑或处理文本。正则表达式并不仅限于某一种语言，但是在每种语言中有细微的差别。正则表达式实例一个字符串其实就是一个简单的正则表达式，例如HelloWorld正则表达式匹配"HelloWorld"字符串。.（点号）也是一个正则表达式，它匹配任何一个字符如："a"或"1"。下表列出了一些正则表达式的实例及描述：正则表达式描述thisistext匹配
Linux shell sed 命令详解 BugBear1989
详细的sed命令详解，请参考https://my.oschina.net/u/3908182/blog/1921761一、sed命令工作机制：每次读取一行文本至“模式空间(patternspace)”中，在模式空间中完成处理；将处理结果输出至标准输出设备；语法：sed[OPTION]...{script}[input-file]...参数说明-r支持扩展正则表达式-n静默模式-escript1-e
用正则表达式过滤logcat中的多个tag的日志 fc82bb084ee7
在AndroidStudio中,在过滤器的byLogTag选项中配置.我配置了2个tagfilter方便开发,1.multi-tag-filter2.ignore-multi-tag-filter.过滤出指定tag的日志信息^(?:Watchdog|InputReader|ahking)Watchdog忽略指定tag的日志信息^(?!WifiMonitor|WifiHW)有些tag的无用log非常
Python实现对哈利波特小说单词统计胜天半月子 Python基础及应用 python 字符串列表正则表达式
文章目录要求一、打开文件正则表达式spilt()函数实例二、词频统计三、单词排序四、输出或写入文件python文件写入要求对HarryPotter5.txt英文小说进行词频统计，统计出前二十个频率最高的单词，并打印输出或写入文件一、打开文件打开文件并将单词中非单词字符用空格代替代码：#读取小说内容fp=open('HarryPotter5.txt')content=fp.read()#所有标点符号
javase笔记3----正则表达式芝奥小婷笔记
正则表达式简介正则表达式（RegularExpressions），是一个特殊的字符串，可以对普通的字符串进行校验检测等工作，校验一个字符串是否满足预设的规则。基本语法字符集合[]:表示匹配括号里的任意一个字符。[abc]:匹配a或者b或者c[^abc]:匹配任意一个字符，只要不是a,或b,或c就表示匹配成功[a-z]:表示匹配所有的小写字母的任意一个。[A-Za-z]:表示匹配所有的小写字母和大写
搜索结果关键字标红 — 正则月亮消失了.974 servlet html javascript
str是你的内容，key是关键字正则表达式匹配模式支持的三个标志（newregexp的第二个参数）g:global全文搜索，不添加则搜索到第一个匹配停止；i:ignorecase忽略大小写，默认大小写敏感；m:multiplelines多行搜索highlight(str,key){ varreg=newRegExp(`(${key})`,'gi'); v
正则表达式语法、运算符优先级 weixin_54668000 mvc
正则表达式(regularexpression)描述了一种字符串匹配的模式（pattern），可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。例如：runoo+b，可以匹配runoob、runooob、runoooooob
shell脚本——正则表达式诚诚k 正则表达式
概述正则表达式是你所定义的模式模板，Linux工具可以用它来过滤文本。Linux工具（比如sed编辑器或gawk程序）能够在处理数据时使用正则表达式对数据进行模式匹配。如果数据匹配模式，它就会被接受并进一步处理；如果数据不匹配模式，它就会被滤掉。数据流--正则表达式---（1）匹配的数据（2）滤掉的数据正则表达式（或称RegularExpression，简称RE），是用于描述字符排列和匹配模式的一
正则表达式-运算符优先级一只小棉花正则表达式正则表达式-优先级
转自：http://www.runoob.com/regexp/regexp-operator.html
【Python】正则表达式丕羽 python 正则表达式 mysql
正则表达式正则表达式,全称是RegularExpression,正则表达式,即:正确的,符合特定规则的式子.用来校验和匹配数据,正则不独属于任意的一门语言,Java,Python…都支持,且:正则规则都是一样的,不同的是写法不一样.python中正则使用步骤:#1.导包importre#2.正则校验.re.match()re.search()re.compile().sub()#3.获取匹配结果.
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C