2019-07-26

R语言--字符串处理

一、正则表达式(regex):用于描述/匹配一个文本集合的表达式

1、所有英文字母、数字和很多可显示的字符本身就是正则表达式,用于匹配它们自己。比如 “a” 就是匹配字母 “a” 的正则表达式

2、一些特殊的字符在正则表达式中不再用来描述它自身,它们在正则表达式中已经被“转义”,这些字符称为“元字符”。被转义的字符有:. \ | ( ) [ ] { } ^ $ * + ?

1). 表示任意字符;

2)\\或?表示查找;

3)| 表示可选项,即 | 前后的表达式任选一个;

4)[]方括号表示选择方括号中的任意一个(如[a-z] 表示任意一个小写字符);

5)^ 放在表达式开始出现匹配的文本开始的位置,如^a,表示匹配上以a开头的字符串;

6)$则是放在末尾位置,如a$,表示匹配上以a结尾的字符串;

匹配grep(pattern = " ", x),grep仅返回匹配项的下标(位置),而grepl返回所有的查询结果,并用逻辑向量(TRUE和FALSE)表示有没有找到匹配

匹配替换sub和gsub是用于字符串替换的函数,但严格地说R语言没有字符串替换的函数,因为R语言不管什么操作对参数都是传值不传址. sub和gsub的区别是前者只做一次替换(不管有几次匹配),而gsub把满足条件的匹配都做替换


.*, which matches any character (.) zero or more times (*). Both the dot and the asterisk are metacharacters. You can use them to match any character between the at-sign and the ".edu" portion of an email address.

\\.edu$, to match the ".edu" part of the email at the end of the string. The \\ part escapes the dot: it tells R that you want to use the . as an actual character.

你可能感兴趣的:(2019-07-26)