ZJ&ZYQ

R语言学习之正则化表达式

文章目录

- 1、grep()与grepl()函数
- 2、替换函数sub()与gsub()函数
- 3、regexpr()函数
- 4、gregexpr()函数
- 5、regexec()函数
- 6、字符串拼接
- 7、字符串分隔strsplit与数据分组split()
- 8、对于stringr包的几个小例子（参考《R for Data Science》）
- - (1) sentence提取每个句子的第一个单词
  - (2) 提取所有以ing结尾的单词
  - (3) 提取所有复数形式的单词，即“\\b\\w*?es\\b”
  - (4) 找出一个数词后边的所有单词，提取数词与单词
  - (5) 同样类型的问题：提取两边的词
- 9、stringr包之替换函数
- 10、stringr包之拆分函数
- 11、stringr包之定位函数
- 12、正则匹配式的控制
- 13、R基础包的有用函数:find()与apropose()函数
- 13、R基础包的有用函数:find()与apropose()函数

1、grep()与grepl()函数

函数：
grep(pattern, x, ignore.case = FALSE, perl = FALSE, value = FALSE,fixed = FALSE, useBytes = FALSE, invert = FALSE)
功能：对于字符串向量中的每个元素进行匹配操作，返回成功匹配（包含匹##配）的子字符）的元素的索引；
参数：
perl，指示是否使用perl正则库，还是仅仅使用固定字符串的匹配‘
value，指示是直接返回的元素索引还是返回的元素值
fixed,当取TRUE时则仅使用固定字符匹配，不使用正则化匹配
invert，当取TRUE时则返回未能成功匹配的字符元素，而非匹配
函数：
grepl(pattern, x, ignore.case = FALSE, perl = FALSE,fixed = FALSE, useBytes = FALSE)
功能：与grep()功能类似，只不过返回的是与x等长的逻辑向量

s <-c("Make","MAKE","jack",'June')
#返回字符串向量中与之匹配的索引
s_grep<-grep("e\\b",s,perl = T)
#返回匹配成功的字符串
s_grep_value<-grep("e$",s,perl = T,value = T)
#返回一个与字符串向量等长的向量，匹配则为TRUE，反之为FALSE
s_grepl<-grepl("e$",s,perl = T)

[1] 1 4

[2] “Make” “June”

[3] TRUE FALSE FALSE TRUE

2、替换函数sub()与gsub()函数

sub函数只会替换字符串向量当中每个可以匹配的字符串的第一个匹配的字符；而gsub函数则是将字符串当中所有能匹配上的字符全部进行替换

s_sub<-sub('[ae|AE]',replacement = "(R)",s,perl = TRUE)
s_gsub<-gsub('[ae|AE]',replacement = "\\L(R)\\E",s,perl = TRUE)

[1] “M®ke” “M®KE” “j®ck” “Jun®”
[2] “M®k®” “M®K®” “j®ck” “Jun®”

替换函数当中replacement参数的使用：说明文档中指出，当perl=TRUE时，可以使用\U和\L来进行大小写转换；当fixed = FALSE时，可以进行后向引用，即使用\1——\9对pattern当中的捕获组进行
引用，而\U和\L则是对捕获组应用的补充，是对捕获组的大小写转换操作，
如下：

text <- "a test of capitalizing"
text2<- "useRs may fly into JFK of laGuardia"
#使首字母大写，其余字母小写,在\\1后使用\\E表示只对\\1进行大写转换，若不写则将\\U后的
#的所有内容都进行大写转换
gsub("(\\w)(\\w*)","\\U\\1\\E\\2",text,perl = TRUE)
#只对从左到右第一个匹配进行返回
sub("(\\w)(\\w*)","\\U\\1\\E\\2",text,perl = T)
#同样的效果，使用了定位符
gsub("\\b(\\w)","\\U\\1",text,perl = T)
#首字母与最后一个字母大写
gsub("(\\w)(\\w*)(\\w)","\\U\\1\\E\\2\\U\\3",text2,perl = T)
#sub函数则只会对匹配的第一个字符进行操作，其余忽略
sub("(\\w)(\\w*)(\\w)","\\U\\1\\E\\2\\U\\3",text2,perl = T)

[1] “A Test Of Capitalizing”

[2] “A test of capitalizing”

[3] “A Test Of Capitalizing”

[4] “UseRS MaY FlY IntO JFK OF LaGuardiA”

[5] “UseRS may fly into JFK of laGuardia”

3、regexpr()函数

若匹配的为单个文本字符串text，则返回的是第一个能够匹配成功的字符的开始的位置；
若没有匹配成功则返回-1；返回结果为一个整数，字符串当中的从哪个字符开始可以匹配上；
对于字符向量,即多个"“字符串组成的向量，此时返回的是一个与向量等长的整数向量，相应元素指示了对相应字符串的匹配情况，匹配成功则指示匹配字符串开始的位置，否则为-1;
其整数的属性“match.length”指示了匹配字符串的长度；当使用了捕获组的时候，会有属性"capture.start”, “capture.length” and "capture.names"l来指示;

##捕获组的匹配字符串的情况
s_regexpr_1<-regexpr("[ae]\\b",c("make",'maker'),perl = T)
##注意这里使用了python中特有的捕获组命名方式；
#regexpr()与gregxepr()两个函数仅在perl=T时可以使用python形式来对捕获组命名
s_regexpr_2 <- regexpr("(?P\\w)e\\B","you are a beautiful girl! ",perl = T)
attr(s_regexpr_2,"match.length")
attr(s_regexpr_2,"capture.names")
#示例
s_regexpr_3 <-regexpr("(\\w{1})e\\b","hello-we-will, en we will",perl = T)
s_regexpr_4<-regexpr("(\\w{1})e\\B","hello-we-will, en we will",perl = T)

> s_regexpr_1
[1] 4 -1
attr(,“match.length”)
[1] 1 -1
attr(,“index.type”)
[1] “chars”
attr(,“useBytes”)
[1] TRUE

> s_regexpr_2
[1] 11
attr(,“match.length”)
[1] 2
attr(,“index.type”)
[1] “chars”
attr(,“useBytes”)
[1] TRUE
attr(,“capture.start”)
first
[1,] 11
attr(,“capture.length”)
first
[1,] 1
attr(,“capture.names”)
[1] “first”
> s_regexpr_3
[1] 7
attr(,“match.length”)
[1] 2
attr(,“index.type”)
[1] “chars”
attr(,“useBytes”)
[1] TRUE
attr(,“capture.start”)

[1,] 7
attr(,“capture.length”)
[1,] 1
attr(,“capture.names”)
[1] “”

> s_regexpr_4
[1] 1
attr(,“match.length”)
[1] 2
attr(,“index.type”)
[1] “chars”
attr(,“useBytes”)
[1] TRUE
attr(,“capture.start”)

[1,] 1
attr(,“capture.length”)
[1,] 1
attr(,“capture.names”)
[1] “”

> attr(s_regexpr_2,“match.length”)
[1] 2
> attr(s_regexpr_2,“capture.names”)
[1] “first”

4、gregexpr()函数

如sub和gsub的关系，gregexpr函数就是对字符串当中的所有匹配的字符串的起始位置以列表的形式返回，列表的每个元素形式都与单个regexpr函数返回的结果形式一致，及拥有match.lengh等属性;

s_gregexpr0<-gregexpr("[ae]",c("make","maker"),perl = T)
s_gregexpr0
class(s_gregexpr0)

> s_gregexpr0
[[1]]
[1] 2 4
attr(,“match.length”)
[1] 1 1
attr(,“index.type”)
[1] “chars”
attr(,“useBytes”)
[1] TRUE

[[2]]
[1] 2 4
attr(,“match.length”)
[1] 1 1
attr(,“index.type”)
[1] “chars”
attr(,“useBytes”)
[1] TRUE

> class(s_gregexpr0)
[1] “list”

而对于单个字符串，其也会以列表的形式返回每个匹配字符的起始位置，列表的每个元素都有相应的属性;

s_gregexpr1<-gregexpr('e',"hello-we-will, en we will",perl = T)
s_gregexpr1

> s_gregexpr1
[[1]]
[1] 2 8 16 20
attr(,“match.length”)
[1] 1 1 1 1
attr(,“index.type”)
[1] “chars”
attr(,“useBytes”)
[1] TRUE

这里单个字符串和字符向量返回结果的区别是，单个字符串是以一个向量作为list的一个元素，list的长度为1；而字符串向量所返回的list的元素个数与字符串向量的元素个数一致，每个元素长度则取决于对字符向量单个字符元素的匹配情况:

s_gregexpr2 <-gregexpr("[ae]\\b",c("make",'maker'),perl = T)
str(s_gregexpr2)
str(s_gregexpr1)
str(s_gregexpr0)

> s_gregexpr2
[[1]]
[1] 4
attr(,“match.length”)
[1] 1
attr(,“index.type”)
[1] “chars”
attr(,“useBytes”)
[1] TRUE

[[2]]
[1] -1
attr(,“match.length”)
[1] -1
attr(,“index.type”)
[1] “chars”
attr(,“useBytes”)
[1] TRUE

> str(s_gregexpr2)
List of 2
$ : int 4
…- attr(, “match.length”)= int 1
…- attr(, “index.type”)= chr “chars”
…- attr(, “useBytes”)= logi TRUE
$ : int -1
…- attr(, “match.length”)= int -1
…- attr(, “index.type”)= chr “chars”
…- attr(, “useBytes”)= logi TRUE
> str(s_gregexpr1)
List of 1
$ : int [1:4] 2 8 16 20
…- attr(, “match.length”)= int [1:4] 1 1 1 1
…- attr(, “index.type”)= chr “chars”
…- attr(, “useBytes”)= logi TRUE
> str(s_gregexpr0)
List of 2
$ : int [1:2] 2 4
…- attr(, “match.length”)= int [1:2] 1 1
…- attr(, “index.type”)= chr “chars”
…- attr(, “useBytes”)= logi TRUE
$ : int [1:2] 2 4
…- attr(, “match.length”)= int [1:2] 1 1
…- attr(, “index.type”)= chr “chars”
…- attr(*, “useBytes”)= logi TRUE

5、regexec()函数

该函数与regexpr()函数返回结果类似，区别在于该函数返回的是各捕获组的起始位置以及各捕获组内匹配的字符串的的长度；其返回一个与文本长度相同的列表，如果没有匹配，则每个元素为-1，或者返回具有匹配开始位置和所有子字符串的整数序列，这些子字符串对应于模式的带括号的子表达式，属性为“ match .length”的一个向量会给出匹配的长度（如果没有匹配，则为-1）；同时需要注意的是整数向量的第一个值为全部pattern所匹配的结果，剩余的值才依次从左往右对应了不同的捕获组。

s1<- "Test: A1 BC23 DEF456"
pattern <- "([[:alpha:]]+)([[:digit:]]+)"
s_regexec_1<-regexec(pattern, s)
s_regexec_1

> s_regexec_1
[[1]]
[1] 7 7 8
attr(,“match.length”)
[1] 2 1 1
attr(,“index.type”)
[1] “chars”
attr(,“useBytes”)
[1] TRUE

6、字符串拼接

paste()与paste0()函数
函数：
paste(x1,x2,x3,sep = “”,collapse = NULL)
解释：
将x1,x2,x3三个向量相对应位置的元素进行连接，会自动对短的向量进行循环匹配最长的向量；sep指定了各个元素连接之间的连接符号；如果没有指定collapse参数，返回的结果是与最长一个向量元素个数一样的多个独立的字符串；而指定了collapse参数，则相当于又将那些多个独立的字符串以collapse为连接分隔连为一个字符串。
函数paste0()只有collapse参数，且效率更高；

paste(1:13,c("A","B","C"),0:1,sep = "_")
paste(1:13,c("A","B","C"),0:1,sep = "_",collapse = "%")
paste0(1:13,"_",c("A","B"),"_",0:1)

> [1] “1_A_0” “2_B_1” “3_C_0” “4_A_1” “5_B_0” “6_C_1” “7_A_0” “8_B_1”
[9] “9_C_0” “10_A_1” “11_B_0” “12_C_1” “13_A_0”
>[1] “1_A_0%2_B_1%3_C_0%4_A_1%5_B_0%6_C_1%7_A_0%8_B_1%9_C_0%10_A_1%11_B_0%12_C_1%13_A_0”
> [1] “1_A_0” “2_B_1” “3_A_0” “4_B_1” “5_A_0” “6_B_1” “7_A_0” “8_B_1”
[9] “9_A_0” “10_B_1” “11_A_0” “12_B_1” “13_A_0”

7、字符串分隔strsplit与数据分组split()

函数：
strsplit(x, split, fixed = FALSE, perl = FALSE, useBytes = FALSE)
参数：
x，为要进行分割的字符串向量，会对每个字符串单独执行分割；
split，同样也是字符向量，各元素指定了作为分割的字符，包含了正则表达式除非fixed =TRUE）；当其长度为0（注意，不是NA），即未指定分割字符，则会将x中每个元素分解为单个字符；若长度大于1，将循环使用来匹配分割；

该函数的输出为一个list，list与x等长，每个list元素包含了分割的结果

s_split<-strsplit(c("a+b",'a_b',"a.b","a*b"),split = c("[\\+_\\.\\*]"))
s_split

> s_split
[[1]]
[1] “a” “b”

[[2]]
[1] “a” “b”

[[3]]
[1] “a” “b”

[[4]]
[1] “a” “b”

延伸:
split()函数相比于strsplit函数，该函数主要用来进行数据分组，将向量数据或数据框按照指定的因子（factor）进行分组,典型例子如下

n<-10;nn<-100
#随机生成1000个10以内的整数
g_factor<-factor(round(n*runif(n*nn)))
#生成服从正态分布且有部分随机噪声的数据
x_norm<-rnorm(n*nn)+sqrt(as.numeric(g_factor))
#依照g_factor将数据分组,什么意思呐？
#从数据结构来看有1000个x_norm数据，有1000个g_factor数据，其位置一一对应
#而g_factor为因子，共10个水平，所有值分为10组，那么与其每个值一一对应的
#x_norm也可以依照g_factor的划分进行分组
x_group<-split(x_norm,g_factor)
xg_data<-data.frame(x=x_norm,group=g_factor)
identical(xg_data[xg_data$group==1,1],x_group[[2]])

[1] TRUE

8、对于stringr包的几个小例子（参考《R for Data Science》）

(1) sentence提取每个句子的第一个单词

sen1存放5个句子,注意区分对字符串的操作和对单词的操作，比如^与$只是定位的整个字符串的开始与结束，而\b才是单词边界；另外，str_subset（）只是提取匹配上的整个字符串，并未具体到与正则规则完全对应的文本上而str_extract()和str_extract_all()才是进一步从完全匹配的字符串当中提取与正则表达式“完全”一致的文本。

library(stringr)
sen1<-sentences[1:20]
first_word<-str_extract(sen1,"\\b\\w*\\b")
#或者
first_word1<-str_extract(sen1,"^[A-Z]\\w*\\b")
#或者
first_word2<-str_extract(sen1,"^\\w*\\b")

> sen1
[1] “The birch canoe slid on the smooth planks.” “Glue the sheet to the dark blue background.” [3] “It’s easy to tell the depth of a well.” “These days a chicken leg is a rare dish.”
[5] “Rice is often served in round bowls.” “The juice of lemons makes fine punch.”
[7] “The box was thrown beside the parked truck.” “The hogs were fed chopped corn and garbage.” [9] “Four hours of steady work faced us.” “Large size in stockings is hard to sell.”
[11] “The boy was there when the sun rose.” “A rod is used to catch pink salmon.”
[13] “The source of the huge river is the clear spring.” “Kick the ball straight and follow through.”
[15] “Help the woman get back to her feet.” “A pot of tea helps to pass the evening.”
[17] “Smoky fires lack flame and heat.” “The soft cushion broke the man’s fall.”
[19] “The salt breeze came across from the sea.” “The girl at the booth sold fifty bonds.”

> first_word
[1] “The” “Glue” “It” “These” “Rice” “The” “The” “The” “Four” “Large” “The” “A” “The” “Kick” [15] “Help” “A” “Smoky” “The” “The” “The”

> first_word1
[1] “The” “Glue” “It” “These” “Rice” “The” “The” “The” “Four” “Large” “The” “A” “The” “Kick” [15] “Help” “A” “Smoky” “The” “The” “The”
> first_word2
[1] “The” “Glue” “It” “These” “Rice” “The” “The” “The” “Four” “Large” “The” “A” “The” “Kick” [15] “Help” “A” “Smoky” “The” “The” “The”

(2) 提取所有以ing结尾的单词

sen_ing<-str_subset(sentences,"\\b\\w*?ing\\b")
word_ing<-str_extract(sen_ing,"\\b\\w*?ing\\b")
word_ing_all<-str_extract_all(sen_ing,'\\b\\w*?ing\\b')
#显然，两个函数获取的结果是一致的
if(identical(word_ing,unlist(word_ing_all))){
  cat("the element of the two word list is same!")
}else{
  cat("they are different!")
}
##问题：有没有可能一个句子由两个单词符合要求？
sum(str_count(sentences,"^\\w*?ing\\b")>1)
##如果有，则进行提取
sentences[str_count(sentences,'\\b\\w*?ing\\b') > 1]

[1] the element of the two word list is same!

[1] 0

[1] character(0)

(3) 提取所有复数形式的单词，即“\b\w*?es\b”

(4) 找出一个数词后边的所有单词，提取数词与单词

#问题核心一个数词如何匹配,这个比较复杂，能否将所有的数字都完成匹配？
math_num<-"(one|tw[(o)|(e)|(lve)]{1}|four[(teen)]?|forty|five|fift[(een)|(y)]{1}|
six[(teen)|(ty)]?|seven[(teen)|(ty)]?|eight[(een)|(y)]?|nine[(teen)|(ty)]?|ten|eleven|twelve|three|thirteen|thirty)\\b (\\b\\w*\\b)"
math_num1<-"(one|two|three|four|five|six|seven|eight|nine|ten|eleven|twelve) (\\b\\w*\\b)"
match_matrix<-str_match(sentences,math_num)
match_matrix[!is.na(match_matrix[,1]),]
###将str_match()只匹配第一个，转换为匹配所有，难点在于判断哪些是匹配的
match_matrix_all<-str_match_all(sentences,math_num)
match_true_index<-lapply(match_matrix_all,function(x){!is.na(x[1])})
match_true_index<-unlist(match_true_index)
match_matrix_all_true<-match_matrix_all[match_true_index]
###逐个提取出组合的词，
##这里sapply与lapply存在一定差异，sapply返回的结果为向量，lapply为列表
sapply(match_matrix_all_true,function(x){x[1]})
unlist(lapply(match_matrix_all_true,function(x){x[1]}))

> match_matrix[!is.na(match_matrix[,1]),]
[,1] [,2] [,3]
[1,] “ten served” “ten” “served”
[2,] “fifty bonds” “fifty” “bonds”
[3,] “one over” “one” “over”
[4,] “seven books” “seven” “books”
[5,] “two met” “two” “met”
[6,] “two factors” “two” “factors”
[7,] “one and” “one” “and”
[8,] “three lists” “three” “lists”
[9,] “thirty times” “thirty” “times”
[10,] “seven is” “seven” “is”
[11,] “two when” “two” “when”
[12,] “one floor” “one” “floor”
[13,] “ten inches” “ten” “inches”
[14,] “one with” “one” “with”
[15,] “one war” “one” “war”
[16,] “one button” “one” “button”
[17,] “ten years” “ten” “years”
[18,] “one in” “one” “in”
[19,] “ten chased” “ten” “chased”
[20,] “one like” “one” “like”
[21,] “two shares” “two” “shares”
[22,] “two distinct” “two” “distinct”
[23,] “one costs” “one” “costs”
[24,] “ten two” “ten” “two”
[25,] “thirty cents” “thirty” “cents”
[26,] “five robins” “five” “robins”
[27,] “four kinds” “four” “kinds”
[28,] “one rang” “one” “rang”
[29,] “ten him” “ten” “him”
[30,] “three story” “three” “story”
[31,] “ten by” “ten” “by”
[32,] “one wall” “one” “wall”
[33,] “three inches” “three” “inches”
[34,] “ten your” “ten” “your”
[35,] “ten than” “ten” “than”
[36,] “one before” “one” “before”
[37,] “three batches” “three” “batches”
[38,] “two leaves” “two” “leaves”

> sapply(match_matrix_all_true,function(x){x[1]})
[1] “ten served” “fifty bonds” “one over” “seven books” “two met” “two factors” “one and” [8] “three lists” “thirty times” “seven is” “two when” “one floor” “ten inches” “one with”
[15] “one war” “one button” “ten years” “one in” “ten chased” “one like” “two shares” [22] “two distinct” “one costs” “ten two” “thirty cents” “five robins” “four kinds” “one rang” [29] “ten him” “three story” “ten by” “one wall” “three inches” “ten your” “ten than”
[36] “one before” “three batches” “two leaves”

> unlist(lapply(match_matrix_all_true,function(x){x[1]}))
[1] “ten served” “fifty bonds” “one over” “seven books” “two met” “two factors” “one and” [8] “three lists” “thirty times” “seven is” “two when” “one floor” “ten inches” “one with”
[15] “one war” “one button” “ten years” “one in” “ten chased” “one like” “two shares” [22] “two distinct” “one costs” “ten two” “thirty cents” “five robins” “four kinds” “one rang” [29] “ten him” “three story” “ten by” “one wall” “three inches” “ten your” “ten than”
[36] “one before” “three batches” “two leaves”

(5) 同样类型的问题：提取两边的词

match_ds<-"\\b\\w*?'\\w*?\\b"
example_s<-"it's my favorite. and I'd like it!"
str_extract_all(example_s,match_ds)
##结果似乎和预想的不同，只提匹配了前半部，第二个捕获组没有匹配到，为什么
##因为第二个捕获组在*（0到无穷大）次匹配后有一个？仅行非贪婪匹配，这样就
##会尽量少的匹配，什么最少——0次，也就是第二捕获组没有匹配到
##将*换为+,将起作用如下：
match_ds1<-"\\b\\w*?'\\w+?\\b"
str_extract_all(example_s,match_ds1)
##问题是，为什么非要用？,非贪婪匹配，比如匹配以a开头和以d结尾的中间部分，
##如下
str_extract_all("asdsffdfgssafgd","a.*d")
#结果是最大程度的匹配，将中间的a*d组合忽略了，而加上？即最小化的非贪婪匹配
str_extract_all("asdsffdfgssafgd","a.*?d")

> str_extract_all(example_s,match_ds)
[[1]]
[1] “it’” “I’”

> str_extract_all(example_s,match_ds1)
[[1]]
[1] “it’s” “I’d”

> str_extract_all(“asdsffdfgssafgd”,“a.*d”)
[[1]]
[1] “asdsffdfgssafgd”

> str_extract_all(“asdsffdfgssafgd”,“a.*?d”)
[[1]]
[1] “asd” “afgd”

9、stringr包之替换函数

函数：
str_replace(string, pattern, replacement)

str_replace_all(string, pattern, replacement)
参数：
replacement为要替换成的字符串：可以是单个字符串，此时将会将string向量中的每个元素中的pattern字符串进行替换；也可以是一个字符串向量，其长度需与pattern或string一致；
或者，对一个字符串元素进行多处不同的替换，可以传递一个命名向量，其形式如下：

c(pattern1 = replacement1，pattern2=replacement2)

	也可以将函数传给replacement和pattern：
	对于传给pattern的函数，参考regex()、fixed()等函数，其会对正则表达式进行一次处理，将返回值作为匹配字符；
	对于传给replacement的函数，每次匹配都会调用一次该函数，该函数的返回值将用于被用来替换匹配字符串；当替换为NA，则可以指定replacement = NA_character_ 。

#例1、传递一个函数
fruits <- c("one apple", "two pears", "three bananas")
str_replace(fruits, "[aeiou]", "-")
str_replace_all(fruits,'[aeiou]','+')
##使用函数toupper()将相应的匹配字符转换为大写
str_replace_all(fruits,'[aeiou]',toupper)
##或者使用自定义函数，对不同字符采取特异处理
str_replace_all(fruits,'[aeiou]',
                function(x){
                  if(x=="a"){
                    return(toupper(x))
                  }else{
                    return("*")
                  }
                })
#或者先定义函数，传入函数名
to_handle<-function(x){
  if(x == "a"){
    return(toupper(x))
  }else if(x=='e'){
    return("*")
  }else{
    return(paste0('[',x,']'))
  }
}
str_replace_all(fruits,'[aeiou]',to_handle)

> str_replace(fruits, “[aeiou]”, “-”)
[1] “-ne apple” “tw- pears” “thr-e bananas”
> str_replace_all(fruits,’[aeiou]’,’+’)
[1] “+n+ +ppl+” “tw+ p++rs” “thr++ b+n+n+s”
> str_replace_all(fruits,’[aeiou]’,toupper)
[1] “OnE ApplE” “twO pEArs” “thrEE bAnAnAs”

> [1] “n Appl*” “tw* p*Ars” “thr** bAnAnAs”

> str_replace_all(fruits,’[aeiou]’,to_handle)
[1] “[o]n* Appl*” “tw[o] p*Ars” “thr** bAnAnAs”

#例2、传入一个与string等长的字符向量,将会一一对应的进行替换
str_replace_all(fruits,'[aeiou]',c('1','2','[3_m]'))

[1] “1n1 1ppl1” “tw2 p22rs” “thr[3_m][3_m] b[3_m]n[3_m]n[3_m]s”

#例3、使用反向引用组，如下b表示将匹配的字符加倍为两个
str_replace(fruits, "([aeiou])", "\\1\\1")
#或者将一个单词的首位字母进行交换位置,\\0表示的是整个正则表达匹配获得的文本
str_replace_all(fruits,'(\\b\\w)(\\w*?)(\\w\\b)',"\\0_\\3\\2\\1")

> str_replace(fruits, “([aeiou])”, “\1\1”)
[1] “oone apple” “twoo pears” “threee bananas”

> str_replace_all(fruits,’(\b\w)(\w*?)(\w\b)’,"\0_\3\2\1")
[1] “one_eno apple_eppla” “two_owt pears_searp” “three_ehret bananas_sananab”

#例4、传入命名向量，进行一个字符串的多处匹配和替换,进行特异性替换
str_replace_all(fruits,c("a" = "1", "b" = "2", "c" = "3"))

> str_replace_all(fruits,c(“a” = “1”, “b” = “2”, “c” = “3”))
[1] “one 1pple” “two pe1rs” “three 21n1n1s”

10、stringr包之拆分函数

函数：
str_split(string, pattern, n = Inf, simplify = FALSE)
str_split_fixed(string, pattern, n)
功能：
按照pattern匹配的字符进行分割，返回的结果是不包含匹配字符的；
参数n表示将string分成几个部分，默认是尽可能多的拆分；
对于str_split_fixed()函数，其生成的是一个n列的矩阵，如果n大于可以拆分的最大值，将使用空字符串填补；
参数simplify指示了str_split()函数生成的是字符串列表还是矩阵，默认为FALSE生成向量列表；

str_split("a|b|c|d|e",pattern = '\\|')
#如下指定分割成两部分，生成矩阵形式
str_split("a|b|c|d|e",pattern = '\\|',n = 2,simplify = TRUE)
#生成多于最大可分割的部分
str_split("a|b|c|d|e",pattern = '\\|',n = 6,simplify = TRUE)
#另外，除了pattern外，还可以使用字母、行、句子和单词的边界来进行拆分,
#见函数boundary(),当type取不同值的时候，表示探测不同的边界进行分割；
#boundary(type = c("character", "line_break", "sentence", "word"),
#skip_word_none = NA, ...)
head(sentences,n=3)
str_split(head(sentences,n = 3),pattern = boundary(type = "word"))
#boundary(type = 'character')函数指示按单个字符进行分割划分,空格也算
str_split(string = "It's a good one!",boundary('character'))
#使用空字符串""等价于boundary("character"),将单个字符分割
str_split(string = "It's a good one!","")

> str_split(“a|b|c|d|e”,pattern = ‘\|’)
[[1]]
[1] “a” “b” “c” “d” “e”
> str_split(“a|b|c|d|e”,pattern = ‘\|’,n = 2,simplify = TRUE)
[,1] [,2]
[1,] “a” “b|c|d|e”
> str_split(“a|b|c|d|e”,pattern = ‘\|’,n = 6,simplify = TRUE)
[,1] [,2] [,3] [,4] [,5] [,6]
[1,] “a” “b” “c” “d” “e” “”
> head(sentences,n=3)
[1] “The birch canoe slid on the smooth planks.” “Glue the sheet to the dark blue background.”
[3] “It’s easy to tell the depth of a well.”
> str_split(head(sentences,n = 3),pattern = boundary(type = “word”))
[[1]]
[1] “The” “birch” “canoe” “slid” “on” “the” “smooth” “planks”

[[2]]
[1] “Glue” “the” “sheet” “to” “the” “dark” “blue” “background”

[[3]]
[1] “It’s” “easy” “to” “tell” “the” “depth” “of” “a” “well”

> str_split(string = “It’s a good one!”,boundary(‘character’))
[[1]]
[1] “I” “t” “’” “s” " " “a” " " “g” “o” “o” “d” " " “o” “n” “e” “!”

> str_split(string = “It’s a good one!”,"")
[[1]]
[1] “I” “t” “’” “s” " " “a” " " “g” “o” “o” “d” " " “o” “n” “e” “!”

11、stringr包之定位函数

函数：

str_locate(string, pattern)
str_locate_all(string, pattern)
功能：
定位pattern的起始位置和结束位置，返回索引值;
str_locate()函数返回的一个整数矩阵，第一列是开始的位置，第二列是结束的文字;
str_locate_all()函数返回的是一个整数矩阵列表，列表的每一个元素对应一个矩阵，对应一个字符串的匹配结果；

#例1、匹配一行的末尾$，看结果end小于start，这是由于$定位了一行/字符串的结尾，其本身长度为1，但不计入
#字符串的长度，所以开始时leng(string)+1，而结束则是字符串的结束end=length(string)
str_locate(sentences[1],pattern = "$")

#例2、""空字符串会定位每个字符的位置
str_locate_all(sen1[1],"")

> str_locate(sentences[1],pattern = “$”)
start end
[1,] 43 42

> str_locate_all(sen1[1],"")
[[1]]
start end
[1,] 1 1
[2,] 2 2
[3,] 3 3
[4,] 4 4
[5,] 5 5
[6,] 6 6
[7,] 7 7
[8,] 8 8
[9,] 9 9
[10,] 10 10
[11,] 11 11
[12,] 12 12
[13,] 13 13
[14,] 14 14
[15,] 15 15
[16,] 16 16
[17,] 17 17
[18,] 18 18
[19,] 19 19
[20,] 20 20
[21,] 21 21
[22,] 22 22
[23,] 23 23
[24,] 24 24
[25,] 25 25
[26,] 26 26
[27,] 27 27
[28,] 28 28
[29,] 29 29
[30,] 30 30
[31,] 31 31
[32,] 32 32
[33,] 33 33
[34,] 34 34
[35,] 35 35
[36,] 36 36
[37,] 37 37
[38,] 38 38
[39,] 39 39
[40,] 40 40
[41,] 41 41
[42,] 42 42

12、正则匹配式的控制

在调用相应函数，使用一个正则表达式或固定字符串作为pattern参数时，函数内部会自动调用regex()函数对其进行转换，如上例：

str_locate(sentences[1],pattern = "$")
#实际执行等价于
str_locate(sentences[1],pattern = regex("$"))

也就是regex()函数相当于Python当中的re.compile()函数，可以控制不同的类型模式，编译生成类似Python中Pattern对象，进而执行字符串中的正则匹配类似的控制匹配模式的函数,如下:
fixed(pattern, ignore_case = FALSE)

coll(pattern, ignore_case = FALSE, locale = “en”, …)
regex(pattern, ignore_case = FALSE, multiline = FALSE,comments = FALSE, dotall = FALSE, …)
boundary(type = c(“character”, “line_break”, “sentence”, “word”),skip_word_none = NA, …)
其中：

fixed()函数表示z直接比较的是字符串中的字节bytes，是固定字符串的比较而非正则化匹配；
coll()函数按照指定的规则进行匹配比较，比如locale设置了比较的语种类型；
regex()函数则默认使用ICU正则匹配规则；
ignore_case指示是否忽略大小写；
multiline指示是否进入多行匹配模式，TRUE表示$与^会逐行匹配开头和结尾；而FALSE则表示只会匹配整个字符串的起始和结尾；
comments则表示是否进行注释，注释形式为#+空格+注释内容；
dotall指示 . 是否能匹配行尾；
示例如下：

str_extract_all("a\nb\nc", "a.")
str_extract_all("a\nb\nc", regex("a.", dotall = TRUE))
str_extract_all("The Cat in the Hat", "[a-z]+")
str_extract_all("The Cat in the Hat", regex("[a-z]+", ignore_case =TRUE))

> str_extract_all(“a\nb\nc”, “a.”)
[[1]]
character(0)

> str_extract_all(“a\nb\nc”, regex(“a.”, dotall = TRUE))
[[1]]
[1] “a\n”

> str_extract_all(“The Cat in the Hat”, “[a-z]+”)
[[1]]
[1] “he” “at” “in” “the” “at”

> str_extract_all(“The Cat in the Hat”, regex("[a-z]+", ignore_case =TRUE))
[[1]]
[1] “The” “Cat” “in” “the” “Hat”

13、R基础包的有用函数:find()与apropose()函数

函数：
apropos(what, where = FALSE, ignore.case = TRUE, mode = “any”)
find(what, mode = “any”, numeric = FALSE, simple.words = TRUE)
功能：
其主要功能是在全局环境中寻找符合由what指定的规则的对象;
对于simple.words则类似于fixed()函数，为TRUE则表示what参数是完全匹配,不使用正则化;
find()函数返回的是搜索路径中要搜索对象的环境名，或者包名;

apropos("replace")
find("replace")

> apropos(“replace”)
[1] “.rs.registerReplaceHook” “.rs.replaceBinding” “.rs.rpc.replace_comment_header”
[4] “replace” “setReplaceMethod” “str_replace”
[7] “str_replace_all” “str_replace_na”

> find(“replace”)
t", regex("[a-z]+", ignore_case =TRUE))
[[1]]
[1] “The” “Cat” “in” “the” “Hat”

13、R基础包的有用函数:find()与apropose()函数

apropos("replace")
find("replace")

> apropos(“replace”)
[1] “.rs.registerReplaceHook” “.rs.replaceBinding” “.rs.rpc.replace_comment_header”
[4] “replace” “setReplaceMethod” “str_replace”
[7] “str_replace_all” “str_replace_na”

> find(“replace”)
[1] “package:base”

你可能感兴趣的:(笔记,正则表达式,r语言)

10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
509. 斐波那契数(每日一题) lzyprime
lzyprime博客(github)创建时间：2021.01.04qq及邮箱：2383518170leetcode笔记题目描述斐波那契数，通常用F(n)表示，形成的序列称为斐波那契数列。该数列由0和1开始，后面的每一项数字都是前面两项数字的和。也就是：F(0)=0，F(1)=1F(n)=F(n-1)+F(n-2)，其中n>1给你n，请计算F(n)。示例1：输入：2输出：1解释：F(2)=F(1)+
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
Day17笔记-高阶函数 ~在杰难逃~ Python 笔记 python 开发语言 pycharm 数据分析
高阶函数【重点掌握】函数的本质：函数是一个变量，函数名是一个变量名，一个函数可以作为另一个函数的参数或返回值使用如果A函数作为B函数的参数，B函数调用完成之后，会得到一个结果，则B函数被称为高阶函数常用的高阶函数：map(),reduce(),filter(),sorted()1.map()map(func,iterable)，返回值是一个iterator【容器，迭代器】func:函数iterab
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
为什么你总是对下属不满意? ZhaoWu1050
【ZhaoWu的听课笔记】大多数公司，都存在两种问题。我创业四年，更是体会深切。这两种问题就是：老板经常不满意下属的表现；下属总是不知道老板想要什么；虽然这两种问题普遍存在，其实解决方法并不复杂。这节课，我们再聊聊第一个问题：为什么老板经常不满意下属表现?其实，这背后也是一条管理常识。管理学家德鲁克先生早就说过：管理者的任务，不是去改变人。*来自《卓有成效的管理者》只是大多数老板和我一样，都是一边
母亲节如何做小红书营销美橙传媒
小红书的一举一动引起了外界的高度关注。通过爆款笔记和流行话题，我们可以看到“干货”类型的内容在小红书中偏向实用的生活经验共享和生活指南非常受欢迎。根据运营社的分析，这种现象是由小红书用户心智和内容社区背后机制共同决定的。首先，小红书将使用“强搜索”逻辑为用户提供特定的“搜索场景”。在“我必须这样生活”中，大量使用了满足小红书站用户喜好和需求的内容。内容社区自制的高质量内容也吸引了寻找营销新途径的品
读书笔记|《遇见孩子，遇见更好的自己》5 抹茶社长
为人父母意味着放弃自己的过去，不要对以往没有实现的心愿耿耿于怀，只有这样，孩子们才能做回自己。985909803.jpg孩子在与父母保持亲密的同时更需要独立，唯有这样，孩子才会成为孩子，父母才会成其为父母。有耐心的人生往往更幸福，给孩子留点余地。认识到养儿育女是对耐心的考验。为失败做好心理准备，教会孩子控制情绪。了解自己的底线，说到底线，有一点很重要，父母之所以发脾气，真正的原因往往在于他们自己，
基于Python给出的PDF文档转Markdown文档的方法程序媛了了 python pdf 开发语言
注：网上有很多将Markdown文档转为PDF文档的方法，但是却很少有将PDF文档转为Markdown文档的方法。就算有，比如某些网站声称可以将PDF文档转为Markdown文档，尝试过，不太符合自己的要求，而且无法保证文档没有泄露风险。于是本人为了解决这个问题，借助GPT（能使用GPT镜像或者有条件直接使用GPT的，反正能调用GPT接口就行）生成Python代码来完成这个功能。笔记、代码难免存在
语文主题教学学习笔记之87 东哥杂谈
“语文主题教学”学习笔记之八十七（0125）今天继续学习小学语文主题教学的实践样态。板块三：教学中体现“书艺”味道。作为四大名著之一的《水浒传》，堪称我国文学宝库之经典。对从《水浒传》中摘选的单元，教师就要了解其原生态，即评书体特点。这也要求教师要了解一些常用的评书行话术语，然后在教学时适时地加入一些，让学生体味其文本中原有的特色。学生也要尽可能地通过朗读的方式，而不单是分析讲解的方式进行学习。细
Armv8.3 体系结构扩展--原文版代码改变世界ctw ARM-TEE-Android armv8 嵌入式 arm架构安全架构芯片 Trustzone Secureboot
快速链接:.ARMv8/ARMv9架构入门到精通-[目录]付费专栏-付费课程【购买须知】:个人博客笔记导读目录(全部)TheArmv8.3architectureextensionTheArmv8.3architectureextensionisanextensiontoArmv8.2.Itaddsmandatoryandoptionalarchitecturalfeatures.Somefeat
springboot+vue项目实战一-创建SpringBoot简单项目苹果酱0567 面试题汇总与解析 spring boot 后端 java 中间件开发语言
这段时间抽空给女朋友搭建一个个人博客，想着记录一下建站的过程，就当做笔记吧。虽然复制zjblog只要一个小时就可以搞定一个网站，或者用cms系统，三四个小时就可以做出一个前后台都有的网站，而且想做成啥样也都行。但是就是要从新做，自己做的意义不一样，更何况，俺就是专门干这个的，嘿嘿嘿要做一个网站，而且从零开始，首先呢就是技术选型了，经过一番思量决定选择-SpringBoot做后端，前端使用Vue做一
阅读《认知觉醒》读书笔记就看看书
本周阅读了周岭的《认知觉醒开启自我改变的原动力》，启发较多，故做读书笔记一则，留待学习。全书共八章，讲述了大脑、潜意识、元认知、专注力、学习力、行动力、情绪力及成本最低的成长之道。具体描述了大脑、焦虑、耐心、模糊、感性、元认知、自控力、专注力、情绪专注、学习专注、匹配、深度、关联、体系、打卡、反馈、休息、清晰、傻瓜、行动、心智宽带、单一视角、游戏心态、早起、冥想、阅读、写作、运动等相关知识点。大脑
阅读笔记：阅读方法中的逻辑和转念施吉涛
聊聊一些阅读的方法论吧，别人家的读书方法刚开始想写，然后就不知道写什么了，因为作者写的非常的“精致”我有一种乡巴佬进城的感觉，看到精美的摆盘，精致的食材不知道该如何下口也就是《阅读的方法》，我们姑且来试一下强劲的大脑篇，第一节：逻辑通俗的来讲，也就是表达的排列和顺序，再进一步就是因果关系和关联实际上书已经看了大概一遍，但直到打算写一下笔记的时候，才发现作者讲的推理更多的是阅读的对象中呈现出的逻辑也
《转介绍方法论》学习笔记小可乐的妈妈
一、高效转介绍的流程：价值观---执行----方案一）转介绍发生的背景：1、对象：谁向谁转介绍？全员营销，人人参与。①员工的激励政策、客户的转介绍诱因制作客户画像：a信任；支付能力；意愿度；便利度（根据家长具备四个特征的个数分为四类）B性格分类C职业分类D年龄性别②执行：套路，策略，方法，流程2、诱因：为什么要转介绍？认同信任；多方共赢；传递美好；零风险承诺打动人心，超越期待。选择做教育，就是选择
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
解决Obsidian写笔记中的＜img＞标签无法显示图片的问题全能全知者笔记
Obsidian中写md笔记如果使用标签会显示不出图案，后来才知道因为Obsidian的问题导致只能用绝对路径定位。所以我本人写了一个py插件，将md笔记里的img标签批量替换成Obsidian能够读取的形式。安装FixObsImgDpy:pipinstallFixObsImgDpy安装完成后在需要修复的md文件的父目录下运行命令:FixObsImgDpy就会自动修复父目录以下的全部md文件仓库
2021年周总结 03 Ruby之家
这周的生活过得也是比较快，因为暂时住的离公司有点距离，所以通勤时间相对较长一点，而在地铁上的一个半小时如何充分利用起来，则是我最近一直在思考的问题，2021年想让自己的生活都运行在计划中。(有时候自己想干一件事情就总是给自己找很多借口，想着以后怎么怎么样？然而哪有那么多的以后，能够方便当下的工作生活就立马执行就OK，这仅仅只是我此时想到背的很重的老人机笔记本电脑，也算是陪伴我快8年的—当时买的时候
2021-12-11 人生导演
今天读到佛学书籍的一段话：初学者很难直接体验到无我，但可以经常提醒自己：一切事物都是无我的。不断强化这个观念，也会相当有帮助。比如生病了我们一般会说：“我不舒服！我很痛！我很惨！”这时候如果我们提醒自己：没有我，只是这个肉体的某些部分、某些功能出了问题，不舒服、疼痛也只是一时的感受，而感受随时在变化。仅仅是知道没有一个实存的我在生病、在受苦。然后把“一切事物都是无我的”这句话，记到笔记上，并且朗读
新能源汽车 BMS 学习笔记篇—BMS 基本定义及分类 WPG大大通其他笔记汽车 BMS 经验分享新能源电池
一、BMS定义1、概念：BMS（BatteryManagementSystem）即电池管理系统，其管理对象是二次电池（充电电池或蓄电池），其主要目的是电池的利用率，防止电池出现过度充电和过度放电，可应用于电动汽车、电瓶车、机器人、无人机等图片来源：腾讯网https://new.qq.com《标准普尔警告，电动汽车电池生产面临供应链和地缘政治风险》2、四大功能①感知和测量：检测电池的电压、电流、温度
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
LeetCode github集合，附CMU大神整理笔记 Wesley@ LeetCode github
GithubLeetCode集合本人所有做过的题目都写在一个java项目中，同步到github中了，算是见证自己的进步。github目前同步的题目是2020-09-17日之后写的题。之前写过的题会陆续跟新到github中。目前大概400个题目Github项目链接：https://github.com/sunliancheng/leetcode_github附上一份优秀的教材整合：这是卡内基梅隆(C
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s