R语言中字符串的处理(1/3)-长度计算，大小写转化，排序，空格去除，复制，拼接

本文转自微信公众号: 一遇之见的大作 R中字符串处理：函数实现。原文太长了，分三次学习、消化。

本文主要介绍如何通过R语言的基础函数和stringr包中的函数实现字符串的常见处理。特别注意的的是R中的基础函数和stringr包函数有两个很大的不同。

书写方式不同。大多数基础函数处理规则多作为第一参数，而被处理对象放在第二位置；stringr包中的函数被处理对象为第一参数，而处理规则作为第二参数。

grep(pattern, x, ...)
str_detect(string, pattern, ...)

执行的原理不一致。有很多基础函数的处理规则往往是针对单元素的，即使强制用多元素能成功执行，但结果也往往只执行第一个元素；而stringr包中的函数通常可对多元素执行操作，执行操作时将短的字符串重复，长度一致后在相同位置执行。

字符串的常见的计算包括：字符串长度计算，大小写转化，排序，空格去除，复制，拼接，分割，提取，替换，匹配查询（这里只介绍函数的实现效果，而不介绍正则表达式原则）。

字符串长度计算

字符向量长度计算函数：length
其返回字符向量的长度，而非字符串中字符的长度。

name = c("Li Bai","Du Fu", "Shakespeare")
length(name)
##[1] 3

字符串长度计算函数：
nchar，str_length和str_count均可计算字符串的长度。由于R通常是向量化操作，所以nchar，str_length和str_count对于字符向量可以返回字符向量中每个元素的长度。

library(stringr)
nchar(name)
## [1]  2  2 11
str_length(name)
## [1]  2  2 11
str_count(name)
## [1]  2  2 11

尽管函数str_count可以现实字符向量中字符串长度的计算，但是更多的时候用来计算特定字符串出现的次数，其计算的原理前面已经提到过：串短的字符串重复，长度一致后在相同位置特定字符串个数的统计。

fruit <- c("apple", "banana", "pear", "pineapple")
str_count(fruit) # 字符向量中字符长度计算
## [1] 5 6 4 9
str_count(fruit, "a") # "a"重复四次，与fruit在相同位置，查询"a"出现的次数
## [1] 1 3 1 1
str_count(fruit, "p")
## [1] 2 0 1 3
str_count(fruit, "e")
## [1] 1 0 1 2
str_count(fruit, c("a", "b", "p", "p"))  # 按位置一一对应查询
## [1] 1 1 1 3

## ----------------------------------------------------------------
str_count(c("a.", "...", ".a.a"), "\\.")   # 字符"."次数查询
## [1] 1 3 2
str_count(c("a.", "...", ".a.a"), fixed("."))  # 字符"."次数查询
## [1] 1 3 2

字符大小写转化

函数tolower，将向量中的元素转化为小写字母
函数toupper，将向量中的元素转化为大写字母
函数casefold，将向量中的元素转化为小或大写字母（upper = F，转化为小写；upper = T，转化为大写）
函数chartr，按指定的规则进行转换

x <- c("Hellow", "World", "!")
tolower(x)
## [1] "hellow" "world"  "!"
toupper(x)
## [1] "HELLOW" "WORLD"  "!"
casefold(x) # 默认upper = F
## [1] "hellow" "world"  "!"
casefold(x, upper = T)
## [1] "HELLOW" "WORLD"  "!"
chartr('ol', 'pm', x)  # o转化为p，l转化为m
## [1] "Hemmpw" "Wprmd"  "!"

DNA <- "AtGCtttACC"  # DNA为长度为1的字符向量
tolower(DNA)
## [1] "atgctttacc"
toupper(DNA)
## [1] "ATGCTTTACC"
chartr("Tt", "Uu", DNA)  # T转化为U，t转化为u
## [1] "AuGCuuuACC"
chartr("Tt", "UU", DNA)
## [1] "AUGCUUUACC"

字符串排序函数：`sort`, `str_sort`和`order`,`str_order`

order和str_order按一定条件有序返回字符串在向量中位置的索引值;
sort和str_sort直接按一定条件有序返回字符串。
这里，R的基础函数order，sort与函数str_sort，str_order默认的排序规则是略有差异的。

name = c("li bai", "du fu","Shakespeare")

order(name)
## [1] 2 1 3
str_order(name) # 俩函数的区别在哪里?
## [1] 2 1 3

sort(name)
## [1] "du fu"       "li bai"      "Shakespeare"
str_sort(name)  #？
## [1] "du fu"       "li bai"      "Shakespeare"

此外，还需要强调一下str_order和str_sort函数可以对字符串中的数字按数字顺序处理。

x = c("R1", "R3", "R11", "R4")

str_order(x)  # 返回位置索引值，且以首个数字排序
## [1] 1 3 2 4
str_order(x, numeric = T) # 按真正的“数值”排序
## [1] 1 2 4 3

str_sort(x) 
## [1] "R1"  "R11" "R3"  "R4"
str_sort(x, numeric = T)
## [1] "R1"  "R3"  "R4"  "R11"

字符串中空格去除函数：`str_trim`

函数str_trim可以去除字符串中的空格，通过参数side设置去除字符串开头、结尾、结尾和开头中的空格，但不能去除字符串中间的空格。

fruit = c(" apple", "pear ", "ban ana")

str_trim(fruit)
## [1] "apple"   "pear"    "ban ana"
str_trim(fruit, side = "left")
## [1] "apple"   "pear "   "ban ana"
str_trim(fruit, side = "right")
## [1] " apple"  "pear"    "ban ana"

字符串复制函数：`rep`和`str_dup`

函数rep和str_dup均可对字符串进行复制。函数rep会使向量中元素个数重复，向量长度会增加；函数str_dup使向量中每个元素值重复，向量的长度不增加。

rep(c("mn", "xy", "abc", "ef"), 1:4)  #1:4对应前面每个元素
##  [1] "mn"  "xy"  "xy"  "abc" "abc" "abc" "ef"  "ef"  "ef"  "ef"
str_dup(c("mn", "xy", "abc", "ef"), 1:4)
## [1] "mn"        "xyxy"      "abcabcabc" "efefefef"

字符串拼接函数：`paste`和`str_c`

R中基础函数paste和str_c都可以实现字符串的拼接，函数paste拼接时默认使用空格，函数str_c拼接时默认没有空格。参数sep可以设置拼接使用的拼接符。

paste("A", 1:4)
## [1] "A 1" "A 2" "A 3" "A 4"
str_c("A", 1:4)
## [1] "A1" "A2" "A3" "A4"

paste("A", 1:4, sep = "-")
## [1] "A-1" "A-2" "A-3" "A-4"
paste("A", 1:4, sep = "-", collapse = "+")
## [1] "A-1+A-2+A-3+A-4"

paste(c("A","B", NA, "C"), 1:4)    # NA 参与拼接
## [1] "A 1"  "B 2"  "NA 3" "C 4"
str_c(c("A","B", NA, "C"), 1:4)   # NA 不参与拼接
## [1] "A1" "B2" NA   "C4"

paste函数还有一个用法，设置collapse参数，连成一个字符串。

x = c("R1", "R3", "R11", "R4")
y = c("Zhang", "Lee", "Wang", "Zhao")

paste(x, y, sep = "-", collapse = "; ")
## [1] "R1-Zhang; R3-Lee; R11-Wang; R4-Zhao"
paste(x, collapse = "; ")
## [1] "R1; R3; R11; R4"

R语言中字符串的处理(1/3)-长度计算，大小写转化，排序，空格去除，复制，拼接

字符串长度计算

字符大小写转化

字符串排序函数：sort, str_sort和order,str_order

字符串中空格去除函数：str_trim

字符串复制函数：rep和str_dup

字符串拼接函数：paste和str_c

你可能感兴趣的:(R语言中字符串的处理(1/3)-长度计算，大小写转化，排序，空格去除，复制，拼接)

字符串排序函数：`sort`, `str_sort`和`order`,`str_order`

字符串中空格去除函数：`str_trim`

字符串复制函数：`rep`和`str_dup`

字符串拼接函数：`paste`和`str_c`