R语言中字符串的处理(1/3)-长度计算,大小写转化,排序,空格去除,复制,拼接

本文转自微信公众号: 一遇之见 的 大作 R中字符串处理:函数实现 。原文太长了,分三次学习、消化。

本文主要介绍如何通过R语言的基础函数和stringr包中的函数实现字符串的常见处理。特别注意的的是R中的基础函数和stringr包函数有两个很大的不同。

  • 书写方式不同。大多数基础函数处理规则多作为第一参数,而被处理对象放在第二位置;stringr包中的函数被处理对象为第一参数,而处理规则作为第二参数。

grep(pattern, x, ...)
str_detect(string, pattern, ...)

  • 执行的原理不一致。有很多基础函数的处理规则往往是针对单元素的,即使强制用多元素能成功执行,但结果也往往只执行第一个元素;而stringr包中的函数通常可对多元素执行操作,执行操作时将短的字符串重复,长度一致后在相同位置执行。

字符串的常见的计算包括:字符串长度计算,大小写转化,排序,空格去除,复制,拼接,分割,提取,替换,匹配查询(这里只介绍函数的实现效果,而不介绍正则表达式原则)。

字符串长度计算
  • 字符向量长度计算函数:length
    其返回字符向量的长度,而非字符串中字符的长度。
name = c("Li Bai","Du Fu", "Shakespeare")
length(name)
##[1] 3
  • 字符串长度计算函数:
    ncharstr_lengthstr_count均可计算字符串的长度。由于R通常是向量化操作,所以ncharstr_lengthstr_count对于字符向量可以返回字符向量中每个元素的长度。
library(stringr)
nchar(name)
## [1]  2  2 11
str_length(name)
## [1]  2  2 11
str_count(name)
## [1]  2  2 11

尽管函数str_count可以现实字符向量中字符串长度的计算,但是更多的时候用来计算特定字符串出现的次数,其计算的原理前面已经提到过:串短的字符串重复,长度一致后在相同位置特定字符串个数的统计。

fruit <- c("apple", "banana", "pear", "pineapple")
str_count(fruit) # 字符向量中字符长度计算
## [1] 5 6 4 9
str_count(fruit, "a") # "a"重复四次,与fruit在相同位置,查询"a"出现的次数
## [1] 1 3 1 1
str_count(fruit, "p")
## [1] 2 0 1 3
str_count(fruit, "e")
## [1] 1 0 1 2
str_count(fruit, c("a", "b", "p", "p"))  # 按位置一一对应查询
## [1] 1 1 1 3

## ----------------------------------------------------------------
str_count(c("a.", "...", ".a.a"), "\\.")   # 字符"."次数查询
## [1] 1 3 2
str_count(c("a.", "...", ".a.a"), fixed("."))  # 字符"."次数查询
## [1] 1 3 2
字符大小写转化
  • 函数tolower,将向量中的元素转化为小写字母
  • 函数toupper,将向量中的元素转化为大写字母
  • 函数casefold,将向量中的元素转化为小或大写字母(upper = F,转化为小写;upper = T,转化为大写)
  • 函数chartr,按指定的规则进行转换
x <- c("Hellow", "World", "!")
tolower(x)
## [1] "hellow" "world"  "!"
toupper(x)
## [1] "HELLOW" "WORLD"  "!"
casefold(x) # 默认upper = F
## [1] "hellow" "world"  "!"
casefold(x, upper = T)
## [1] "HELLOW" "WORLD"  "!"
chartr('ol', 'pm', x)  # o转化为p,l转化为m
## [1] "Hemmpw" "Wprmd"  "!"

DNA <- "AtGCtttACC"  # DNA为长度为1的字符向量
tolower(DNA)
## [1] "atgctttacc"
toupper(DNA)
## [1] "ATGCTTTACC"
chartr("Tt", "Uu", DNA)  # T转化为U,t转化为u
## [1] "AuGCuuuACC"
chartr("Tt", "UU", DNA)
## [1] "AUGCUUUACC"
字符串排序函数:sort, str_sortorder,str_order
  • orderstr_order按一定条件有序返回字符串在向量中位置的索引值;
  • sortstr_sort直接按一定条件有序返回字符串。
    这里,R的基础函数order,sort与函数str_sort,str_order默认的排序规则是略有差异的。
name = c("li bai", "du fu","Shakespeare")

order(name)
## [1] 2 1 3
str_order(name) # 俩函数的区别在哪里?
## [1] 2 1 3

sort(name)
## [1] "du fu"       "li bai"      "Shakespeare"
str_sort(name)  #?
## [1] "du fu"       "li bai"      "Shakespeare"

此外,还需要强调一下str_orderstr_sort函数可以对字符串中的数字按数字顺序处理。

x = c("R1", "R3", "R11", "R4")

str_order(x)  # 返回位置索引值,且以首个数字排序
## [1] 1 3 2 4
str_order(x, numeric = T) # 按真正的“数值”排序
## [1] 1 2 4 3

str_sort(x) 
## [1] "R1"  "R11" "R3"  "R4"
str_sort(x, numeric = T)
## [1] "R1"  "R3"  "R4"  "R11"
字符串中空格去除函数:str_trim

函数str_trim可以去除字符串中的空格,通过参数side设置去除字符串开头、结尾、结尾和开头中的空格,但不能去除字符串中间的空格。

fruit = c(" apple", "pear ", "ban ana")

str_trim(fruit)
## [1] "apple"   "pear"    "ban ana"
str_trim(fruit, side = "left")
## [1] "apple"   "pear "   "ban ana"
str_trim(fruit, side = "right")
## [1] " apple"  "pear"    "ban ana"
字符串复制函数:repstr_dup

函数repstr_dup均可对字符串进行复制。函数rep会使向量中元素个数重复,向量长度会增加;函数str_dup使向量中每个元素值重复,向量的长度不增加。

rep(c("mn", "xy", "abc", "ef"), 1:4)  #1:4对应前面每个元素
##  [1] "mn"  "xy"  "xy"  "abc" "abc" "abc" "ef"  "ef"  "ef"  "ef"
str_dup(c("mn", "xy", "abc", "ef"), 1:4)
## [1] "mn"        "xyxy"      "abcabcabc" "efefefef"
字符串拼接函数:pastestr_c

R中基础函数pastestr_c都可以实现字符串的拼接,函数paste拼接时默认使用空格,函数str_c拼接时默认没有空格。参数sep可以设置拼接使用的拼接符。

paste("A", 1:4)
## [1] "A 1" "A 2" "A 3" "A 4"
str_c("A", 1:4)
## [1] "A1" "A2" "A3" "A4"

paste("A", 1:4, sep = "-")
## [1] "A-1" "A-2" "A-3" "A-4"
paste("A", 1:4, sep = "-", collapse = "+")
## [1] "A-1+A-2+A-3+A-4"

paste(c("A","B", NA, "C"), 1:4)    # NA 参与拼接
## [1] "A 1"  "B 2"  "NA 3" "C 4"
str_c(c("A","B", NA, "C"), 1:4)   # NA 不参与拼接
## [1] "A1" "B2" NA   "C4"

paste函数还有一个用法,设置collapse参数,连成一个字符串。

x = c("R1", "R3", "R11", "R4")
y = c("Zhang", "Lee", "Wang", "Zhao")

paste(x, y, sep = "-", collapse = "; ")
## [1] "R1-Zhang; R3-Lee; R11-Wang; R4-Zhao"
paste(x, collapse = "; ")
## [1] "R1; R3; R11; R4"

你可能感兴趣的:(R语言中字符串的处理(1/3)-长度计算,大小写转化,排序,空格去除,复制,拼接)