R语言——字符串处理

  • 1) nchar

取字符数量的函数
length与nchar不同,length是取向量的长度

# nchar表示字符串中的字符的个数
nchar("abcd")
[1] 4
  • 2) length表示向量中元素的个数

length("abcd")
[1] 1
length(c("hello", "world"))
[1] 2
  • 3)chartr

字符替换

chartr(old="a", new="c", x="a123")
[1] "c123"

chartr(old="a", new="A", x="data")
[1] "dAtA"
  • 4)paste和paste0

字符串粘合函数
paste在不指定分割符的情况下,默认分割符是空格
paste0在不指定分割符的情况下,默认分割符是空

# 默认以空格隔开
paste("Hello","world")
[1] "Hello world"

# 没有空格
paste0("Hello","world")
[1] "Helloworld"

# 指定分割符
paste("abc", "efg", "hijk", sep = "-")
[1] "abc-efg-hijk"

# 分别对向量的每一个元素进行连接
paste0("A", 1:6, sep = "")
[1] "A1" "A2" "A3" "A4" "A5" "A6"

# collapse参数:每一个元素操作之后,再把向量的每一个元素进行连接
paste0("A", 1:6, sep = "",collapse = "-")
[1] "A1-A2-A3-A4-A5-A6"
  • 5)substr

字符串截取函数

substr(x = "hello", start = 1, stop = 2)
[1] "he"
  • 6)strsplit

字符串的分割函数,可以指定分割符,生成一个list

strsplit("abc", split = "")
[[1]]
[1] "a" "b" "c"
如果要对一个向量使用该函数,需要注意。
  • 7)unlist分割向量的每一个元素,并取分割后的第一个元素

unlist(lapply(X = c("abc", "bcd", "dfafadf"), FUN = function(x) {return(strsplit(x, split = "")[[1]][1])}))
[1] "a" "b" "d"
  • 8)gsub和sub

字符串替换
gsub替换匹配到的全部
sub 替换匹配到的第一个

# 将b替换为B
gsub(pattern = "b", replacement = "B", x = "baby")
[1] "BaBy"

gsub(pattern = "b", replacement = "B", x = c("abcb", "boy", "baby"))
[1] "aBcB" "Boy"  "BaBy"
  • 9) sub只替换第一个b

sub(pattern = "b", replacement = "B", x = "baby")
[1] "Baby"

sub(pattern = "b", replacement = "B", x = c("abcb", "baby"))
[1] "aBcb" "Baby"
  • 10) grep和grepl

字符串匹配
grep函数返回的是索引值
grepl函数返回的是逻辑值

# 返回匹配到的元素的索引
grep(pattern = "boy", x = c("abcb", "boy", "baby"))
[1] 2

# 返回逻辑值
grepl(pattern = "boy", x = c("abcb", "boy", "baby"))
[1] FALSE  TRUE FALSE
  • 11) match

match:匹配两个向量,返回x中存在的返回索引或TRUE、FALSE
match函数使用格式有如下两种:

参数详解

  • x: 向量, 要匹配的值;
  • table: 向量, 被匹配的值;
  • nomatch: 没匹配上的返回值, 必须是整数;
  • incomparables: 指定不能用来匹配的值.

第一种方便设置参数,返回x中元素在table中的位置

#match(x, table, nomatch = NA_integer_, incomparables = NULL)
match(c(1, "TRUE"), c(T, 0, "1"))
#返回3 1,即1位于表中的3号位,TRUE位于1号位,且T和TRUE可匹配成功

第二种简洁,返回x中每个元素在table中是否存在

#  x %in% table
c(1, "TRUE", F) %in% c(T, 0, "1")
#返回TRUE TRUE FALSE,表示每个元素在table中是否存在
  • 12) pmatch

pmatch函数是一个部分匹配函数, 依次从x里面挑出元素, 对照table进行匹配, 若匹配上则剔除匹配上的值, 不再参与下次匹配, duplicate.ok可设置是否剔除; 对于某一个元素, 匹配一共分成三步:

如果可以完全匹配, 则认为匹配上了, 返回table中的位置;
不满足上述条件, 如果是唯一部分匹配, 则返回table中的位置;
不满足上述条件, 则认为没有值与其匹配上.
pmatch函数的格式

pmatch(x, table, nomatch = NA_integer_, duplicates.ok = FALSE)

  • x: 向量, 要匹配的值;
  • table: 向量, 被匹配的值;
  • nomatch: 没匹配上的返回值, 必须是整数;
  • duplicates.ok: table里面的元素是否可以适用多次.
    默认不允许重复使用table中元素,返回位置1 2 3
pmatch(rep(1, 3), rep(1, 5))
#允许重复,返回位置1 1 1
pmatch(rep(1, 3), rep(1, 5), duplicates.ok = TRUE)

你可能感兴趣的:(R语言——字符串处理)