-
1) nchar
取字符数量的函数
length与nchar不同,length是取向量的长度
# nchar表示字符串中的字符的个数
nchar("abcd")
[1] 4
-
2) length表示向量中元素的个数
length("abcd")
[1] 1
length(c("hello", "world"))
[1] 2
-
3)chartr
字符替换
chartr(old="a", new="c", x="a123")
[1] "c123"
chartr(old="a", new="A", x="data")
[1] "dAtA"
-
4)paste和paste0
字符串粘合函数
paste在不指定分割符的情况下,默认分割符是空格
paste0在不指定分割符的情况下,默认分割符是空
# 默认以空格隔开
paste("Hello","world")
[1] "Hello world"
# 没有空格
paste0("Hello","world")
[1] "Helloworld"
# 指定分割符
paste("abc", "efg", "hijk", sep = "-")
[1] "abc-efg-hijk"
# 分别对向量的每一个元素进行连接
paste0("A", 1:6, sep = "")
[1] "A1" "A2" "A3" "A4" "A5" "A6"
# collapse参数:每一个元素操作之后,再把向量的每一个元素进行连接
paste0("A", 1:6, sep = "",collapse = "-")
[1] "A1-A2-A3-A4-A5-A6"
-
5)substr
字符串截取函数
substr(x = "hello", start = 1, stop = 2)
[1] "he"
-
6)strsplit
字符串的分割函数,可以指定分割符,生成一个list
strsplit("abc", split = "")
[[1]]
[1] "a" "b" "c"
如果要对一个向量使用该函数,需要注意。
-
7)unlist分割向量的每一个元素,并取分割后的第一个元素
unlist(lapply(X = c("abc", "bcd", "dfafadf"), FUN = function(x) {return(strsplit(x, split = "")[[1]][1])}))
[1] "a" "b" "d"
-
8)gsub和sub
字符串替换
gsub替换匹配到的全部
sub 替换匹配到的第一个
# 将b替换为B
gsub(pattern = "b", replacement = "B", x = "baby")
[1] "BaBy"
gsub(pattern = "b", replacement = "B", x = c("abcb", "boy", "baby"))
[1] "aBcB" "Boy" "BaBy"
-
9) sub只替换第一个b
sub(pattern = "b", replacement = "B", x = "baby")
[1] "Baby"
sub(pattern = "b", replacement = "B", x = c("abcb", "baby"))
[1] "aBcb" "Baby"
-
10) grep和grepl
字符串匹配
grep函数返回的是索引值
grepl函数返回的是逻辑值
# 返回匹配到的元素的索引
grep(pattern = "boy", x = c("abcb", "boy", "baby"))
[1] 2
# 返回逻辑值
grepl(pattern = "boy", x = c("abcb", "boy", "baby"))
[1] FALSE TRUE FALSE
-
11) match
match:匹配两个向量,返回x中存在的返回索引或TRUE、FALSE
match函数使用格式有如下两种:
参数详解
- x: 向量, 要匹配的值;
- table: 向量, 被匹配的值;
- nomatch: 没匹配上的返回值, 必须是整数;
- incomparables: 指定不能用来匹配的值.
第一种方便设置参数,返回x中元素在table中的位置
#match(x, table, nomatch = NA_integer_, incomparables = NULL)
match(c(1, "TRUE"), c(T, 0, "1"))
#返回3 1,即1位于表中的3号位,TRUE位于1号位,且T和TRUE可匹配成功
第二种简洁,返回x中每个元素在table中是否存在
# x %in% table
c(1, "TRUE", F) %in% c(T, 0, "1")
#返回TRUE TRUE FALSE,表示每个元素在table中是否存在
-
12) pmatch
pmatch函数是一个部分匹配函数, 依次从x里面挑出元素, 对照table进行匹配, 若匹配上则剔除匹配上的值, 不再参与下次匹配, duplicate.ok可设置是否剔除; 对于某一个元素, 匹配一共分成三步:
如果可以完全匹配, 则认为匹配上了, 返回table中的位置;
不满足上述条件, 如果是唯一部分匹配, 则返回table中的位置;
不满足上述条件, 则认为没有值与其匹配上.
pmatch函数的格式
pmatch(x, table, nomatch = NA_integer_, duplicates.ok = FALSE)
- x: 向量, 要匹配的值;
- table: 向量, 被匹配的值;
- nomatch: 没匹配上的返回值, 必须是整数;
- duplicates.ok: table里面的元素是否可以适用多次.
默认不允许重复使用table中元素,返回位置1 2 3
pmatch(rep(1, 3), rep(1, 5))
#允许重复,返回位置1 1 1
pmatch(rep(1, 3), rep(1, 5), duplicates.ok = TRUE)