自然语言处理笔记002----字符串处理

NLP处理的对象是文本字符串内容,一般来讲,文本基本都是有字符串构成的。文本基本上也是由字符串组成的。

1.lstrip  rstrip strip--->去掉特殊字符,包括空格,换行符等

import numpy as np
s="   hello,我是风清扬,我会独孤九剑。。。哈哈哈!!!!   "
#去掉开头空格
s1=s.lstrip()
#去掉结尾空格
s2=s.rstrip()
#去掉首尾空格
s3=s.strip()
print(s1)
print(s2)
print(s3)
print(s)

结果:

hello,我是风清扬,我会独孤九剑。。。哈哈哈!!!!   
   hello,我是风清扬,我会独孤九剑。。。哈哈哈!!!!
hello,我是风清扬,我会独孤九剑。。。哈哈哈!!!!
   hello,我是风清扬,我会独孤九剑。。。哈哈哈!!!! 

2.repalce,替换字符串中的字符或者子字符串。但不改变原来的字符串

s="   hello,我是风清扬,我会独孤九剑。。。哈哈哈!!!!   "
s4=s.replace("hello","幸会")
print(s4)
print(s)
#同样,可以使用替换的功能删除某个子串
s5=s.replace("。。。哈哈哈!!   ","")
print(s5)

结果:

   幸会,我是风清扬,我会独孤九剑。。。哈哈哈!!!!   
   hello,我是风清扬,我会独孤九剑。。。哈哈哈!!!!   
   hello,我是风清扬,我会独孤九剑。。。哈哈哈!!!!  

3.字符串截取

my_hello="大家好,我是风清扬,来自于华山派,成名绝技:独孤九剑!"
#从左到右切片,左闭右开。
print(my_hello[0:3])
#中间位置切片
print(my_hello[4:4+5])
#从尾部开始切片
print(my_hello[-1-4:-1])
#有步长切片
print(my_hello[::2])
#翻转
print(my_hello[::-1])

运行结果:

大家好
我是风清扬
独孤九剑
大好我风扬来于山,名技独九!
!剑九孤独:技绝名成,派山华于自来,扬清风是我,好家大

4.字符串拼接与分割

dfbb="大家好,我是东方不败。来自日月神教!"
fqy="大家好,我是风清扬。来自华山派!"
#字符串相加
str1=dfbb+fqy
print(str1)
#join的用法:
s=["大家好","我是任我行","我会吸星大法","我要找东方不败报仇"]
str2=":".join(s)
print(str2)
# 通过split的方式切分,返回值是一个列表
tmp_str = "我是陆超;我是李雪琴;我是毛毛姐,好high哟,感觉人生已经达到了高潮,感觉人生已经达到了巅峰"
str3=tmp_str.split(";")
print(str3)

运行结果:

大家好,我是东方不败。来自日月神教!大家好,我是风清扬。来自华山派!
大家好:我是任我行:我会吸星大法:我要找东方不败报仇
['我是陆超', '我是李雪琴', '我是毛毛姐,好high哟,感觉人生已经达到了高潮,感觉人生已经达到了巅峰']

5.查找

tmp_str = "我是陆超;我是李雪琴;我是毛毛姐,好high哟,感觉人生已经达到了高潮,感觉人生已经达到了巅峰"
#find 返回子串在原字符串中的首索引
str4=tmp_str.find("毛毛")
print(str4)
str5=tmp_str.index("毛毛")
print(str5)

运行结果:

13
13

6.大小写互换

s="hello,my name is FengQingyang"
#转为小写
s1=s.lower()
print(s1)
#转为大写
s2=s.upper()
print(s2)
#首字母大写
s3=s.capitalize()
print(s3)

运行结果:

hello,my name is fengqingyang
HELLO,MY NAME IS FENGQINGYANG
Hello,my name is fengqingyang

暂时先总结这么多吧,以后碰到相关的内容再补写

 

 

 

 

 

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(自然语言处理,nlp,字符串,python)