NLP处理的对象是文本字符串内容,一般来讲,文本基本都是有字符串构成的。文本基本上也是由字符串组成的。
import numpy as np
s=" hello,我是风清扬,我会独孤九剑。。。哈哈哈!!!! "
#去掉开头空格
s1=s.lstrip()
#去掉结尾空格
s2=s.rstrip()
#去掉首尾空格
s3=s.strip()
print(s1)
print(s2)
print(s3)
print(s)
结果:
hello,我是风清扬,我会独孤九剑。。。哈哈哈!!!!
hello,我是风清扬,我会独孤九剑。。。哈哈哈!!!!
hello,我是风清扬,我会独孤九剑。。。哈哈哈!!!!
hello,我是风清扬,我会独孤九剑。。。哈哈哈!!!!
s=" hello,我是风清扬,我会独孤九剑。。。哈哈哈!!!! "
s4=s.replace("hello","幸会")
print(s4)
print(s)
#同样,可以使用替换的功能删除某个子串
s5=s.replace("。。。哈哈哈!! ","")
print(s5)
结果:
幸会,我是风清扬,我会独孤九剑。。。哈哈哈!!!!
hello,我是风清扬,我会独孤九剑。。。哈哈哈!!!!
hello,我是风清扬,我会独孤九剑。。。哈哈哈!!!!
my_hello="大家好,我是风清扬,来自于华山派,成名绝技:独孤九剑!"
#从左到右切片,左闭右开。
print(my_hello[0:3])
#中间位置切片
print(my_hello[4:4+5])
#从尾部开始切片
print(my_hello[-1-4:-1])
#有步长切片
print(my_hello[::2])
#翻转
print(my_hello[::-1])
运行结果:
大家好
我是风清扬
独孤九剑
大好我风扬来于山,名技独九!
!剑九孤独:技绝名成,派山华于自来,扬清风是我,好家大
dfbb="大家好,我是东方不败。来自日月神教!"
fqy="大家好,我是风清扬。来自华山派!"
#字符串相加
str1=dfbb+fqy
print(str1)
#join的用法:
s=["大家好","我是任我行","我会吸星大法","我要找东方不败报仇"]
str2=":".join(s)
print(str2)
# 通过split的方式切分,返回值是一个列表
tmp_str = "我是陆超;我是李雪琴;我是毛毛姐,好high哟,感觉人生已经达到了高潮,感觉人生已经达到了巅峰"
str3=tmp_str.split(";")
print(str3)
运行结果:
大家好,我是东方不败。来自日月神教!大家好,我是风清扬。来自华山派!
大家好:我是任我行:我会吸星大法:我要找东方不败报仇
['我是陆超', '我是李雪琴', '我是毛毛姐,好high哟,感觉人生已经达到了高潮,感觉人生已经达到了巅峰']
tmp_str = "我是陆超;我是李雪琴;我是毛毛姐,好high哟,感觉人生已经达到了高潮,感觉人生已经达到了巅峰"
#find 返回子串在原字符串中的首索引
str4=tmp_str.find("毛毛")
print(str4)
str5=tmp_str.index("毛毛")
print(str5)
运行结果:
13
13
s="hello,my name is FengQingyang"
#转为小写
s1=s.lower()
print(s1)
#转为大写
s2=s.upper()
print(s2)
#首字母大写
s3=s.capitalize()
print(s3)
运行结果:
hello,my name is fengqingyang
HELLO,MY NAME IS FENGQINGYANG
Hello,my name is fengqingyang
暂时先总结这么多吧,以后碰到相关的内容再补写