数据科学 第 3 章 11 字符串处理

本节是通过函数,查看值包含了哪些字符串,有点像搜索关键词
主要的函数是:
str.*()
str.len() 长度
str.contains() 包含**字符

书中用到的是通过查找关键词,查看包含这些原料的菜谱有哪些。 结合现在的,我觉得可以在处理推广数据时,通过设置好的参数来分析url中的用户来源。

查看了word列的字符串长度,平均搜索词的长度为8.8,75%是搜索词在10个以内,最长的有95个字符

df.word.str.len().describe()

Out:
count    2324.000000
mean        8.767642
std         4.695302
min         0.000000
25%         6.000000
50%         8.000000
75%        10.000000
max        95.000000
Name: word, dtype: float64

查看字符大于50个的数据,执行代码后只有2条数据。

df[df.word.str.len() > 50]

# 如果想查看字符串长度大于30的数据有多少条,可以用
df[df.word.str.len() > 30].count()

Out:
date       15
id         15
word       15
rank1      15
number1    15
url        15
dtype: int64

-- 查找是否包含某些字符

str.contains

#word列包含‘家’字的数据是什么
df[df.word.str.contains('家')]

还可以用input()的方法,来查找输入的字符是否在word列中

keyw = input()
df[df.url.str.contains(keyw)

就这样,下节学习时间格式的处理,然后第3章就结束了,拜拜。

你可能感兴趣的:(python,pandas,数据处理)