现在我们有一个这样的分类列表:
categories = ['Layer1', 'Layer2', 'Layer3', 'Layer4', 'Layer5', 'Layer6', 'WM']
我们想保留其中的分类的数字,去除字母,该怎么做呢?
首先第一步:
import pandas as pd
import re
# 原始分类数据
categories = ['Layer1', 'Layer2', 'Layer3', 'Layer4', 'Layer5', 'Layer6', 'WM']
# 保留数字,去掉字母
cleaned_categories = [re.sub(r'\D', '', cat) for cat in categories]
print(cleaned_categories) # 输出 ['1', '2', '3', '4', '5', '6', '']
这样就转化为字符型的数字啦,方法说明一下:
re.sub(r'\D', '', cat)
:
\D
匹配所有非数字字符。''
),只保留数字部分。如果某些值完全没有数字(如 'WM'
),处理后会变为空字符串(''
)。
但是我们也注意到,如果全是字母的话会出现转化后列表中有空字符的出现,那我们进行第二步,再加个条件语句,并且空值设置为7:
cleaned_categories = [
re.sub(r'\D', '', cat) if re.sub(r'\D', '', cat) else '7' for cat in categories
]
输出结果:
['1', '2', '3', '4', '5', '6', '7']
然后我们进行最后一步,将其转化为int类型的:
cleaned_categories = [
int(re.sub(r'\D', '', cat)) if re.sub(r'\D', '', cat) else 7 for cat in categories
]
注意看黄色部分代码,其实改动很小~
输出结果:
[1, 2, 3, 4, 5, 6, 7]
是不是很简单~
完整代码如下:
import pandas as pd
import re
# 原始分类数据
categories = ['Layer1', 'Layer2', 'Layer3', 'Layer4', 'Layer5', 'Layer6', 'WM']
# 保留数字,去掉字母,没有数字的值替换为 7,并转为整数
cleaned_categories = [
int(re.sub(r'\D', '', cat)) if re.sub(r'\D', '', cat) else 7 for cat in categories
]
print(cleaned_categories) # 输出 [1, 2, 3, 4, 5, 6, 7]
欢迎各位一起交流学习~