在Pandas中,Series是一个由一维数组表示的DataFrame列,而replace和str.replace是Series对象的两种方法。虽然它们的名称相似,并且都用于替换Series的值,但实际上它们之间存在不同之外。
函数语法:
Series.replace(to_replace=None, value=None, inplace=False, limit=None, regex=False, method=‘pad’,)
参数说明:
参数 | 描述 |
---|---|
to_replace | 被替换的值 |
value | 替换后的值 |
inplace | 是否要改变原数据,False是不改变,True是改变,默认是False。 |
limit | 控制填充次数。 |
regex | 是否使用正则,False是不使用,True是使用,默认是False。 |
method | 填充方式,pad,ffill,bfill分别是向前,向前,向后填充。 |
replace() 是一个大范围的值替换,第一个参数指定要替换的值 ,可以是标量、列表、字典或正则表达式。第二个参数指定用于替换匹配值的新值。
import pandas as pd
data = pd.DataFrame({'A': [1, 80, 4],
'B': [9, 80, 5],
'C': ['foo','another foo bar','baz']})
print("data:\n", data)
print("data.dtypes:\n", data.dtypes)
#用dict进行单值、多值填充
data['C'].replace({'foo':'hello'}) #将C列中的foo替换成hello。
data['C'].replace({'foo':'hello','baz':'bus'}) #将C列中的foo替换成hello,baz替换成bus。
data.replace({1,9},{'a','b'}) #1被a替换,9被b替换。
#用list进行单值、多值填充
data['C'].replace(['foo','baz'])#将C列中的foo替换成hello。
data['C'].replace(['foo','baz'],['hello','bus']) #将C列中的foo替换成hello,baz替换成bus。
data.replace([1,9],'b') #1,9都被b替换。
#替换全部
data.replace(80,8)
#某一列或者某几列
data['B'].replace(9,20) #将B列中的9替换成20。
data[['A','B']].replace(80,8) #将A、B列中的9替换成20。
#某一行或者某几行
data.iloc[1].replace(80,8) #第二行的80替换成8。
data.iloc[0:1].replace(80,8) #第一、二行的80替换成8。
#inplace=True,改变原数据
data.replace(80,8,inplace=True)
data.iloc[0:1].replace(80,8,inplace=True)
函数语法:
Series.str.replace(pat, repl,n=-1,case=None,flags=0,regex=None)
参数说明:
参数 | 描述 |
---|---|
pat | 要查找的字符串,string,不可省略的参数。 |
repl | 替换的字符串,string,可以调用函数,不可省略的参数。 |
n | 要进行替换的次数,默认全部。 |
case | 是否区分大小写。 |
flags | re模块中的标志。如re.IGNORECASE。 |
regex | 是否设置为正则表达式,False是不使用,True是使用,默认是True。 |
str.replace() 仅用于字符串匹配和替换,接受两个参数,第一个参数指定要替换的模式,仅限于正则表达式,第二个参数指定要用于替换的字符串。
import pandas as pd
data = pd.DataFrame({'A': ['1', '2', '4'],
'B': ['2023/9/9', '2023/8/8','2023/5/4'],
'C': ['FOO','ANOther foo bar','BAZ']})
print("data:\n", data)
print("data.dtypes:\n", data.dtypes)
#普通替换
data['C'].str.replace('FOO','foo') #将C列中FOO替换成foo。
#正则表达式的替换
data['B'].str.replace('[/]','-')
#预编译好的正则表达式替换
import pandas as pd
import re
pat=re.compile('[/]')
data['B'].str.replace(pat,'-')
#函数替换
data['C'].str.replace('[A-Z]',lambda x:x.group().lower()) #将C列中大写字母替换成小写字母。
1、replace()方法可以用于数字、布尔值和任何可替换的数据类型,而str.replace()方法仅适用于字符串。
举例1
要求:将整个dataframe中数据列B的9替换成20,使用replace()方法。
import pandas as pd
data = pd.DataFrame({'A': ['1', '2', '4'],
'B': [9, 80, 5],
'C': ['FOO','ANOther foo bar','BAZ']})
print("data:\n", data)
print("data.dtypes:\n", data.dtypes)
运行结果:
data:
A B C
0 1 9 foo
1 2 80 another foo bar
2 4 5 baz
data.dtypes:
A object
B int64
C object
dtype: object
data['B'].replace(9,20)
运行结果:
0 20
1 80
2 5
Name: B, dtype: int64
举例2
要求:将整个dataframe中数据列B的9替换成20,使用str.replace()方法。
data['B'].str.replace(9,20)
运行结果:
我们可以看数据列B是int64数据类型,因此直接使用str.replace() 会报以下错误提示,因为str.replace()只针对字符串数据类型的列有效。
2、replace()方法可以一次为多个列工作,如果有需要,可以对整个DataFrame的值进行替换。
举例1
要求:将整个dataframe中的9替换成90,使用replace()方法。
import pandas as pd
data = pd.DataFrame({'A': [9, 20, 40],
'B': [9, 80,5],
'C': ['foo','another foo bar','baz']})
print("data:\n", data)
print("data.dtypes:\n", data.dtypes)
print(data.replace({'foo':'hello',9:'bus'})) #将C列中的foo替换成hello,A、B列中9替换成bus。
运行结果:
A B C
0 bus bus hello
1 20 80 another foo bar
2 40 5 baz
print(data.replace(9,90)) #将整个dataframe中的9替换成90
运行结果:
A B C
0 90 90 foo
1 20 80 another foo bar
2 40 5 baz
举例2
要求:将整个dataframe中的9替换成90,使用str.replace()方法。
import pandas as pd
data = pd.DataFrame({'A': ['9', '20', '40'],
'B': ['9', '80','5'],
'C': ['foo','another foo bar','baz']})
print("data:\n", data)
print("data.dtypes:\n", data.dtypes)
data.str.replace('9','90')
data.str.replace({'foo':'hello','9':'bus'})
使用str.replace对整个dataframe进行替换会报以下错误提示。
3、replace()方法可以一次执行多个独立的替换,str.replace()方法一次只可以替换一件事。
举例1
要求:将整个dataframe中的数据列C中foo替换成text1,bar替换成text2。
import pandas as pd
data = pd.DataFrame({'A': ['9', '20', '40'],
'B': ['9', '80','5'],
'C': ['foo','another foo bar','baz']})
print("data:\n", data)
print("data.dtypes:\n", data.dtypes)
data['C'].str.replace('foo','text1').str.replace('bar','text2')
运行结果:
0 text1
1 another text1 text2
2 baz
Name: C, dtype: object
#更好的表达方式
data['C'].replace({'foo': 'text1', 'bar': 'text2'}, regex=True)
data['C'].replace('foo','text1',regex=True).replace('bar','text2'}, regex=True)
运行结果:
0 text1
1 another text1 text2
2 baz
4、replace()方法是默认regex=False,str.replace()方法是默认启用正则表达式替换。两者方法默认行为的差异:
举例1
import pandas as pd
data = pd.DataFrame({'A': ['9', '20', '40'],
'B': ['9', '80','5'],
'C': ['foo','another foo bar','baz']})
print("data:\n", data)
print("data.dtypes:\n", data.dtypes)
要求:将字符串foo全部替换字符串text1。
data['C'].replace('foo','text1') #默认情况下,只会执行对foo全字匹配替换。
data['C'].replace('foo','text1',regex=True) #regex=True情况下,每次出现的子字符串foo都会被替换为text1。
data['C'].str.replace('foo','text1') #默认情况下,每次出现的子字符串foo都会被替换为text1。
导入数据
import os
import pandas as pd
import numpy as np
#读取文件
def read_file(filepath):
os.chdir(os.path.dirname(filepath))
return pd.read_csv(os.path.basename(filepath),encoding='utf-8')
file_pos="F:\\python_test\\data_1.csv"
data_pos=read_file(file_pos)
data_pos
查看数据情况
data_pos.dtypes
举例1
要求:将2021金额与2022金额的 ¥ 与 , 这两个等号替换为空。
问题:使用replace无效。
def convert_currency(value):
'''
移除不是数字字符 ¥,
'''
new_value=value.replace({',':'','¥':''})
return new_value
#调用函数
a=convert_currency(data_pos['2021金额'])
a
解决方案
def convert_currency(value):
'''
移除不是数字字符 ¥,
'''
new_value=value.replace({',':'','¥':''},regex=True)
return new_value
#调用函数
a=convert_currency(data_pos['2021金额'])
a
def convert_currency(value):
'''
移除不是数字字符 ¥,
'''
new_value=value.str.replace(',','').str.replace('¥','')
return new_value
#调用函数
a=convert_currency(data_pos['2021金额'])
a
运行结果:
参考文章:
https://blog.csdn.net/m0_62011685/article/details/124716966?ydreferer=aHR0cHM6Ly9jbi5iaW5nLmNvbS8%3D
https://www.cnblogs.com/cgmcoding/p/13362539.html
https://www.coder.work/article/1269173
https://geek-docs.com/pandas/pandas-questions/419_pandas_what_is_the_difference_between_seriesreplace_and_seriesstrreplace.html