Pandas 提供了若干个函数来格式化时间。
其中,最常用的是 to_datetime()
函数。
可以使用 to_datetime()
函数将一个字符串解析为时间,并指定字符串的格式。例如:
import pandas as pd
# 将字符串 "2022-01-01" 转为时间格式
time = pd.to_datetime("2022-01-01", format="%Y-%m-%d")
print(time)
输出:
:2022-01-01 00:00:00
还可以使用 strftime()
函数将时间格式化为字符串。例如:
import pandas as pd
# 将时间 "2022-01-01 00:00:00" 格式化为字符串
time_str = pd.to_datetime("2022-01-01 00:00:00").strftime("%Y-%m-%d")
print(time_str)
输出:
<class 'str'>:2022-01-01
如果想要格式化某一列中的时间,可以使用 pandas
的 to_datetime
函数。
例如,假设你有一个名为 df
的数据,并且你想要格式化其中一列名为 “Date” 的时间列,你可以这样做:
df['Date'] = pd.to_datetime(df['Date'])
这将会将 “Date” 列中的所有时间转换为 Pandas 的时间数据类型。你也可以指定一个特定的时间格式,例如:
df['Date'] = pd.to_datetime(df['Date'], format='%Y-%m-%d %H:%M:%S')
这将会将 “Date” 列中的所有时间按照指定的格式转换为 Pandas 的时间数据类型。
但是,我在修改以下数据的格式时,想要把listed_date和delisted_date格式化为字符串,出现了错误。
sec_id sec_name listed_date delisted_date
2716 hc2301 热轧卷板2301 2022-01-18 00:00:00+08:00 2023-01-16 00:00:00+08:00
2717 hc2302 热轧卷板2302 2022-02-16 00:00:00+08:00 2023-02-15 00:00:00+08:00
2718 hc2303 热轧卷板2303 2022-03-16 00:00:00+08:00 2023-03-15 00:00:00+08:00
2719 hc2304 热轧卷板2304 2022-04-18 00:00:00+08:00 2023-04-17 00:00:00+08:00
2720 hc2305 热轧卷板2305 2022-05-17 00:00:00+08:00 2023-05-15 00:00:00+08:00
2721 hc2306 热轧卷板2306 2022-06-16 00:00:00+08:00 2023-06-15 00:00:00+08:00
2722 hc2307 热轧卷板2307 2022-07-18 00:00:00+08:00 2023-07-17 00:00:00+08:00
2723 hc2308 热轧卷板2308 2022-08-16 00:00:00+08:00 2023-08-15 00:00:00+08:00
2724 hc2309 热轧卷板2309 2022-09-16 00:00:00+08:00 2023-09-15 00:00:00+08:00
2725 hc2310 热轧卷板2310 2022-10-18 00:00:00+08:00 2023-10-16 00:00:00+08:00
2726 hc2311 热轧卷板2311 2022-11-16 00:00:00+08:00 2023-11-15 00:00:00+08:00
2727 hc2312 热轧卷板2312 2022-12-16 00:00:00+08:00 2023-12-15 00:00:00+08:00
格式化代码如下:
data_choose['listed_date'] = data_choose['listed_date'].dt.strftime('%Y-%m-%d %H:%M:%S')
data_choose['delisted_date'] = data_choose['delisted_date'].dt.strftime('%Y-%m-%d %H:%M:%S')
报错:
SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame
See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
推测错误原因:
不能直接修改原来的dataframe上的列,然后再替换原来的列数据。
于是,复制了一个数据副本:
data_new = data_choose.copy()
data_new['listed_date'] = data_choose['listed_date'].dt.strftime('%Y-%m-%d %H:%M:%S')
data_new['delisted_date'] = data_choose['delisted_date'].dt.strftime('%Y-%m-%d %H:%M:%S')
在复制的数据上进行修改,果然没再报错。
输出:
sec_id sec_name listed_date delisted_date
2716 hc2301 热轧卷板2301 2022-01-18 00:00:00 2023-01-16 00:00:00
2717 hc2302 热轧卷板2302 2022-02-16 00:00:00 2023-02-15 00:00:00
2718 hc2303 热轧卷板2303 2022-03-16 00:00:00 2023-03-15 00:00:00
2719 hc2304 热轧卷板2304 2022-04-18 00:00:00 2023-04-17 00:00:00
2720 hc2305 热轧卷板2305 2022-05-17 00:00:00 2023-05-15 00:00:00
2721 hc2306 热轧卷板2306 2022-06-16 00:00:00 2023-06-15 00:00:00
2722 hc2307 热轧卷板2307 2022-07-18 00:00:00 2023-07-17 00:00:00
2723 hc2308 热轧卷板2308 2022-08-16 00:00:00 2023-08-15 00:00:00
2724 hc2309 热轧卷板2309 2022-09-16 00:00:00 2023-09-15 00:00:00
2725 hc2310 热轧卷板2310 2022-10-18 00:00:00 2023-10-16 00:00:00
2726 hc2311 热轧卷板2311 2022-11-16 00:00:00 2023-11-15 00:00:00
2727 hc2312 热轧卷板2312 2022-12-16 00:00:00 2023-12-15 00:00:00
另一种格式化方式,并不会出错:
# 把日期改为字符串
data_choose.listed_date = data_choose.listed_date.apply(lambda x: x.strftime("%Y-%m-%d %H:%M:%S"))
# 把时间列转为字符串
data_choose.delisted_date = data_choose.delisted_date.apply(lambda x: x.strftime("%Y-%m-%d %H:%M:%S"))
这里对列使用了apply()和lambda函数,相当于遍历列的数据进行修改替换。
直接使用pd.to_datetime()就可以了。
这里不会出现错误。
# 把列转为时间格式
data_new.listed_date = pd.to_datetime(data_new.listed_date)
data_new.delisted_date = pd.to_datetime(data_new.delisted_date)