pandas计算连续行为天数的几种思路

我需要统计数据中缺失字段的日期跨度,并统计缺失数据条数。可以用pandas分组聚合计数。
pandas计算连续行为天数的几种思路_第1张图片

import pandas as pd

data = pd.read_excel("缺失字段.xlsx")
t = data.loc[data["当日最高温"].isnull(), "dates"]
groupids = pd.to_datetime(data["dates"]) - pd.to_timedelta(data.dates.rank(), unit='d')
x = t.groupby(groupids).agg([
    ('dates', lambda x: f"{x.min()}~{x.max()}"),
    ("当日最高温", "count")
])
print(x.loc[:, x.columns.values[1:]])

输出结果:当日最高温缺失日期为2019-04-19~2022-10-24,缺失1285条数据
pandas计算连续行为天数的几种思路_第2张图片

参考:
https://cloud.tencent.com/developer/article/1856580

你可能感兴趣的:(机器学习,python,数据分析)