pandas 滑动窗口 分析

文章目录

        • **问题:30分钟内,某一字段重复出现的次数大于N值,将信息记录下来**
        • 尝试解决方案

问题:30分钟内,某一字段重复出现的次数大于N值,将信息记录下来

  • 使用pandas滑动窗口函数rolling
    • df.rolling(windows=n, freq=‘s’).sum()/meam()
  • 时间不连续的情况下,使用计算类型的函数得到Nan值

尝试解决方案

  • 获取需要处理数据的最大时间和最小时间
  • 计算时间差
  • 生成新的DataFrame
  • 将要计算的数据更新到上个df中
  • 分析
# 获取需要处理数据的最大时间和最小时间
N = 50
max_time = df[-1]
min_time = df[0]
# 计算时间差
time_diff = (max_time - min_time).total_seconds() + 1
new_index = pd.date_range(start=min_time, periods=time_diff, freq="S")
# 生成新的DataFrame
new_df = pd.DataFrame(data=0, index=new_index, columns['df columns name'])
# 将要计算的数据更新到上个df中
new_df.update(df)
res = new_df.rolling(window=1800, freq='S').sum()
result = res[(res['df columns name'] >= N)]

你可能感兴趣的:(pandas)