Datawhale

Pandas处理时序数据（初学者必会）！

↑↑↑关注后"星标"Datawhale每日干货 & 每月组队学习，不错过
 Datawhale干货 
作者：耿远昊，Datawhale成员，华东师范大学

时序数据是指时间序列数据。时间序列数据是同一统一指标按时间顺序记录的数据列。在同一数据列中的各个数据必须是同口径的，要求具有可比性。时序数据可以是时期数，也可以时点数。

时间序列分析的目的是通过找出样本内时间序列的统计特性和发展规律性，构建时间序列模型，进行样本外预测。

现在，一起来学习用Pandas处理时序数据。

本文目录

1. 时序的创建

1.1. 四类时间变量

1.2. 时间点的创建

1.3. DataOffset对象

2. 时序的索引及属性

2.1. 索引切片

2.2. 子集索引

2.3. 时间点的属性

3. 重采样

3.1. resample对象的基本操作

3.2. 采样聚合

3.3. 采样组的迭代

4. 窗口函数

4.1. Rolling

4.2. Expanding

5. 问题及练习

5.1. 问题

5.2. 练习

import pandas as pd
import numpy as np

一、时序的创建

1.1. 四类时间变量

现在理解可能关于③和④有些困惑，后面会作出一些说明

1.2. 时间点的创建

（a）to_datetime方法

Pandas在时间点建立的输入格式规定上给了很大的自由度，下面的语句都能正确建立同一时间点

pd.to_datetime('2020.1.1')
pd.to_datetime('2020 1.1')
pd.to_datetime('2020 1 1')
pd.to_datetime('2020 1-1')
pd.to_datetime('2020-1 1')
pd.to_datetime('2020-1-1')
pd.to_datetime('2020/1/1')
pd.to_datetime('1.1.2020')
pd.to_datetime('1.1 2020')
pd.to_datetime('1 1 2020')
pd.to_datetime('1 1-2020')
pd.to_datetime('1-1 2020')
pd.to_datetime('1-1-2020')
pd.to_datetime('1/1/2020')
pd.to_datetime('20200101')
pd.to_datetime('2020.0101')

Timestamp('2020-01-01 00:00:00')

下面的语句都会报错

#pd.to_datetime('2020\\1\\1')
#pd.to_datetime('2020`1`1')
#pd.to_datetime('2020.1 1')
#pd.to_datetime('1 1.2020')

此时可利用format参数强制匹配

pd.to_datetime('2020\\1\\1',format='%Y\\%m\\%d')
pd.to_datetime('2020`1`1',format='%Y`%m`%d')
pd.to_datetime('2020.1 1',format='%Y.%m %d')
pd.to_datetime('1 1.2020',format='%d %m.%Y')

Timestamp('2020-01-01 00:00:00')

同时，使用列表可以将其转为时间点索引

pd.Series(range(2),index=pd.to_datetime(['2020/1/1','2020/1/2']))

type(pd.to_datetime(['2020/1/1','2020/1/2']))

pandas.core.indexes.datetimes.DatetimeIndex

对于DataFrame而言，如果列已经按照时间顺序排好，则利用to_datetime可自动转换

df = pd.DataFrame({'year': [2020, 2020],'month': [1, 1], 'day': [1, 2]})
pd.to_datetime(df)

（b）时间精度与范围限制

事实上，Timestamp的精度远远不止day，可以最小到纳秒ns

pd.to_datetime('2020/1/1 00:00:00.123456789')

Timestamp('2020-01-01 00:00:00.123456789')

同时，它带来范围的代价就是只有大约584年的时间点是可用的

pd.Timestamp.min

Timestamp('1677-09-21 00:12:43.145225')

pd.Timestamp.max

Timestamp('2262-04-11 23:47:16.854775807')

（c）date_range方法

一般来说，start/end/periods（时间点个数）/freq（间隔方法）是该方法最重要的参数，给定了其中的3个，剩下的一个就会被确定

pd.date_range(start='2020/1/1',end='2020/1/10',periods=3)

pd.date_range(start='2020/1/1',end='2020/1/10',freq='D')

pd.date_range(start='2020/1/1',periods=3,freq='D')

pd.date_range(end='2020/1/3',periods=3,freq='D')

其中freq参数有许多选项，下面将常用部分罗列如下，更多选项可看这里

pd.date_range(start='2020/1/1',periods=3,freq='T')

pd.date_range(start='2020/1/1',periods=3,freq='M')

pd.date_range(start='2020/1/1',periods=3,freq='BYS')

bdate_range是一个类似与date_range的方法，特点在于可以在自带的工作日间隔设置上，再选择weekmask参数和holidays参数

它的freq中有一个特殊的'C'/'CBM'/'CBMS'选项，表示定制，需要联合weekmask参数和holidays参数使用

例如现在需要将工作日中的周一、周二、周五3天保留，并将部分holidays剔除

weekmask = 'Mon Tue Fri'
holidays = [pd.Timestamp('2020/1/%s'%i) for i in range(7,13)]
#注意holidays
pd.bdate_range(start='2020-1-1',end='2020-1-15',freq='C',weekmask=weekmask,holidays=holidays)

1.3. DateOffset对象

（a）DataOffset与Timedelta的区别

Timedelta绝对时间差的特点指无论是冬令时还是夏令时，增减1day都只计算24小时

DataOffset相对时间差指，无论一天是23\24\25小时，增减1day都与当天相同的时间保持一致

例如，英国当地时间 2020年03月29日，01:00:00 时钟向前调整 1 小时变为 2020年03月29日，02:00:00，开始夏令时

ts = pd.Timestamp('2020-3-29 01:00:00', tz='Europe/Helsinki')
ts + pd.Timedelta(days=1)

Timestamp('2020-03-30 02:00:00+0300', tz='Europe/Helsinki')

ts + pd.DateOffset(days=1)

Timestamp('2020-03-30 01:00:00+0300', tz='Europe/Helsinki')

这似乎有些令人头大，但只要把tz（time zone）去除就可以不用管它了，两者保持一致，除非要使用到时区变换

ts = pd.Timestamp('2020-3-29 01:00:00')
ts + pd.Timedelta(days=1)

Timestamp('2020-03-30 01:00:00')

ts + pd.DateOffset(days=1)

Timestamp('2020-03-30 01:00:00')

（b）增减一段时间

DateOffset的可选参数包括years/months/weeks/days/hours/minutes/seconds

pd.Timestamp('2020-01-01') + pd.DateOffset(minutes=20) - pd.DateOffset(weeks=2)

Timestamp('2019-12-18 00:20:00')

（c）各类常用offset对象

pd.Timestamp('2020-01-01') + pd.offsets.Week(2)

Timestamp('2020-01-15 00:00:00')

pd.Timestamp('2020-01-01') + pd.offsets.BQuarterBegin(1)

Timestamp('2020-03-02 00:00:00')

（d）序列的offset操作

利用apply函数

pd.Series(pd.offsets.BYearBegin(3).apply(i) for i in pd.date_range('20200101',periods=3,freq='Y'))

直接使用对象加减

pd.date_range('20200101',periods=3,freq='Y') + pd.offsets.BYearBegin(3)

定制offset，可以指定weekmask和holidays参数（思考为什么三个都是一个值）

pd.Series(pd.offsets.CDay(3,weekmask='Wed Fri',holidays='2020010').apply(i)
                                  for i in pd.date_range('20200105',periods=3,freq='D'))

二、时序的索引及属性

2.1. 索引切片

这一部分几乎与第二章的规则完全一致

rng = pd.date_range('2020','2021', freq='W')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts.head()

ts['2020-01-26']

-0.47982974619679947

合法字符自动转换为时间点

ts['2020-01-26':'20200726'].head()

2.2. 子集索引

ts['2020-7'].head()

支持混合形态索引

ts['2011-1':'20200726'].head()

2.3. 时间点的属性

采用dt对象可以轻松获得关于时间的信息

pd.Series(ts.index).dt.week.head()

pd.Series(ts.index).dt.day.head()

利用strftime可重新修改时间格式

pd.Series(ts.index).dt.strftime('%Y-间隔1-%m-间隔2-%d').head()

对于datetime对象可以直接通过属性获取信息

pd.date_range('2020','2021', freq='W').month

pd.date_range('2020','2021', freq='W').weekday

三、重采样

所谓重采样，就是指resample函数，它可以看做时序版本的groupby函数

3.1. resample对象的基本操作

采样频率一般设置为上面提到的offset字符

df_r = pd.DataFrame(np.random.randn(1000, 3),index=pd.date_range('1/1/2020', freq='S', periods=1000),
                  columns=['A', 'B', 'C'])

r = df_r.resample('3min')
r

r.sum()

df_r2 = pd.DataFrame(np.random.randn(200, 3),index=pd.date_range('1/1/2020', freq='D', periods=200),
                  columns=['A', 'B', 'C'])
r = df_r2.resample('CBMS')
r.sum()

3.2. 采样聚合

r = df_r.resample('3T')

r['A'].mean()

r['A'].agg([np.sum, np.mean, np.std])

类似地，可以使用函数lambda表达式

r.agg({'A': np.sum,'B': lambda x: max(x)-min(x)})

3.3. 采样组的迭代

采样组的迭代和groupby迭代完全类似，对于每一个组都可以分别做相应操作

small = pd.Series(range(6),index=pd.to_datetime(['2020-01-01 00:00:00', '2020-01-01 00:30:00'
                                                 , '2020-01-01 00:31:00','2020-01-01 01:00:00'
                                                 ,'2020-01-01 03:00:00','2020-01-01 03:05:00']))
resampled = small.resample('H')
for name, group in resampled:
    print("Group: ", name)
    print("-" * 27)
    print(group, end="\n\n")

四、窗口函数

下面主要介绍pandas中两类主要的窗口(window)函数:rolling/expanding

s = pd.Series(np.random.randn(1000),index=pd.date_range('1/1/2020', periods=1000))
s.head()

4.1. Rolling

（a）常用聚合

所谓rolling方法，就是规定一个窗口，它和groupby对象一样，本身不会进行操作，需要配合聚合函数才能计算结果

s.rolling(window=50)

Rolling [window=50,center=False,axis=0]

s.rolling(window=50).mean()

min_periods参数是指需要的非缺失数据点数量阀值

s.rolling(window=50,min_periods=3).mean().head()

count/sum/mean/median/min/max/std/var/skew/kurt/quantile/cov/corr都是常用的聚合函数。

（b）rolling的apply聚合

使用apply聚合时，只需记住传入的是window大小的Series，输出的必须是标量即可，比如如下计算变异系数

s.rolling(window=50,min_periods=3).apply(lambda x:x.std()/x.mean()).head()

（c）基于时间的rolling

s.rolling('15D').mean().head()

可选closed='right'（默认）\'left'\'both'\'neither'参数，决定端点的包含情况

s.rolling('15D', closed='right').sum().head()

4.2. Expanding

（a）expanding函数

普通的expanding函数等价与rolling(window=len(s),min_periods=1)，是对序列的累计计算

s.rolling(window=len(s),min_periods=1).sum().head()

s.expanding().sum().head()

apply方法也是同样可用的

s.expanding().apply(lambda x:sum(x)).head()

（b）几个特别的Expanding类型函数

cumsum/cumprod/cummax/cummin都是特殊expanding累计计算方法

s.cumsum().head()

s.cumsum().head()

shift/diff/pct_change都是涉及到了元素关系

① shift是指序列索引不变，但值向后移动

② diff是指前后元素的差，period参数表示间隔，默认为1，并且可以为负

③ pct_change是值前后元素的变化百分比，period参数与diff类似

s.shift(2).head()

s.diff(3).head()

s.pct_change(3).head()

五、问题与练习

5.1. 问题

【问题一】如何对date_range进行批量加帧操作或对某一时间段加大时间戳密度？

【问题二】如何批量增加TimeStamp的精度？

【问题三】对于超出处理时间的时间点，是否真的完全没有处理方法？

【问题四】给定一组非连续的日期，怎么快速找出位于其最大日期和最小日期之间，且没有出现在该组日期中的日期？

5.2. 练习

【练习一】现有一份关于某超市牛奶销售额的时间序列数据，请完成下列问题：

（a）销售额出现最大值的是星期几？（提示：利用dayofweek函数）

（b）计算除去春节、国庆、五一节假日的月度销售总额

（c）按季度计算周末（周六和周日）的销量总额

（d）从最后一天开始算起，跳过周六和周一，以5天为一个时间单位向前计算销售总和

（e）假设现在发现数据有误，所有同一周里的周一与周五的销售额记录颠倒了，请计算2018年中每月第一个周一的销售额（如果该周没有周一或周五的记录就保持不动）

【练习二】 继续使用上一题的数据，请完成下列问题：

（a）以50天为窗口计算滑窗均值和滑窗最大值（min_periods设为1）

（b）现在有如下规则：若当天销售额超过向前5天的均值，则记为1，否则记为0，请给出2018年相应的计算结果

（c）将(c)中的“向前5天”改为“向前非周末5天”，请再次计算结果

本文电子版 后台回复时序数据获取

“竟然学习完了，给自己点个赞↓

你可能感兴趣的:(Pandas处理时序数据（初学者必会）！)

ElasticSearch中的分片是什么? java1234_小锋 java elasticsearch 大数据搜索引擎
大家好，我是锋哥。今天分享关于【ElasticSearch中的分片是什么?】面试题。希望对大家有帮助；ElasticSearch中的分片是什么?超硬核AI学习资料，现在永久免费了！在Elasticsearch中，分片（Shard）是将数据拆分成更小的部分，允许在分布式环境中并行处理和存储数据的机制。它是Elasticsearch在水平扩展时用于管理大量数据的关键概念。主要概念：主分片（Primar
DPDK 网卡驱动唯独不开心 DPDK 开发语言
DPDK里的PMDs负责处理网络数据包与内存之间的数据交互。而接下来提到的UIO和VFIO是两种不同的驱动方式，允许DPDK绕过内核网络栈，直接在用户空间高效地访问硬件设备。这部分内容会围绕使用这两种驱动的PMDs展开，可能会涉及到它们的配置、使用场景、性能特点等方面。新名词IOMMU（Input-OutputMemoryManagementUnit，输入输出内存管理单元）定义：IOMMU（Inp
基于条件风险价值CVaR的微网动态定价与调度策略（Matlab代码实现） Ps.729 matlab 开发语言
‍个人主页欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述一、CVaR的理论基础及其在微网中的适用性1.CVaR的定义与优势2.微网应用场景适配性二、动态定价与调度模型的联合优化框架1.目标函数设计2.动态定价机制3.不确定性处理方法三、关键算法与求解策略1.随机规划与CVaR集成2.智能优化算法对比四、实证
C 标准库＜stdbool.h＞ m0_57545130 c语言 c语言开发语言
关键点是C标准库中的头文件，C99标准引入，用于提供布尔类型支持。它定义了bool类型（别名_Bool）、true（值为1）和false（值为0）等宏。使用使代码更直观，适合表示逻辑真假，增强类型安全性。在旧编译器中可能需要手动定义布尔类型，注意兼容性问题。简介是C语言标准库的一部分，专门用于处理布尔值。C99之前，C语言通常用整数（如int）表示布尔值（0为假，非零为真），但这种方式不够直观。的
便携式电缆接地环流记录仪：技术解析与应用价值 WHFENGHE 物联网
在电力传输与分配系统中，电缆接地环流的稳定监测是保障电网安全运行的关键环节。便携式电缆接地环流记录仪作为一种专业化检测设备，通过精准捕捉接地环流数据，为电缆线路状态评估提供可靠依据。本文将从技术原理、功能优势及行业应用角度，客观阐述该设备的核心价值。工作原理便携式电缆接地环流记录仪基于电磁感应与数字信号处理技术构建。其核心组件包括高精度电流传感器、数据采集模块及嵌入式分析系统。设备通过柔性电流钳或
QtitanRibbon打造现代办公软件新体验：提升效率的专业界面解决方案界面开发小八哥 QtitanRibbon qt ribbon 界面控件 UI开发 c++
在现代办公环境中，无论是日常公文处理、文档编辑、任务协同还是数据分析，桌面办公软件仍扮演着不可替代的角色。然而，许多传统系统依旧使用菜单繁杂、图标混乱、交互老旧的界面，用户操作效率低、上手慢、满意度差。QtitanRibbon是一款基于Qt构建、全面实现MicrosoftOffice风格的Ribbon控件组件，旨在帮助开发者为办公类桌面应用打造现代化、高可用、可拓展的用户界面，提升软件体验的同时，
深度学习实验：GPU加速，突破性能瓶颈 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
深度学习实验：GPU加速，突破性能瓶颈1.背景介绍随着深度学习模型变得越来越复杂和庞大，传统的CPU已经无法满足训练和推理的计算需求。GPU凭借其强大的并行计算能力和专门为矩阵运算优化的架构，成为了深度学习领域的核心加速器。本文将探讨如何利用GPU加速深度学习实验,突破性能瓶颈,提高模型训练和推理的效率。2.核心概念与联系2.1GPU架构GPU(图形处理器)最初是为了加速图形渲染而设计的,但由于其
大模型在蛛网膜下腔出血预测与诊疗方案制定中的应用研究
目录一、引言1.1研究背景与意义1.2研究目的与创新点二、蛛网膜下腔出血概述2.1定义与分类2.2发病原因及危险因素2.3临床表现与诊断依据三、大模型技术原理与应用现状3.1大模型基本原理3.2在医疗领域的应用案例3.3应用于蛛网膜下腔出血预测的可行性分析四、大模型预测蛛网膜下腔出血的具体方案4.1术前风险预测4.1.1数据收集与预处理4.1.2模型构建与训练4.1.3预测指标与评估4.2术中情况
匿名科创无人机学习心得 heng6868 嵌入式项目物联网网络 iot
*1.*飞控stm32串口5连接imu，串口五发送的指令会发送到imu中，如果是自定义的用户格式帧（比如：AAFFF103010101A067）会先到imu，imu的串口1接stm飞控。串口2接数传，从串口1接收到的数据会通过串口二发送给数传，数传传给另一个数传，在通过USB线传输给上位机。但是如果不是属于用户自定义的格式帧，imu会进行处理，比如飞控串口5一上电就会输出电池信息（如：AAFF0D
典型的几种神经网络 Victor Zhong AI 框架神经网络人工智能深度学习
骨干网络CNN(卷积神经网络)RNN(循环神经网络)三级目录CNN(卷积神经网络)包括输入层、隐藏层、输出层：输入层一般为一张图片（w,h,d）,输入层数据一般要做归一化处理;隐藏层包含特有的卷积层（卷积核有权重系数）、池化层（没有权重系数）、全连接层，还有残差块？和Inception模块？。；输出层：RNN(循环神经网络)单向的RNN示意图：三级目录
前端手写题（二）
目录一、new二、call三、apply四、bind五、create一、newnew的核心作用：基于构造函数创建实例，绑定原型链，初始化对象属性。底层四步：创建空对象→绑定原型→执行构造函数→处理返回值functionobjectFactory(constructor,...args){ //严格校验构造函数 if(typeofconstructor!=='function'){ throwne
Java 数据类型详解：从初学者到理解底层原理超浪的晨 java合集开发语言 java 后端
作为一名Java开发工程师，你可能已经对数据类型有了一定的了解。但无论你是刚入门的新手，还是想系统回顾基础知识的老手，这篇文章都将帮助你全面、深入地掌握Java中的数据类型。一、什么是数据类型？在Java中，数据类型（DataType）决定了变量可以存储什么类型的数据，以及该变量占用多少内存空间。Java是一种静态类型语言，也就是说，在声明变量时必须指定其数据类型。Java的数据类型可以分为两大类
大图处理优化：低分加载、Lazy Decode 与缩放算法加速实践观熵影像技术全景图谱：架构调优与实战算法影像 Camera
大图处理优化：低分加载、LazyDecode与缩放算法加速实践关键词：大图加载优化、LazyDecode、Region解码、缩放算法、Bitmap分块、滑动加载、内存控制、图像性能优化摘要：在相册、图片浏览器、拍摄预览和编辑器中，用户经常会处理分辨率高达上千万像素的照片（如48MP、64MP、RAW文件等），这类“大图”在加载、缩放、平移过程中容易造成内存抖动、页面卡顿甚至OOM崩溃。本篇文章将围
Osip源代码框架13--Call创建流程八月的雨季997 osip源代码框架分析网络 linux 服务器网络协议 c++
文章目录Call创建流程eXosip_call_build_initial_invite的流程参数合法性校验（阶段A）基础请求初始化（阶段B）Dialog外请求构造（阶段C）INVITE专属字段填充（阶段D）协议合规性检查（阶段E）Dialog内外请求的核心差异eXosip_call_send_initial_invite流程初始化呼叫流程创建客户端事务构建SIP请求事件驱动处理线程协同机制SIP
feign调用get请求的接口时，出现“Request method ‘POST‘ not supported“ 皮皮小澜孩 java 开发语言 feign
上面是错误的写法下面是正确的写法其实就是在feign接口的参数中加了个@SpringQueryMap注解@SpringQueryMap是微服务之间调用，使用openfeign通过GET请求方式来处理通过实体类来传参情况的注解。注意：被@SpringQueryMap注解的对象只能有一个如果需要传递多个对象，可以使用map传参，并且多个对象中不能出现相同的属性名，否则会覆盖
MMORPG无loading条大世界技术揭秘你一身傲骨怎能输游戏开发技术专栏 mmorpg
文章摘要现代MMORPG游戏实现无loading条大世界的核心技术包括：分区流式加载、异步多线程处理、LOD渐进式资源加载、智能内存管理等。主流方案将地图划分为可独立加载的区块，通过异步IO和优先级队列动态管理资源，结合预取机制和资源降级确保流畅体验。典型案例如《原神》《魔兽世界》等采用混合加载模式，核心场景预加载，外围区域动态加载。这些技术虽提升了游戏体验，但也对资源组织和内存管理提出了更高要求
测试高频常见面试场景题汇总【持续更新版】潮_ 我的学习记录测试场景题测试场景题测试思维功能测试
测试场景题剪映贴纸功能1.功能测试2.性能测试3.安全测试4.兼容性测试5.用户体验测试6.异常处理测试登陆功能1.功能测试2.性能测试3.安全测试4.兼容性测试5.用户体验测试6.异常处理测试好的！针对登录功能的测试用例，我们需要覆盖以下方面：功能测试：验证登录功能是否正常工作。性能测试：测试登录功能的响应时间和负载能力。安全测试：验证登录功能的安全性，防止常见的安全漏洞。兼容性测试：测试登录功
STM32F103RCTx的PWM输出控制电机
关键功能说明PWM配置：使用TIM1生成500HzPWM信号输出引脚：PA8(TIM1_CH1)计数器设置：预分频72-1(1MHz时钟)，周期1999(500Hz)初始占空比：50%(CCR=1000)按键处理：使用TIM2定时器中断实现按键扫描(10ms间隔)UP键(PA0)：增加占空比DOWN键(PA1)：减少占空比按键消抖：30ms确认按下(3次扫描)长按支持：按键保持按下时，每200ms
线性代数在图像处理中的应用 --- 纳尼? 2D的高斯核可以通过1D的高斯核直接生成？（秩为1的矩阵）松下J27 Linear Algebra 线性代数图像处理人工智能
二维高斯核，Rank秩等于一的矩阵之前，我在学习图像处理的时候，会经常用到Gaussianblur，也就是二维高斯低通滤波。当时用的都是Matlab中，现成的图像处理库。只需要输入sigma和kernelsize这些参数就行了，完全不需要考虑高斯核中的每个点长啥样。虽然教科书里面也会有一些配图，例如：直到后来，我学习高斯图像金字塔的时候发现，在别人的代码里面，他在生成二维高斯核的时候，并不是直接写
pdfplumber、pandas根据指定字段提取PDF跨页表格数据
importpdfplumberimportpandasaspdfromtypingimportList,Dict,Tuple,Optionaldefextract_table_by_title(pdf_path:str,target_title:str,page_range:Tuple[int,int]=(1,None),#(起始页,结束页)，None表示到最后一页title_padding:f
Kafka “假死“现象深度解析与解决方案
一、什么是Kafka假死现象？Kafka假死（也称为"僵死"或"挂起"）是指Kafka集群或Broker在表面上进程仍在运行，但实际上已经停止响应或处理能力极度下降的状态。典型表现包括：生产者消息无法写入（超时）消费者无法拉取消息管理API无响应监控指标停止更新但进程仍在系统进程中可见二、假死的根本原因分析1.磁盘I/O瓶颈典型场景：磁盘写满（特别是日志目录）磁盘性能达到瓶颈（RAID卡缓存策略不
MySQL CDC与Kafka整合指南：构建实时数据管道的完整方案亲爱的非洲野猪 mysql kafka 数据库
一、引言：现代数据架构的实时化需求在数字化转型浪潮中，实时数据已成为企业的核心资产。传统批处理ETL（每天T+1）已无法满足以下场景需求：实时风险监控（金融交易）即时个性化推荐（电商）物联网设备状态同步微服务间数据一致性本文将深入探讨如何通过MySQLCDC与Kafka的整合，构建高效可靠的实时数据管道。二、技术选型：三大CDC工具深度对比功能矩阵比较特性DebeziumCanalMaxWell多
ClickHouse【理论篇】01：什么是ClickHouse
ClickHouse是一款开源的列式数据库管理系统（Column-OrientedDBMS），专为高性能实时数据分析（OLAP,OnlineAnalyticalProcessing）场景设计。它由俄罗斯搜索引擎公司Yandex开发（2016年开源），目前由独立基金会ClickHouse,Inc.维护，广泛应用于大数据分析、日志处理、用户行为洞察等领域。一、核心定位：OLAP场景的“性能标杆”传统关
ClickHouse【理论篇】02：ClickHouse架构和组件做一个有趣的人Zz ClickHouse clickhouse 架构
ClickHouse的架构设计深度适配OLAP（在线分析处理）场景，通过列式存储、向量化执行、分布式分片与副本等核心技术，实现了对海量数据的高效分析与实时查询。以下从核心存储引擎、查询处理流程、分布式架构、元数据管理、复制与分片等维度详细解析其内部架构与关键组件。一、核心存储引擎：MergeTree系列ClickHouse的存储引擎是其性能的核心，其中MergeTree系列引擎（如MergeTre
Kafka消费者分区分配机制与生产环境配置指南
引言在分布式系统中，Kafka作为高性能消息队列被广泛应用。本文将深入探讨Kafka消费者的分区分配机制，分析不同分配策略的优劣，并提供生产环境中的最佳配置实践。我们还将详细解析消费者常见问题的排查方法，特别是消费者未分配到分区的情况。一、Kafka消费者分区分配机制1.1基础分配原则Kafka通过消费者组（ConsumerGroup）机制实现消息的并行处理。核心规则包括：消费者组隔离：不同消费者
SkinnedMeshRenderer相关知识微风拂晚霞 Unity unity 材质动画骨骼蒙皮
SkinnedMeshRenderer和MeshRendererunity中SkinnedMeshRenderer是CPU去更改顶点位置的。而当使用MeshRenderer时，可以靠GPU来进行蒙皮（即更改顶点位置）。SkinnedMeshRenderer是多线程处理的，在小程序游戏中，只支持同步处理，所以小程序游戏最好使用MeshRenderer去进行蒙皮处理蒙皮描述将骨骼（Bone）与网格（M
多模态大模型：技术原理与实战看清GPT的进化史和创新点 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
多模态大模型：技术原理与实战看清GPT的进化史和创新点1.背景介绍1.1人工智能的发展历程1.1.1早期人工智能1.1.2机器学习时代1.1.3深度学习的崛起1.2自然语言处理的演进1.2.1基于规则的方法1.2.2统计机器学习方法1.2.3深度学习方法1.3大语言模型的出现1.3.1Transformer架构的提出1.3.2GPT系列模型的发展1.3.3多模态大模型的兴起2.核心概念与联系2.1
GPT-SoVITS项目重大更新全解析：从语音合成到多语言支持的技术演进胡晗研
GPT-SoVITS项目重大更新全解析：从语音合成到多语言支持的技术演进GPT-SoVITS项目地址:https://gitcode.com/gh_mirrors/gp/GPT-SoVITS项目概述GPT-SoVITS是一个先进的语音合成与转换系统，集成了GPT模型与SoVITS技术，能够实现高质量的语音合成、语音转换以及多语言混合处理。该系统不断迭代更新，在语音质量、训练效率和多语言支持等方面持
利用已有的 PostgreSQL 和 ZooKeeper 服务，启动dolphinscheduler-standalone-server3.1.9 镜像云游大数据平台 zookeeper docker postgresql 工作流任务调度
ApacheDolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景，提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。ApacheDolphinScheduler旨在解决复杂的大数据任务依赖关系，并为应用程序提供数据和各种OPS编排中的关系。解决数据研发ETL依赖错综复杂，无法监控任务健康状态的问题。DolphinSchedule
基于python版本secsgem源码开发gem，该gem作为一个中间平台，既要连接EAP，又要连接探针台，应该如何设置devicetype、connectmode SunkingYang #SECS协议 python gem eap 中间平台三方连接设备类型
文章目录一、角色定义与连接模式设计1.中间平台的双向角色2.核心参数设置二、代码实现步骤1.创建两个独立连接实例2.数据转发逻辑实现三、高级配置与注意事项1.状态机管理2.多线程与异步处理3.协议兼容性4.调试与错误排查四、典型应用场景1.配方管理2.事件与报警处理五、扩展方案（多设备协同）总结基于Python的secsgem库开发中间平台需同时连接EAP（作为Host端）和探针台（作为Equip
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo

Pandas处理时序数据（初学者必会）！

一、时序的创建

1.1. 四类时间变量

现在理解可能关于③和④有些困惑，后面会作出一些说明

1.2. 时间点的创建

（a）to_datetime方法

Pandas在时间点建立的输入格式规定上给了很大的自由度，下面的语句都能正确建立同一时间点

下面的语句都会报错

此时可利用format参数强制匹配

同时，使用列表可以将其转为时间点索引

对于DataFrame而言，如果列已经按照时间顺序排好，则利用to_datetime可自动转换

（b）时间精度与范围限制

事实上，Timestamp的精度远远不止day，可以最小到纳秒ns

同时，它带来范围的代价就是只有大约584年的时间点是可用的

（c）date_range方法

一般来说，start/end/periods（时间点个数）/freq（间隔方法）是该方法最重要的参数，给定了其中的3个，剩下的一个就会被确定

其中freq参数有许多选项，下面将常用部分罗列如下，更多选项可看这里

bdate_range是一个类似与date_range的方法，特点在于可以在自带的工作日间隔设置上，再选择weekmask参数和holidays参数

它的freq中有一个特殊的'C'/'CBM'/'CBMS'选项，表示定制，需要联合weekmask参数和holidays参数使用

例如现在需要将工作日中的周一、周二、周五3天保留，并将部分holidays剔除

1.3. DateOffset对象

（a）DataOffset与Timedelta的区别

Timedelta绝对时间差的特点指无论是冬令时还是夏令时，增减1day都只计算24小时

DataOffset相对时间差指，无论一天是23\24\25小时，增减1day都与当天相同的时间保持一致

例如，英国当地时间 2020年03月29日，01:00:00 时钟向前调整 1 小时 变为 2020年03月29日，02:00:00，开始夏令时

这似乎有些令人头大，但只要把tz（time zone）去除就可以不用管它了，两者保持一致，除非要使用到时区变换

（b）增减一段时间

DateOffset的可选参数包括years/months/weeks/days/hours/minutes/seconds

（c）各类常用offset对象

（d）序列的offset操作

利用apply函数

直接使用对象加减

定制offset，可以指定weekmask和holidays参数（思考为什么三个都是一个值）

二、时序的索引及属性

2.1. 索引切片

这一部分几乎与第二章的规则完全一致

合法字符自动转换为时间点

2.2. 子集索引

支持混合形态索引

2.3. 时间点的属性

采用dt对象可以轻松获得关于时间的信息

利用strftime可重新修改时间格式

对于datetime对象可以直接通过属性获取信息

三、重采样

所谓重采样，就是指resample函数，它可以看做时序版本的groupby函数

3.1. resample对象的基本操作

采样频率一般设置为上面提到的offset字符

采样组的迭代和groupby迭代完全类似，对于每一个组都可以分别做相应操作

四、窗口函数

下面主要介绍pandas中两类主要的窗口(window)函数:rolling/expanding

4.1. Rolling

（a）常用聚合

所谓rolling方法，就是规定一个窗口，它和groupby对象一样，本身不会进行操作，需要配合聚合函数才能计算结果

min_periods参数是指需要的非缺失数据点数量阀值

count/sum/mean/median/min/max/std/var/skew/kurt/quantile/cov/corr都是常用的聚合函数。

（b）rolling的apply聚合

使用apply聚合时，只需记住传入的是window大小的Series，输出的必须是标量即可，比如如下计算变异系数

（c）基于时间的rolling

可选closed='right'（默认）\'left'\'both'\'neither'参数，决定端点的包含情况

4.2. Expanding

（a）expanding函数

普通的expanding函数等价与rolling(window=len(s),min_periods=1)，是对序列的累计计算

apply方法也是同样可用的

（b）几个特别的Expanding类型函数

cumsum/cumprod/cummax/cummin都是特殊expanding累计计算方法

shift/diff/pct_change都是涉及到了元素关系

① shift是指序列索引不变，但值向后移动

② diff是指前后元素的差，period参数表示间隔，默认为1，并且可以为负

③ pct_change是值前后元素的变化百分比，period参数与diff类似

五、问题与练习

【问题一】 如何对date_range进行批量加帧操作或对某一时间段加大时间戳密度？

【问题二】 如何批量增加TimeStamp的精度？

【问题三】 对于超出处理时间的时间点，是否真的完全没有处理方法？

【问题四】 给定一组非连续的日期，怎么快速找出位于其最大日期和最小日期之间，且没有出现在该组日期中的日期？

【练习一】 现有一份关于某超市牛奶销售额的时间序列数据，请完成下列问题：

（a）销售额出现最大值的是星期几？（提示：利用dayofweek函数）

（b）计算除去春节、国庆、五一节假日的月度销售总额

（c）按季度计算周末（周六和周日）的销量总额

（d）从最后一天开始算起，跳过周六和周一，以5天为一个时间单位向前计算销售总和

（e）假设现在发现数据有误，所有同一周里的周一与周五的销售额记录颠倒了，请计算2018年中每月第一个周一的销售额（如果该周没有周一或周五的记录就保持不动）

例如，英国当地时间 2020年03月29日，01:00:00 时钟向前调整 1 小时变为 2020年03月29日，02:00:00，开始夏令时

【问题一】如何对date_range进行批量加帧操作或对某一时间段加大时间戳密度？

【问题二】如何批量增加TimeStamp的精度？

【问题三】对于超出处理时间的时间点，是否真的完全没有处理方法？

【问题四】给定一组非连续的日期，怎么快速找出位于其最大日期和最小日期之间，且没有出现在该组日期中的日期？

【练习一】现有一份关于某超市牛奶销售额的时间序列数据，请完成下列问题：