【EDA】数据类可以做哪些分析

数据类项目EDA可以从哪些角度,做哪些分析。

数据情况

拥有哪些测点
各数据采样频率、存储规则
各数据数据量、缺失情况
数据是否需要填充?应该选择何种填充方式?

数据分布

画图:
山峦图,箱型图,小提琴图
观察:
数据是否正态?偏态?峰态?
异常值:
mean左右各3σ为阈值,剔除outlier。
多峰的数据,可能需要通过在时段片段内找到最高的峰来出去其他高斯峰对应的异常值。
有的异常值也可以通过滤波来处理。

相关性

Pearson,spearman,Kendall,P-value,秩相关系数,偏相关、复相关系数

时序波形

各变量之间时滞关系
各变量之间趋势关系
可以使用双Y轴图
每次正常生产的持续时长、每次正常生产的产品质量/米数/重量等
各变量自身周期时长、幅度
各变量调整步长
某变量调整后,其他相关变量响应时长、响应幅度
信号滤波观察趋势:高斯混合滤波GMM,滑动平均滤波,卡尔曼滤波,中值滤波(scipy.signal.medfilt),一阶(αβ)滤波

统计分析

1.确认目标有几个,如果有多个,要控制变量对每个目标做分析,占比。
2.合格点数占比

时频域分析

EEMD算法
傅里叶变换
Hilbert变换

特征工程

如果是时序数据,可以从时间上和空间上两个角度去构造特征。
或者通过机理中公式中变量的关系式,来提取多变量相乘/相除等特征。
ACF PACF

模型尝试

模型可解释性

SHAP
LIME

图:PDP ICE PFI

reference:
https://blog.csdn.net/qq_45100200/article/details/130020183
https://zhuanlan.zhihu.com/p/364921771
https://blog.csdn.net/yeshang_lady/article/details/129021757

分析总结

1.有什么规律,趋势上的,时滞上的
2.对于我们的目标,还缺乏什么条件
3.对于需要稳定某个变量的情况,哪些因素会导致这个变量波动?调节的难易?把每个因素找出来逐个击破找到相应的办法。

后续工作

相关问题

可行性、难点评估

先宏观 再微观。

你可能感兴趣的:(python,制造)