质量检查是很大的一块内容,更多的是大家下去拓展,结合不同的业务探究要做的数据质量检查方法和内容
六西格玛方法指南提供了几种数据审查方法,如测量系统分析、控制图和测量设备校准。这些方法确保测量设备是可用的,还可使测量系统工作和使用者了解他们的数据异常变化的原因,并予以纠正。
职业生涯中又一个尴尬的插曲,涉及适当使用二次密封胶的温度测量。二次密封胶与要求在最低温度使用的主要密封胶一起使用,才能确保密封。两种密封胶的供应商对两者的成功应用有具体的指导说明。
在观察我的一台设备时,我注意到一个操作人员在(根据数字读数)华氏20度温度涂上密封胶,这一温度低于所需的最低温度值。当打电话叫来维修人员评估情况时,发现显示器上的读数是40华氏度,比原来正在显示的温度也低,这意味着实际温度是华氏60度,仍然低于期望的最低温度值。
当我面对工厂领导要求定期对设备进行校准时,我的回答是:“我们没有时间”。虽然这在今天的工厂里更多的是借口,这是当今世界制造业的现实。管理层往往想以更少的投入得到更多收益。然而,这种情况提醒我们要改进用于质量或工艺的数据收集。使用错误的数据进行更改会导致错误的决定,从而导致更多问题,还不如什么都不做。
有时,提供产品或部件数据的设施与制造它们的设施不相同,例如考虑现场维修服务数据。根据认证合格的可靠性《工程师手册》所述,“这些信息经常是受安装、环境、操作程序差异和类似的因素影响,难以进行分析。”
在数据不是现场维修服务数据的情况下,它可能是来自运行中的设备的实时数据,并连续存储在数据库中的数据。在这些情况下,重要的是使用的测量仪器或设备是否准确,是否通过定期校准完成的。
当的数据安排有助于用户和分析人员深入理解数据记录以及其中的字段。印度一家电子产品制造商的新兴技术部总监阿南德•坦波利,谈到处理六西格玛数据挖掘的重要性时,重申了这一点:
“因为经营业绩的好坏取决于数据质量和处理方法的好坏,故强烈推荐在测量和分析阶段,严格遵循数据挖掘方法。而六西格玛本身包含一些数据挖掘步骤,它没有提供这些步骤详细的技术诀窍。”[⁵]
清理可以消除虚假的数据信息和弥补缺失的数据信息。这也是验证数据集中数据点的完整性的必要步骤。是获得正确结果的必要步骤
i. 值域分析:分析字段的值是否满足指定阀值、分析字段值的统计量(最大、最小、中位数、均值、方差等统计量);质量报告:最大、最小值越界、发现有NULL值。
ii. 基数分析:分析字段中不同值的个数,适用于维度类指标;质量报告:对于度量类指标数据比较集中,部分记录个数偏多或偏少等。
iii. 类型监测:分析字段真实值是否符合定义的数据类型。
血缘分析:分析表和字段从数据源到当前表的血缘路径,以及血缘字段之间存在的关系是否满足;质量报告:数据的一致性是否满足、表设计是否合理。
采用知识图谱(KG)
检索溯源——数据库——知识图谱的结合
表的schema构建知识图谱
异常点的阈值设置为0.05,即5%.即不超过5%的数据,将被标记为异常数据。
采用多种异常检测算法比较,HBOS, Isolated Forest, CBLOF, PCA
考虑到数值存在数量级差异,且有负数,采用sklearn.powertransfer提前进行标准化预处理
按行检测,检测结果包含:
算法名称
检测结果(0,1) 0代表正常,1代表异常
检测分值 越大,约异常。注:在同一个算法内,分值比较有意义。
检测批次号 。注:在同一个算法内,分值比较有意义。
检测批次号
算法简介:
通过4种常用的异常检测算法,展示异常检测的结果。这四种算法分布是:
HBOS, 基于频数直方图的无监督异常点检测算法
Isolated Forest, 孤立森林法,
CBLOF,基于聚类的局部因子
PCA, 主成分分析
这四种算法在大、中、小数据机上均可以使用。尽管我个人比较偏爱孤立森林法,将其他异常检测算法列出来作为参考。截至2月9日,我只收集了疫情数据394条,数据量小。在不包含类别数据是, 这些算法的异常检测能力类似。
因为在进行范围查询的过程中,我们得到的结果集本身并不是按追加的这个字段来排的,还需要进 行一次额外的排序才行。而在这种情况下,可能反序建立索引(排序字段在前、范围查询字段在后)反而会是一个比较优的选择。当然,是否更优也和具体的数据集有关。
谷歌学术:http://scholar.hedasudi.com/
Part1:数据来源
一手数据:问卷、实验……
**二手数据:**统计局、爬虫……
Part2:研究方法
一、书,自学。