大数据时代下统计数据质量的影响因素

        统计工作是为政府提供国民经济运行信息的重要手段,将大数据应用于统计工作是社会发展饿必然趋势。

一、内涵

在数字化时代和数字经济的飞速发展,“数据”已经被认定为一种新的生产要素,并且发挥着重要作用。数据质量的高低直接影响数据价值的高低。数据质量,是指在业务环境下,数据符合数据消费者的使用者目的,能够满足业务场景具体需求的程度。一般来说,数据质量是数据本身所具有的属性满足使用者需求的程度,一般包括准确性、完整性、一致性、可比性、可解释性等。


准确性:统计数据应当准确反映所要描述和研究的现象、事实或变化情况,不存在明显的错误或误导性。

完整性:统计数据应覆盖全部或代表性的样本或总体,不应有遗漏或缺失的情况。缺乏完整性的数据会导致分析和结论的误差。

一致性:统计数据应在不同时间点、不同数据源或不同统计单位之间保持一致性。一致性表明数据的稳定性和可靠性。

可比性:统计数据应具有可比性,即在不同时间、地区或群体之间可以进行比较和分析。可比性有助于从数据中发现趋势、模式和相关性。

可解释性:统计数据应该具备一定的可解释性,即可以通过数据本身的描述和上下文信息进行理解和分析。用户能够理解数据所代表的含义。


对于不同业务、不同对象、不同领域,大家对数据质量的要求也会有所不同,存在一些差异。

大数据时代下统计数据质量的影响因素_第1张图片

二、影响因素

在数据的生命周期中,包括数据采集、处理、存储、应用和展现直至消亡的过程中,都存在多个因素和流程会对数据质量产生影响,在不同维度如数据处理、数据应用、数据表现和数据管理等方面都可能对数据质量产生影响。尤其在大数据环境下,数据全生命周期管理的具体内容发生了质的变化,数据质量的影响因素及其影响贡献率也发生了变化。统计大数据的质量影响因素主要包括以下几个方面:

1. 数据采集

在面对大数据环境下的统计数据采集中,数据来源和采集方式包括人工统计报表导入、应用系统数据交换、传感器采集、网络爬虫抓取数据等。人工统计报表导入是一种相对能够保证数据质量的大数据采集方式,但其效率较低;在报表导入过程中,由于原有表格规范性和导入系统程序接口兼容性方面的问题,可能会出现错误,尤其是对报表中的“空值”和“0值”的处理。传感器采集在统计数据质量检验、特定对象跟踪统计、动态交通流统计、国民经济核算经济流量和存量测算等方面取得了较好的应用效果,但传感器数据采集的准确性和数据安全性是当前传感器数据采集的主要制约因素。数据采集的时效性和质量会受到数据采集方式、工具的多样性和技术特点的影响。此外,由于数据来源更加广泛和多样,数据之间的矛盾和差异性也会影响大数据统计的效率。

2. 数据预处理

在大数据环境下,采集到的数据通常存在多个来源和格式不一致等情况。因此,一般来说,无论通过何种途径和方式采集而来的数据,都无法直接应用于大数据的统计和分析,需要经过一定的预处理来提高数据质量和可用性。通过数据清洗,可以采用技术手段和方法,按照一定规则和策略对采集到的数据中的错误、重复或者遗漏的数据进行规范化处理。对于数据格式不一致和字段数据匹配不正确等问题,需要通过数据转换来进行数据质量的管控。数据清洗和数据转换是最常见的预处理技术,数据预处理的规则直接影响数据质量。


我们平台目前收录3亿及以上企业数(含个体),其中:企业在营5千8百万以上,个体在营1.2亿以上;平台涵盖企业360°维度信息,例如基本信息(股东信息、注册变更、分支机构、历史股权轨迹、历史高管等),负面信息(行政处罚、裁判文书、被执行人、失信被执行人、开庭公告、法院公告、立案信息、终本案件、曝光台等),经营信息(标讯线索、中标线索、招聘信息、建筑工程信息、舆情信息、消防检查、抽查检查信息、双随机检查信息)、资产信息(专利、商标、软件著作权、作品著作权、管理体系认证、强制性产品认证等)众多企业全维度数据。


3. 数据存储

分布式存储是当前大数据主要的存储技术,与存储介质类型和数据的组织管理形式直接相关。根据大数据的不同特点,应选择适合的存储技术。不同的存储技术和存储介质对数据存储和访问的及时性、安全性和准确性有影响。

4. 数据处理

用于统计大数据的分布式处理技术与统计大数据的数据类型和存储形式相关。基于Java技术的Hadoop体系架构具有较强的批处理能力,适用于较大规模数据的批量化处理,但时效性较差,对超大规模数据难以实现集中快速处理。Storm技术基于拓扑结构实现数据流转换,更适用于实时处理的数据集群结构,具有更强的时效性和容错性,但其处理稳定性和灵活性有待提高。Spark基于直接面向用户的内存计算框架可以将数据流转化为超低量秒级的数据集,实现数据自动收集和批量计算,但该技术对系统软硬件有较高要求。

不同的大数据处理计算框架模型适用于不同的数据类型和数据规模,会影响大数据处理的质量和效率。在大数据分析的过程中,数据的聚类与分类、数据关联分析和数据深度学习等因素会影响统计大数据的可用性和准确性,决定大数据的价值。

5. 数据展现

大数据的可视化展示是前期处理和分析结果的输出,能够直观地向用户展示大数据统计分析的结果,并进行交互处理。数据展现的方式和维度反映了大数据的可用性和易于理解等质量特性。

6. 数据应用

经过数据预处理、处理和分析的数据可以应用于统计分析、战略规划和决策分析等领域。大数据应用是数据价值的体现,直接体现了统计大数据从采集、预处理到输出成果的可用性和准确性。

除了上述技术层面的因素,大数据背景下的管理制度、标准规范和统计人员队伍等管理层面的因素也会影响统计数据的质量。

如有侵权,联系删除。

你可能感兴趣的:(大数据,经验分享)