python数据清理的实践总结_Python数据清洗实践

本文为 AI 研习社编译的技术博客,原标题 :

DATA CLEANING WITH PYTHON

作者 |Balogun Omobolaji

翻译 | 酱番梨、祝弟弟基督教

校对 | Pita 审核 | 约翰逊·李加薪 整理 | 立鱼王

原文链接:

https://medium.com/machine-intelligence-team/data-cleaning-with-python-d0ca811d6cdf

引言

“数据科学家们80%的精力消耗在查找、数据清理、数据组织上,只剩于20%时间用于数据分析等。”——IBM数据分析

数据清洗是处理任何数据前的必备环节。在你开始工作前,你应该有能力处理数据缺失、数据不一致或异常值等数据混乱情况。在开始做数据清洗前,需要对Numpy和Pandas库有基本的理解。

数据清洗

数据清洗名如其意,其过程为标识并修正数据集中不准确的记录,识别数据中不可靠或干扰部分,然后重建或移除这些数据。

数据清洗是数据科学中很少提及的一点,因为它没有训练神经网络或图像识别那么重要,但是数据清洗却扮演着非常重要的角色。没有它,机器学习预测模型将不及我们预期那样有效和精准。

下面我将讨论这些不一致的数据:数据缺失

列值统一处理

删除数据中不需要的字符串

数据缺失

数据缺失原因?

在填写问卷时,人们往往未填全所有必填信息&

你可能感兴趣的:(python数据清理的实践总结)