数据处理之整理数据(第13章)

整齐的数据才便于套用公式、分割,因此整理数据是数据分析重要的环节。

基本步骤:保存原始数据副本——>设想数据集的最终外观——>区分混乱数据中重复出现的模式——>整理并重新构造——>使用最终数据

整理数据的目的:需要一份电话号码清单,抽取出姓名、电话号码信息。

EXCEL:分列——>去除冗余字符——>用嵌套文本公式处理复杂模式

用正则表达式处理复杂的数据模式

正则表达式是一种编程工具,可以用这个工具指定复杂模式以便匹配和替换文本字符串。

去除重复值

为数据排序,让重复值集中出现

分析出现重复的原因:1、查询返回数据的方式;2、数据质量低劣

如果是1,那么删除重复值。

你可能感兴趣的:(数据处理之整理数据(第13章))