数据分析入门学习之一

数据清理

最近阅读了《Python共享单车数据分析》,由于一直在学习PowerQuery,因此尝试用它处理一下:

1下载数据

共享单车数据文件  密码: mtto

2数据预览

csv文件,数据来源于法国,因此第一行有乱码,各列以“;”分隔

3导入PowerQuery中进行处理

3.1消除乱码

参考Power Query爱好者中Csv.Document一文中的方法对源文件进行处理,在pq中将导入代码做如下改动:

let

  源 = Csv.Document(File.Contents("e:\zm\\bikes.csv"),

  [Delimiter=",", Columns=1, Encoding=1252, QuoteStyle=QuoteStyle.None])

in

  源

其中 Encoding=1252 查自内码表(codepage),几次尝试后得以确定。

3.2数据拆分、转换、清理

拆分列,然后提升首行为标题,为了统计分析,须将第一列直接转换为日期格式,结果如下:

发现系统默认格式为“年/月/日“,而数据源文件的格式为"日/月/年",1月13日,变成了13月1日!因此报错,经咨询,进行如下改动:

即在更改类型时选择使用区域设置,选择法语(法国)

在语法上的区别:

直接将文本转换成日期

更改的类型1 = Table.TransformColumnTypes(提升的标题,{{"Date", type date}})

选择区域设置

根据区域设置更改的类型 = Table.TransformColumnTypes(提升的标题, {{"Date", type date}}, "fr-FR")

目测有两列数据为空或者是null,通过对列筛选进行判断:

删除两个空列,自此完成数据清理工作。

以上是通过双击CSV数据文件进入excel,然后用pq处理,因此要更改导入部分的代码,如果用新建立查询的方法导入csv文件,则更为简单快捷,自动拆分列,再选择好正确的原始文件格式,就可以直接编辑处理而无须更改代码,具体见下图:

用bing 翻译法语

Berri 1--贝里1        données non disponibles-数据不可用  Maisonneuve1--没翻译出来

Côte-Sainte-Catherine--科特迪瓦-圣凯瑟琳    du Parc--的公园  Pierre-Dupuy---皮埃尔

Rachel-秋

通过对法语的粗糙翻译,可以推断该文件记录的是各地区每天骑共享单车的人数,数据清理干净后再用透视表之类的工具处理就很方便了!


数据分析入门之二

你可能感兴趣的:(数据分析入门学习之一)