数据分析学习日记 Day4

一、数据源与处理工具

我打算使用阿里天池的数据集,由于是初次尝试,最后确定以2000条关于在线商店用户购买情况的数据作为分析对象,工具用微软office的excel。

二、数据的预处理

(一)数据的清洗

1、重复数据的处理

①函数法:=COUNTIF(range,criteria)

②高级筛选法:选择“将筛选结果复制到其他位置”并在“复制到”那一栏,勾选“选择不重复的记录”

③条件格式法:“条件格式”、“突出显示单元格规则”、“重复值”

④数据透视表法:将行作为待筛选项,另外再将其拖入Σ,即可看到有关的重复情况

⑤另:删除重复数据:“数据”、“数据工具”、“删除重复项”

 

2、缺失数据的处理

①当缺失值是“空值”,可采取定位输入:“开始”、“编辑”、“定位条件”、“空值”、“确定”则可以一次性选择所有空值(在填入一个选定位后,按crtl+enter,可填充所有选定的位置)。对于缺失的值,常采用平均值、统计模型计算值、删除数据、适当保留(调查数量大,缺失数据少,在相应的分析中可做必要排除)来处理。

②当缺失值以错误标识符(例如“False”),可采取查找和替换的方法:“开始”、“编辑”、“查找和替换”即可。

 

3、检查数据的逻辑错误

数据分析学习日记 Day4_第1张图片

IF(logical_test,value_if_true,value_if_false)

例如:I3=IF(COUNTIF(B3:H3,"<>0")>3,"错误","正确")

OR(logical1,[logical2],...):至少一个参数为真,返回TRUE

AND(logical1,[logical2],...):所有参数为真,返回TRUE

选中B3:H6区域,"条件格式"、"突出显示单元格规则"、“其它规则”、“使用公式确定要设置格式的单元格”,在“为符合此公式的值设置格式”输入“=OR(B3=1,B3=0)=FALSE”,单击“格式”将待显示内容设置(这里设置成了红色加粗倾斜)。

 

(二)数据的加工

1、数据抽取

①字段分列

方法一:“数据”、“分列”选项卡

方法二:=LEFT(text,[num_chars])、=RIGHT(text,[num_chars])

数据分析学习日记 Day4_第2张图片

②字段合并

使用&和引号连接

H2=F2&"迟到"&G2&"次"

H4=F3&"迟到比例为"&TEXT(G3,"0%")

H5=CONCATENATE(F2,"迟到",G2,"次")

数据分析学习日记 Day4_第3张图片

③字段匹配

数据分析学习日记 Day4_第4张图片

为了将上表中职务匹配到下表的姓名对应人员中,需要用到B2=VLOOKUP(A2,员工职位表!A1:C6,3,0),函数原型:

VLOOK(lookup_value,table_array,col_index_num,[range_lookup])

数据分析学习日记 Day4_第5张图片

2、数据计算

①简单计算:

数据分析学习日记 Day4_第6张图片

 
 
 
 

D2=B2*C2并自动填充

对于D6:“开始”、“编辑”、“自动求和”(另外可以学习其他函数)

②函数计算:

AVERAGE(number1,number2,...)

SUM(number1,number2,...)

日期:=TODAY()、=NOW(),函数插入是动态的

快捷键crtl+分号  crtl+shift+分号,快捷键插入是动态的

日期加减

数据分析学习日记 Day4_第7张图片

 

F2=DATE(YEAR(F2),MONTH(F2)+1,DAY(F2))

计算工龄:

DATEDIF(start_date,end_date,unit)

3、数据分组

VLOOKUP(lookup_value,table_array,col_index_num,[range-lookup])

数据分析学习日记 Day4_第8张图片

第一组0≤x<10,即查找最接近且不大于的阈值的分组

4、数据转换

选择性粘贴很方便转置等形式

多选题的录入数据方式中从多重分类法二分法的转换

数据分析学习日记 Day4_第9张图片

用到IF()函数,ISNUMBER()函数、HLOOKUP()函数、SEARCH()函数。

三、数据抽样

RAND()函数

你可能感兴趣的:(数据分析)