《谁说菜鸟不会数据分析》读书笔记2

第二章 数据准备

1.    理解数据

1. 1  字段与记录

以上表为例,这样的成绩表从数据分析角度来看,是一个典型的数据库。该表第一行的“学号”、“姓名”、“性别”、“总分”等被称为字段,这是数据库的术语,每位同学的基本情况和成绩则构成了一条条的数据记录,如变2所示。

从数据分析的角度来理解字段和记录的概念:

    字段是实物或现象的某种特征。比如成绩表中的“学号”、“姓名”、“性别”、“总分”等都是字段,在统计学中成为变量。

    记录是事物或现象某种特征的具体表现。比如成绩表中的“性别”可以是男或女,“总分”可以是237或者230等,记录也成为数据或变量值。

数据需要由字段与记录共同组合而成。

1.2  数据类型

以表3 职工信息表为例,看看表中数据大概分为几类?

表中数据大概可分为数字、文字、日期三类。这也是我们常用的数据类型,当然还有如货币等其他数据类型。若想知道数据到底有多少类,可在Excel中用单元格格式查看所有的数据类型,如图4所示。

图4

从图4所示的对话框中可以看到各种不同的数据类型,如:数值、文本、日期、货币、会计专用、时间、百分比、分数、科学计数、特殊等。

Excel中虽然有这么多数据类型,但最终可以分为两大类。

    字符型数据

字符型数据是不具计算能力的文字数据类型。包括中文字符、英文字符、数字字符(非数值型)等字符。例如上文成绩表中的“姓名”  “性别”  “总评”  三个变量均为字符型数据,职工信息表中的“员工号”  “姓名”  “性别”  “部门”  四个变量为字符型数据。

    数值型数据

是直接使用自然数或度量单位进行计量的数值数据。例如成绩表中的 “语文”  “数学”  “英语” 三科成绩汇总即得到 “总分” 这个字段,职工信息表中,可按 “入职日期” 计算工龄,这些数据就是数值型数据。对于数值型数据,我们可以用算数方法进行汇总和分析,这点是区分数据是否属于数值型数据的重要依据。

1.3    数据表

由字段、记录和数据类型构成数据表。数据分析所需要的数据表有一定的要求,具体如表5所示:

表5

什么是一维表、什么是二维表?

表6 一维表与二维表

这里的 “维” 指的是分析数据的角度,2006年、2007年、2008年从数据的角度来说,都是 “年份” 的范畴,是描述各省GDP的一个因素,若要换成一维表,则应该使用同一个字段,将年份单独作为列标签。

1.4  问卷录入

我们经常接触到的调查问卷数据,其录入格式也是有讲究的。

  单选题

答案只能有一个,编码时只需定义一个变量,即给该题留一列进行数据 的录入。录入时可采用1、2、3、4分别代表A、B、C、D四个选项,例如被调查者选 “C” 则录入 “3” 。

  多选题

答案可以有多个选项,又分为项数不定多选和项数限定多选。多选题的录入有两种方式:二分法和多重分类法。

          二分法。把每一个相应选项定义为一个变量,每一个变量值均作如下定义: “0” 代表未选, “1” 代表已选,即对于被调查者选中的选项录入 “1” ,对未选的选项录入 “0” 。

          多重分类法。事先定义录入的数值,比如1、2、3、4、5、6、7分别代表A、B、C、D、E、F、G,并且根据限选的项数确定应录入的变量个数。

  排序题

排序题的录入与多重分类法类似,先定义录入的数值,1、2、3、4、5、6、7分别代表A、B、C、D、E、F,然后按照被调查者填写的顺序录入选项。

  开放性文字题

如果可能的话可以按照含义相似的答案进行归类编码,转换成多选题进行分析。如果答案内容比较丰富、不容易归类,就应对这些问题做定性分析。

表7 二分法和多重分类法

2.    初识Excel

Excel主要包括这几个模块:菜单操作、函数、图表、宏的应用。

2.1    菜单操作

    小技巧  自动调整列宽/行距:如选中A列至D列,鼠标移到A、B、C、D任意列标之间,直到光标变成左右带箭头的十字图形,然后双击选中的所有列即自动调整为最合适的列宽了。这种方法还可以用于调整合适的行距。

2.2    函数

关于函数,需说明几点。

    每个函数都有一个函数名,都有一对括号将函数包围住,参数间用逗号分隔,参数可以是公式、函数、值。例如 “=IF(A3>100,40,0)” ,其中函数名为 “IF” ,公式 “A3>100” 和数值 “40” 都是参数。

    在单元格内等号作为函数的开始,函数可以嵌套。

2.3    图表

作图表的主要目的是表现数据、传递信息。每一幅图标都必须有中心思想,即你要传递的主要信息。

生成图表后,有三种方式对其进行编辑。

    第一种,用鼠标单击图形中的任意地方,接着会发现Excel的功能区里多了一个 “图表工具” 的功能组,其中包含了 “设计”、“布局” 和 “格式” 选项卡,可以根据自己的需求编辑该图表。

图2.3-1

    第二种,鼠标双击该图表的任意区域,即可弹出对应的格式对话框。

    第三种,按 “Ctrl+1” 快捷键,同样可以弹出对应的格式对话框,在进行编辑。

对于后两种方式需要补充说明一点:鼠标选择的是哪一元素,即弹出哪一元素的格式对话框。

2.4    宏

宏是一个指令集。是可运行任意次数的一个操作或一组操作。若要在Excel中重复执行多个任务,则可以录制一个宏来自动执行。例如每个月要上交一份职位表,表中需要将发生岗位变化的员工编号设置为红色和加粗格式,就可以创建一个宏,每月运行该宏将这些格式变更迅速应用到职位表中。

Ⅰ    打开 “视图” 选项卡,单击 “宏” 的下拉菜单,先选中 “使用相对引用” 选项,在单击 “录制宏” 选项,如图2.4.1所示。


图2.4-1 “宏”下拉菜单

Ⅱ    此时,会弹出一个 “录制新宏” 对话框,在里面可以对宏进行命名,可以根据宏实现的功能来命名。这里我们将其命名为 “红色加粗” ,然后,设置 “快捷键” ,这是 “红色加粗” 宏的专用快捷键,注意不要与Excel本身内置的快捷键重复,如图2.4.2。

图2.4-2 设置宏名与快捷键

注意,在Excel主界面左下角的就绪旁有一个图表,如下图,单击它可以实施 “录制宏” 和 “停止录制” 的操作。

Ⅲ    在工作表中执行你的操作。比如这里,我们将A1单元格的数据变成红色并加粗。

Ⅳ    再单击 “视图” 选项卡→ “宏” → “停止录制” 。

Ⅴ    选择任意其他单元格或者区域,再单击 “视图” 选项卡→ “宏” → “查看宏” ,此时会弹出一个宏窗口,选择刚才的 “红色加粗” 宏,并单击 “执行” 按钮。使用刚刚自行设置的快捷键 “Ctrl+Q” 也会达到同样的效果。

2.5    快捷键

下表为最基础且非常方便的快捷键:

表2.5-1

Excel的功能区附带了新的快捷方式,称为按键提示:

Ⅰ    按Alt键,显示按键提示,如图2.5.2所示,Excel界面上的选项卡和按钮即刻出现了带方框的按键提示。

图2.5-2 快捷键提示—步骤1

Ⅱ    在键盘上按下对应选项卡的按键,即刻就能在功能区上打开该选型卡。例如,对于 “视图” 选项卡,按字母键 “W” ;对于 “公式” 选项卡,按字母键 “M” 。打开的选项卡将继续显示其包含的所有功能的按键提示。

例如,想实行 “视图” 选项卡中的 “冻结窗口” 功能,先按字母键 “W” ,将显示 “视图” 主选项卡所有功能的快捷键,如图2.5.3所示。

图2.5.2 快捷键提示—步骤2

再按下 “F” 键,就快速地完成了冻结窗口的操作了。

3.    数据来源

取得数据的方式可以分为两种:导入外部数据和自己录入数据。

3.1    导入外部数据

导入外部数据常见的来源有两张,文本和网站数据。

    导入文本数据

Ⅰ    单击 “数据” 选项卡,选择 “自文本” 选项,Excel会自动弹出相对应的对话框。

Ⅱ    找到保存的 “问卷录入结果.txt” 文件。

还有一种方式,在 “文件” 选项卡中,打开 “文件” 选项,Excel会自动弹出对话框,在 “文件类型” 中选择 “文本文件” ,然后,找到需要的文件,此时将会弹出 “文本导入向导” 对话框。如图3.1-1所示。

3.1-1 文本导入向导—第1步

Ⅲ    在上图对话框中有两个选项 “分隔符号” 和 “固定宽度” 。若文本文件中的列标签以制表符、冒号、分号、空格或者其他字符分隔,则选择 “分隔符号” ;若想自己设定每列分隔的具体位置,则选择 “固定宽度” 。单击 “下一步” 按钮,得到图3.1-2对话框。

3.1-2 文本导入向导—第2步

Ⅳ    如上图对话框中列出了Tab键、分号、逗号、空格的分隔符以供选择。若分隔符是其他字符,则选择 “其他” 复选框,在后面的文本框中输入字符。单击 “下一步” ,弹出文本导入向导第3步的对话框,如图3.1-3。

3.1-3 文本导入向导—第3步

Ⅴ    若不需要将某列导入Excel中,可以在 “数据预览” 中选择此列,后勾选 “不导入此列(跳过)” 。不需要删除某列,故选择 “常规” 即可,单击 “完成” 按钮。

Ⅵ    弹出 “导入数据” 对话框,在其中选择存放数据的位置,单击下图中按钮拖动或缩放单元格区域,再次点击该按钮回复对话框→ “确定” 。

3.1-4 导入文本数据

Ⅶ    返回工作表,文本文件中的数据就会按所设置的格式自动导入到其中。

    导入网站数据

Ⅰ    单击 “数据” 选项卡,选择 “自网站” 选项,Excel会弹出 “新建Web查询” 对话框。

Ⅱ    在对话框的地址栏里输入要导入数据的网址, 单击 “转到” 按钮,单击下图黄色箭头按钮,使其变成图中绿色√。

Ⅲ  单击 “导入” , 弹出 “导入数据” 对话框,在工作表中选择需要放置数据的区域,单击 “确定”。

更新数据的方式有三种:即时刷新、定时刷新、打开文件时自动刷新

    即时刷新。单击 “数据” 主选项卡→ “刷新数据”即可。

3.1-5 即时刷新数据

    定时刷新或打开文件时自动刷新。在上图方法二的快捷菜单中有个 “数据区域属性” ,选择该选项,弹出 “外部数据区域属性” 对话框,勾选  “刷新频率” 复选框,选择刷新的间隔时间,就能实现定时刷新。在“外部数据区域属性” 对话框中还有  “打开文件时刷新数据” 复选框。

3.1-6 定时刷新和打开文件时自动刷新

    我们也可以直接在网站上复制所需的数据,再进行粘贴。

3.1-7 直接粘贴网站数据

在工作表中粘贴数据后,数据区域右下角会出现一个 “粘贴” 按钮,单击,选择 “可刷新的Web查询” 命令。

3.2    手动输入数据

    快速设置单元格格式

表3.2-1 常用单元格格式的快捷键

我们直接输入 “1/3” 单元格默认将它转成日期格式,显示成 “1月3号” ,但如果我们先输入 “0+空格” ,再输入 “1/3” 即可。

    选中单元格,直接按 “F2” 键,则单元格就进入编辑模式。

    Ctrl+1 弹出设置单元格对话框。

    省时省力的填充柄 “+”

表3.2-2 填充序列


    让 “0” 站首位

比如在录入数据时,输入 “007” ,但输进去就变成 “7” ,如何解决。

上面的情况是Excel将输入的值默认成数值类型的数据,如果在需要输入的文本前面先输一个英文的单引号 “ ' ” 字符,就默认成文本格式了,上述问题即可解决。这也是区分数字单元格是数值还是文本的标识。

你可能感兴趣的:(《谁说菜鸟不会数据分析》读书笔记2)