来源:七周成为数据分析师 b站视频
仅整理笔记
1 bit 比特(最小储存单位)= 两种可能性,用0或1存储在电脑里
1 byte 字节 = 8 bit,如00000001,一共有2^8 = 256种可能性
英文+数字+符号:ASCII
汉字远远大于256种可能性,于是用2 byte组合表示,叫做GB2312
繁体字:GBK
少数民族的文字:于是又多了GB18030
万国码:unicode
FIND(find_text,within_text,start_num)
Find(要查找的文本,文本所在的单元格,从第几个字符开始查找[可选,省略默认为1,从第一个开始查找])
- Find函数进行定位时,总是从指定位置开始,返回找到的第一个匹配字符串的位置,而不管其后是否还有相匹配的字符串。
- 区分大小写
- 一般和left、right函数连用
- 如果start_num大于1,不是从第一个数字开始查找,但还是会计算跳过的字符,从文本开头计算
left(text,num_chars)
LEFT(指截取的单元格内容,从左开始截取的字符数)
RIGHT(指截取的单元格内容,从右开始截取的字符数)
MID(text, start_num, num_chars)
是从text所示的字符串中,从左边开始数,第start_num个位置开始,截取num_chars个的字符。
首先,打开DataAnalyst.csv表格,
(1)“salary”列,提取出工资的上下限
最开始,可能想到的方法是Left、Right函数去分别提取,但问题是有的工资下限是一位数,有的是两位数,并不方便;首先用替换把所有的“K”都改成“k”,然后用find函数去找第一个“k”出现的位置,再用left提取。上限同理,但注意得到的结果包含单位“k”,此时如果用替换操作,要记得先选择性粘贴——值,再替换,否则存的是公式,并不能达到替代k的效果。
REPLACE(old_text,start_num,num_chars,new_text)
REPLACE(要替换的文本区域,开始替换的字符串位置,要替换的字数,要替换的文本内容)
substitute(text,old_text,new_text,[instance_num])
substitute(单元格,被替换的字符串,新字符串,指定替换第几个)
TEXT(value,format_text)
Value 为数值、计算结果为数字值的公式,或对包含数字值的单元格的引用。
Format_text 为“单元格格式”对话框中“数字”选项卡上“分类”框中的文本形式的数字格式。
把单元格内容前后的空格去掉,但并不去除字符之间的空格
LOOKUP(lookup_value,lookup_vector,[result_vector])
e.g. LOOKUP(@P:P,{0,5,10,20},{1,2,3,4})
如果P列在0-5,返回1
VLOOKUP(Lookup_value要查找的值,Table_array在哪里找这个值,Col_index_num找到后返回查找区域的哪一列,[Range_lookup]匹配程度)
TRUE 近似匹配
FALSE 精确匹配
常用的index用法是:
INDEX(array单元格区域或数组常量,row_num,[column_num])
Match(lookup_value,lookup_array,[match_type])
OFFSET(reference以此为基准进行偏移,rows,cols,[height返回区域的行数],[width返回区域的列数])
rows&cols:正数表示向下向右偏移,负数表示向上向左偏移。
And
Or
IF
Is
Not
False True
Sum
Sumproduct:是在给定的几组数组中,将数组间对应的元素相乘,并返回乘积之和。
Count:COUNT函数只能对数字数据进行统计,对于空单元格、逻辑值或者文本数据将被忽略
Max
Min
Rank
Rand():0-1之间的随机数
Randbetween(bottom,top):输入的两个数之间的随机数
Averagea
Quartile(array,quant):quant = 0 -> min ; quant = 4 -> max
Stdev标准差
SUBTOTAL(function_num,ref1,[ref2],…)分类汇总
Int 向下取整
Round 四舍五入
Countif(s)等等 统计和if结合的函数
Year
Month
Day
Weekday:参数2是选择星期一开始还是星期日开始
Weeknum:是一年中的第几周
DATE(year,month,day):其作用是将提取的数字变为日期格式
Now
Today
数据 —— 分列
开始 —— 条件格式 —— 数据条/色阶/图标集
插入 —— 数据透视表 —— 切片(对生成的数据透视表双击变成新表 或者 插入切片器插入图片,图片会跟着变化
视图 —— 冻结行/列
公式 —— 定义名称(根据所选择的数据创建别名,之后想使用就直接使用别名
数据 —— 删除重复值
数据 —— 数据验证 —— 列表 —— 设计对应的源约束只能选择哪些选项(结果是会出现下拉箭头
Ctrl+方向键
Ctrl+Shift +方向键
Ctrl+空格键
Shift+空格键
Ctrl+A 选择整张表
Alt+Enter 换行
(记得复制一份数据,存放原始数据)
现在你有一份的餐食数据,我想通过excel知道
全国点评数最多的饭店是哪家?
(1)排序
(2)max+match+index函数
哪个城市的饭店人均口味最好?
最好复制数据透视表的结果再进行排序。
哪个类型的餐饮评价最好?
同数据透视表
类型为川菜的店中,有多少个带「辣」字,又有多少个带「麻」字?
视频4:20
口味、环境、服务,三个评价都在8.0以上的饭店有几家?它们在哪个城市的占比最多?
把筛选的结果复制到新表,然后进行数据透视
上海地区中,各个类型饭店服务前五名?
视频9:20
没有评价的饭店有几家?
筛选或者用count函数(不计算空值,反减即可
将人均价格划分成0~50,50~100,100~150,150~200,200+这几个档次,各个城市分别有几家?其中占比又是多少?
match+数据透视表
将点评、人均、口味、环境、服务这几个指标加工出一个综合评价系数,并且计算哪十家店是最好的(开放题)。
对所有地区的日本料理,做一次描述性分析(开放题)