首先简单介绍一下SQL(Structured Query Language),是一种可以进行数据提取、聚合、分析,并对数据库进行构建和修改的编程语言。
相对来说,SQL上手非常容易,因为语法结构比较固定,新手初学几天就可以轻松上手,懂得最基本的select, from, where, group by 等语法的使用,完成一个基本的SQL程序。
当然,初学之后,就要面临一些进阶的挑战,比如利用join做表关联,建立子查询,分组排序等任务,难度会有一定程度的上升。
后期,SQL还要求我们懂得进行程序优化,减少运算时间,比如利用group by 代替distinct,避免在关联中出现笛卡尔积等情况。
SQL语言的应用可是太广泛了,在金融、互联网等行业均有不同程度的需求。对于在这两个行业都有过经历的打工人,这点我最有感触了!
比如大厂的数据分析、数据中台、策略规划等职位,都需要有一定的SQL技能。而对于互联网行业的运营和产品类岗位来说,SQL更是不可或缺的技能。在这个数字驱动的时代,运营和产品人员需要通过大量数据的分析来调整和优化产品和业务策略。而在这个过程中,SQL不仅可以帮助他们快速地查询和导出所需的数据,更可以在数据分析的过程中发现潜在的机遇和问题。
求职过程中,面试会有相关SQL问题;到岗之后,可能更是会直接给安排相应的SQL编程任务。若是没有相关经验,可能就两眼一抹黑,听天由命了。
我入职的时候,没几天,老板就扔给我几个数十行代码的SQL程序,让我理解清楚,然后整合到一起,做一个简单的分析。即使我有一定的SQL基础,理解这么长的代码,要着实花费了我一天的时间,最后还被老板告知“这个代码其实是偏基础的那种”。
所以,SQL在日常工作中是非常重要,学号了SQL,可以极大提升我们的职场优势。
金融行业同样如此,一些数据岗位、研究岗位SQL同样是有力的加分项!有时候,会一定的SQL技能,也会极大提升我们的工作效率。试想,有个工作,若是不会SQL,可能就要等技术人员帮你取数据,做分析;而掌握SQL之后,一些简单的数据分析工作,我们完全可以自己完成,极大解放生产力!
当然了,对于数据分析相关行业来说,SQL有时候只是个“必要不充分条件”。做相关工作需要用到SQL,但是只会SQL也不一定保证能成为一名优秀的数据分析师。
再补充几个常见的SQL使用场景吧。
注:以下内容不涉及任何公司机密,相关场景已做脱敏处理,请放心阅读。
假设我们想要分析用户的一些特征,对他们进行分类,分析不同类别用户的一些行为特点。很容易想到,性别和年龄可以作为两个分类标准。
利用SQL,我们可以分析出不同性别、年龄的用户占比:
select age,sex,count(id) from table
where date = '2023-03-01'
group by age,sex
这是一个非常简单的SQL应用案例,我们还可以分析不同类别用户的人均消费,假设消费和用户不属于同一张表:
select age,sex,sum(consum)/count(table1.id) from table1
left join table2 on table1.id=table2.id
where table1.date='2023-03-01'
group by age,sex
上面这个程序可以运行效率比较低,因为我们相当于同时调用了两个大表table1和table2,为了加快效率,我们可以利用子表进行关联:
select age,sex,sum(consum)/count(a.id) from
(
select id,age,sex
from table1
where date='2023-03-01'
)a
left join (
select id,consum
from table2
where date='2023-03-01'
)b on a.id=b.id
group by age,sex
这样,子表中,我们限制了时间这个分区,大大简化了扫描大表所需要的时间。
这就是一个简单的SQL数据分析任务,当然,实际中,我们需要考虑事情远比这要复杂。
比如,我们可能想把年龄划分成未成年、青年、中年、老年四个区间,就需要case when语句;
我们可能想分析一个类别用户在未来14天的消费变化情况,就需要join多个子表;
我们还可能要分析性别预测的是否准确,等等。
用户的留存情况,往往是互联网企业非常关注的一个指标。很容易理解,如果一个APP更能让新用户留下来,那它的活跃用户数就会不断上涨,流量池不断提高。
而要计算留存率,有时候并不是那么简单。
我们首先需要固定一个基础用户池,比如2023-03-01的所有用户。
然后分析这些用户在第二天的留存情况:
select count(t1.id)/count(t0.id) from
(
select id from table
where date='2023-03-01'
)t0
left join
(
select id from table
where date='2023-03-02'
)t1 on t0.id=t1.id
同样的逻辑,我们也可以计算出第三日留存率,第七日留存率等。
结合案例3.1,我们也可以计算不同类别用户的留存情况对比:
select age,sex,count(t1.id)/count(t0.id) from
(
select age,sex,id from table
where date='2023-03-01'
)t0
left join
(
select id from table
where date='2023-03-02'
)t1 on t0.id=t1.id
group by age,sex
总之,各种SQL代码块结合起来,我们就可以根据需要,完成一个个复杂的任务,得出一个个更有深度的内容。
比如,有了上面两个代码,我们还可以分析留存率和消费的相关性;性别、年龄和留存率的相关性;消费随时间的变化;工作日,非工作日的消费是否有显著差异,等等。
这些看似比较复杂,内容也很多,但是随着我们完成一个个任务,在实际中锻炼自己的SQL能力和数据分析思维,最终都会迎刃而解。
有时候,我真的感觉,这样的工作不仅很有价值,而且还会让我们充满成就感,学以致用。
总之,SQL绝对是职场中一大利器,各行各业都会用到。掌握了它,在求职过程中就要顺利很多。会SQL的打工人,在职场中也具有不错的竞争优势。
而对于初学者来说,除了学习SQL本身以外,用什么sql工具也至关重要,市面上很多主流的老牌sql工具不是价格高,就是学习成本大,应用难度高,它们的目标用户并不是新手小白,这里推荐一个非常适合新手小白使用的sql工具,就是SQLynx,它的界面简洁,,交互直观,只需要点击鼠标右键,所有功能一目了然,上手0难度
SQLynx官网免费下载使用点击前往官网