2021年-年度总结

其实今年的年度总结一开始没想到要说什么,偶然看了一眼去年的总结。瞬间感觉有话可以聊了。那大概总结以下几个内容:

  • 1. 2021年春招过程
  • 2. 完成毕业论文并顺利毕业
  • 3. 再次来到北京这座城市并开始工作
  • 4. 工作内容,如何看待内卷
  • 5. 评价大数据这个行业的现状
  • 6、2021年全年总结和2022年期望

可能这个内容比较多,我打算每周写一点。虽然都是一些不太重要的事情,但是记录下来,明年在看的时候,这都是成长。

1. 2021年春招过程

春招没开始前,我心里早就充满自信,为啥?百度的同事告诉我,在百度的经历是一个金招牌,江湖人称黄埔军校毕业,当然了,我就实习了半年

半年的经历其实在春招的时候很有加分项,为啥呢?春招面向的群体主要是考研失败的同学。这里我可以好好讲讲为什么有春招这种招聘方式,
第一点,牛逼的同学在去年秋招的时候拿了几十个offer,然后他选择了其中一个最适合自己的offer,那么剩下的offer就得拒绝,企业或者HR由于有招聘指标,完成不了就得重新招人,直到招满为止。所以春招的时候可以听到,HR说HC还有很多的,大家要积极投递简历啊这种话。(大厂有HC的主要原因
第二点,可能会存在业务线扩张,或者说企业的员工刚升上管理,他急需一批自己的研发去做业务,因此就会有多的HC出来。
第三点,年终奖发了后,就有员工跳槽,位置就空了出来。此时作为企业一方的资本家,很愿意栽培(招聘)一些年轻人做事(苦力),为啥?校招成本最低,社招成本最高,企业愿意和花得起这个精力去培养一些人,继续做刚才跳槽走的人的一些事,也就是填坑

说完为什么有春招的事情,我们继续聊春招如何突出自己的优势。
如何理解优势?

  • 名校背景
  • 本科生与研究生学历
  • 实习经历
  • 项目积累
  • 个人基础知识

名校背景和本科生与研究生不是我要讨论的重点,我本来也是一个双非本科生
实习经历是我讨论的,如果我是面试官,虽然你实习经历丰富,有名校背景,基础扎实,但是我其实就想招一个能干活的人,干越多越好的那种(卷王)。那明白这一点就很重要了,我很能干活,不管什么样的活都能干。如何做到呢?那就得有实习经历了,国内互联网公司基本上都有或多或少相似的地方,也就说,只要你有在某一家大厂实习过,那再去别的大厂的时候,人家不会太重视你的基础,而是关注你做了什么事儿,有什么收益,啥时候能来干活等等。

你可以这样理解:春招面试考察优先级
实习经历>项目价值>专业匹配程度>学校背景>基础知识
这里我可以坦白的讲,即使在大厂拧螺丝,也比小厂造火箭更受欢迎(仅对找实习工作的同学而言)。

从我自身的经历而言,有了大厂的实习经历后,面试的时候不会被问计算机网络、也没有问操作系统、甚至数据结构也没问,大部分围绕项目开展。

如何看项目的价值,可以这么给大家一点意见。如果没有实习经历的同学,没有项目可写的时候可以去B站看一些大数据相关的项目,只要你能讲清楚为什么要这么做,就算
而有项目经历的同学,应该表达清楚这个项目的价值,为什么要做这个事情,做这个事情的收益等等。

给大家看看我写的吧(写的不太好,可以参考)
2021年-年度总结_第1张图片

可能大家会说比较简单,是的,确实简单,但是这个项目的背景是在百度做的,那这个东西拿出去人家就认可,这就是为什么一定要进大厂,一定要进大厂

聊了这么多,说说我自己春招干了什么事儿吧。
我春招本来想去深圳的,投了深圳的字节、虾皮,投了北京的陌陌、快手、360、携程、美团。其实主要就投了字节和虾皮,其它的公司要么没兴趣去要么就懒得投。

我总共面了字节、陌陌、美团这三家公司,最后收到了字节的offer。

其他印象最深刻的就是虾皮的笔试,被恶心到了,在他们的笔试编译器下死活跑不出正确结果,我在本地开发机就能出来正确结果,气的直接关浏览器,不做了,希望后面有人看到了能改改,用户体验极差!
说起陌陌,就是看上了他们的年终奖,每年都有一款最新的IPhone,结果面试的时候,人家直接告诉我过了,结果挂了电话就再也没有消息。。。
美团也是很无语,一个基础架构的非要拉着我讲hive查询SQL的语法器怎么优化,我当场裂开,如果优化SQL性能问题我觉得还好,结果好了真要我造火箭,我咋知道语法器怎么优化,我就讲了我们怎么做的,大概就是查询的时候强制设置分区的概念。。。最后算法题的时候,给我出了一个从两个有序数组中找到第K大,我明明解出来了,一直追问我二分法是咋找到的,反手给我挂了。。。。服

还是字节的体验非常舒服,二面就告诉我我来了后要做什么,人家也不为难我,二面面试官是我现在的leader,来公司可能太晚了,问他为什么给我过的时候,leader早就忘了。不过我倒是知道三面的时候面试官为啥也能给我过了,因为当时的算法题做出来了,但是没有优化出来。。。因为三面面试官是刚从百度跳槽的,沾了前公司同事的光,哈哈哈

收到offer后,直接从百度跑了,为啥呢?字节平台更大,有很多前沿的技术可以学习,来了这么久了,百度和字节的基建没法比,字节太强了,研发只用考虑业务的具体实现,而在百度的时候我还得手写导库脚本。对哈,我在百度的时候没听说过要考虑用户体验的话之类的,在字节的时候经常会讨论如何提升用户体验的,这么说离开那里确实是正确的。

这是我的 Offer。

2. 完成毕业论文并顺利毕业

本科毕业论文,水,真的水。
我的论文就是简单搞了一个大数据的数仓项目,从0到1做好分层,
大致的流程图如下:

看上去非常简单,论文叙述的重点就是废话连篇的介绍为啥要分层,分层的工作内容是什么。
从过来人的角度来将,其实就是把论文格式写规范,内容并不重要,除了自己会慢慢一个字一个字的看论文,基本上没人愿意看。

一说论文,就必须要说到查重工具了。网上有很多很多的查重网站,最常见的有paperyy 、 paperfree、paperpass等等。
为啥要找这么多工具呢?因为论文查重是要钱的!
2021年-年度总结_第2张图片
为了免费查重,每个论文查重网站基本上都有我的影子,每天换账号、换平台给论文查重。。。
比如使用免费的查重工具测试的重复率有20%,真实知网查的话会在20%附近,这是我血的教训,因为写论文只想写完就完事儿,没有想低于10%,15%等等,因为最后毕业的时候有个华而不实的称号,优秀毕业生,评选条件就是论文查重要低于15%。。。

3. 再次来到北京这座城市并开始工作

2020年11月初某天早上,我的大姨和姐姐早上亲自开车送我到重庆机场,当时正下着雨,路上又把箱子的轮毂碰坏了,突然想到一首诗句

清明时节雨纷纷,路上行人欲断魂

外边机场正下着大雨

行李箱被我碰坏了。。

来到北京,当时北京正直秋天,刚好树叶已经落完了,来的时候看到荒凉、秃秃的树木,心里非常失望,来的时候老家重庆繁花似锦,人群拥挤,一来北京,发现地面上没有多少人,原来是因为天气冷人们都不愿出门且北京地大,不像老家那么拥挤。
附上一张景色稍微看得过去的图片,初中以后就在重庆生活的我,头一次见荒凉的地方,触景生情

记得第一天报道的时候,感觉还是蛮好的,一想到可以在环境还不错,工区宽阔的地方工作,心情格外愉悦。
百度总部报道:

完成报道工作后,就要去工区了,说实话感觉和百度大楼没法比,但又不得不去。(四楼就是我工作的地方)

在百度实习的时候,有很多的第一次
第一次吃上免费的早餐——吃多了就不好吃了。。
2021年-年度总结_第3张图片
第一次用上了mac笔记本——15年的老款,但是很耐用
2021年-年度总结_第4张图片
而生活中我也有第一次做饭——这是最简单的。
2021年-年度总结_第5张图片
第一次炒牛肉——糊了,将就吃吧。。。
2021年-年度总结_第6张图片
第一次烧鸡——很成功特别香

第一次煲汤——枸杞有点多

第一次团建去滑雪,可以顺着坡下去不倒了

第一次和一群周围打工的人吃快餐
2021年-年度总结_第7张图片
第一次加班到深夜,外面下着下雪很冷

第一次做饭把手划伤,留了很多很多血。。。止不住的那种,

这么多的第一次,记录下来是很有意义的,明年再来看的时候,看到自己之前的成长过程有点不屑也有点珍贵,像我们这种普通人,生活是多么的寻常

在北京待了大半年,说实话感觉很累,但也很自豪,自己成长的很快。我学会了一个人做饭、一个人上下班。学习了许多开发工具的使用,学会了和同事如何交流工作,我也遇到了工作中遇到不会的问题一筹莫展,被骂得像个g一样的事情。种种经历告诉我,我一定要努力我再也不要过这样的日子,我要让这些人看得起我。

所以我离开了百度,也不只是这些原因,更多的原因在于工作印象,一开始没能力的我只能忍受别人的冷眼,从那个时候开始我就发誓,等我有能力的那一天我一定会离开这里,不留下任何感情。

如果你想问我,人家给你很多钱让你回去,你愿意回去吗? —— 不可能

2021年7月,我再次回到北京。本以为我的生活会变得好起来,没想到租房就给我当头一棒,3000块,租了一个6户人的隔断单间,本想着只工作,房子只睡觉。结果,到现在成了,我的生活只有工作和睡觉,包括周末我也在公司的工位坐着,环境真的太重要了,奉劝各位,来北京租房子千万别亏待自己。工作的第一年的积累决定了未来5的财务积累和技术沉淀。
附上这个收了我一个月房租的中介费租来隔断房
2021年-年度总结_第8张图片

虽然住的差了,但是字节的基本福利还是好啊,免费三餐,macbook 16寸笔记本和27寸的显示器

在字节我能够全身心的做业务,不会被一些无关的事情分散精力。
在字节工作了半年,我看完了Scala编程这本书,看完了尚硅谷的Spark3.0从入门到精通,黑马程序员的Spark3.0教程、黑马程序的Hbase海量数据存储、Scala版的Flink等等。
我的精力主要在学习Scala语法,是为了读懂Spark源码。并且积累了很多源码知识,因为在工作中对源码的认识越多,调优的经验也很多,这样的话我的任务就跑的特别快。
在这里插入图片描述
在这里插入图片描述在这里插入图片描述

2021年-年度总结_第9张图片

上面的截图都是我曾经看过的视频,可能好久没看有的知识点忘记的比较快。
所以我推荐大家一遍看视频一边积累。这里建议大家用wolai这个记笔记的工具,这是我字节的同事推荐给我的。可能有人会问我为啥不用网易云有道笔记呢?——因为我之前在百度记的笔记都在这个上边,离职的时候由于这个破软件没有更新缓存,我手动更新也没用,把我积累的一些知识点弄没了,因此我才换了一个记笔记的工具。
附上邀请码:3KDRUQ5
这里下载链接:下载地址

附上我自己积累的一些调优知识点截图
2021年-年度总结_第10张图片
包括一些Spark的源码分析
2021年-年度总结_第11张图片

2021年-年度总结_第12张图片
感兴趣的同学可以私聊我

4. 工作内容,如何看待内卷

本人实习加工作时间差不多一年,主要做的数仓相关工作,在百度参与过0-1数仓的建设,大部分就是根据业务需求,去原始日志中将需要的信息计算出来,如Dau、次日留存、新增用户等等。

在正式工作后,大部分也是写SQL除非SQL满足不了才写代码,但不是数仓的那种做通用信息表,本质上其实也是数仓,只不过现在这个偏业务数据开发的工作,也就是根据产品的需求,直接取数仓做好的中间表或汇总表等。

限于安全问题,不具体展开描述。

上班时间

我工作的是早上10点到晚上9点。然后9点多来公司吃早饭,晚上一般九点多下班,是有点累的。

如何看待内卷?

我在工作闲暇之余,经常看一些B站的视频,讲解Spark的源码,对源码的了解对写业务有很多好吃,比如我知道任务为啥慢,慢的地方在哪里,如何解决等等。

我认为内卷挺好的,一是提升自己的主人翁意识,不断学习提升自身技术能力和知识面,对后续的发展有很大的帮助。二是让自己年轻,可以时刻对比别人自身的缺点和优势,取长补短。三是努力就是为了带来更好的回报,只有努力起来,才能缩短同龄人之间的差距。

5. 评价大数据这个行业的现状

个人觉得,业务经验非常吃香,但是针对我们这个行业的工种来说,可替换性非常强。要么业务经验非常强,人家觉得你干活懂得业务多,干活方便自然不会有什么失业的风险。要么就要懂技术,手撕源码这种。为啥?因为我们这个行业大部分人都是写SQL,写SQL可替代性太强了,产品会写、运营会写、后端会写,我反问一句,你说你只会写SQL,那是不是竞争力就小了?如果企业考虑成本,大可不用招你来专门写SQL,后端的同学虽然写的慢,但是也能写出来。这咱们不久失业了?

因此个人觉得大数据开发工程师,首先应该把SQL写好,语法基本上都得知道,你至少知道那个语法写出来性能最好。然后再想办法优化Spark。(实时的也是一样,优化Flink)那如果我们懂一点Spark/Flink源码优化的时候是不是就很明显了?比如,我在工作中主要通过建立分桶表,把一个任务10个小时的缩短到3个小时,这是不是能显示出我的能力?——我举个例子。当然肯定不止建立分桶表了,你还的加并发,加内存,保证内存和cpu没有被大面积浪费的情况下,让任务更快的跑起来。虽然听起来简单,但是遇到的问题都是千奇百怪的。

这里调优的手段应该都是吃饭的家伙,我就不多说了。我个人认为大数据的成长路线应该是这样

离线大数据开发 ——> 实时大数据开发 ——> 基础开发 ——> 架构师

离线大数据开发部分
大家都知道,主要的技术栈是Spark和Hive,其它的可能会包括MySQL、Hbase、ClickHouse等等

具体的工程我认为分成这样。

  1. 熟练掌握Spark/Hive SQL语法,能够解决大部分性能问题。
  2. 熟练优化任务(包括数据倾斜大表倾斜、小表倾斜等),能够减少资源的浪费和提升资源的使用率,并显著加快任务产出。
  3. 熟练书写Spark的代码(不限于Java、Scala、Python),能够根据特定的场景解决业务需求,如写UDF、UDAF函数,用代码来复用RDD等等。
  4. 使用多种语言完成业务需求,并寻找最优解。举个例子,在业务中有一个单表处理的复杂逻辑(不涉及Join),用Python完成Spark解析需要2000Core10T内存,用Scala写出来的代码只用2000Core5 T内存,并且Python写的要1个小时,Scala写的0.5小时。——主要性能问题,数组内排序。
  5. 能够通过改源码去优化任务,如Spark-SQL中数据多路IO复用,这里边由于有谓词下推机制,导致同一个表不会被复用,会多次反复扫同一张表。

这大概就是我的理解目前大数据工程师的成长路径。(个人观点)

实时大数据开发工程师
因为本人还未真正处理业务上的实时数据,个人猜测需要知道的东西包括Kafka、Hbase、redis、rocksdb。主要语言应该是Java

具体的流程:

  1. 熟练掌握Flink-SQL的语法,能够独立完成大部分实时场景的需求
  2. 通过编程解决一些Flink-SQL无法支持的需求,如状态编程维护一个非常大的map结构。
  3. 熟练使用Java/Scala书写Flink-SQL,混合编程解决具体业务场景需求

再往后我就不多说了,如果哪天我走到了那里,在具体的解释吧。

6、2021年全年总结和2022年期望

2021年我收获了新的工作,有了对象,顺利毕业,这都是非常让我满足的。
但是我不满足的地方还有很多,如技术上,迫切希望去做实时大数据处理。生活上,希望换一个能够让人住的舒服的地方。

因此简单概括2022年的期望

  • 未来在抖音直播做实时大数据处理
  • 工作中积累更多的技术知识,做好技术沉淀,坚持记笔记
  • 换一个好的房子,生活和工作都一样重要
  • 我的对象来北京和我一起工作

你可能感兴趣的:(年度总结,大数据)