AI行业分析与面试指南

原创:晏茜
资料来源:陈旸

AI行业分析与面试指南_第1张图片

近年来,人工智能行业的受欢迎程度是有目共睹的,越来越多的人想要加入 AI 这个行业。但是在我们正式开始求职之前,应该进行理性的分析,了解现阶段 AI 行业的发展趋势,AI 行业需要什么样的人才,AI 人才需要掌握什么样的知识技能才能谋求更好的职业发展机会,本文将带大家深入了解 AI 发展趋势和 AI 人才必备技能,希望能够帮助求职者找到正确的方向。

本文将大致分为三个方向。首先我们先带大家了解一下我们所处的时代有哪些关键的技术变革;其次,会带大家了解除了大厂以外,还有哪些传统的行业也在做数字化的转型,这些行业同样值得 AI 从业者去考虑;最后,会介绍在我们的求职面试过程中有哪些需要注意的地方。

1. 云计算、AI、大数据的区别与共生

相信大家都听说过云计算、大数据、人工智能,可能还会对他们有一定程度的了解,那么请问这三者之间有任何的联系吗?他们是相互独立的,还是互生依赖的呢?其实,无论是云计算、AI 还是大数据,都属于朝阳行业。云计算像是一个底层的存储的框架。云计算的岗位广泛存在于互联网企业中,比如,阿里云、腾讯等等,如果你能去这些公司的云计算的相关岗位去工作的话,也是非常好的选择。大数据的岗位职能主要是大数据的治理,还有大数据的运算,实际上很多的算法也是在海量的数据中进行运算的。举个例子,比如京东要上架一本新书,这本新书叫做《数据分析》,针对这本新书,我们想要找到它的潜在的用户去做推送,那么我们如何去做呢?据统计,京东每天的订单量大约有 1000 万单,那么一个月的订单量就会有 3 亿 左右,这个数量级是非常惊人的。如果按照更长的时间线的话,我们的用户行为数据是一个海量的数据,所以直接用 Python 其实是无法解决这么大的数据量的,这就需要底层的一个大数据,所以我们可以利用基于 Spark 等大数据处理框架去跑一些数据建模,去预测一下哪些用户会对这本书感兴趣,并做推荐。这是大数据的一些底层的技术。人工智能技术大家应该会更加了解,这里不做更多的介绍。

AI行业分析与面试指南_第2张图片

云计算、大数据和人工智能这三个部分其实都可以把他们称之为新基建,也就是我们在科技领域中所处的第四次革命。在前三次工业革命中,每一次都给我们带来巨大的生产力的变化。在上个时代,出现了电脑、互联网,而现在我们整个的新基建更像是一个机器,它把云计算、大数据以及 AI 串联到了一起。

AI行业分析与面试指南_第3张图片

如图所示,我们的底层是一个云计算,在做计算的过程中,有越来越多的数据会被放到云端,如果你在互联网公司工作,公司一定需要一个 IT 的支持部门,这个支持部门一定会有很多的服务器一起帮你去完成运算,所以,底层可以是私有云,也可以是公有云。中间层是大数据,大数据需要有很多的结构,包括数据治理和数据安全。数据治理的目的就是要把数据标准化做成一个中台,如果公司想要更好的去支持他的业务的发展,就需要有一个强大的中台,这个中台会把数据标准化、规范化,从而让所有的业务部门都可以看到一个相对干净的、标准的、唯一的数据,这是我们的大数据中台。最上层是人工智能。

国内互联网大厂(新基建战场)

在 AI、大数据和云计算这三层架构中,哪一层架构与业务最接近呢?与业务最接近的架构一般指的是能够直接看到结果的那一层架构。不难发现,人工智能其实是离结果最近的,也就是离业务最近的。

我们可以发现一些大厂也在做一些布局,这些互联网公司其实是在做底层的基础设施的建设。比如以华为云为例,华为云做了一个工具,叫做 ModelArts。ModelArts 这个产品实际上是一个自动机器学习的产品,业务人员将数据上传之后,它就可以自动完成模型的搭建,同时也可以自动的完成部署。所以从模型的标注环节,再到数据的预处理、建模、上线、评估,一系列的过程都是通过这个产品来完善的。腾讯云做了一个偏向于云计算的架构,名为 Serverless。如果你在百度工作,一般会使用百度自主研发的深度学习技术框架,Paddle。目前,在国产的深度学习技术框架中,Paddle 是排名第一的框架,它的使用量是非常高的。阿里云目前在做的一件事叫做数据中台,阿里云体系里面有两个产品跟数据中台是有关系的。一个产品叫做 DataWorks,另外一个产品叫做 MaxCompute。DataWorks 是数据治理的工具,包括底层的数据的集成、清洗等等,MaxCompute 可以做各种各样的大数据的运算。

阿里云还有一个很好用的产品叫做数据银行,数据银行里面有它独一无二的数据,也就是每个人的淘宝的用户画像。大家应该都会使用淘宝,也会使用支付宝、微博、优酷,或者哈啰单车等等,这些产品都是阿里系产品。而只要是阿里系产品,他的数据就会流入到阿里的数据银行中。这个数据银行会给每个用户打上大约 2000 个标签,这样就形成了阿里对用户的洞察,而且阿里以人群画像的形式将他所获取的数据开放了出来。为什么阿里不把他最直接的、个性化的 ID 画像提供给我们,而是提供了人群画像呢?假设我们输入某用户的手机号码,数据银行反馈给我们一些信息,包括该用户的个人信息,还有他经常去哪些地方,有什么样的购买行为,他的月均消费是多少,曾关注过哪些品牌等等,这就像是用户的流调信息。如果阿里将这些最直接的信息开放给你,他实际上是没有开放到底层的技术的,并且这些信息属于用户的个人隐私,是涉及到数据安全的。所以,数据银行开放给我们的的不是 ID 的力度,也就是某一个人的数据,而是整体的人群画像。

那么什么叫做人群画像呢?简单来说,人群画像就是对用户群体的整体统计,比如说我们要做 2000 个人的人群画像,我们可以在微博上找到 2000 个 ID 组成一个人群包,我们把这个人群包放到数据银行中,第二天(T + 1 天)我们可以拿到该人群包的报表,它会告诉我们这个人群包里面用不同品牌手机的人的比例是多少,他们更倾向于用哪种型号的手机,还有他们的性别、年龄、学历、人生状态等等,这时我们得到的是一个相对比较抽象的人群画像,这个人群包就可以帮助我们做用户的洞察。那么对于企业来说,这样的人群画像是否是有价值的呢?笔者曾询问过很多企业,这些企业都觉得是非常有价值的,甚至这个价值大于他们自有数据的价值,这是为什么?因为企业现有的自己对用户的洞察是非常稀疏的,事实上,他们很难收集到大量用户的行为数据,但是我们每个人基本上都在阿里的数据银行上有很多的行为的记录,所以对于企业来说,这种数据非常有价值的。而且如果企业获取了这样的人群包,他们就可以建很多新的人群包,如果一个公司有 10 个产品,分别是产品 A、产品B、产品 C 等等,而每个产品都有它自己的独特的受众,只要你能把产品 A 的对应的特定受众群体找到,那么就相当于有了产品 A 的人群包的具体的画像。

对于我们的数据中台来说,阿里提供了两种不同的技术,一是工具,包括 DataWorks 和 MaxCompute,这是云计算的产品,二是开放了淘系产品里面的人群画像,你可以自己去定义人群包,对用户行为进行洞察。

另外,我们看到了一些行业的趋势,比如垂直的生态。中国银联在做的金融云就是垂直生态的体现,中国银联联合旗下及合作过的银行,正在做金融云,并且他想赋能所有的银行金融的企业都来进行合作。

AI行业分析与面试指南_第4张图片

如上图所示,左侧是互联网公司在做的事情,右侧是他们的核心能力的输出。华为的 AutoML 的本质是给你提供一个基建,最终得到的是一个 AI 模型,企业可以通过华为的强大的算力,训练好自己的 AI。腾讯的 Serverless 可以做到非常弹性的部署,比如我们想要搭一个云服务,以前你是不是要买一台主机,这个主机一年大概需要 5000 块钱,对一般人来说,因为你的使用效率不高,一年可能只访问 10 次,平均一次就要花费 500 块钱,相对来说是十分昂贵的。对于腾讯 Serverless 来说,如果只访问 10 次,可能只花 1 块钱就够了。百度 AI 的 Paddle,我们可以把它理解成是我们深度学习的一个计算引擎,而且这个引擎也做了很多的预训练的版本。阿里云更主要的是一些技术,还有一些数据的赋能。

AI行业分析与面试指南_第5张图片

上图为阿里云的技术解决方案。他在给我们的银行提出解决方案的时候,会给到一个整体的方案。底层是他的云平台的基础设施叫做飞天大数据,中间部分是他的一些数据类型的产品,可以指导银行做一些相关的业务,而这些最终都是可以搭建在云原生这个系统上面去完成的。

AI行业分析与面试指南_第6张图片

如图是谷歌的 AutoML(自动机器学习)的页面,关于 AutoML 的使用, 我们发现有一个有趣的现象,以前使用 AutoML 的通常是业务人员,因为业务人员不写代码,他们只能用这样的工具,通过网页把数据上传上去,点击按钮后,模型就出来了。而现在我们发现技术人员也在使用它。在去年的一个 CCF 的关于个贷违约预测的比赛中,就有一位选手使用了 AutoML ,并且取得了还不错的成绩。AutoML 把它每一步要做的事情标准化了,写成了一个流程,可以把它称之为 pipeline。这个流程是它内嵌的一套流程,我们只需要把数据给到它,选好你要操作的模式,它就会自动的帮你去进行建模,把这个模型选出来。

Google Cloud:不仅是计算平台,还拥有数据

AI行业分析与面试指南_第7张图片

AutoML 的鼻祖是 Google,在谷歌云上面提供了 AutoML 这个工具, 这个产品的主导者叫做李菲菲。李菲菲在谷歌大脑的时候,做了 AutoML 这样一个产品。AutoML 有很多企业的受众,比如日本的电商的企业,Mercari 。Mercari 是一款在日本很受欢迎的购物应用程序(日本跳蚤市场排名第一),类似于我们的闲鱼。在这个 APP 上面,用户可以上传任意一张照片,就可以找到与它相似的一些商品。在这个过程中,我们其实是在进行拍照识别的操作,通过拍照识别判断出这张照片中的商品属于哪一品牌。而这样的操作,在以前我们是需要自己进行建模并打上标签的,可以说这个过程是非常繁琐的。而如果你使用了 Google 的 AutoML ,不仅会使操作更加便捷,同时也提高了效率。虽然 Mercari 自己在 TensorFlow 上训练的模型达到了 75% 的精度,但是使用 Google AutoML Vision 解决方案对图像进行分类,精度可以高达 91.3%,提升了 15%。所以我们可以发现使用 AutoML 不仅能够提高效率,而且得到的效果还会更好。

Google AutoML 世界观

AutoML 的收费模式是按小时来进行付费的,金额是每小时 20 美金,在国内,华为云一个小时的收费大约是 10 块钱。除了 GPU 租用可能需要花一些钱,Google 这个搜索引擎还会给你提供一些专业的数据,我们知道搜索引擎天生就可以拥有海量的数据源,在 Google 里面内嵌的 5 万张图片,它可以自动的帮你找到这样的 5 万张图片来做一些数据的标准。那么基于这件事的话,模型的效率就会更高。

AI行业分析与面试指南_第8张图片

所以我们得出结论,大厂在去做底层的基础设施建设的时候,在这个基础设施里面,我们可以直接使用云端的算例,甚至我们的数据可以来自于搜索引擎给你提供的基础的数据。模型的训练以前是算法工程师在做,现在我们可以直接用一个产品 AutoML 来帮助我们去做这件事。它替代了部分的算法工程师的工作,会帮助你去建一个模型,叫做自动机器学习。我们可以发现大厂已经已经开始涉足模型、算例、数据源这三个维度,他们希望把这三个维度整合到一起,让人们去使用,通过这样的方式,建模会比以往更加的容易。

AI行业分析与面试指南_第9张图片

不仅仅是谷歌,在国内也有很多的云厂商都在关注着这样的事情,2019年 9 月 18 日,华为发布计算战略,他研发出了目前世界上训练速度最快的 AI 集群:Atlas 900 ResNet-50,Atlas 900 只用 59.8 秒就完成了整个训练,它的速度是非常快的。

华为不仅是要进入硬件领域,他还想再做一个 AutoML 的产品。有这样一则新闻报道,2019 年,华为破格招录了 8 个博士生,这些博士生是刚刚毕业的应届生,而他们的年薪竟然达到了 200 万。在招聘的 8 个博士生当中,其中的两个博士生是专门研究 AutoML 的,后来华为推出自己的产品叫做 ModelArts,也就是他们研发出来的一个 AutoML 的产品,而这个产品其实是对标了谷歌的产品。

2. AI 求职风向

AI行业分析与面试指南_第10张图片

总结一下最近 AI 领域的一些求职的方向,一种方向是互联网大厂,他们做的事情更像是一个基础设施的公司,我们所有的互联网大厂提供的基础设施实际上就是一个中台,是所有人都离不开的设施。我们的技术会逐渐的下沉,下沉到产业界,比如,制造业和金融业,这两个行业的发展依赖于算法的不断变革和更迭。

在医疗产业中,现在很多的演变计算都是可以通过 AI 来实现的。有一则新闻曾报道,我们可以通过 AI 计算出奥密克戎病毒的分子结构,并且计算的结果与其实际的分子结构相差不大,这种模拟其实就可以通过某些算法来生成。所以,在各个行业中,比如金融行业、制造行业、医疗行业等等,我们都需要与 AI 技术进行结合。“AI + business”是我们的主流的方向。

在求职过程中,我们可以找到几个行业点,比如说未来有机会的话可以去大厂的 AI Lab,一般大厂都有自己的 AI 实验室,比如腾讯的 AI Lab 和优图,这两个都是 AI 相关的实验室,阿里的达摩院,字节跳动的字节 AI Lab,百度的视觉技术部等等。除了 AI 的工作室以外,互联网大厂的某些核心的产品岗中,也存在一些 AI 的就职机会,比如大家熟知的王者荣耀,前一段时间出了王者荣耀的 AI,绝悟,它已经打败了人类的冠军,并且王者荣耀也已经把这样的 AI 技术迁移到其他的游戏场景中。

3. 传统行业的数字化转型

传统行业的数字化转型这部分的内容,会通过举例说明的方式让大家有更深刻的理解。我们以保险行业为例,在保险这样的传统的金融行业中,有没有一些 AI 的机会呢?一定是有的。首先是产品定价。产品的定价如果过高,就会导致销量的下降,收益也会减少,而如果定价太低,虽然产品的销量提高了,但是最终的收益也不一定能上升,所以价格的界定是非常关键的。那么,究竟要如何定价,我们才能赚取更多的利润呢?我们需要一个仿真模型,去模拟价格和销量之间的关系,同时也要找到一个优化的价位,使得我们整体的收益最大化。

大数据用例:产品定价

不知道大家有没有了解或购买过商业险,商业保险尤其是医疗保险有两种形式,一种是给付型,另外一种是报销型。给付型是指如果被保险人出险,保险公司会给被保险人一笔固定数目的保险金额。报销型是指按照被保险人的实际需要的医疗费用来进行报销,简单来说,就是花多少报多少,在报销型的商业保险中,保险公司会对被保险人的医疗费用做一个准确的判断,只有这样才会使产品定价更为合理。

那么如何去判断价格呢?其实,这就是一个 AI 模型的具体应用。我们要收集患者的特征,收集患病的的阶段,我们还会统计已有的出险情况,已经赔付了多少钱,医疗费用是多少钱,这样我们就会有大量的样本。有了这么多的样本我们就可以进行建模,这是一个经典的回归问题,我们可以利用这些样本去构建医疗费用的预测。

在预测过程中,我们会发现,比如,在癌症治疗时,原位癌的手术的治疗是以激素治疗为主,费用会比较低,如果是 I-III 期的患者,除了手术以外,还可能需要进行化疗,费用就会大大增加。如果是 IV 期的患者,治疗就会以化疗、放疗为主,价格就会更高。所以如果保险公司要为其报销的话,针对不同的用户特征,不同的治疗阶段,以及不同的癌症类型,费用其实都是不一样的,所以,就需要建立一个更加精准的模型去实现准确的保险定价。所以,可以看出来在一些业务场景中,价格的制定是非常关键的,也是非常需要进行 AI 建模的。

大家有没有买车并上过车险呢?在美国,前 10 大财产保险公司,已有 9 家开展了 UBI (Usage Based Insurance)车险。UBI 会基于驾驶行为判断给予车主车险折扣或者基于实际驾驶里程对车主按里程付费。也就是说,你跑了 1 万公里和你跑了 10 万公里的保险费率是不一样的。这里的里程数就是用户行为,所以基于它的话,我们也需要通过它去做建模,对被保险人去制定价格。UBI 车险规则在国内处于起步阶段,比如中国平安保险已经推出了 UBI 的车险,这也是他们的一个主要的项目。

在传统行业,尤其是金融领域中,欺诈的情况尤为严重。对于保险公司来说,是一定会存在欺诈行为的。那么保险公司能否识别出来这样的行为呢?大家有没有接到过诈骗电话?当你接到了一个诈骗电话,这个电话可能是从香港打来的,诈骗者可能会问你是不是前一段时间曾在淘宝上购买过某一个商品,以此来对你实施诈骗行为,类似的情况一定会存在。诈骗行为在我们的日常生活中广泛存在,而金融行业更是一个诈骗集中的地带。

据统计,在保险行业中,保费的理赔有 10% ~ 20% 都是欺诈的行为,甚至在某一些细分的产品中,欺诈概率高达 50%,保险欺诈已经成为仅次于逃税的第二大犯罪领域了。所以这种欺诈的现象,对保险公司来说损失是非常惨重的。在对过去 300 多家的美国已倒闭的保险公司的调查中,数据显示有 30% 保险公司倒闭的原因都是因为保险反欺诈工作不利所造成的损失过多。针对这样的问题,其实最好的解决方式是去做欺诈的预测,由机器先去做一个初筛,然后再将可能存在欺诈行为的保险理赔进行人工的复核,这是最好的解决方案。

Santam 是南非的一个短期保险公司,他们已经统计到每年欺诈行为占他已有保费的 10% 左右,这种欺诈行为就会导致保费的成本过高,转嫁给了其他正常的客户。不仅是价格更高,也会使理赔的周期变得更长。为了更好的去识别可能的欺诈,每一次的理赔都会要求人工介入,这会导致整个保险理赔的流程需要三个工作日才能完成。用户的保费高,体验差,时间长,不利于保险公司的发展。那么 Santam 的解决方案是什么呢?他通过数据建模的方式进行预测。首先通过机器预测保险是否是欺诈行为,并将保险理赔分成不同的等级,比如,欺诈概率很低的理赔,就会快速处理,大约一个小时就可以完成。欺诈概率很高的理赔,就需要进一步的人工核查,以降低保险公司的损失。所以通过 AI 的建模,不仅可以减少欺诈造成的损失,而且可以让保险理赔的效率有了极大的提升。

4. AI 面试考什么

了解了 AI 的求职方向之后,我们再来看一下在面试过程中可能会涉及到的问题,希望对即将或计划面试 AI 相关职位的同学有所帮助。那么接下来我们来看一下 AI 面试考核的内容。

  • 理论基础

首先,面试官会考核你的理论基础。GBDT 的原理是考察的重点,因为在项目过程中,GBDT 是十分常用的。除此之外,还有可能会问到分类树和回归树的区别。你可以关注一下面试的公司在招聘 JD 里面写到了需要求职者具备哪些技能,他如果提到某项技术的话,你需要对这个技术的原理提前了解,理论基础在面试之前一定要提前梳理一下,以便更好地应对面试。

  • 工程能力

其次,会考察你的工程能力,考察工程能力最直接的方式就是看一看面试者以前做过的或参与过的项目,所以面试官一定会问你以前的工作履历。可能会问你之前是否用过 XGBoost,LightGBM,也可能会问你如何防止过拟合等问题。这一部分也建议大家自己进行复习。也许你会说自己的工作还要复习吗?即使是自己从事过的工作也是需要复习的,因为面试官必问的问题就是你拿分的问题,所以需要你提前做一下项目经历的梳理和优化。

  • 业务理解

最后,考察你的业务理解,业务理解更多的会涉及到面试官所在公司的业务。假设他们公司在做的事情与股票相关,他可能会问预测股票价格走势一般都会出现严重的过拟合现象的原因等问题。假设他们公司当前核心战略是 AutoML 产品,那么面试官可能会问你之前有没有了解过或使用过 AutoML。

面试基本上会涉及到理论、工程、业务这三个环节,除此之外,还有一点更容易让你从一众面试者中脱颖而出,那就是你的影响力。如果你的面试压力比较大,竞争也比较激烈,面试官可能还希望你能有一点影响力。比赛就是一个最直接的体现你的影响力的方式,比如说你打过比赛,并在比赛中取得了不错的名次,在你的理论基础、过程能力和业务理解都不错的情况下,更容易打败其他面试者并被录用的。因为比赛实际上是具有大量参赛选手作为基数的,如果有 1 万个人参加比赛,你在这 1 万人里面排名第 10,那么就是你的一个非常有价值的地方。

5. AI Offer 4步法

那么,如何去准备 AI 面试更有益于取得 Offer 呢?我们希望大家遵循以下四个环节。

Step1,知识储备(必备知识)

HR考核:相关知识点是否有具备 => 关键知识点 Cover 90%

丰富你的知识储备,在正式面试前应尽可能积累相关技术的理论知识,关键知识点的考核会占到面试分数的 90% 左右。

Step2,工程力(上手能力)

HR考核:给你一个题目,能否在1小时内完成,计算复杂度如何

之前是否有相关项目经验 => 积累项目简历

关于工程能力的考察,我们发现一些大厂会给面试者一道题目,让你去进行测试,看看你能否通过。这个题目很有可能跟你的工作关系不大,原因是无论是第一步知识储备的考核还是第二步工程力的考核,都是大厂筛选人才的主要手段,而到了第三步业务能力,才会真正地对你的实战能力进行考核。

Step3,业务力

对大厂的核心业务,未来战略是否了解,是否match

=> 大厂之间的交流,参加峰会

Step4,影响力

开源社区影响力

业务场景的能力和你的影响力,是你能够战胜一众面试者并获得 Offer 的关键因素,如果你能拿到一个比赛的冠军,或在权威期刊发表过你的文章等等,这都会是一个非常有利的标签。

你可能感兴趣的:(人工智能,面试,big,data)