新一代CTO修炼之路all-in-AI系列-大数据+AI人工智能驱动技术变革之大数据部门组织架构及团队建设

文章目录

  • 1.2.1大数据部门组织架构
    • 1.大数据平台组
    • 2.算法组
    • 3.数据分析组
    • 4.更细化的大数据部门划分
  • 总结


随着大数据和人工智能技术的火热发展,传统的老一代CTO,除了有过硬的工程能力外,尚需充电学习大数据和AI人工智能技术!大数据和人工智能技术在公司整个技术体系中是不可或缺的一部分,并且成为公司的核心竞争力,同时大数据+AI人工智能在驱动产品创新、变革、升级都起着举足轻重的作用!作为新一代CTO必须要掌握之。工程能力+大数据+AI人工智能=新一代CTO,对!不学就out了!

对于互联网公司来说,技术是核心竞争力。基于海量的用户行为数据之上,进行的更深层次的大数据建模、分析可以你的产品再上一个台阶。让数据驱动产品设计,科学决策和指导产品。但这离不开其他各个部门的协同配合,在大数据部门内部同样离不开各个小组和职位的有机统一和协作。

1.2.1大数据部门组织架构

大数据部门可以大体上分为三个组:大数据平台组、算法组、数据分析组。这三个组之上有大数据VP带队,大数据VP可能有些人不知道什么意思,大数据VP就是大数据副总裁,一般是汇报给CTO,也有的公司是直接汇报给CEO。大数据平台组、算法组、数据分析组这三个组一般是由总监带队,有的公司是架构师带队,当然也可以是经理或者TeamLeader带队。这三个总监是汇报给大数据VP的。我们看下组织架构如图1.1所示:

新一代CTO修炼之路all-in-AI系列-大数据+AI人工智能驱动技术变革之大数据部门组织架构及团队建设_第1张图片

图1.1 大数据部门组织架构图

基于这个图1.1我们讲一下各个部门的工作分工和底下各个职位的职责。

大数据平台组的职责是提供基础的数据平台、数据仓库、数据埋点采集、通用工具,为算法组、数据分析组提供平台支持。

算法组是基于大数据平台之上做很多数据挖掘、分析,开发公司产品如个性化推荐系统、搜索引擎、用户画像、其它算法类产品等,是偏上游的工程应用。

数据分析是基于大数据平台之上做数据分析统计、挖掘、数据可视化、报表开发等,和算法组有些交叉点,偏数据的分析应用,管理决策、数据洞察发现。

1.大数据平台组

大数据平台组的职责是提供基础的数据平台、数据仓库、数据埋点采集、通用工具,为算法组、数据分析组提供平台支持。

小组内下面有各个职位相互配合工作,大家各尽其职,完成大数据平台的建设。

1)大数据平台总监

大体任务是负责大数据平台部门管理、架构设计,具体工作如下:

(1)负责结合业务需求设计大数据架构及评审迭代工作;

(2)基于大数据处理平台的模型设计与数据资产体系搭建;

(3)参与数据仓库建模和ETL架构设计,参与大数据技术难点攻关;

(4)负责团队数据对外合作的数据核准、数据对接工作推动合作和交流;

(5)对大数据技术进行分析选型,培养提升团队技能。

(6)负责公司大数据平台核心策略应用,用机器学习助力业务发展。

(7)系统核心部分代码编写、指导和培训工程师、不断进行系统优化;

2)Hadoop平台运维工程师

大体任务是负责Hadoop集群的搭建和运维工作,一般大型互联网公司可以专门设置这么一个职位,因为集群规则可能有上千台,而且区分生产集群、测试集群等。如果集群不是很大,一般不需要单独设置这个职位,统一由大数据平台工程师来负责就可以了。具体工作如下:

(1)负责大数据平台架构的开发和维护

(2)负责Hadoop集群运维和管理

3)大数据平台工程师

大体任务是负责集群搭建运维、数据仓库建设、通用工具、数据采集埋点服务等。

具体工作如下:

(1)负责大数据平台架构的开发和维护

(2)负责Hadoop集群运维和管理

(3)负责数据仓库建设

(4)数据埋点、数据采集、数据处理

(5)公司级别的BI通用工具

4)大数据ETL工程师

大体任务是负责ETL数据处理、配置作业依赖、定向数据采集处理等。

具体工作如下:

(1)ETL数据处理、开发、工作流调度设计

(2)脚本部署与配置管理,工作流异常处理,日常管理、跑批、维护、监控。

(3)完成定向数据的采集与爬取、解析处理、入库等数日常工作;

5)流式计算工程师

大体任务是负责Storm、Flink等流处理的实时线上数据分析任务。

具体工作如下:

(1)实时分析线上用户行为数据、找出异常行为用户;

(2)根据用户实时行为,实时处理并更新Hbase等数据库;

(3)追踪行业主流式计算技术进展,并结合到当前业务中;

6)数据仓库工程师

大体任务是负责数据仓库建模、数据处理等。

具体工作如下:

(1)理解公司各类现有数据,洞察现有数据体系与客户业务匹配中的待优化点,并不断改善;

(2)负责建设并完善数据管理体系,涵盖数据生命周期的标准、模型、质量和数据存取全流程;

(3)负责数据仓库的分层设计、数据处理,有效管理整合各类数据;

7)Spark工程师

大体任务是负责Spark数据处理。

具体工作如下:

(1)负责流式数据处理和离线处理的一站式开发;

(2)负责基于Spark的数据处理、为算法模型提供数据支持。

8)后台Web/前端工程师

这个组织架构图没有画出来,但实际往往需要这个角色开发大数据部门的后台管理工具,通用Web工具,比如数据仓库管理工具、数据质量管理工具等,一部分Web接口服务工作,既然是Web开发,一般都会拆分出一个前端工程师的职位,美工一般不单独设置职位,让公司统一的设计部门代做UI就可以。

2.算法组

算法组是基于大数据平台之上做很多数据挖掘、分析,开发公司产品如个性化推荐系统、搜索引擎、用户画像、其它算法类产品等,是偏上游的工程应用。下面是具体职位职责。

1)算法总监

大体任务是带领算法团队、算法系统架构,具体工作如下:

(1)领导算法产品和研发团队,规划算法研发的方向,总体把控算法研发的工作进度

(2)深刻理解产品业务需求,并依据产品需求落实算法与业务的结合

(3)搭建优秀的算法团队,带领算法团队将技术水平提升至一流水平。

(4)主管产品应用中涉及的推荐系统、搜索引擎、人脸识别、对话机器人、知识图谱等算法工作。

2)推荐算法工程师

大体任务是推荐算法开发、优化,具体工作如下:

(1)负责推荐算法研发,通过算法优化提升整体推荐的点击率、转化率。

(2)针对场景特征,对用户、Item信息建模抽象业务场景,制定有效的召回算法;同时从样本、特征、模型等维度不断优化预估排序算法。

3)自然语言处理工程师

大体任务是NLP算法产品的设计、开发和优化,具体工作如下:

(1)负责相关NLP算法产品的设计、开发及优化,包括关键词提取、文本分类、情感分析、语义分析、命名体识别、文本摘要和智能问答等;

(2)NLP基础工具运用和改进,包括分词、词性标注、命名实习识别、新词发现、句法、语义分析和识别等;

(3)领域意图识别、实体抽取、语义槽填充等;

(4)参与文本意图分析,包括文本分类和聚类,拼写纠错,实体识别与消歧,中心词提取,短文本理解等。

4)机器学习工程师

大体任务是数据分析挖掘、人工智能技术的工程化,具体工作如下:

(1)为产品应用提出人工智能解决方案和模型;

(2)人工智能技术的工程化;

(3)对话场景下的意图识别、智能搜索、个性化推荐算法研究及实现。

5)数据挖掘工程师

大体任务是数据建模、分析,具体工作如下:

(1)负责产品业务的数据分析等方面的数据挖掘工作;

(2)根据分析、诊断结果,建立数学模型并优化,撰写报告,为运营决策、产品方向、销售策略等提供数据支持。

6)深度学习工程师

大体任务是深度学习相关算法的研究和应用,具体工作如下:

(1)深度学习相关算法的调研和实现;

(2)将算法高效地实现到多种不同平台和框架上,并基于对平台和框架的内部机制的理解,持续对算法和模型实现进行优化

(3)深度学习网络的优化和手机端应用;

(4)深度学习算法的研究和应用,包括图像分类、目标检测、跟踪、语义分割等

(5)和产品进行对接。

7)Spark工程师

大体任务和大数据平台的Spark开发类似,可以共用。但更侧重在为算法开发人员提供数据处理和支持的工作。

8)后台Web/前端工程师

这个组织架构图没有画出来,实际上算法部门也有很多的后台管理工具,比如推荐位管理平台,搜索管理后台,算法AB测试平台和优化的数据可视化化等。还有需要给其它部门提供业务接口,比如推荐引擎Web服务、搜索服务等。

3.数据分析组

数据分析是基于大数据平台之上做数据分析统计、挖掘、数据可视化、报表开发等,和算法组有些交叉点,偏数据的分析应用,管理决策、数据洞察发现。各个职位如下:

1)数据分析总监

大体任务是负责数据分析部门管理、业务需求调研、管理和执行数据项目、提供行业报告,具体工作如下:

(1)根据海量数据的洞察撰写报告,为营销运营决策提供支持,并及时发现和分析实际业务问题中,针对性给出优化建议;

(2)参与业务需求调研,根据需求及行业特点设计大数据解决方案并跟进具体项目的实施;

(3)设计并实现对BI分析、数据产品开发、算法开发的系统性支持,保障数据挖掘建模和工程化;

(4)管理和执行数据项目,达成客户要求目标,满足KPI考核指标;

(5)熟悉行业发展情况,掌握最新数据分析技术,定期提供行业性报告;

2)用户画像工程师

大体任务是用户数据分析、用户画像建模、用户标签提取,具体工作如下:

(1)基于海量用户行为数据,构建和优化用户画像,产出用户标签,用于提升推荐、搜索效果,为运营提供数据支持;

(2)负责搭建完整的用户画像挖掘系统,包括数据处理、挖掘用户画像、准确性评估等;

(3)主导用户画像需求分析,把控用户画像的建设方向,设计和构建基于用户行为特征的平台化画像服务能力;

(4)统一数据标准,建立用户画像产品的评估机制和监控体系;

3)数据分析师

大体任务是数据分析建模、数据可视化、提供行业报告,具体工作如下:

(1)收集业务数据,进行处理和分析、数据可视化;

(2)对多种数据源进行分析、挖掘和建模,提交有效的分析报告;

(3)从数据分析中发现市场新动向和不同客户应用场景,提供决策支持;

4)报表开发工程师

大体任务是业务数据分析、报表开发、数据可视化展示,具体工作如下:

(1)根据各业务部门需要,对相关数据进行清洗、分析、监控和评估,产出分析报告,对业务活动提出有效建议

(2)针对可视化工具比如Tableau进行监控、优化、权限和性能管理,保证数据分析师和报表用户的正常使用及扩展

(3)根据数据分析师和报表用户分析、使用和性能要求,梳理各类数据,协助优化数据结构,丰富数据库内容,提高数据质量,完善数据管理体系;

5)数据产品经理

数据产品经理是这几年产生的新的职位,懂数据分析、懂算法是对这个岗位的一些要求,这个一般是由其它的传统的产品经理转岗过来。大体任务是负责数据产品的规划与设计,业务数据需求分析、设计、落地,具体工作如下:

(1)负责数据产品的规划与设计,业务数据需求分析、设计、落地;

(2)协调数据来源方和数据开发工程师,通过流程化、规范化的思路,让数据对接做到灵活、高效、准确;

(3)深入理解业务,协调数据开发团队完成需求;

4.更细化的大数据部门划分

以上是对每个部门的职业和对应的职位介绍,这种部门架构比较大众化,一般大数据部门总人数在20到50个人可以这么来划分。但如果有更多的人参与,比如50人以上,就可以把部门再细化一些。比如推荐算法和搜索在互联网是非常核心的团队,适合单独从算法组拆分处理一部分成立推荐系统组、搜索组。再就是用户画像组也是非常重要的一个团队,可以从数据分析组拆分出来,做Web开发、前端、后台接口的工程化的职位也可以从各个组拆分出来单独成立一个工程组。这样我们大数据部门就划分为一个几个组:

1)大数据平台组

2)算法组

3)推荐系统组

4)搜索组

5)用户画像组

6)数据分析组

7)工程组

那这个几个组之间的相互配合分工是怎样的呢?根据经验总结如下:

(1)大数据平台组是基础组,其他所有组的数据都用这个组提供的。

(2)推荐系统往往独立于算法组,也可以和算法组是同一个组。看人多人少了。

(3)推荐系统一般都用到搜索,所以很多互联网公司搜索和推荐是一个组,并且往往也会从大数据部门独立出去,成立一个和大数据部门平行的搜索推荐组。个人见解:如果大数据部门负责人有搜索推荐的经验,建议把搜索推荐放到大数据部门下面,这样产品会再做的更好。毕竟搜索推荐是建立在大数据基础之上的最经典的应用。

(4)用户画像组依赖大数据组,可以单独建立用户画像集市。搜索推荐,和其他数据分析组也需要用户画像组的数据。

(5)工程组可以嵌入到其他组里面,也可以单独成组,工程组最重要的一个是对公司的其他部门比如前端网站、App提供web服务。比如数据埋点采集接口、用户画像接口、搜索接口、推荐接口、其他数据接口等。

总结

此文章有对应的配套视频,其它更多精彩文章请大家下载充电了么app,可获取千万免费好课和文章,配套新书教材请看陈敬雷新书:《分布式机器学习实战》(人工智能科学与技术丛书)

【新书介绍】
《分布式机器学习实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】
新书特色:深入浅出,逐步讲解分布式机器学习的框架及应用配套个性化推荐算法系统、人脸识别、对话机器人等实战项目

【新书介绍视频】
分布式机器学习实战(人工智能科学与技术丛书)新书【陈敬雷】
视频特色:重点对新书进行介绍,最新前沿技术热点剖析,技术职业规划建议!听完此课你对人工智能领域将有一个崭新的技术视野!职业发展也将有更加清晰的认识!

【精品课程】
《分布式机器学习实战》大数据人工智能AI专家级精品课程

【免费体验视频】:
人工智能百万年薪成长路线/从Python到最新热点技术

从Python编程零基础小白入门到人工智能高级实战系列课

视频特色: 本系列专家级精品课有对应的配套书籍《分布式机器学习实战》,精品课和书籍可以互补式学习,彼此相互补充,大大提高了学习效率。本系列课和书籍是以分布式机器学习为主线,并对其依赖的大数据技术做了详细介绍,之后对目前主流的分布式机器学习框架和算法进行重点讲解,本系列课和书籍侧重实战,最后讲几个工业级的系统实战项目给大家。 课程核心内容有互联网公司大数据和人工智能那些事、大数据算法系统架构、大数据基础、Python编程、Java编程、Scala编程、Docker容器、Mahout分布式机器学习平台、Spark分布式机器学习平台、分布式深度学习框架和神经网络算法、自然语言处理算法、工业级完整系统实战(推荐算法系统实战、人脸识别实战、对话机器人实战)、就业/面试技巧/职业生涯规划/职业晋升指导等内容。

【充电了么公司介绍】

充电了么App是专注上班族职业培训充电学习的在线教育平台。

专注工作职业技能提升和学习,提高工作效率,带来经济效益!今天你充电了么?

充电了么官网
http://www.chongdianleme.com/

充电了么App官网下载地址
https://a.app.qq.com/o/simple.jsp?pkgname=com.charged.app

功能特色如下:

【全行业职位】 - 专注职场上班族职业技能提升

覆盖所有行业和职位,不管你是上班族,高管,还是创业都有你要学习的视频和文章。其中大数据智能AI、区块链、深度学习是互联网一线工业级的实战经验。

除了专业技能学习,还有通用职场技能,比如企业管理、股权激励和设计、职业生涯规划、社交礼仪、沟通技巧、演讲技巧、开会技巧、发邮件技巧、工作压力如何放松、人脉关系等等,全方位提高你的专业水平和整体素质。

【牛人课堂】 - 学习牛人的工作经验

1.智能个性化引擎:

海量视频课程,覆盖所有行业、所有职位,通过不同行业职位的技能词偏好挖掘分析,智能匹配你目前职位最感兴趣的技能学习课程。

2.听课全网搜索

输入关键词搜索海量视频课程,应有尽有,总有适合你的课程。

3.听课播放详情

视频播放详情,除了播放当前视频,更有相关视频课程和文章阅读,对某个技能知识点强化,让你轻松成为某个领域的资深专家。

【精品阅读】 - 技能文章兴趣阅读

1.个性化阅读引擎:

千万级文章阅读,覆盖所有行业、所有职位,通过不同行业职位的技能词偏好挖掘分析,智能匹配你目前职位最感兴趣的技能学习文章。

2.阅读全网搜索

输入关键词搜索海量文章阅读,应有尽有,总有你感兴趣的技能学习文章。

【机器人老师】 - 个人提升趣味学习

基于搜索引擎和智能深度学习训练,为您打造更懂你的机器人老师,用自然语言和机器人老师聊天学习,寓教于乐,高效学习,快乐人生。

【精短课程】 - 高效学习知识

海量精短牛人课程,满足你的时间碎片化学习,快速提高某个技能知识点。

你可能感兴趣的:(算法,人工智能,大数据,数据挖掘,编程语言)