【科普】企业中,大数据部门的常见组成

大数据部门,在各个IT公司,似乎都有点神秘?他们究竟都在干啥?
根据个人经验,科普一下,如有偏颇,不够专业,见谅~

Part 1

在IT公司里,大数据部门的成员,一般可分为4种:(以房子为例)

大数据部门的4拨人,分别在干嘛呢

先用一张图,帮助大家理解一下~~
出道题目,我们公司的大数据部门,目前有这些岗位,你能一一推测出他们的所在位置吗?
【数据应用工程师】、【数据可视化工程师】、【数据可视化设计师】、【数据平台工程师】、【算法工程师】、【数据分析师】

Part 2

如果还有兴趣,接下来,详细听听这4类人员的具体工作事项吧!

建房子地基(埋在地下)的那群人
他们就是平台组/架构组的那群人,他们负责搭建一套大数据的平台架构体系。一般你肉眼看不到他们的产出,但是当某一堵墙壁歪了的时候,或者你进屋打水但水龙头却流不出来水的时候,你就会意识到他们工作的重要性。
平台组的常见发展路径
平台初期,很多公司会用自己的服务器搭一个私有集群,将数据维护起来,开始构建数据平台的第一步。这个,也是原始的大数据平台。(当然,现在有很多公司也是直接上云服务器)
当平台进入高速发展期,考虑到不断扩充的数据量和服务器的维护成本上升,很多公司会迁移平台到云服务上,比如阿里云,华为云。云服务的选择要解决的是选择平台所提供的服务,成本,数据通道的维护。【我们公司目前正处于这一阶段,选择了云服务。当前,经过考量也正在由阿里云迁移到华为云】
还有一个阶段,你发现云服务的费用太高,虽然省了你很多事,或者是考虑到敏感数据的安全问题(当然,私有集群也不是百分百安全),然后又开始往私有集群迁移。这时候,鉴于数据规模,你大概需要一个靠谱的团队,设计网络布局、设计运维规范、架设监控、建立机房,值班团队走起7*24小时随时准备出台。
至此,产生了平台组,真的大数据平台来了

(以下为详细的过程讲解,如果不想看,可跳过)
一阶段
首要是选型,这个阶段, 配置管理、部署管理 都需要专门的平台和组件;
接下去你可能需要一些重量的组件帮你做一些事情。比如你的 数据接入,需要更强壮的解决方案,比如Flume之类的。
你的业务不断壮大,老板需要看的报表越来越多,需要训练的数据也需要清洗,你就需要 任务调度
数据分析人员的数据大概可能渐渐觉得传统数据库不够用,但他们不会写代码,所以你上马了 Hive数据库。然后很多用户用了Hive觉得太慢,你就又上马 交互分析系统,比如Presto,Impala或者SparkSQL。
你的数据科学家需要写 ML 代码,他们跟你说你需要Mahout或者Spark MLLib,于是你也部署了这些。
至此可能数据平台已经是工程师的日常工作场所了,大多数业务都会迁移过来。这时候你可能面临很多不同的问题。
二阶段:
开始需要做更多的事情:
比如各个业务线数据各种数据表多的一塌糊涂,不管是你还是写数据的人大概都不知道数据从哪儿来,接下去到哪儿去。你就自己搞了一套 元数据管理 的系统。
你分析性能,发现你们的数据即便压缩了,也还是慢的要死。又或者你发现你们的ETL很长,中间生成好多临时数据,于是你下狠心改写成 Spark分布式计算了。
再接下来也许你会想到花时间去维护一个 数据门户,把这些零散的组件都整合到一起,提供统一的用户体验;再点几下就能设定一个定时任务,每天跑了给老板 自动推送报表 ;或者界面上写几个Query就能查询Hbase的数据,这就是 自助提数 系统。
这时候你的数据平台算是成型了。

建屋子(砌墙盖瓦)的那群人
应用组的那群人,他们负责建设各类系统/应用。他们搬砖砌墙,建好房子,还要铺设各类管道线路,把地基里面的数据抽出来,放在房子里,让用户们推开门就可以享用。
应用组,有哪些应用?
这块不太好讲。不过,为了尽量让大家看懂,用从大到小的思路尝试下:
在整个社会层面,大数据已应用于各行各业,比如:金融行业/地产行业/零售行业/医疗行业/农业/物流行业/城市管理等等……有哪一个行业,可以脱离数据而生存?有哪一个行业可以不依赖数据而发展?
那么,在一个企业中,数据必然是无法避免的会应用到,不管是1个员工的皮包公司,还是10万员工的跨国集团。so,我们来讲讲具体有哪些应用呢?
一般而言,数据应用分为3类:分别是面向企业内部, 面向企业外部以及面向用户这三种。

扩展内容:

  1. 企业内部产品是企业自建自用的数据平台或算法策略,辅助企业员工做出决策或成为产品逻辑的一部分。
  2. 面向企业外部产品,即由某企业开发,为其他企业提供数据服务的产品,SaaS 是其中一种模式。
  3. 面向用户的产品则是根据平台或网络中的公共内容,提供某些数据给普通用户分析查看。最常见的就是各种常见的指数,如淘宝指数,微博的微指数等。

这里,鉴于今天的主题,我们只讲 面向企业内部 的大数据应用。
进入正题了:
企业内部产品中,可以从2个角度来看待具体有哪些应用:

  1. 角度一:按职能范围划分,可以分为平台型和业务型。
    平台型主要是建设底层计算平台(即上面提到的,打地基时完成那个大数据平台)和通用工具,业务型更多的偏重于结合业务的 BI 系统和报表工具。
  2. 角度二:按内容划分,则主要可划分为分析类和策略类。
    分析类主要是商业 BI 方向,报表相关。在我们公司大数据部门,这方面的相关应用有:
应用名称 所在系统
【报表中心】 -
【自助提数】 -
【数据大屏】 -

策略类的方向较多,常见的有:

名称 备注
【搜索推荐系统】 -
【风控和反作弊系统】 -
【精准营销系统】 -
【用户画像系统】 -
【智能客服系统】 -
【智能调度系统】 -
【智能XX】 等等
…… ……

这些有时候会有部分或全部不划在大数据部门下面,但都需要比较规范的数据基础,以及着重与利用数据分析调整产品策略。

做企业内部的大数据应用产品,常常有些心酸的地方:

  1. 受关注度不高:毕竟数据不是实际业务,无法直接对前线数据产生影响。在关注度和资源倾斜力度上,与一线部门肯定有所区别。
  2. 临时需求繁多纷乱:既然数据的价值体现在使用者手里,则意味着使用者部门(在我们公司,大数据的使用者部门集中在4块:产品部/市场部/运营部/大区)会与你有很多亲密接触的机会。这些需求大多数属于碰到某些情况意外需要马上了解到某些数据,这样一来,很多数据团队的工作及规划,往往会被频繁打乱。

屋子里面的人
产品组的那群人,主要是一群产品经理(我们公司,目前就半个,由一个分析师兼职着,所以,我们公司没有产品组哦),负责数据类的应用产品设计。他们和上面建房子的工程师们,是紧密的团队关系。鉴于上面对数据应用产品已做了很多阐述,关于他们工作产出的应用具体有哪些,这里就不再赘述。
讲一讲,数据产品经理的从业人员得有几个素质:

  1. 首先是数据产品本身具备的专业能力,如数据清洗,数据可视化,数据分析等。
  2. 其次是对业务的敏感度。在企业内部,需要靠业绩说话。你界面做的再漂亮,体验做的再完美,如果对业务起不了与投入相匹配的促进作用,就不是一个成功的内部产品。
  3. 其次是比较好的需求管理能力,如果这块没把控好,很容易就被如滔滔江水的临时需求给淹没。最合适的方法是“长中短结合”,紧急的需求先满足,同时不能忽视数据平台的建设,抽象出来一个面能满足一个个散落需求的点。
  4. 最后,需要有比较好的内部公关能力。 这与数据价值比较隐性,很多与业务表现没有直接关联有关。所以一方面你需要将数据分析的知识和技能在内部推广,另一方面也需要将数据成功案例对外宣传,树立起大家用数据说话的习惯和信心。

屋子外面的人
分析组的那群人,一般会有3类:数据分析师、算法工程师(类似数据挖掘)、数据科学家(我们公司没有)。他们工作的日常:为你提取一份EXCEL数据、制作一张报表数据、用算法模型分析一个问题、训练出一套算法模型等等工作,但不局限于此。
他们常常需要与各个部门打交道,接待很多业务的数据需求,与业务关系紧密。在一些公司,分析组不一定都设置在大数据部门下,他们可能分散在不同的业务部门,为各自部门服务。但是,他们终究也是需要从大数据平台来获取所需的业务数据,做分析处理,得到相关结论~
据我所知,我们公司的业务部门,(好像)也是有自己的分析人员。
简单概括一下这些职位的特点:
【数据分析师】
业务线,负责通过数据分析手段发现和分析业务问题,为决策作支持。
【算法工程师】/【数据挖掘工程师】
偏技术线,负责通过建立模型、算法、预测等提供一些通用的解决方案,当然也有针对某业务的。
【数据科学家】
数据科学家是使用专业知识构建机器学习模型,再以此做出预测并对关键业务问题进行解答的专家。数据科学家仍然需要对数据进行清洗、分析以及可视化处理,这一点和数据分析师是一致的。不过数据科学家在专业技能方面有者更深的研究,涉猎范围也更广,同时他们也能够对机器学习模型进行训练与优化。

至此,整篇文章,已经讲差不多了。
最后总结下,本质上,围绕房子的这4拨人,做的是同一件事情:提供数据服务

完结~

摘抄的一些资料,供阅读

大数据应用三段论:
1)大数据基础设施建设阶段
这个阶段的重点是把大数据存起来,管起来,能用起来,同时要考虑大数据平台和原有业务系统的互通联合问题。一句话,做好全局数据集成解决数据孤岛问题!要完成大数据基础设施系统建设开发,需要明确数据采集、存储和分析各层核心组件的选型和使用,搭建稳定的大数据集群,或选择私有云方案的服务集群,与生产系统并线运行,使待分析的历史数据和实时数据得以采集并源源不断流入大数据系统。这个阶段的关键技术学习包括采集爬虫、数据接口、分布式存储、数据预处理ETL、数据集成、数据库和数据仓库管理、云计算和资源调度管理等等内容。
2)大数据描述性分析阶段:
此阶段主要定位于离线或在线对数据进行基本描述统计和探索式可视化分析,对管理起来的大数据能进行海量存储条件下的交互式查询、汇总、统计和可视化,如果建设了BI系统的,还需整合传统BI技术进行OLAP、KPI、Report、Chart、Dashboard等分析和初步的描述型数据挖掘分析。这个基础分析阶段是对数据集成质量的检验,也是对海量数据条件下的分布式存储管理技术应用稳定性的测试,同时要能替代或集成传统BI的各类报表。这个阶段的关键技术学习包括可视化、探索式交互式分析、多维分析、各类基本报表和图表的查询设计等等。
3)大数据高级预测分析和生产部署阶段:
在初步描述分析结果合理,符合预期目标,数据分布式管理和描述型分析稳定成熟的条件下,可结合进一步智能化分析需求,采用如深度学习等适用海量数据处理的机器学习模型,进行高级预测性挖掘分析。并通过逐步迭代优化挖掘模型和数据质量,形成稳定可靠和性能可扩展的智能预测模型,并在企业相关业务服务中进行分析结果的决策支持,进行验证、部署、评估和反馈。这个阶段的关键技术包括机器学习建模、决策支持、可视化、模型部署和运维等。
------来源:点金大数据 作者:杜圣东

你可能感兴趣的:(【科普】企业中,大数据部门的常见组成)