职业发展之大数据开发工程师理解

大数据工程师需要具备哪些能力? 

(1)数学及统计学相关的背景;

(2)计算机编码能力;

(3)对特定应用领域或行业的知识。

大数据工程师这个角色很重要的一点是,不能脱离市场,因为大数据只有和特定领域的应用结合起来才能产生价值。

所以,在某个或多个垂直行业的经历能为应聘者积累对行业的认知,对于之后成为大数据工程师有很大帮助,因此这也是应聘这个岗位时较有说服力的加分项。

大数据相关的技能很多,按照数据本身,可以分为数据获取、数据处理、数据分析、数据存储、数据挖掘,共5类。

数据获取:日志收集 Scribe、Flume和爬虫等;

数据处理:流式计算的storm, spark streaming、Hadoop、消息队列相关的如Kafka等;

数据分析:HIVE、SPARK、基本算法、数据结构等;

数据存储:HDFS等;

数据挖掘:机器学习相关算法,聚类、时间序列、推荐系统、回归分析、文本挖掘、贝叶斯分类、神经网络等。

最后,大讲台老师对转型大数据的工程师提3点建议。

(1)重视基础;

(2)发挥专长;

(3)要喜欢&要坚持。


通过人工智能技术提供定制分析报告的法海风控、对社交数据的爬取和处理的观数科技等,业务类型各有侧重。而在金融领域,大数据的应用主要有以下三类:精准营销、风险控制以及精细化运营。

1、精准营销: 互联网时代的银行在互联网金融的冲击下,迫切的需要掌握更多用户信息,继而构建用户360度立体画像,即可对细分的客户进行精准营销、实时营销等个性化智慧营销。
2、风险控制: 应用大数据技术,可以统一管理银行内部多源异构数据与外部征信数据,可以更好的完善风控体系。内部可保障数据的完整性与安全性,外部可控制用户风险。
3、改善经营:通过大数据分析方法改善经营决策,为管理层提供可靠的数据支撑,使经营决策更加高效、敏捷,精确性更高。
4、服务创新:通过对大数据的应用,改善与客户之间的交互、增加用户粘性,为个人与政府提供增值服务,不断增强银行业务核心竞争力。

其主要服务的客户是各类金融机构,包括银行、保险、P2P、小贷、消费金融等。当前付费客户有50家,典型客户有中国银行、众安保险,爱学贷和手机贷等。其盈利模式,是向客户收取费用。当前已基本实现盈余

新流数据成立于2017年,是一家基于数据即服务(DaaS)模式提供大数据智能决策引擎的科技企业,公司通过DMP(数据管理平台)与DRCP(数据风控平台)的垂直对接为金融机构提供跨行业、跨场景的智能数据解决方案。

新流数据主要合作对象为银行和保险机构,为其提供用户画像、行为分析、风险预测、智能决策等大数据服务

基于大数据的客户关系管理系统 :案例

恒丰银行——基于大数据的客户关系管理系统  https://www.sohu.com/a/150376929_400678

Storm与Spark的区别

Storm擅长于动态处理大量实时生产的小数据块,概念上是将小数据量的数据源源不断传给过程;

Spark擅长对现有的数据全集做处理,概念是将过程传给大数据量的数据。

二者设计思路相反。Storm侧重于处理的实时性,Spark侧重处理庞大数据(类似于Hadoop的MR)。

 

Spark流模块(Spark Streaming)与Storm类似,但有区别:

1.Storm纯实时,来一条数据,处理一条数据;SparkStreaming准实时,对一个时间段内的数据收集起来,作为一个RDD,再做处理。

2.Storm响应时间毫秒级;Spark Streaming响应时间秒级

3.Storm可以动态调整并行度;SparkStreaming不行

 

Storm应用场景:

1、对于需要纯实时,不能忍受1秒以上延迟的场景

2、要求可靠的事务机制和可靠性机制,即数据的处理完全精准

3、如果还需要针对高峰低峰时间段,动态调整实时计算程序的并行度,以最大限度利用集群资源

 

Spark Streaming应用场景:

1、Spark Streaming可以和Spark Core、Spark SQL无缝整合,如果一个项目除了实时计算之外,还包括了离线批处理、交互式查询等业务功能,考虑使用Spark Streaming。

 

你可能感兴趣的:(个人职业思考)