1、金融企业大数据平台架构设计的关键点有哪些?
架构设计的关键首要是要满足业务需求,提炼业务需求的非功能特性,提出针对性的架构设计方案。作业自主研发能力有限的企业,在大数据系统建设中首要是合理的选择技术组件,如果科技力量更强可以考虑参与开源社区对组件的优化完善等工作中。
2、针对结构化、半结构化和非结构化的数据,在设计大数据平台中分别有哪些要点?
大数据平台最好存储与计算相关的数据,非结构化数据如果不能利用分布式计算能力就不建议在hadoop这类平台上存储,可以考虑其他的分布式存储方案。结构化和半结构化差别不多,考虑具体应用场景和数据使用模式来制定方案。
3、大数据平台如何对大规模流数据加工封装,以及实现内容分发?
流计算框架主流的是SparkStreaming/Storm两种,其他的还有Heron/Flink等等。流数据加工通常涉及到数据的分发订阅,Kafak是目前比较流行的分布式消息系统。
4、大数据平台可以做到对客联机的联机高可用查询要求吗?
基于HBase可以满足联机交易的查询请求,Impala也可以满足一定程度上的联机查询对接BI报表工具。不过还要看具体场景的要求详细分析。
5、应该怎么规划数据库架构?多大的数据量用什么样的架构,有没有一个比较好的规划策略。
1、小规模的使用,可以分散建设应用集群,灵活度高。
2、没有发展自身技术团队打算的,可以找靠谱的集成商。
3、有长远打算的,建议做平台的整体规划。
数据量的问题,通常超过TB级别可以考虑大数据技术或其他MPP,低于这个数量级RDB完全可以搞定。
6、大数据平台元数据管理问题有哪些考量点?
元数据管理还不是开源社区的重点发展方向,在一些商业版中有部分功能支持,如果想要一个更完善的方案还需要基于自身情况来定制。
很多企业只关注大数据,对元数据的管理方面很不到位,同样指标几十个不同名称,带来数据质量问题跟沟通问题。简单的管理可以基于业务,纬度方面给表字段命名,
7、非结构化数据,如语音,视频 在大数据环境下怎样才能合理存放,以利于数据的调取使用?
语音与视频数据的问题,要结合该类数据的使用方式来判断。具备计算能力的存储其成本要更高,如果仅仅为了存储可以先考虑其他分布式存储方案如CEPH等。
语音和视频涉及到语音识别和计算机视觉等技术领域,如语音识别文字等处理目前尚未了解到其是否能够基于Hadoop等并行处理框架实现,如果存在类似方案则可以考虑在Hadoop上集中存储。
8、如果没有从来源上保障数据质量,后续的利用和挖掘也就步履维艰,有哪些保障大数据的数据质量的方法?
实践中,数据质量始终是一个不容易解决的问题,这是因为良好的数据质量必然依赖于一个技术与管理相互结合的方案,要在企业范围内有统一的制度和充分落地的执行。大数据技术被没有提供更好的解决方案,因为开源社区似乎没有将其作为重点的关注方向,甚至在配套的元数据管理等方面还稍逊于传统的商业产品。目前阶段,大数据应用还处于一个离散化的状态,完全现面向应用建设,没有像传统EDW那样形成完整的企业数据模型体系。毕竟大数据的应用模式还在不断探索的阶段,谈论这类强约束的模型还为时过早,个人认为这种状态估计还会持续相当长的一段时间。此外大量外部数据的引入,也对传统的基于封闭体系、强调源头管理的数据质量管理理论提出了挑战,降低噪音提取有价值的信息,会成为大数据应用的一个常态,不再是辅助流程,要在系统设计过程中予以考虑。最后,如何控制数据质量,还要平衡其成本和收益。
9、拟计划将不同物理地的数据进行物理集中,面对海量数据如何进行数据迁移和集中,且不影响应用正常使用?
基于Hadoop搭建的大数据系统,要做到大量数据迁移,过程中不影响正常使用是非常困难的。
因为HDFS作为底层存储是要将数据分块而后尽量均匀的分布在集群的各个节点上,默认三副本策略是如果远端调用接口则第1份部分可保存任意节点,第2份保存在同一机架的节点上,第3份则在不同机架上节点。
短时间内持续的大量写入数据会对集群中众多节点产生影响,占用磁盘IO和网络IO。此时如果集群同时支持HBase这样的联机查询或写入服务,则会产生较大的影响。即使是批量数据处理操作,也同样存在竞争影响其服务处理时间。
如果确实无法停止服务,建议选择系统服务压力较小的特定时间窗口完成迁移数据的加载。
10、依托hadoop等多个开源框架可以搭建并使用大数据库平台,但是由于各个应用系统的数据量等实际情况,如何实现不同应用之间的租户管理,并实现资源的合理控制呢?
多租户管理是目前大数据技术发展中不断强化的一个重要特性,主要落脚点在安全管理和资源管理上。Hadoop1.0到2.0引入的Yarn就是解决资源管理问题,改变1.0下简单的资源竞争模式。此外一些技术组件如HBase/Kafka都在丰富其安全和资源管理方面的能力。
Bingdata优网助帮汇聚多平台采集的海量数据,通过大数据技术的分析及预测能力为企业提供智能化的数据分析、运营优化、投放决策、精准营销、竞品分析等整合营销服务。
北京优网助帮信息技术有限公司(简称优网助帮)是以大数据为基础,并智能应用于整合营销的大数据公司,隶属于亨通集团。Bingdata是其旗下品牌。优网助帮团队主要来自阿里、腾讯、百度、金山、搜狐及移动、电信、联通、华为、爱立信等著名企业的技术大咖,兼有互联网与通信运营商两种基因,为大数据的算法分析提供强大的技术支撑。