网贷风控体系之-系统架构

网贷风控体系之-系统架构

目前常见的大数据架构是基于实时大数据处理框架Lambda架构。Lambda架构的数据通道分为实时流和离线两部分。流式通道处理为保障实效性更多的以增量计算为主辅助参考,而批处理层则对数据进行全量运算,保障其最终的一致性。Lambda架构整合离线计算和实时计算,融合不可变性,读写分离和复杂性隔离等一系列架构原则,可集成Hadoop,Kafka,Storm,Spark,Hbase等各类大数据组件。该大数据系统架构具有容错性和鲁棒性,低延时,横向扩容,通用性,可扩展,方便查询,易于维护,易调试等关键特性。
随着数据分析工作已经经历了长足的发展,尤其是以商业智能(BI)系统为主的数据分析,已经有了非常成熟和稳定的技术方案。核心的模块是Cube(数据立方,一个更高层的业务模型抽象),在Cube之上可以进行多种操作,例如上钻、下钻、切片等操作,独有的多维查询语言MDX,搭建出一套OLAP分析系统。但是BI系统更多的以分析业务数据产生的密度高、价值高的结构化数据为主,对于非结构化和半结构化数据的处理非常乏力。随着异构数据源的增加,如视频,文本,图片等数据源,要解析数据内容进入数据仓库,则需要非常复杂的ETL程序,从而导致ETL变得过于庞大和臃肿。当数据量过大的时候,性能会成为瓶颈,在TB/PB级别的数据量上表现出明显的吃力。上述的Lambda架构,不仅满足了业务发展的需求,也极大的提高了系统的处理能力和各项指标要求。

你可能感兴趣的:(数据处理,数据分析)