【中国数据创新琅琊榜】Laxcus:构建全栈和通用的大数据管理系统

古之“琅琊榜”让最优秀的青年才俊闻名天下,而“中国数据创新琅琊榜”正是为积极鼓励那些在各自领域不断创新,不断突破的企业,从行业角度出发,对以数据创新驱动业务发展的公司进行案例推广、梳理和排名,让优秀的数据创新企业得到更多的展示和关注,让更多拥有新型服务模式和自我创新能力的数据型公司,成为未来大数据产业发展新生力量的同时,威震江湖,名闻天下!



业务平台介绍



Laxcus大数据管理系统源自这样一个思考:能不能在一套产品里集成大数据所有功能,向上支持大数据应用业务,向下整合各种软硬件基础设施,为用户提供完整、通用一站式的大数据解决方案,从而摆脱积木式模块框架的功能分散重叠、兼容不足、安全性差、效率低下、组织部署困难、开发维护使用成本高昂的困扰。


截止目前,Laxcus大数据管理系统持续进行了八年的设计开发工作,经历过数个版本迭代,达到了当初的产品设计目标,已经是一个全栈和通用,适合全行业、全球用户使用的大数据管理系统。

【中国数据创新琅琊榜】Laxcus:构建全栈和通用的大数据管理系统_第1张图片

Laxcus大数据管理系统架构



成功案例分享



(1)总体目标和思路

Laxcus大数据管理系统的设计目标是在一套产品里,针对不同的软硬件,集成大数据的所有功能,保证系统的通用性,适合全行业、全球用户使用。为了达到这个目标,系统的产品技术设计,除了采用架构/功能一体化设计、增加内聚、减少调用层次、改进人机界面、提高分布效率等基本要素外,还包括以下方面:


1.硬件基础设备定位于PC、移动架构平台,来减少用户采购、运营费用。


2.系统总体设计成松耦合架构,在此框架下实现多集群、多用户、多任务,和数据业务的可定制、可扩展。


3.网络通信采用二进制协议,来提高数据传输和处理效率。


4.引入自适应机制,使集群具备自组织管理和容错处理能力,降低维护人员工作压力。


5.依托多集群并行和弱中心管理的特点,实现超大规模、可伸缩的数据存储和计算。


6.底层数据采用混合存储方案,支持OLTP和OLAP业务两种业务模式,实现数据即时存取。


7.数据处理融入SQL思想,兼容数据库,满足高并发和高可靠性两种需求。


8.索引矩阵融合分区、动态关系、图论、键值技术,实现网络数据的精准定位和快速查询。


9.全新设计的分布算法,保证数据处理简捷高效。


10.组件化编程,结合容器管理,来减少数据业务的开发和维护难度。


11.体系化安全策略,将安全管理纳入系统每一个环节。


12.使用类自然语句命令操纵集群,覆盖全部数据处理和管理工作。


13.支持全球所有字符集,满足不同国家地区的用户语言使用习惯。


目前Laxcus大数据管理系统运行在Linux/Windows系统上,硬件平台支持X86、ARM、POWERPC、NVIDIA。同时提供了丰富多样的API接口,供用户开发、运行、维护使用。


(2)综合解决方案


Laxcus大数据管理系统涉及大数据处理所有环节。为了保证系统的稳定可靠、安全、易操作、易开发、易维护的特点,大部分功能都做了内置处理,不允许用户调用,如网络通信、数据存取、分布资源的管理等;有些功能以命令或者配置文件方式允许集群管理者和用户有限使用,如分布锁、安全管理、节点资源的设置等;有些功能以API接口方式的开放出来,供开发者使用,如大数据应用层/系统层开发部分;有些功能是针对用户需求的创新设计,如多用户资源共享和去中心化的数据处理等。鉴于Laxcus大数据管理系统体系庞大,本篇无法全部阐述,以下将甄选部分重要内容简单说明。更多详细内容请见:《LAXCUS大数据管理系统-白皮书》和《LAXCUS大数据管理系统-产品简介》的介绍。


2.1节点


节点是Laxcus大数据管理系统的基本运行单元。相较于物理性质的计算机,在这里的节点是一个逻辑单位,它具有双重身份,即是客户端又是服务器。当它做为服务器使用时,接受其它节点的命令请求和执行数据处理;当处于客户机状态时,又可以向其它节点发送命令。软件层面上,节点实质是操作系统下的一个进程,在后台运行,通过网络与外界保持联系。目前Laxcus大数据管理系统共有6类11种节点。6类节点包括:管理节点、网关节点、工作节点、资源节点、监视节点、用户节点。其中TOP/HOME属于管理节点,DATA/WORK/BUILD/LOG属于工作节点,AID属于网关节点,CALL兼具工作节点和网关节点的双重特点,ARCHIVE是资源节点,WATCH是集群监视节点,FRONT属于用户节点。运行过程中,这些节点提供一种或者几种功能,多种节点协同合作,完成大数据处理和管理工作。其中网关节点把网络分成彼此隔绝的两个部分,它处于“边界”位置。对外,它接受来自用户节点的任务请求;对内,它将用户节点的任务请求转发给网络内部的节点处理,同时对外部网部屏蔽内部拓扑结构,起着“反向代理服务器和防火墙”的安全作用。工作节点承接网关节点的任务请求,负责组织和实施具体的数据处理工作。当数据处理工作完成后,将结果返回给网关节点。管理节点在集群里是一个“维护者”的角色,起到管理和监视集群其它节点的作用。在Laxcus大数据管理系统里,用户节点的部署和维护由是用户来实施,没有特别明确的要求。其它节点由管理员负责组织实施,需要遵守节点部署规定。

【中国数据创新琅琊榜】Laxcus:构建全栈和通用的大数据管理系统_第2张图片

Laxcus大数据管理系统节点拓扑结构


2.2集群


集群由不同类型的节点组成。在Laxcus大数据管理系统的语义里,“域”是一个计算机集群的单位,其中管理节点处于核心地位,负责监督、维护整个集群的运行,它的作用非常重要。管理节点实质也是一台计算机,也受到自身CPU、内存、网络接口等硬件性能的限制,随着集群内计算机数量的增加,它的管理负荷也在随之升高。因为这个限制,在实际部署时,一个集群内的计算机数量是不可能无限增加的。据我们测试显示,当一个集群内的节点数量达到3000至8000这个范围时,会出现管理峰值,超过这个范围,稳定性会大打折扣。但是在实际使用中,用户对数据存储和计算需求总是在持续增加的,这样就产生一个矛盾:如何在保证集群稳定运行的情况下,仍然能够满足用户更大规模存储数据和计算数据需要?多域并行集群就成为这样的一个选择。


多域并行集群是对现有单域集群的升级和改进。通过把原来多个孤立运行的集群连接起来,在这些集群之上,建立更高一层的管理模型,形成一个两级的管理架构。这个两级架构的集群被称为“主域集群”,它下属的集群被称为“子域集群”。子域集群接受主域集群的管理,实时向主域集群汇报自己的运行状态。按照规定,子域集群必须集中在一个物理环境里,主域集群允许跨地域分散存在。就是说,如果A子域集群的机房在北京,B子域集群的机房在广州,天津机房是C主域集群,只要它们之间能够通过网络进行通信,就可以在天津的C主域集群管理下协同工作。在Laxcus大数据管理系统里,TOP集群是主域集群,HOME集群是子域集群。


2.3松耦合架构


Laxcus大数据管理系统被设计成松耦合架构,与松耦合相对的是紧耦合。Laxcus大数据管理系统的松耦合架构是从紧耦合架构改进而来。本处的松耦合架构可以理解成:为适应复杂分布网络环境,被临时组织起来的工作模型。在这个架构下,所有硬件的设备和软件的模块,以及其上运行的数据处理工作,都被视为服务。它们在获得授权的情况下,可以自由的加入和退出,以离散、独立、弱依赖的形态存在。其中少量故障不影响系统的整体运行和用户使用,从而使系统具备极强的稳定性、可靠性、可伸缩、冗余容错的能力。


Laxcus松耦合架构是一个客户机、代理、服务器的三层管理模型(CSA),与之配套是实现了架构/功能一体化的Invoke/Produce任务调度模型,它们协同配合,共同完成各种数据处理和管理工作。实际使用也显示,改进后的松耦合架构的各项性能指标,要远超过当初的紧耦合架构。

【中国数据创新琅琊榜】Laxcus:构建全栈和通用的大数据管理系统_第3张图片

紧耦合/松耦合性能对比


640?wx_fmt=png

松耦合架构


2.4网络通信


Laxcus大数据管理系统的网络通信建立在TCP/IP网络之上,目前支持IPv4和IPv6两种网络地址。网络通信是Laxcus体系里最基础和最重要的一环,为了最大限度利用有限的网络资源,我们在TCP/IP协议基础上,设计了一套专属的二进制网络通信协议:FIXP协议。它采用小头编码(LittleEndian),具有平台独立、上下文无关、结构简单、数据尺寸小等特点。


FIXP协议结构由三部分组成:命令、消息、数据实体。命令分为两种:请求和应答,命令的作用是说明本次通信的基本属性。每次通信由发起方发送请求命令,受理方返回应答命令。消息在命令之后出现,消息在一次通信协议中允许出现任意多个,消息中携带本次通信需要的多类附属信息。消息之间是衔接的,彼此无分隔标记,通过消息头中的标记长度加以区别。在最后面是数据实体部分,数据实体包含本次通信所要传递的内容。内容是任意格式的,如音频、图像、数据库数据、各种元数据等。数据实体是一个可选部分,是否存在会在消息中注明。


在FIXP协议基础上,还提供了四种通信方案。这些方案包括:TCP方案、UDP方案、KEEPUDP方案、RCP方案。Laxcus大数据管理系统将根据运行环境条件和不同任务需求,选择合适的通信方案,实现有区别的网络通信,以达到节约网络流量,降低运行负载,提高计算效率的目的。另外,通信方案也可以由系统管理员在配置文件中指定。


【中国数据创新琅琊榜】Laxcus:构建全栈和通用的大数据管理系统_第4张图片

FIXP协议结构


2.5数据存取


数据存取是最底层的一个子系统。它执行磁盘文件存取工作,这个磁盘文件被称为数据块。数据块有CACHE和CHUNK两种模式,CACHE块执行添加、删除、查询操作,CHUNK块执行查询和删除操作。每个数据块都有一个64位无符号整数,做为它唯一标识。这个标识由系统分配,不会重复。


数据块支持两种存储模式:行存储模型(NSM)和列存储模型(DSM)。NSM以“行”为单位存储,DSM以“列”为单位存储。NSM模型主要针对OLTP业务,DSM更适合OLAP业务。为防止读写竞用,系统在磁盘层面提供细粒度的“行级锁”保护。


除此之外,数据存取子系统还提供了元数据、内存计算、完整性检查、快照、备份、主块冲突检查,负载检测等功能来完善、优化、保护数据读写工作。


【中国数据创新琅琊榜】Laxcus:构建全栈和通用的大数据管理系统_第5张图片

行存储模型和列存储模型


2.6数据组织


数据组织设计与关系数据库一致,严格遵循数据和数据描述分离的原则,继续沿袭用户模型、逻辑模型、存储模型的三层结构,和兼容SQL。它的基本核心是以关系代数的理念去处理数据,以及类自然语言风格的数据描述。索引矩阵的设计,表象上是关系查询,但是隐性融合了动态关系、图论、键值对技术。所以用户的使用体验,与关系数据库相比,并不会感觉到有太多的差异。


为了支持分布处理环境,保证大规模数据存取和计算的性能效率,数据组织子系统采用了大量新的数据处理技术,如取消关系数据库中的视图(VIEW),引入全局数据库概念,支持跨数据库操作,允许用户压缩和加密行列数据。另外也增加了一些创新性设计,如:可调CAP策略、去中心化的数据处理,跨用户的数据操作等。


2.7分布算法


Laxcus大数据管理系统提供两套分布算法:Diffuse/Converge、Scan/Sift,其中Diffuse/Converge用于分布计算工作,Scan/Sift用于分布数据构建工作。


Diffuse/Converge算法基于这样的理念:传统的集中计算模型,数据处理可以分解为"产生、计算"两个阶段,如果把它扩大到网络环境,可以进一步分解为分散和聚合。它们的区别在于:前者是直接产生数据,然后对数据进行计算,输出计算结果;后者是通过网络收集数据,经过组织整理后,再分配给多台计算机去执行计算,最后输出计算结果。


Scan/Sift是针对大规模数据重组构建的算法。它的特点是在即有数据基础上,经过重新组织加工,产生新的数据,面向ETL业务。起到数据处理加速器的作用,为数据计算工作提前准备一个快速处理通道。


这两种算法都可以进行了抽象化处理,以“分布任务组件”形式,向开发者提供了API接口,供用户结合自己的数据业务进行开发,然后发布到Laxcus大数据管理系统运行使用。


2.8应用开发


Laxcus大数据管理系统的应用开发分为两种:管理者应用开发,用户应用开发。前者遵循Invoke/Product任务调用模型,面向集群所有者或者云计算运营商,提供系统层面个性化的数据管理和处理业务,操作者是集群管理员。后者面向普通的应用开发者,它以API接口发布出来,以组件编程的方式,由开发者编程,供注册用户使用。


在运行过程中,用户层应用被置于容器中运行,接受沙箱的监管控制。系统层应用与系统嵌合在一起,没有沙箱管理,直接运行。它们都支持冷发布和热发布两种模式。系统层应用发布由管理员通过命令实施。用户层应用通常是管理员发布,但是在获得管理员授权后,也可以由用户自己发布。


【中国数据创新琅琊榜】Laxcus:构建全栈和通用的大数据管理系统_第6张图片

管理员通过Watch节点发布分布任务组件


【中国数据创新琅琊榜】Laxcus:构建全栈和通用的大数据管理系统_第7张图片

注册用户在获得授权后,通过Front节点发布分布任务组件


2.9冗余容错


由于Laxcus大数据管理系统建立在低成本硬件基础之上,以及硬件品质的参差不齐,和计算机集群庞大的组织体系和复杂结构的特点,使得集群在运行过程中发生的错误概率,远高于单一且性能稳定的小型机服务器,并且集群在运行过程中几乎是不允许停止的,这就更需要提供比单机环境复杂得多的错误管理方案。系统的冗余容错依据松耦合架构和自适应感知机制,遵循这样一个整体思路来解决:首先由软件感知来发现和定位故障点,然后进行判断,如果属于软件可以解决的故障,且有足够的冗余备份,那么启动软件自修复机制来完成,否则,这个错误就提交给集群管理员人工处理。在这个思路基础上,各种错误处理分别融入到它们的模块中,并与这些模块嵌合,形成一个完整的冗余容错管理机制。对硬件的容错管理包括网络故障、计算机故障、硬盘故障。软件的故障包括各类节点故障、数据错误、应用程序错误等。其中管理员的职责也是必不可少的。


2.10安全


安全是Laxcus大数据管理系统最重要的一环,管理工作贯穿Laxcus大数据管理系统所有层面,采用“网络->节点->用户->业务”的四层管理架构。首先是RSA+SHA,这是所有安全管理的基础。在FIXP网络里,要求所有业务都使用RSA加密,所有数据都经过SHA验证。此后,分别是对称加密、资源安全策略、签名管理、用户安全策略、业务安全策略一系列安全管理措施。这些措施都是围绕着两个目标进行:防窃取和防篡改。同时我们也考虑到安全管理对数据业务的影响(比如频繁的RSA计算会大量占用CPU),所以在某些层面,安全管理被设置为可选项,由集群管理者或者用户,通过配置文件或者命令自主决定。目前Laxcus大数据管理系统的安全管理工作已经达到行业领先水平。


【中国数据创新琅琊榜】Laxcus:构建全栈和通用的大数据管理系统_第8张图片

Laxcus安全管理模型


(3)实际效果

Laxcus做为全栈和通用的大数据管理系统,以及最底层的基础支持平台,集群规模达到1,000,000+物理节点,数据规模达到EB量级(1EB=1,073,741,824GB)可存储计算数据、响应规模达到100,000,000+次/秒,适用于互联网、物联网、公有云、私有云、商业大数据、工业大数据、VR/AR、人工智能、超级计算机、区块链等行业。现在Laxcus大数据管理系统采用开源+原厂服务的模式,在一些行业落地使用。


【中国数据创新琅琊榜】Laxcus:构建全栈和通用的大数据管理系统_第9张图片

大数据应用延伸领域



企业介绍



Laxcus大数据技术实验室成立于2013年,从事大数据基础技术和产品,以及相关技术和产品的设计、研发工作。团队早期成员来自Lexst搜索引擎,此后陆续吸收了国内外多家互联网、IT企业的技术产品研发人员加盟,拥有丰富的软硬件基础技术和产品设计研发经验。Laxcus大数据管理系统是实验室第一个成熟和商业化产品,目前以Laxcus大数据管理系统为基础,引入区块链和人工智能技术研究,并与多家企业开展了大数据的合作、研发工作。


【中国数据创新琅琊榜】Laxcus:构建全栈和通用的大数据管理系统_第10张图片

Lexst搜索引擎首页




数据创新思考



回顾历史,自计算机诞生之后的七十多年里,已经发生数次IT革命,每一次IT革命的成果,无不带来更低的价格、更广阔的市场、更完善的功能、更友好的使用体验。


大数据已经经历10年发展,身处行业之中,我们清楚地感受到,现在已经到了一个重要的分水岭阶段:通用性和兼容能力正在成为大数据行业发展的潮流,运行的稳定性和可靠性,以及使用的便捷性、易开发、易维护能力成为产品发展的驱动力。而这些却是Hadoop/Spark这类积木式模块框架无法满足的。


正如同当年小型机取代大型机,PC战胜小型机,现在移动设备大行其道一样,放眼今天数据市场,在社会信息化加速和各种产业需求的带动下,传统的数据处理软件已经越来越无法满足日益庞大、复杂的数据存储和计算需要,各种数据处理业务正在快速向大数据迁移。现在的大数据和大数据应用,已经在许多人们看不到的地方,越来越深入到人们的日常生活。它日益成为一个隐形的大脑和心脏,为整个社会提供着各种决策和帮助。这要求新型的大数据处理软件具备足够优秀的用户体验、稳定性、通用性、简单、处理能力和效率才能承担起这样的工作。


这个压力和动力促使我们研发一款大数据系统级产品。在产品设计过程中,我们选择学习而不是抄袭,借鉴而不是篡改,坚持从0开始,从最底层做起,跳出积木式模块框架思维,另辟蹊径,瞄准用户需求,有针对性地进行大数据基础研发。在实践中,我们强调把大数据核心技术掌握在自己手里,而不是被别人掌握。要求系统的各种问题由产品和技术本身来化解和消弭,而不是把责任推给用户。技术上以松耦合架构为基点,引入架构/功能一体化设计,通过系统内聚、减少冗余、优化结构、兼容、语句化交互等手段,不仅使Laxcus大数据管理系统的运行更稳定,调用更紧凑,效率更高,界面更友好,部署开发维护更简单更灵活,软件的编程量也大幅减少。经过这样多年不断的技术探索和尝试,一步步走来,最终形成一套完整的自有的大数据技术体系。


未来,我们希望以Laxcus大数据管理系统为契机,联合更多技术研发团队,整合上下游产业资源,与合作伙伴一起,为建立大数据生态体系,形成中国标准,拥有数据世界的话语权,提供一份力量。


创新是一条漫长的路,没有尽头!


“中国数据创新琅琊榜”活动,面向各行业进行数据应用创新的企业,广征案例,择优推广。无论是数据初创企业,还是开展数字化转型的传统企业;无论是大数据行业,还是金融、教育、医疗等垂直行业,均可报名参加评选。


《大数据周刊》希望通过此次活动,让企业数据创新项目实现网状覆盖的最大化传播效果,用媒体声量推动大数据创新发展,并通过领袖意见及经典案例引发深思,进一步引爆数据正在喷薄而出的无穷力量!


【中国数据创新琅琊榜】Laxcus:构建全栈和通用的大数据管理系统_第11张图片

联系活动小助手


如果你们是一家拥有独特创新能力的公司;


如果你们在数据与产品融合方面有成功案例;


如果你们有优秀的大数据解决方案;


如果你们有成熟的大数据展示平台;


如果你们的数据创新思维具有颠覆性标志;


如果你们开展了成功的数字化转型……


请赶快联系我们把!



640

大数据周刊

邮箱:[email protected]

电话:010-57524293


640

众论大数据 引领大时代

长按二维码关注


你可能感兴趣的:(【中国数据创新琅琊榜】Laxcus:构建全栈和通用的大数据管理系统)