星环科技平滑迁移方案加速国产化替代,助力大数据基础软件自主可控

核心技术是国之重器,加速推进核心领域关键技术突破,完成核心网络中的软硬件国产替代是国家长期战略。

“十四五”规划更是明确,聚力攻坚基础软件,加速分布式数据库/混合事务分析处理数据库等产品研发推广。强化基础组件供给,大力发展云计算/大数据/人工智能/区块链等平台软件开发框架。

自主可控和国产化替代刻不容缓。过去微软“黑屏闷”事件、美国“棱镜门”事件、中兴制裁事件已经说明了没有核心技术就会受制于人,今年俄乌事件发生后,200多家科技公司宣布暂停在俄罗斯的所有业务,包括芯片、软件、云服务等断供,哪里还有“科技无国界”?要摆脱被科技制裁的风险唯一出路就是自主研发、自主可控。

星环科技自2013年成立以来,就以自主研发为己任,不仅自主研发了大数据与云基础平台、分布式关系型数据库、数据开发与智能分析工具的软件产品全系列产品,为企业数字化转型提供了真正的国产数字底座,以提供数据集成、存储、治理、建模、挖掘、分析和流通能力,可以推动数据规范化、资产化、业务化,推进业务数据化、智能化,而且产品能力更强更全,领先于国外,在基于容器的数据云技术、分布式技术、数据库技术、多模型数据的统一处理技术、SQL编译技术、大数据开发与智能分析技术等6大类技术上拥有31项具备先进性的核心技术,拥有了一大批发明专利。参加并且通过了工信部自主代码扫描测试,完全符合信创验收标准,多个产品进入了国家软硬件技术图谱。

在自主研发创新的同时,星环科技也在积极参与国家信创工作。星环科技作为信创工委会WG24大数据工作组的小组组长及副组长单位,牵头制定信创大数据行业标准及规范,并深度参与产品图谱编制、产业白皮书、案例集编撰等工作。

星环科技全系列产品替代国外进口产品

image.png

星环科技拥有成熟的基础软件替代解决方案,完全满足信创验收要求,取得了众多的成果。

大数据基础平台TDH可以完美的替代CDH/HDP和CDP,提升功能、性能、稳定性、易用性、扩展性、可靠性、安全、国产生态支持等能力,提供多种模型支持能力,性能的提升可以达到5到100倍,原厂专业服务能力更强。

分布式交易型数据库KunDB可以在交易型OLTP的业务场景、高并发在线数据服务场景,替代Oracle/DB2,并且提升存储计算能力、高可用能力、跨分区事务能力。

分布式分析型数据库ArgoDB可以在批处理和OLAP、Ad hoc分析等场景,替代Oracle/DB2/TD/SAP HANA,提供海量数据分析能力,提升混合负载、实时数据分析等能力,软硬件综合性价比得到10到100倍的提升。

分布式图数据库StellarDB可以在图查询、图分析的场景替代Neo4j,提升图数据存储检索能力,支持万亿顶点以上的图存储与毫秒级检索性能,提供近30种分布式图算法和10层以上深度链路分析能力。

搜索引擎Scope可以在全文检索、日志分析等场景替代ElasticSearch,提升稳定性、性能、集群扩展性等能力。

智能分析工具Sophon可以在可视化建模分析场景替代SAS/SPSS,获得200+算子支撑,提升功能和性能(将本增效)。

国产化替代的10大关键评价指标

星环科技的一体化替代方案拥有独一无二的优势

image.png

在功能上,星环科技基础软件产品多模架构,支持关系表、文本、时空地理、图数据、文档、时序等在内的10种数据模型;离线数据批处理、高并发的在线数据服务、数据集市、数据仓库、数据湖、图存储分析、空间数据存储、实时数据处理、数据中台、数据治理等各类大数据业务场景一站解决。

在性能上,星环科技基础软件产品自研高性能分布式计算和存储引擎,整体性能是CDP 5~25倍。整体性价比是DB2 20倍,是TD 100倍。

在成本上,星环科技产品高度兼容CDH/HDP、TD、Oracle、DB2,兼容TD、Oracle、DB2的SQL和方言,提供成熟的迁移工具,有大量低成本成功迁移案例。

在安全上,星环科技基础软件产品提供的容器隔离、灾备、访问控制、联邦学习、隐私保护、可信计算等技术保障网络层、加固层、治理层、流通层全方位数据安全。

在架构上,星环科技基础软件产品提供统一SQL引擎、统一计算引擎、统一分布式存储管理、统一资源调度,统一内联的架构高效搞定湖仓集一体、HTAP等复杂场景,而不是拼凑组件成散装架构。

在开发上,星环科技基础软件产品提供统一SQL引擎,无需每个场景一套接口;完整支持SQL2003标准,支持PLSQL存储过程,兼容Oracle、DB2、TD等方言。

在运维上,星环科技基础软件产品提供开箱即用的可视化运维监控、安全管控工具,容器技术带来极致的安装、升级、补丁体验。

在售后上,星环科技原厂有超过1100人的研发与支持团队,超过3万名星环科技认证的大数据工程师,专业性更强。

在国产化上,星环科技的软件产品自主研发,通过了工信部代码自主研发率扫描测试,满足信创验收要求。

在国产生态上,星环基础软件产品已完成与主流信创生态厂商的适配互认工作,适配长城飞腾、华为泰山、浪潮等服务器,鲲鹏、飞腾CPU,麒麟、统信等操作系统,并有官方认证,支持基于ARM与X86服务器服务器混合部署并有落地案例。

星环科技有在大数据平台、数据库产品、数据分析平台等领域有大量成功替代国外进口产品的案例。目前,星环科技的大数据基础软件系列产品已在十几个行业1000+用户应用落地。

大数据平台国产化替代平滑迁移方案

(CDH/HDP/CDP->TDH)

image.png

Cloudera(Cloudera 和Hortonworks 合并后)所有产品不再提供社区版,用户无法获取新的功能。2021年1月31日开始,所有Cloudera软件都需要有效的订阅,且订阅费昂贵(50个节点,一年订阅费50万美元)。此外,CDH 6和HDP 3将是CDH和HDP的最后企业版本,企业版用户无法继续获取新的功能和性能提升。至2022年3月份,CDH/HDP全部停止服务(EoS),用户没办法获取售后支持。

Transwarp Data Hub(TDH) 是星环科技自主研发的企业级一站式多模型大数据基础平台,基于其领先的多模型统一技术架构,8种异构存储引擎可以支持包括关系表、文本、时空地理、图数据、文档、时序等在内的10种数据模型。TDH能够存储 PB 级别的海量数据,同时能够提供高性能的查询搜索、实时分析、统计分析、预测性分析等数据分析功能,被广泛应用在离线数据批处理、高并发的在线数据服务、数据集市、数据仓库、数据湖、图存储分析、空间数据存储、实时数据处理等各类大数据业务场景,帮助企业,更全面、更便捷、更智能、更安全地运用数据,加速企业数字化转型。

TDH基础存储与计算组件兼容CDH/HDP,可以实现平滑迁移,大大降低企业迁移成本低。

同时,星环科技提供专业的迁移工具Transwarp Backup (TBAK),帮助用户通过简单的三步即可实现数据与业务的一键迁移,高效便捷。整个迁移过程操作简单,配置灵活,通过3步即可完成所有的迁移工作,同时用户可以对迁移过程进行全流程实时监控,保障整个迁移过程顺利进行。

第一步,基于TBAK提供可视化的界面进行CDH和TDH的集群配置。

第二步,创建CDH迁移方案。TDH提供服务级和表级的迁移策略,以及对源集群,灾备集群,调度策略等进行配置。在调度策略中用户可以根据实际情况进行配置,例如可以设置在业务空窗期的每天凌晨2点进行数据迁移。同时,用户可以设置相应的告警策略,当迁移发生问题时可以第一时间收到告警信息并对问题进行排查和恢复。

第三步,执行迁移任务和结果检查。当集群配置完成后,所有的迁移方案将在迁移方案界面进行管理和操作。用户可以选择相应的迁移方案进行操作,例如立即执行和设置执行策略。若点击执行迁移任务,系统会进入到自动迁移状态,同时可以监测迁移任务执行的整体状态信息,并且可以对每一步的执行情况进行实时监测。当迁移发生故障时,系统会发出执行故障的告警,方便用户对故障发生的阶段进行排查和故障恢复。

此外,星环科技积累了大量的迁移成功案例,经验丰富,可以保障整个迁移过程安全可靠。

相比于迁移到CDP或者国内封装的Hadoop商业版,用户迁移到星环科技TDH后,TDH多模型统一架构提供统一SQL引擎、统一计算引擎、统一分布式存储管理、统一资源调度,统一内联架构高效搞定湖仓集一体、HTAP等复杂场景,无需拼凑组件散装架构。同时在技术领先性、性能、易用性、稳定性、安全性等方面得到全面的提升。此外,TDH由星环科技自主研发,通过工信部自主代码扫描测试,完全自主可控,并且与已完成与主流信创生态厂商的适配互认工作,满足信创验收要求,帮助各行业用户提升大数据系统的国产化水平。

数据库国化产替代平滑迁移方案

(Oracle/DB2/MySQL/Teradata/SAP HANA->TDH/ArgoDB/KunDB)

image.png

传统数据库如Oracle,DB2等存在成本高、扩容难、性能受限、运维难等问题给很多企业用户造成了困扰。

前段时间俄乌事件中,Oracle宣布暂停在俄业务,其他众多科技公司也相继宣布断供俄罗斯。这些事件再次给国人敲响了警钟,建设国产数据平台迫在眉睫。

星环科技大数据基础平台和数据库产品支持完整的SQL标准语法,兼容Oracle、IBM DB2、Teradata方言,兼容Oracle和DB2等的存储过程,可以实现平台间的平滑迁移。同时能够提供统一的架构,一站式帮忙用户解决所有业务场景,从降低成本、提升效能、平台创新、应用创新等多个方面为用户带来收益。

星环科技建立了一整套从老牌数据库到星环产品的平滑迁移方法论,大致可以分为分析与设计、迁移实施和上线保障三个阶段。

第一阶段,分析和设计。结合用户的现场情况和需求进行分析,并对数据流转和整体架构设计。如将Oracle迁移到星环科技TDH,TDH支持多种数据源接入,并对于不同的接入方式提供专业的组件工具。例如星环科技Transporter支持定时批量抽取,实时流计算引擎Slipstream支持实时数据接入,可用于实时数仓等场景。

第二阶段,迁移实施。迁移分为数据迁移和业务两大部分。在数据迁移方面,星环科技可以实现三种迁移方式,1:1平移、按照大数据平台特性重新设计和迁移种选重点进行优化,用户可以根据实际情况和自身需求进行选择。在业务迁移方面,星环科技平台能够提供完整的配套产品和组件,同时又能完整支持SQL标准,兼容像Oracle存储过程等特征,在保障业务的同时实现低成本、平滑迁移。

第三阶段,上线保障。星环科技可以提供双轨试运行机制,定期进行两边的数据核对,观察平台的运行情况,进行后期的细致调优等相关工作,保障迁移后能够顺利上线投产。

以金融行业为例,星环科技可替换的场景包含:风险控制、数据仓库、报表平台、ODS、数据集市、投资交易分析回放、客户分析和客户画像等等。例如风控的指标管理、实时预警、合规管理、数据维度一直是金融行业中券商最依赖于数据处理的部分,可结合市场风险、信用风险、反洗钱、投资人适当性管理等应用场景,星环科技能够在机器学习算法和风险模型上提供解决方案。其他例如投资交易、行情预测、业务运营等场景,星环科技都能够提供全面的支撑能力。

星环科技提供完整的数据库平滑迁移方案能够全方位保障数据与业务迁移,大大降低企业迁移成本和迁移风险。同时相对于传统数据库,星环科技大数据平台以及数据库产品能够在架构、性能、可扩展性、以及对云和AI的支持等能力上获得极大的提升,帮助企业快速实现国产化替代,构建自主可控的高性能数据平台。

图数据库国化产替代平滑迁移方案

(Neo4j->星环分布式图数据库StellarDB)

image.png

Neo4j是一款知名的开源图数据库,但用户在使用过程中发现Neo4j存在一定的局限性,例如Neo4j不支持多数据库实例应用,每个应用都需要单独的服务器部署,不便于管理。当数据量较大时,Neo4j计算能力存在瓶颈,无法满足较高要求的计算需求。此外,Neo4j不满足高可用的要求,且缺乏统一的资源管理和权限管理。

Transwarp StellarDB是星环科技自主研发的分布式图数据库,兼容openCypher查询语言,提供海量图数据的存储和分析能力,支持原生图存储结构,支持万亿边PB级数据存储。同时,StellarDB具备毫秒级点边查询能力,10+层的深度链路分析能力,提供近30种的图分析算法,具备数据2D和3D展示能力。

在迁移方面,StellarDB支持MySQL、Greenplum等关系型数据库、HDFS、Hive等大数据平台数据源接入,在4.0版本中StellarDB新增通过Kafka、Flink、Spark Streaming等方式接入流式数据源,可以覆盖所有场景数据源。同时提供专业的数据迁移工具实现数据的快速高效迁移。此外,StellarDB与Neo4j的Cypher语法高度兼容,低成本、安全地实现原有业务的平滑迁移和上线。

相比Neo4j,StellarDB在存储能力、高性能、图算法、国产化兼容、运维管理能力、知识图谱能力、接口工具等方面表现优异。

StellarDB支持海量图数据的存储与检索,可以支持至少万亿顶点以上的图存储,在某地电信关系图谱场景实现了9700亿边规模的存储和稳定运行,真正意义上将万亿级图数据库能力应用落地。

替换Neo4j以后,用户可获得更高的性能。批量数据导入性能提高2倍以上,在深度链路查询能力方面,StellarDB能够支持12度以上关联查询,秒级返回,经测试验证,6跳查询相对于Neo4j提高了50倍以上。在图算法性能方面,StellarDB4.0具有很大性能优势,PageRank算法和强连通子图算法性能提升3-6倍,LPA算法性能提升8倍以上,在十亿级边Twitter-2010数据集下,StellarDB秒级响应,Neo4j在30min内无响应结果。

相比于Neo4j,StellatDB支持分布式集群部署,实现一站式集群管理,同时提供企业级便捷的管理工具,实现高效的统一资源管理和权限管理。

StellarDB提供统一调度和API接口管理能力,相比之前依赖第三方调度工具,更方便高效。

在可视化能力方面,StellarDB支持2D和3D的图可视化展示,利用可视化技术帮助用户快速获取数据基于关联性的深度洞察,并且提供可视化的数据导入、集群监控、图查询任务和图计算任务监控等功能。

在国产化方面,StellarDB是星环科技自研图数据库,且兼容国产化软硬件,帮助企业提高国产化水平,满足信创要求。

此外,星环科技是国内具备图数据库、知识图谱平台、图挖掘应用开发能力的企业,其全栈自研的图技术能力可以助力企业快速挖掘图数据价值,推动业务高效高质量发展。

搜索产品国产化替代平滑迁移方案

(ElasticSearch->星环分布式搜索引擎Scope)

image.png

ES在2021年宣布变更 Elasticsearch 和 Kibana 的其中一项开源许可协议Apache License 2.0,变更为双授权许可,即 Server Side Public License (SSPL) + Elastic License,在一定程度上对许可协议加以限制。

此外,随着数据量的剧增以及性能要求的不断提高,ES在集群扩展性、可靠性、数据读写性能、以及数据恢复速度等方面越来越难以满足用户的需求。例如,ES单节点实例支持的数据量有限,当集群超过100节点,会出现连续失联等稳定性问题。当节点磁盘损坏时,需要采取全量数据拷贝的方式恢复数据,工作量大,TB级别可达小时级别,数据恢复速度比较慢,无法满足客户快速实现数据恢复的需求。

Transwarp Scope是星环科技自主研发的分布式搜索引擎,提供PB级海量数据的交互式多维检索分析服务,能够实现高可靠、高扩展性的全文搜索与灵活查询。能够兼容常用的ES读写接口,比ES更强的数据一致性和可靠性,同时比ES有更强的稳定性,实现分钟级快速恢复单点故障。在性能方面,Scope可以毫秒级快速响应用户的检索需求,入库与查询能力有发幅度的提升。此外,Scope是星环科技自主研发的搜索引擎,可以满足信创验收要求。

基于星环平滑迁移方案论,从ES到Scope的迁移过程可以分为三个阶段,调研评估、方案测试和上线保障。同时星环科技支持多种数据迁移方式保障数据顺利迁移,Scope支持ES接口可以实现原先ES业务的平滑迁移。

在数据迁移方面,星环科技支持三种数据迁移方案,使用部分ES迁移工具迁移数据、通过HDFS将数据迁移到Scope和使用Logstash进行数据迁移,用户可以根据需求灵活选择。

在业务迁移方面,Scope支持ES接口,可以实现ES的业务平滑迁移,同时针对部分用户习惯使用SQL的方式,Scope支持SQL 2003和全文检索SQL扩展,满足传统数据库迁移到ES的需求。

相较于ES,用户迁移到Scope之后,可以实现海量存储能力确保百节点以上规模集群稳定运行,强一致性写入能力确保读写数据不丢。在高可用能力方面也有非常大的提升,可以确保错误分钟级重启恢复。此外,用户还可获得多进程架构,内存精细化控制、负载均衡、数据分区等能力。

星环科技Scope在政府、金融等行业有很多ES国产替代落地经验,帮助用户在海量数据检索和分析、可扩展性、可靠性、数据恢复等能力上获得极大的提升,帮助企业完成搜索产品的国产化替代。

分析工具国产化平滑迁移方案

(SAS/SPSS->星环智能分析工具Sophon)

image.png

大数据分析工具可以帮助用户更灵活、更高效地进行数据分析,挖掘数据价值。随着数据量的剧增,以及深度学习算法的不断迭代以及创新,市面上如SAS/SPSS等分析工具越来越难以满足企业用户更快速、更高效、更灵活以及更低成本的需求。

例如,用户在使用SAS过程中可能会遇到如下几个问题:首先,其相对比较封闭,用户无法针对单个功能授予许可证,使用成本高昂;其次,SAS自建机器学习算法有限,深度学习算法依赖外部如Python嵌入支持,用户无法灵活地获取新的算法;再次,SAS对分布式读写和计算存在局限性,对海量数据处理及大规模机器学习难以有效支撑,对实时计算更是无能为力。

此外,SAS是过程性语言,代码量偏多,加上闭源特性,SAS社区不及开源语言活跃。随着R、Python的流行,SAS人才日渐稀缺,导致企业难以组织高质量团队。

星环科技Sophon Base是具备统计、机器学习、深度学习等完备算法和丰富算子的企业级分布式机器学习平台,支持从数据接入、数据处理,到模型训练、服务部署、线上监控的一站式可视化流程。

在多年的行业积累和项目实践上,星环科技建立了一套模型迁移方法论,整个过程被定义为8个阶段——业务理解、数据理解、元模型理解、数据准备、模型迁移、评估报告、应用和检测。星环科技SAS平滑迁移过程强调针对实际业务问题,解决客户的业务痛点,产生实际价值。

通过对用户业务、数据、元模型的理解后,进行相应的数据准备,包括框架设计、数据处理、方案设计等。当数据准备好后就会进行模型迁移,这一阶段主要是进行代码逻辑架构梳理设计、模型验证等。模型迁移完成后会对迁移效果进行评估,确认迁移前后的准确性、一致性、以及优化效果验证。最后是部署上线来支持业务,对业务进行持续跟踪,不断优化模型,并对效果进行评估。通过一整套完整的迁移流程,保障SAS平滑、安全的迁移到星环Sophon。

星环科技Sophon可以提供完整的SAS模型迁移能力。相较于SAS,迁移到Sophon后可以支持多源异构数据的接入、丰富的数据处理、多个框架的模型训练及发布、模型部署和维护等全过程,多源数据和建模流程灵活组合确保综合性场景高效支撑。用户可以获得Sophon自建的200多个高性能分布式AI算子以及对自定义算子的支持,完全覆盖SAS原有的建模能力。同时,Sophon还能带来模型可解释性、联邦学习等额外的支持,更好地支撑模型的业务应用。此外,在模型的统一管理、发布及监控方面,Sophon也为企业客户提供了简洁、易用、稳定的解决方案,帮助用户更好地获取数据价值。

星环科技平滑迁移方案加速国产化替代,助力大数据基础软件自主可控_第1张图片

你可能感兴趣的:(大数据)