[Spark周边]--SQL Server 2019预览结合了SQL Server和Apache Spark来创建统一的数据平台

感谢原文作者:https://cloudblogs.microsoft.com/sqlserver/2018/09/24/sql-server-2019-preview-combines-sql-server-and-apache-spark-to-create-a-unified-data-platform/
        今天在Ignite上,微软宣布推出SQL Server 2019。25年来,SQL Server帮助企业管理其关系数据的各个方面。在最近的版本中,SQL Server不仅通过统一图形和关系数据来查询关系数据,还通过R和Python模型培训和评分将机器学习带到数据所在的位置。随着数据量和种类的增加,客户需要轻松地跨所有类型的数据集成和分析数据。

         现在,有史以来第一次,SQL Server 2019创建了一个统一的数据平台,其中Apache Spark TM和Hadoop分布式文件系统(HDFS)与SQL Server一起打包为一个集成的解决方案。通过创建大数据集群的能力,SQL Server 2019提供了令人难以置信的数据库管理功能扩展,进一步重新定义了SQL Server,超越了传统的关系数据库。与每个版本一样,SQL Server 2019通过智能查询处理,数据合规性工具和对持久性内存的支持,继续为每个工作负载突破安全性,可用性和性能的界限。使用SQL Server 2019,您可以承担任何数据项目,从传统的SQL Server工作负载(如OLTP,数据仓库和BI)到AI和高级数据的高级分析。

        SQL Server提供了一个真正的混合平台,具有从数据中心到公共云的一致SQL Server表面区域,使其易于在您选择的位置运行。由于SQL Server 2019大数据集群作为Kubernetes上的容器部署并具有内置管理服务,因此客户可以在本地和云中的各种支持平台上获得一致的管理和部署体验:OpenShift或Kubernetes, Azure Kubernetes服务(AKS),Azure Stack(在AKS上)和Azure上的OpenShift。借助Azure Hybrid Benefit许可证可移植性,您可以选择在本地或Azure中运行SQL Server工作负载,而成本只是其他任何云提供商的一小部分。

SQL Server - 对所有数据的洞察

      SQL Server继续采用开源,从SQL Server 2017支持Linux和容器到SQL Server 2019,现在拥抱Spark和HDFS为您带来统一的数据平台。使用SQL Server 2019,对数据执行分析所需的所有组件都内置在托管集群中,托管集群易于部署,并且可以根据业务需求进行扩展。HDFS,Spark,Knox,Ranger,Livy都与SQL Server一起打包,可以快速轻松地部署为Kubernetes上的Linux容器。SQL Server通过消除结构化数据和非结构化数据之间当前存在的任何障碍,简化了对所有企业数据的管理。

以下是我们如何让您轻松打破所有数据中实现的洞察力的障碍,在整个组织中提供一个数据视图:

  • 简化SQL Server用户的大数据分析。SQL Server 2019使管理大数据环境变得更加容易。它提供了创建数据湖所需的一切,包括Microsoft和分析工具提供的HDFS和Spark,它们都与SQL Server深度集成,并得到Microsoft的全面支持。现在,您可以在结构化和非结构化数据上运行应用程序,分析和AI - 使用熟悉的T-SQL查询或熟悉Spark的人可以使用Python,R,Scala或Java来运行Spark作业以进行数据准备或分析 - 所有这些都在相同的集成集群。
  • 使用他们喜欢的工具为开发人员,数据分析师和数据工程师提供所有数据(结构化和非结构化)的单一来源。使用SQL Server 2019,数据科学家可以通过Spark作业轻松分析SQL Server和HDFS中的数据。分析师可以使用SQL Server机器学习服务对大数据运行高级分析:在Hadoop中训练大型数据集并在SQL Server中操作。数据科学家可以在Azure Data Studio的新扩展中使用在Jupyter笔记本引擎上运行的全新笔记本体验,以交互方式执行数据的高级分析,并轻松与同事共享分析。
  • 使用数据虚拟化分解数据孤岛并在所有数据中提供一个视图。从SQL Server 2016开始,PolyBase使您能够在SQL Server中运行T-SQL查询,从数据湖中提取数据并以结构化格式返回 - 所有这些都无需移动或复制数据。现在,在SQL Server 2019中,我们正在将数据虚拟化的概念扩展到其他数据源,包括Oracle,Teradata,MongoDB,PostgreSQL等。使用新的PolyBase,您可以使用虚拟化来分解数据孤岛并轻松组合来自多个来源的数据,从而避免数据移动和复制所产生的时间,精力,安全风险和重复数据。新的可弹性扩展的“数据池”和“计算池”通过缓存数据和跨SQL Server的许多实例分发查询执行,可以快速查询虚拟化数据。
  • [Spark周边]--SQL Server 2019预览结合了SQL Server和Apache Spark来创建统一的数据平台_第1张图片

 

“从一开始,Sloan Digital Sky Survey数据库就在SQL Server上运行,而SQL Server也存储了大型宇宙模拟中的对象目录。我们很高兴SQL Server 2019大数据集群的承诺,这将使我们能够增强我们的数据库,以包括我们所有的大数据集。SQL Server 2019的分布式特性使我们能够扩展我们的新型仿真和下一代天文测量,数据集高达10PB或更高,远远超出我们当前数据库解决方案的限制。“ - Gerard Lemson博士,约翰霍普金斯大学数据密集工程与科学研究所。

增强的性能,安全性和可用性

SQL Server 2019关系引擎将在关键任务性能,安全性和合规性以及数据库可用性以及开发人员,Linux上的SQL Server和容器以及通用引擎增强功能方面提供新的和增强的功能。

业界领先的性能 - 智能数据库

  • 智能查询处理的功能系列基于自适应查询处理的免提性能优化功能,在有行模式内存授予反馈,近似COUNT DISTINCT,在rowstore批处理模式,表变量递延编译SQL服务器2017年。
  • 此版本中的持久内存支持得到了改进,新的优化I / O路径可用于与持久性内存存储交互。
  • 现在,默认情况下启用轻量级查询分析基础结构,以便随时随地为每个查询运算符提供统计信息。

高级安全性 - 机密计算

  • 始终使用安全区域进行加密扩展了SQL Server 2016中引入的客户端加密技术。安全区域保护数据库内硬件或软件创建的安全区中的敏感数据,使其免受恶意软件和特权用户的攻击,同时对加密数据启用高级操作。
  • SQL数据发现和分类现在内置于SQL Server引擎中,具有新的元数据和审计支持,可帮助满足GDPR和其他合规性需求。
  • 使用SQL Server配置管理器可以更轻松地进行认证管理

任务关键型可用性 - 高正常运行时间

  • Always On Availability组已得到增强,包括基于读/写意图自动重定向到主服务器的连接。
  • 可以使用Kubernetes使用Always On Availability Groups启用在容器中运行的SQL Server的高可用性配置
  • 可恢复的在线索引现在支持创建操作并包括数据库作用域默认值。

开发经验

  • SQL Graph的增强功能包括对T-SQL MERGE和边缘约束的匹配支持。
  • 新的UTF-8支持使客户能够减少SQL Server的字符数据存储空间。
  • 新的Java语言扩展将允许您调用预编译的Java程序,并使用SQL Server在同一服务器上安全地执行Java代码。通过使您的工作负载更接近您的数据,这减少了移动数据的需求并提高了应用程序性能。
  • 机器学习服务有几项增强功能,包括Windows故障转移群集支持,分区模型以及Linux上对SQL Server的支持。

选择的平台

  • Linux上SQL Server的其他功能包括分布式事务,复制,Polybase,机器学习服务,内存通知和OpenLDAP支持。
  • 容器具有新的增强功能,包括使用支持RedHat Enterprise Linux映像的新Microsoft Container Registry和支持Kubernetes的Always On Availability Groups。
    您可以在我们的文档中阅读有关SQL Server 2019中的新功能的更多信息。

Azure Data Studio中的SQL Server 2019支持

在SQL Server中扩展对更多数据工作负载的支持需要扩展工具。由于微软已经与其数据平台的用户合作,我们已经看到了以前不同的角色的聚集:数据库管理员,数据科学家,数据开发人员,数据分析师和新角色仍然被定义。这些用户越来越希望使用相同的工具,无缝地,跨内部部署和云,使用关系和非结构化数据,使用OLTP,ETL,分析和流式工作负载协同工作。

Azure Data Studio提供现代编辑器体验,具有闪电般的智能感知,代码片段,源代码控制集成和集成终端。它以数据平台用户为设计理念,内置查询结果图表,集成笔记本和可自定义的仪表板。Azure Data Studio目前提供对SQL Server内部部署和Azure SQL数据库的内置支持,以及对Azure SQL托管实例和Azure SQL数据仓库的预览支持。

Azure Data Studio现在发布了一个新的SQL Server 2019预览扩展,以添加对选定的SQL Server 2019功能的支持。该扩展为SQL Server大数据集群提供连接和工具,包括预览SQL Server工具集中的首个笔记本体验,以及新的PolyBase创建外部表向导,使远程SQL Server和Oracle实例的数据轻松快速地访问。

入门

通过访问以下链接,查找其他资源并立即开始:

  • 预览适用于Windows,Linux或Docker的SQL Server 2019。
  • 注册Early Adoption Program,从SQL Server工程中获取对项目的建议和支持,或者尝试SQL Server 2019大数据集群。
  • 下载Azure Data Studio以开始使用新的SQL Server大数据功能,如数据虚拟化和笔记本。

你可能感兴趣的:(Spark)