宁哥说

主流开源SQL（on Hadoop）总结

使用SQL 引擎一词是有点随意的。例如Hive 不是一个引擎，它的框架使用MapReduce、TeZ 或者Spark 引擎去执行查询，而且它并不运行SQL，而是HiveQL，一种类似SQL 的语言，非常接近SQL。“SQL-in-Hadoop” 也不适用，虽然Hive 和Impala 主要使用Hadoop，但是Spark、Drill、HAWQ 和Presto 还可以和各种其他的数据存储系统配合使用。不像关系型数据库，SQL 引擎独立于数据存储系统。相对而言，关系型数据库将查询引擎和存储绑定到一个单独的紧耦合系统中，这允许某些类型的优化。另一方面，拆分它们，提供了更大的灵活性，尽管存在潜在的性能损失。

前世今生

查询分析是大数据要解决的核心问题之一，自从Google在2006年之前的几篇论文奠定云计算领域基础，尤其是GFS、Map-Reduce、Bigtable被称为云计算底层技术三大基石。GFS、Map-Reduce技术直接支持了Apache Hadoop项目的诞生。Bigtable和Amazon Dynamo直接催生了NoSQL这个崭新的数据库领域，撼动了RDBMS在商用数据库和数据仓库方面几十年的统治性地位。FaceBook的Hive项目是建立在Hadoop上的数据仓库基础构架，提供了一系列用于存储、查询和分析大规模数据的工具。当我们还浸淫在GFS、Map-Reduce、Bigtable等Google技术中，并进行理解、掌握、模仿时，Google在2009年之后，连续推出多项新技术，包括：Dremel、Pregel、Percolator、Spanner和F1。其中，Dremel促使了实时计算系统的兴起，Pregel开辟了图数据计算这个新方向，Percolator使分布式增量索引更新成为文本检索领域的新标准，Spanner和F1向我们展现了跨数据中心数据库的可能。

在Google的第二波技术浪潮中，基于Hive和Dremel，新兴的大数据公司Cloudera开源了大数据查询分析引擎Impala，Hortonworks开源了Stinger，Fackbook开源了Presto。类似Pregel，UC Berkeley AMPLAB实验室开发了Spark图计算框架，并以Spark为核心开源了大数据查询分析引擎Shark。Hive、Impala、Shark、Stinger和Presto的进化图谱如下图所示

基于Map-Reduce模式的Hadoop擅长数据批处理，不是特别符合即时查询的场景。实时查询一般使用MPP (Massively Parallel Processing)的架构，因此用户需要在Hadoop和MPP两种技术中选择。

在Google的第二波技术浪潮中，一些基于Hadoop架构的快速SQL访问技术逐步获得人们关注。现在有一种新的趋势是MPP和Hadoop相结合提供快速SQL访问框架。当前热门的开源工具包括：Impala、Shark（SparkSQL)、Stinger(Hive on Tez)和Presto。这也显示了大数据领域对于Hadoop生态系统中支持实时查询的期望。总体来说，Impala、Shark、Stinger和Presto四个系统都是类SQL实时大数据查询分析引擎，但是它们的技术侧重点完全不同。而且它们也不是为了替换Hive而生，Hive在做数据仓库时是非常有价值的。这四个系统与Hive都是构建在Hadoop之上的数据查询工具，各有不同的侧重适应面，但从客户端使用来看它们与Hive有很多的共同之处，如数据表元数据、Thrift接口、ODBC/JDBC驱动、SQL语法、灵活的文件格式、存储资源池等。Hive与Impala、Shark、Stinger、Presto在Hadoop中的关系如下图所示。Hive适用于长时间的批处理查询分析，而Impala、Shark、Stinger和Presto适用于实时交互式SQL查询，它们给数据分析人员提供了快速实验、验证想法的大数据分析工具。可以先使用Hive进行数据转换处理，之后使用这四个系统中的一个在Hive处理后的结果数据集上进行快速的数据分析。

Hive：披着SQL外衣的Map-Reduce。Hive是为方便用户使用Map-Reduce而在外面封装了一层SQL，由于Hive采用了SQL，它的问题域比Map-Reduce更窄，因为很多问题，SQL表达不出来，比如一些数据挖掘算法，推荐算法、图像识别算法等，这些仍只能通过编写Map-Reduce完成
Impala：Google Dremel的开源实现（Apache Drill类似），因为交互式实时计算需求，Cloudera推出了Impala系统，该系统适用于交互式实时处理场景，要求最后产生的数据量一定要少
Shark/Spark：为了提高Map-Reduce的计算效率，Berkeley的AMPLab实验室开发了Spark，Spark可看做基于内存的Map-Reduce实现，此外，伯克利还在Spark基础上封装了一层SQL，产生了一个新的类似Hive的系统Shark
Stinger Initiative（Tez optimized Hive）：Hortonworks开源了一个DAG计算框架Tez，Tez可以理解为Google Pregel的开源实现，该框架可以像Map-Reduce一样，可以用来设计DAG应用程序，但需要注意的是，Tez只能运行在YARN上。Tez的一个重要应用是优化Hive和PIG这种典型的DAG应用场景，它通过减少数据读写IO，优化DAG流程使得Hive速度提供了很多倍
Presto：FaceBook于2013年11月份开源了Presto，一个分布式SQL查询引擎，它被设计为用来专门进行高速、实时的数据分析。它支持标准的ANSI SQL，包括复杂查询、聚合（aggregation）、连接（join）和窗口函数（window functions)。Presto设计了一个简单的数据存储的抽象层，来满足在不同数据存储系统（包括HBase、HDFS、Scribe等）之上都可以使用SQL进行查询。

对比分析

下面的图1展示了主要的SQL 引擎的流行程度，数据由奥地利咨询公司Solid IT 维护的DB-Engines 提供。DB-Engines 每月为超过200个数据库系统计算流行得分。得分反应了搜索引擎的查询，在线讨论的提及，提供的工作，专业资历的提及，以及tweets

虽然Impala、Spark SQL、Drill、Hawq 和Presto 一直在运行性能、并发量和吞吐量上击败Hive，但是Hive 仍然是最流行的（至少根据DB-Engines 的标准）。原因有3个：

Hive 是Hadoop 的默认SQL 选项，每个版本都支持。而其他的要求特定的供应商和合适的用户；
Hive 已经在减少和其他引擎的性能差距。大多数Hive 的替代者在2012年推出，分析师等待Hive 查询的完成等到要自杀。然而当Impala、Spark、Drill 等大步发展的时候，Hive只是一直跟着，慢慢改进。现在，虽然Hive 不是最快的选择，但是它比五年前要好得多；
虽然前沿的速度很酷，但是大多数机构都知道世界并没有尽头。

在下面的图2中可以看出，相对于领先的商业数据仓库应用，用户对顶尖的SQL 引擎更感兴趣

对于开源项目来说，最佳的健康度量是它的活跃开发者社区的大小。如下面的图3所示，Hive 和Presto 有最大的贡献者基础。（Spark SQL 的数据暂缺）

在2016年，Cloudera、Hortonworks、Kognitio 和Teradata 陷入了Tony Baer 总结的基准测试之战，令人震惊的是，供应商偏爱的SQL 引擎在每一个研究中都击败了其他选择，这带来一个问题：基准测试还有意义吗？
AtScale 一年两次的基准测试并不是毫无根据的。作为一个BI 初创公司，AtScale 销售衔接BI 前端和SQL 后端的软件。公司的软件是引擎中立的，它尝试尽可能多的兼容，其在BI 领域的广泛经验让这些测试有了实际的意义。AtScale 最近的关键发现，包括了Hive、Impala、Spark SQL 和Presto：

4个引擎都成功运行了AtScale 的BI 基准查询；
取决于数据量、查询复杂度和并发用户数，每个引擎都有自己的性能优势：

Impala 和Spark SQL 在小数据量的查询上击败了其他人；
Impala 和Spark SQL 在大数据量的复杂join 上击败了其他人；
Impala 和Presto 在并发测试上表现的更好。

对比6个月之前的基准测试，所有的引擎都有了2-4倍的性能提升。

Alex Woodie 报告了测试结果，Andrew Oliver 对其进行分析。让我们来深入了解这些项目。

Apache Hive

Apache Hive 是Hadoop 生态系统中的第一个SQL 框架。Facebook 的工程师在2007年介绍了Hive，并在2008年将代码捐献给Apache 软件基金会。2010年9月，Hive 毕业成为Apache 顶级项目。Hadoop 生态系统中的每个主要参与者都发布和支持Hive，包括Cloudera、MapR、Hortonworks 和IBM。Amazon Web Services 在Elastic MapReduce（EMR）中提供了Hive 的修改版作为云服务。

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为Map-Reduce任务进行运行，十分适合数据仓库的统计分析。其架构如下图所示，Hadoop和Map-Reduce是Hive架构的根基。Hive架构包括如下组件：CLI（Command Line Interface）、JDBC/ODBC、Thrift Server、Meta Store和Driver(Complier、Optimizer和Executor)

早期发布的Hive 使用MapReduce 运行查询。复杂查询需要多次传递数据，这会降低性能。所以Hive 不适合交互式分析。由Hortonworks 领导的Stinger 明显的提高了Hive 的性能，尤其是通过使用Apache Tez，一个精简MapReduce 代码的应用框架。Tez 和ORCfile，一种新的存储格式，对Hive 的查询产生了明显的提速。

Cloudera 实验室带领一个并行项目重新设计Hive 的后端，使其运行在Apache Spark 上。经过长期测试后，Cloudera 在2016年初发布了Hive-on-Spark 的正式版本。

在2016年，Hive 有100多人的贡献者。该团队在2月份发布了Hive 2.0，并在6月份发布了Hive 2.1。Hive 2.0 的改进包括了对Hive-on-Spark 的多个改进，以及性能、可用性、可支持性和稳定性增强。Hive 2.1 包括了Hive LLAP（”Live Long and Process“），它结合持久化的查询服务器和优化后的内存缓存，来实现高性能。该团队声称提高了25倍。

9月，Hivemall 项目进入了Apache 孵化器，正如我在我的机器学习年度总结的第二部分中指出的。Hivemall 最初由Treasure Data 开发并捐献给Apache 软件基金会，它是一个可扩展的机器学习库，通过一系列的Hive UDF 来实现，设计用于在Hive、Pig 和Spark SQL 上运行MapReduce。该团队计划在2017年第一季度发布了第一个版本。

Apache Impala

2012年，Cloudera 推出了Impala，一个开源的MPP SQL 引擎，作为Hive 的高性能替代品。Impala 使用HDFS 和HBase，并利用了Hive 元数据。但是，它绕开了使用MapReduce 运行查询。

Impala可以看成是Google Dremel架构和MPP (Massively Parallel Processing)结构的结合体。Impala没有再使用缓慢的Hive&Map-Reduce批处理，而是通过使用与商用并行关系数据库中类似的分布式查询引擎（由Query Planner、Query Coordinator和Query Exec Engine三部分组成），可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据，从而大大降低了延迟，其架构如下图所示

Impala主要由Impalad，State Store和CLI组成。

Impalad与DataNode运行在同一节点上，由Impalad进程表示，它接收客户端的查询请求（接收查询请求的Impalad为Coordinator，Coordinator通过JNI调用java前端解释SQL查询语句，生成查询计划树，再通过调度器把执行计划分发给具有相应数据的其它Impalad进行执行），读写数据，并行执行查询，并把结果通过网络流式的传送回给Coordinator，由Coordinator返回给客户端。同时Impalad也与State Store保持连接，用于确定哪个Impalad是健康和可以接受新的工作。Impala State Store跟踪集群中的Impalad的健康状态及位置信息，由state-stored进程表示，它通过创建多个线程来处理Impalad的注册订阅和与各Impalad保持心跳连接，各Impalad都会缓存一份State Store中的信息，当State Store离线后，因为Impalad有State Store的缓存仍然可以工作，但会因为有些Impalad失效了，而已缓存数据无法更新，导致把执行计划分配给了失效的Impalad，导致查询失败。CLI提供给用户查询使用的命令行工具，同时Impala还提供了Hue，JDBC，ODBC，Thrift使用接口

Cloudera 的首席战略官Mike Olson 在2013年底说到Hive 的架构是有根本缺陷的。在他看来，开发者只能用一种全新的方式来实现高性能SQL，例如Impala。2014年的1月、5月和9月，Cloudera 发布了一系列的基准测试。在这些测试中，Impala 展示了其在查询运行的逐步改进，并且显著优于基于Tez 的Hive、Spark SQL 和Presto。除了运行快速，Impala 在并发行、吞吐量和可扩展性上也表现优秀。

2015年，Cloudera 将Impala 捐献给Apache 软件基金会，进入了Apache 孵化计划。Cloudera、MapR、Oracle 和Amazon Web Services 分发Impala，Cloudera、MapR 和Oracle 提供了商业构建和安装支持。

2016年，Impala 在Apache 孵化器中取得了稳步发展。该团队清理了代码，将其迁移到Apache 基础架构，并在10月份发布了第一个Apache 版本2.7.0。新版本包括了性能提升和可扩展性改进，以及一些其他小的增强。

9月，Cloudera 发布了一项研究结果，该研究比较了Impala 和Amazon Web Services 的Redshift 列存储数据库。报告读起来很有意思，虽然主题一贯的需要注意供应商的基准测试。

Spark SQL

Spark SQL 是Spark 用于结构化数据处理的组件。Apache Spark 团队在2014年发布了Spark SQL，并吸收了一个叫Shark 的早期的Hive-on-Spark 项目。它迅速成为最广泛使用的Spark 模块。

Spark SQL 用户可以运行SQL 查询，从Hive 中读取数据，或者使用它来创建Spark Dataset和DataFrame（Dataset 是分布式的数据集合，DataFrame 是统一命名的Dataset 列）。

Spark SQL 的接口向Spark 提供了数据结构和执行操作的信息，Spark 的Catalyst 优化器使用这些信息来构造一个高效的查询。早期shark架构如下：

2015年，Spark 的机器学习开发人员引入了ML API，一个利用Spark DataFrame 代替低级别Spark RDD API 的包。这种方法被证明是有吸引力和富有成果的；

2016年，随着2.0 的发布，Spark 团队将基于RDD 的API改为维护模式。DataFrame API现在是Spark 机器学习的主要接口。

此外，在2016年，该团队还在Spark 2.1.0的Alpha 版本中发布了结构化的流式处理。结构化的流式处理是构建在Spark SQL 上的一个流处理引擎。用户可以像对待静态源一样，用同样的方式查询流式数据源，并且可以在单个查询中组合流式和静态源。Spark SQL 持续运行查询，并且在流式数据到达的时候更新结果。结构化的流通过检查点和预写日志来提供一次性的容错保障。

Apache Drill

2012年，由Hadoop 分销商的领导者之一MapR 领导的一个团队，提出构建一个Google Dremel 的开源版本，一个交互式的分布式热点分析系统。他们将其命名为Apache Drill。Drill 在Apache 孵化器中被冷落了两年多，最终在2014年底毕业。该团队在2015年发布了1.0。

MapR 分发和支持Apache Drill。

2016年，超过50个人对Drill 做出了贡献。该团队在2016年发布了5个小版本，关键的增强功能包括：

- Web 认证
- 支持Apache Kudu 列数据库
- 支持HBase 1.x
- 动态UDF 支持

2015年，两位关键的Drill 贡献者离开了MapR，并启动了Dremio，该项目尚未发布。

Apache HAWQ

Pivotal 软件在2012年推出了一款商业许可的高性能SQL 引擎HAWQ，并在尝试市场营销时取得了小小的成功。改变战略后，Pivotal 在2015年6月将项目捐献给了Apache，并于2015年9月进入了Apache 孵化器程序。

15个月之后，HAWQ 仍然待在孵化器中。2016年12月，该团队发布了HAWQ 2.0.0.0，加入了一些错误修复。我猜它会在2017年毕业。

对HAWQ 喜爱的一个小点是它支持Apache MADlib，一个同样在孵化器中的SQL 机器学习项目。HAWQ 和MADlib 的组合，应该是对购买了Greenplum 并且想知道发生了什么的人们的一个很好的安慰。

Presto

Facebook 工程师在2012年发起了Presto 项目，作为Hive 的一个快速交互的取代。在2013年推出时，成功的支持了超过1000个Facebook 用户和每天超过30000个PB级数据的查询。2013年Facebook 开源了Presto。

Presto 支持多种数据源的ANSI SQL 查询，包括Hive、Cassandra、关系型数据库和专有文件系统（例如Amazon Web Service 的S3）。Presto 的查询可以联合多个数据源。用户可以通过C、Java、Node.js、PHP、Python、R和Ruby 来提交查询。

Airpal 是Airbnb 开发的一个基于web 的查询工具，让用户可以通过浏览器来提交查询到Presto。Qubole 位Presto 提供了管理服务。AWS 在EMR 上提供Presto 服务，其简化的架构图如下：

客户端将SQL查询发送到Presto的协调器。协调器会进行语法检查、分析和规划查询计划。调度器将执行的管道组合在一起，将任务分配给那些里数据最近的节点，然后监控执行过程。客户端从输出段中将数据取出，这些数据是从更底层的处理段中依次取出的。Presto的运行模型与Hive有着本质的区别。Hive将查询翻译成多阶段的Map-Reduce任务，一个接着一个地运行。每一个任务从磁盘上读取输入数据并且将中间结果输出到磁盘上。然而Presto引擎没有使用Map-Reduce。它使用了一个定制的查询执行引擎和响应操作符来支持SQL的语法。除了改进的调度算法之外，所有的数据处理都是在内存中进行的。不同的处理端通过网络组成处理的流水线。这样会避免不必要的磁盘读写和额外的延迟。这种流水线式的执行模型会在同一时间运行多个数据处理段，一旦数据可用的时候就会将数据从一个处理段传入到下一个处理段。这样的方式会大大的减少各种查询的端到端响应时间。同时，Presto设计了一个简单的数据存储抽象层，来满足在不同数据存储系统之上都可以使用SQL进行查询。存储连接器目前支持除Hive/HDFS外，还支持HBase、Scribe和定制开发的系统。

2015年6月，Teradata 宣布计划开发和支持该项目。根据宣布的三阶段计划，Teredata 提出将Presto 集成导Hadoop 生态系统中，能够在YARN 中进行操作，并且通过ODBC 和JDBC 增强连接性。Teredata 提供了自己的Presto 发行版，附带一份数据表。2016年6月，Teradata 宣布了Information Builders、Looker、Qlik、Tableau 和ZoomData 的鉴定结果，以及正在进行中的MicroStrategy 和Microsoft Power BI。

Presto 是一个非常活跃的项目，有一个巨大的和充满活力的贡献者社区。该团队发布的速度比Miki Sudo 吃热狗的速度还要快–我统计了下，2016年共发布了42个版本。Teradata 并没有打算总结有什么新的东西，我也不打算在42个发行说明里去筛选，所以就让我们说它更好吧。

其他Apache 项目:这里还有5个其他的Apache 生态系统的SQL 混合项目。

Stinger

Stinger是Hortonworks开源的一个实时类SQL即时查询系统，声称可以提升较Hive 100倍的速度。与Hive不同的是，Stinger采用Tez。所以，Hive是SQL on Map-Reduce，而Stinger是Hive on Tez。Tez的一个重要作用是优化Hive和PIG这种典型的DAG应用场景，它通过减少数据读写IO，优化DAG流程使得Hive速度提供了很多倍。其架构如下图所示，

Stinger是在Hive的现有基础上加了一个优化层Tez（此框架是基于Yarn），所有的查询和统计都要经过它的优化层来处理，以减少不必要的工作以及资源开销。虽然Stinger也对Hive进行了较多的优化与加强，Stinger总体性能还是依赖其子系统Tez的表现。而Tez是Hortonworks开源的一个DAG计算框架，Tez可以理解为Google Pregel的开源实现，该框架可以像Map-Reduce一样，用来设计DAG应用程序，但需要注意的是，Tez只能运行在YARN上。

Apache Calcite

Apache Calcite 是一个开源的数据库构建框架。它包括：

SQL 解析器、验证器和JDBC 驱动
查询优化工具，包括关系代数API，基于规则的计划器和基于成本的查询优化器

Apache Hive 使用Calcite 进行基于成本的查询优化，而Apache Drill 和Apache Kylin 使用SQL 解析器。Calcite 团队在2016年推出了5个版本包括bug 修复和用于Cassandra、Druid 和Elasticsearch 的新适配器。

Apache Kylin

Apache Kylin 是一个具有SQL 接口的OLAP 引擎。由eBay 开发并捐献给Apache，Kylin 在2015年毕业成为顶级项目。

2016年成立的创业公司Kyligence 提供商业支持和一个叫做KAP 的数据仓库产品，虽然在Crunchbase 上没有列出它的资金情况，有消息来源称它有一个强大的背景，并且在上海有个大办公室。

Apache Phoenix

Apache Phoenix 是一个运行在HBase 上的SQL 框架，绕过了MapReduce。

Salesforce 开发了该软件并在2013年捐献给了Apache。2014年5月项目毕业成为顶级项目。Hortonworks 的Hortonworks 数据平台中包含该项目。自从领先的SQL 引擎都适配HBase 之后，我不清楚为什么我们还需要Phoenix。

Apache Tajo

Apache Tajo 是Gruter 在2011年推出的一个快速SQL 数据仓库框架，一个大数据基础设施公司，并在2013年捐献给Apache。

2014年Tajo 毕业成为顶级项目。在作为Gruter 主要市场的韩国之外，该项目很少吸引到预期用户和贡献者的兴趣。除了Gartner 的Nick Heudecker 曾提过，该项目不在任何人的工作台上。

Apache Trafodion

Apache Trafodion 是另一个SQL-on-HBase 项目，由HP 实验室构思，它告诉你几乎所有你需要知道的。2014年6月HP 发布Trafodion，一个月之后，Apache Phoenix 毕业投产。6个月之后，HP 的高管们认为相对于另一款SQL-on-HBase 引擎，它的商业潜力有限，所以他们将项目捐献给了Apache，项目于2015年5月进入孵化器。

如果孵化结束，Trafodion 承诺成为一个事务数据库。不幸的是，这个领域有大量的选择，而开发团队唯一的竞争优势似乎是“它是开源的，所以它很便宜”。

TDengine 3.3.5.0 新功能 —— 查看库文件占用空间、压缩率 TDengine （老段） TDengine 产品设计数据库时序数据库物联网 tdengine 涛思数据 iot
1.背景TDengine之前版本一直没有通过SQL命令查看数据库占用的磁盘空间大小，从3.3.5.0开始，增加了这个方便且实用的小功能，这里详细介绍下。2.SQL基本语法selectexprfrominformation_schema.ins_disk_usage[wherecondtion]行为说明：查看各个vgroup的各个组件磁盘占用情况，并且可以通过查询语句计算压缩率等。示例：taos>s
TDengine 技术参数配置大全 TDengine （老段） TDengine 产品设计 tdengine 涛思数据大数据数据库物联网时序数据库
1.背景TDengine的taos.cfg中配置项及使用SQL命令alter修改的系统变量之间的关系如何，哪些是持久存储项，哪些设置是临时项，这章将详细说明。本文是技术参考资料，请收藏。2.定义1.全局配置参数全局配置参数：作用于集群内所有dnode且在集群内必须保持一致的变量，也称为全局变量、系统变量或全局参数。例如:timezone/charset/countAlwaysReturnValue
【Python常用模块】_Pandas模块3-DataFrame对象失心疯_2023 Python常用模块数据分析 pandas 数据挖掘 python 数据统计数据处理
课程推荐我的个人主页：失心疯的个人主页入门教程推荐：Python零基础入门教程合集虚拟环境搭建：Python项目虚拟环境(超详细讲解)PyQt5系列教程：PythonGUI(PyQt5)教程合集Oracle数据库教程：Oracle数据库教程合集MySQL数据库教程：MySQL数据库教程合集优质资源下载：资源下载合集
使用 C 语言操作 MySQL 实现图片写入与读取（Charon） mysql 数据库
在实际项目中，常常需要将图片或文件以二进制方式存储至数据库中，并能正确读取还原为文件。本文以C语言配合MySQLCAPI为例，完整演示如何实现将一张JPG图片写入数据库并再读出生成新图片文件的过程。项目背景我们使用如下表结构：--创建用户信息表CREATETABLETBL_USER(U_IDINTPRIMARYKEYAUTO_INCREMENT,--用户编号，整型，主键，自动递增，系统自动分配唯一
Cursor MySQL MCP 完整操作配置指南 z日火开发分享 mcp cursor mysql
概述本指南帮助您在Windows环境下配置Cursor编辑器的MySQLMCP服务器，实现通过AI助手对数据库进行完整的增删改查操作。功能特性：✅自然语言数据库查询✅智能数据插入和更新✅安全的数据删除操作✅自动数据分析和报告生成快速配置1.环境检查#检查必要组件node--version#Node.js>=16mysql--version#MySQL5.7+cursor--version#Curs
mybatis批量插入数据时，如果是sql server库只返回一条自增主键小小不吃香菜 mybatis sqlserver java
有个功能需要做个批量插入，表是自增主键，本来是很简单的事情，结果一测试发现一个神奇的事情，由于数据库是sqlserver的，插入一条时，id可以正常返回，多条时，就出现了标题的问题，只返回一个id，使用的是mybatis自带的jar包，甚至如何使用人家还加了备注在里面，很清晰，是这样的:然后我就按照上面描述的，自己加了一个自定义的Mapper，把主键名称改成我自己的，然后发现依然只能获取到一条，后
10招提升SQL性能的实战技巧快乐才是自己的 sql mysql sql mysql oracle database hadoop 大数据
SQL语句常见性能优化方案在数据库应用中，SQL性能优化是核心技术要点。以下是经过验证的优化策略，按关键维度分类：一、索引优化精准索引覆盖对高频查询的WHERE、JOIN、ORDERBY字段建立索引复合索引遵循最左前缀原则：索引(a,b,c)仅支持WHEREa=?或WHEREa=?ANDb=?示例：将SELECT*FROMordersWHEREstatus='shipped'改为CREATEIND
java毕业设计房产中介系统mybatis+源码+调试部署+系统+数据库+lw 兮兮科技 java mybatis 开发语言
java毕业设计房产中介系统mybatis+源码+调试部署+系统+数据库+lwjava毕业设计房产中介系统mybatis+源码+调试部署+系统+数据库+lw本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、JDK1.8数据库：MySQL5.7/8.0源码地址
MongoDB框架零基础入门码农研究僧 Python 100天精通全栈 mongodb nosql 数据库
目录前言1.安装配置2.关启配置3.基本概念4.基本操作4.1创建集合4.2删除集合4.3插入文档4.4更新文档4.5删除文档4.6查询文档前言先科普讲解一下NoSQL（notonlysql）本身NoSQL非关系型数据库就具备了ACID（原子性、一致性、持久性、隔离性）数据持久化一般还是要使用关系型数据库，内存的数据库使用检索MongoDB是C++编写，一个基于分布式文件存储的开源数据库系统。将其
量化交易编程-持仓天数,SQL学习-ACCESS子查询的技巧专注VB编程开发20年 sql 学习 java ACCESS 数据库
在股票投资中，停牌期间通常不算交易日3。同花顺手机APP中的收益分析持仓天数一般是按照交易日来计算的。具体而言，它会从买入股票的日期开始，到卖出股票的日期为止，只统计证券交易所正常开放交易的日子，周末和法定节假日以及股票停牌日都不会计算在内3。例如，若你持有某股票2年，其中停牌2年，实际交易日只有20天，那么同花顺计算的持仓天数就是20天，而不会算出几百个交易日。其实持仓天数关我屁事是吧?我只考虑
PostgreSQL（十七）Autovacuum工具忧愁的锅盖儿 PG从入门到放弃 postgresql 数据库
目录一、简述Autovacuum1、什么是Autovacuum2、记录Autovacuum操作的设定二、Autovacuum的操作内容&时间1、Autovacuum的操作内容2、Autovacuum的操作时间三、调整Autovacuum1、Autovacuum相关参数：2、调整表Autovacuumsetting的设置三、autovacuum_max_workers1、概述2、Autovacuum
PostgreSQL 容器化分布式技术方案 TechVision大咖圈 postgresql 分布式数据库分布式数据库
目录引言：为什么选择容器化PostgreSQLPostgreSQL容器化基础分布式架构设计高可用实现方案读写分离架构动态扩缩容策略生产环境实践总结与展望引言：为什么选择容器化PostgreSQL在数字化转型的浪潮中，数据库作为企业的"心脏"，其稳定性和扩展性直接影响着业务的成败。PostgreSQL作为世界上最先进的开源关系型数据库，配合容器化技术，就像是给数据库插上了翅膀——既保持了数据的可靠性
2.jdbc之工具类，SQL注入攻击和JDBC事务 hutc_Alan sql java 数据库
4.JDBC工具类抽取工具类1）编写配置文件在src目录下创建config.properties配置文件driverClass=com.mysql.cj.jdbc.Driverurl=jdbc:mysql://192.168.1.224:3306/db14username=rootpassword=1234562）编写jdbc工具类utils文件下（JDBCUtils.java）packagejd
mysql之jdbc连接数据库和sql注入的问题
一，概述可能是自己的记忆力太差了，经常忘记一些很重要的知识点，记得个大概，等要用的时候就去找，结果还找不到。干脆，记博客里，怎么都找的到。这篇博客主要就是关于Jdbc(javadatabaseconnectivity)和MySql的，记录如何连接数据库及插入数据等等。二，工具及准备工作MyEclipse10,mysql驱动jar包（我用的是这个版本mysql-connector-java-5.0.
JDBC工具类小布不吃竹数据库 java
目录引言一、JDBC连接数据库步骤1.加载驱动2.获取连接（URL用户名密码）3.编写sql4.获取执行sql的stmt的对象5.执行sql拿到结果集6.遍历结果集7.关闭资源（先开的后关后开的先关）二、JDBC工具类版本一：基础JDBC工具类(JdbcUtils)版本二：配置化JDBC工具类(JdbcUtils2)版本三：连接池JDBC工具类(JdbcUtils3)测试总结引言JDBC(Java
Mysql中是text,jdbcType对应类型及jdbcType与javaType对应关系天宇_任 mybatis java
如果Mysql中是text,则jdbcType对应LONGVARCHAR,javatype对应String
MySQL索引分类有哪些？ java1234_小锋 mysql mysql
大家好，我是锋哥。今天分享关于【MySQL索引分类有哪些？】面试题。希望对大家有帮助；MySQL索引分类有哪些？超硬核AI学习资料，现在永久免费了！MySQL中的索引可以根据不同的分类标准分为以下几种类型：1.根据存储方式分类聚集索引（ClusteredIndex）：表中的数据行会按照索引顺序存储，即数据的物理顺序和索引顺序一致。每个表最多只能有一个聚集索引。在InnoDB存储引擎中，主键就是聚集
MySQL的行级锁锁的到底是什么? java1234_小锋 mysql mysql
大家好，我是锋哥。今天分享关于【MySQL的行级锁锁的到底是什么?】面试题。希望对大家有帮助；MySQL的行级锁锁的到底是什么?超硬核AI学习资料，现在永久免费了！MySQL的行级锁是指在数据库中对单个数据行进行加锁的锁定机制，它是一种较为精细的锁定方式。它锁定的是表中的某一行数据，而不是整个表或页面。行级锁能够在多并发操作下提高性能，减少锁的竞争。行级锁主要包括以下几种情况：共享锁(S锁)：也叫
MySQL 开发规范和使用约束小凯 ོ mysql android 数据库
作者：小凯沉淀、分享、成长，让自己和他人都能有所收获！本文的宗旨在于通过简单干净实践的方式教会读者，如何更好地使用MySQL数据库。这包括；库表创建规范、字段的创建规范、索引的创建规范以及SQL使用的相关规范，通过这些内容的讲解，让读者更好使用MySQL数据库，创建出符合规范的表和字段以及建出合适的索引。如果你还想学习更深入的MySQL知识，建议可以阅读下官网的参考手册，这比任何一个资料都要有权威
Go语言数据库编程：GORM 的基本使用程序员爱钓鱼 golang 数据库开发语言
GORM是Go语言最流行的ORM框架，封装了database/sql，支持自动迁移、关联关系、事务等功能，开发体验接近于高层语言的ORM。一、安装与初始化1.安装GORM及数据库驱动go get -u gorm.io/gormgo get -u gorm.io/driver/mysql# PostgreSQL 用户：# go get -u gorm.io/driver/postgres2.建立数据
数据库技术演进史：从穿孔卡片到云原生小李独爱秋计算机那些事儿~数据库云原生 mysql
一、数据库的定义与核心地位数据库（Database）是“长期存储在计算机内、有组织的、可共享的统一管理数据集合”，与芯片、操作系统并称IT系统三大核心。其核心价值在于：结构化存储：通过数据模型组织信息，解决文件系统冗余问题；高效访问：支持并发查询与事务处理；安全共享：权限控制保障数据安全。分类维度全景图：分类维度类型代表产品数据模型关系型(SQL)MySQL,Oracle,PostgreSQL非关
Spring Boot 中@Value注解：看似便捷，实则暗藏玄机？爆炸糖果 spring boot 后端 java
一、引言在SpringBoot的开发旅程中，我们常常会与各种配置文件打交道，而@Value注解就像是一位贴心的小助手，为我们从配置文件中获取值提供了极大的便利。假设我们正在开发一个简单的用户管理系统，在application.yml文件中配置了数据库连接信息：spring:datasource:url:jdbc:mysql://localhost:3306/user_dbusername:root
【代码审计】通过类型转换绕过校验，实现任意账户密码重置秋说网络安全代码审计
未经许可，不得转载。文章目录背景漏洞描述风险分析1.code字段默认值为02.empty(0)判断失效3.利用MySQL类型转换绕过empty限制复现验证修复建议背景在Web系统开发中，密码找回功能往往涉及用户邮箱与随机验证码的匹配校验。如果验证逻辑存在疏漏，可能会引发严重的安全问题，如任意账户密码重置等高危漏洞。本文将分析一个典型的逻辑漏洞案例，并结合MySQL的类型转换行为深入探讨其产生原因。
聊聊 SQL 注入那些事儿白露与泡影 sql 数据库
相信大家对于学校们糟糕的网络环境和运维手段都早有体会，在此就不多做吐槽了。今天我们来聊一聊SQL注入相关的内容。何谓SQL注入？SQL注入是一种非常常见的数据库攻击手段，SQL注入漏洞也是网络世界中最普遍的漏洞之一。大家也许都听过某某学长通过攻击学校数据库修改自己成绩的事情，这些学长们一般用的就是SQL注入方法。SQL注入其实就是恶意用户通过在表单中填写包含SQL关键字的数据来使数据库执行非常规代
[特殊字符] 解释器模式：自定义语言的解析专家，让复杂语法变简单！真实的菜 java 解释器模式 python 开发语言
解释器模式：自定义语言的解析专家，让复杂语法变简单！文章目录解释器模式：自定义语言的解析专家，让复杂语法变简单！一、为什么需要解释器模式️二、解释器模式的结构2.1UML类图2.2代码实现三、解释器模式的实际应用3.1正则表达式引擎：解释器模式的典型应用3.2SQL解析器：解释器模式的实际应用四、解释器模式在Java标准库中的应用4.1Java的正则表达式4.2Java的格式化4.3Java的表达
数据与ChatBI
ChatBI的核心是让用户用自然语言（如“帮我看看这周的销售额走势”）直接获取数据分析结果，无需懂SQL或技术细节。整个过程就像AI“听懂”你的话、理解需求、生成查询、验证执行、并可视化展示结果。首先，ChatBI的系统架构图展示了整个流程的关键步骤。它从用户输入开始，经过多个AI模块处理，最终输出交互式报表。现在来一步步解析ChatBI的工作流程。1.语音/文字输入——解放双手的起点这是什么？一
【StarRocks系列】事务漫步者TZ StarRocks 数据库 StarRocks 事务
目录SQL事务StreamLoad事务接口一、接口原理二、使用流程三、关键注意事项四、接口优势回滚是全局性的参考文档SQL事务从v3.5.0开始，StarRocks支持SQL事务，用于在将数据导入到多个表时，确保更新操作的原子性。目前，StarRocks的SQL事务仅支持INSERT和SELECT语句。update语句不支持事务SQL事务|StarRocksStreamLoad事务接口为了支持和A
人大金仓数据库GROUP BY问题全面解析与解决方案小猿、数据库相关技术栈 java 工作常见问题数据库
一、问题现象在人大金仓(Kingbase)数据库中使用GROUPBY时，常遇到以下错误：ERROR:column"xxx"mustappearintheGROUPBYclauseorbeusedinanaggregatefunctionPosition:XX二、问题根源人大金仓基于PostgreSQL，严格执行SQL标准，要求：SELECT列表中的非聚合列必须全部包含在GROUPBY子句中或者这些
MySQL：索引失效场景及解决方案
目录一、前言二、索引失效场景及解决方案1.在索引列上使用函数或表达式2.使用类型隐式转换3.使用不等于或不包含操作符4.使用OR操作符连接不同的索引列5.使用LIKE操作符且以通配符开头6.对索引列进行运算7.查询条件中的字段顺序与复合索引的顺序不一致8.在WHERE子句中使用ISNULL或ISNOTNULL9.查询的数据占表中数据的比例较大10.索引字段的数据重复度过高11.使用不等值范围查询1
彻底弄懂MySQL的优化小胖子——鑫 mysql 数据库
一、背景在我们的工作中，我们与数据库打交道的频率非常大，尤其是业务系统，MySQL数据库的应用时刻相关，所以如果更好的利用好我们的MySQL数据库，它直接影响系统的响应速度、可扩展性和整体性能。在企业级Web开发中，MySQL优化是至关重要的。下面从不同角度，列出详细的MySQL优化技巧，涵盖查询优化、索引设计、表结构设计、配置调整等方面，以及穿插一些案例分享二、查询SQL语句方面的优化1.合理使
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite

主流开源SQL（on Hadoop）总结

你可能感兴趣的:(sql,on,hadoop)