盘点SQL on Hadoop中用到的主要技术

自hive出现之后，经过几年的发展，SQL on Hadoop相关的系统已经百花齐放，速度越来越快，功能也越来越齐全。本文并不是要去比较所谓“交互式查询哪家强”，而是试图梳理出一个统一的视角，来看看各家系统有哪些技术上相通之处。

考虑到系统使用的广泛程度与成熟度，在具体举例时一般会拿Hive和Impala为例，当然在调研的过程中也会涉及到一些其他系统，如Spark SQL，Presto，TAJO等。而对于hawq这样的商业产品和apache drill这样成熟度还不是很高的开源方案就不做过多了解了。

系统架构

runtime framework v.s. mpp

在SQL on Hadoop系统中，有两种架构，一种是基于某个运行时框架来构建查询引擎，典型案例是Hive；另一种是仿照过去关系数据库的MPP架构。前者现有运行时框架，然后套上sql层，后者则是从头打造一个一体化的查询引擎。有时我们能听到一种声音，说后者的架构优于前者，至少在性能上。那么是否果真如此？

一般来说，对于SQL on Hadoop系统很重要的一个评价指标就是：快。后面提到的所有内容也大多是为了查询速度更快。在Hive逐渐普及之后，就逐渐有了所谓交互式查询的需求，因为无论是BI系统，还是adhoc，都不能按照离线那种节奏玩。这时候无论是有实力的大公司（比如Facebook），还是专业的供应商（比如Cloudera），都试图去解决这个问题。短期可以靠商业方案或者关系数据库去支撑一下，但是长远的解决方案就是参考过去的MPP数据库架构打造一个专门的系统，于是就有了Impala，Presto等等。从任务执行的角度说，这类引擎的任务执行其实跟DAG模型是类似的，当时也有Spark这个DAG模型的计算框架了，但这终究是别人家的孩子，而且往Spark上套sql又是Hive的那种玩法了。于是在Impala问世之后就强调自己“计算全部在内存中完成”，性能也是各种碾压当时还只有MR作为计算模型的Hive。那么Hive所代表的“基于已有的计算模型”方式是否真的不行？

不可否认，按照这种方式去比较，那么类MPP模式确实有很多优势：

DAG v.s. MR：最主要的优势，中间结果不写磁盘（除非内存不够），一气呵成。
流水线计算：上游stage一出结果马上推送或者拉到下一个stage处理，比如多表join时前两个表有结果直接给第三个表，不像MR要等两个表完全join完再给第三个表join。
高效的IO：本地查询没有多余的消耗，充分利用磁盘。这个后面细说。
线程级别的并发：相比之下MR每个task要启动JVM，本身就有很大延迟，占用资源也多。

当然MPP模式也有其劣势，一个是扩展性不是很高，这在关系数据库时代就已经有过结论；另一个是容错性差，对于Impala来说一旦运行过程中出点问题，整个查询就挂了。

但是，经过不断的发展，Hive也能跑在DAG框架上了，不仅有Tez，还有Spark。上面提到的一些劣势，其实大都也可以在计算模型中解决，只不过考虑到计算模型的通用性和本身的设计目标，不会去专门满足（所以如果从这个角度分类，Impala属于“专用系统”，Spark则属于“通用系统”）。在最近Cloudera做的 benchmark中，虽然Impala仍然一路领先，但是基于Spark的Spark SQL完全不逊色于Presto，基于Tez的Hive也不算很差，至少在多用户并发模式下能超过Presto，足见MPP模式并不是绝对占上风的。所以这种架构上的区别在我看来并不是制胜的关键，至少不是唯一的因素，真正要做到快速查询，各个方面的细节都要有所把握。后面说的都是这些细节。

核心组件

不管是上面提到的那种架构，一个SQL on Hadoop系统一般都会有一些通用的核心组件，这些组件根据设计者的考虑放在不同的节点角色中，在物理上节点都按照master/worker的方式去做，如果master压力太大，一些本来适合放在master上的组件可以放到一个辅助master上。

UI层负责提供用户输入查询的接口。一般有Web/GUI，命令行，编程方式3类。
QL层负责把用户提交的查询解析成可以运行的执行计划（比如MR Job）。这部分在后面会专门提到。
执行层就是运行具体的Job。一般会有一个master负责query的运行管理，比如申请资源，观察进度等等，同时master也负责最终聚合局部结果到全局结果。而每个节点上会有相应的worker做本地计算。
IO层提供与存储层交互的接口。对于HDFS来说，需要根据I/O Format把文件转换成K/V，Serde再完成K/V到数据行的映射。对于非HDFS存储来说就需要一些专门的handler/connector。
存储层一般是HDFS，但也有可以查询NoSQL，或者关系数据库的。
系统另外还需要一个元数据管理服务，管理表结构等。

执行计划

编译流程

从SQL到执行计划，大致分为5步。

第一步将SQL转换成抽象语法树AST。这一步一般都有第三方工具库可以完成，比如antlr。
第二步对AST进行语义分析，比如表是否存在，字段是否存在，SQL语义是否有误（比如select中被判定为聚合的字段在group by中有没有出现）。
第三步生成逻辑执行计划,这是一个由逻辑操作符组成的DAG。比如对于Hive来说扫表会产生TableScanOperator，聚合会产生GroupByOperator。对于类MPP系统来说，情况稍微有点不同。逻辑操作符的种类还是差不多，但是会先生成单机版本，然后生成多机版本。多机版本主要是把aggregate，join，还有top n这几个操作并行化，比如aggregate会分成类似MR那样的本地aggregate，shuffle和全局aggregate三步。
第四步做逻辑执行计划做优化，这步在下面单独介绍。
第五步把逻辑执行计划转换成可以在机器上运行的物理计划。对于Hive来说，就是MR/Tez Job等；对于Impala来说，就是plan fragment。其他类MPP系统也是类似的概念。物理计划中的一个计算单元（或者说Job），有“输入，处理，输出”三要素组成，而逻辑执行计划中的operator相对粒度更细，一个逻辑操作符一般处于这三要素之一的角色。

下面分别举两个例子，直观的认识下sql、逻辑计划、物理计划之间的关系，具体解释各个operator的话会比较细碎，就不展开了。

Hive on MR

select count(1) from status_updates where ds = '2009-08-01'

Presto

引用自美团技术团队，其中SubPlan就是物理计划的一个计算单元

select c1.rank, count(*)      
from dim.city c1 join dim.city c2 on c1.id = c2.id      
where c1.id > 10 group by c1.rank limit 10;

优化器

关于执行计划的优化，虽然不一定是整个编译流程中最难的部分，但却是最有看点的部分，而且目前还在不断发展中。Spark系之所以放弃Shark另起炉灶做Spark SQL，很大一部分原因是想自己做优化策略，避免受Hive的限制，为此还专门独立出优化器组件Catalyst（当然Spark SQL目前还是非常新，其未来发展给人不少想象空间）。总之这部分工作可以不断的创新，优化器越智能，越傻瓜化，用户就越能解放出来解决业务问题。

早期在Hive中只有一些简单的规则优化，比如谓词下推（把过滤条件尽可能的放在table scan之后就完成），操作合并（连续的filter用and合并成一个operator，连续的projection也可以合并）。后来逐渐增加了一些略复杂的规则，比如相同key的join + group by合并为1个MR，还有star schema join。在Hive 0.12引入的相关性优化（correlation optimizer）算是规则优化的一个高峰，他能够减少数据的重复扫描，具体来说，如果查询的两个部分用到了相同的数据，并且各自做group by / join的时候用到了相同的key，这个时候由于数据源和shuffle的key是一样的，所以可以把原来需要两个job分别处理的地方合成一个job处理。
比如下面这个sql：

SELECT      
	sum(l_extendedprice) / 7.0 as avg_yearly      
FROM      
	 (SELECT l_partkey, l_quantity, l_extendedprice      
      FROM lineitem JOIN part ON (p_partkey=l_partkey)      
      WHERE p_brand='Brand#35' AND p_container = 'MED PKG')touter      
JOIN      
     (SELECT l_partkey as lp, 0.2 * avg(l_quantity) as lq      
      FROM lineitem GROUP BY l_partkey) tinner      
ON (touter.l_partkey = tinnter.lp)      
WHERE touter.l_quantity < tinner.lq

这个查询中两次出现lineitem表，group by和两处join用的都是l_partkey，所以本来两个子查询和一个join用到三个job，现在只需要用到一个job就可以完成。

但是，基于规则的优化（RBO）不能解决所有问题。在关系数据库中早有另一种优化方式，也就是基于代价的优化CBO。CBO通过收集表的数据信息（比如字段的基数，数据分布直方图等等）来对一些问题作出解答，其中最主要的问题就是确定多表join的顺序。CBO通过搜索join顺序的所有解空间（表太多的情况下可以用有限深度的贪婪算法），并且算出对应的代价，可以找到最好的顺序。这些都已经在关系数据库中得到了实践。

目前Hive已经启动专门的项目，也就是Apache Optiq来做这个事情，而其他系统也没有做的很好的CBO，所以这块内容还有很大的进步空间。

执行效率

即使有了高效的执行计划，如果在运行过程本身效率较低，那么再好的执行计划也会大打折扣。这里主要关注CPU和IO方面的执行效率。

CPU

在具体的计算执行过程中，低效的cpu会导致系统的瓶颈落在CPU上，导致IO无法充分利用。在一项针对Impala和Hive的对比时发现，Hive在某些简单查询上（TPC-H Query 1）也比Impala慢主要是因为Hive运行时完全处于CPU bound的状态中，磁盘IO只有20%，而Impala的IO至少在85%。

在SQL on Hadoop中出现CPU bound的主要原因有以下几种：

大量虚函数调用：这个问题在多处出现，比如对于 a + 2 * b之类的表达式计算，解释器会构造一个expression tree，解释的过程就是递归调用子节点做evaluation的过程。又比如以DAG形式的operator/task在执行的过程中，上游节点会层层调用下游节点来获取产生的数据。这些都会产生大量的调用。
类型装箱：由于表达式解释器需要对不同数据类型的变量做解释，所以在Java中需要把这些本来是primitive的变量包装成Object，累积起来也消耗不少资源。这算是上面一个问题附带出来的。
branch instruction：现在的CPU都是有并行流水线的，但是如果出现条件判断会导致无法并行。这种情况可能出现在判断数据的类型（是string还是int），或者在判断某一列是否因为其他字段的过滤条件导致本行不需要被读取（列存储情况下）。
cache miss：每次处理一行数据的方式导致cpu cache命中率不高。（这么说已经暗示了解决方案）

针对上面的问题，目前大多数系统中已经加入了以下两个解决办法中至少一个。

一个方法是动态代码生成，也就是不使用解释性的统一代码。比如 a + 2 * b这个表达式就会生成对应的执行语言的代码，而且可以直接用primitive type，而不是用固定的解释性代码。具体实现来说，JVM系的如Spark SQL，Presto可以用反射，C++系的Impala则使用了llvm生成中间码。对于判断数据类型造成的分支判断，动态代码的效果可以消除这些类型判断，还可以展开循环，可以对比下面这段代码，左边是解释性代码，右边是动态生成代码。

另一个方法是vectorization（向量化），基本思路是放弃每次处理一行的模式，改用每次处理一小批数据（比如1k行），当然前提条件是使用列存储格式。这样一来，这一小批连续的数据可以放进cache里面，cpu不仅减少了branch instruction，甚至可以用SIMD加快处理速度。具体的实现参考下面的代码，对一个long型的字段增加一个常量。通过把数据表示成数组，过滤条件也用selVec装进数组，形成了很紧凑的循环：

add(int vecNum, long[] result, long[] col1, int[] col2, int[] selVec)      
{        
  if (selVec == null)        
     for (int i = 0; i < vecNum; i++)      
         result[i] = col1[i] + col2[i];     
  else      
     for (int i = 0; i < vecNum; i++)      
     {     
         int selIdx = selVec[i];     
         result[selIdx] = col1[selIdx] + col2[selIdx];     
     }     
}

IO

由于SQL on Hadoop存储数据都是在HDFS上，所以IO层的优化其实大多数都是HDFS的事情，各大查询引擎则提出需求去进行推动。要做到高效IO，一方面要低延迟，屏蔽不必要的消耗；另一方面要高吞吐，充分利用每一块磁盘。目前与这方面有关的特性有：

short-circuit local reads：当发现读取的数据是本地数据时，不走DataNode（因为要走一次socket连接），而是用DFS Client直接读本地的block replica。HDFS参数是 dfs.client.read.shortcircuit和 dfs.domain.socket.path。
zero copy：避免数据在内核buffer和用户buffer之间反复copy，在早期的HDFS中已经有这个默认实现。
disk-aware scheduling：通过知道每个block所在磁盘，可以在调度cpu资源时让不同的cpu读不同的磁盘，避免查询内和查询间的IO竞争。HDFS参数是 dfs.datanode.hdfs-blocks-metadata.enabled。

存储格式

对于分析类型的workload来说，最好的存储格式自然是列存储，这已经在关系数据库时代得到了证明。目前hadoop生态中有两大列存储格式，一个是由Hortonworks和Microsoft开发的ORCFile，另一个是由Cloudera和Twitter开发的Parquet。

ORCFile顾名思义，是在RCFile的基础之上改造的。RCFile虽然号称列存储，但是只是“按列存储”而已，将数据先划分成row group，然后row group内部按照列进行存储。这其中没有列存储的一些关键特性，而这些特性在以前的列式数据库中（比如我以前用过的 Infobright）早已用到。好在ORCFile已经弥补了这些特性，包括：

块过滤与块统计：每一列按照固定行数或大小进一步切分，对于切分出来的每一个数据单元，预先计算好这些单元的min/max/sum/count/null值，min/max用于在过滤数据的时候直接跳过数据单元，而所有这些统计值则可以在做聚合操作的时候直接采用，而不必解开这个数据单元做进一步的计算。
更高效的编码方式：RCFile中没有标注每一列的类型，事实上当知道数据类型时，可以采取特定的编码方式，本身就能很大程度上进行数据的压缩。常见的针对列存储的编码方式有RLE（大量重复数据），字典（字符串），位图（数字且基数不大），级差（排序过的数据，比如日志中用户访问时间）等等。

ORCFile的结构如下图，数据先按照默认256M分为row group，也叫strip。每个strip配一个index，存放每个数据单元（默认10000行）的min/max值用于过滤；数据按照上面提到的编码方式序列化成stream，然后再进行snappy或gz压缩。footer提供读取stream的位置信息，以及更多的统计值如sum/count等。尾部的file footer和post script提供全局信息，如每个strip的行数，各列数据类型，压缩参数等。

Parquet的设计原理跟ORC类似，不过它有两个特点：

通用性：相比ORCFile专门给Hive使用而言，Parquet不仅仅是给Impala使用，还可以给其他查询工具使用，如Hive、Pig，进一步还能对接avro/thrift/pb等序列化格式。
基于Dremel思想的嵌套格式存储：关系数据库设计模式中反对存储复杂格式（违反第一范式），但是现在的大数据计算不仅出现了这种需求（半结构化数据），也能够高效的实现存储和查询效率，在语法上也有相应的支持（各种UDF，Hive的lateral view等）。Google Dremel就在实现层面做出了范例，Parquet则完全仿照了Dremel。

对嵌套格式做列存储的难点在于，存储时需要标记某个数据对应于哪一个存储结构，或者说是哪条记录，所以需要用数据清楚的进行标记。在Dremel中提出用definition level和repetition level来进行标记。definition level指的是，这条记录在嵌套结构中所处于第几层，而repetition level指的是，这条记录相对上一条记录，在第几层重复。比如下图是一个二级嵌套数组。图中的e跟f在都属于第二层的重复记录（同一个level2），所以f的r值为2，而c跟d则是不同的level2，但属于同一个level1，所以d的r值为1。对于顶层而言（新的一个嵌套结构），r值就为0。

但是仅仅这样还不够。上图说明了r值的作用，但是还没有说明d值的作用，因为按照字面解释，d值对于每一个字段都是可以根据schema得到的，那为什么还要从行记录级别标记？这是因为记录中会插入一些null值，这些null值代表着他们“可以存在”但是因为是repeated或者是optional所以没有值的情况，null值是用来占位的（或者说是“想象”出来的），所以他们的值需要单独计算。null的d值就是说这个结构往上追溯到哪一层（不包括平级）就不是null（不是想象）了。在dremel paper中有完整的例子，例子中country的第一个null在code = en所在的结构里面，那么language不是null（不考虑code，他跟country平级），他就是第二层；又比如country的第二个null在url = http://B 所在的结构里面，那么name不是null（不考虑url，因为他跟本来就是null的language平级），所以就是第一层。

通过这种方式，就对一个树状的嵌套格式完成了存储。在读取的时候可以通过构造一个状态机进行遍历。

有意思的是，虽然parquet支持嵌套格式，但是Impala还没有来得及像Hive那样增加array，map，struct等复杂格式，当然这项功能已经被列入roadmap了，相信不久就会出现。

在最近我们做的Impala2.0测试中，顺便测试了存储格式的影响。parquet相比sequencefile在压缩比上达到1:5，查询性能也相差5-10倍，足见列存储一项就给查询引擎带来的提升。

资源控制

运行时资源调整

对于一个MR Job，reduce task的数量一直是需要人为估算的一个麻烦事，基于MR的Hive也只是根据数据源大小粗略的做估计，不考虑具体的Job逻辑。但是在之后的框架中考虑到了这个情况，增加了运行时调整资源分配的功能。Tez中引入了vertex manager，可以根据运行时收集到的数据智能的判断reduce动作需要的task。类似的功能在TAJO中也有提到，叫progressive query optimization，而且TAJO不仅能做到动态调整task数量，还能动态调整join顺序。

资源集成

在Hadoop已经进入2.x的时代，所有想要得到广泛应用的SQL on Hadoop系统势必要能与YARN进行集成。虽然这是一个有利于资源合理利用的好事，但是由于加入了YARN这一层，却给系统的性能带来了一定的障碍，因为启动AppMaster和申请container也会占用不少时间，尤其是前者，而且container的供应如果时断时续，那么会极大的影响时效性。在Tez和Impala中对这些问题给出了相应的解决办法：

AppMaster启动延迟的问题，采取long lived app master，AppMaster启动后长期驻守，而非像是MR那样one AM per Job。具体实现时，可以给fair scheduler或capacity scheduler配置的每个队列配上一个AM池，有一定量的AM为提交给这个队列的任务服务。
container供应的问题，在Tez中采取了container复用的方式，有点像jvm复用，即container用完以后不马上释放，等一段时间，实在是没合适的task来接班了再释放，这样不仅减少container断供的可能，而且可以把上一个task留下的结果cache住给下一个task复用，比如做map join；Impala则采取比较激进的方式，一次性等所有的container分配到位了才开始执行查询，这种方式也能让它的流水线式的计算不至于阻塞。

其他

到这里为止，已经从上到下顺了一遍各个层面用到的技术，当然SQL on Hadoop本身就相当复杂，涉及到方方面面，时间精力有限不可能一一去琢磨。比如其他一些具有技术复杂度的功能有：

多数据源查询：Presto支持从mysql，cassandra，甚至kafka中去读取数据，这就大大减少了数据整合时间，不需要放到HDFS里才能查询。Impala和Hive也支持查询hbase。Spark SQL也在1.2版本开始支持External Datasource。国内也有类似的工作，如秒针改造Impala使之能查询postgres。
近似查询：count distinct（基数估计）一直是sql性能杀手之一，如果能接受一定误差的话可以采用近似算法。Impala中已经实现了近似算法（ndv），Presto则是请blinkDB合作完成。两者都是采用了HyperLogLog Counting。当然，不仅仅是count distinct可以使用近似算法，其他的如取中位数之类的也可以用。

结束语

尽管现在相关系统已经很多，也经过了几年的发展，但是目前各家系统仍然在不断的进行完善，比如：

增加分析函数，复杂数据类型，SQL语法集的扩展。
对于已经成形的技术也在不断的改进，如列存储还可以增加更多的encoding方式。
甚至对于像CBO这样的领域，开源界拿出来的东西还算是刚刚起步，相比HAWQ中的ORCA这种商业系统提供的优化器还差的很多。

毕竟相比已经比较成熟的关系数据库，分布式环境下需要解决的问题更多，未来一定还会出现很多精彩的技术实践，让我们在海量数据中更快更方便的查到想要的数据。

hive表修改字段类型没有级连导致历史分区报错尘世壹俗人大数据Hive技术 hive hadoop 数据仓库
一：问题背景修改hive的分区表时有级连概念，指字段的最新状态，默认只对往后的分区数据生效，而之前的分区保留历史元数据状态。好处就是修改语句的效率很快，坏处就是如果历史分区的数据还有用，那就回发生分区元数据和表元数据的不一致报错最终导致：presto或hive任务抽取历史分区会报如下的错误Thereisamismatchbetweenthetableandpartitionschemas.Thet
Hive 查看partition 以及msck 修复分区 dgsdaga3026010 大数据
#checktable的partitionhive>showpartitionstable_name;如果是外部表，不小心把表给删除了，可以适用下命令重新关联表和数据[MSCKREPAIRTABLE]全量修复分区hive>msckrepairtabletable_name;转载于:https://www.cnblogs.com/TendToBigData/p/10501178.html
《AI语言模型的关键技术探析：系统提示、评估方法与提示工程》 XianxinMao 人工智能语言模型自然语言处理
文章主要内容摘要1.系统提示(SystemPrompt)定义:用于设置模型行为、角色和工作方式的特殊指令重要性:定义模型行为边界影响输出质量和一致性可将通用模型定制为特定领域助手挑战:技术集成复杂兼容性问题效果难以精确预测2.模型评估方法创新方向:自一致性(Self-Consistency)评估PlanSearch方法强化学习(RL)应用核心特点:多次采样和交叉验证策略空间探索动态权重调整实践价值
集群间hive数仓迁移 one code database
方式一：(此方法需要建库建表)第一步：建库建表在原集群hive上查看迁移表的建表语句及所在库，然后在新集群hive上建库建表；showcreatetabletb_name;createdatabasedb_name;createtabletb_name.....第二步：转移数据文件到新集群；在旧集群中下载数据到本地hadoopfs-get/user/hive/warehouse/dc_ods.db
HIVE合并小文件难以触及的高度 hive hadoop 数据仓库
8.分区分桶，合并小文件为什么小文件需要合并？1.小文件过多，MR处理数据时，会产生多个MapTask,然而每个MapTask处理的数据量很少，那么导致MapTask启动时间大于执行时间，整体任务时间消耗较大如何合并小文件：1）在map执行前合并小文件，减少map数：CombineHiveInputFormat具有对小文件进行合并的功能（系统默认的格式）。HiveInputFormat没有对小文件
Hive中没有超级管理员，如何进行权限控制二进制_博客大数据 hive hadoop 数据仓库
Hive中没有超级管理员，任何用户都可以进行Grant/Revoke操作开发实现自己的权限控制类，确保某个用户为超级用户比如任何用户都可以grant权限给别的用户。grantselectontabletest2touserhadoop;如何开发一个超级管理员：创建一个项目，导入mavanjar包，然后开始编写hook类importcom.google.common.base.Joiner;impo
MySQL：下划线处理 dingcho 存储数据 mysql 数据库
要查询MySQL中不包含下划线的字符串，可以使用NOTLIKE操作符。以下是一个示例SQL查询，它选出所有不包含下划线的记录：SELECT*FROMyour_tableWHEREyour_columnNOTLIKE'%_%';这样其实是查询不出来记录的，我们需要将其转义一下SELECT*FROMyour_tableWHEREyour_columnNOTLIKE'%\_%';
线程池创建及参数设置运筹帷幄小红花 java 开发语言后端
一、创建线程池以及线程池的各种参数分析：//不指定最大线程数，默认是Int的最大值ExecutorServiceexecutorService=Executors.newCachedThreadPool();executorService.submit(()->{System.out.println("新建线程池对象，执行第一个默认线程");});executorService.shutdown(
2.TIDB整体架构胡晗- tidb
与传统的单机数据库相比，TiDB具有以下优势：纯分布式架构，拥有良好的扩展性，支持弹性的扩缩容支持SQL，对外暴露MySQL的网络协议，并兼容大多数MySQL的语法，在大多数场景下可以直接替换MySQL默认支持高可用，在少数副本失效的情况下，数据库本身能够自动进行数据修复和故障转移，对业务透明支持ACID事务，对于一些有强一致需求的场景友好，例如：银行转账具有丰富的工具链生态，覆盖数据迁移、同步、
IoTDB 入门教程基础篇⑤——数据模型和基础概念小康师兄 Apache IoTDB 入门教程 IoTDB 物联网数据模型数据库时序数据库
文章目录一、前文二、数据模型2.1关系型数据库MySQL。2.2时序数据库TDengine2.3时序数据库InfluxDB2.4时序数据库IoTDB（本专栏的正主）三、基础概念3.1数据库（Database）3.2设备模板（元数据模板）3.3设备（实体）3.4物理量（字段）四、数据类型参考一、前文IoTDB入门教程——导读本文主要讲述IoTDB的数据模型和基础概念。不同的数据库都有不同侧重，IoT
DNS 服务器是什么？有什么作用
一、DNS服务器的定义DNS服务器即域名系统（DomainNameSystem）服务器。它是一种在互联网基础设施中扮演关键角色的服务器。在互联网的世界里，每台设备（如服务器、计算机等）都有一个唯一的IP地址，就像每部电话都有一个电话号码一样。但是IP地址是一串数字，很难被人们记忆，例如“192.168.1.1”这样的地址。而域名则是方便人们记忆的网址形式，如“www.example.com”。DN
Windows Server 如何启用 TLS 1.3 ？ windowstls
传输层安全(TLS)1.3代表了用于互联网通信安全协议的重大进步。随着它在WindowsServer2022和Windows11中的引入，系统大大增强了安全性和连接速度。本指南提供了在WindowsServer2022中启用TLS1.3的详细演练，确保您的服务器受益于最新的安全技术。Step1:VerifySystemCompatibility确保系统正在运行WindowsServer2022或W
Windows 11安装DeepSpeed报错（Unable to pre-compile async_io）问题解决 happy coding windows gpt
Windows11安装DeepSpeed报错（Unabletopre-compileasync_io）问题解决报错如下Preparingmetadata(setup.py)...errorerror:subprocess-exited-with-error×pythonsetup.pyegg_infodidnotrunsuccessfully.│exitcode:1╰─>[17linesofout
MySQL数据表基本操作天才奇男子知识总结 mysql adb android
数据表基本操作数据表是数据库的重要组成部分，每一个数据库都是由若干个数据表组成。没有数据表就没法在数据库中存放数据。1.创建数据表创建数据表是指在已经创建的数据库中建立新表，创建数据表的过程是规定数据列的属性的过程。CREATETABLE[IFNOTEXISTS]tb1_name案例1：创建基本表：创建如下要求的表tb_emp1字段名称数据类型备注idint(11)员工编号namevarchar(
调试Hadoop源代码一张假钞 hadoop eclipse 大数据
个人博客地址：调试Hadoop源代码|一张假钞的真实世界Hadoop版本Hadoop2.7.3调试模式下启动HadoopNameNode在${HADOOP_HOME}/etc/hadoop/hadoop-env.sh中设置NameNode启动的JVM参数，如下：exportHADOOP_NAMENODE_OPTS="-Xdebug-Xrunjdwp:transport=dt_socket,addr
sql server 将一张表的数据导入另一张表 weixin_41589232 sql 数据库
用insertinto从一个表中选取数据，导入另一个表，选取的结构要一样才行insertintopc_ruku(名称,数量,业务类型,业务归属,事由,科室,时间,厂家,型号,单价,经办人,办理人,备注,供货商)select名称,数量,‘配发’as业务类型,类型as业务归属,‘’as事由,配至科室as科室,配发时间as时间,‘’as厂家,‘’as型号,‘’as单价,‘’as经办人,‘’as办理人,详
【telegraf安装】centos主机安装和docker安装编程小白呀 docker 测试 centos docker linux 压力测试
目标在服务器以centos和docker安装telegraf。一、centos主机安装Inyourterminal,enterthefollowingcommandtoaddtheInfluxDatarepositorytotheyumconfiguration:cat<
docker-ubuntu-24.04安装openresty1.21.4.3全过程司江龙 ubuntu linux 运维
拉取最新的ubuntu镜像dockerpullubuntu:latest创建启动容器dockerrun-it--name容器名称-p8082:8082镜像id/bin/bash更换apt-get为阿里云镜像sed-i'[email protected]/@/mirrors.aliyun.com/@g'/etc/apt/sources.list&&apt-getupdate创建目录cdhome
.net 启动mysql数据库连接,ASP.NET实战002：MySQL数据库连接 CodeConjurer .net 启动mysql数据库连接
数据库管理系统数据库是用来存放数据的仓库，它拥有很大的存储空间，可以用来存放我们系统的所有数据。而数据库管理系统(DBMS)是为管理数据库而设计的系统，可以对文件中的数据进行新增、截取、更新、删除、查询、备份等操作，最主要是安全可靠、灵活高效、性能优越。目前主流的数据库管理系统有：Oracle、MySQL、SQLServer、PostgreSQL、MongoDB、DB2、Redis等，今天主要分享
jdbc连接出现ServerTimezone问题一个小坑货常见错误积累 mysql java
代码中添加时区需要在jdbc的url连接中添加serverTimezone=Asia/Shanghai。例如：jdbc:mysql://localhost:3306/db1?serverTimezone=Asia/Shanghaijdbc:mysql://localhost:3306/db1?serverTimezone=GMTIdea链接mysql错误Idea链接mysql错误—Goto‘Adv
MySQL事物原理 bxnms. mysql 数据库
事务在MySQL服务中，系统的主线程负责监听连接，而多个连接线程负责处理连接。这时候多个SQL语句操作数据库，就会出现事务多并发，交叉处理。比如银行存钱后再取钱，如果存钱的中途撤销操作，但取钱操作已经完成等等。事务是一个工作单元，它由一系列操作组成，这些操作要么全部成功，要么全部失败，不会结束在中间某个点。在MySQL中，客户端想要开启事务就要向MySQL发送开启事务请求，再发送一系列SQL语句，
大数据毕业设计—基于python+Django自然灾害频发地区情况数据分析系统 qq_1406299528 python 计算机毕业设计 python 大数据课程设计
一、项目技术开发语言：Pythonpython框架：Django软件版本：python3.7/python3.8数据库：mysql5.7或更高版本数据库工具：Navicat11开发软件：PyCharm/vscode前端框架:vue.js二、项目内容和项目介绍 1.项目内容 1.开发语言：该系统采用Python作为开发语言，Python具有优雅的语法和动态类型，以及解释型语言的本质，使其成为许多
3、C#基于.net framework的应用开发实战编程 - 实现（三、一） - 编程手把手系列文章... lzhdim c#.net oracle 开发语言数据库
三、实现；三．一、实现数据库操作；对于数据库的操作，以前都是有ODBC的接口，通过Helper类库进行的操作。此文主要介绍例子里对数据库操作的实现。1、SQLiteHelper；SQLite主要是用C编写的，但是对于C#来说提供了类库，但是还需要Helper类来进行高层次的处理。这个类库来源于网络，具体实现请自己阅读例子中的源码。2、SQL语句；例子的中的SQL语句在设计的时候数据表的操作都罗列了
Go实战全家桶之三十六： go动态创建结构体 leijmdas go go实战全家桶 golang 开发语言后端
开源：water/gowebfunc(self*PagedbRequest)CreateDbTableStru(meta*metadata.MetadataTable)reflect.Value{varmetaColService=service.NewMetadataFactroy()dbFields:=[]reflect.StructField{}for_,col:=rangemeta.Col
wordpress常见数据库连接错误原因及其解决方案 wodrpress资源分享数据库 wordpress
WordPress数据库连接错误通常是由于数据库配置问题、数据库服务器问题或权限问题引起的。以下是一些常见的数据库连接错误及其解决方案：常见错误信息1.“Errorestablishingadatabaseconnection”2.“WordPressdatabaseerror:[Errormessage]”3.“Unknowndatabase”4.“Accessdeniedforuser”常见原
Pytorch实现：LSTM-火灾温度预测骑猪玩狗 pytorch lstm 人工智能
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前期工作语言环境：Python3.9.18编译器：JupyterLab深度学习环境：Pytorch1.12.11.设置GPUimporttorchimporttorch.nnasnnimporttorchvisionfromtorchvisionimporttransforms,datasetsimportos,PIL,pathlibde
MySQL备份案例: mysqldump+binlog实现完全+增量备份糯米汤圆～ mysql 数据库运维 linux
一、素材准备1.创建一个干净环境的虚拟机--192.168.46.120openEuler22.linux在线安装MySQLa.查看本地MySQL安装列表，选择安装版本[root@openEuler~]#yumlist|grep-i"^mysql"mysql.src8.0.40-1.oe2203sp4update-sourcemysql.x86_648.0.40-1.oe2203sp4update
大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构武子康大数据离线数仓大数据数据仓库 java 后端 hadoop hive
点一下关注吧！！！非常感谢！！持续更新！！！Java篇开始了！目前开始更新MyBatis，一起深入浅出！目前已经更新到了：Hadoop（已更完）HDFS（已更完）MapReduce（已更完）Hive（已更完）Flume（已更完）Sqoop（已更完）Zookeeper（已更完）HBase（已更完）Redis（已更完）Kafka（已更完）Spark（已更完）Flink（已更完）ClickHouse（已
LargeAD：用于自动驾驶的大规模跨传感器数据预训练硅谷秋水自动驾驶计算机视觉机器学习自动驾驶人工智能机器学习计算机视觉
25年1月来自新加坡国立大学、南京航空航天、德国Bremerhaven技术大学、上海AI实验室、香港科技大学和香港大学的论文“LargeAD:Large-ScaleCross-SensorDataPretrainingforAutonomousDriving”。视觉基础模型(VFM)的最新进展彻底改变2D视觉感知，但它们在3D场景理解方面的潜力，特别是在自动驾驶应用中的潜力仍未得到充分探索。Lar
uniapp：钉钉小程序录音 dingcho 前端 uni-app 钉钉小程序
-->{{longPress=='1'?'点击录制':'录音中...'}}{{playStatus=='1'?'播放中...':'单击播放'}}{{'剩余：'+count+'s'}}再点击结束录音删除varinit//录制时长计时器vartimer//播放录制倒计时exportdefault{data(){return{count:null,//录制倒计时longPress:'1',//1显示按住
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源