马云雷的博客

Presto coordinator的CPU持续上涨，原因竟然是这样

问题背景

之前介绍过presto的架构， coordinator是Presto架构中负责调度的master节点。在实际部署中，为了减少该节点的负载，指定node-scheduler.include-coordinator=false，避免把计算任务调度到coordinator节点上。

由于Presto进程是常驻进程，而且需要实时的提供在线服务。通常只有在需要升级时，才会通过热升级手段重启进程。于是我们在一个大集群上发现了这个现象，coordinator的CPU随着时间不短增长。最高达到了3000%+ 。见下图是连续一个月的持续上涨。

如果任由CPU这样上涨下去，整个集群将不可控，也会影响计算能力。于是我开始了一系列的调查。

是json的原因吗？

首先，通过jstack命令打印Presto进程的栈。在栈中最常见的调用栈，是json的反序列化操作。

        at com.fasterxml.jackson.core.json.UTF8StreamJsonParser.parseMediumName2(UTF8StreamJsonParser.java:1836)
        at com.fasterxml.jackson.core.json.UTF8StreamJsonParser.parseMediumName(UTF8StreamJsonParser.java:1793)
        at com.fasterxml.jackson.core.json.UTF8StreamJsonParser._parseName(UTF8StreamJsonParser.java:1728)
        at com.fasterxml.jackson.core.json.UTF8StreamJsonParser.nextToken(UTF8StreamJsonParser.java:776)
        at com.fasterxml.jackson.databind.deser.BeanDeserializer._deserializeUsingPropertyBased(BeanDeserializer.java:389)
        at com.fasterxml.jackson.databind.deser.BeanDeserializerBase.deserializeFromObjectUsingNonDefault(BeanDeserializerBase.java:1194)
        at com.fasterxml.jackson.databind.deser.BeanDeserializer.deserializeFromObject(BeanDeserializer.java:314)
        at com.fasterxml.jackson.databind.deser.BeanDeserializer.deserialize(BeanDeserializer.java:148)
        at com.fasterxml.jackson.databind.ObjectMapper._readMapAndClose(ObjectMapper.java:3789)
        at com.fasterxml.jackson.databind.ObjectMapper.readValue(ObjectMapper.java:2950)
        at io.airlift.json.JsonCodec.fromJson(JsonCodec.java:198)
        at io.airlift.http.client.FullJsonResponseHandler$JsonResponse.(FullJsonResponseHandler.java:118)
        at io.airlift.http.client.FullJsonResponseHandler.handle(FullJsonResponseHandler.java:68)
        at io.airlift.http.client.FullJsonResponseHandler.handle(FullJsonResponseHandler.java:37)
        at io.airlift.http.client.jetty.JettyHttpClient$JettyResponseFuture.processResponse(JettyHttpClient.java:857)
        at io.airlift.http.client.jetty.JettyHttpClient$JettyResponseFuture.completed(JettyHttpClient.java:834)
        at io.airlift.http.client.jetty.JettyHttpClient$BufferingResponseListener.onComplete(JettyHttpClient.java:1119)

这个栈是一个http请求的callback，在callback中把response把json反序列化成对象。http的callback线程时包括了200个线程，而我经常能在stack中看到超过180个线程在做json反序列化。从栈总看不出是属于什么http请求。但是我们能从代码中找到coordinator发出的这几类请求。

task任务状态的fetcher，循环的获取task的状态，直到task结束。这其中其中有两类fetch操作:
1. 一个获取taskStatus，只包含task状态,循环获取，前一次获取结束后，立马启动下一次
2. 一个获取taskInfo。包含task的详细信息，每3秒获取一次。
Memory管理，coordinator定期向每台机器获取机器的内存使用状况。
fail detect 请求有两类：
1. 一类是head请求，没有response
2. 另一类是/v1/info/state请求，是worker的状态，返回类似于"ACTIVE"或者"SHUTDOWN"之类的状态。

由于内存同步和心跳检查是跟机器数据相关，而task同步则跟query数目相关。于是我怀疑是同时运行的query太多，有1000多个query在同时运行，每个query生成上百个task。 coordinator每分钟要发起几十万次读取task状态的请求。jackson库的反序列化效率不高，导致coordinator的CPU很高。这可以解释CPU高的原因，但不能解释CPU持续上涨的原因。不管怎么样，我还是决定把jackson改成性能更佳的fastjson。

改成fastjson上线后，过段时间发现，CPU仍然在缓慢的持续上涨，不得不再重新寻找新的证据。

是不停的分配新的线程吗？

我们在jstack栈中，能清楚地看到很多线程同时在做json反序列化操作。证明是和json反序列化相关的操作。于是再去阅读源码。发现task status fetcher使用的线程池是一个可变的线程池newCachedThreadPool。

具体操作是：任何请求，都是放入队列中，然后由线程池处理。如果队列满，则线程池会新分配一个线程。

于是我怀疑是负载太高，导致不停的分配新的线程，于是CPU越来越高。怎么解决这个问题？我改造了coordinator，由原来的单节点，变成了多节点，以均分coordinator的压力。

把coordinator改造成分布式能解决问题吗？

Presto原生的coordinator由于依赖单节点进行内存监控，如果强行部署成多coordinator的话，会造成内存管理的混乱，有可能让某些大query死锁。因此改造成分布式还颇费一番功夫。我会另起一个话题，讲述如何把coordinator改造成分布式。

简单的说，改造完成后，有3个coordinator。原来的coordinator，负责内存管理和worker failover管理，同时处理1/3的query。而另外两个coordinator，只分别负责管理另外1/3的query。同时把内存管理的心跳间隔调整到了5s。

过了一段时间，发现了新的情况。中心coordinator的CPU仍然在缓慢持续上涨，但是CPU并不是一直很高，而是每隔5s飙升一次。新增的两个coordinator则没有变化。于是我从所有的配置中找跟5s相关的参数，从这里开始意思到似乎和内存管理的心跳有关。

从jstack能看到跟json反序列化有关，内存管理的http response也需要反序列化json。虽然之前把jackson改造成了fastjson，但只是改造了task心跳部分，没有改造内存管理部分。

coordinator每5s向每个worker发送一次请求，获取worker的内存使用，这个请求量是恒定的。理论上，除非我们增加机器，负载才会增加。于是我去检查了presto的http-request.log。我把日志采集到阿里云日志服务，通过日志分析，检查http请求的变化趋势。

v1/memory | select date_trunc('day',__time__) as t, count(1) as pv, sum(response_size) as res from log group by t order by t

左Y轴是PV，右Y轴是response size的一天累加值。我们可以看到PV基本上没有大的变化。而response size则不断增长。20天内从最低7.6G/day增长到了237G/day。平均每个response达到149k。这个截图是我写文章时截取的。在当时调查问题时，看到了600k的response。

response增加 -> json反序列化负载增加 -> CPU不断增加。看起来符合逻辑，接下来只有去找为什么response不断增加了。

tcp抓包

为了查看response这么大的原因，我用tcpdump抓取presto的流量。

sudo tcpdump  port 10000 -s 0 -w /tmp/netstat

在/v1/memory的响应结果中，会包含general , reserved，和system 三个pool分别总的大小以及使用大小，和目前占用对应内存池的queryId。结构是这样：

{
  "totalNodeMemory": "12884901888B",
  "pools": {
    "reserved": {
      "maxBytes": 3221225472,
      "freeBytes": 3221225472,
      "queryMemoryReservations": {
        
      }
    },
    "general": {
      "maxBytes": 9663676416,
      "freeBytes": 9663676416,
      "queryMemoryReservations": {
        
      }
    },
    "system": {
      "maxBytes": 8589934592,
      "freeBytes": 8589934592,
      "queryMemoryReservations": {
        "20190509_113603_03920_25e2h",
        "20190509_113608_02758_rdy5b",
        ...
        ...
      }
    }
  }
}

其中system -> queryMemoryReservations 这个节点下的内容非常的多，甚至包含几天前的queryId。这意味着某些query占用了system内存池，结束后没有正常释放。接下来就需要查找什么地方存在内存泄露。

查找内存泄漏点

query使用的内存，都会记录在context中，因此我专门写了个程序，向coordinator轮训已经完成的query，获取这些query的描述信息。查看到底是哪个环节的内存使用有问题。

"tasks" : [ {          
	"stats" : {
		"systemMemoryReservation" : "712B",
       "pipelines" : [ {           
            "systemMemoryReservation" : "712B", 
            "operatorSummaries" : [ {                                                                                                                             
            		"systemMemoryReservation" : "0B",

抓取到的多个query的stat信息，都具备相同的特征：

某一个task的systemMemoryReservation 不为0。
task的第一层pipeline不为0。
pipeline的Operator都是ExchangeOperator和LocalExchangeSinkOperator，但是operator内部的systemMeoryReservation为0。

system内存是在计算过程中，使用的系统内存，例如两个worker之间传递数据，使用的就是system mem pool

Operator信息表明，这个节点是从前一层节点接收数据，放在内存中，供下层pipeline计算。

task -> pipeline -> driver -> operator 构成了一层层结构。由于数据显示pipeline这一层发生了泄露，我只好去看pipeline分配内存的逻辑。

Driver和ExchangeClient在分配内存时，都会调用Pipeline的内存分配逻辑。由于数据显示跟Exchange有关，于是我重点检查了这ExchangeOperator分配内存的逻辑，初看之下，每一层都能做到自平衡，也就是在某一层结束的时候，调用close，自己把尚未释放的内存释放掉。

但是，我也发现了在多线程场景下，由于执行时序不同，会导致出现内存泄露情况。

多线程时序问题

在ExchangeClient中，就存在多种场景。

第一种场景，ExchangeClient是一个生产者和消费者模型，后台线程从远端拿到数据后，由callback线程把数据放入队列，然后才分配内存。消费者线程从队列中poll到数据后，再释放内存。

假如事件发生的顺序是这样的 P1 C1 C2 P2 ，那么会先释放内存，在C2释放内存时，由于出错而分配失败。接下来在P2再去分配内存就会出错。确保不会出错的顺序是把P1和P2对调顺序。

如果上边的假设成立，那么会在日志中看到tried to free more memory than is reserved的错误。没有从日志中发现上边的错误，于是这种假设被排除了。

第二种场景， C2在释放内存是，会先判断closed变量。如果生产者在C2之前就设置了closed变量，那么就不会进入释放的逻辑。我加了一些日志，证明发生内存泄露时，closed变量确实被设置了。

设置closed变量的方式如下代码，在代码中只设置了closed变量，而没有做内存清理：

 if (!closed.get() && pageBuffer.peek() == NO_MORE_PAGES) {
     closed.set(true);
 }

由于我使用的presto代码比较老，是176版本，和master head版本进行对比，发现最新代码已经改成了close()，调用close()函数，会提前清理内存，能够避免内存泄露的问题。
git blame的结果:

e3535bbfeca (Dain Sundstrom     2017-02-24 10:04:37 -0800 289)                 close();

根据commit id找到对应的信息：https://github.com/prestodb/presto/commit/e3535bbfeca

内存泄露的原因已经解决了，我用的版本已经太老了。但是由于我对presto内核做了很多改动，想要merge到HEAD版本恐怕要花费不少时间。

总结

在ExchangeClient中，向上游节点拉取数据时，有一定概率导致内存泄露，上游节点越多，概率越大。

当内存发生泄露时，内存池忠实的记录了每一个queryId。这导致随着时间推移，queryId的list越来越多。

coordinator会定时向每台机器获取内存池的使用情况。因此response越来越大，而json反序列化的CPU使用率越来越高，几乎占满了http callback的线程池。最终反映到监控图上，就是coordinator随着时间推移，CPU Usage直线上涨。

One More Thing

把ExchangeClient内存泄露的问题解决后，再去验证。由ExchangeClient造成的内存泄露已经解决了，但是发现ScanFilterAndProjectOperator在很小的场景下，会出现内存泄露。这是一个SourceOperator的派生类，会调用plugin实现的ConnectorSource，方便ConnectorSource使用系统内存。内存泄露的原因还待分析。

个人博客地址

数据中台（二）数据中台相关技术栈 Yuan_CSDF #数据中台
1.平台搭建1.1.Amabari+HDP1.2.CM+CDH2.相关的技术栈数据存储：HDFS，HBase，Kudu等数据计算：MapReduce,Spark,Flink交互式查询：Impala,Presto在线实时分析：ClickHouse，Kylin，Doris，Druid，Kudu等资源调度：YARN，Mesos，Kubernetes任务调度：Oozie，Azakaban，AirFlow，
海量数据查询加速：Presto、Trino、Apache Arrow 晴天彩虹雨 apache 大数据 hive 数据仓库
1.引言在大数据分析场景下，查询速度往往是影响业务决策效率的关键因素。随着数据量的增长，传统的行存储数据库难以满足低延迟的查询需求，因此，基于列式存储、向量化计算等技术的查询引擎应运而生。本篇文章将深入探讨Presto、Trino、ApacheArrow三种主流的查询优化工具，剖析其核心机制，并通过案例分析展示它们在实际业务中的应用。2.Presto：分布式SQL查询引擎2.1Presto介绍Pr
doris：SQL 方言兼容向阳1218 大数据 doris
提示从2.1版本开始，Doris可以支持多种SQL方言，如Presto、Trino、Hive、PostgreSQL、Spark、Clickhouse等等。通过这个功能，用户可以直接使用对应的SQL方言查询Doris中的数据，方便用户将原先的业务平滑的迁移到Doris中。警告该功能目前是实验性功能，您在使用过程中如遇到任何问题，欢迎通过邮件组、GitHubIssue等方式进行反馈。部署服务下载最新版
Ranger 2.1.0集成Trino 玄慈 ranger trino cdh java cloudera 大数据
Ranger2.1.0与trino359集成一、基础环境jdk-11.0.12Maven3.6.1Git最新版二、下载ranger2.1.0源码下载之后的目录为ranger-6.3.4本文目录地址是/grid/dfs0/code/ranger-6.3.4三、修改pom.xml修改控制组件版本的pom.xmlranger-6.3.4/pom.xml一、presto的版本号改成359359二、更改组件
时间函数（Hive-Sql\Mysql\Presto）菜鸟教程*…* mysql hive sql mysql
特殊说明：1、时间函数有多种方法，比如本月第一天（T-1）：mon_firstday(sysdate(-1))或者concat(substr(sysdate(-1),1,8),‘01’)等。2、通常离线数据是T-1，故取数据时候，月至今的范围是1号至昨天，故本业会标注T-1，请知晓。3、看函数产生的效果：（1）Hive-Sql如果想看函数的效果，可以在集市输入select+函数。例如selects
centos安装mysql报错：mysql-community-client-plugins-8.0、o Presto metadata available for mysql80-community 其实她不懂 centos mysql linux
执行sudoyum-yinstallmysql-community-server命令刚开始报错mysql-community-client-plugins-8.0.40-1.el7.x86_64.rpm的公钥尚未安装失败的软件包是：mysql-community-client-plugins-8.0.40-1.el7.x86_64GPG密钥配置为：file:///etc/pki/rpm-gpg/R
关于JavaScript（你所不知道的小秘密） Taptaq 前端 javascript 前端
主流浏览器的内核IE：tridentChrome：webkit/blinkfirefox：GeckoOpera：最初是presto，现在用的是blinkSafari：webkit引入JS的方式页面内嵌标签（可在head内或body内）外部引入（常用方法）JS基本语法变量：变量声明：声明，赋值分解。单一var。（vara=100）命名规则：变量名必须以英文字母，*，$开头*变量名可以包括英文字母，，
Docker下Dubbo服务优雅上下线实现丿似锦 dubbo kubernetes dubbo qos
简介在Docker容器环境中部署基于Dubbo的服务时，实现服务的优雅上下线是至关重要的。这通常涉及到两个关键步骤：首先，确保服务能够从注册中心摘除，停止接受新的请求；其次，等待所有正在处理的请求完成后再终止容器。通过结合Kubernetes的preStopHook和Dubbo的QoS功能，可以有效地实现这一目标。环境Docker+Kubernetes+SpringBoot+Dubbo⭐实现Pre
HIVE- SPARK 流川枫_ 20210706 hdfs hive spark
日常记录备忘Hive修改字段类型之后（varchar->string）Hive可以查到数据，Presto查询报错;分区字段数据类型和表结构字段类型不一样；spark-sql分区表和非分区表兼容问题，不能关联可以建临时表把分区数据导入，用完数据将表删除；count有数据，select没数据可能是压缩格式所导致；优化合全量任务，之前是row_number()函数先插入当天增量，取出最新的数据插入全量表
大数据之-hdfs+hive+hbase+kudu+presto集群(6节点) 管哥的运维私房菜大数据 hdfs hive kudu presto hbase
几个主要软件的下载地址：prestohttps://prestosql.io/docs/current/index.htmlkudurpm包地址https://github.com/MartinWeindel/kudu-rpm/releaseshivehttp://mirror.bit.edu.cn/apache/hive/hdfshttp://archive.apache.org/dist/ha
流媒体娱乐服务平台在AWS上使用Presto作为大数据的交互式查询引擎的具体流程和代码 weixin_30777913 aws 大数据 python 音视频
一家流媒体娱乐服务平台拥有庞大的用户群体和海量的数据。为了高效处理和分析这些数据，它选择了Presto作为其在AWSEMR上的大数据查询引擎。在AWSEMR上使用Presto取得了显著的成果和收获。这些成果不仅提升了数据查询效率，降低了运维成本，还促进了业务的创新与发展。实施过程：Presto集群部署：在AWSEMR上部署了Presto集群，该集群与HiveMetastore和AmazonS3集成
Presto 时间、日期及计算相关日期三生暮雨渡瀟瀟 presto big data presto
由于工作中在数据迁移，大数据平台数据查询引擎使用Presto，和传统的数据库时间函数有区别，整理一版，供大家参考，一起学习，有错误欢迎指正。1、查询当前日期selectcurrent_date;2、查询当前时间selectcurrent_timestamp;_col0---------------------------------------2022-01-0220:45:58.551Asia/
hive表修改字段类型没有级连导致历史分区报错尘世壹俗人大数据Hive技术 hive hadoop 数据仓库
一：问题背景修改hive的分区表时有级连概念，指字段的最新状态，默认只对往后的分区数据生效，而之前的分区保留历史元数据状态。好处就是修改语句的效率很快，坏处就是如果历史分区的数据还有用，那就回发生分区元数据和表元数据的不一致报错最终导致：presto或hive任务抽取历史分区会报如下的错误Thereisamismatchbetweenthetableandpartitionschemas.Thet
2024年Presto【基础 01】简介+架构+数据源+数据模型(2)，2024年最新一线互联网公司面经总结 2401_84264536 架构
学习路线：这个方向初期比较容易入门一些，掌握一些基本技术，拿起各种现成的工具就可以开黑了。不过，要想从脚本小子变成黑客大神，这个方向越往后，需要学习和掌握的东西就会越来越多以下是网络渗透需要学习的内容：网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以点击这里获取一个人可以走的很快，但一群人才能走的更远！不
Presto【基础 01】简介+架构+数据源+数据模型 2401_84254343 程序员架构
一个Catalog包含Schema和Connector。例如，配置JMX的Catalog，通过JXMConnector访问JXM信息。当执行一条SQL语句时，可以同时运行在多个Catalog。Presto处理table时，是通过表的完全限定（fully-qualified）名来找到Catalog。例如，一个表的权限定名是hive.test_data.test，则test是表名，test_data是
兼容 Trino Connector，扩展 Apache Doris 数据源接入能力｜Lakehouse 使用手册 vvvae1234 apache
ApacheDoris内置支持包括Hive、Iceberg、Hudi、Paimon、LakeSoul、JDBC在内的多种Catalog，并为其提供原生高性能且稳定的访问能力，以满足与数据湖的集成需求。而随着ApacheDoris用户的增加，新的数据源连接需求也随之增加。因此，从3.0版本开始，ApacheDoris引入了TrinoConnector兼容框架。Trino/Presto作为业界较早应用
2024年大数据高频面试题(下篇）猿与禅 Java架构师面试大数据面试 scala 即席查询分桶调度系统数据倾斜
文章目录Scala数据类型函数式编程闭包函数柯里化面向对象样例类对象与伴生对象特质(trait)模式匹配隐式转换即席查询KylinKylin特点Kylin工作原理核心算法Kylin总结Kylin的优点什么场景用KylinKylin的缺点Impala什么是ImpalaImpala为什么快FrontendBackendImpala总结：Presto什么是PrestoPresto的执行过程Presto总
pyhton - PyHive 凌不了云 python python hive
简介PyHive是一组PythonDB-API和SQLAlchemy接口，可用于Presto和Hive。它为Python提供了一个与Presto和Hive进行交互的平台，使得数据分析师和工程师可以更方便地进行数据处理和分析。安装在安装PyHive之前，你需要确保已经安装以下软件：PipPythonJDK（JavaDevelopmentKit）Hive或Presto在安装完成上述软件之后，你可以使用
k8s-pod 实战七（PreStop 和 PostStart 详细分析）清风 001 K8S-Pod实战 rpc 网络协议网络 k8s kubernetes 容器云原生
PreStop和PostStart详细分析PreStopHookPreStopHook是在容器终止之前执行的操作。它通常用于执行一些清理任务或完成某些操作，以确保容器能够平稳关闭。例如，在数据库应用中，你可能希望在容器终止之前完成所有正在进行的事务。PostStartHookPostStartHook是在容器启动之后立即执行的操作。它通常用于在容器启动后执行一些初始化任务。例如，你可能希望在容器启
从零到一建设数据中台 - 关键技术汇总我码玄黄数据中台数据挖掘数据分析大数据
一、数据中台关键技术汇总语言框架：Java、Maven、SpringBoot数据分布式采集：Flume、Sqoop、kettle数据分布式存储：HadoopHDFS离线批处理计算：MapReduce、Spark、Flink实时流式计算：Storm/SparkStreaming、Flink批处理消息队列：Kafka查询分析：Hbase、Hive、ClickHouse、Presto搜索引擎：Elast
谈一谈数据虚拟化的技术核心和应用架构 Aloudata Data Fabric 逻辑数据平台数据集成数据虚拟化
数据虚拟化（DataVirtualization）是对数据资源的抽象，通过屏蔽数据资源的存储位置和访问方式，能够将不同数据源、不同格式的数据资源，进行逻辑上的整合集成。这一技术方案与过去面对传统数仓的弊端，业界过去经常采取的方式Presto方案有一定相似，但存在明显差别。Presto的架构本质上是一个MPP的引擎，其架构导致绝大部分使用Presto的场景都是在ETL最末端的消费层，本身面向的是OL
spring cloud gateway k8s优雅启停 luffy_1993 kubernetes 容器云原生
通过配置readiness探针和preStophook，实现优雅启动和停止（滚动部署）1.k8s工作负载配置readinessProbe:httpGet:path:/datetimeport:8080scheme:HTTPinitialDelaySeconds:30timeoutSeconds:1periodSeconds:30successThreshold:1failureThreshold:
第 5 题：常见的浏览器内核有哪些？ Noxus丶SJ
什么是浏览器内核？浏览器内核也可以理解为排版引擎，主要由2部分组成，渲染引擎和JS引擎排版引擎主要是负责获取网页内容（HTML、XML、图像、CSS、JS）等信息进行解析、渲染网页，将网页的代码转换为看得到的页面浏览器的内核的不同对于网页的语法解释会有不同，所以渲染的效果也不相同，常见的内核有Trident、Gecko、Webkit、Presto、Blink五种Trident内核代表作品是IE，俗
presto内存配置逻辑梳理 lilyjoke 大数据 presto
presto内存配置逻辑梳理Presto分了两块内存池：GENERAL_POOL和RESERVED_POOL，而RESERVED_POOL根据业务实际情况，我会禁用，所以这块内存不做分配和考虑。GENERAL_POOL中会分两类内存：usermemory和systemmemory。systemmemory用于input/output/exchangebuffers，存放实际读写的实际数据；user
回答网友问题之十一 DIGITALMAN
问题：我用Thea渲染器presto（MC）渲染的时候总是没法渲染出有色玻璃的投影和焦散，表现出来的投影都是一片黑灰色，把渲染设置里面的几个貌似相关的设置都打开了，还是没有效果，相比之下其他几个引擎都能比较好的渲染有色玻璃的投影以及焦散效果，就是渲染速度比不上Presto（MC），怎么才能让Presto（MC）也渲染出有色玻璃的真实投影和焦散呢？回答：TheaRender渲染器在同一框架内置了三类
【大数据面试题】006介绍一下Parquet存储格式的优势 Jiweilai1 一天一道面试题大数据 spark hadoop
一步一个脚印，一天一道面试题列式存储同一列的数据是同一种数据类型，所以压缩比例可以更高。同时一般查询使用时不会使用所有列，而是只用到几列，所以查询速度会更快压缩比例高因为是列式存储，所以可以对同一类型的一段做压缩，压缩比例高支持的平台和框架多在Hadoop,Spark,Presto,Python等都支持，所以Parquet文件可以在不同系统和语言通用。这是我觉得比较实在的优势
浏览器及浏览器内核的基本介绍泡椒猪肝前端
浏览器及浏览器内核的基本介绍一、浏览器二、编译器三、HTML四、标记一、浏览器五大主流浏览器1.IE浏览器，2.Chrome浏览（谷歌浏览器），3.FirFox（火狐浏览器）4.Safari浏览器（苹果浏览器），5.Opera浏览器（欧朋浏览器）。浏览器内核IEtridentChromewebkit/blinkfirefoxGeckoOperaprestoSafariwebkit简介IE浏览器：它
整理前端面试题（上）强哥科技兴
1.常用那几种浏览器测试？有哪些内核(LayoutEngine)?(Q1)浏览器：IE，Chrome，FireFox，Safari，Opera。(Q2)内核：Trident，Gecko，Presto，Webkit。2.说下行内元素和块级元素的区别？行内块元素的兼容性使用？（IE8以下）(Q1)行内元素：会在水平方向排列，不能包含块级元素，设置width无效，height无效(可以设置line-he
presto获取上月月初和上月月末日期 sggnb presto sql
因为工作中需要，研究了一下，有问题大家一起交流获取上月月末selectCAST((date_add('day',-day_of_month(current_date),current_date))ASVARCHAR);获取上月月初selectdate_trunc('month',(date_add('day',-day_of_month(current_date),current_date)));
Thearender2渲染器学习笔记之六 DIGITALMAN
使用PRESTOMC渲染引擎，5分效果。没有调整好灯光位置，金属勺子完全爆掉了一点金属细节都没了，但你要看的是橙汁，哈哈。【前言】上一篇重点介绍了Thea的五大基本材质之一：BASIC材质及其相关属性。BASIC基础材质相当于其他渲染器的标准材质一样，主要用于模拟哑光和塑料，我们也可以用其反射和半透明模拟金属和SSS材质。这个材质效率很高，渲染速度相对较快。简单回顾就是下面这张图。点击该图，可看大
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe