turingbooks

万字干货 | 一文揭秘Presto在腾讯资讯业务中的应用

随着产品矩阵和团队规模的扩张，跨业务、APP的数据处理和分析总是不可避免。一个显而易见的问题就是异构数据源的连通。我们基于PrestoDB构建了业务线内适应腾讯生态的联邦查询引擎，连通了部门内部20+数据源实例，涵盖了90%的查询场景。同时，我们参与公司级的Presto Oteam进行协同共建，在引擎层面做了诸多改造。在实际使用Presto的过程中，也发现其SQL表达能力的过人之处。本文将从Presto的使用者和开发者两个角度，给大家分享一些技术落地过程中的干货。

简介

Presto是Facebook研发的基于SQL进行大数据分析的高性能分布式计算引擎，最开始是用来解决Hive速度慢以及异构数据源互通的问题。它在大数据家族中属于MPP（massive parallel processing）计算引擎范畴，其原理是火山（volcano）模型：将SQL抽象成一个个算子（operator），形成管线（pipeline）。目前能够支持Hive、HBase、ES、Kudu、Kafka、MySQL、Redis等几十种数据源的读取。Presto有如下特点：

基于SQL语言，上手成本低，而且功能强大，支持reduce和lambda函数；
纯计算引擎，解耦底层存储，可快速缩扩容；
纯内存计算，速度快，提供交互式的查询体验；
通过插件的方式实现拓展功能，二次开发友好；
通过不同的连接器（connector）插件读取异构数据源，进行联邦查询。

Presto架构图

业务现状

无论是传统信息流业务还是医疗业务，或多或少都会遇到异构数据源整合问题。比如医生、患者的状态数据由后台维护，前端上报数据则在Hive中。另外，由于相同数据源的不同版本间差异较大，往往没有完整的解决方案，这导致查询分析速度慢，业务叫苦不迭，e.g. Hive不同实例仅通过MR引擎进行互通。

2.1 业务构成

目前，个人接触过的业务包括资讯类的腾讯看点、腾讯医典，以及医生问诊相关的腾讯云医。

业务构成

2.2 痛点问题

数据互通的时候，底层的数据源可能是同一数据源的多个实例，或是不同版本、魔改版本，e.g. 司内tHive与Venus都是Hive数据源。在跨业务/APP分析时，这种问题会更加明显。同时，由于应用场景的不同（离线计算、快速索引），天然也会存在多数据源问题。原因总结如下：

团队技术栈差异；
同类产品较多；
架构、历史遗留；
应用场景不同。

异构数据源问题

2.3 主要工作

针对Hive查询提速的问题，我们在联邦查询引擎中适配了内部的Hive数据源，并且参与中台Oteam项目进行Hive兼容、Presto引擎层优化、改造。同时，我们进行了技术运营工作来帮助大家更好地使用Presto。针对异构数据源打通的问题，我们进行了联邦查询引擎的调研与开发，在引擎层面对内部不同种类的数据源进行适配。最后是一些技术输出的规划工作。

Presto技术运营
联邦查询引擎改造适配
Presto Oteam引擎研发
技术输出

技术运营

由于身处业务的数据团队中，除了参与中台的技术研发，平时也会使用Presto，并且负责SQL相关问题的答疑，既是开发者，也是使用者。大多数人对Presto的印象，仅仅停留在“都是SQL引擎”上，其实不然。Presto的SQL语言能力非常出色。如slogan所宣传的那样，SQL on Everything：不仅能够连接各种数据源，还能满足复杂的处理逻辑。如果认为“Presto在SQL层面上做到兼容Hive就差不多了”，那就没有真正发挥出Presto的威力。

3.1 reduce + lambda

以下来自一个真实案例，数据分析同学根据APP上报的用户行为日志进行清理、建模。

- v1版本：对用户路径按时间排序，然后输入模型进行建模。通过以下SQL片段可以满足需求。首先用array_agg将用户所有行为按照event_time排序，收集成数组，然后用'/'连接符进行拼接。

array_join(array_agg(data order by event_time asc), '/')

- v2版本：由于上报时机的原因，总是会有些相邻的重复上报，分析同学希望把这些相邻数据剔除掉，例如有些行为定时10s上报一次，期望达到如下的效果：

A/B/A/A/C -> A/B/A/C

如果不是别人问，自己是不会想到可以用SQL来完成这种操作的。数组相邻元素去重，乍看是非常特化的需求，SQL不太可能满足，但后来发现还真的可以实现。不得不说Presto的reduce函数，加上自由度极高的lambda表达式，以及可以承载多个变量的Row类型，使得我们几乎可以在SQL中“编程”（这里使用针对array类型的reduce函数，更通用的聚合函数为reduce_agg）。最终解法如下：

-- 逻辑：6/4/6/6/10/20 -> 6/4/6/10/20
-- distinct adjacent elements
SELECT reduce(
                ARRAY ['6', '4', '6', '6', '10', '20'], -- 输入

                CAST(
                        ROW(ARRAY[], '') 
                        AS ROW(arr ARRAY(VARCHAR), prev_ele VARCHAR)
                    ),  -- 初始状态S

                (S, T) -> CAST(
                                ROW(IF(S.prev_ele=T, S.arr, S.arr||T), T) 
                                AS ROW(arr ARRAY(VARCHAR), prev_ele VARCHAR)
                              ),  -- lambda输入函数I

                S -> array_join(S.arr, '/') -- lambda输出函数O
             );

以作用对象为数组的reduce函数为例，包含以下4个参数。

长度为N的数组。每个元素将会依次送入lambda输入函数。
初始状态。第一个元素和该状态作为lambda输入函数第一次调用的参数。
一个lambda输入函数。调用N次。它接收一个状态和一个元素，产生一个新的状态。
一个lambda输出函数。调用一次。对3中处理完的最终状态做一次变换。

reduce(array(T), initialState S, inputFunction(S, T, S), outputFunction(S, R)) → R

可以看到，示例中的状态S是一个Row类型的变量，它可以存储多个元素。第一个是去重数组arr，第二个是上一个元素的值prev_ele。lambda输入函数每次接收到一个新的值，和prev_ele比较，相等则什么也不做，不等则将新值放入去重数组中，同时更新prev_ele。reduce是一种通用的模型，lambda则最大程度地利用了SQL的现有能力，使得Presto的SQL表现力更加强大。

3.2 窗口函数

Presto中的聚合函数都可以被用在窗口函数中，使用array_agg可以把当前的窗口截取下来，结合Window Frame可以操纵窗口大小，衍生出很多窗口类型。主要由两个维度组成。

首先是相同行的处理方式，记为dim1。

RANGE：当前窗口会包含值相同的相邻行。
ROWS：当前窗口不会包含值相同的相邻行。

然后是窗口的边界指定，最后两种仅支持与ROWS连用，记为dim2。

UNBOUND PRECEDING：排序后第一个元素。
UNBOUND FOLLOWING：排序后最后一个元素。
N PRECEDING：排序后，当前行的前N行。
N FOLLOWING：排序后，当前行的后N行。

window frame[1]

通过以下SQL的结果，应该能对窗口函数有更进一步的认识。为了简化，我们假设只有一个partition，排序为asc。列名取值如下所示，方便大家理解：

命名方式

-- value为关心的值
-- 以index进行排序
WITH
    t1 (value, index) AS 
    (
        SELECT * FROM (VALUES ('a', 1),
        ('b', 2),
        ('c', 3),
        ('d', 4),
        ('e', 4),
        ('f', 5),
        ('g', 5),
        ('h', 6))
    )

SELECT *,
    -- 默认
    array_agg(value) OVER 
        (ORDER BY index) res, 
    -- [开头, 当前值]
    array_agg(value) OVER 
        (ORDER BY index RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) res_range_uc,
    -- [开头, 当前行]
    array_agg(value) OVER 
        (ORDER BY index ROWS  BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) res_rows_uc,
    -- [当前值, 末尾]
    array_agg(value) OVER 
        (ORDER BY index RANGE BETWEEN CURRENT ROW AND UNBOUNDED FOLLOWING) res_range_cu,
    -- [当前行, 末尾]
    array_agg(value) OVER 
        (ORDER BY index ROWS  BETWEEN CURRENT ROW AND UNBOUNDED FOLLOWING) res_rows_cu,
    -- [前1个值，后1个值] 不支持
    -- array_agg(value) OVER (ORDER BY index RANGE BETWEEN 1 PRECEDING AND 1 FOLLOWING) res_range_11, not support
    -- [前1行，后1行]
    array_agg(value) OVER 
        (ORDER BY index ROWS  BETWEEN 1 PRECEDING AND 1 FOLLOWING) res_rows_11
FROM t1;

presto>

 value | index |           res            |       res_range_uc       |       res_rows_uc        |       res_range_cu       |       res_rows_cu        | res_rows_11 
-------+-------+--------------------------+--------------------------+--------------------------+--------------------------+--------------------------+-------------
 a     |     1 | [a]                      | [a]                      | [a]                      | [a, b, c, d, e, f, g, h] | [a, b, c, d, e, f, g, h] | [a, b]      
 b     |     2 | [a, b]                   | [a, b]                   | [a, b]                   | [b, c, d, e, f, g, h]    | [b, c, d, e, f, g, h]    | [a, b, c]   
 c     |     3 | [a, b, c]                | [a, b, c]                | [a, b, c]                | [c, d, e, f, g, h]       | [c, d, e, f, g, h]       | [b, c, d]   
 d     |     4 | [a, b, c, d, e]          | [a, b, c, d, e]          | [a, b, c, d]             | [d, e, f, g, h]          | [d, e, f, g, h]          | [c, d, e]   
 e     |     4 | [a, b, c, d, e]          | [a, b, c, d, e]          | [a, b, c, d, e]          | [d, e, f, g, h]          | [e, f, g, h]             | [d, e, f]   
 f     |     5 | [a, b, c, d, e, f, g]    | [a, b, c, d, e, f, g]    | [a, b, c, d, e, f]       | [f, g, h]                | [f, g, h]                | [e, f, g]   
 g     |     5 | [a, b, c, d, e, f, g]    | [a, b, c, d, e, f, g]    | [a, b, c, d, e, f, g]    | [f, g, h]                | [g, h]                   | [f, g, h]   
 h     |     6 | [a, b, c, d, e, f, g, h] | [a, b, c, d, e, f, g, h] | [a, b, c, d, e, f, g, h] | [h]                      | [h]                      | [g, h]      
(8 rows)

3.3 高阶运营

一般来说，通过官方文档就可以解答大部分问题。但有时候文档也没说明细节，只能看源码了。关于语法特点的问题，需要查看SqlBase.g4。比如以下SQL为什么可以运行？不是所有查询语句都需要以select开头：

presto> (VALUES ('a', 1),('b', 2));
 _col0 | _col1 
-------+-------
 a     |     1 
 b     |     2 
(2 rows)

语义分析中的问题，需要查看StatementAnalyzer。比如窗口函数执行完成后，用标量函数做一些加工处理，必须写在整个窗口函数func2(func1() over ())的外面，而不是func2(func1()) over ()。

--报错
array_join(array_agg(concat(col1, col2)), '/') 
  over (partition by user_id order by event_time)

vs

--成功
array_join(
  array_agg(concat(col1, col2)) 
    over (partition by user_id order by event_time),
  '/')

3.4 语法、语义错误

还有个问题：到底怎么区分语法、语义错误？对于使用者而言，不建议了解。对于开发者来说，还是很有必要了解的。语法错误是指通过简单规则捕获的SQL错误，在Antlr层面就可以截获，跟上下文关系不大，e.g. select * from from table1; 语义错误需要上下文信息，比如库表、字段是否合法？对于Presto而言，lambda表达式出现的位置是否合法？了解语法、语义的区别，对问题的排查也是十分高效的。

联邦查询引擎

异构数据源导致的问题：

搭建各种ETL Pipeline，维护成本高；
数据分析速度严重拖慢。

为此，我们引入Presto作为联邦查询引擎，一方面利用多数据源能力，减少ETL相关工作量。另一方面，利用Presto的速度为业务分析提速。本次介绍两个数据源适配的工作：

为了适配内部的tHive，我们在MetaStore的Thrift RPC协议中植入了内部鉴权机制；
针对云上ES的网络情况，禁用了自动嗅探逻辑。

4.1 tHive连接器适配

Presto的Hive连接器通过与HMS（Hive MetaStore）通信获取Hive库表的位置信息，然后拉取数据。腾讯tHive有自己的一套鉴权体系TAUTH，我们需要将这种鉴权机制引入到Hive连接器中。外部一般通过Thrift RPC协议与HMS通信。那么如何加入鉴权能力呢？

获取Hive库表元数据

参考Hive连接器中Kerberos机制的实现（下图），可以看到rawTransport作为参数，用来构建一个新的SaslTransport。

KerberosHiveMetastoreAuthentication

结合TSaslClientTransport的源码可以发现，这里其实是计算机网络分层思想的典型应用。在可靠传输层rawTransport的基础上，再包装了一个Sasl层。利用底层rawTransport提供的可靠传输能力，进一步提供安全策略。e.g. 某些QoS条件下，调用Sasl层的write()，会对数据进行加密，Sasl进而调用下一层的write()函数，将加密后的数据发送到可靠的传输通道中。它们都实现了TTtransport接口，I/O函数如下所示：

open()
close()
flush()
readAll()
write()

本质为网络协议栈

Sasl层本身并不绑定特定的鉴权机制，它是一个框架。通过JCA注册的鉴权机制都可以在运行时被指定。

鉴权机制插件化

所以如果想整合自定义的鉴权机制，需要注册对应的SecurityProvider。

底层原理

总结：对于小白来说，“为Hive连接器增加一种鉴权机制”是个很难理解的技术需求。通过前文的探索，我们发现其本质是：“如何在HMS的Thrift RPC中，为SASL鉴权层增加一种自定义的安全协议。”这里的上下文比较多，需要对HMS、THrift RPC、SASL、JCA、Kerberos等概念有大概的了解，才知道需要做什么。对技术的提升还是很有帮助的。

4.2 ES连接器踩坑

第二个case：调研ES连接器的时候，发现Presto启动时第一次连接ES集群是成功的。但是后面哪怕没有执行ES相关查询也会无故报错，堆栈信息显示网络连接失败。

报错信息

经过排查，发现与定时嗅探逻辑有关。Presto底层依赖了Facebook内部的Airlift后台框架。在这个场景下，通过Bootstrap注册的类会被生命周期管理器识别，@PostConstruct注解（annotation）标记的函数会在类实例化后被自动调用。可以看到，一个refreshNodes()函数被定期调用了，该函数会获取ES集群中所有的可用节点IP，并在下次将请求发送到其中一个节点。

@PostConstruct

由于云上ES集群只开放了一个主节点的访问端口，嗅探获得的IP其实是不能用的。这也解释了为什么第一次访问是成功的（第一次访问的主节点开放），而后续访问大概率是失败的（其他节点端口不开放）。

自动嗅探逻辑

主要的改造就是禁用自动更新节点逻辑，位于ElasticSearchClient文件。在改造的过程中，发现已经有参数elasticsearch.ignore-publish-address可以满足需求，但是在去年8月的时候，DB、SQL的文档里竟然没有记录这个参数，在GitHub上搜索一波发现已有issue了，目前社区已经补齐了文档。

忽略嗅探IP

总结：Airlift后台框架虽然没有文档，但开发者还是要认真看。

Oteam共建

在去年，随着Presto在腾讯内部的应用场景越来越多，为了整合各部门的研发能力和技术成果，公司内部由PCG欧拉数据中台牵头发起了Presto Oteam项目。作为资讯业务的数据工程同学，我们也有幸参与共建。Oteam部分工作内容如下：

Hive语义兼容，函数迁移
RBO/CBO执行解析器
Worker Tag能力
分析函数开发
语法/语义扩展
动态数据源支持
查询性能优化专项
Coordinator执行流程优化
bug fix……

限于篇幅，简单介绍一点：标量函数开发原理。

5.1 函数开发

不同于Hive UDF函数可以由用户直接上传，在Presto引擎中所有扩展部件都以插件形式被统一整合。除了最常见的连接器插件以外，函数也是一种插件。如果业务需要自定义函数，就需要单独开发函数插件。Presto引擎自带了很多函数，可以作为开发者的参考。总共有两种函数开发方式：

使用注解框架的普通函数；
使用字节码适配的变长参数函数。

第一种方式需要使用Presto引擎的注解框架，官网给的例子比较简单，各种注解搭配使用的方式实际比较复杂。同时函数的数据类型需要涉及Presto引擎的Slice、Block等类型，有一定学习成本。第二种方式比较少见，而且不支持通过插件进行开发，只能写到presto-main模块中，它基于Presto自带的字节码框架动态生成字节码（包com.facebook.presto.sql.gen），是比较hack的实现，可以参考ArrayConcatFunction。

5.2 函数注解框架

以标量函数为例。函数开发和普通的Java方法编写本质上是一样的，但是也有很多差异点。

需要使用注解（annotation）标记出该函数是一个可供调用的标量函数，包括函数名、返回类型、参数类型等。
Java原生类型和Presto类型有一一对应的关系。Java的Slice对应Presto中的Varchar类型，Java的Block对应Presto中的Array类型。（下文分别称为Java类型和SQL类型。）
这些特定的Java类型逻辑上等价于String、Array数组，但是API差别很大，前期有一定的上手成本。
函数有两套签名。基于反射可以获取Java类型的形参、返回值类型，称为方法签名。基于@SqlType注解可以获取Presto引擎使用的参数、返回值类型，称为函数签名。这里做个严格的区分。
可以使用@TypeParameter函数注解引入泛型变量。在函数体声明相关的泛型参数，供SqlType引用。
可以使用@LiteralParameter函数注解引入字面量变量。
可以使用形参注解@TypeParameter、@LiteralParameter、@FunctionDependency、@OperatorDependency声明一些依赖型参数，在调用函数之前，Presto会根据解析出来的元数据，自动注入参数依赖。

我们把写在函数体/类名上的注解称为函数注解，把写在函数形参前面的注解称为形参注解，方便下文引用。一般来说，关注前四点就够了。后面是一些进阶的使用技巧。

按注解类型区分：

	函数注解	形参注解
@SqlScalarFunction	定义函数名，函数属性	-
@Description	定义函数描述信息	-
@SqlNullale	返回值是否可以是null	形参是否接收null
@SqlType	返回值的SQL类型	形参的SQL类型
@TypeParameter	定义泛型变量	引入依赖型参数
@LiteralParameters	定义字面量变量	引入依赖型参数

以下是官网的一个例子：

public class ExampleNullFunction
{
    @ScalarFunction("is_null", calledOnNullInput = true)
    @Description("Returns TRUE if the argument is NULL")
    @SqlType(StandardTypes.BOOLEAN)
    public static boolean isNull(@SqlNullable @SqlType(StandardTypes.VARCHAR) Slice string)
    {
        return (string == null);
    }
}

对应刚刚说到的几点。

isNull函数体有三个注解，@ScalarFunction定义了函数名和calledOnNullInput属性。@Description定义了函数的描述字段，在Presto客户端用show functions命令可以看到函数的描述信息。@SqlType描述了函数的返回值类型。这些是函数注解。
形参的SQL类型是VARCHAR，Java类型是Slice。如果Slice换成其他类型，函数调用会失败。这个是形参注解。
返回值、形参都有@SqlType注解，它们定义了SQL类型。在Presto引擎层面，基本都是使用SQL类型来进行解析的。

再来看另外一个例子：

@ScalarFunction(name = "is_null", calledOnNullInput = true)
@Description("Returns TRUE if the argument is NULL")
public final class IsNullFunction
{
    @TypeParameter("T")
    @SqlType(StandardTypes.BOOLEAN)
    public static boolean isNullSlice(@SqlNullable @SqlType("T") Slice value)
    {
        return (value == null);
    }

    @TypeParameter("T")
    @SqlType(StandardTypes.BOOLEAN)
    public static boolean isNullLong(@SqlNullable @SqlType("T") Long value)
    {
        return (value == null);
    }

    @TypeParameter("T")
    @SqlType(StandardTypes.BOOLEAN)
    public static boolean isNullDouble(@SqlNullable @SqlType("T") Double value)
    {
        return (value == null);
    }

    // ...and so on for each native container type
}

可以看到，在函数体中，多了@TypeParameter函数注解，引入了一个泛型变量T，可以在形参注解中被@SqlType引用。@SqlType注解的类型声明为T以后，这几个函数的函数签名都是一样的。在Presto引擎看来，这几个函数拥有相同的函数签名，是一类函数。

其中，有很多细节的问题其实需要看源码才知道需要怎么写。比如，细心的同学从上面两个例子可以发现一些问题。

问：为什么第二个例子的@ScalarFunction和@Description注解是写在类名上面而不是函数名上面？
答：写在类名上，代表这个类中的所有方法的函数签名都是一样的，由一个ParameticScalar类进行管理。
问：Slice和Java的String是什么关系，需要怎么处理转换？
答：参考其他函数的实现，可以调用toStringUtf8()转换成String类型再做处理。
问：哪些注解是一定要写的？哪些是可选的？哪些是在某些条件下需要同时出现的？
答：比如说@ScalarFunction中的calledOnNullInput属性，当形参中有以下任意注解(@SqlNullable,@BlockPosition,@IsNull)的时候，需要指定为true，默认为false。

虽然Presto文档只讲了冰山一角，但是引擎内部自带了很多函数，是非常有价值的参考资料。这里有很多细节，需要看Presto源码才能得到答案。以上只是注解的使用，具体这个自定义函数后续如何被Presto引擎解析，不关注问题也不大。即使注解写错了，大部分case也会在插件装载的时候被识别出来。推荐高阶开发者看看ParametricScalarImplementation中标量函数的解析流程。

5.3 常用注解参考手册

以下总结了注解框架中的一些常用注解。建议有一定基础后作为参考来看。

@ScalarFunction：函数注解。定义函数的名称、别名、可见性、纯函数性，以及是否处理空值。

元数据	含义
value	函数名
alias	函数别名
visibility	函数可见性
deterministic	纯函数性
calledOnNullInput	函数的形参是否可以处理空值

@Description：函数注解。描述函数功能的字符串。在Presto客户端使用show functions命令可以查看。

@TypeParameter：函数注解、形参注解。对于函数注解，声明一个泛型变量，形参注解中的@SqlType可以使用它，在解析函数调用的时候会尝试将泛型类型和具体类型进行绑定。对于形参注解，它引入一个依赖型参数。

@LiteralParameters：函数注解、形参注解。对于函数注解，定义一些字面量变量，长整数类型。如果有@Constraint函数注解，则需要满足它定义的表达式条件。对于形参注解，它引入一个依赖型参数。

@SqlType：函数注解、形参注解。定义形参、返回值的SQL类型。大概可以分为以下几种。

类型	含义
varchar	原始类型，无参数，无字面量变量或泛型变量
array(varchar)	原始类型，有一个参数varchar，无字面量变量或泛型变量
T	泛型，必须是@TypeParameter声明的泛型变量，不能带参数
varchar(x)	原始类型，带参数（字面量变量）

@SqlNullale：函数注解、形参注解。对于函数注解，表示返回值类型是否可能为空。原始类型（e.g. int）不需要注解，包装类型和其他类型需要声明该注解。对于形参注解，如果该位置的实参是null，依然执行函数体。默认情况遇到null直接返回null。参考InterpretedFunctionInvoker的空值处理逻辑。

依赖型参数：一种形参注解。函数中需要用到的一些变量，从SQL语句自动推导而来。这些形参由框架处理，用户不感知。

contains函数

可以看到，contains函数有多种类型，但是函数签名都是一样的。由于在函数中需要根据实际类型来调用接口读取元素，因此T的实际类型必须通过形参的方式传递进来，但是用户写SQL的时候并不用显式指定类型，因为它可以自动推导出来，这里涉及methodHandle的绑定参数，就不详细展开了。总之，虽然contains()有四个参数，但是用户只感知最后两个。

5.4 变长参数函数

一些变长参数的函数，比如tHive中的parse_simple_json函数，在ETL任务中一次调用解多个key，是比较高效的。虽然是变长参数，但是这里的变长，是相对不同用户提交的SQL语句而言的。而用户每一次提交的SQL，其实参数个数都是确定的，没有必要用变长参数，e.g. 对于一个SQL，代码中的parse_simple_json(d4, 'key1', 'key2')，其实参数就是三个。函数声明为变长，但是实际中根据每条SQL语句转成定长参数。针对这种情况，Presto引擎并没有使用注解框架，而是采用了比较hack的方式，直接定义一个内部函数类，里面有一个形参为数组的业务函数。通过引擎自带的字节码生成模块，把它适配成一个定长参数函数。大致原理如下所示：

字节码动态适配

最后附上标量函数注册的流程图，希望能对函数注册的流程有更直观的理解。

函数注册流程

技术输出

从去年下半年开始入门Presto引擎开发，接触下来感觉从零起步确实不易。虽然仔细搜索还是能找到一些不错的资料，但是Presto的官方文档相对于其他大数据组件来说是偏少的。比如基础的Airlift框架，官方文档仅有一句话介绍。为了降低后续同事的学习成本，这里特地把一些知识点梳理成脑图（逐步完善中），也供大家参考。大多数子节点都能用一章的篇幅来展开描述，可见快速培养出一个优秀的Presto开发者还是不太容易。以后有机会我们也会输出一系列技术文集。

基础知识

执行相关概念

腾讯内部应用概览

最后列出部分腾讯内部应用的Presto情况。

7.1 应用场景

TEG-大数据平台统一SQL引擎SuperSQL，Presto作为计算引擎融合的一部分，实现联邦数据访问，计算加速等功能，支持交互式数据分析场景。
PCG-欧拉中台，在数据质量监控和资产洞察以及在线数据服务的数据装载中，作为计算查询引擎。
TEG/CSIG联合-云原生数据湖计算DLC，用户使用标准SQL即可完成对象存储服务（COS）及其他云端数据设施的联合建模、分析，无服务器架构（Serverless Presto）作为底层计算引擎。
CSIG-云日志服务CLS，扩展了大量自定义SQL函数，以丰富PB级日志实时SQL分析能力。Presto支持底层存储解耦，提供不同场景日志需求，以及异构存储联合查询。
CSIG-医疗资讯与服务部，作为业务线数据服务平台联邦查询引擎，统一查询前端语言，计划打通用户状态存储的MySQL、流水日志存储的ES、用户行为数仓的Hive/ClickHouse/Iceberg等。
PCG-腾讯看点，连接部门内20余个异构数据源的联邦查询引擎，适配了腾讯内部的Hive/ES/CH/Redis等数据源。
IEG-数据中台，作为数据查询服务联邦查询，Adhoc场景执行引擎。

7.2 合作生态

腾讯内部通过Oteam的方式来组织跨BG/部门的开源协同共建。目前和Presto关系比较密切的Oteam有Alluxio、Iceberg、Impala。Alluxio缓存技术已经在TEG的部分场景落地使用了。TEG大数据团队也和Presto/Trino社区同时提出了各自的Iceberg Connector PR。Impala在腾讯灯塔平台已经有非常成熟的应用落地，未来和Presto一起加强对MPP引擎发展的探讨。期待未来Oteam组织以及其他大数据团队能有更深入的合作，助力Presto在更多业务中落地推广。

后续计划

除了继续在Presto引擎层面进行深耕优化，联邦查询引擎的应用层功能需要继续丰富，还有很多用例需要去探索。基于数据分析同学的反馈，很多复杂的预处理逻辑以往需要Spark、Scala或者PySpark进行处理，现在基本都可以用Presto代替了，后续如果能把模型训练等调包流程整合到一起，也许能够提供上手成本更低的数据分析体验，也是一个值得探索的方向。最后，我们希望在服务好业务的前提下，进行一系列高质量的技术输出来提升部门的技术影响力。

结合业务场景，完成引擎和相关连接器的优化改造
丰富联邦查询引擎应用层功能
数据科学引擎
强化技术输出

新书推荐

Matt Fuller、Manfred Moser、Martin Traverso 著

张晨黄鹏程傅宇译

封面第一印象：Presto运行SQL，就像青蛙吃虫子一样快？

本书是由Presto创始团队推出的首本官方实战指南，内容质量是毋庸置疑的。对于初学者来说，左手官网文档，右手《Presto实战》进行入门应该是标准姿势。其行文的层次性、结构性，内容的完整性、权威性，对新手和高手来说都是一本非常好的"字典"。推荐给有兴趣的同学～

“Presto引擎在大数据领域的重要性不言而喻，但参考资料屈指可数，这本书正是大家期待的那本‘官方指南’。无论是SQL编写、技术调研、运维部署，还是二次开发，都值得一读。书中第三部分为企业级应用做了详细解答，是一大亮点。”

——腾讯Presto Oteam团队

限时半价

题图 | Designed by vectorpouch / Freepik

图灵社群

喜欢这篇文章？点个“在看”吧~▼

你可能感兴趣的:(大数据,编程语言,java,spark,数据分析)

使用Node.js命令行进行编程翠绿探寻 node.js vim 编辑器编程
Node.js是一个基于ChromeV8JavaScript引擎构建的运行时环境，它可以让开发者使用JavaScript语言编写服务器端代码。Node.js命令行界面（CLI）是一个强大的工具，它提供了与Node.js交互和执行JavaScript代码的能力。在本文中，我们将介绍如何在Node.js命令行中使用JavaScript进行编程，并提供相应的源代码示例。1.安装Node.js首先，我们需
Kafka系列之：不删除Kafka Topic，清理Kafka Topic中的数据快乐骑行^_^ Kafka Kafka系列不删除Kafka Topic 清理Kafka Topic数据
Kafka系列之：不删除KafkaTopic，清理KafkaTopic中的数据一、需求二、Java删除Topic中数据三、python删除Topic中数据一、需求需要清理topic中的数据但是不能通过删除topic删除数据，则采取基于topic的offset删除topic中的数据二、Java删除Topic中数据HashMapdeleteRecords=newHashMap<>();这一行创建了一个
反向遍历--当你修改一个元素的outerHTML时，该元素会被从 DOM 中移除专注VB编程开发20年 html javascript
varspans=editor.querySelectorAll('span[mytag]');//将NodeList转换为数组//varspansArray=Array.from(spans);varid=0spans.forEach(span=>{span.outerhtml这里无法直接修改吗?}在JavaScript中，outerHTML是一个可写属性，但你需要注意以下几点：1.属性名大小写
java中，stream的filter和list的removeIf筛选速度比较码傻啦弟软件开发 java list python
在Java里，Stream的filter和List的removeIf筛选效率要依据具体情形来判断。1.操作本质有别Stream的filter：它是一种中间操作，不会立刻执行，而是把筛选条件记录下来。只有遇到终端操作时，才会开始处理元素。此操作不会对原集合进行修改，而是生成一个新的流。List的removeIf：这是一种终端操作，会立即对原集合进行修改，删除满足条件的元素。它直接在原集合上进行元素的
量子化学仿真软件：NWChem_（17）.NWChem与其他软件的接口 kkchenjj 化工仿真2 数据库服务器前端化工仿真
NWChem与其他软件的接口在量子化学仿真中，NWChem经常需要与其他软件进行接口连接，以便利用其他软件的优势或扩展其功能。本节将详细介绍NWChem与其他常用软件的接口，包括电子结构软件、分子动力学软件、数据分析工具等。我们将探讨如何通过这些接口实现数据交换、功能调用和联合仿真。1.NWChem与Gaussian的接口Gaussian是另一款广泛使用的量子化学软件，具有强大的电子结构计算功能。
Tomcat镜像实战：掌握Dockerfile的编写以及发布项目 hunjinYang Linux tomcat docker
1.为什么选择Docker部署Tomcat？在传统的JavaWeb项目部署中，我们通常需要手动安装JDK、配置Tomcat环境变量、手动部署WAR包，部署过程繁琐、不可重复、环境易出错。而Docker的出现彻底改变了这一局面。本博客将通过一个完整的Tomcat镜像构建与部署实例，带你逐步掌握以下技能：编写自己的Dockerfile构建定制化的Tomcat镜像（包含JDK与Tomcat）在容器中运行
C#安装使用教程小奇JAVA面试安装使用教程 c#开发语言
一、C#简介C#（读作C-Sharp）是微软开发的现代化、面向对象的编程语言，运行在.NET平台之上。它语法简洁、安全，广泛用于桌面应用、Web开发、游戏开发（Unity）以及跨平台开发。二、C#应用场景Windows桌面应用程序（WinForms、WPF）Web应用（ASP.NET）游戏开发（Unity3D）移动开发（Xamarin、MAUI）云服务、API开发控制台程序、自动化工具三、安装开发
ASP.NET Web Pages - 教程 samFuB asp.net 前端后端
ASP.NET是一个使用HTML、CSS、JavaScript和服务器脚本创建网页和网站的开发框架。ASP.NET支持三种不同的开发模式：WebPages（Web页面）、MVC（ModelViewController模型-视图-控制器）、WebForms（Web窗体）：本教程介绍WebPages。WebPagesMVCWebForms从何入手？多数开发人员学习一个新技术，是从查看运行实例开始的。通
ASP.NET Web Pages 教程：从入门到精通 KrDebugging asp.net 前端后端编程学习
ASP.NETWebPages是一种用于构建动态网页的技术，它结合了传统的HTML、CSS和JavaScript，以及强大的服务器端编程语言C#。本教程将带您逐步学习ASP.NETWebPages的基础知识，并通过示例代码演示如何创建交互性强、功能丰富的网页应用程序。环境设置在开始学习ASP.NETWebPages之前，您需要进行以下环境设置：安装VisualStudio：您可以从Microsof
JavaScript中==和===的区别，以及应用场景小熊哥^--^ 前端 javascript 前端开发语言
比较操作符==与===的区别==是一个等于操作符，如果操作数相等就会返回true，但==涉及JavaScript中的隐式转换。在使用==时会先进行类型转换，再判断操作数是否相等。以下是示例：console.log(true==1);//trueconsole.log("1"==true);//trueconsole.log("55"==55);//trueconsole.log(0==false)
Spring Boot 应用开发入门指南 20230310121 spring boot 后端
引言在现代软件开发中，SpringBoot以其简化配置和快速开发的特性，成为构建Java应用的热门选择。本文将通过多个主题为大家详细介绍如何搭建和开发SpringBoot应用，涵盖开发环境配置、项目搭建、持久层整合等内容。1.配置开发环境1.1JDK安装首先，确保安装了JDK（JavaDevelopmentKit）。推荐使用JDK11或更高版本。下载地址：OracleJDK安装完成后，配置环境变量
推客系统全栈开发指南：从架构设计到商业化落地 ywyy6798 系统小程序分销系统短剧系统海外短剧系统推客系统推客小程序
一、推客系统概述推客系统（TuiKeSystem）是一种结合社交网络与内容分发的创新型平台，旨在通过用户间的相互推荐机制实现内容的高效传播。这类系统通常包含用户关系管理、内容发布、智能推荐、数据分析等核心模块，广泛应用于电商导购、知识分享、新闻资讯等领域。推客系统的核心价值在于：利用社交关系链实现内容病毒式传播通过激励机制提升用户参与度基于用户行为数据优化推荐算法构建内容生产者与消费者的良性互动生
《支持向量机（SVM）在医疗领域的变革性应用》 CodeJourney. 支持向量机算法机器学习
在医疗科技日新月异的今天，先进的数据分析与机器学习技术正逐渐成为提升诊疗水平、助力医学研究的关键力量。支持向量机（SVM），凭借其独特的优势，在医疗这片复杂且对精准度要求极高的领域崭露头角，带来诸多令人瞩目的应用成果。一、疾病诊断：癌症早期筛查的“火眼金睛”癌症，作为全球健康的“头号杀手”，早期诊断对提升患者生存率意义非凡。在乳腺癌筛查领域，SVM发挥着重要作用。医疗科研人员收集大量乳腺组织的影像
支持向量机（SVM）在肝脏CT/MRI图像分类（肝癌检测）中的应用及实现猿享天开医学影像支持向量机机器学习人工智能算法
博主简介：CSDN博客专家、CSDN平台优质创作者，高级开发工程师，数学专业，10年以上C/C++,C#,Java等多种编程语言开发经验，拥有高级工程师证书；擅长C/C++、C#等开发语言，熟悉Java常用开发技术，能熟练应用常用数据库SQLserver,Oracle,mysql,postgresql等进行开发应用，熟悉DICOM医学影像及DICOM协议,业余时间自学JavaScript,Vue,
简述C++ nlohmann/json 库 ikkkkkkkl json c++nlohmann
目录JSON概述nlohmann/json库的使用创建json数组/对象字符串解析（parse反序列化）数据访问序列化文件读写JSON概述JSON(JavaScripObjectNotation)是一种轻量级、跨语言的数据交换格式。它基于ECMAScript子集，以独立于编程语言的文本格式存储和表示数据，简洁清晰的结构使其成为理想的数据交换语言，易读、易写且便于机器解析生成，能提升网络传输效率。J
产品经理-埋点分析文档（DRD） - AxureMost AxureMost NPDP 产品经理开源知识库产品经理
埋点分析文档（DRD）-AxureMost数据埋点文档是产品、数据分析师和开发人员之间沟通的桥梁，用于明确需要收集哪些用户行为数据，以及如何收集这些数据。它详细记录了数据埋点的需求、规范和实施细节，确保数据收集的准确性和一致性。以下是数据埋点文档的定义、内容、作用以及规范的详细说明：定义数据埋点文档是一种技术文档，它详细描述了在产品中需要埋点的位置、事件类型、数据字段、统计逻辑等信息。它是产品需求
Android课程前言雪碧聊技术 Android android Java Kotlin
目录一.前言1.Android可以采用哪些语言2.Kotlin和Java的关系①完全互操作（核心关系）②Kotlin是Java的“升级版”③Google的官方态度④Java的现状⑤如何选择？⑥类比总结：一.前言1.Android可以采用哪些语言首选语言为Kotlin，但是上手难度较大；还可以使用Java,这是安卓的传统主力编程语言。总之，建议先使用Java语言开始学Android，后期再学Kotl
Spring IO 与企业级应用开发_构建标准化项目的最佳实践
1.前言1.1SpringIO的诞生背景与定位随着Spring生态的不断扩展，Java开发者在使用SpringBoot、SpringData、SpringSecurity等模块时，常常面临一个痛点：不同模块之间版本不一致、依赖冲突频发、升级困难。为了解决这一问题，Spring推出了SpringIOPlatform，它是一个统一版本管理平台，提供了一套经过验证的模块版本组合（BOM），帮助开发者快速
【雕爷学编程】MicroPython手册之 ESP32-CAM 机器人目标跟踪驴友花雕机器人目标跟踪人工智能嵌入式硬件 python MicroPython ESP32-CAM
MicroPython是为了在嵌入式系统中运行Python3编程语言而设计的轻量级版本解释器。与常规Python相比，MicroPython解释器体积小(仅100KB左右)，通过编译成二进制Executable文件运行，执行效率较高。它使用了轻量级的垃圾回收机制并移除了大部分Python标准库，以适应资源限制的微控制器。MicroPython主要特点包括:1、语法和功能与标准Python兼容,易学
【雕爷学编程】MicroPython手册之 ESP32-S3 USB摄像头驴友花雕嵌入式硬件单片机 python MicroPython ESP32-S3 USB摄像头
MicroPython是为了在嵌入式系统中运行Python3编程语言而设计的轻量级版本解释器。与常规Python相比，MicroPython解释器体积小(仅100KB左右)，通过编译成二进制Executable文件运行，执行效率较高。它使用了轻量级的垃圾回收机制并移除了大部分Python标准库，以适应资源限制的微控制器。MicroPython主要特点包括:1、语法和功能与标准Python兼容,易学
【雕爷学编程】MicroPython手册之 ESP32-CAM 图像识别驴友花雕 1024程序员节单片机嵌入式硬件 MicroPython python ESP32-CAM 图像识别
MicroPython是为了在嵌入式系统中运行Python3编程语言而设计的轻量级版本解释器。与常规Python相比，MicroPython解释器体积小(仅100KB左右)，通过编译成二进制Executable文件运行，执行效率较高。它使用了轻量级的垃圾回收机制并移除了大部分Python标准库，以适应资源限制的微控制器。MicroPython主要特点包括:1、语法和功能与标准Python兼容,易学
【数据分析】Python实现线性回归和多元线性回归（全代码）干了这一碗BUG 线性回归回归算法
老规矩，涉及到的数学原理，想深入了解的可以自行查阅相关资料，这里直接上干货用Python实现。目录逻辑回归中涉及的术语线性回归Python实现多元线性回归Python实现逻辑回归中涉及的术语以下是逻辑回归中一些常见的术语：自变量：应用于因变量预测的输入特征或预测因子。因变量：逻辑回归模型中的目标变量，即我们试图预测的变量。逻辑函数：用于表示自变量和因变量之间关系的公式。逻辑函数将输入变量转换为0到
React + PDF.js 预览 PDF 文件：从基础实现到高级优化的完整指南 EndingCoder 前端开发 javascript react.js pdf 前端前端框架
关键点PDF.js：Mozilla开发的开源JavaScript库，用于在浏览器中渲染PDF文件。React集成：结合React组件化特性，实现高效、交互式的PDF预览功能。功能实现：支持PDF文件加载、页面导航、缩放、搜索、书签和注释。优化策略：包括性能优化（懒加载、缓存）、可访问性和手机端适配。常见问题：处理大文件加载、跨浏览器兼容性和内存管理。实践场景：通过一个文档管理应用，展示PDF.js
Vue3 学习教程，从入门到精通，Vue3 简介知识点及案例代码（1）知识分享小能手 vue3 前端开发网页开发学习 bootstrap javascript typescript 前端 vue.js vue
Vue3简介知识点及案例代码一、Vue3简介Vue3是一款用于构建用户界面的渐进式JavaScript框架，采用MVVM模式，具有响应式、组件化等优点，可提高开发效率，优化应用性能。二、Web前端开发概述Web前端开发涉及HTML、CSS、JavaScript等技术，用于构建用户可直接交互的页面部分。随着技术发展，出现了多种前端框架，Vue3是其中的优秀代表，基于前后端分离模式，使前后端开发解耦，
JAVA自带延时队列DelayQueue集成 m0_47460678 JAVA java 开发语言
importorg.springframework.context.annotation.Bean;importorg.springframework.context.annotation.Configuration;importjava.util.concurrent.DelayQueue;/***延迟队列管理器配置类*用于管理和配置延迟队列相关组件*/@Configurationpublicc
python+springboot+nodejs+uniapp基于微信小程序外卖系统 QQ_1963288475 python spring boot uni-app django flask node.js 微信小程序
文章目录具体实现截图本项目支持的技术路线源码获取详细视频演示：文章底部获取博主联系方式！！！！本系统开发思路进度安排及各阶段主要任务java类核心代码部分展示主要参考文献：源码获取/详细视频演示##项目介绍随着移动互联网的迅猛发展，微信小程序凭借其无需下载安装、即用即走的特点，成为众多应用开发的首选平台。本文设计并实现了一款基于微信小程序的外卖网站，旨在为用户提供便捷的点餐服务，同时为餐厅提供高效
深入理解 classnames：React 动态类名管理的最佳实践司南锤前端 react.js 前端前端框架
在现代前端开发中，我们经常需要根据组件的状态、属性或用户交互来动态切换CSS类名。虽然JavaScript提供了多种方式来处理字符串拼接，但随着应用复杂性的增加，传统的类名管理方式很快就会变得混乱不堪。这时，classnames库就像一个优雅的解决方案出现在我们面前。为什么需要classnames？想象一下这样的场景：你需要为一个按钮组件动态设置多个类名，包括基础样式、变体样式、状态样式等。传统的
Java并发性能优化｜读写锁与互斥锁解析云心雨禅技术实操 java 性能优化开发语言
前言在Java的世界中，多线程如同一场精密的交响乐。而“锁”，就是指挥家手中的那根指挥棒——它决定了谁先演奏、谁后进入、谁必须等待。本文将带你走进两种常见的同步机制：普通互斥锁（如synchronized和ReentrantLock）与读写分离的读写锁（ReentrantReadWriteLock），通过概念对比、代码示例、性能测试和最佳实践，帮助你理解它们的本质区别与适用场景。掌握锁的使用之道，
HTML&CSS&Javascript学习总结
HTMLHTML(*HypertextMarkupLanguage)是一种超文本标记语言一、HTML标记1.HTMl元素分析[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dqwzelyx-1598868442842)(https://qige.io/web/brief-html/img/f63738cc51ebfa14.png)]*开始标签（Openingtag）：
应用程序性能优化：从操作系统到算法的全方位攻略 Spring_java_gg 性能优化性能优化算法
作为一名应用程序性能优化专家，我将带你踏上一段生动有趣的旅程，探索如何从操作系统、编程语言、数据库和算法四个方面提升你的应用性能。准备好了吗？让我们开始吧！1.操作系统层面的优化想象一下，操作系统就像是一个大型的调度中心，负责管理所有的资源和任务。为了让这个调度中心更加高效，我们可以采取以下措施：合理配置内核参数：调整操作系统的内核参数，如文件描述符限制、网络缓冲区大小等，可以显著提高应用的响应速
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s