阿里云云栖号

如何跑通第一个 SQL 作业

简介：本文由阿里巴巴技术专家周凯波（宝牛）分享，主要介绍如何跑通第一个SQL。

一、SQL的基本概念

1.SQL 分类

SQL分为四类，分别是数据查询语言（DQL）、数据操纵语言（DML）、数据定义（DDL）语言和数据控制语言（DCL）。今天将介绍前三种语言的使用。

接下来介绍几个基本概念。

2.SQL 开发

● Scripts，即SQL文本。在SQL文本里面可以写上文介绍的前三种语言；
● Schema，即元数据。SQL里面需要使用的表和函数，是通过Schema进行定义的；
● Artifacts，即UDF Jar包；

3.Catalog

在 Flink SQL里，Catalog是管理元数据的。Catalog通过Catalog.DB.Table来定位一张表。除了DB和Table，Catalog还能注册函数，如UDF、UDTF和UDAF。

在Flink Catalog里，有三种Catalog实现：

● 第一个是GenericInMemoryCatalog，是内存版的Catalog。平常在使用 Flink SQL的时候，默认是内存版的Catalog。当程序运行结束，第二次重新运行的时候，会重新生成一个Catalog实例。
● 第二个是HiveCatalog，Flink里比较好的支持了HiveCatalog，可以从Hive HMS里读取元数据，同时也可以往Hive里注册表，写数据到Hive里面去。
● 第三个Catalog是 VVP平台里面开发的Catalog，即VvpCatalog，它实现了Flink Catalog的接口，底层是使用的数据库。

4.Deployment

Deployment是一个作业的描述，目前有两种任务类型，JAR和SQL。

Deployment上有升级策略（Upgrade strategy）和恢复策略（Restore strategy）。Upgrade strategy是指Deployment运行后，用户可以对Deployment的参数进行修改，这个修改如何影响Deployment的运行就是由不同的升级策略决定的；Restore strategy 指启动 Flink任务时，是否从 Savepoint/Checkpoint进行恢复就是不同的恢复策略。

Flink的版本和配置，常用的Flink的参数都可以在这里进行配置。例如：Task Managers 数量，Jobmanager和Taskmanager 的 CPU 和内存等。

Deployment上除了作业描述外，还有期望状态和实际状态。期望状态是指用户所期望的目标状态，例如当要将运行中的作业停止时，期望状态就是Canceled；操作完成的实际运行状态就是实际状态。

总的来说，Deployment是一个任务的描述模板。VVP平台内部的状态机会根据Deployment的期望状态和实际状态来控制作业的实际运行。

5.Job

Deployment启动时会生成一个Job，这个Job对应一个具体的 Flink Job。同一时间，一个Deployment上只会有一个正在运行的Job。

二、SQL的语法说明

1.语法说明

首先看下图的语句，分别是创建源表和创建结果表。

下图是注册函数。函数的注册分为两步，第一步上传JAR包，然后在系统上可以勾选自动注册；第二种是使用 Flink 语法进行手工注册。

使用函数有两种方式，第一是内置函数的使用，如下图UPPER是 Flink 自带的函数；第二种是自定义函数，像MyScalarFunc。

在VVP平台里，也支持 Flink 里的Temporary Table，可以将它理解为临时表，只在当前会话周期内有效。在下图例子中，我们创建了两个Temporary Table，读取datagen_source表中的数据，输出到blackhole_sink表。

下图是Temporary View的语法示例。前面两段是一样的临时表；第三条语句是创建了一个tmp_view，它代表从Datagen_source的查询。在Flink里面Temporary View可以理解为让SQL的书写变得更简单，它不会对数据进行一个持久化，和数据库里面View概念是不一样的。第四条语句是从 view里面读取数据并写入到sink表里。

下图是Statement set的语法示例，这个语法目前在 Flink 1.11版本里还没有，但是在VVP平台做了一些支持。

如上图，BEGIN STATEMENT SET和END这两个语句之间可以写多条 insert into语句。上图的例子是读取datagen_source 表往两张sink表同时写。这个语句提交后会启动一个完整的Flink Job，里面会有1个source和两个sink。

2.SQL的应用范围

Create Table，它注册的表会写入系统Catalog里，在VVP平台上面会写到VvpCatalog中，并进行持久化。好处是适合多个query共享元数据。

Create Temporary Table，临时表。它会写到内存版的Catalog里，不会持久化。所以它适合不需要共享元数据的场景，只给当前query使用。

Create Temporary View，主要目的是简化SQL语句。如果不通过Create Temporary View，对于逻辑复杂的SQL写起来会相当复杂，可读性也很差。

Statement Set，适合需要输出到多个下游的场景。

三、SQL 实战

接下来向大家展示销量统计的实例。如下图所示，需求是统计每小时成交量。

我们首先创建两张表，一个是源表，一个是结果表。下图是创建源表的语句，数据源来自kafka，然后定义watermark是5秒钟。

下图是结果表，也是一个kafka表。

下图是查询语句，从源表读取数据后，会通过tumble window窗口聚合对数据做一个统计，这样就求出了每小时的成交量。

1.实战演示

打开VVP的界面，左侧有SQL编辑器，在这个编辑器左边有三栏，第一栏是Scripts，写SQL文本的地方；第二栏是Schemas，用来定义元数据；第三栏是Artifacts，用来注册UDF。

首先定义一张datagen_source的表。点击右上角的验证按钮，验证通过后点击旁边的运行。点击运行之后，可以在下面看到运行的结果，运行成功后点击左侧的Schemas，可以找到刚刚创建的datagen_source表。

然后再创建一张sink表，connector类型是blackhole。然后验证并运行。

这样两张表都已经注册到Catalog里面去了，默认的Catalog名字是VVP，Database名字是Default。

接下来就可以写SQL语句。比如说写一条INSERT INTO语句，写完之后点验证并运行。在运行这条INSERT INTO语句时，系统会提示是否要创建一个SQL作业，点击确认，补充名称等信息，SQL作业就创建好了。

点击启动这个作业，启动过程中可以在页面上看到关于这个作业的很多信息和配置。

2.UDF实战展示

UDF开发完成后会打一个JAR包，然后点SQL编辑器左侧的Artifacts，然后点“+”号，将JAR 包上传上来。

上传完毕，完善JAR 包名称等信息后，点确认完成。JAR包上传过程中，VVP系统会对JAR 包进行解析。解析之后系统会提示是否注册，勾选需要注册的内容，点击创建Function。

然后如下图，上面就是已注册的Function，下面是可用Function，可以选择继续注册或关掉窗口。

如果不需要这个函数了，可以在页面左侧找到已经注册的Function，点击右侧尾部图标，选择Drop Function。若想重新注册，有两种方法，第一可以点击管理Function；第二通过 Flink的注册函数手动注册。
用注册好的Function创建SQL作业。

在创建页面下拉可以看到很多高级配置，只修改自己需要的配置即可。

3.Temporary table的使用

上面的例子是注册在Catalog里的，如果不想每次都在Catalog里面进行注册，那就可以直接使用 Temporary table。

如下图将table的创建和INSERT INTO全部写在一起，这样就可以直接创建一个新的SQL作业，而不用提前在Catalog里注册了。

4.Temporary View

将前面Temporary View例子页面中的语句复制到VVP平台的SQL编辑器中，直接点击运行就可以创建一个作业。

5.Statement Set

将前面Statement Set例子页面中的语句复制到编辑器中，直接点击运行就可以创建一个作业。启动后，可以通过下图看到运行情况，这个任务从一个源表中读取数据输出到了两个不同的sink表中。

6.查询实战

将前面SQL 实战中创建源表、结果表和查询页面的语句分别复制粘贴到VVP平台的SQL编辑器并启动运行。从下图可以看到这个读写kafka的任务运行起来了。

作者：周凯波（宝牛），阿里巴巴技术专家

原文链接

本文为阿里云原创内容，未经允许不得转载

你可能感兴趣的:(云栖号技术分享)

js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开