一天_pika

MaxCompute SQL中select语句使用详情

SELECT语法介绍

本文介绍MaxCompute SELECT语法格式及使用SELECT语法执行嵌套查询、排序操作、分组查询等操作的注意事项。在进行操作之前构建操作示例表sale_detail以及insert测试数据：

---------------------------------------数据表和数据准备---------------------------------------
CREATE TABLE IF NOT EXISTS sale_detail(
  shop_name     STRING,
  customer_id   STRING,
  total_price   DOUBLE)
PARTITIONED BY (sale_date STRING, region STRING);

create table if not exists shop (
  shop_id string,
  shop_name string,
  address string,
  owner_id string
);

insert into table sale_detail
partition (sale_date='202003', region='hangzhou')
values ('unique', 'user1', 1000),
('adidas', 'user2', 2000),
('zara', 'user3', 1500),
('veromoda', 'user1', 2000),
('nike', 'user4', 1000),
('ur', 'user2', 1400),
('ochirly', 'user1', 2000),
('lily', 'user3', 3000),
('onemore', "user2", 1200);

insert into table sale_detail
partition (sale_date='202004', region='beijing')
values ('unique', 'user1', 1000),
('adidas', 'user2', 2000),
('zara', 'user3', 1500),
('veromoda', 'user1', 2000),
('nike', 'user4', 1000),
('ur', 'user2', 1400),
('ochirly', 'user1', 2000),
('lily', 'user3', 3000),
('onemore', "user2", 1200);

insert into table sale_detail
partition (sale_date, region)
(shop_name, customer_id, total_price, sale_date, region)
values
('unique', 'user1', 1000, '202001', 'shanghai'),
('adidas', 'user2', 2000, '202001', 'shanghai'),
('zara', 'user3', 1500, '202001', 'shanghai');

select * from sale_detail;

insert into table shop(shop_id, shop_name, address, owner_id)
values
('1', 'unique', 'hangzhou', 'owner1'),
('2', 'adidas', 'beijing', 'owner2'),
('3', 'zara', 'shanghai', 'owner3'),
('4', 'veromoda', 'shanghai', 'owner4'),
('5', 'nike', 'beijing', 'owner5'),
('6', 'ur', 'shanghai', 'owner6'),
('7', 'ochirly', 'shanghai', 'owner7'),
('8', 'lily', 'shanghai', 'owner8'),
('9', 'onemore', 'shanghai', 'owner9');

select * from shop;

本文MaxCompute命令参考自： MaxCompute Select语句使用文档。测试数据为自行创建，学习和使用过程中可以根据情况自行修改。

SELECT语法格式

SELECT [ALL | DISTINCT] select_expr, select_expr, ...
FROM table_reference
[WHERE where_condition]
[GROUP BY col_list]
[ORDER BY order_condition]
[DISTRIBUTE BY distribute_condition [SORT BY sort_condition] ]
[LIMIT number]

当使用SELECT语句时，屏显目前最多只能显示10000行结果。当SELECT语句作为子句时则无此限制，SELECT子句会将全部结果返回给上层查询。
SELECT语句查询分区表时禁止全表扫描。

假设sale_detail表为分区表，需要同时执行如下语句进行全表查询。

set odps.sql.allow.fullscan=true;
select * from sale_detail;

如果整个项目都需要全表扫描，执行如下命令打开开关。

setproject odps.sql.allow.fullscan=true;

列表达式（select_expr）

SELECT操作从表中读取数据，列表达式有以下几种形式：

1. 用列名指定要读取的列。例如，读取表sale_detail的列shop_name。

select shop_name from sale_detail;

2. 用*代表所有的列。读取表sale_detail中所有的列。

select * from sale_detail;

3. 在WHERE中可以指定过滤的条件。

select * from sale_detail where shop_name like 'hang%';

4. select_expr支持正则表达式。举例如下：

SELECT `abc.*` FROM t; -- 选出t表中所有列名以abc开头的列。
SELECT `(ds)?+.+` FROM t; -- 选出t表中列名不为ds的所有列。
SELECT `(ds|pt)?+.+` FROM t; -- 选出t表中排除ds和pt两列的其它列。
SELECT `(d.*)?+.+` FROM t; -- 选出t表中排除列名以d开头的其它列。

5. DISTINCT去重。您可以在选取的列名前使用DISTINCT去掉重复字段，只返回一个值；而使用ALL会返回字段中所有重复的值。不指定此选项时，默认值为ALL。

-- 查询表sale_detail中region列数据，如果有重复值时仅显示一条。
select distinct region from sale_detail;
+------------+
| region     |
+------------+
| shanghai   |
+------------+
-- distinct多列时，distinct的作用域是select的列集合，不是单个列。
select distinct region, sale_date from sale_detail;
+------------+------------+
| region     | sale_date  |
+------------+------------+
| shanghai   | 20191110   |
+------------+------------+

TABLE_REFERENCE

table_reference为查询的目标表信息。除了支持已存在的目标表名称还支持使用嵌套子查询，如下所示。

select * from (select region from sale_detail) t where region = 'shanghai';

WHERE子句过滤

where子句支持的过滤条件，如下表所示。


过滤条件	描述
> 、 < 、 =、 >=、 <=、 <>	关系操作符。
like、rlike	like和rlike的source和pattern参数均仅接受STRING类型。
in、not in	如果在in/not in条件后加子查询，子查询只能返回一列值，且返回值的数量不能超过1000。
Between…and	限定查询范围。

在SELECT语句的where子句中，可以指定分区范围，只扫描表的指定部分，避免全表扫描，如下所示：

SELECT sale_detail.* 
FROM sale_detail
WHERE sale_detail.sale_date >= '2019'
AND sale_detail.sale_date <= '2020';

between…and查询示例如下：

SELECT sale_detail.* 
FROM sale_detail 
WHERE sale_detail.sale_date BETWEEN '2019' AND '2020';

GROUP BY分组查询

通常，GROUP BY和聚合函数配合使用。在SELECT中包含聚合函数时有以下规则：

在SQL解析中，GROUP BY操作先于SELECT操作，因此GROUP BY的取值是SELECT输入表的列名或者由输入表的列构成的表达式，不允许是SELECT语句的输出列的别名。
GROUP BY的值既是输入表的列或表达式，又是SELECT的输出列时，取值为输入表的列名。
当SQL语句set flag，即set hive.groupby.position.alias=true;时，GROUP BY中的整型常量会被当做SELECT的列序号处理。

set hive.groupby.position.alias=true;--与下一条sql语句一起执行。
select region, sum(total_price) from sale_detail group by 1;-- 1代表select的列中第一列即region，以region值分组，返回每一组的region值(组内唯一)及销售额总量。

使用示例：

--直接使用输入表列名region作为group by的列，即以region值分组。
select region from sale_detail group by region;

--以region值分组，返回每一组的销售额总量。
select sum(total_price) from sale_detail group by region;

--以region值分组，返回每一组的region值（组内唯一）及销售额总量。
select region, sum(total_price) from sale_detail group by region;

--使用select列的别名运行，报错返回。
select region as r from sale_detail group by r;

--必须使用列的完整表达式。
select 2 + total_price as r from sale_detail group by 2 + total_price;

--报错返回，select的所有列中，没有使用聚合函数的列，必须出现在group by中（下面语句total_price列没有出现在group by中）。
select region, total_price from sale_detail group by region;

--没有使用聚合函数的列，出现在group by中后，运行成功。
select region, total_price from sale_detail group by region, total_price;

ORDER BY/SORT BY/DISTRIBUTE BY

`DISTRIBUTE BY`

功能说明：用于对数据按照某几列的值做Hash分片，必须使用SELECT的输出列别名。

--查询表sale_detail中的列region值并按照region值进行哈希分片。
select region from sale_detail distribute by region;
-- 列名即是别名，可以运行。
select region as r from sale_detail distribute by region;
等同于
select region as r from sale_detail distribute by r;

`ORDER BY`

功能说明：用于对所有数据按照指定列进行全局排序。

对记录进行降序排序，需要使用desc关键字。默认以升序排列。
在使用order by排序时，NULL会被认为比任何值都小，这个行为与MySQL一致，但是与Oracle不一致。
order by后面须加SELECT列的别名。当SELECT某列时，如果没有指定列的别名，则列名会被作为列的别名。
OFFSET 和 ORDER BY LIMIT语句配合，可以指定跳过OFFSET数目的行。

--将src按照key从小到大排序后，输出第11到第30行（OFFSET 10指定跳过前10行，LIMIT 20指定最多输出20行）。
SELECT * FROM src ORDER BY key LIMIT 20 OFFSET 10；

order by/sort by/distribute by的取值必须是SELECT语句的输出列，即列的别名。列的别名可以为中文。

在MaxCompute SQL解析中，order by/sort by/distribute by是后于SELECT操作的，因此它们的取值只能为SELECT语句的输出列。

使用示例：

--查询表sale_detail的信息，并按照region升序排列前100条。
select * from sale_detail order by region limit 100;

-- order by没有与limit共同使用时，报错返回。
select * from sale_detail order by region;

--order by加列的别名。
select region as r from sale_detail order by region limit 100;
select region as r from sale_detail order by r limit 100;

LIMIT NUMBER限制输出行数

limit number中的number是常数，限制输出行数。当使用无limit的SELECT语句直接从屏幕输出查看结果时，最多只输出10000行。每个项目空间的这个屏显最大限制可能不同，您可以通过setproject命令控制。

SELECT语序

对于按照SELECT语法格式书写的SELECT语句，它的逻辑执行顺序与标准的书写语序并不相同。

SELECT  key
        ,MAX(value)
FROM    src t
WHERE   value > 0
GROUP BY key
HAVING  SUM(value) > 100
ORDER BY key
LIMIT   100
;

以上语句的逻辑执行顺序是FROM->WHERE->GROUY BY->HAVING->SELECT->ORDER BY->LIMIT：

ORDER BY中只能引用SELECT列表中生成的列，而非访问FROM的源表中的列。
HAVING可以访问GROUP BY key和聚合函数。
SELECT时，如果语句中有GROUP BY，便只能访问GROUP BY key和聚合函数，而不是FROM中源表中的列。

为避免混淆，MaxCompute支持以执行顺序书写查询语句：

FROM    src t
WHERE   value > 0
GROUP BY key
HAVING  SUM(value) > 100
SELECT  key
        ,MAX(value)
ORDER BY key
LIMIT   100
;

使用示例：

SELECT  shop_name
        ,total_price
        ,region
FROM    sale_detail
WHERE   total_price > 150
DISTRIBUTE BY region
SORT BY region
;

以上语句的逻辑执行顺序是FROM->WHERE->SELECT->DISTRIBUTE BY->SORT BY。

子查询

子查询基本定义

普通查询操作的对象是目标表，但是查询的对象也可以是另一个SELECT语句，此查询为子查询（SUBQUERY）。子查询必须要有别名。

--普通查询。
select * from sale_detail;
--子查询。
select * from (select shop_name from sale_detail) a;

在from子句中，子查询可以被当作一张表，与其它的表或子查询进行join操作。

-- 示例1
select a.shop_id, a.shop_name, a.address
from (select * from shop) a
join sale_detail b on a.shop_name=b.shop_name;

-- 返回值
shop_id	shop_name	address
+--------+----------+--------+
1	unique	hangzhou
2	adidas	beijing
3	zara	shanghai
1	unique	hangzhou
2	adidas	beijing
3	zara	shanghai
4	veromoda	shanghai
5	nike	beijing
6	ur	shanghai
7	ochirly	shanghai
8	lily	shanghai
9	onemore	shanghai
1	unique	hangzhou
2	adidas	beijing
3	zara	shanghai
4	veromoda	shanghai
5	nike	beijing
6	ur	shanghai
7	ochirly	shanghai
8	lily	shanghai
9	onemore	shanghai

-- 示例2
select a.shop_id, a.shop_name, b.total_price, b.customer_id
from shop a join sale_detail b on a.shop_name=b.shop_name;
-- 返回结果
shop_id	shop_name	total_price	customer_id
+--------+----------+------------+------------+
1	unique	1000.0	user1
2	adidas	2000.0	user2
3	zara	1500.0	user3
4	veromoda	2000.0	user1
5	nike	1000.0	user4
6	ur	1400.0	user2
7	ochirly	2000.0	user1
8	lily	3000.0	user3
9	onemore	1200.0	user2
1	unique	1000.0	user1
2	adidas	2000.0	user2
3	zara	1500.0	user3
1	unique	1000.0	user1
2	adidas	2000.0	user2
3	zara	1500.0	user3
4	veromoda	2000.0	user1
5	nike	1000.0	user4
6	ur	1400.0	user2
7	ochirly	2000.0	user1
8	lily	3000.0	user3
9	onemore	1200.0	user2

IN SUBQUERY/NOT IN SUBQUERY

IN SUBQUERY

in subquery与left semi join用法类似。

select * from mytable1 where id in (select id from mytable2);
--等效于以下语句。
select * from mytable1 a left semi join mytable2 b on a.id = b.id;

目前MaxCompute不仅支持in subquery，还支持Correlated条件。下面查询语句中子查询中的where value = mytable1.value即是一个Correlated条件。MaxCompute 1.0版本不支持这种既引用了子查询中源表，又引用了外层查询源表的表达式。MaxCompute 2.0版本已支持这种用法，这样的过滤条件构成了semi join中on条件的一部分。

select * from mytable1 
where id 
in (select id from mytable2 where value = mytable1.value);

使用示例：

select * from sale_detail where shop_name in (select shop_name from shop);

select * from sale_detail where shop_name
in (select shop_name from shop where sale_detail.shop_name=shop_name);

select * from sale_detail a left semi join shop b
on a.shop_name=b.shop_name;

-- 上述三个语句的返回结果均为：
shop_name	customer_id	total_price	sale_date	region
+----------+------------+------------+----------+-------+
unique	user1	1000.0	202003	hangzhou
adidas	user2	2000.0	202003	hangzhou
zara	user3	1500.0	202003	hangzhou
veromoda	user1	2000.0	202003	hangzhou
nike	user4	1000.0	202003	hangzhou
ur	user2	1400.0	202003	hangzhou
ochirly	user1	2000.0	202003	hangzhou
lily	user3	3000.0	202003	hangzhou
onemore	user2	1200.0	202003	hangzhou
unique	user1	1000.0	202001	shanghai
adidas	user2	2000.0	202001	shanghai
zara	user3	1500.0	202001	shanghai
unique	user1	1000.0	202004	beijing
adidas	user2	2000.0	202004	beijing
zara	user3	1500.0	202004	beijing
veromoda	user1	2000.0	202004	beijing
nike	user4	1000.0	202004	beijing
ur	user2	1400.0	202004	beijing
ochirly	user1	2000.0	202004	beijing
lily	user3	3000.0	202004	beijing
onemore	user2	1200.0	202004	beijing

NOT IN SUBQUERY

not in subquery与left anti join用法类似，但并不完全相同。示例如下。

select * from mytable1 where id not in (select id from mytable2);
--如果mytable2中的所有id都不为NULL，则等效于以下语句。
select * from mytable1 a left anti join mytable2 b on a.id = b.id;

如果mytable2中有任意一列为NULL，则not in表达式会为NULL，导致where条件不成立，无数据返回，这点与left anti join不同。

EXISTS SUBQUERY/NOT EXISTS SUBQUERY

使用exists subquery时，当Subquery中有至少一行数据时，返回True，否则返回False。使用not exists subquery时，则相反。目前只支持含有Correlatedwhere条件的子查询。exists subquery和not exists subquery实现的方式是转换为left semi join或者left anti join。

示例一

SELECT * from mytable1 
where 
exists (select * from mytable2 where id = mytable1.id);
--等效于以下语句。
SELECT * from mytable1 a 
left semi join mytable2 b on a.id = b.id;

-- exists subquery
select * from sale_detail where
exists (select shop_name from shop where sale_detail.shop_name=shop_name);

示例二

select * from mytable1 
where 
not exists (select * from mytable2 where id = mytable1.id);
--等效于以下语句。
select * from mytable1 a 
left anti join mytable2 b on a.id = b.id;

SCALAR SUBQUERY

当Subquery的输出结果为单行单列时，可以做为标量使用。

select * from t1 
where (select count(*) from t2 where t1.a = t2.a) > 1; 
--等效于以下语句
select t1.* from t1 
left semi join (
    select a, count(*) 
    from t2 
    group by a 
    having count(*) > 1
) t2 on t1.a = t2.a;

select count(*) from t2 where t1.a = t2.a;的输出结果是一个Row Set，可以判断出这条语句的输出有且仅有一行一列。因此它可以作为标量，即可以参与标量运算（‘>’）。但在实现过程中，会尽可能地转成join来处理，例如上述示例中的等效语句。

交集、并集和补集

下面介绍UNION、UNOIN ALL、UNION DISTINCT并集，INTERSECT、INTERSECT ALL、INTERSECT DISTINCT交集，EXCEPT、EXCEPT ALL、EXCEPT DISTINCT补集等SQL语法。

语法格式

select_statement UNION ALL select_statement;
select_statement UNION [DISTINCT] select_statement;
select_statement INTERSECT ALL select_statement;
select_statement INTERSECT [DISTINCT] select_statement;
select_statement EXCEPT ALL select_statement;
select_statement EXCEPT [DISTINCT] select_statement;
select_statement MINUS ALL select_statement;
select_statement MINUS [DISTINCT] select_statement;

UNION（并集）

功能说明：求两个数据集的并集，即将两个数据集合并成一个数据集。

1. 当UNION后指定参数ALL时，返回两个数据集的所有记录：

SELECT * FROM VALUES (1, 2), (1, 2), (3, 4) t(a, b) 
UNION ALL 
SELECT * FROM VALUES (1, 2), (1, 4) t(a, b);

返回结果如下。

+------------+------------+
| a          | b          |
+------------+------------+
| 1          | 2          |
| 1          | 4          |
| 1          | 2          |
| 1          | 2          |
| 3          | 4          |
+------------+------------+

2. 当UNION后不指定参数时，返回记录中会去掉重复的记录，效果等同于UNION DISTINCT。示例如下。

SELECT * FROM VALUES (1, 2), (1, 2), (3, 4) t(a, b) 
UNION 
SELECT * FROM VALUES (1, 2), (1, 4) t(a, b);
--等同于如下语句。
SELECT DISTINCT * FROM (）t;

结果如下：

+------------+------------+
| a          | b          |
+------------+------------+
| 1          | 2          |
| 1          | 4          |
| 3          | 4          |
+------------+------------+

3. UNION后如果有CLUSTER BY、DISTRIBUTE BY、SORT BY、ORDER BY或者LIMIT子句，当设置set odps.sql.type.system.odps2=false;时，其作用于UNION的最后一个select_statement；当设置set odps.sql.type.system.odps2=true;时，作用于前面所有UNION的结果。

set odps.sql.type.system.odps2=true;
SELECT explode(array(3, 1)) AS (a) UNION ALL SELECT explode(array(0, 4, 2)) AS (a) ORDER BY a LIMIT 3;

返回结果如下。

+------+
| a    |
+------+
| 0    |
| 1    |
| 2    |
+------+

INTERSECT（交集）

功能说明：求两个数据集的交集，即输出两个数据集均包含的记录。

1. INTERSECT ALL示例

SELECT * FROM VALUES (1, 2), (1, 2), (3, 4), (5, 6) t(a, b) 
INTERSECT ALL 
SELECT * FROM VALUES (1, 2), (1, 2), (3, 4), (5, 7) t(a, b);

返回结果如下：

+------------+------------+
| a          | b          |
+------------+------------+
| 1          | 2          |
| 1          | 2          |
| 3          | 4          |
+------------+------------+

2. INTERSECT DISTINCT示例

SELECT * FROM VALUES (1, 2), (1, 2), (3, 4), (5, 6) t(a, b) 
INTERSECT 
SELECT * FROM VALUES (1, 2), (1, 2), (3, 4), (5, 7) t(a, b);

结果如下，等同于SELECT DISTINCT * FROM (< INTERSECT ALL的结果 >) t;语句。

+------------+------------+
| a          | b          |
+------------+------------+
| 1          | 2          |
| 3          | 4          |
+------------+------------+

EXCEPT

功能说明：求第二个数据集在第一个数据集中的补集，即输出第一个数据集包含而第二个数据集不包含的记录。

1. EXCEPT ALL示例。

SELECT * FROM VALUES (1, 2), (1, 2), (3, 4), (3, 4), (5, 6), (7, 8) t(a, b) 
EXCEPT ALL 
SELECT * FROM VALUES (3, 4), (5, 6), (5, 6), (9, 10) t(a, b);

返回结果如下。

+------------+------------+
| a          | b          |
+------------+------------+
| 1          | 2          |
| 1          | 2          |
| 3          | 4          |
| 7          | 8          |
+------------+------------+

2. EXCEPT DISTINCT示例。

SELECT * FROM VALUES (1, 2), (1, 2), (3, 4), (3, 4), (5, 6), (7, 8) t(a, b) 
EXCEPT
SELECT * FROM VALUES (3, 4), (5, 6), (5, 6), (9, 10) t(a, b);

结果如下，相当于SELECT DISTINCT * FROM left_branch EXCEPT ALL SELECT DISTINCT * FROM right_branch;。

+------------+------------+
| a          | b          |
+------------+------------+
| 1          | 2          |
| 7          | 8          |
+------------+------------+

MINUS

功能说明：等同于EXCEPT。

Join表连接

MaxCompute的JOIN操作分为左连接、右连接、全连接、内连接。支持多路连接，但不支持CROSS JOIN笛卡尔积，即无ON条件的连接。

语法格式

命令格式如下。

join_table:
        table_reference join table_factor [join_condition]
        | table_reference {left outer|right outer|full outer|inner|Natural} join table_reference join_condition
    table_reference:
        table_factor
        | join_table
    table_factor:
        tbl_name [alias]
        | table_subquery alias
        | ( table_references )
    join_condition:
        on equality_expression ( and equality_expression )

语法说明

1. Left Outer Join：左连接。返回左表中的所有记录，即使右表中没有与之匹配的记录。

select a.shop_name as ashop, b.shop_name as bshop from shop a
        left outer join sale_detail b on a.shop_name=b.shop_name;--由于表shop及sale_detail中都有shop_name列，因此需要在select子句中使用别名进行区分。

说明如果右边值不唯一，建议不要连续使用过多left join，以免在join的过程中产生数据膨胀，导致作业停滞。

2. Right Outer Join：右连接。返回右表中的所有记录，即使左表中没有与之匹配的记录。

select a.shop_name as ashop, b.shop_name as bshop from shop a
        right outer join sale_detail b on a.shop_name=b.shop_name;

3. Full Outer Join：全连接。返回左右表中的所有记录。

select a.shop_name as ashop, b.shop_name as bshop from shop a
        full outer join sale_detail b on a.shop_name=b.shop_name;

4. Inner Join：内连接，关键字inner可以省略。表中存在至少一个匹配时，inner join返回行。

select a.shop_name from shop a inner join sale_detail b on a.shop_name=b.shop_name;
select a.shop_name from shop a join sale_detail b on a.shop_name=b.shop_name;

5. Natural Join ：自然连接，即参与JOIN的两张表根据字段名称自动决定连接字段。支持Outer Natural Join，支持使用Using子句执行JOIN，输出字段中公共字段只出现一次。假设存在表src（key1, key2, a1, a2），表src2（key1, key2, b1, b2）。

SELECT * FROM src NATURAL JOIN src2;
--由于src和src2有两个同名字段(key1, key2)，所以上面的JOIN相当于：
SELECT src.key1 as key1, src.key2 as key2, src.a1, src.a2, src2.b1, src2.b2 FROM src INNER JOIN src2 ON src.key1 = src2.key1 AND src.key2 = src2.key2;

6. Implicit Join：隐式连接，即不指定Join关键字执行连接。

SELECT * FROM table1, table2 WHERE table1.id = table2.id;
--执行的效果相当于以下语句。
SELECT * FROM table1 JOIN table2 ON table1.id = table2.id;

连接条件：只允许and连接的等值条件。只有在MAPJOIN中，可以使用不等值连接或者使用or连接多个条件。

--支持多路Join连接示例。
select a.* from shop a full outer join sale_detail b on a.shop_name=b.shop_name
        full outer join sale_detail c on a.shop_name=c.shop_name;
--不支持不等值Join连接条件，报错返回。    
select a.* from shop a join sale_detail b on a.shop_name != b.shop_name;

使用示例：假设表A为test_table_a，表B为test_table_b，查询两表中分区大于20180101且origin和id一致的记录数。使用left join可以保留左表中test_table_a的全表记录。

错误示例如下：

SELECT s.id
        ,s.name
        ,s.origin
        ,d.value
FROM    test_table_a s
LEFT JOIN   test_table_b d
ON      s.origin = d.id
WHERE   s.ds > "20180101" AND d.ds>"20180101";

如果join在where条件之前，会先进行join操作，然后对join的结果执行where条件过滤。您会发现获取的结果是两个表的交集，而不是全表。修正后的SQL如下，通过这种方式可以显示全表：

SELECT s.id
        ,s.name
        ,s.origin
        ,d.value
FROM  (select * from  test_table_a where ds > "20180101" ) s
LEFT JOIN (select * from  test_table_b where ds > "20180101") d
ON s.origin = d.id;

SEMI JOIN（半连接）

MaxCompute支持SEMI JOIN（半连接）。SEMI JOIN中，右表只用于过滤左表的数据而不出现在结果集中。支持LEFT SEMI JOIN和LEFT ANTI JOIN两种语法。

LEFT SEMI JOIN

当join条件成立时，返回左表中的数据。如果mytable1中某行的id在mytable2的所有id中出现过，则此行保留在结果集中。

SELECT * from mytable1 a LEFT SEMI JOIN mytable2 b on a.id=b.id;

只会返回mytable1中的数据，只要mytable1的id在mytable2的id中出现。

LEFT ANTI JOIN

当join条件不成立时，返回左表中的数据。如果mytable1中某行的id在mytable2的所有id中没有出现过，则此行保留在结果集中。

SELECT * from mytable1 a LEFT ANTI JOIN mytable2 b on a.id=b.id;

只会返回mytable1中的数据，只要mytable1的id在mytable2的id没有出现。

HAVING子句

MaxCompute SQL的WHERE关键字无法与合计函数一起使用，此时您可以使用HAVING子句来实现。

命令格式如下。

SELECT column_name, aggregate_function(column_name)
FROM table_name
WHERE column_name operator value
GROUP BY column_name
HAVING aggregate_function(column_name) operator value

例如有一张订单表Orders，包括客户名称（Customer）、订单金额（OrderPrice）、订单日期（Order_date）、订单号（Order_id）四个字段。现在需要查找订单总额少于2000的客户，SQL语句如下所示。

SELECT Customer,SUM(OrderPrice) FROM Orders
GROUP BY Customer
HAVING SUM(OrderPrice)<2000

对应本文的示例表和数据，类似的操作如下：

select customer_id, sum(total_price) as order_price from sale_detail
group by customer_id
having sum(total_price) < 4000;

GROUPING SETS

对于经常需要对数据进行多维度的聚合分析的场景，既需要对a列做聚合，也要对b列做聚合，同时要按照a、b两列同时做聚合，因此需要多次使用UNION ALL。使用GROUPING SETS可以快速解决此类问题。

实现示例

1. 准备数据：

create table requests LIFECYCLE 20 as
select * from values
    (1, 'windows', 'PC', 'Beijing'),
    (2, 'windows', 'PC', 'Shijiazhuang'),
    (3, 'linux', 'Phone', 'Beijing'),
    (4, 'windows', 'PC', 'Beijing'),
    (5, 'ios', 'Phone', 'Shijiazhuang'),
    (6, 'linux', 'PC', 'Beijing'),
    (7, 'windows', 'Phone', 'Shijiazhuang')
as t(id, os, device, city);

2. 对数据进行分组。您可以通过以下两种方式进行分组：

（1）使用多个SELECT语句进行分组。

SELECT NULL, NULL, NULL, COUNT(*)
FROM requests
UNION ALL
SELECT os, device, NULL, COUNT(*)
FROM requests GROUP BY os, device
UNION ALL
SELECT null, null, city, COUNT(*)
FROM requests GROUP BY city;

（2）使用GROUPING SETS进行分组。

SELECT os,device, city ,COUNT(*)
FROM requests
GROUP BY os, device, city GROUPING SETS((os, device), (city), ());

执行结果如下。

+----+--------+------+------------+
| os | device | city | cnt        |
+----+--------+------+------------+
| NULL | NULL   | NULL | 7          |
| NULL | NULL   | Beijing | 4          |
| NULL | NULL   | Shijiazhuang | 3          |
| ios | Phone  | NULL | 1          |
| linux | PC     | NULL | 1          |
| linux | Phone  | NULL | 1          |
| windows | PC     | NULL | 3          |
| windows | Phone  | NULL | 1          |
+----+--------+------+------------+

CUBE and ROLLUP函数

CUBE和ROLLUP可以认为是特殊的GROUPING SETS。CUBE会枚举指定列的所有可能组合作为GROUPING SETS，而ROLLUP会以按层级聚合的方式产生GROUPING SETS。

示例如下。

GROUP BY CUBE(a, b, c)  
--等价于以下语句。  
GROUPING SETS((a,b,c),(a,b),(a,c),(b,c),(a),(b),(c),())

GROUP BY ROLLUP(a, b, c)
--等价于以下语句。  
GROUPING SETS((a,b,c),(a,b),(a), ())

GROUP BY CUBE ( (a, b), (c, d) ) 
--等价于以下语句。 
GROUPING SETS (
    ( a, b, c, d ),
    ( a, b       ),
    (       c, d ),
    (            )
)

GROUP BY ROLLUP ( a, (b, c), d ) 
--等价于以下语句。
GROUPING SETS (
    ( a, b, c, d ),
    ( a, b, c    ),
    ( a          ),
    (            )
)

GROUP BY a, CUBE (b, c), GROUPING SETS ((d), (e)) 
--等价于以下语句。 
GROUP BY GROUPING SETS (
    (a, b, c, d), (a, b, c, e),
    (a, b, d),    (a, b, e),
    (a, c, d),    (a, c, e),
    (a, d),       (a, e)
)

GROUP BY grouping sets((b), (c),rollup(a,b,c)) 
--等价于以下语句。 
GROUP BY GROUPING SETS (
    (b), (c),
    (a,b,c), (a,b), (a), ()
 )

GROUPING和GROUPING_ID函数

GROUPING SETS结果中使用NULL充当占位符，导致您会无法区分占位符NULL与数据中真正的NULL。因此，MaxCompute为您提供了GROUPING函数。GROUPING函数接受一个列名作为参数，如果结果对应行使用了参数列做聚合，返回0，此时意味着NULL来自输入数据。否则返回1，此时意味着NULL是GROUPING SETS的占位符。

MaxCompute还提供了GROUPING_ID函数，此函数接受一个或多个列名作为参数。结果是将参数列的GROUPING结果按照BitMap的方式组成整数。示例如下：

SELECT a,b,c ,COUNT(*),
GROUPING(a) ga, GROUPING(b) gb, GROUPING(c) gc, GROUPING_ID(a,b,c) groupingid
FROM VALUES (1,2,3) as t(a,b,c)
GROUP BY CUBE(a,b,c);

执行结果如下：

+------------+------------+------------+------------+------------+------------+------------+------------+
| a          | b          | c          | _c3        | ga         | gb         | gc         | groupingid |
+------------+------------+------------+------------+------------+------------+------------+------------+
| NULL       | NULL       | NULL       | 1          | 1          | 1          | 1          | 7          |
| NULL       | NULL       | 3          | 1          | 1          | 1          | 0          | 6          |
| NULL       | 2          | NULL       | 1          | 1          | 0          | 1          | 5          |
| NULL       | 2          | 3          | 1          | 1          | 0          | 0          | 4          |
| 1          | NULL       | NULL       | 1          | 0          | 1          | 1          | 3          |
| 1          | NULL       | 3          | 1          | 0          | 1          | 0          | 2          |
| 1          | 2          | NULL       | 1          | 0          | 0          | 1          | 1          |
| 1          | 2          | 3          | 1          | 0          | 0          | 0          | 0          |
+------------+------------+------------+------------+------------+------------+------------+------------+

默认情况，GROUP BY列表中不被使用的列，会被填充为NULL。您可以通过GROUPING函数输出更有实际意义的值。

SELECT 
  IF(GROUPING(os) == 0, os, 'ALL') as os,
  IF(GROUPING(device) == 0, device, 'ALL') as device, 
  IF(GROUPING(city) == 0, city, 'ALL') as city ,
  COUNT(*) as count
FROM requests
GROUP BY os, device, city GROUPING SETS((os, device), (city), ());

返回结果如下：

os	device	city	count
+---+-------+-----+------+
ALL	ALL	ALL	7
ALL	ALL	Beijing	4
ALL	ALL	Shijiazhuang	3
ios	Phone	ALL	1
linux	PC	ALL	1
linux	Phone	ALL	1
windows	PC	ALL	3
windows	Phone	ALL	1

SELECT TRANSFORM语法

SELECT TRANSFORM语法允许您启动一个指定的子进程，将输入数据按照一定的格式通过标准输入至子进程，并且通过解析子进程的标准输出获取输出数据。SELECT TRANSFORM让您无需编写UDF，便可以实现MaxCompute SQL对其它脚本语言的支持。

语法如下：

SELECT TRANSFORM(arg1, arg2 ...) 
(ROW FORMAT DELIMITED (FIELDS TERMINATED BY field_delimiter (ESCAPED BY character_escape)?)? 
(LINES SEPARATED BY line_separator)? 
(NULL DEFINED AS null_value)?)?
USING 'unix_command_line' 
(RESOURCES 'res_name' （',' 'res_name'）*)? 
( AS col1, col2 ...)?
(ROW FORMAT DELIMITED (FIELDS TERMINATED BY field_delimiter (ESCAPED BY character_escape)?)? 
(LINES SEPARATED BY line_separator)? (NULL DEFINED AS null_value)?)?

具体使用见：MaxCompute SELECT TRANSFORM语法文档。

你可能感兴趣的:(MaxCompute)

MaxCompute数据迁移至OSS完全指南大模型大数据攻城狮 odps 大数据阿里云 maxcompute dataworks tunnel sdk oss
目录1.为什么要把MaxCompute的数据搬到OSS？2.工具与环境准备：别急，先把家伙事儿备齐3.迁移方式总览：选对路子事半功倍4.用DataWorks实现数据迁移：点几下鼠标就搞定4.1配置数据源4.2创建同步任务4.3调度与运行5.用INSERT语句写入OSS外部表：SQL爱好者的最爱5.1创建OSS外部表5.2插入数据6.用Tunnel命令行实现数据迁移：硬核玩家的选择6.1Tunnel
maxcomputer 和 hologres中的EXTERNAL TABLE 和 FOREIGN TABLE 静听山水 #Hologres 大数据
在阿里云的大数据和实时数仓产品中，MaxCompute和Hologres都支持类似于EXTERNALTABLE和FOREIGNTABLE的机制，但它们的实现和语义有所不同。下面分别说明：☁️一、MaxCompute中的EXTERNALTABLE和FOREIGNTABLE1.EXTERNALTABLEinMaxComputeMaxCompute的EXTERNALTABLE是指外部表，用于读取不属于M
【直播回顾】MaxCompute 技术公开课第二季 weixin_33708432 大数据
MaxCompute技术公开课第二季已经结束，共进行了5次大数据技术直播，有近6000名用户、大数据专家、技术牛人、大数据爱好者参与其中。我们为大家整理了一下直播的PPT和视频内容，方便大家随时学习。以下是直播干货：主题：MaxCompute客户端-odpscmd操作使用：分享嘉宾：曲宁阿里巴巴计算平台产品专家PPT下载地址：https://yq.aliyun.com/download/2943视
MaxCompute Spark 资源使用优化详解阿里开发者传感器 SQL 分布式计算监控 DataWorks 数据可视化安全 Java MaxCompute Spark
简介：本文主要讲解MaxComputeSpark资源调优，目的在于在保证Spark任务正常运行的前提下，指导用户更好地对Spark作业资源使用进行优化，极大化利用资源，降低成本。本文作者：吴数傑阿里云智能开发工程师1.概述本文主要讲解MaxComputeSpark资源调优，目的在于在保证Spark任务正常运行的前提下，指导用户更好地对Spark作业资源使用进行优化，极大化利用资源，降低成本。2.S
从MaxCompute到Milvus：通过DataWorks进行数据同步，实现海量数据高效相似性检索
在如今大数据和人工智能应用场景中，企业往往需要对存储在云数据仓库（如云原生大数据计算服务MaxCompute）中的大规模结构化数据进行向量化处理，以支持高效的向量检索和相似性分析等AI应用。阿里云向量检索服务Milvus版是一款全托管向量检索引擎，并确保与开源Milvus的完全兼容性，支持无缝迁移。它在开源版本的基础上增强了可扩展性，能提供大规模AI向量数据的相似性检索服务。凭借其开箱即用的特性、
阿里云ACP大数据分析师 | 笔记纪要我想养只猫 •͓͡•ʔ 人工智能 alibaba 大数据数据分析机器学习
2021-9-10更新：已通过认证！！AlibabaCloudCertifiedProfessional-DataAnalyst重点不完整记录分析报告5大部分目标与背景发现与结论推荐与建议具体数据分析结果与阐述附件数据聚合时如果数据质量无控制将会导致计算时成倍的放大或重复相关的数据使用MAXCompute，处理统计模型脏数据问题在数据项目的执行流程中属于项目设计阶段：对承担的任务设计具体实施的方法
基于Delta lake、Hudi格式的湖仓一体方案呆呆咸猪手数据仓库 big data hadoop
简介：DeltaLake和Hudi是流行的开放格式的存储层，为数据湖同时提供流式和批处理的操作，这允许我们在数据湖上直接运行BI等应用，让数据分析师可以即时查询新的实时数据，从而对您的业务产生即时的洞察。MaxCompute在湖仓一体架构中，通过支持DeltaLake和Hudi在数据湖中提供数据仓库性能。本文作者孟硕阿里云智能产品专家一、最佳实践背景整个最佳实践是基于MaxCompute的湖仓一体
数据库总结 wzz87 数据库
由于近期实习涉及到阿里云大数据开发套件的使用，主要涉及到odps、ads、rds、ots相关数据库的操作，所以针对性的做一些总结，并将阿里云中产品与实际产品对应分析。其中ots没有使用过，这里为了对比分析，容易理解也有列出来。阿里云中的Maxcompute（原odps）其实就是hive，扮演数据仓库的角色，适合存储轨迹类历史数据，适合存储的数据量大，适合海量数据的处理，适合对数据进行离线分析，数据
一文理清：阿里系数据中台-数据治理工具集(傻傻也能分清楚） Debug_Snail Hadoop Big Data 技术工具人工智能 hadoop 数据仓库
阿里云提供的大数据与数据分析产品种类较多，各产品的定位和核心功能有所不同。以下是对DataWorks、MaxCompute、Dataphin、AnalyticDBforMySQL（ADB）、QuickBI、EMR的详细梳理。一、核心产品定位与功能DataWorks定位：一站式大数据开发治理平台，提供数据集成、开发、调度、治理、服务等全链路能力。核心功能：数据集成：支持异构数据源（如数据库、OSS、
doris：阿里云 MaxCompute 向阳1218 大数据 doris
MaxCompute是阿里云上的企业级SaaS（SoftwareasaService）模式云数据仓库。什么是MaxCompute连接MaxCompute示例--1.创建Catalog。CREATECATALOGmcPROPERTIES("type"="max_compute","mc.default.project"="xxx","mc.access_key"="xxxx","mc.secret_
阿里云MaxCompute面试题汇总及参考答案大模型大数据攻城狮阿里云 odps 云计算机器学习大数据面试大数据面经增量数据
目录简述MaxCompute的核心功能及适用场景，与传统数据仓库的区别解释MaxCompute分层架构设计原则，与传统数仓分层有何异同MaxCompute的存储架构如何实现高可用与扩展性解析伏羲（Fuxi）分布式调度系统工作原理盘古（Pangu）分布式存储系统数据分片策略计算与存储分离架构的资源弹性扩展方案解释MaxCompute多租户资源隔离实现机制容错机制设计：Worker节点故障时的数据恢复
大数据MaxCompute教程（阿里云离线数仓项目）学习笔记20231127 多刷亿点题⑧ 云原生数据仓库
1数据仓库概念数据仓库定义（DataWarehouse），是为企业所有决策制定过程，提供所有系统数据支持的战略集合。AI：数据仓库是一个大型、集中、主题导向的数据库系统，用于支持企业决策制定、分析和报告的需要。它统一了来自不同数据源的数据，并将其在一个可查询的数据模型中进行了整合和转换，以便于分析和报告。数据仓库还包括数据清洗、抽取、转换和加载（ETL）的过程，以保证数据的准确性、一致性和完整性。
阿里云 MaxCompute MaxQA 开启公测，解锁近实时高效查询体验阿里云大数据AI技术阿里云云原生 MaxCompute 大数据实时数仓
随着实时、近实时数据分析需求的持续增长，查询响应时间在现代数据分析和业务应用中变得越来越重要。为减少查询响应时间，提升数据效率，阿里云云原生大数据计算服务MaxCompute推出MaxQA（原MCQA2.0）查询加速功能，在独享的查询加速资源池的基础上，对管控链路、查询优化器、执行引擎、存储引擎以及缓存机制等多个环节进行全面优化，显著减少了查询响应时间，适用于BI场景、交互式分析以及近实时数仓等对
关于阿里云DataWorks的20道面试题编织幻境的妖阿里云云计算
1.请简要介绍阿里云DataWorks的基本概念和主要功能。阿里云DataWorks是一个全链路的大数据开发治理平台，其主要功能包括数据集成、数据建模与开发、数据地图、数据质量和数据服务等。DataWorks的基本概念围绕其作为一个大数据开发和治理的平台，它整合了多种大数据引擎如MaxCompute、Hologres、EMR、AnalyticDB、CDP等，旨在为数据仓库、数据湖及湖仓一体化解决方
大数据（一）MaxCompute 胖当当技术架构云计算 odps 学习大数据
一、引言作者后面会使用MaxCompute，所以在进行学习研究，总会有一些疑问产生，这里讲讲作者的疑问和思路二、介绍MaxCompute（原名ODPS-OpenDataProcessingService）是阿里云提供的大数据处理平台，专门用于批量数据存储和大规模并行计算。它广泛应用于数据分析和处理任务，为企业级数据处理提供高效的解决方案。下面是MaxCompute的一些主要功能和应用场景：大规模数
活动火热报名中 | Data+AI 融合趋势下的智能数仓平台建设人工智能大数据阿里云数据库数据
活动介绍随着AI应用浪潮的深入，Data+AI能够让数据和AI团队在一个平台上进行协作,端到端的完成模型开发部署等。MaxCompute作为阿里云最核心的核心战略级云数仓产品之一，在Data+AI融合趋势下，通过经典数据仓库能力定义与云数据架构的深刻理解，构建出面向下一代智能云数仓，并为用户提供了Data+AI一体化开发体验。本次活动，我们将聚焦“Data+AI融合趋势下的智能数仓平台建设”，诚邀
【深入MaxCompute】人力家：用MaxCompute 事务表2.0主键模型去重数据持续降本增效阿里云大数据AI技术
简介：MaxCompute新增TransactionTable2.0（下文简称事务表2.0)表类型在2023年6月27日开始邀测，支持基于事务表2.0实现近实时的增全量一体的数据存储、计算解决方案。作者：石玉阳人力家高级数据研发工程师业务简介人力家是由阿里钉钉和人力窝共同投资成立，帮助客户进入人力资源数字化，依靠产品技术创新驱动战略的互联网公司。公司主要提供包括人事管理、薪酬管理、社保管理、增值服
独家解读！阿里首次披露自研飞天大数据平台技术架构 DP29syM41zyGndVF
9月26日，阿里云飞天大数据平台在云栖大会第二天主论坛上正式对外发布，这也是阿里首次对外披露飞天大数据平台的整体架构。据介绍，飞天大数据平台由阿里自主研发，可扩展至10万台计算集群，是目前全球集群规模最大的计算平台。飞天大数据平台始于2009年阿里巴巴的“登月”计划，在此次对外发布之前，它已经在阿里云内部实际运行和服务了十年之久（大家过去更为熟悉的MaxCompute是飞天系统的三大件之一，也是如
【深入MaxCompute】人力家：借助Information Schema合理治理费用阿里云大数据AI技术
简介：人力家是由阿里钉钉和人力窝共同投资成立，帮助客户进入人力资源数字化，依靠产品技术创新驱动战略的互联网公司。本文将为大家带来MaxCompute与人力家客户案例深度解读。作者：石玉阳人力家高级数据研发工程师业务简介人力家是由阿里钉钉和人力窝共同投资成立，帮助客户进入人力资源数字化，依靠产品技术创新驱动战略的互联网公司。公司主要提供包括人事管理、薪酬管理、社保管理、增值服务在内的人力资源SaaS
原来还可以使用 DataX 进行数据同步 lytao123 ➤数据库 big data hive java DataX Clickhouse
DataX进行数据同步DataX一、环境要求二、DataX部署三、新建JobDataXDataX是阿里云DataWorks的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS
datax 学习记录咳咳00 学习大数据 datax
初识DataX是由阿里巴巴研发并开源的一个异构数据源离线同步工具，DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS等各种异构数据源之间高效的数据同步功能。了解datax基本概念和下载方式参考：https://zhu
datax避坑记录佛祖保佑永不宕机数据库数据库
datax避坑记录先介绍一下datax，dataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS等各种异构数据源之
mysql 同步工具开源_开源数据同步工具——datax weixin_39942572 mysql 同步工具开源
开源数据同步工具——dataxDataX是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS等各种异构数据源之间高效的数据同步功能。支持的数据存储类型数据源Reader(读)Writer(写)文档RDBMS关系型数据
开源数据同步工具DataX 快乐江小鱼 java 开源 java
开源数据同步工具DataXDataX简介DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS等各种异构数据源之
Apache SeaTunnel 数据集成插件开发最新经验总结! SeaTunnel 大数据
在ApacheSeaTunnel的最新插件开发中，connector-v2maxcompute连接器实现了基于CatalogTable+SaveMode的新版本。本文主要给大家分享了源端的关键改动包括弃用了过时的方法，改为通过CatalogTable实现数据传递。汇端则增加了对multi-tablesink和saveMode接口的实现，并需手动管理autoservice注解等经验方法！此外，开发了
Apache doris Datax DorisWriter扩展使用方法张家锋
DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS等各种异构数据源之间高效的数据同步功能ApacheDoris是一个现代化的MP
Python实现数据库表的监控告警功能 Taerge0110 大数据数仓算法数据库 python 开发语言大数据
Python实现数据库表的监控告警功能简介:使用Python实现对数据库表的监控告警功能,并将告警信息通过钉钉机器人发送到钉钉群实现DataWorks中数据质量的基本功能,当然DW的数据质量的规则类型很多,用起来比较方便,这里只简单实现了其中两个规则类型的功能,仅供参考;初次使用Python,请多指教使用工具:MaxCompute1.创建表1.tmp_monitor_tbl_infoCREATET
阿里云大数据ACA及ACP复习题（1~20) 周周的奇妙编程阿里云云计算ACA笔记阿里云大数据云计算
1.（多选）MaxCompute在每一个项目空间在创建时，会自动创建admin的角色，并且为该角色授予了确定的权限。以下权限中不属于admin的有哪些（ABD）。A:设定项目空间的安全配置B:修改项目空间的鉴权模型C:将admin权限指派给其他用户D:以package方式授权E:对其他用户或角色进行授权解析：MaxCompute创建项目成功后，除了项目所有者（ProjectOwner）外还内置了两
阿里云大数据ACA及ACP复习题（21~40) 周周的奇妙编程阿里云大数据云计算
21.Hadoop的主要功能中，能完成对海量数据分布式运算的是哪个组件?（D）A:HDFSB:DFSC:RDDD:MapReduce解析：MAPREDUCE（分布式运算编程框架）22.以下选项中不属于MaxCompute特点的是(D)A:支持多种多种经典的分布式计算模型B:海量数据存储与计算C:保障数据安全、降低企业成本D:处理离线数据不能处理实时数据解析：MaxCompute向用户提供了完善的数
数仓建设指南左美美￣　　 java 大数据数据仓库
数仓建设指南数据模型架构规范数据层次的划分ODS：OperationalDataStore，操作数据层，在结构上其与源系统的增量或者全量数据基本保持一致。它相当于一个数据准备区，同时又承担着基础数据的记录以及历史变化。其主要作用是把基础数据引入到MaxCompute。CDM：CommonDataModel，公共维度模型层，又细分为DWD和DWS。它的主要作用是完成数据加工与整合、建立一致性的维度、
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的