安伦_Alan

Teradata 学习笔记5

系统日历
SQL有非常有限的日期运算功能，对日期运算比较困难。因此，有必要开发更
复杂的基于时间的计算工具，这就是开发系统日历的原因。系统日历与用户自己定
义的日历相比，最重要的一点是性能提高。
Teradata的系统日历涵盖200年的范围，没有性能问题。因为日历表仅仅按照

当前执行的查询物化所需要的实际行数据。

日历表的布局
系统日历包含从1900-01-01到2100-12-31的每天的数据，每天在表中都有一行
数据。
下面是系统日历可以访问的列：
calendar_date DATE UNIQUE (标准Teradata日期)
day_of_week BYTEINT, (1-7，星期几，1代表星期天)
day_of_month BYTEINT, (1-31，本月中的第几号)
day_of_year SMALLINT, (1-366，本年中的第几天)
day_of_calendar INTEGER, (从01/01/1900开始的天, 本日历中第几天)
weekday_of_month BYTEINT, (本月中该星期几出现的次数)

week_of_month BYTEINT, (本月中第几周，以星期天到星期六为一周。0，表
示月的第一个不完整的周；1表示月的第一个完整的周)
week_of_year BYTEINT, (0-53) (本年中第几周，0表示第一个不完整的周)
week_of_calendar INTEGER, (0-n) (本日历中的第几周，0表示第一个不完整的
周)
month_of_quarter BYTEINT, (1-3，本季度中第几月)
month_of_year BYTEINT, (1-12，本年中第几月)
month_of_calendar INTEGER, (1-n，本日历中第几月，从1900年1月起)
quarter_of_year BYTEINT, (1-4，本年中第几季度)
quarter_of_calendar INTEGER, (本日历中第几季度，从1900年1月起)
year_of_calendar SMALLINT, (年份，从1900起)

系统日历有下列特性：
! 基础表是Sys_calendar.Caldates
! 它只有一列"cdate"，数据类型是DATE

! 日历中的每个日期都有一行数据
! 唯一主索引(UPI)是"cdate"
! 每个视图都增加了一些智能的日期功能

SELECT *
FROM Sys_calendar.Calendar
WHERE calendar_date = current_date;
结果
calendar_date: 98/09/21
day_of_week: 2

day_of_month: 21
day_of_year: 264
day_of_calendar: 36058
weekday_of_month: 3
week_of_month: 3
week_of_year: 38
week_of_calendar: 5151
month_of_quarter: 3
month_of_year: 9
month_of_calendar: 1185
quarter_of_year: 3
quarter_of_calendar: 395
year_of_calendar: 1998
注：SELECT CURRENT_DATE是ANSI标准，等同于SELECT DATE。

使用日历
下面是使用日历的例子：
CREATE SET TABLE daily_sales ,NO FALLBACK
,NO BEFORE JOURNAL
,NO AFTER JOURNAL
(itemid INTEGER
,salesdate DATE FORMAT 'YY/MM/DD'
,sales DECIMAL(9,2))
PRIMARY INDEX ( itemid );

问题
显示1998年1季度item 10的销售总额。
解答
SELECT ,ds.itemid
,SUM(ds.sales)
FROM sys_calendar.calendar sc
,daily_sales ds
WHERE sc.calendar_date = ds.salesdate
AND sc.quarter_of_year = 1
AND sc.year_of_calendar = 1998AND ds.itemid = 10
GROUP BY 1;

结果
itemid Sum(sales)
10 4050.00

下面是使用日历的例子：
CREATE SET TABLE daily_sales ,NO FALLBACK
,NO BEFORE JOURNAL
,NO AFTER JOURNAL
(itemid INTEGER
,salesdate DATE FORMAT 'YY/MM/DD'
,sales DECIMAL(9,2))
PRIMARY INDEX ( itemid );

问题
获得item 10在当前月的销售额。
解答
SELECT SUM(ds.sales)

FROM sys_calendar.calendar sc
,daily_sales ds
,today td
WHERE sc.calendar_date = ds.salesdate
AND sc.month_of_calendar = td.month_of_calendar
AND ds.itemid = 10;
结果
Sum(sales)
2550.00

查询相对于今天的信息
连接视图"Today"，查询相对于今天的信息。下面是一个典型的例子。
问题
比较item 10在今年和去年的这个月和上个月的销售额。

解答
SELECT sc.year_of_calendar AS "year"
,sc.month_of_year AS "month"
,ds.itemid
,sum(ds.sales)

FROM sys_calendar.calendar sc
,daily_sales ds
,today td
WHERE sc.calendar_date = ds.salesdate
AND ((sc.month_of_calendar BETWEEN td.month_of_calendar - 1
AND td.month_of_calendar)
OR (sc.month_of_calendar BETWEEN td.month_of_calendar - 13
AND td.month_of_calendar - 12))
AND ds.itemid = 10
GROUP BY 1,2,3
ORDER BY 1,2;

结果
year month itemid Sum(sales)
1997 8 10 1950.00
1997 9 10 2100.00
1998 8 10 2200.00
1998 9 10 2550.00

分组结果
现在我们做前面同样的查询，但是按周分隔信息。我们在SELECT语句中增加
一列"Week of Month" 。
解答
SELECT sc.year_of_calendar AS "year"

,sc.month_of_year AS "month"
,sc.week_of_month AS "Week of//Month"
,ds.itemid
,SUM(ds.sales)
FROM sys_calendar.calendar sc
,daily_sales ds
,today td
WHERE sc.calendar_date = ds.salesdate
AND ((sc.month_of_calendar BETWEEN td.month_of_calendar - 1
AND td.month_of_calendar)
OR (sc.month_of_calendar BETWEEN td.month_of_calendar - 13
AND td.month_of_calendar - 12))
AND ds.itemid = 10
GROUP BY 1,2,3,4
ORDER BY 1,2,3;

结果
year month week_of_month itemid Sum(sales)
1997 8 0 10 350.00
1997 8 1 10 600.00
1997 8 2 10 550.00
1997 8 3 10 150.00
1997 8 4 10 200.00
1997 8 5 10 100.00
1997 9 0 10 750.00
1997 9 2 10 1000.00
1997 9 3 10 350.00
1998 8 0 10 150.00
1998 8 1 10 1050.00
1998 8 2 10 550.00

比较相关周
系统日历使用数字0到6表示每月的周。0，如果有的话，表示月的第一个不完
整的周；1表示月的第一个完整的周。
问题
显示item 10在上月第一个完整周和去年对应周的销售额。

解答
SELECT sc.year_of_calendar AS "year"
,sc.month_of_year AS "month"
,sc.week_of_month AS "Week of//Month"
,ds.itemid
,SUM(ds.sales)
FROM sys_calendar.calendar sc
,daily_sales ds

,today td
WHERE sc.calendar_date = ds.salesdate
AND sc.week_of_month = 1
AND ((sc.month_of_calendar = td.month_of_calendar - 1)
OR (sc.month_of_calendar = td.month_of_calendar - 13))
AND ds.itemid = 10
GROUP BY 1,2,3,4
ORDER BY 1,2;

结果
year month week_of_month itemid Sum(sales)
1997 8 1 10 600.00
1998 8 1 10 1050.00

按星期聚合
按照星期几来汇总数据是很常见的需求。系统日历具有这个能力，使用数字1
至7来表示星期，星期日是第一天。
问题
显示item 10在本月和上月所有星期日的销售额，并且日销售额应大于$150。

SELECT sc.calendar_date AS "date"
,sc.week_of_month AS "Week of//Month"
,'Sunday'
,ds.itemid
,SUM(ds.sales)
FROM sys_calendar.calendar sc
,daily_sales ds
,today td
WHERE sc.calendar_date = ds.salesdate
AND sc.day_of_week = 1
AND ((sc.month_of_calendar = td.month_of_calendar)
OR (sc.month_of_calendar = td.month_of_calendar - 1))
AND ds.itemid = 10
GROUP BY 1,2,3,4

HAVING SUM(ds.sales) > 150
ORDER BY 1,2;

结果
date Week_of_Month 'Sunday' itemid Sum(sales)
98/08/02 1 Sunday 10 200.00
98/09/06 1 Sunday 10 350.00
98/09/20 3 Sunday 10 450.00
98/09/27 4 Sunday 10 350.00

比较周
要比较周，需要使用"week_of_calendar"列。例子聚合了今年和去年本周和上
周的信息，当前周可以通过今天视图"today"获得。

问题
显示item 10在本周和上周及去年同期的销售额。

解答
SELECT sc.year_of_calendar as "year"
,sc.month_of_year as "month"
,sc.week_of_month as "week"
,ds.itemid
,sum(ds.sales)
FROM sys_calendar.calendar sc
,daily_sales ds
,today td
WHERE sc.calendar_date = ds.salesdate
AND ((sc.week_of_calendar BETWEEN td.week_of_calendar - 1
AND td.week_of_calendar)
OR (sc.week_of_calendar BETWEEN td.week_of_calendar - 53
AND td.week_of_calendar - 52))
AND ds.itemid = 10
GROUP BY 1,2,3,4
ORDER BY 1,2,3;

结果
year month week itemid Sum(sales)
1997 9 2 10 1000.00
1997 9 3 10 350.00

1998 9 2 10 550.00
1998 9 3 10 450.00
使用星期表
如果需要显示星期几的名称，那么应该使用一个星期表。先创建表，并增加
数据。以后的查询就可以连接这个表，产生所需的结果。

例：
创建星期表day_of_week，并增加数据。
CREATE TABLE day_of_week
(numeric_day INTEGER
,char_day CHAR(9)
)
UNIQUE PRIMARY INDEX (numeric_day);
INSERT INTO day_of_week VALUES (1, 'Sunday');
INSERT INTO day_of_week VALUES (2, 'Monday');
INSERT INTO day_of_week VALUES (3, 'Tuesday');
INSERT INTO day_of_week VALUES (4, 'Wednesday');
INSERT INTO day_of_week VALUES (5, 'Thursday');
INSERT INTO day_of_week VALUES (6, 'Friday');
INSERT INTO day_of_week VALUES (7, 'Saturday');

问题
显示item 10这周每天的平均销售额。
解答
SELECT dw.char_day "Day of// Week"
,AVG(ds.sales) avgsal
FROM daily_sales ds, sys_calendar.calendar sc , day_of_week dw
WHERE sc.calendar_date = ds.salesdate
AND sc.day_of_week = dw.numeric_day
GROUP BY 1;

结果
Day of Week avgsal
Thursday 250.00
Friday 272.22
Wednesday 350.00
Monday 275.00
Sunday 295.00
Tuesday 285.71
Saturday 325.00

OLAP函数
完成本章学习后，将能够：
! 使用标准SQL进行数据挖掘
! 在标准SQL中使用OLAP函数
! 执行统计方面的采样(samplings)、排队(rankings)和分位数(quantiles)
! 了解 OLAP统计函数

OLAP函数简介
OLAP即联机分析处理(On-Line Analytical Process)。Teradata数据库本身提供
了一些OLAP函数，包括：
RANK - 排队(Rankings)
QUANTILE - 分位数(Quantiles)
CSUM - 累计(Cumulation)
MAVG - 移动平均(Moving Averages)
MSUM - 移动合计(Moving Sums)
MDIFF - 移动差分(Moving Differences)
MLINREG - 移动线性回归(Moving Linear Regression)

OLAP函数与聚合函数有类似的地方：
! 对数据进行分组操作 (类似于GROUP BY 子句)
! 能够使用QUALIFY子句过滤组 (类似于HAVING 子句)
OLAP函数又与聚合函数不同，因为：
! 返回满足条件的每行的数据值，而不是组的值
! 不能在子查询内使用
OLAP函数可以对下面的数据库对象或动作使用：
! Tables (Perm, Temp, Derived)
! Views
! INSERT/SELECT

累计函数
累计函数(CSUM) 计算一列的连续的累计的值。语法为：
CSUM(colname, sort list)
表'daily_sales'在许多查询中都将使用，其定义如下。
CREATE SET TABLE daily_sales ,NO FALLBACK
,NO BEFORE JOURNAL
,NO AFTER JOURNAL

(itemid INTEGER
,salesdate DATE FORMAT 'YY/MM/DD'
,sales DECIMAL(9,2))
PRIMARY INDEX ( itemid );
问题
创建item 10从1998年1月和2月的连续的日汇总报表。

解答
SELECT salesdate, sales, csum(sales, salesdate)
FROM daily_sales
WHERE salesdate BETWEEN 980101 AND 980301
AND itemid = 10;
结果
salesdate sales Csum
98/01/01 150.00 150.00
98/01/02 200.00 350.00
98/01/03 250.00 600.00
98/01/05 350.00 950.00
98/01/10 550.00 1500.00
98/01/21 150.00 1650.00
98/01/25 200.00 1850.00
98/01/31 100.00 1950.00
98/02/01 150.00 2100.00
98/02/03 250.00 2350.00

98/02/06 350.00 2700.00
98/02/17 550.00 3250.00
98/02/20 450.00 3700.00
98/02/27 350.00 4050.00

在上面的报表中，每行都代表item 10一天的数据。注意，不是每天都销售了
item 10。最右边的列代表其在两个月内的累计销售额。
如果想每月重新累计，该怎么办？
累计汇总可以使用GROUP BY子句在特殊的点复位，即重新开始累计。注
意，OLAP函数和标准聚合函数(SUM, COUNT,AVG, MIN, MAX) 是不能在同一查
询中兼容的。因此，对这类查询使用GROUP BY，将会起分隔的作用。
问题
创建item 10从1998年1月和2月的连续的日汇总报表，并且每月重新开始累
计。

解答
SELECT salesdate, sales, csum(sales, salesdate)
FROM daily_sales ds, sys_calendar.calendar sc
WHERE ds.salesdate = sc.calendar_date
AND sc.year_of_calendar = 1998
AND sc.month_of_year in (1,2)

AND ds.itemid = 10
GROUP BY sc.month_of_year;

结果
salesdate sales Csum
98/01/01 150.00 150.00
98/01/02 200.00 350.00
98/01/03 250.00 600.00
98/01/05 350.00 950.00
98/01/10 550.00 1500.00
98/01/21 150.00 1650.00
98/01/25 200.00 1850.00
98/01/31 100.00 1950.00
98/02/01 150.00 150.00 重新累计
98/02/03 250.00 400.00
98/02/06 350.00 750.00
98/02/17 550.00 1300.00
98/02/20 450.00 1750.00
98/02/27 350.00 2100.00

要回答上面的问题，你需要得到年和月。连接到系统日历，可以获得月。
GROUP BY子句累计重新开始，告诉系统"当月改变时，累计值清零"。

移动平均函数
移动平均函数(MAVG) 基于预定的行数(查询宽度)计算一列的移动平均值。如
果行数小于这个宽度，则基于前面已有的行计算平均值。使用移动平均的语法是：
MAVG(colname, n, sortlist)
colname = 计算移动平均值的列
n = 行数(< 4096)，计算时将使用，包括当前行('n' 也称为平均宽度)
sortlist = 确定行顺序的列

问题
显示item 10基于7天宽度的移动平均值。
解答
SELECT salesdate,itemid, sales, MAVG(sales, 7, salesdate)
FROM daily_sales;
结果
salesdate itemid sales MAvg
98/01/01 10 150.00 150.00

98/01/02 10 200.00 175.00 前2行的平均值
98/01/03 10 250.00 200.00
98/01/05 10 350.00 237.50
98/01/10 10 550.00 300.00
98/01/21 10 150.00 275.00
98/01/25 10 200.00 264.29 前7行的平均值
98/01/31 10 100.00 257.14
98/02/01 10 150.00 250.00
98/02/03 10 250.00 250.00
98/02/06 10 350.00 250.00
98/02/17 10 550.00 250.00
98/02/20 10 450.00 292.86

计算时，使用当前行和前面n-1行。如果行数小于n-1，则使用前面所有行。缺
省，按照sortlist中的列升序排列。

移动汇总函数
移动汇总函数(MSUM) 基于预定的查询宽度计算一列的移动汇总值。宽度决
定有多少行合计到汇总值中。如果前面的行数小于n，则仅使用前面所有行。移动
汇总函数的语法是：
MSUM(colname, n, sortlist)
注意：'n'是一个整数，表示有多少行参加汇总求和。

问题
显示item 10基于3天宽度的移动汇总值。
解答
SELECT salesdate, itemid, sales, msum(sales, 3, salesdate)
FROM daily_sales;

结果
salesdate itemid sales MSum
98/01/01 10 150.00 150.00
98/01/02 10 200.00 350.00 前面2行的总和
98/01/03 10 250.00 600.00
98/01/05 10 350.00 800.00
98/01/10 10 550.00 1150.00
98/01/21 10 150.00 1050.00
98/01/25 10 200.00 900.00 前面3行的总和
98/01/31 10 100.00 450.00
98/02/01 10 150.00 450.00
98/02/03 10 250.00 500.00
98/02/06 10 350.00 750.00
98/02/17 10 550.00 1150.00
98/02/20 10 450.00 1350.00
98/02/27 10 350.00 1350.00

移动汇总(MSum)与移动平均(MAvg)有下列相同的规则：
! 使用当前行和前n-1行
! 如果行数小于n-1，使用前面所有的行
! 缺省按照sortlist中的列升序排列

移动差分函数
移动差分函数(MDIFF) 基于预定的查询宽度计算一列的移动差分值。宽度决
定有多少行参与计算。如果前面的行数小于n，则产生一个空值(null)代表差值。移
动差分函数的语法是：
MDIFF(colname, n, sortlist)
宽度n<=4096

问题
显示item 10基于3天宽度的移动差分值。

解答
SELECT salesdate, itemid, sales, mdiff(sales, 3, salesdate)
FROM daily_sales;

结果

salesdate itemid sales MDiff
98/01/01 10 150.00 ?
98/01/02 10 200.00 ?
98/01/03 10 250.00 ?
98/01/05 10 350.00 200.00 2行的差值
98/01/10 10 550.00 350.00
98/01/21 10 150.00 -100.00
98/01/25 10 200.00 -150.00
98/01/31 10 100.00 -450.00
98/02/01 10 150.00 .00
98/02/03 10 250.00 50.00 2行的差值
98/02/06 10 350.00 250.00
98/02/17 10 550.00 400.00
98/02/20 10 450.00 200.00
98/02/27 10 350.00 .00

Mdiff列的值表示某日销售额与三天前日销售额的差。
MDIFF的用法与MAvg 和MSum 有一些不同：
! 使用当前行和前面的第n行

! 如果前面没有第n行，返回空值(null)
! 缺省按照sortlist 中的列升序排列

排队函数

准备数据表
在数据库Customer_Service中增加一个销售表，后面的OLAP查询将使用这个
表。
表定义
CREATE TABLE salestbl
(storeid INTEGER,
prodid CHAR(1),
sales DECIMAL(9,2));
表中数据为：

storeid prodid sales
1001 A 100000.00
1001 C 60000.00
1001 D 35000.00
1001 F 150000.00
1002 A 40000.00
1002 C 35000.00
1002 D 25000.00
1003 A 30000.00

1003 B 65000.00
1003 C 20000.00
1003 D 50000.00

简单排队
排队函数对一列进行排队，可以按照升序或者降序排队。缺省，输出结果按
照降序排队，对应的排队名次是升序。换句话说，如果一个销售代表在某季度的销
售额最高，其排名为1，这是一个最小的值。
排队函数(RANK)的语法是：
RANK(colname)
这里，colname表示排队的列名，其结果降序排列。
问题
显示商店1001的产品销售额排队。

解答
SELECT storeid, prodid, sales, RANK(sales)
FROM salestbl
WHERE storeid = 1001;

结果
storeid prodid sales Rank
1001 F 150000.00 1
1001 A 100000.00 2
1001 C 60000.00 3
1001 D 35000.00 4
如上所示，列Rank的最大值代表最低的销售额。
使用排队函数的规则包括：
! WHERE子句限定参与排队的记录。
! 应用排队函数时，缺省最大的数名次最低。
! 缺省顺序是按排队列的降序。

带限定的排队
QUALIFY子句限制排队输出的最终结果。QUALIFY子句与HAVING子句类
似，使输出限制在一定范围内。
问题
按商店得到销售前3名的产品。

解答
SELECT storeid, prodid, sales, rank(sales)
FROM salestbl
GROUP BY storeid
QUALIFY rank(sales) <= 3;
结果
storeid prodid sales Rank
1001 A 100000.00 1
1001 C 60000.00 2
1001 D 35000.00 3
1002 A 40000.00 1
1002 C 35000.00 2
1002 D 25000.00 3
1003 B 65000.00 1
1003 D 50000.00 2
1003 A 30000.00 3

上面的例子中，GROUP BY子句不是做聚合，它实际上是改变查询的范围，
也引起排序。
使用排队函数的规则包括：
! 对某列的每行都应用了排队
! GROUP BY子句控制范围，如商店内的销售额排队(注意- 查询中并没有聚
合)

排队中的变化
GROUP BY子句可以和RANK函数一起使用，改变排队的范围。没有GROUP
BY子句，缺省的范围是排队的列。前面的例子中，范围是销售额，排队是基于销
售额进行的。
排队的列是缺省的排序列，GROUP BY子句增加了一级排序。
缺省排序 - 按排队列降序
次排序 - 按GROUP BY中的列升序

问题
得到前3名的销售额 - 任何商店、任何产品。

解答
SELECT storeid
,prodid
,sales
,rank(sales)
FROM salestbl
GROUP BY storeid, prodid
QUALIFY RANK(sales) <= 3
;

结果
storeid prodid sales Rank
1001 A 100000.00 1
1001 C 60000.00 1
1001 D 35000.00 1
1001 F 150000.00 1
1002 A 40000.00 1
1002 C 35000.00 1
1002 D 25000.00 1
1003 A 30000.00 1
1003 B 65000.00 1
1003 C 20000.00 1
1003 D 50000.00 1

排名都是1的原因是使用了GROUP BY子句，范围变成了商店内的产品的销售
额。因为每种产品在一个商店中只有一种，所以排名都是1。
现在去掉GROUP BY子句，范围变成了缺省的销售额。

现在去掉GROUP BY子句，范围变成了缺省的销售额。

解答
SELECT storeid
,prodid
,sales
,rank(sales)
FROM salestbl
QUALIFY RANK(sales) <= 3
;
结果
storeid prodid sales Rank
1001 F 150000.00 1
1001 A 100000.00 2
1003 B 65000.00 3

带聚合的排队
由于上面的原因，OLAP函数与聚合函数在同一查询内不兼容，否则将引起二
意性。替代的办法，是使用导出表(derived)或临时表来解决这类问题。临时表包含
聚合信息，再对临时表进行OLAP查询。
问题
获得销售额在前3名的产品，跨所有商店。

解答
SELECT t.prodid, t.sumsales, RANK(t.sumsales)
FROM (SELECT a.prodid, sum(a.sales) FROM salestbl a
GROUP BY 1) AS t(prodid, sumsales)
QUALIFY RANK(sumsales) <= 3;
注意：'t' 是一个从salestbl产生的导出表，包含两列：prodid and sumsales。
结果
prodid Sumsales Rank
A 170000.00 1
C 115000.00 2
D 110000.00 3

缺省顺序是按照列sumsales的降序。这里主查询中没有GROUP BY子句，范围
是Sumsales。
问题
获得销售额在最后3名的产品，跨所有商店。

解答
SELECT t.prodid, t.sumsales, RANK(t.sumsales)
FROM (SELECT a.prodid, sum(a.sales)
FROM salestbl a
GROUP BY 1) AS t(prodid, sumsales)
QUALIFY RANK(sumsales ASC) <= 3;
结果
prodid sumsales Rank
B 65000.00 5
D 110000.00 4
C 115000.00 3
注意：名次可能大于3。

这个查询与前面的唯一区别是QUALIFY子句中的sumsales为升序。为什么会
得到大于3的结果呢？
答案是按sumsales的升序(sumsales ASC) 排列后，会给我们最底下的3行数据。
QUALIFY子句的意思是‘按销售额升序排列，得到前3行数据’。

解答
SELECT t.prodid, t.sumsales, rank(t.sumsales)
FROM (SELECT a.prodid, sum(a.sales) FROM salestbl a
GROUP BY 1) as t(prodid, sumsales)
QUALIFY RANK(sumsales asc) <= 3;
结果
prodid sumsales Rank

B 65000.00 5
D 110000.00 4
C 115000.00 3
现在做同样的查询，这次包括ORDER BY子句。
问题
得到销售最差的3种产品，跨所有商店，并按照产品号(prodid)排序。

解答
SELECT t.prodid, t.sumsales, rank(t.sumsales)
FROM (SELECT a.prodid, sum(a.sales) from salestbl a
GROUP BY 1) as t(prodid, sumsales)
QUALIFY RANK(sumsales asc) <= 3
ORDER BY 1;
结果
Prodid sumsales Rank
B 65000.00 5
C 115000.00 3
D 110000.00 4

看上面的结果，同样的3行数据，但顺序不一样。ORDER BY子句中的列成为
主排序列。

分位数函数

分位数用于将一组记录分成大致相等的部分。最常见的分位数是百分位数(基
于100)，也有4分位数 (基于4)、3分位数 (基于3) 和10分位数 (基于10)。注意，缺省
地，分位数的列和值都按升序输出。

可以使用ORDER BY子句重新排序。如前所述，聚合函数不能和OLAP函数混
合使用，如果要使用聚合函数，可以使用导出表或临时表。分位数函数的语法是：
QUANTILE (quantile_constant,sortlist)

quantile_constant = 定义分位数大小的常量。
sortlist = 用于分割和排序的列。
问题
显示产品销售额的百分位。
解答
SELECT t.prodid, t.sumsales, QUANTILE (100,sumsales)
FROM (SELECT a.prodid, sum(a.sales) from salestbl a
GROUP BY 1) as t(prodid, sumsales);
注：宽度= 100，分位数的范围是0-99 。

结果
prodid sumsales Quantile
B 65000.00 0

D 110000.00 20
C 115000.00 40
F 150000.00 60
A 170000.00 80
上述查询使用导出表(derived table)进行聚合，使用缺省的分位数升序排序。可
以使用ORDER BY子句重新排序。总共有5个产品，所以等分为20% 。
问题
显示销售额的百分位数为60+的产品。

解答
SELECT t.prodid, t.sumsales, QUANTILE(100,sumsales)
FROM (SELECT a.prodid, sum(a.sales) from salestbl a
GROUP BY 1) as t(prodid, sumsales)
QUALIFY QUANTILE(100,sumsales) >= 60;
结果
prodid sumsales Quantile
F 150000.00 60
A 170000.00 80

分位与聚合
下面第一个查询返回公司内薪水在前25%的雇员。第二个查询得到薪水前25%
的雇员的薪水的总和，解决办法是通过使用导出表，混合聚合函数和OLAP函数。
问题
显示公司前25%的所有员工的薪水。

解答
SELECT salary_amount, QUANTILE (100, salary_amount)
FROM employee
QUALIFY QUANTILE (100, salary_amount) >=75;

结果
salary_amount Quantile
53625.00 76
54000.00 80
56500.00 84
57700.00 88
66000.00 92
100000.00 96
问题
计算公司前25%的薪水的总和。

解答1
SELECT sum(salary_amount)
FROM employee QUALIFY QUANTILE (100, salary_amount) >= 75;
结果
****Error - Can't mix stat functions with aggregates***
解答2
SELECT sum(sals)
FROM (SELECT salary_amount from employee
QUALIFY QUANTILE(100, salary_amount) >= 75)

temp(sals);
结果
Sum(sals)
387825.00

分位与排序
下面的例子中，分位数函数表示如下：
QUANTILE (100, salary_amount, employee_number)

这里 ‘employee_number’ 是用于处理有相同薪水员工的情形。记住，
‘salary_amount’ (缺省是DESC) 告诉我们salary_amount将与分位数值一样降序排
序。使用employee_number，进一步保证在相同薪水的情况下，employee_number
将与分位数值一样降序排序。
问题
显示薪水最低的25%的所有员工。
解答1
SELECT employee_number, salary_amount,

QUANTILE (100, salary_amount , employee_number)
FROM employee
QUALIFY QUANTILE (100, salary_amount) < 25;

结果
employee_number salary_amount Quantile
1014 24500.00 03
1013 24500.00 00
1001 25525.00 07
1023 26500.00 11
1008 29250.00 15
1006 29450.00 19
1009 31000.00 23

移动线性回归函数

移动线性回归函数MLINREG基于一个序列数据对得到一个预测值。序列对包
含一个独立的变量和一个依赖的变量。MLINREG函数基于前面的n对数预测依赖
变量的值。n叫做宽度。
MLINREG 的语法是：
MLINREG (y, n, x)

函数基于前面n-1行计算y值。y是依赖变量。x是独立变量，也是排序值。x和y
都必须是数字列，不能是日期。宽度n必须>=3 且<=4096。
例1
给出序列对x 和y的集合，使用线性回归预测y值，宽度是3。
解答
SELECT x, y, MLINREG(y, 3, x)
FROM linreg;

给出序列对x 和y的集合，使用线性回归预测y值，宽度是6。
解答
SELECT x, y, MLINREG(y, 6, x)
FROM linreg;

头两行总是空值(null)，结果的线性依赖于两个变量的线性。缺省的顺序是按
列 (x)的升序。可以使用ORDER BY重新排序。
线性回归是一个数学算法，其公式为：

按日期预测
移动线性回归函数的一个限制是不能使用日期作为独立变量。因为计算回归
需要使用加法、减法和乘法，对DATE 数据类型运算有问题。
一种解决办法是与系统日历做连接，用day_of_year 列代替日期，如果产生基
于月的结果，也可以使用month_of_year列。
注意GROUP BY子句会引起函数复位，GROUP BY子句也是主要的排序键，
独立变量是次要的排序键。
在移动线性回归函数中使用日期，可以使用CAST把他们转换成CHAR类型，
从而作为非日期类型使用。
问题
使用线性回归算法预测items 10 和11在1998年头两周的日销售额，宽度为5。

解答
SELECT itemid, CAST(salesdate as char(10)) as chardate, sales
,mlinreg(sales, 5, chardate)
FROM jan_sales
WHERE salesdate between 980101 and 980114
AND itemid in (10,11)
GROUP BY 1
;

结果
itemid chardate sales MLinReg
10 98/01/01 150.00 ?
10 98/01/02 200.00 ?
10 98/01/03 250.00 250.00
10 98/01/04 350.00 300.00
10 98/01/05 550.00 400.00
10 98/01/06 150.00 625.00
10 98/01/07 200.00 300.00
10 98/01/08 100.00 100.00
10 98/01/09 150.00 -75.00
10 98/01/10 250.00 125.00
10 98/01/11 350.00 225.00
10 98/01/12 550.00 425.00
10 98/01/13 450.00 650.00
10 98/01/14 350.00 600.00
11 98/01/01 350.00 ? 复位
11 98/01/02 100.00 ?
11 98/01/03 450.00 -150.00

11 98/01/05 250.00 600.00
11 98/01/06 350.00 475.00
11 98/01/07 200.00 250.00
11 98/01/08 150.00 100.00
11 98/01/09 250.00 125.00
11 98/01/10 450.00 150.00
11 98/01/11 550.00 475.00
11 98/01/12 250.00 700.00
11 98/01/13 350.00 400.00
11 98/01/14 350.00 250.00

上面的内容有些需要注意：
! GROUP BY子句引起线性回归算法复位
! GROUP BY子句优先排序
! DATE数据类型需要转换成CHAR类型

采样函数

采样函数SAMPLE用于从表或视图中产生一些样本数据。有两种形式：
! 基于实际的行数
! 基于表的百分比
SAMPLE n - 这里n是一个整数。如果表中记录数>=n，将产生n行记录；如果
表中记录数

SAMPLE n - 这里n 是一个小数，并且0.00 据，返回记录数采用四舍五入法。如对雇员表采样25%，雇员表有26行记录，则采
样26 * .25 = 6.50 = 6 行记录。
例1
SELECT department_number
FROM employee
SAMPLE 10;

结果
****Query completed. 10 rows found.
department_number
401
401
403
401
301
401
403
402
401
401
注意：这里没有使用DISTINCT子句，仅仅任意抽取10行记录。

例2
SELECT department_number
FROM employee
SAMPLE .25;
结果
****Query completed. 6 rows found.
department_number
403
401
402
301
501
403

使用导出表(derived table)进行采样。
SELECT COUNT(DISTINCT dept)
FROM
(SELECT department_number from employee sample 13)
temp(dept);
结果 - 第一次执行
Count(Distinct(dept))
6

结果 - 第二次执行
Count(Distinct(dept))
5
两次运行结果不一样，原因是导出表是采样产生的13行记录，DISTINCT是基
于导出表而不是整个雇员表。

OLAP统计函数
Teradata V2R4中增加了一些OLAP统计函数。
一元统计函数包括：
STDDEV_SAMP, STTDEV_POP, VAR_SAMP, VAR_POP, SKEW, KURTOSIS
二元统计函数包括：
CORR, COVAR_POP, REGR_SLOPE, REGR_INTERCEPT
OLAP统计函数的特点包括：
! 能够使用GROUP BY产生分组。
! 可以与聚合函数混合使用。
! 不能与其他OLAP函数混合使用。

标准偏差函数
样本标准偏差
STDDEV_SAMP ({DISTINCT} value_expression)
! Value_expression是计算样本标准偏差的列表达式。
! 返回 value_expression的样本标准偏差。
! 从给的样本中计算差量。
STDDEV_SAMP(x)的计算公式如下：

STDDEV_SAMP = SQRT((COUNT(x) * SUM(x**2) - (SUM(x))**2/(COUNT(x)
* (COUNT(x) - 1)))
全体标准偏差
STDDEV_POP ({DISTINCT} value_expression)
! Value_expression是计算全体标准偏差的列表达式。
! 返回 value_expression的全体标准偏差。
! 从全体数据中计算差量。
STDDEV_POP(x)的计算公式如下：
STDDEV_POP = SQRT((COUNT(x) * SUM(x**2) - (SUM(x))**2/(COUNT(x) *
(COUNT(x)**2 - 1)))

变异函数
样本变异函数
VARSAMP ({DISTINCT} value_expression)
! Value_expression是计算样本变异的列表达式。
! 返回 value_expression的样本变异。
! 从给的样本或样本标准偏差的平方中计算差量。
VAR_SAMP(x)的计算公式如下：
VAR_SAMP = (COUNT(x) * SUM(x**2) - (SUM(x))**2/(COUNT(x) *
(COUNT(x) - 1))

全体变异函数
VAR_POP ({DISTINCT} value_expression)
! Value_expression是计算全体变异的列表达式。
! 返回 value_expression的全体变异。
! 从全体数据中计算差量。
VAR_POP(x)的计算公式如下：
VAR_POP = (COUNT(x) * SUM(x**2) - (SUM(x))**2/(COUNT(x) *
(COUNT(x)**2))

分布函数
分布歪斜函数
SKEW ({DISTINCT} value_expression)
! Value_expression是计算分布歪斜的列表达式。
! 返回 value_expression的分布歪斜。
! 测量数据分布的不对称，与正常分布(歪斜值为0)进行比较。
! 正歪斜值指示朝正方向的不对称。
! 负歪斜值指示朝负方向的不对称。
SKEW(x)的计算公式如下：
SKEW = (COUNT(x) /((COUNT(x) - 1) * (COUNT(x) 2)) * SUM(((x - AVG(x))/
STDDEV_SAMP(x))**3

分布峰态函数
KURTOSIS ({DISTINCT} value_expression)
! Value_expression是计算分布峰态的列表达式。
! 返回 value_expression的分布峰态。
! 测量数据分布的高峰或平缓，与正常分布(峰态值为0)进行比较。
! 正峰态值指示朝正方向的峰值。
! 负峰态值指示朝负方向的峰值。
KURTOSIS(x)的计算公式如下：
KURTOSIS = (COUNT(x) * (COUNT(x) + 1) * (COUNT(x) - 2) * (COUNT(x) -
3)) * SUM((x - AVG(x)) / STDDEV_SAMP(x))*4 - 3* (COUNT(x) - 1)**2 /
((COUNT(x) - 2) * (COUNT(x) - 3))

相关性和协方差函数
协方差函数
COVAR_POP (value_expression, value_expression)
! Value_expression是计算协方差的一对列表达式。
! 返回数据对的协方差。
! 是数据对的平均背离乘积。
COVAR_POP(x,y)的计算公式如下：
COVAR_POP = SUM((x - AVG(x)) * (y - AVG(y)))/COUNT(x)

相关性函数
CORR (value_expression, value_expression)
! Value_expression是相关的一对列表达式。
! 返回数据对的皮尔森积(Pearson product)。
! 是测量变量之间的非因果的线性联系(non-causal linear association)。
CORR(x,y)的计算公式如下：
CORR = COVAR_POP(x,y) / (STDDEV_SAMP (x) * STDDEV_SAMP(y))

线性回归函数
回归倾斜函数
REG_SLOPE (value_expression1, value_expression2)
! Value_expression1是独立变量。
! Value_expression2 是依赖变量。
! 基于独立变量和依赖变量返回线性回归的倾斜(slope)值。
! 测试独立变量在依赖变量上的变化率。
REG_SLOPE(x,y)的计算公式如下：
REG_SLOPE = (COUNT(x) * SUM(x) * SUM(Y)) / (COUNT(x) * (SUM(x**2)) -
SUM(x)**2)

回归截取函数
REG_INTERCEPT (value_expression1, value_expression2)
! Value_expression1是独立变量。
! Value_expression2 是依赖变量。
! 基于独立变量和依赖变量返回线性回归的截取(intercept)值。
! 是回归线与纵坐标的截取点。
REG_INTERCEPT(x,y)计算公式如下：
REG_INTERCEPT= AVG(y) - (REGR_SLOPE(x,y) * AVG(x))

你可能感兴趣的:(Teradata)

Powershell和BTEQ工具实现带多组参数和标签的Teradata数据库批量数据导出程序 weixin_30777913 数据库开发语言服务器
设计一个基于多个带标签SQL模板作为配置文件和多组参数的Powershell代码程序和BTEQ工具，实现根据不同的输入参数，自动批量地将Teradata数据库的数据导出为CSV文件到指定目录上，标签和多个参数（以“_”分割）为组成导出数据文件名，文件已经存在则覆盖原始文件。Powershell程序需要异常处理，输出带时间戳和每个运行批次和每个导出文件作业运行状态的日志文件，每天单独一个带日期的和.
案例分享｜快速了解实时湖仓集一体技术如何助力企业降本增效 mysql
1.替代TD仓、Hadoop湖，助力农商行构建一体化数据平台某农商行最初构建了Teradata数据仓库、Oracle小数据平台以及Hadoop数据湖。多平台混合架构开发运维高，存在冗余存储、数据搬迁一致性、跨平台流转数据实时性低等问题。该农商行基于星环科技实时湖仓集一体平台，替代了Teradata数仓、Oracle数据平台和Hadoop数据湖三个平台，一体化架构同时满足数据湖海量汇集、复杂数仓模型
通过DBeaver连接Phoenix操作hbase 不想做咸鱼的王富贵
通过DBeaver连接Phoenix操作hbase前言本文介绍常用一种通用数据库工具Dbeaver，DBeaver可通过JDBC连接到数据库，可以支持几乎所有的数据库产品，包括：MySQL、PostgreSQL、MariaDB、SQLite、Oracle、Db2、SQLServer、Sybase、MSAccess、Teradata、Firebird、Derby等等。商业版本更是可以支持各种NoSQ
Azkaban各种类型的Job编写 __元昊__
一、概述原生的Azkaban支持的plugin类型有以下这些：command：Linuxshell命令行任务gobblin：通用数据采集工具hadoopJava：运行hadoopMR任务java：原生java任务hive：支持执行hiveSQLpig：pig脚本任务spark：spark任务hdfsToTeradata：把数据从hdfs导入TeradatateradataToHdfs：把数据从Te
laravel监听mysql查询，打印语句道甚夷 php框架 laravel mysql android
functionget_last_sql(){//Registeradatabasequerylistenerwiththeconnection.DB::listen(function($sql){$query=$sql->sql;if($sql->bindings){foreach($sql->bindingsas$replace){$value=is_numeric($replace)?$re
一文解决SQL查询中关于NULL的陷阱 PawSQL mysql postgresql 数据库开发 sql 性能优化
一文解决SQL查询中关于NULL的陷阱NULL值处理是应用开发人员最容易出错误的地方，主要的原因是大家习惯使用二元的布尔逻辑来思考判断，而数据库对于NULL值的处理逻辑是三值逻辑。事实上，数据库优化器中缺陷最多的其实也是和NULL值处理相关的逻辑。即使是有着几十年历史的DB2/Teradata等成熟的数据库软件，仍然有超过20%的缺陷和NULL处理相关。本文深度解析NULL值陷阱出现的根本原因，总
UnWallet数字钱包快乐每一天_72a8
1、UNWALLET是什么？UNWALLET是一款数字货币手机轻钱包，作为币圈玩家数字货币的储存方式有两种，第一种储存在钱包，第二种就是放在交易所例如OKEX、火币等2、UNWALLET是哪里的项目？UnWallet是由Unwallet基金会，美国BlueMoutainCapital,美国Teradata技术团队等在全球范围内联合发起，运营的首个区块链项目管理大生态平台。蓝山资本实力是非常强的，还
Teradata & KADB数据库对象兼容说明(一） littlegirll 数据库
兼容说明本文从Teradata和KADB的数据类型、函数、DDL语句三个方面说明列举两个产品的兼容情况，以此分析从Teradata迁移至KADB的可行性。Teradata数据类型兼容数据类型及兼容性注：不兼容的数据类型标注为：X数据类型是否ANSI扩展KADBArrayARRAY/VARRAY是[]ByteBLOB[(n)]是textBYTE[(n)]byteaVARBYTE[(n)]bitvar
Teradata & KADB数据库对象兼容说明(二） littlegirll 数据库 java jvm
Teradata和KADB表兼容Teradata和KADB创建表语句及表的结构差异较大，迁移时需要进行DML语句的人工修改和校验，以下为建表语句的差异对比说明及详细介绍。TeradataKADB表类型volatile(内存中），persistent(磁盘中)MULTISET：允许数据重复SET：不允许数据重复persistent数据分布使用MAP机制hash、random、replication数
tpc-h tpc-ds 数据生成--postgresql templarzq
1.修改makefile#makefile.suite的更改参数如下CC=gcc#CurrentvaluesforDATABASEare:INFORMIX,DB2,TDAT(Teradata)#SQLSERVER,SYBASE,ORACLE,VECTORWISE#CurrentvaluesforMACHINEare:ATT,DOS,HP,IBM,ICL,MVS,#SGI,SUN,U2200,VMS
有用的技术分享主题 weixin_30777913 sqlserver 数据库数据仓库 big data etl
SQLServer数据库和AgentJob集成化监控工具Airflow调度工具的安装和使用Tableau报表开发网络爬虫技术开发PythonGUI应用开发基于S3的数据湖架构设计和大数据开发Hive大数据仓库超大数据集去重解决方案Teradata和SQLServer数据库之间大量数据压缩传输解决方案数据治理Concur报销系统的配置和维护ETL开发、优化和运维总结任何与C++、C#、SQL、Pyt
Teradata数据库和Informatica ETL逻辑及视图、用户定义函数和存储过程迁移到AWS的Hive数据仓库基本流程 weixin_30777913 笔记
首先，我们需要注册AWS帐号，并启用EC2（ElasticCloudComputing，高性能云计算）、EMR（ElasticMap-Reduce，高性能大数据计算）、Redshift/Snowflake数据仓库和S3（SimpleStorageService，简单存储服务）、DevOps（用于Github持续集成）和GithubEnterprise这些服务。其次，我们需要梳理清楚Teradata
2020-07-14 木星_288b
规模化定制能力，是BI之战的制胜关键商业智能（BI），核心在于对数据的敏捷式、可视化探索分析。具体到技术环节，包括数据仓库、ETL、OLAP、数据挖掘、数据可视化这几个方面。大体上来看，BI可分为传统BI和敏捷BI。传统BI在数据仓库、ETL、OLAP这几个方面的性能很强，但这类产品的致命缺点是分析模式比较固定，改动起来很困难，比较笨重，Cognos、SAP、Oracle、Teradata、Mic
GBASE南大通用-Teradata迁移到GBase 8a解决方案 GBASE数据库数据库 GBASE南大通用 GBASE
GBASE南大通用自主研发的GBase8aMPP(GBaseUPLDW)分布式逻辑数据仓库，已经完成了100+用户TeraData等国外数据库替换迁移。通过众多项目的PoC及后续签约的实施，在替换Teradata产品方面，GBase8a积累了丰富的实施经验，形成了一套完整的迁移实施方案，可快速复制推广，实现由teradata到GBase8a的高精准迁移。下面根据GBase8a的迁移经验，从上到下对
GBASE南大通用-TeraData迁移GBase 8a PoC实践 GBASE数据库数据库 GBASE南大通用 GBASE
数据库迁移，考察的是数据库厂商的配套工具、方法论、实施经验，不仅仅要求转换成功率高，转换效率高，也要求转换后可执行，执行结果要准确。近几年，GBase完成了100+用户TeraData等国外数据库替换迁移，积累了多个项目的迁移经验，以转换高、精、准而收到合作伙伴或厂商的好评。以2022年某金融用户的POC测试为例：转换内容包括DDL、视图、批量Perl脚本，转换的数量在PoC中也是算是偏多的，包括
大数据发展历程及技术选型平凡人笔记平凡人笔记
大数据发展历程第一阶段2000年-2010年数仓提供方企业级数据仓库（EDW）IOT(IBM、Oracle、Teradata)提供数据仓库建设从硬件、软件到实施的整体方案需要购买大（中、小）型机配套商用的关系型数据库（Oracle、DB2、SQL Server）以及一些ETL/OLAP套件使用范围实施成本高昂集中在金融、电信、大型零售与制造等行业作用为企业提供报表、分析等数据辅助企业的经营决策
大数据四大阵营之OLTP阵营（上） Ultipa 老孙解密大数据数据库大数据数据挖掘神经网络机器学习
**一|大数据的四大阵营是什么？**·OLTP（在线事务、交易处理）：RDBMS、NoSQL、NewSQL·OLAP（在线分析处理）：MapReduce、Hadoop、Spark等·MPP（大规模并行处理）：Greenplum、TeradataAster等·流数据管理：CEP/Esper、Storm、Spark、Stream、Flume等二|OLTP阵营OLTP阵营可以分为：·传统的关系型数据库·
【金猿投融展】HashData ——致力于降低企业进行大数据分析的门槛，推动数据民主化... 数据猿数据分析大数据数据仓库数据挖掘
‍投融资项目·HashData本项目由HashData投递并参与“数据猿年度金猿策划活动——《2022大数据产业年度创新服务企业》榜单/奖项”评选。‍数据智能产业创新服务媒体——聚焦数智·改变商业HashData成立于2016年2月，是一家专注于云端数据仓库的初创公司，是数字经济和实体经济融合发展的典型代表。核心团队主要由Pivotal、Teradata、IBM、Yahoo!、Oracle和华为等
hive窗口函数——ROW_NUMBER()来去重，和rank()、dense_rank()的区别与teradata中row_number()去重 yyf960126 hive 数据库
原文：https://www.cnblogs.com/wujin/p/6051768.htmlrow_number()、rank()、dense_rank()三个函数相当于groupby之后再来个orderby上实例idnamesal1a102a123b134b125a146a157a138b119a1610b1711a14三个函数selectid,name,sal,rank()over(part
如何从Oracle迁移到Greenplum 第一篇 Greenplum中文社区数据库网络大数据分布式编程语言
众所周知，基础数据平台的迁移非常复杂。今天起，我们将陆续为大家推送系列干货内容——《如何从Oracle迁移到Greenplum》，详细介绍产品对比，迁移场景，迁移步骤，以及一些特殊场景的注意点，手把手教大家做迁移。从传统的单机数据库迁移到分布式数据库，这些原则也仍然适用，很多用户都成功的从Oracle、Teradata、DB2、SybaseIQ、Hadoop等平台迁移到了Greenplum。1综述
金融行业数据模型苡~ 011-数据仓库金融数据库数据仓库
一、TeradataFS-LDMTeradata公司基于金融业务发布的FS-LDM（FinancialServiesLogicalDataModel）十大主题：当事人、产品、协议、事件、资产、财务、机构、地域、营销、渠道。1、当事人（Party）银行所服务的任意对象和感兴趣进行分析的各种对象。如个人或公司客户、潜在客户、代理机构、雇员、分行、部门等。一个PARTY可以同时是这当中许多种角色。2、产
rogabet notepad 编译方式优化 rogabet-note python python
pyinstaller--clean--version-file=file_version_info.txt-iluo.ico-D-wnotepad.py--exclude-modulecv2--exclude-moduletables--exclude-modulescipy--exclude-modulepygame--exclude-moduleteradatasql--exclude-mo
Sql语句转Linq——Linqer工具 MonkeyBananas C#linq sql 数据库
官方下载网站：http://www.sqltolinq.com/下载完成后进行安装：这里的ConnectionString你可以直接填写，也可以点击最右边的三个点，里面可以去配置生成连接字符串。最后一项**Selectorenteradatabasename:**就是你要配置的数据库名称。我这里是自己配置的，如下图：配置好后点击OK，ConnectionString就会自动生成了。然后点击图一中的
云数据库知识学习——云数据库产品、云数据库系统架构枫叶丶PJ 数据库数据库云数据库 UMP
一、云数据库产品1.1、云数据库厂商概述云数据库供应商主要分为三类。①传统的数据库厂商，如Teradata、Oracle、IBMDB2和MicrosoftSQLServer等。②涉足数据库市场的云供应商，如Amazon、Google、Yahoo!、阿里、百度、腾讯等。③新兴厂商，如Vertica、LongJump和EnterpriseDB等。市场上常见的云数据库产品见表6-3。1.2、Amazon
python实现数据仓库ETL dsqzhong python 数据仓库数据库
python实现数据仓库ETL通常讲的数据仓库ETL,可以分为ETL和ELT两种实现方式.ELT是在加载到仓库后,再做数据转换.ETL是在加载之前完成转换,落地的数据就是转换后的样子了.ELT多使用在MPP架构的数据仓库平台上,比如Teradata,greenplum,主要考虑点是,MPP数据仓库数据处理能力强,在加载后再做转换,可以充分利用这一优势.另外,Extract和Load过程很简单,且数
数据库原理解释 Zal哥哥
一提到关系型数据库，我禁不住想：有些东西被忽视了。关系型数据库无处不在，而且种类繁多，从小巧实用的SQLite到强大的Teradata。但很少有文章讲解数据库是如何工作的。你可以自己谷歌/百度一下『关系型数据库原理』，看看结果多么的稀少【译者注：百度为您找到相关结果约1,850,000个…】，而且找到的那些文章都很短。现在如果你查找最近时髦的技术（大数据、NoSQL或JavaScript），你能找
Teradata初体验苍秋寒冬
最近开始正式实习了，公司是Teradata,自然第一项就是学习Teradata数据库了。一，启动Teradata服务器首先是环境搭建，去Teradata官网下载安装包，已经封装在好，下完用vm打开.vmx的虚拟机即可。打开以后，用户名和密码都是root，进入系统以后，查看虚拟机IP地址：#ifconfig记住inetaddr：153.65.129.137，后面会用到。此时Teradata服务器已经
08.常用的时间函数唐人三藏
一、teradata相关的日期函数1.可以使用date或者cast，将字符串改为日期类型2.extract选取年月日例如：extract(yearfrom日期字段)从日期中取出年，取出月，日则分别为month,day3.interval增减年、月、日例如：extract(yearfromcurrent_date+interval‘01’Year)返回当前年加1年的年份4.teradata日期类型数
teradata建表DDL felix521
●是否允许重复记录❍SET不允许记录重复CREATESETTABLEtable1...❍MULTISET允许记录重复CREATEMULTISETTABLEtable1...●数据保护数据保护要结合FALLBACK和JOURNAL(流水或日志)。FALLBACK是Teradata的一种数据保护机制，数据表的每一条记录都同时存放两份，而且位于不同的AMP所控制的存储单元中；当数据发生问题或者AMP失败
数据中台Citus集群压测报告 PGCCC 数据库
作者简介：迪颉科技是专注于企业数字化转型数据价值及数据治理，并在大数据、数据中台（零售、制造行业）、dataops/数仓以及数据驱动的应用等，提供专业解决方案的团队。在以往外企的从业经验中，将原来的Teradata等数仓大数据的模型/脚本/数据迁移到hadoop/HTAP开放平台，提供工具链和专业的服务及相关的解决方案。测试时间及人员：测试时间：2022/9/12~2022/09/23测试人员：迪
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb