mysql之数据处理函数与数据汇总函数

一、数据处理函数
  1、函数
与其他大多数计算机语言一样, SQL支持利用函数来处理数据。函数一般是在数据上执行的,它给数据的转换和处理提供了方便。
注意:函数没有 SQL的可移植性强。能运行在多个系统上的代码称为可移植的( portable)。相对来说,多数SQL语句是可移植的,SQL实现之间有差异时,这些差异通常不那么难处理。而函数的可移植性却不强。几乎每种主要的 DBMS的实现都支持其他实现不支持的函数,而且有时差异还很大。为了代码的可移植,许多 SQL程序员不赞成使用特殊实现的功能。虽然这样做很有好处,但不总是利于应用程序的性能。如果不使用这些函数,编写某些应用程序代码会很艰难。必须利用其他方法来实现 DBMS非常有效地完成的工作。
如果你决定使用函数,应该保证做好代码注释,以便以后你(或其他人)能确切地知道所编写 SQL代码的含义。
 
  2、使用函数
大多数 SQL实现支持以下类型的函数。
(1)、用于处理文本串(如删除或填充值,转换值为大写或小写)的文本函数
(2)、用于在数值数据上进行算术操作(如返回绝对值,进行代数运算)的数值函数。
(3)、用于处理日期和时间值并从这些值中提取特定成分(例如,返回两个日期之差,检查日期有效性等)的日期和时间函数。
(4)、返回 DBMS正使用的特殊信息(如返回用户登录信息,检查版本细节)的系统函数。
 
  3、文本处理函数
我们先来看一个例子吧,这里例子使用Upper( )函数:
mysql> select vend_name, Upper(vend_name) as upp_name
    -> from vendors
    -> order by vend_name;
输出:
+----------------+----------------+
| vend_name      | upp_name       |
+----------------+----------------+
| ACME           | ACME           |
| Anvils R Us    | ANVILS R US    |
| Furball Inc.   | FURBALL INC.   |
| Jet Set        | JET SET        |
| Jouets Et Ours | JOUETS ET OURS |
| LT Supplies    | LT SUPPLIES    |
+----------------+----------------+
正如所见, Upper()将文本转换为大写,因此本例子中每个供应商都列出两次,第一次为 vendors表中存储的值,第二次作为列 vend_name_upcase转换为大写。
 
                                         表11-1列出了某些常用的文本处理函数。
 
11-1中的 SOUNDEX需要做进一步的解释。SOUNDEX是一个将任何文本串转换为描述其语音表示的字母数字模式的算法。 SOUNDEX考虑了类似的发音字符和音节,使得能对串进行发音比较而不是字母比较。虽然SOUNDEX不是SQL 概念,但MySQL(就像多数 DBMS一样)都提供对SOUNDEX的支持。
 
下面给出一个使用 Soundex()函数的例子。customers表中有一个顾Coyote Inc.,其联系名为 Y.Lee。但如果这是输入错误,此联系名实际应该是 Y.Lie,怎么办?显然,按正确的联系名搜索不会返回数据,如下所示:
mysql> select cust_name, cust_contact
    ->  from customers
    ->  where cust_contact = 'Y.Lie';
现在试一下使用 Soundex()函数进行搜索,它匹配所有发音类似于Y.Lie的联系名:
输入:mysql>  select cust_name, cust_contact
    ->   from customers
    -> where Soundex(cust_contact) = Soundex('Y Lie');
输出:
+-------------+--------------+
| cust_name   | cust_contact |
+-------------+--------------+
| Coyote Inc. | Y Lee        |
+-------------+--------------+
在这个例子中, WHERE子句使用Soundex() 函数来转换 cust_contact列值和搜索串为它们的SOUNDEX值。因为 Y.LeeY.Lie发音相似,所以它们的SOUNDEX值匹配,因此 WHERE子句正确地过滤出了所需的数据。
 
  4、日期和时间处理函数
日期和时间采用相应的数据类型和特殊的格式存储,以便能快速和有效地排序或过滤,并且节省物理存储空间。一般,应用程序不使用用来存储日期和时间的格式,因此日期和时间函数总是被用来读取、统计和处理这些值。由于这个原因,日期和时间函数在 MySQL语言中具有重要的作用。
一般,应用程序不使用用来存储日期和时间的格式,因此日期和时间函数总是被用来读取、统计和处理这些值。由于这个原因,日期和时间函数在 MySQL语言中具有重要的作用。
                                                                 表11-2 常用日期和时间处理函数

迄今为止,我们都是用比较数值和文本的 WHERE子句过滤数据,但数据经常需要用日期进行过滤。用日期进行过滤需要注意一些别的问题和使用特殊的MySQL函数。
 
首先需要注意的是 MySQL使用的日期格式。无论你什么时候指定一个日期,不管是插入或更新表值还是用 WHERE子句进行过滤,日期必须为格式 yyyy-mm-dd。因此,2005 9 1日,给出为2005-09-01 。虽然其他的日期格式可能也行,但这是首选的日期格式,因为它排除了多义性(如,04/05/062006 5 4日或2006 4 5日或2004 5 6日或……)。
注意:应该总是使用 4位数字的年份。支持2位数字的年份, MySQL处理00-69 2000-2069,处理70-99 1970-1999。虽然它们可能是打算要的年份,但使用完整的4位数字年份更可靠,因为MySQL不必做出任何假定。
输入:
mysql> select cust_id, order_num
    -> from orders
    -> where order_date = '2005-09-01';
输出:
+---------+-----------+
| cust_id | order_num |
+---------+-----------+
|   10001 |     20005 |
+---------+-----------+
SELECT语句正常运行。它检索出一个订单记录,该订单记录order_date 2005-09-01
 
         但是,使用 WHERE order_date = '2005-09-01'可靠吗?order_date的数据类型为datetime。这种类型存储日期及时间值。样例表中的值全都具有时间值 00:00:00,但实际中很可能并不总是这样。如果用当前日期和时间存储订单日期(因此你不仅知道订单日期,还知道下订单当天的时间), 怎么办? 比如, 存储的 order_date 值为2005-09-01 11:30:05,则WHERE order_date = '2005-09-01' 失败。即使给出具有该日期的一行,也不会把它检索出来,因为 WHERE匹配失败。
         解决办法是指示 MySQL仅将给出的日期与列中的日期部分进行比较,而不是将给出的日期与整个列值进行比较。为此,必须使用 Date()函数。 Date(order_date)指示MySQL 仅提取列的日期部分,更可靠的SELECT语句为:
mysql> select cust_id, order_num
    -> from orders
    -> where  Date(order_date) = '2005-09-01';
如果要的是日期,请使用 Date():如果你想要的仅是日期,则使用 Date()是一个良好的习惯,即使你知道相应的列只包含日期也是如此。这样,如果由于某种原因表中以后有日期和时间值,你的 SQL代码也不用改变。当然,也存在一个 Time()函数,在你只想要时间时应该使用它。
不过,还有一种日期比较需要说明。如果你想检索出 20059 月下的所有订单,怎么办?简单的相等测试不行,因为它也要匹配月份中的天数。有几种解决办法,其中之一如下所示:
mysql> select cust_id, order_num
    -> from orders
    -> where Date(order_date) between '2005-09-01' and '2005-09-30';
输出:
+---------+-----------+
| cust_id | order_num |
+---------+-----------+
|   10001 |     20005 |
|   10003 |     20006 |
|   10004 |     20007 |
+---------+-----------+
其中, BETWEEN操作符用来把2005-09-01 2005-09-30定义为一个要匹配的日期范围。
        还有另外一种办法(一种不需要记住每个月中有多少天或不需要操心闰年 2月的办法):
输入:
mysql> select cust_id, order_num
    -> from orders
    -> where Year(order_date) = 2005 and Month(order_date) = 9;
输出:
+---------+-----------+
| cust_id | order_num |
+---------+-----------+
|   10001 |     20005 |
|   10003 |     20006 |
|   10004 |     20007 |
+---------+-----------+
Year()是一个从日期(或日期时间)中返回年份的函数。类似,Month()从日期中返回月份。因此, WHERE Year(order_date)= 2005 AND Month(order_date) = 9 检索出order_date 20059 月的所有行。
 
  5、数值处理函数
数值处理函数仅处理数值数据。这些函数一般主要用于代数、三角或几何运算,因此没有串或日期—时间处理函数的使用那么频繁。具有讽刺意味的是,在主要 DBMS的函数中,数值函数是最一致最统一的函数。表 11-3列出一些常用的数值处理函数。
 
  二、数据汇总函数
 
  1、聚集函数
 我们经常需要汇总数据而不用把它们实际检索出来,为此 MySQL供了专门的函数。使用这些函数, MySQL查询可用于检索数据,以便分析和报表生成。这种类型的检索例子有以下几种。
(1)、确定表中行数(或者满足某个条件或包含某个特定值的行数)。
(2)、获得表中行组的和。
(3)、找出表列(或所有行或某些特定的行)的最大值、最小值和平均值。
上述例子都需要对表中数据(而不是实际数据本身)汇总。因此,返回实际表数据是对时间和处理资源的一种浪费(更不用说带宽了)。重复一遍,实际想要的是汇总信息。
聚集函数( aggregate function ): 运行在行组上,计算和返回单个值的函数。
为方便这种类型的检索, MySQL给出了5 个聚集函数
 

上面只是一些简单的应用,具体参考mysql官方文档。以下说明各函数的使用。
 
AVG()函数
AVG()通过对表中行数计数并计算特定列值之和,求得该列的平均值。AVG()可用来返回所有列的平均值,也可以用来返回特定列或行的平均值。下面的例子使用 AVG()返回products 表中所有产品的平均价格:
mysql> select AVG(prod_price) as avg_price
    -> from products;
输出:
+-----------+
| avg_price |
+-----------+
| 16.133571 |
+-----------+
SELECT语句返回值 avg_Price,它包含products 表中所有产品的平均价格。avg_price 是一个别名。
 
AVG()也可以用来确定特定列或行的平均值。下面的例子返回特定供应商所提供产品的平均价格:
mysql>  select AVG(prod_price) as avg_price
    ->  from products
    -> where vend_id = 1003;
输出:
+-----------+
| avg_price |
+-----------+
| 13.212857 |
+-----------+
这条 SELECT语句与前一条的不同之处在于它包含了 WHERE句。此 WHERE子句仅过滤出vend_id 1003的产品,因此avg_price中返回的值只是该供应商的产品的平均值。
只用于单个列:AVG()只能用来确定特定数值列的平均值,而且列名必须作为函数参数给出。为了获得多个列的平均值,必须使用多个 AVG()函数。另外,AVG()函数忽略列值为NULL的行。
 
COUNT()函数
COUNT()函数进行计数。可利用COUNT()确定表中行的数目或符合特定条件的行的数目。
COUNT()函数有两种使用方式。
(1)、使用 COUNT(*)对表中行的数目进行计数,不管表列中包含的是空值( NULL)还是非空值。
(2)、使用 COUNT(column)对特定列中具有值的行进行计数,忽略NULL值。
下面的例子返回 customers表中客户的总数:
mysql> select COUNT(*) as num_cust
    -> from customers;
输出:
+----------+
| num_cust |
+----------+
|        5 |
+----------+
在此例子中,利用 COUNT(*)对所有行计数,不管行中各列有什么值。计数值在 num_cust中返回。
 
下面的例子只对具有电子邮件地址的客户计数:
mysql> select count(cust_email) as num_cust
    -> from customers;
输出:
+----------+
| num_cust |
+----------+
|        3 |
+----------+
这条 SELECT语句使用COUNT(cust_email) cust_email中有值的行进行计数。在此例子中, cust_email的计数为3 (表5个客户中只有 3个客户有电子邮件地址)。
注意:如果指定列名,则指定列的值为空的行被 COUNT()函数忽略,但如果 COUNT()函数中用的是星号(*),则不忽略。
 
MAX()函数
MAX()返回指定列中的最大值。 MAX()要求指定列名,如下所示:
mysql> select max(prod_price) as maxprice
    -> from products;
输出:
+----------+
| maxprice |
+----------+
|    55.00 |
+----------+
这里, MAX()返回products 表中最贵的物品的价格。
 
MIN()函数
MIN()的功能正好与MAX()功能相反,它返回指定列的最小值。与MAX()一样,MIN() 要求指定列名,如下所示:
mysql> select min(prod_price) as minprice
    -> from products;
输出:
+----------+
| minprice |
+----------+
|     2.50 |
+----------+
其中 MIN()返回products 表中最便宜物品的价格。
 
SUM()函数
SUM()用来返回指定列值的和(总计)。
下面举一个例子, orderitems包含订单中实际的物品,每个物品有相应的数量( quantity)。可如下检索所订购物品的总数(所有quantity值之和):
mysql> select sum(quantity) as total_items
    -> from orderitems
    -> where order_num = 20005;
输出:
+-------------+
| total_items |
+-------------+
|          19 |
+-------------+
函数 SUM(quantity)返回订单中所有物品数量之和, WHERE句保证只统计某个物品订单中的特定物品。
SUM()也可以用来合计计算值。在下面的例子中,合计每项物品的item_price*quantity ,得出总的订单金额:
mysql> select sum(quantity * item_price) as total_price
    ->  from orderitems
    ->  where order_num = 20005;
输出:
+-------------+
| total_price |
+-------------+
|      149.87 |
+-------------+
函数 SUM(item_price * quantity)返回订单中所有物品价钱之和, WHERE子句同样保证只统计某个物品订单中的物品。
注意:在多个列上进行计算。如本例所示,利用标准的算术操作符,所有聚集函数都可用来执行多个列上的计算。
同样SUM()函数忽略列值为NULL的行。
以上 5个聚集函数都可以如下使用:
(1)、对所有的行执行计算,指定 ALL参数或不给参数(因为ALL是默认行为);
(2)、只包含不同的值,指定 DISTINCT参数。
ALL为默认 ALL 参数不需要指定,因为它是默认行为。如果不指定 DISTINCT,则假定为ALL
下面的例子使用 AVG()函数返回特定供应商提供的产品的平均价格。它与上面的 SELECT语句相同,但使用了DISTINCT参数,因此平均值只考虑各个不同的价格:
mysql>  select AVG( distinct prod_price) as avg_price
    ->   from products
    ->  where vend_id = 1003;
输出:
+-----------+
| avg_price |
+-----------+
| 15.998000 |
+-----------+
可以看到,在使用了 DISTINCT后,此例子中的avg_price较高,因为有多个物品具有相同的较低价格。排除它们提升了平均价格。
 
注意: DISTINCT不能用于 COUNT(*),因此不允许使用COUNT DISTINCT),否则会产生错误 。类似地, DISTINCT必须使用列名,不能用于计算或表达式。
 
组合聚集函数
目前为止的所有聚集函数例子都只涉及单个函数。但实际上 SELECT语句可根据需要包含多个聚集函数。请看下面的例子:
mysql> select count(*) as num_items,
    -> min(prod_price) as min_price,
    -> max(prod_price) as max_price,
    -> avg(prod_price) as acg_price
    -> from products;
输出:
+-----------+-----------+-----------+-----------+
| num_items | min_price | max_price | acg_price |
+-----------+-----------+-----------+-----------+
|        14 |      2.50 |     55.00 | 16.133571 |
+-----------+-----------+-----------+-----------+
这里用单条 SELECT语句执行了4 个聚集计算,返回 4个值products表中物品的数目,产品价格的最高、最低以及平均值)。
 
注意:在指定别名以包含某个聚集函数的结果时,不应该使用表中实际的列名。虽然这样做并非不合法,但使用唯一的名字会使你的 SQL更易于理解和使用(以及将来容易排除故障)。

你可能感兴趣的:(mysql)