Business Analytics with SQL in a Week - Day 2

表变量和运算符 - Table variables and Set Operator


例子1:在同一年的NBA全明星赛中,上场时间相同的球员,一共有多少组这样的球员

select distinct B1.player_id, B2.player_id, B1.season_id

from basketball_player_allstar B1, basketball_player_allstar B2

where B1. league_id  = "NBA"

and B1.minutes = B2.minutes

and B1.season_id = B2.season_id

and B1.player_id < B2.player_id

order by B1.player_id, B1.season_id

运行结果是,一共有929组

寻找pair也是经常用的query,比如,下载同样某个内容的用户,看过同样页面的用户,等等。query的关键是确立,那些variable是相同的,哪些是不相同的。

B1. X < B2. Y 是非常有用的语句。

例子2:找出所有即在ABA打过球,也在NBA打过球的人

select  B1.playerID, B1.lgID, B2.lgID

from basketball_players B1, basketball_players B2

where

B1.lgID <> B2.lgID

and B1.playerID = B2.playerID

order by B1.playerID

输出结果是:


Business Analytics with SQL in a Week - Day 2_第1张图片


我们看到,这些结果里面有重复的,比如第一行和第四行。两个原因,一是这些人可能在ABA中带了几年,然后再NBA中也打了几年,所以有重复;第二,NBA -NBL和NBL -NBA在我们的query里面是作为两个独立的结果出现的。

想要不重复的结果非常简单, 令 B1.lgID < B2.lgID, 然后

select  distinct B1.playerID, B1.lgID, B2.lgID

结果如下:

Business Analytics with SQL in a Week - Day 2_第2张图片

例子3:找出每一个赛季里面,得分效率最高的球员是谁?

select  M.firstName, M.lastName, max( 1.0* P.points/P.minutes)

from basketball_players P , basketball_master M

where  P.playerID = M.bioID

group by  M.firstName, M.lastName

order by max( P.points/P.minutes) DESC

这个query是错的,因为我们要招的是每个赛季里面的,所以,最后的结果应该按照赛季显示。

select P.year, M.firstName, M.lastName, max( 1.0* P.points/P.minutes)

from basketball_players P , basketball_master M

where  P.playerID = M.bioID

group by  P.year

order by P.year, max( P.points/P.minutes) DESC

这个query的order by给出很奇怪的结果(如果排序里面没有max, 是一种结果,如果有,是另外一种),我也不知道为什么。 重写之后的query是这样的: 

select P.year, M.firstName, M.lastName, max( 1.0* P.points/P.minutes) as eff

from basketball_players P , basketball_master M

where  P.playerID = M.bioID

group by  P.year

order by P.year, eff


PS: group by , order by 是非常有用的operator

你可能感兴趣的:(Business Analytics with SQL in a Week - Day 2)