机器学习工程师 — Udacity 电影评分的 k 均值聚类

假设你是 Netflix 的一名数据分析师,你想要根据用户对不同电影的评分研究用户在电影品位上的相似和不同之处。了解这些评分对用户电影推荐系统有帮助吗?我们来研究下这方面的数据。

我们将使用的数据来自精彩的 MovieLens 用户评分数据集。我们稍后将在 notebook 中查看每个电影评分,先看看不同类型之间的评分比较情况。


该数据集有两个文件。我们将这两个文件导入 pandas dataframe 中:

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from scipy.sparse import csr_matrix
import helper
from IPython.display import display

# Import the Movies dataset
movies = pd.read_csv('ml-latest-small/movies.csv')
movieId title genres
0 1 Toy Story (1995) Adventure|Animation|Children|Comedy|Fantasy
1 2 Jumanji (1995) Adventure|Children|Fantasy
2 3 Grumpier Old Men (1995) Comedy|Romance
3 4 Waiting to Exhale (1995) Comedy|Drama|Romance
4 5 Father of the Bride Part II (1995) Comedy
# Import the ratings dataset
ratings = pd.read_csv('ml-latest-small/ratings.csv')
userId movieId rating timestamp
0 1 31 2.5 1260759144
1 1 1029 3.0 1260759179
2 1 1061 3.0 1260759182
3 1 1129 2.0 1260759185
4 1 1172 4.0 1260759205


print('The dataset contains: ', len(ratings), ' ratings of ', len(movies), ' movies.')
The dataset contains:  100004  ratings of  9125  movies.


我们先查看一小部分用户,并看看他们喜欢什么类型的电影。我们将大部分数据预处理过程都隐藏在了辅助函数中,并重点研究聚类概念。在完成此 notebook 后,建议你快速浏览下 helper.py,了解这些辅助函数是如何实现的。

# Calculate the average rating of romance and scifi movies

genre_ratings = helper.get_genre_ratings(ratings, movies, ['Romance', 'Sci-Fi'], ['avg_romance_rating', 'avg_scifi_rating'])
avg_romance_rating avg_scifi_rating
1 3.50 2.40
2 3.59 3.80
3 3.65 3.14
4 4.50 4.26
5 4.08 4.00
# genre_movies = movies[movies['genres'].str.contains('Romance')]
# print(genre_movies.head())
# ratings[ratings['movieId'].isin(genre_movies['movieId'])].loc[:, ['userId', 'rating']].groupby(['userId'])['rating'].mean().round(2)
# score_limit_1 = 3.2
# score_limit_2 = 2.5
# biased_dataset = genre_ratings[((genre_ratings['avg_romance_rating'] < score_limit_1 - 0.2) & (genre_ratings['avg_scifi_rating'] > score_limit_2)) | ((genre_ratings['avg_scifi_rating'] < score_limit_1) & (genre_ratings['avg_romance_rating'] > score_limit_2))]
# biased_dataset = pd.concat([biased_dataset[:300], genre_ratings[:2]])
# biased_dataset = pd.DataFrame(biased_dataset.to_records())
# biased_dataset

函数 get_genre_ratings 计算了每位用户对所有爱情片和科幻片的平均评分。我们对数据集稍微进行偏倚,删除同时喜欢科幻片和爱情片的用户,使聚类能够将他们定义为更喜欢其中一种类型。

biased_dataset = helper.bias_genre_rating_dataset(genre_ratings, 3.2, 2.5)

print( "Number of records: ", len(biased_dataset))
Number of records:  183
userId avg_romance_rating avg_scifi_rating
0 1 3.50 2.40
1 3 3.65 3.14
2 6 2.90 2.75
3 7 2.93 3.36
4 12 2.89 2.62

可以看出我们有 183 位用户,对于每位用户,我们都得出了他们对看过的爱情片和科幻片的平均评分。


%matplotlib inline

helper.draw_scatterplot(biased_dataset['avg_scifi_rating'],'Avg scifi rating', biased_dataset['avg_romance_rating'], 'Avg romance rating')

机器学习工程师 — Udacity 电影评分的 k 均值聚类_第1张图片

我们可以在此样本中看到明显的偏差(我们故意创建的)。如果使用 k 均值将样本分成两组,效果如何?

# Let's turn our dataset into a list
X = biased_dataset[['avg_scifi_rating','avg_romance_rating']].values
# X
  • 导入 KMeans
  • 通过 n_clusters = 2 准备 KMeans
  • 将数据集 X 传递给 KMeans 的 fit_predict 方法,并将聚类标签放入 predictions
# TODO: Import KMeans
from sklearn.cluster import KMeans 

# TODO: Create an instance of KMeans to find two clusters
kmeans_1 = KMeans(n_clusters=2)

# TODO: use fit_predict to cluster the dataset
predictions = kmeans_1.fit_predict(X)

# Plot
helper.draw_clusters(biased_dataset, predictions)

机器学习工程师 — Udacity 电影评分的 k 均值聚类_第2张图片

可以看出分组的依据主要是每个人对爱情片的评分高低。如果爱情片的平均评分超过 3 星,则属于第一组,否则属于另一组。


# TODO: Create an instance of KMeans to find three clusters
kmeans_2 = KMeans(n_clusters=3)

# TODO: use fit_predict to cluster the dataset
predictions_2 = kmeans_2.fit_predict(X)

# Plot
helper.draw_clusters(biased_dataset, predictions_2)

机器学习工程师 — Udacity 电影评分的 k 均值聚类_第3张图片


  • 喜欢爱情片但是不喜欢科幻片的用户
  • 喜欢科幻片但是不喜欢爱情片的用户
  • 即喜欢科幻片又喜欢爱情片的用户


# TODO: Create an instance of KMeans to find four clusters
kmeans_3 = KMeans(n_clusters=4)

# TODO: use fit_predict to cluster the dataset
predictions_3 = kmeans_3.fit_predict(X)

# Plot
helper.draw_clusters(biased_dataset, predictions_3)

机器学习工程师 — Udacity 电影评分的 k 均值聚类_第4张图片


选择 K


可以通过多种方式选择聚类 k。我们将研究一种简单的方式,叫做“肘部方法”。肘部方法会绘制 k 的上升值与使用该 k 值计算的总误差分布情况。

一种方法是计算平方误差。假设我们要计算 k=2 时的误差。有两个聚类,每个聚类有一个“图心”点。对于数据集中的每个点,我们将其坐标减去所属聚类的图心。然后将差值结果取平方(以便消除负值),并对结果求和。这样就可以获得每个点的误差值。如果将这些误差值求和,就会获得 k=2 时所有点的总误差。

现在的一个任务是对每个 k(介于 1 到数据集中的元素数量之间)执行相同的操作。

# Choose the range of k values to test.
# We added a stride of 5 to improve performance. We don't need to calculate the error for every k value
possible_k_values = range(2, len(X)+1, 5)

# Calculate error values for all k values we're interested in
errors_per_k = [helper.clustering_errors(k, X) for k in possible_k_values]
# Optional: Look at the values of K vs the silhouette score of running K-means with that value of k
list(zip(possible_k_values, errors_per_k))
[(2, 0.3558817876472827),
 (7, 0.37324118163771747),
 (12, 0.35228155976555914),
 (17, 0.3699999358539292),
 (22, 0.3731391937018207),
 (27, 0.36516239200180906),
 (32, 0.39475796691737064),
 (37, 0.38690901840005304),
 (42, 0.38180780896461775),
 (47, 0.38581872041554516),
 (52, 0.3478256312696658),
 (57, 0.35449142337590994),
 (62, 0.35092570971189185),
 (67, 0.35503270310994905),
 (72, 0.31942980030252066),
 (77, 0.3421718435468977),
 (82, 0.3354220475401868),
 (87, 0.3355756342279691),
 (92, 0.3275554191102142),
 (97, 0.3192265559536668),
 (102, 0.3196037196187869),
 (107, 0.30206690999020847),
 (112, 0.28092516389496147),
 (117, 0.27815743249836006),
 (122, 0.2707943676826356),
 (127, 0.25884309664016975),
 (132, 0.24667695399792336),
 (137, 0.2329530363368305),
 (142, 0.21802533866569043),
 (147, 0.20300673161974955),
 (152, 0.1849348605574463),
 (157, 0.1644751402208559),
 (162, 0.14820613734314372),
 (167, 0.12920960729960135),
 (172, 0.10075966098920461),
 (177, 0.0642301201631745),
 (182, 0.0546448087431694)]
# Plot the each value of K vs. the silhouette score at that value
fig, ax = plt.subplots(figsize=(16, 6))
ax.set_xlabel('K - number of clusters')
ax.set_ylabel('Silhouette Score (higher is better)')
ax.plot(possible_k_values, errors_per_k)

# Ticks and grid
xticks = np.arange(min(possible_k_values), max(possible_k_values)+1, 5.0)
ax.set_xticks(xticks, minor=False)
ax.set_xticks(xticks, minor=True)
ax.xaxis.grid(True, which='both')
yticks = np.arange(round(min(errors_per_k), 2), max(errors_per_k), .05)
ax.set_yticks(yticks, minor=False)
ax.set_yticks(yticks, minor=True)
ax.yaxis.grid(True, which='both')

机器学习工程师 — Udacity 电影评分的 k 均值聚类_第5张图片

看了该图后发现,合适的 k 值包括 7、22、27、32 等(每次运行时稍微不同)。聚类 (k) 数量超过该范围将开始导致糟糕的聚类情况(根据轮廓分数)

我会选择 k=7,因为更容易可视化:

# TODO: Create an instance of KMeans to find seven clusters
kmeans_4 = KMeans(n_clusters=7)

# TODO: use fit_predict to cluster the dataset
predictions_4 = kmeans_4.fit_predict(X)

# plot
helper.draw_clusters(biased_dataset, predictions_4, cmap='Accent') 

机器学习工程师 — Udacity 电影评分的 k 均值聚类_第6张图片

注意:当你尝试绘制更大的 k 值(超过 10)时,需要确保你的绘制库没有对聚类重复使用相同的颜色。对于此图,我们需要使用 matplotlib colormap ‘Accent’,因为其他色图要么颜色之间的对比度不强烈,要么在超过 8 个或 10 个聚类后会重复利用某些颜色。




biased_dataset_3_genres = helper.get_genre_ratings(ratings, movies, 
                                                     ['Romance', 'Sci-Fi', 'Action'], 
                                                     ['avg_romance_rating', 'avg_scifi_rating', 'avg_action_rating'])
biased_dataset_3_genres = helper.bias_genre_rating_dataset(biased_dataset_3_genres, 3.2, 2.5).dropna()

print( "Number of records: ", len(biased_dataset_3_genres))
Number of records:  183
userId avg_romance_rating avg_scifi_rating avg_action_rating
0 1 3.50 2.40 2.80
1 3 3.65 3.14 3.47
2 6 2.90 2.75 3.27
3 7 2.93 3.36 3.29
4 12 2.89 2.62 3.21
X_with_action = biased_dataset_3_genres[['avg_scifi_rating',
# TODO: Create an instance of KMeans to find seven clusters
kmeans_5 = KMeans(n_clusters=7)

# TODO: use fit_predict to cluster the dataset
predictions_5 = kmeans_5.fit_predict(X_with_action)

# plot
helper.draw_clusters_3d(biased_dataset_3_genres, predictions_5)

机器学习工程师 — Udacity 电影评分的 k 均值聚类_第7张图片

我们依然分别用 x 轴和 y 轴表示科幻片和爱情片。并用点的大小大致表示动作片评分情况(更大的点表示平均评分超过 3 颗星,更小的点表示不超过 3 颗星 )。

可以看出添加类型后,用户的聚类分布发生了变化。为 k 均值提供的数据越多,每组中用户之间的兴趣越相似。但是如果继续这么绘制,我们将无法可视化二维或三维之外的情形。在下个部分,我们将使用另一种图表,看看多达 50 个维度的聚类情况。


现在我们已经知道 k 均值会如何根据用户的类型品位对用户进行聚类,我们再进一步分析,看看用户对单个影片的评分情况。为此,我们将数据集构建成 userId 与用户对每部电影的评分形式。例如,我们来看看以下数据集子集:

# Merge the two tables then pivot so we have Users X Movies dataframe
ratings_title = pd.merge(ratings, movies[['movieId', 'title']], on='movieId' )
user_movie_ratings = pd.pivot_table(ratings_title, index='userId', columns= 'title', values='rating')

print('dataset dimensions: ', user_movie_ratings.shape, '\n\nSubset example:')
user_movie_ratings.iloc[:6, :10]
dataset dimensions:  (671, 9064) 

Subset example:
title "Great Performances" Cats (1998) $9.99 (2008) 'Hellboy': The Seeds of Creation (2004) 'Neath the Arizona Skies (1934) 'Round Midnight (1986) 'Salem's Lot (2004) 'Til There Was You (1997) 'burbs, The (1989) 'night Mother (1986) (500) Days of Summer (2009)
1 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
2 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
3 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
4 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
5 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
6 NaN NaN NaN NaN NaN NaN NaN 4.0 NaN NaN

NaN 值的优势表明了第一个问题。大多数用户没有看过大部分电影,并且没有为这些电影评分。这种数据集称为“稀疏”数据集,因为只有少数单元格有值。



n_movies = 30
n_users = 18
most_rated_movies_users_selection = helper.sort_by_rating_density(user_movie_ratings, n_movies, n_users)

print('dataset dimensions: ', most_rated_movies_users_selection.shape)
dataset dimensions:  (18, 30)
title Forrest Gump (1994) Pulp Fiction (1994) Shawshank Redemption, The (1994) Silence of the Lambs, The (1991) Star Wars: Episode IV - A New Hope (1977) Jurassic Park (1993) Matrix, The (1999) Toy Story (1995) Schindler's List (1993) Terminator 2: Judgment Day (1991) ... Dances with Wolves (1990) Fight Club (1999) Usual Suspects, The (1995) Seven (a.k.a. Se7en) (1995) Lion King, The (1994) Godfather, The (1972) Lord of the Rings: The Fellowship of the Ring, The (2001) Apollo 13 (1995) True Lies (1994) Twelve Monkeys (a.k.a. 12 Monkeys) (1995)
29 5.0 5.0 5.0 4.0 4.0 4.0 3.0 4.0 5.0 4.0 ... 5.0 4.0 5.0 4.0 3.0 5.0 3.0 5.0 4.0 2.0
508 4.0 5.0 4.0 4.0 5.0 3.0 4.5 3.0 5.0 2.0 ... 5.0 4.0 5.0 4.0 3.5 5.0 4.5 3.0 2.0 4.0
14 1.0 5.0 2.0 5.0 5.0 3.0 5.0 2.0 4.0 4.0 ... 3.0 5.0 5.0 5.0 4.0 5.0 5.0 3.0 4.0 4.0
72 5.0 5.0 5.0 4.5 4.5 4.0 4.5 5.0 5.0 3.0 ... 4.5 5.0 5.0 5.0 5.0 5.0 5.0 3.5 3.0 5.0
653 4.0 5.0 5.0 4.5 5.0 4.5 5.0 5.0 5.0 5.0 ... 4.5 5.0 5.0 4.5 5.0 4.5 5.0 5.0 4.0 5.0

5 rows × 30 columns



helper.draw_movies_heatmap(most_rated_movies_users_selection, axis_labels=True)

机器学习工程师 — Udacity 电影评分的 k 均值聚类_第8张图片


注意到某些单元格是白色吗?表示相应用户没有对该电影进行评分。在现实中进行聚类时就会遇到这种问题。与一开始经过整理的示例不同,现实中的数据集经常比较稀疏,数据集中的部分单元格没有值。这样的话,直接根据电影评分对用户进行聚类不太方便,因为 k 均值通常不喜欢缺失值。

为了提高性能,我们将仅使用 1000 部电影的评分(数据集中一共有 9000 部以上)。

user_movie_ratings =  pd.pivot_table(ratings_title, index='userId', columns= 'title', values='rating')
most_rated_movies_1k = helper.get_most_rated_movies(user_movie_ratings, 1000)
title Forrest Gump (1994) Pulp Fiction (1994) Shawshank Redemption, The (1994) Silence of the Lambs, The (1991) Star Wars: Episode IV - A New Hope (1977) Jurassic Park (1993) Matrix, The (1999) Toy Story (1995) Schindler's List (1993) Terminator 2: Judgment Day (1991) ... Insomnia (2002) What Lies Beneath (2000) Roman Holiday (1953) Motorcycle Diaries, The (Diarios de motocicleta) (2004) Sophie's Choice (1982) Dawn of the Dead (2004) Ocean's Thirteen (2007) Seabiscuit (2003) Easy Rider (1969) Lucky Number Slevin (2006)
0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
1 3.0 4.0 NaN 3.0 NaN 4.0 NaN NaN 4.0 5.0 ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
2 5.0 4.5 5.0 3.0 NaN NaN NaN NaN 3.0 NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
3 5.0 5.0 NaN NaN 5.0 5.0 NaN NaN NaN 5.0 ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
4 4.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
5 NaN NaN NaN NaN NaN NaN 1.0 NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
6 3.0 NaN 5.0 NaN 5.0 4.0 NaN 3.0 NaN 3.0 ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
7 4.0 4.0 5.0 4.5 3.5 NaN 5.0 NaN 5.0 4.0 ... NaN NaN NaN 4.0 NaN NaN NaN NaN NaN NaN
8 NaN NaN 4.0 4.0 NaN NaN 5.0 4.0 5.0 NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
9 NaN NaN 4.0 NaN NaN NaN 5.0 NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
10 NaN 5.0 NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
11 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN 4.0 NaN NaN NaN NaN NaN NaN NaN NaN
12 5.0 3.5 4.5 NaN NaN 3.0 3.0 5.0 4.0 NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
13 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
14 1.0 5.0 2.0 5.0 5.0 3.0 5.0 2.0 4.0 4.0 ... 2.0 2.0 1.0 NaN NaN NaN 3.5 NaN 2.5 1.0
15 NaN NaN 4.0 NaN NaN NaN NaN NaN 4.0 NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
16 2.5 5.0 5.0 4.5 3.5 0.5 5.0 NaN 4.0 NaN ... 4.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN
17 NaN NaN NaN NaN 3.0 NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
18 5.0 5.0 4.0 3.0 4.0 4.0 NaN 3.0 4.0 3.0 ... NaN NaN 5.0 NaN NaN NaN NaN NaN NaN NaN
19 2.0 0.5 4.5 0.5 1.5 3.0 4.5 3.5 2.5 NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
20 4.0 3.0 NaN 4.0 3.0 3.0 NaN NaN 5.0 5.0 ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
21 3.5 5.0 NaN 4.5 4.0 4.5 4.5 NaN NaN 5.0 ... NaN NaN NaN NaN NaN 3.5 NaN NaN NaN NaN
22 4.5 4.5 5.0 4.5 4.5 3.5 4.0 3.0 3.5 3.5 ... 3.5 NaN NaN 4.5 2.5 NaN NaN NaN 4.0 NaN
23 4.0 5.0 NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
24 NaN NaN NaN NaN 4.0 NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
25 4.5 3.5 4.0 3.5 3.0 2.5 5.0 5.0 NaN 4.0 ... NaN NaN NaN NaN NaN NaN NaN NaN NaN 3.5
26 NaN 4.0 NaN 4.0 NaN NaN NaN NaN 5.0 NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
27 NaN NaN NaN NaN NaN NaN 5.0 NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
28 NaN NaN NaN NaN NaN NaN 5.0 NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
29 5.0 5.0 5.0 4.0 4.0 4.0 3.0 4.0 5.0 4.0 ... 4.0 NaN NaN NaN 5.0 NaN NaN 4.5 NaN NaN
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
641 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
642 NaN NaN 5.0 NaN 5.0 NaN 4.5 NaN NaN NaN ... NaN NaN NaN NaN NaN NaN 3.0 NaN NaN NaN
643 NaN NaN NaN NaN NaN NaN NaN NaN 5.0 NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
644 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
645 5.0 NaN NaN NaN 5.0 4.0 5.0 5.0 NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
646 NaN 5.0 NaN 5.0 5.0 NaN 4.0 4.0 5.0 4.0 ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
647 4.5 5.0 4.5 NaN NaN 2.0 1.5 NaN NaN NaN ... NaN NaN NaN 4.0 NaN NaN NaN NaN NaN NaN
648 3.0 5.0 NaN 5.0 NaN 4.0 NaN 4.0 4.0 4.0 ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
649 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
650 NaN NaN 4.0 NaN 5.0 NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
651 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
652 5.0 NaN NaN NaN NaN NaN NaN 4.0 NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
653 4.0 5.0 5.0 4.5 5.0 4.5 5.0 5.0 5.0 5.0 ... 4.0 NaN NaN NaN NaN NaN NaN 4.5 NaN NaN
654 NaN 4.0 NaN NaN 2.5 NaN 5.0 NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
655 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
656 3.0 5.0 3.0 5.0 NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
657 5.0 3.0 4.0 4.0 NaN NaN NaN NaN 5.0 NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
658 4.0 3.0 3.0 5.0 5.0 4.0 NaN NaN 4.0 5.0 ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
659 3.0 NaN NaN 0.5 4.5 3.0 4.0 2.5 NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
660 NaN NaN 5.0 NaN NaN NaN NaN NaN 4.5 NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
661 5.0 3.0 5.0 NaN NaN 3.0 NaN NaN 5.0 NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
662 4.0 NaN NaN 4.0 NaN 3.5 4.0 4.0 NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
663 4.5 5.0 4.5 4.5 4.5 3.5 4.5 3.5 NaN 4.5 ... 4.0 NaN NaN NaN NaN 3.5 NaN NaN NaN 4.5
664 4.0 4.0 5.0 4.0 4.0 NaN 5.0 NaN 5.0 NaN ... NaN 4.0 NaN NaN NaN NaN NaN NaN NaN NaN
665 5.0 4.0 NaN 4.0 NaN 4.0 NaN NaN 3.0 3.0 ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
666 4.0 5.0 NaN NaN NaN 4.0 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
667 NaN 5.0 4.0 5.0 NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
668 NaN NaN NaN NaN 5.0 3.0 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
669 NaN NaN 5.0 5.0 NaN NaN 4.0 4.0 5.0 NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
670 5.0 4.0 5.0 NaN 5.0 NaN 4.5 5.0 NaN 5.0 ... NaN NaN NaN NaN NaN NaN NaN 3.5 NaN NaN

671 rows × 1000 columns

为了使 sklearn 对像这样缺少值的数据集运行 k 均值聚类,我们首先需要将其转型为稀疏 csr 矩阵类型(如 SciPi 库中所定义)。

要从 pandas dataframe 转换为稀疏矩阵,我们需要先转换为 SparseDataFrame,然后使用 pandas 的 to_coo() 方法进行转换。

注意:只有较新版本的 pandas 具有to_coo()。如果你在下个单元格中遇到问题,确保你的 pandas 是最新版本。

sparse_ratings = csr_matrix(pd.SparseDataFrame(most_rated_movies_1k).to_coo())
<671x1000 sparse matrix of type ''
	with 62397 stored elements in Compressed Sparse Row format>


对于 k 均值,我们需要指定 k,即聚类数量。我们随意地尝试 k=20(选择 k 的更佳方式如上述肘部方法所示。但是,该方法需要一定的运行时间。):

# 20 clusters
predictions = KMeans(n_clusters=20, algorithm='full').fit_predict(sparse_ratings)


max_users = 70
max_movies = 50

clustered = pd.concat([most_rated_movies_1k.reset_index(), pd.DataFrame({'group':predictions})], axis=1)
helper.draw_movie_clusters(clustered, max_users, max_movies)
cluster # 2
# of users in cluster: 267. # of users in plot: 70

机器学习工程师 — Udacity 电影评分的 k 均值聚类_第9张图片

cluster # 13
# of users in cluster: 78. # of users in plot: 70

机器学习工程师 — Udacity 电影评分的 k 均值聚类_第10张图片

cluster # 0
# of users in cluster: 10. # of users in plot: 10

机器学习工程师 — Udacity 电影评分的 k 均值聚类_第11张图片

cluster # 12
# of users in cluster: 38. # of users in plot: 38

机器学习工程师 — Udacity 电影评分的 k 均值聚类_第12张图片

cluster # 11
# of users in cluster: 87. # of users in plot: 70

机器学习工程师 — Udacity 电影评分的 k 均值聚类_第13张图片

cluster # 18
# of users in cluster: 62. # of users in plot: 62

机器学习工程师 — Udacity 电影评分的 k 均值聚类_第14张图片

cluster # 9
# of users in cluster: 37. # of users in plot: 37

机器学习工程师 — Udacity 电影评分的 k 均值聚类_第15张图片

cluster # 5
# of users in cluster: 10. # of users in plot: 10

机器学习工程师 — Udacity 电影评分的 k 均值聚类_第16张图片

cluster # 6
# of users in cluster: 25. # of users in plot: 25

机器学习工程师 — Udacity 电影评分的 k 均值聚类_第17张图片

cluster # 1
# of users in cluster: 12. # of users in plot: 12

机器学习工程师 — Udacity 电影评分的 k 均值聚类_第18张图片

cluster # 10
# of users in cluster: 15. # of users in plot: 15

机器学习工程师 — Udacity 电影评分的 k 均值聚类_第19张图片

d = clustered[clustered.group == 1].drop(['index', 'group'], axis=1)
d = helper.sort_by_rating_density(d, max_movies, max_users)
Forrest Gump (1994) Men in Black (a.k.a. MIB) (1997) Back to the Future (1985) Aladdin (1992) Austin Powers: International Man of Mystery (1997) X-Men (2000) Bourne Identity, The (2002) Star Wars: Episode I - The Phantom Menace (1999) Indiana Jones and the Last Crusade (1989) Pulp Fiction (1994) ... Lord of the Rings: The Fellowship of the Ring, The (2001) Big (1988) American Beauty (1999) Seven (a.k.a. Se7en) (1995) Crouching Tiger, Hidden Dragon (Wo hu cang long) (2000) Fight Club (1999) Minority Report (2002) Fugitive, The (1993) Mrs. Doubtfire (1993) Rock, The (1996)
7 3.5 1.0 3.0 3.0 3.5 3.5 3.5 2.0 3.0 3.5 ... 2.0 3.0 4.0 3.5 3.5 4.0 2.0 3.0 1.0 2.0
8 4.5 5.0 4.5 4.5 3.5 3.5 4.0 3.0 4.0 4.5 ... 3.5 4.5 5.0 5.0 5.0 5.0 4.5 5.0 4.0 4.0
10 4.0 4.0 3.5 NaN 5.0 5.0 4.0 5.0 5.0 5.0 ... 5.0 4.0 4.0 4.5 4.0 4.5 4.0 4.0 3.5 4.0
0 4.0 2.5 3.5 3.0 0.5 3.0 4.0 0.5 3.0 3.5 ... 4.0 4.0 4.0 4.0 3.5 4.0 3.5 2.5 2.5 3.0
6 4.5 4.5 5.0 4.5 4.0 5.0 4.5 3.5 4.0 4.0 ... 5.0 4.5 4.0 4.5 3.5 4.0 4.5 4.5 4.5 4.0

5 rows × 50 columns

d = d.reindex(d.mean().sort_values(ascending=False).index, axis=1)
7     50
8     49
10    48
0     47
6     46
3     44
5     44
2     42
1     40
9     40
4     39
11    33
dtype: int64


  • 聚类中的评分越相似,你在该聚类中就越能发现颜色相似的垂直线。
  • 在聚类中发现了非常有趣的规律:
  • 某些聚类比其他聚类更稀疏,其中的用户可能比其他聚类中的用户看的电影更少,评分的电影也更少。
  • 某些聚类主要是黄色,汇聚了非常喜欢特定类型电影的用户。其他聚类主要是绿色或海蓝色,表示这些用户都认为某些电影可以评 2-3 颗星。
  • 注意每个聚类中的电影有何变化。图表对数据进行了过滤,仅显示评分最多的电影,然后按照平均评分排序。
  • 能找到《指环王》在每个聚类中位于哪个位置吗?《星球大战》呢?
  • 很容易发现具有相似颜色的水平线,表示评分变化不大的用户。这可能是 Netflix 从基于星级的评分切换到喜欢/不喜欢评分的原因之一。四颗星评分对不同的人来说,含义不同。
  • 我们在可视化聚类时,采取了一些措施(过滤/排序/切片)。因为这种数据集比较“稀疏”,大多数单元格没有值(因为大部分用户没有看过大部分电影)。




# TODO: Pick a cluster ID from the clusters above
cluster_number = 10

# Let's filter to only see the region of the dataset with the most number of values 
n_users = 75
n_movies = 300
cluster = clustered[clustered.group == cluster_number].drop(['index', 'group'], axis=1)

cluster = helper.sort_by_rating_density(cluster, n_movies, n_users)
helper.draw_movies_heatmap(cluster, axis_labels=False)

机器学习工程师 — Udacity 电影评分的 k 均值聚类_第20张图片


Beauty and the Beast (1991) Who Framed Roger Rabbit? (1988) Star Wars: Episode VI - Return of the Jedi (1983) Back to the Future (1985) Big (1988) Star Wars: Episode V - The Empire Strikes Back (1980) Die Hard (1988) Star Wars: Episode IV - A New Hope (1977) Ferris Bueller's Day Off (1986) Shawshank Redemption, The (1994) ... Muppet Movie, The (1979) Butch Cassidy and the Sundance Kid (1969) Twelve Monkeys (a.k.a. 12 Monkeys) (1995) Bambi (1942) Karate Kid, The (1984) Eraser (1996) ¡Three Amigos! (1986) Ransom (1996) Fletch (1985) Harry Potter and the Prisoner of Azkaban (2004)
9 3.0 3.5 3.5 3.0 3.5 3.0 2.5 3.5 3.5 3.5 ... 3.5 3 3.5 2 3 2.5 2.5
5 3.0 3.5 3.5 4.5 4.0 3.0 4.5 4.0 3.5 4.5 ... 2.5 4.5 4 3 3
10 5.0 5.0 5.0 4.0 5.0 5.0 3.0 5.0 5.0 5.0 ... 3 4 3 4 3
0 4.0 4.0 4.0 4.0 3.0 4.0 4.0 5.0 4.0 4.0 ... 4 4 4 3 3 4 3
1 3.5 3.5 4.0 4.0 3.5 5.0 4.5 4.5 4.5 3.5 ... 4 4 4

5 rows × 300 columns


# TODO: Fill in the name of the column/movie. e.g. 'Forrest Gump (1994)'
# Pick a movie from the table above since we're looking at a subset
movie_name = 'Muppet Movie, The (1979)'




我们回顾下上一步的操作。我们使用 k 均值根据用户的评分对用户进行聚类。这样就形成了具有相似评分的用户聚类,因此通常具有相似的电影品位。基于这一点,当某个用户对某部电影没有评分时,我们对该聚类中所有其他用户的评分取平均值,该平均值就是我们猜测该用户对该电影的喜欢程度。


# The average rating of 20 movies as rated by the users in the cluster
Beauty and the Beast (1991)                              4.166667
Who Framed Roger Rabbit? (1988)                          3.733333
Star Wars: Episode VI - Return of the Jedi (1983)        4.166667
Back to the Future (1985)                                4.033333
Big (1988)                                               4.133333
Star Wars: Episode V - The Empire Strikes Back (1980)    4.266667
Die Hard (1988)                                          3.966667
Star Wars: Episode IV - A New Hope (1977)                4.600000
Ferris Bueller's Day Off (1986)                          4.300000
Shawshank Redemption, The (1994)                         4.333333
Wizard of Oz, The (1939)                                 4.142857
Indiana Jones and the Last Crusade (1989)                4.035714
Lion King, The (1994)                                    3.928571
Star Wars: Episode I - The Phantom Menace (1999)         3.000000
E.T. the Extra-Terrestrial (1982)                        4.178571
Princess Bride, The (1987)                               4.428571
Groundhog Day (1993)                                     3.535714
Speed (1994)                                             3.607143
Men in Black (a.k.a. MIB) (1997)                         3.750000
Forrest Gump (1994)                                      4.035714
dtype: float64



user_id = 9
user_2_ratings  = cluster.loc[user_id, :]
user_2_unrated_movies =  user_2_ratings[user_2_ratings.isnull()]
pd.concat([user_2_unrated_movies, cluster.mean()], axis=1, join='inner').loc[:,0]

Terminator 2: Judgment Day (1991)                            3.916667
When Harry Met Sally... (1989)                               4.208333
Die Hard 2 (1990)                                            3.250000
Firm, The (1993)                                             3.545455
Shakespeare in Love (1998)                                   3.954545
Batman (1989)                                                3.500000
True Lies (1994)                                             3.909091
Rocky (1976)                                                 3.650000
Star Trek II: The Wrath of Khan (1982)                       4.100000
Superman (1978)                                              3.900000
Lethal Weapon (1987)                                         3.950000
Schindler's List (1993)                                      4.750000
Nightmare Before Christmas, The (1993)                       3.166667
Legends of the Fall (1994)                                   2.944444
Conspiracy Theory (1997)                                     3.611111
Grosse Pointe Blank (1997)                                   3.944444
Full Monty, The (1997)                                       3.611111
Top Gun (1986)                                               3.944444
Stand by Me (1986)                                           4.222222
Die Hard: With a Vengeance (1995)                            3.277778
Fried Green Tomatoes (1991)                                  3.562500
My Cousin Vinny (1992)                                       3.062500
Star Trek: First Contact (1996)                              3.812500
Air Force One (1997)                                         3.437500
Outbreak (1995)                                              3.000000
Clerks (1994)                                                3.687500
Karate Kid, Part II, The (1986)                              2.437500
Blues Brothers, The (1980)                                   4.000000
Dark Crystal, The (1982)                                     3.125000
Sixteen Candles (1984)                                       3.437500
Gladiator (2000)                                             4.437500
Highlander (1986)                                            3.750000
Rock, The (1996)                                             3.687500
Trading Places (1983)                                        3.375000
Star Trek: The Motion Picture (1979)                         2.857143
Flashdance (1983)                                            3.285714
Patriot Games (1992)                                         3.285714
Crow, The (1994)                                             3.071429
Interview with the Vampire: The Vampire Chronicles (1994)    3.428571
Young Guns (1988)                                            3.642857
Star Trek III: The Search for Spock (1984)                   2.714286
Sabrina (1995)                                               3.500000
Batman Returns (1992)                                        2.500000
Sleeping Beauty (1959)                                       4.000000
Crimson Tide (1995)                                          3.571429
Muppet Movie, The (1979)                                     3.928571
Eraser (1996)                                                2.714286
Ransom (1996)                                                3.428571
Name: 0, dtype: float64
# TODO: Pick a user ID from the dataset
# Look at the table above outputted by the command "cluster.fillna('').head()" 
# and pick one of the user ids (the first column in the table)
user_id = 9

# Get all this user's ratings
user_2_ratings  = cluster.loc[user_id, :]

# Which movies did they not rate? (We don't want to recommend movies they've already rated)
user_2_unrated_movies =  user_2_ratings[user_2_ratings.isnull()]

# What are the ratings of these movies the user did not rate?
avg_ratings = pd.concat([user_2_unrated_movies, cluster.mean()], axis=1, join='inner').loc[:,0]

# Let's sort by rating so the highest rated movies are presented first
Schindler's List (1993)                   4.750000
Gladiator (2000)                          4.437500
Stand by Me (1986)                        4.222222
When Harry Met Sally... (1989)            4.208333
Star Trek II: The Wrath of Khan (1982)    4.100000
Sleeping Beauty (1959)                    4.000000
Blues Brothers, The (1980)                4.000000
Shakespeare in Love (1998)                3.954545
Lethal Weapon (1987)                      3.950000
Top Gun (1986)                            3.944444
Grosse Pointe Blank (1997)                3.944444
Muppet Movie, The (1979)                  3.928571
Terminator 2: Judgment Day (1991)         3.916667
True Lies (1994)                          3.909091
Superman (1978)                           3.900000
Star Trek: First Contact (1996)           3.812500
Highlander (1986)                         3.750000
Rock, The (1996)                          3.687500
Clerks (1994)                             3.687500
Rocky (1976)                              3.650000
Name: 0, dtype: float64

这些是向用户推荐的前 20 部电影!


  • 如果聚类中有一部电影只有一个评分,评分是 5 颗星。该电影在该聚类中的平均评分是多少?这会对我们的简单推荐引擎有何影响?你会如何调整推荐系统,以解决这一问题?


  • 这是一个简单的推荐引擎,展示了“协同过滤”的最基本概念。有很多可以改进该引擎的启发法和方法。为了推动在这一领域的发展,Netflix 设立了 Netflix 奖项 ,他们会向对 Netflix 的推荐算法做出最大改进的算法奖励 1,000,000 美元。
  • 在 2009 年,“BellKor’s Pragmatic Chaos”团队获得了这一奖项。这篇论文介绍了他们采用的方式,其中包含大量方法。
  • Netflix 最终并没有使用这个荣获 1,000,000 美元奖励的算法,因为他们采用了流式传输的方式,并产生了比电影评分要庞大得多的数据集——用户搜索了哪些内容?用户在此会话中试看了哪些其他电影?他们是否先看了一部电影,然后切换到了其他电影?这些新的数据点可以提供比评分本身更多的线索。


  • 该 notebook 显示了用户级推荐系统。我们实际上可以使用几乎一样的代码进行商品级推荐。例如亚马逊的“购买(评价或喜欢)此商品的客户也购买了(评价了或喜欢)以下商品:” 。我们可以在应用的每个电影页面显示这种推荐。为此,我们只需将数据集转置为“电影 X 用户”形状,然后根据评分之间的联系对电影(而不是用户)进行聚类。
  • 我们从数据集 Movie Lens 中抽取了最小的子集,只包含 100,000 个评分。如果你想深入了解电影评分数据,可以查看他们的完整数据集,其中包含 2400 万个评分。
