《Python数据分析与机器学习实战-唐宇迪》读书笔记第14章--音乐推荐系统实战

python数据分析个人学习读书笔记-目录索引

第14章推荐系统项目实战——打造音乐推荐系统

　　上一章介绍了推荐系统的基本原理，本章的目标就要从零开始打造一个音乐推荐系统，包括音乐数据集预处理、基于相似度进行推荐以及基于矩阵分解进行推荐。

14.1数据集清洗

　　很多时候拿到手的数据集并不像想象中那么完美，基本都需要先把数据清洗一番才能使用，首先导入需要的Python工具包：

1 import pandas as pd
2 import numpy as np
3 import time
4 import sqlite3
5 
6 data_home = './'

　　由于数据中有一部分是数据库文件，需要使用sqlite3工具包进行数据的读取，大家可以根据自己情况设置数据存放路径。

　　先来看一下数据的规模，对于不同格式的数据，read_csv()函数中有很多参数可以选择，例如分隔符与列名：

1 triplet_dataset = pd.read_csv(filepath_or_buffer=data_home+'train_triplets.txt', 
2                               sep='\t', header=None, 
3                               names=['user','song','play_count'])

1 triplet_dataset.shape
2 #(48373586, 3)

　　输出结果显示共48373586个样本，每个样本有3个指标特征。

　　如果想更详细地了解数据的情况，可以打印其info信息，下面观察不同列的类型以及整体占用内存：

1 triplet_dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48373586 entries, 0 to 48373585 Data columns (total 3 columns): # Column Dtype --- ------ ----- 0 user object 1 song object 2 play_count int64 dtypes: int64(1), object(2) memory usage: 1.1+ GB

　　打印前10条数据：

1 triplet_dataset.head(n=10)

     user    　　　　　　　　　　　　　　　　　　　　    song     　　　　　　   play_count
0     b80344d063b5ccb3212f76538f3d9e43d87dca9e     SOAKIMP12A8C130995     1
1     b80344d063b5ccb3212f76538f3d9e43d87dca9e     SOAPDEY12A81C210A9     1
2     b80344d063b5ccb3212f76538f3d9e43d87dca9e     SOBBMDR12A8C13253B     2
3     b80344d063b5ccb3212f76538f3d9e43d87dca9e     SOBFNSP12AF72A0E22     1
4     b80344d063b5ccb3212f76538f3d9e43d87dca9e     SOBFOVM12A58A7D494     1
5     b80344d063b5ccb3212f76538f3d9e43d87dca9e     SOBNZDC12A6D4FC103     1
6     b80344d063b5ccb3212f76538f3d9e43d87dca9e     SOBSUJE12A6D4F8CF5     2
7     b80344d063b5ccb3212f76538f3d9e43d87dca9e     SOBVFZR12A6D4F8AE3     1
8     b80344d063b5ccb3212f76538f3d9e43d87dca9e     SOBXALG12A8C13C108     1
9     b80344d063b5ccb3212f76538f3d9e43d87dca9e     SOBXHDL12A81C204C0     1

　　数据中包括用户的编号、歌曲编号以及用户对该歌曲播放的次数。

14.1.1统计分析

　　掌握数据整体情况之后，下一步统计出关于用户与歌曲的各项指标，例如对每一个用户，分别统计他的播放总量，代码如下：

 1 output_dict = {}
 2 with open(data_home+'train_triplets.txt') as f:
 3     for line_number, line in enumerate(f):
 4         #找到当前的用户
 5         user = line.split('\t')[0]
 6         #得到其播放量数据
 7         play_count = int(line.split('\t')[2])
 8         #如果字典中已经有该用户信息，在其基础上增加当前的播放量
 9         if user in output_dict:
10             play_count +=output_dict[user]
11             output_dict.update({user:play_count})
12         output_dict.update({user:play_count})
13 # 统计 用户-总播放量
14 output_list = [{'user':k,'play_count':v} for k,v in output_dict.items()]
15 #转换成DF格式
16 play_count_df = pd.DataFrame(output_list)
17 #排序
18 play_count_df = play_count_df.sort_values(by = 'play_count', ascending = False)

　　构建一个字典结构，统计不同用户分别播放的总数，需要把数据集遍历一遍。当数据集比较庞大的时候，每一步操作都可能花费较长时间。后续操作中，如果稍有不慎，可能还得从头再来一遍。这就得不偿失，最好把中间结果保存下来。既然已经把结果转换成df格式，直接使用to_csv()函数，就可以完成保存操作。

1 play_count_df.to_csv(path_or_buf='user_playcount_df.csv', index = False)

　　在实验阶段，最好把费了好大功夫处理出来的数据保存到本地，免得一个不小心又得重跑一遍，令人头疼。

　　对于每一首歌，可以分别统计其播放总量，代码如下：

 1 #统计方法跟上述类似
 2 output_dict = {}
 3 with open(data_home+'train_triplets.txt') as f:
 4     for line_number, line in enumerate(f):
 5         #找到当前歌曲
 6         song = line.split('\t')[1]
 7         #找到当前播放次数
 8         play_count = int(line.split('\t')[2])
 9         #统计每首歌曲被播放的总次数
10         if song in output_dict:
11             play_count +=output_dict[song]
12             output_dict.update({song:play_count})
13         output_dict.update({song:play_count})
14 output_list = [{'song':k,'play_count':v} for k,v in output_dict.items()]
15 #转换成df格式
16 song_count_df = pd.DataFrame(output_list)
17 song_count_df = song_count_df.sort_values(by = 'play_count', ascending = False)

1 song_count_df.to_csv(path_or_buf='song_playcount_df.csv', index = False)

　　下面来看看排序后的统计结果：　　

1 song_count_df = pd.read_csv(filepath_or_buffer='song_playcount_df.csv')
2 song_count_df.head(10)

　　上述输出结果显示，最忠实的粉丝有13132次播放。

1 song_count_df = pd.read_csv(filepath_or_buffer='song_playcount_df.csv')
2 song_count_df.head(10)

　　上述输出结果显示，最受欢迎的一首歌曲有726885次播放。

　　由于该音乐数据集十分庞大，考虑执行过程的时间消耗以及矩阵稀疏性问题，依据播放量指标对数据集进行了截取。因为有些注册用户可能只是关注了一下，之后就不再登录平台，这些用户对后续建模不会起促进作用，反而增大矩阵的稀疏性。对于歌曲也是同理，可能有些歌曲根本无人问津。由于之前已经对用户与歌曲播放情况进行了排序，所以分别选择其中按播放量排名的前10万名用户和3万首歌曲，关于截取的合适比例，大家也可以通过观察选择数据的播放量占总体的比例来设置。

1 #10W名用户的播放量占总体的比例
2 total_play_count = sum(song_count_df.play_count)
3 print ((float(play_count_df.head(n=100000).play_count.sum())/total_play_count)*100)
4 play_count_subset = play_count_df.head(n=100000)

40.8807280500655

　　输出结果显示，前10万名最多使用平台的用户的播放量占到总播放量的40.88%

(float(song_count_df.head(n=30000).play_count.sum())/total_play_count)*100

78.39315366645269

　　输出结果显示，前3万首歌的播放量占到总播放量的78.39%。

　　接下来就要对原始数据集进行过滤清洗，也就是在原始数据集中，剔除掉不包含这10万名忠实用户以及3万首经典歌曲的数据。

 1 song_count_subset = song_count_df.head(n=30000)
 2 
 3 user_subset = list(play_count_subset.user)
 4 song_subset = list(song_count_subset.song)
 5 
 6 #读取原始数据集
 7 triplet_dataset = pd.read_csv(filepath_or_buffer=data_home+'train_triplets.txt',sep='\t', 
 8                               header=None, names=['user','song','play_count'])
 9 #只保留有这10W名用户的数据，其余过滤掉
10 triplet_dataset_sub = triplet_dataset[triplet_dataset.user.isin(user_subset) ]
11 del(triplet_dataset)
12 #只保留有这3W首歌曲的数据，其余也过滤掉
13 triplet_dataset_sub_song = triplet_dataset_sub[triplet_dataset_sub.song.isin(song_subset)]
14 del(triplet_dataset_sub)
15 triplet_dataset_sub_song.to_csv(path_or_buf=data_home+'triplet_dataset_sub_song.csv', index=False)

　　再来看一下过滤后的数据规模：

1 triplet_dataset_sub_song.shape

#(10774558, 3)

　　虽然过滤后的数据样本个数不到原来的1/4，但是过滤掉的样本都是稀疏数据，不利于建模，所以，当拿到数据之后，对数据进行清洗和预处理工作还是非常有必要的，它不仅能提升计算的速度，还会影响最终的结果。

14.1.2数据集整合

　　目前拿到的音乐数据只有播放次数，可利用的信息实在太少，对每首歌曲来说，正常情况下，都应该有一份详细信息，例如歌手、发布时间、主题等，这些信息都存在一份数据库格式文件中，接下来通过sqlite工具包读取这些数据：

 1 conn = sqlite3.connect(data_home+'track_metadata.db')
 2 cur = conn.cursor()  3 cur.execute("SELECT name FROM sqlite_master WHERE type='table'")  4 cur.fetchall()  5  6 track_metadata_df = pd.read_sql(con=conn, sql='select * from songs')  7 track_metadata_df_sub = track_metadata_df[track_metadata_df.song_id.isin(song_subset)]  8  9 track_metadata_df_sub.to_csv(path_or_buf=data_home+'track_metadata_df_sub.csv', index=False) 10 11 track_metadata_df_sub.shape

#(30447, 14)

　　这里并不需要大家熟练掌握sqlite工具包的使用方法，只是在读取.db文件时，用它更方便一些，大家也可以直接读取保存好的.csv文件。

1 triplet_dataset_sub_song = pd.read_csv(filepath_or_buffer=data_home+'triplet_dataset_sub_song.csv',encoding = "ISO-8859-1")
2 track_metadata_df_sub = pd.read_csv(filepath_or_buffer=data_home+'track_metadata_df_sub.csv',encoding = "ISO-8859-1")

1 triplet_dataset_sub_song.head()
2 
3 track_metadata_df_sub.head()

　　这回就有了一份详细的音乐作品清单，该份数据一共有14个指标，只选择需要的特征信息来利用：

1 # 去掉无用的信息
2 del(track_metadata_df_sub['track_id'])
3 del(track_metadata_df_sub['artist_mbid'])
4 # 去掉重复的
5 track_metadata_df_sub = track_metadata_df_sub.drop_duplicates(['song_id'])
6 # 将这份音乐信息数据和我们之前的播放数据整合到一起
7 triplet_dataset_sub_song_merged = pd.merge(triplet_dataset_sub_song, track_metadata_df_sub, how='left', left_on='song', right_on='song_id')
8 # 可以自己改变列名
9 triplet_dataset_sub_song_merged.rename(columns={'play_count':'listen_count'},inplace=True)

1 # 去掉不需要的指标
2 del(triplet_dataset_sub_song_merged['song_id'])
3 del(triplet_dataset_sub_song_merged['artist_id'])
4 del(triplet_dataset_sub_song_merged['duration'])
5 del(triplet_dataset_sub_song_merged['artist_familiarity'])
6 del(triplet_dataset_sub_song_merged['artist_hotttnesss'])
7 del(triplet_dataset_sub_song_merged['track_7digitalid'])
8 del(triplet_dataset_sub_song_merged['shs_perf'])
9 del(triplet_dataset_sub_song_merged['shs_work'])

　　上述代码去掉数据中不需要的一些特征，并且把这份音乐数据和之前的音乐播放次数数据整合在一起，现在再来看看这些数据：

1 triplet_dataset_sub_song_merged.head(n=10)

　　数据经处理后看起来工整多了，不只有用户对某个音乐作品的播放量，还有该音乐作品的名字和所属专辑名称，以及歌手的名字和发布时间。

　　现在只是大体了解了数据中各个指标的含义，对其具体内容还没有加以分析，推荐系统还可能会遇到过冷启动问题，也就是一个新用户来了，不知道给他推荐什么好，这时候就可以利用排行榜单，统计最受欢迎的歌曲和歌手：

 1 import matplotlib.pyplot as plt; plt.rcdefaults()
 2 import numpy as np
 3 import matplotlib.pyplot as plt
 4 #按歌曲名字来统计其播放量的总数
 5 popular_songs = triplet_dataset_sub_song_merged[['title','listen_count']].groupby('title').sum().reset_index()
 6 #对结果进行排序
 7 popular_songs_top_20 = popular_songs.sort_values('listen_count', ascending=False).head(n=20)
 8 
 9 #转换成list格式方便画图
10 objects = (list(popular_songs_top_20['title']))
11 #设置位置
12 y_pos = np.arange(len(objects))
13 #对应结果值
14 performance = list(popular_songs_top_20['listen_count'])
15 #绘图
16 plt.bar(y_pos, performance, align='center', alpha=0.5)
17 plt.xticks(y_pos, objects, rotation='vertical')
18 plt.ylabel('Item count')
19 plt.title('Most popular songs')
20  
21 plt.show()

　　使用groupby函数可以很方便地统计每首歌曲的播放情况，也就是播放量。这份排行数据可以当作最受欢迎的歌曲推荐给用户，把大家都喜欢的推荐出去，也是大概率受欢迎的。

　　采用同样的方法，可以对专辑和歌手的播放情况分别进行统计：

 1 #按专辑名字来统计播放总量
 2 popular_release = triplet_dataset_sub_song_merged[['release','listen_count']].groupby('release').sum().reset_index()
 3 #排序
 4 popular_release_top_20 = popular_release.sort_values('listen_count', ascending=False).head(n=20)
 5 
 6 objects = (list(popular_release_top_20['release']))
 7 y_pos = np.arange(len(objects))
 8 performance = list(popular_release_top_20['listen_count'])
 9 #绘图 
10 plt.bar(y_pos, performance, align='center', alpha=0.5)
11 plt.xticks(y_pos, objects, rotation='vertical')
12 plt.ylabel('Item count')
13 plt.title('Most popular Release')
14  
15 plt.show()

 1 #按歌手来统计其播放总量
 2 popular_artist = triplet_dataset_sub_song_merged[['artist_name','listen_count']].groupby('artist_name').sum().reset_index()
 3 #排序
 4 popular_artist_top_20 = popular_artist.sort_values('listen_count', ascending=False).head(n=20)
 5 
 6 objects = (list(popular_artist_top_20['artist_name']))
 7 y_pos = np.arange(len(objects))
 8 performance = list(popular_artist_top_20['listen_count'])
 9 #绘图 
10 plt.bar(y_pos, performance, align='center', alpha=0.5)
11 plt.xticks(y_pos, objects, rotation='vertical')
12 plt.ylabel('Item count')
13 plt.title('Most popular Artists')
14  
15 plt.show()

　　这份数据中，还有很多信息值得关注，这里只举例进行分析，实际任务中还是要把所有潜在的信息全部考虑进来，再来看一下该平台用户播放的分布情况：

1 user_song_count_distribution = triplet_dataset_sub_song_merged[['user','title']].groupby('user').count().reset_index().sort_values(
2 by='title',ascending = False)
3 user_song_count_distribution.title.describe()

count    99996.000000
mean       107.749890
std         79.742561
min          1.000000
25%         53.000000
50%         89.000000
75%        141.000000
max       1189.000000
Name: title, dtype: float64

　　通过describe()函数可以得到其具体的统计分布指标，但这样看不够直观，最好还是通过绘图展示：

1 x = user_song_count_distribution.title
2 n, bins, patches = plt.hist(x, 50, facecolor='green', alpha=0.75) 3 plt.xlabel('Play Counts') 4 plt.ylabel('Num of Users') 5 plt.title(r'$\mathrm{Histogram\ of\ User\ Play\ Count\ Distribution}\ $') 6 plt.grid(True) 7 plt.show()

　　输出结果显示绝大多数用户播放100首歌曲左右，一部分用户只是听一听，特别忠实的粉丝占比较少。现在已经做好数据的处理和整合，接下来就是构建一个能实际进行推荐的程序。

14.2基于相似度的推荐

　　如何推荐一首歌曲呢？最直接的想法就是推荐大众都认可的或者基于相似度来猜测他们的口味。

14.2.1排行榜推荐

　　最简单的推荐方式就是排行榜单，这里创建了一个函数，需要传入原始数据、用户列名、待统计的指标（例如按歌曲名字、歌手名字、专辑名字，也就是选择使用哪些指标得到排行榜单）：

 1 import Recommenders as Recommenders
 2 from sklearn.model_selection import train_test_split
 3 
 4 triplet_dataset_sub_song_merged_set = triplet_dataset_sub_song_merged
 5 train_data, test_data = train_test_split(triplet_dataset_sub_song_merged_set, test_size = 0.40, random_state=0)
 6 
 7 train_data.head()
 8 
 9 def create_popularity_recommendation(train_data, user_id, item_id):
10     #根据指定的特征来统计其播放情况，可以选择歌曲名，专辑名，歌手名
11     train_data_grouped = train_data.groupby([item_id]).agg({user_id: 'count'}).reset_index()
12     #为了直观展示，我们用得分来表示其结果
13     train_data_grouped.rename(columns = {user_id: 'score'},inplace=True)
14     
15     #排行榜单需要排序
16     train_data_sort = train_data_grouped.sort_values(['score', item_id], ascending = [0,1])
17     
18     #加入一项排行等级，表示其推荐的优先级
19     train_data_sort['Rank'] = train_data_sort['score'].rank(ascending=0, method='first')
20         
21     #返回指定个数的推荐结果
22     popularity_recommendations = train_data_sort.head(20)
23     return popularity_recommendations
24 
25 recommendations = create_popularity_recommendation(triplet_dataset_sub_song_merged,'user','title')

　　上述代码返回一份前20名的歌曲排行榜单，对于其中的得分，这里只是进行了简单的播放计算，在设计的时候，也可以综合考虑更多的指标，例如综合计算歌曲发布年份、歌手的流行程度等。

14.2.2基于歌曲相似度的推荐

　　另一种方案就要使用相似度计算推荐歌曲，为了加快代码的运行速度，选择其中一部分数据进行实验。

1 song_count_subset = song_count_df.head(n=5000)
2 user_subset = list(play_count_subset.user)
3 song_subset = list(song_count_subset.song)
4 triplet_dataset_sub_song_merged_sub = triplet_dataset_sub_song_merged[triplet_dataset_sub_song_merged.song.isin(song_subset)]

　　实验阶段，可以先用部分数据来测试，确定代码无误后，再用全部数据跑一遍，这样比较节约时间，毕竟代码都是不断通过实验来修正的。

　　下面执行相似度计算：

1 import Recommenders as Recommenders
2 train_data, test_data = train_test_split(triplet_dataset_sub_song_merged_sub, test_size = 0.30, random_state=0)
3 is_model = Recommenders.item_similarity_recommender_py()
4 is_model.create(train_data, 'user', 'title')
5 user_id = list(train_data.user)[7]
6 user_items = is_model.get_user_items(user_id)

　　细心的读者应该观察到了，首先导入Recommenders，它类似于一个自定义的工具包，包括接下来要使用的所有函数。由于要计算的代码量较大，直接在Notebook中进行展示比较麻烦，所以需要写一个.py文件，所有实际计算操作都在这里完成。

　　大家在实践这份代码的时候，可以选择一个合适的IDE，因为Notebook并不支持debug操作。拿到一份陌生的代码而且量又比较大的时候，最好先通过debug方式一行代码一行代码地执行，这样才可以更清晰地熟悉整个函数做了什么。

　　对于初学者来说，直接看整体代码可能有些难度，建议大家选择一个合适的IDE，例如pycharm、eclipse等都是不错的选择。

　　Is_model.create(train_data,’user’,’title’)表示该函数需要传入原始数据、用户ID和歌曲信息，相当于得到所需数据，源码如下：

1     #Create the item similarity based recommender system model
2     def create(self, train_data, user_id, item_id):
3         self.train_data = train_data
4         self.user_id = user_id
5         self.item_id = item_id

　　User_id=list(train_data.user)[7]表示这里需要选择一个用户，哪个用户都可以，基于他进行推荐。

　　Is_model.get_user_items(user_id)表示得到该用户听过的所有歌曲，源码如下：

1     #Get unique items (songs) corresponding to a given user
2     def get_user_items(self, user):
3         user_data = self.train_data[self.train_data[self.user_id] == user]
4         user_items = list(user_data[self.item_id].unique())
5         
6         return user_items

　　Is_model.recommend(user_id)表示全部的核心计算，首先展示其流程，然后再分别解释其细节：

 1 #Use the item similarity based recommender system model to
 2     #make recommendations
 3     def recommend(self, user):
 4         
 5         ########################################
 6         #A. Get all unique songs for this user
 7         ########################################
 8         user_songs = self.get_user_items(user)    
 9             
10         print("No. of unique songs for the user: %d" % len(user_songs))
11         
12         ######################################################
13         #B. Get all unique items (songs) in the training data
14         ######################################################
15         all_songs = self.get_all_items_train_data()
16         
17         print("no. of unique songs in the training set: %d" % len(all_songs))
18          
19         ###############################################
20         #C. Construct item cooccurence matrix of size 
21         #len(user_songs) X len(songs)
22         ###############################################
23         cooccurence_matrix = self.construct_cooccurence_matrix(user_songs, all_songs)
24         
25         #######################################################
26         #D. Use the cooccurence matrix to make recommendations
27         #######################################################
28         df_recommendations = self.generate_top_recommendations(user, cooccurence_matrix, all_songs, user_songs)
29                 
30         return df_recommendations

　　上述代码的关键点就是第3步计算相似矩阵了。其中cooccurence_matrix=self.construct_cooccurence_matrix(user_songs,all_songs)表示需要传入该用户听过哪些歌曲，以及全部数据集中有多少歌曲。下面通过源码解读一下其计算流程：

 1     #Construct cooccurence matrix
 2     def construct_cooccurence_matrix(self, user_songs, all_songs):  3  4 ####################################  5 #Get users for all songs in user_songs.  6 ####################################  7 user_songs_users = []  8 for i in range(0, len(user_songs)):  9  user_songs_users.append(self.get_item_users(user_songs[i])) 10 11 ############################################### 12 #Initialize the item cooccurence matrix of size 13 #len(user_songs) X len(songs) 14 ############################################### 15 cooccurence_matrix = np.matrix(np.zeros(shape=(len(user_songs), len(all_songs))), float) 16 17 ############################################################# 18 #Calculate similarity between user songs and all unique songs 19 #in the training data 20 ############################################################# 21 for i in range(0,len(all_songs)): 22 #Calculate unique listeners (users) of song (item) i 23 songs_i_data = self.train_data[self.train_data[self.item_id] == all_songs[i]] 24 users_i = set(songs_i_data[self.user_id].unique()) 25 26 for j in range(0,len(user_songs)): 27 28 #Get unique listeners (users) of song (item) j 29 users_j = user_songs_users[j] 30 31 #Calculate intersection of listeners of songs i and j 32 users_intersection = users_i.intersection(users_j) 33 34 #Calculate cooccurence_matrix[i,j] as Jaccard Index 35 if len(users_intersection) != 0: 36 #Calculate union of listeners of songs i and j 37 users_union = users_i.union(users_j) 38 39 cooccurence_matrix[j,i] = float(len(users_intersection))/float(len(users_union)) 40 else: 41 cooccurence_matrix[j,i] = 0 42 43 44 return cooccurence_matrix

　　整体代码量较多，先从整体上介绍这段代码做了什么，大家debug一遍，效果会更好。首先，想要针对某个用户进行推荐，需要先知道他听过哪些歌曲，将已被听过的歌曲与整个数据集中的歌曲进行对比，看哪些歌曲与用户已听过的歌曲相似，就推荐这些相似的歌曲。

　　如何计算呢？例如，当前用户听过66首歌曲，整个数据集有4879首歌曲，那么，可以构建一个[66,4879]矩阵，表示用户听过的每一个歌曲和数据集中每一个歌曲的相似度。这里使用Jaccard相似系数，矩阵 [I,j]中，i表示用户听过的第i首歌曲被多少人听过，例如被3000人听过；j表示j这首歌曲被多少人听过，例如被5000人听过。Jaccard相似系数计算式为：

　　如果两个歌曲相似，其受众应当一致，Jaccard相似系数的值应该比较大。如果两个歌曲没什么相关性，其值应当比较小。

　　最后推荐的时候，还应当注意：对于数据集中每一首待推荐的歌曲，都需要与该用户所有听过的歌曲合在一起计算Jaccard值。例如，歌曲j需要与用户听过的66首歌曲合在一起计算Jaccard值，还要处理最终是否推荐的得分值，即把这66个值加在一起，最终求一个平均值，代表该歌曲的平均推荐得分。也就是说，给用户推荐歌曲时，不能单凭一首歌进行推荐，需要考虑所有用户听过的所有歌曲。

　　对于每一位用户来说，通过相似度计算，可以得到数据集中每一首歌曲的得分值以及排名，然后可以向每一个用户推荐其可能喜欢的歌曲，推荐的最终结果如图14-1所示。

1 #执行推荐
2 is_model.recommend(user_id)

No. of unique songs for the user: 66
no. of unique songs in the training set: 4879
Non zero values in cooccurence_matrix :290327
#运行大约25分钟

　　图14-1 推荐的最终结果

14.3基于矩阵分解的推荐

　　相似度计算的方法看起来比较简单，很容易就能实现，但是，当数据较大的时候，计算的开销实在太大，对每一个用户都需要多次遍历整个数据集进行计算，这很难实现。矩阵分解可以更快速地得到结果，也是当下比较热门的方法。

14.3.1奇异值分解

　　奇异值分解（Singular Value Decomposition，SVD）是矩阵分解中一个经典方法，接下来的推荐就可以使用SVD进行计算，它的基本出发点与隐语义模型类似，都是将大矩阵转换成小矩阵的组合，它的最基本形式如图14-2所示。

　　图14-2 SVD矩阵分解

　　其中n和m都是比较大的数值，代表原始数据；r是较小的数值，表示矩阵分解后的结果可以用较小的矩阵组合来近似替代。下面借用一个经典的小例子，看一下SVD如何应用在推荐系统中（见图14-3）。

　　图14-3 用户评分矩阵

　　首先将数据转换成矩阵形式，如下所示：

　　对上述矩阵执行SVD分解，结果如下：

　　依照SVD计算公式：

　　A=USVT　　　　（14.1）

　　其中，U、S和V分别为分解后的小矩阵，通常更关注S矩阵，S矩阵的每一个值都代表该位置的重要性指标，它与降维算法中的特征值和特征向量的关系类似。

　　如果只在S矩阵中选择一部分比较重要的特征值，相应的U和V矩阵也会发生改变，例如只保留2个特征值。

　　再把上面3个矩阵相乘，即A2=USVT，结果如下：

　　对比矩阵A2和矩阵A，可以发现二者之间的数值很接近。如果将U矩阵的第一列当成x值，第二列当成y值，也就是把U矩阵的每一行在二维空间中进行展示。同理V矩阵也是相同操作，可以得到一个有趣的结果。

　　SVD矩阵分解后的意义如图14-4所示，可以看出用户之间以及商品之间的相似性关系，假设现在有一个名叫Flower的新用户，已知该用户对各个商品的评分向量为 [5 5 0 0 0 5]，需要向这个用户进行商品的推荐，也就是根据这个用户的评分向量寻找与该用户相似的用户，进行如下计算：

　　图14-4 SVD矩阵分解后的意义

　　现在可以在上述的二维坐标中寻找这个坐标点，然后看这个点与其他点的相似度，根据相似程度进行推荐。

14.3.2使用SVD算法进行音乐推荐

　　在SVD中所需的数据是用户对商品的打分，但在现在的数据集中，只有用户播放歌曲的情况，并没有实际的打分值，所以，需要定义用户对每首歌曲的评分值。如果一个用户喜欢某首歌曲，他应该经常播放这首歌曲；相反，如果不喜欢某首歌曲，播放次数肯定比较少。

　　在建模过程中,使用工具包非常方便，但是一定要知道输入的是什么数据，倒推也是不错的思路，先知道想要输入什么，然后再对数据进行处理操作。

　　用户对歌曲的打分值，定义为用户播放该歌曲数量/该用户播放总量。代码如下：

1 triplet_dataset_sub_song_merged_sum_df = triplet_dataset_sub_song_merged[['user','listen_count']].groupby('user').sum().reset_index()
2 triplet_dataset_sub_song_merged_sum_df.rename(columns={'listen_count':'total_listen_count'},inplace=True)
3 triplet_dataset_sub_song_merged = pd.merge(triplet_dataset_sub_song_merged,triplet_dataset_sub_song_merged_sum_df)
4 triplet_dataset_sub_song_merged.head()

1 triplet_dataset_sub_song_merged['fractional_play_count'] = \
　　　　　　　　　　triplet_dataset_sub_song_merged['listen_count']/triplet_dataset_sub_song_merged['total_listen_count']

1 triplet_dataset_sub_song_merged[triplet_dataset_sub_song_merged.user =='d6589314c0a9bcbca4fee0c93b14bc402363afea'][['user','song','listen_count','fractional_play_count']].head()

　　　　user  　　　　　　　　　　　　　　　　　　　　　　song     　　　　　　　　listen_count     fractional_play_count
0     d6589314c0a9bcbca4fee0c93b14bc402363afea     SOADQPP12A67020C82     12     　　　　　0.036474
1     d6589314c0a9bcbca4fee0c93b14bc402363afea     SOAFTRR12AF72A8D4D     1    　　　　　　 0.003040
2     d6589314c0a9bcbca4fee0c93b14bc402363afea     SOANQFY12AB0183239     1     　　　　　　0.003040
3     d6589314c0a9bcbca4fee0c93b14bc402363afea     SOAYATB12A6701FD50     1    　　　　　　 0.003040
4     d6589314c0a9bcbca4fee0c93b14bc402363afea     SOBOAFP12A8C131F36     7     　　　　　　0.021277

　　上述代码先根据用户进行分组，计算每个用户的总播放量，然后用每首歌曲的播放量除以该用户的总播放量。最后一列特征fractional_play_count就是用户对每首歌曲的评分值。

　　评分值确定之后，就可以构建矩阵了，这里有一些小问题需要处理，原始数据中，无论是用户ID还是歌曲ID都是很长一串，表达起来不太方便，需要重新对其制作索引。

1 user_codes[user_codes.user =='2a2f776cbac6df64d6cb505e7e834e01684673b6']

　　　　　　user_index     user     　　　　　　　　　　　　　　　　　　　us_index_value
27516     2981434     2a2f776cbac6df64d6cb505e7e834e01684673b6     27516

　在矩阵中，知道用户ID、歌曲ID、评分值就足够了，需要去掉其他指标（见图14-5）。由于数据集比较稀疏，为了计算、存储的高效，可以用索引和评分表示需要的数值，其他位置均为0。

　　图14-5 评分矩阵

　　整体实现代码如下：

 1 from scipy.sparse import coo_matrix
 2 
 3 small_set = triplet_dataset_sub_song_merged  4 user_codes = small_set.user.drop_duplicates().reset_index()  5 song_codes = small_set.song.drop_duplicates().reset_index()  6 user_codes.rename(columns={'index':'user_index'}, inplace=True)  7 song_codes.rename(columns={'index':'song_index'}, inplace=True)  8 song_codes['so_index_value'] = list(song_codes.index)  9 user_codes['us_index_value'] = list(user_codes.index) 10 small_set = pd.merge(small_set,song_codes,how='left') 11 small_set = pd.merge(small_set,user_codes,how='left') 12 mat_candidate = small_set[['us_index_value','so_index_value','fractional_play_count']] 13 data_array = mat_candidate.fractional_play_count.values 14 row_array = mat_candidate.us_index_value.values 15 col_array = mat_candidate.so_index_value.values 16 17 data_sparse = coo_matrix((data_array, (row_array, col_array)),dtype=float)

　　矩阵构造好之后，就要执行SVD矩阵分解，这里还需要一些额外的工具包完成计算，scipy就是其中一个好帮手，里面已经封装好SVD计算方法。

1 import math as mt
2 from scipy.sparse.linalg import * #used for matrix multiplication
3 from scipy.sparse.linalg import svds
4 from scipy.sparse import csc_matrix

　　在执行SVD的时候，需要额外指定K值，其含义就是选择前多少个特征值来做近似代表，也就是S矩阵的维数。如果K值较大，整体的计算效率会慢一些，但是会更接近真实结果，这个值需要自己衡量。

 1 def compute_svd(urm, K):
 2     U, s, Vt = svds(urm, K)
 3 
 4     dim = (len(s), len(s))
 5     S = np.zeros(dim, dtype=np.float32)
 6     for i in range(0, len(s)):
 7         S[i,i] = mt.sqrt(s[i])
 8 
 9     U = csc_matrix(U, dtype=np.float32)
10     S = csc_matrix(S, dtype=np.float32)
11     Vt = csc_matrix(Vt, dtype=np.float32)
12     
13     return U, S, Vt

　　此处选择的K值等于50，其中PID表示最开始选择的部分歌曲，UID表示选择的部分用户。

1 K=50
2 urm = data_sparse
3 MAX_PID = urm.shape[1]
4 MAX_UID = urm.shape[0]
5 
6 U, S, Vt = compute_svd(urm, K)

　　执行过程中，还可以打印出各个矩阵的大小，并进行观察分析。

　　强烈建议大家将代码复制到IDE中，打上断点一行一行地走下去，观察其中每一个变量的值，这对理解整个流程非常有帮助。

　　接下来需要选择待测试用户：

1 uTest = [4,5,6,7,8,873,23]
2 
3 uTest_recommended_items = compute_estimated_matrix(urm, U, S, Vt, uTest, K, True)

　　随便选择一些用户就好，其中的数值表示用户的索引编号，接下来需要对每一个用户计算其对候选集中3万首歌曲的喜好程度，也就是估计他对这3万首歌的评分值应该等于多少，前面通过SVD矩阵分解已经计算出所需的各个小矩阵，接下来把其还原回去即可：

 1 def compute_estimated_matrix(urm, U, S, Vt, uTest, K, test):
 2     rightTerm = S*Vt 
 3     max_recommendation = 250
 4     estimatedRatings = np.zeros(shape=(MAX_UID, MAX_PID), dtype=np.float16)
 5     recomendRatings = np.zeros(shape=(MAX_UID,max_recommendation ), dtype=np.float16)
 6     for userTest in uTest:
 7         prod = U[userTest, :]*rightTerm
 8         estimatedRatings[userTest, :] = prod.todense()
 9         recomendRatings[userTest, :] = (-estimatedRatings[userTest, :]).argsort()[:max_recommendation]
10     return recomendRatings

　　计算好推荐结果之后，可以进行打印展示：

1 for user in uTest:
2     print("当前待推荐用户编号 {}". format(user))
3     rank_value = 1
4     for i in uTest_recommended_items[user,0:10]:
5         song_details = small_set[small_set.so_index_value == i].drop_duplicates('so_index_value')[['title','artist_name']]
6         print("推荐编号： {} 推荐歌曲： {} 作者： {}".format(rank_value, list(song_details['title'])[0],list(song_details['artist_name'])[0]))
7         rank_value+=1

　　输出结果显示每一个用户都得到了与其对应的推荐结果，并且将结果按照得分值进行排序，也就完成了推荐工作。从整体效率上比较，还是优于相似度计算的方法。

　　最终没运行到结果，是内存不足，世纪最大遗憾！

　　第二天适逢周末，于是尝试修改了下虚拟内存，结果成功运行。其实16G物理内存并没有用完，但是python运行时却受虚拟内存制约。原来的2G（SSD）+2G(HDD)改为8G+8G即可。

项目小结：本章选择音乐数据集进行个性化推荐任务，首先对数据进行预处理和整合，并选择两种方法分别完成推荐任务。在相似度计算中，根据用户所听过的歌曲，在候选集中选择与其最相似的歌曲，存在的问题就是计算消耗太多，每一个用户都需要重新计算一遍，才能得出推荐结果。在SVD矩阵分解的方法中，首先构建评分矩阵，对其进行SVD分解，然后选择待推荐用户，还原得到其对所有歌曲的估测评分值，最后排序，返回结果即可。

第14章完。

python数据分析个人学习读书笔记-目录索引

该书资源下载，请至异步社区：https://www.epubit.com

你可能感兴趣的:(《Python数据分析与机器学习实战-唐宇迪》读书笔记第14章--音乐推荐系统实战)

【Python】一文详细介绍 py格式文件高斯小哥 Python基础【高质量合集】python 新手入门学习
【Python】一文详细介绍py格式文件个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录一、py格式文件简介二、如何创建和编辑py格式文件三、如何运行py
《昼颜》里的日本女人：相遇要万种风情，分手要残忍绝情迷影咖啡
作者：迷之菌子神奇菇迷影咖啡：一本正经做烘焙，胡说八道聊电影漫天萤火虫消散之时良宵就将过去，人们也说含苞待放的花蕾总会开了又谢，因紧紧相拥而面红耳赤的躯体，便是我们经历过这热爱的证明。夫妻关系介绍《昼颜》是2014年电视剧《昼颜：工作日下午三点的恋人们》的续集，故事发在电视剧情节结束的三年后，讲述了已经恢复独身的纱和偶然与曾经的出轨对象北野重逢后再次陷入感情漩涡的故事。《昼颜》制作灵感源自利佳子在
教育微创新的意蕴知北老师
我是1992年参加工作的，一毕业就被分配到一所全县最偏僻落后的农村学校——付窝中学，12年后被调往一所已经连续十年全县倒数第一，也是很偏僻落后的农村学校——北宋镇第三中学。三年后到了北宋镇第一中学工作，这所学校教学质量也是连续几年落后了。2014年我到了北京市育英学校，这所学校是京城名校。2016年7月，我被育英学校派往原密云区第七中学工作，这是一所城乡接合部薄弱学校。学校现名为北京市育英学校密云
python抓包与解包_Python—网络抓包与解包（pcap、dpkt） weixin_39691055 python抓包与解包
pcap安装[root@localhost~]#pipinstallpypcap抓包与解包#-*-coding:utf-8-*-importpcap,dpktimportre,threading,requests__black_ip=['103.224.249.123','203.66.1.212']#抓包：param1eth_name网卡名，如：eth0,eth3。param2p_type日志捕
word字号和mathtype磅值关系及批量修改小铁匠-Ma office小技巧经验分享
word字号和mathtype磅值关系及批量修改1.字号与磅值关系字号「八号」对应磅值5字号「七号」对应磅值5.5字号「小六」对应磅值6.5字号「六号」对应磅值7.5字号「小五」对应磅值9字号「五号」对应磅值10.5字号「小四」对应磅值12字号「四号」对应磅值14字号「小三」对应磅值15字号「三号」对应磅值16字号「小二」对应磅值18字号「二号」对应磅值22字号「小一」对应磅值24字号「一号」对应
华为OD机试 - 单向链表中间节点（Java & JS & Python & C & C++）华为OD题库华为od 链表 java
须知哈喽，本题库完全免费，收费是为了防止被爬，大家订阅专栏后可以私信联系退款。感谢支持文章目录须知题目描述输出描述解析代码题目描述给定一个单链表L，请编写程序输出L中间结点保存的数据。如果有两个中间结点，则输出第二个中间结点保存的数据。例如：给定L为1→7→5，则输出应该为7；给定L为1→2→3→4，则输出应该为3；输入描述每个输入包含1个测试用例。每个测试用例：第一行给出链表首结点的地址、结点总
python 推导式(派生、衍生) sanduo112 人工智能 python windows 开发语言
python推导式一、推导式(派生、衍生)1.Python推导式是一种独特的数据处理方式，可以从一个数据序列构建另一个新的数据序列的结构体。2.列表(list)推导式3.字典(dict)推导式4.集合(set)推导式5.元组(tuple)推导式二、代码概述一、推导式(派生、衍生)1.Python推导式是一种独特的数据处理方式，可以从一个数据序列构建另一个新的数据序列的结构体。Python支持各种数
为什么说仪式和习惯非常重要？章鱼老师zy
这是章鱼姐第【40】篇原创文章，日更计划第【37/100】天。阅读张萌萌姐【精力管理手册】第【6/7】章。一阅读摘要这一章萌姐讲到了习惯的重要性，为什么说养成一个习惯很重要？如何养成一个好习惯？如何建立自己的仪式感？二金句精力管理最重要的是产生什么效果。当你想做却没有动力去做一件事情时，你就应该把它养成习惯。习惯可以帮我们创造稳定框架。对于那些特别考验意志的事情，我们应该先行后思。三思考题，萌姐讲
第一章山洞传来牛铃声满眼荷花
春夏时节，田野一片青碧，山林薄雾蔼蔼，水草萋萋的小河边静静立着一只白鹭，像一位白头钓翁，在耐心地等鱼。王三乐牵着一头老黄牛，正在河边田埂上放牛。看见白鹭，他百无聊赖地捡起一块小石头扔了过去。白鹭动作舒缓、姿势优美地飞起避过，在空中飞行一段后，宛若晴空一片云，翩然而下，又静静立于河边青草间，继续呈现完美的画面。王三乐也觉得自己很无聊，这也难怪，从他记事起就开始放牛，一直到现在都大学毕业了，还没丢下放
社交电商是什么意思通俗的说氧惠好项目
社交电商是目前电商发展的一个非常热门的领域，它将传统的电商和社交媒体相结合，让用户可以在社交平台上完成购物、支付等操作。社交电商不同于传统电商，它更加注重用户的社交性和互动性，通过社交媒体的传播，吸引用户关注，让产品能够更加快速地传播。京东密令红包：最爱领红包828红包多多148今天给大家分享我长期在做的副业，也在这里赚到人生第3桶金！氧惠APP佣金高，资质靠谱，各大应用市场均可搜索使用。【氧惠】
数据挖掘|数据预处理|基于Python的数据标准化方法皖山文武数据挖掘数据建模与分析 python 数据挖掘开发语言
基于Python的数据标准化方法1.z-score方法2.极差标准化方法3.最大绝对值标准化方法在数据分析之前，通常需要先将数据标准化（Standardization），利用标准化后的数据进行数据分析，以避免属性之间不同度量和取值范围差异造成数据对分析结果的影响。1.z-score方法Z-score方法是基于原始数据的均值和标准差来进行数据标准化的，处理后的数据均值为0，方差为1，符合标准正态分布
c++中如何判断变量的数据类型，并输出 xnrbjy c++开发语言
C++中如果想要判断变量的数据类型，可以使用typeid运算符。该运算符返回一个std::type_info类型的对象，可以使用name()方法获取其名称从而确定变量的类型，例如：#include#includeusingnamespacestd;intmain(){inta=123;floatb=3.14;boolc=true;chard='A';stringe="HelloWorld";cou
【计算机网络】第 3 问：电路交换、报文交换、分组交换之间的区别？孤独打铁匠Julian #计算机408考研面试计算机网络计算机网络网络
电路交换、报文交换、分组交换之间的区别？省流图详解电路交换电路交换的优点电路交换的缺点建立连接时间长的原因报文交换报文交换的优点报文交换的缺点分组交换分组交换的优点分组交换的缺点比较总结省流图详解电路交换在进行数据传输前，两个结点之间必须先建立一条专用（双方独占）的物理通信路径（由通信双方之间的交换设备和链路逐段连接而成），该路径可能经过许多中间结点。这一路径在整个数据传输期间一直被独占，直到通信
CSV指南：Python程序获取大型CSV文件行数孤独打铁匠Julian 笔记经验分享 python
本指南提供了几种使用Python来获取大型CSV文件行数的方法，并解释了每种方法的适用场景。方法1:使用csv.reader处理复杂CSV文件当你的CSV文件中包含多行字段（即某些字段的值中包含换行符）时，使用csv.reader是一个可靠的选择，因为它能够正确处理这些复杂情况。这个方法适用于大多数大小的CSV文件，但是对于非常大的文件，读取整个文件可能会占用较多的时间和内存。对于极大的文件，考虑
入伏（五）喜马ma
图片发自App入伏13今天我看见很多蜻蜓在飞飞得很低想起小学时学的那点知识在这闷热的午后真能来一场暴雨太过瘾了入伏14有点像瓢虫的昆虫喜欢吃葡萄叶喜欢交配在炎热的夏天如果你在葡萄园看见两只昆虫它们不是在吃葡萄叶就是在交配请记住它们的名字叫葡萄十星红甲
v-for 实例琪33
v-for实例v-for实例{{item}}{{index+1}}：{{student.name}}-{{student.age}}varapp=newVue({el:'#app',data:{items:[53,23,76,14,54,36,28],students:[{name:'jspang',age:32},{name:'Panda',age:30},{name:'PanPaN',age:
＜商务世界＞《第25课餐桌上的礼仪-简单的流程》 Ealser 商务世界中国餐桌礼节
第一：迎客席座一般的程序是主人给客人邀请函——日子到了，主人到门外迎客——客人到了，问候几句——带着可人到0客厅小坐一会儿，给客人茶点——带客人入席坐好！第二：入座与座次首先要请客人中长者或地位高的先入座，再按身份地位依次入座，入座时要从椅子左边进入。（正对门口的为上座，一般是根据对方的.身份地位来安排）。入座后不要动筷子，更不要弄出什么响声来，也不要起身走动。如果有什么事要向主人打招呼！（做小辈
ChatGPT一路狂飙？何鲸洛
2月2日。根据投行瑞银集团在周三发布的一份研究报告。爆红聊天机器人ChatGPT的月活跃用户在今年1月份预计达到了1亿，这距离它推出只有2个月时间，成为史上增长最快的消费者应用。①ChatGPT一路火花带闪电？▽2014年。OpenAI创始人SamAltman早年曾执掌著名的硅谷孵化器YCombinator。2015年。Altman联合马斯克、彼得·泰尔、AWS、印度Infosys和YC等作为出资
喝酒给500红包，大家讨论一下微信报单好还是传真报单好？践侠客
2018年6月2日，L1组编号8号，日精进第65天，（文/胡鼎峰）昨天又和客户一起吃饭喝酒了，尽管最后的结果是蛮好的，但是因为喝酒我昨天又断更了，这对于习惯了每天写作日更的我来说，体验非常地差。早上三点就早早醒过来，想要爬起来写文章，但是头脑因为酒精的作用依然是昏昏沉沉，于是在半梦半醒之间熬到了天亮。对于我来说，日更是现在最重要的事情，虽然我也不知道我日更到底是为了什么，但是就是隐隐地觉得自己必须
中原焦点团队38期王芳芳坚持分享第236天，20230630总约练134次，来访113次，咨8次，观察员13次芳芳王
学习焦点的初心是想拯救孩子，孩子由于沉迷游戏，成绩下滑，在学习的过程中发现是自己的教育方式出了状况。经过半年的学习，一些焦点的基本技巧，如接纳、欣赏、倾听、同理心、尊重等都有了一定的了解。但在实际应用时仍然存在很多问题，感觉自己仍然没有放下对孩子成绩的期望，仍然把握不住对孩子管理的度。我该如何去陪伴好孩子？多用心去听课，并加强反思，多约练。去思考如何让自己快乐起来？
谷歌浏览器驱动Chromedriver（114-120版本）文件以及驱动下载教程 pigerr杨 Python python chrome drivers
ChromeDriver官方网站GitHub||GoogleChromeLabs/chrome-for-testingChromeDriver113-125_JSONChromeforTestingavailability123-125zip白月黑羽Python基础|进阶|Qt图形界面|Django|自动化测试|性能测试|JS语言|JS前端|原理与安装
大创项目推荐深度学习 opencv python 公式识别(图像识别机器视觉) laafeer python
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
计划比盲目做重要一祉微笑
坚持分享第99天。一次次会议提醒着老师们假期余额不足，马上面临停机状态。50多天掐指而过，想想放假时的计划，对照如今的完成情况，感觉差太远。想着好好看书，如今50多天过去了第6本还处在未完待续状态；想着假期好好陪陪孩子，在玩中学一些知识，如今想想，孩子学的真不多；想着暑假坚持跑步，有时还是容易给自己找借口，休息三两天。给这个假期一个综合评价，只能说只完成了计划的百分之五六十。想想为什么临近开学没达
读书笔记《穿越寒冬》如雪般飞舞
各位好，我们今天来讲一本书，名字叫作《穿越寒冬》。看起来特别应景，大家觉得现在创业的状况不景气，大家都在忍受着寒冬的煎熬。但实际上，这本书的英文名字并不是这个意思，它的英文名叫作“如何创立一家新公司，并且能够活下来”。我在整个读完了以后，我发现这本书真正要翻译得好，它的名字应该叫作《创业生存手册》。这个书的作者，来自硅谷的霍夫曼船长。霍夫曼船长写过一本让创业者觉得特别贴心的书，叫作《让大象飞》它和
感恩日志第【1210】天：（2019.02.01）（腊月二十七）山东慧恩贺守金
今日感悟：二十七撇松枝！今日是真正的第一天假期：吃饭找物业看望父母打麻将。时间过的飞快，转眼间，已经放假5天了，保养车，购置年货，送礼，出差，回家。春节假期：陪伴父母、妻儿的时间，反思的时间，规划的时间。白天太忙，忙着各种琐事，晚上才真正有时间留给自己，思考，总结。感恩这一个充实而忙碌的一天。
关于举办第十五届蓝桥杯全国软件和信息技术专业人才大赛项目实战赛的通知 QSNKJJSW 蓝桥杯职场和发展青少年编程无人机机器人科技人工智能
各高等院校及相关单位：为贯彻落实《中国教育现代化2035》和《国务院关于印发新时期促进集成电路产业和软件产业高质量发展若干政策的通知》有关精神，为我国制造强国和网络强国战略提供人才支持，提高学生自主创新意识和工程实践能力，工业和信息化部人才交流中心决定举办第十五届蓝桥杯全国软件和信息技术专业人才大赛——项目实战赛。大赛连续四年入围中国高等教育学会“全国普通高校大学生竞赛排行榜”竞赛项目榜单。现将项
docker怎么端口映射 Lance_mu docker 容器运维
1、默认固定的端口#Web服务器：WebApache或Nginx通常使用80端口HTTP：80HTTPS：443#数据库服务器MySQL：3306PostgreSQL：5432MongoDB：27017Redis：6379#邮件服务器SMTP：25POP3：110IMAP：143#其他服务SSH：22FTP：21DNS（域名解析）：53代理服务器Squid：3128版本控制系统Git：9418(S
python转码 Desamond python 开发语言
转码在许多场景中都有应用，以下是一些常见的场景：网页开发：当用户在网页上输入文本时，可能需要将特殊字符（如空格、引号、特殊符号等）进行转码，以防止这些字符对URL或HTML代码产生干扰。文件名处理：在处理文件名时，可能需要将特殊字符进行转码，以避免文件名被错误地解析或显示。数据传输：在数据传输过程中，为了确保数据的完整性和正确性，可能需要将数据中的特殊字符进行转码。数据存储：在数据库或数据存储中，
排序算法太多？常用排序都在这了，一篇文章总结和实现所有面试会考的排序算法（基于Python实现）宇宙之一粟不归路之Python #IT面试题收集与总结数据结构与算法算法数据结构排序算法 python java
文章目录排序算法1.常见的排序算法1.1选择排序1.1.1思想1.1.2实现**1.1.3选择排序分析**1.2冒泡排序**1.2.1思想****1.2.2实现****1.2.3冒泡排序分析**1.3插入排序**1.3.1思想****1.3.2实现****1.3.3插入排序分析**1.4归并排序☆☆★**1.4.1思想****1.4.2实现****1.4.3归并排序分析**1.5快速排序☆★★**
【数据结构】实验一实现顺序表各种基本运算的算法张鱼·小丸子数据结构实验 c++数据结构
题目：实现顺序表各种基本运算的算法要求：1、建立一个顺序表，输入n个元素并输出；2、查找线性表中的最大元素并输出；3、在线性表的第i个元素前插入一个正整数x；4、删除线性表中的第j个元素；5、将线性表中的元素按升序排列；6、将线性表中的元素就地逆序（只允许用一个暂存单元）；#include#defineSIZE1000usingnamespacestd;typedefstruct{int*a;//
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源