楽楽Sukia

python音乐推荐系统_音乐推荐系统

音乐频道推荐业务，支持各个产品业务和策略。这里我先使用CB+CF+LR实现推荐部分，下面具体展开：

一、推荐系统流程图

CB，CF算法在召回阶段使用，推荐出来的item是粗排的，利用LR算法，可以将CB，CF召回来的item进行精排，然后选择分数最高，给用户推荐出来。后续我们可以采用矩阵分解、聚类、深度学习算法来实现对候选集合的召回。

二、推荐系统思路详解

话不多说，这里先放上代码思路：

1、数据预处理(用户画像数据、物品元数据、用户行为数据)

2、召回(CB、CF算法)

3、LR训练模型的数据准备，即用户特征数据，物品特征数据

4、模型准备，即通过LR算法训练模型数据得到w，b

5、推荐系统流程：

(1)解析请求：userid，itemid

(2)加载模型：加载排序模型(model.w，model.b)

(3)检索候选集合：利用cb，cf去redis里面检索数据库，得到候选集合

(4)获取用户特征：userid

(5)获取物品特征：itemid

(6)打分(逻辑回归，深度学习)，排序

(7)top-n过滤

(8)数据包装(itemid->name)，返回

三、推荐系统实现

3.1、数据预处理

(1)用户画像数据：user_profile.data

userid，性别，年龄，收入，地域

(2)物品(音乐)元数据：music_metaitemid，name，desc，时长，地域，标签

(3)用户行为数据：user_watch_pref.sml

userid，itemid，该用户对该物品的收听时长，点击时间(小时)

首先，将3份数据融合到一份数据中

执行python gen_base.py

1 #coding=utf-8

3 '''

4 总体思路：处理原始的数据：1、用户画像数据 2、物品元数据 3、用户行为数据5 把三类数据统一到一个文件里面，供后面cb、cf算法进行计算权重6 '''

8 importsys9

10 #找到三类原始数据文件，用户画像数据、物品元数据，用户行为数据

11 user_action_data = '../data/user_watch_pref.sml'

12 music_meta_data = '../data/music_meta'

13 user_profile_data = '../data/user_profile.data'

15 #将三类处理后的元数据放到新的文件里面，这里我们需要定一个文件名，路径

16 output_file = '../data/merge_base.data'

18 #将3份数据merge后的结果输出，供下游数据处理

19 ofile = open(output_file, 'w')20

21 #step 1. 处理物品元数据，将处理后的结果放入字典里面，key是itemid，value为物品对应的信息，为最后写入做准备

22 item_info_dict ={}23 with open(music_meta_data, 'r') as fd:24 for line infd:25 ss = line.strip().split('\001')26 if len(ss) != 6:27 continue

28 itemid, name, desc, total_timelen, location, tags =ss29 item_info_dict[itemid] = '\001'.join([name, desc, total_timelen, location, tags])30

31 #step 2. 处理用户画像数据，将处理后的结果放入字典里面，key是用户id，value是用户信息

32 user_profile_dict ={}33 with open(user_profile_data, 'r') as fd:34 for line infd:35 ss = line.strip().split(',')36 if len(ss) != 5:37 continue

38 userid, gender, age, salary, location =ss39 user_profile_dict[userid] = '\001'.join([gender, age, salary, location])40

41 #step 3. 写入最后的信息，将用户行为数据进行处理，把step1和step2得到的数据一并归纳在文件里面

42 with open(user_action_data, 'r') as fd:43 for line infd:44 ss = line.strip().split('\001')45 if len(ss) != 4:46 continue

47 userid, itemid, watch_len, hour =ss48

49 if userid not inuser_profile_dict:50 continue

52 if itemid not initem_info_dict:53 continue

55 ofile.write('\001'.join([userid, itemid, watch_len, hour, \56 user_profile_dict[userid], item_info_dict[itemid]]))57 ofile.write("\n")58

59 ofile.close()

得到类似下面数据merge_base.data

01e3fdf415107cd6046a07481fbed499^A6470209102^A1635^A21^A男^A36-45^A20000-100000^A内蒙古^A黄家驹1993演唱会高清视频^A^A1969^A^A演唱会

3.2、【召回】CB算法

(1)以token itemid score形式整理训练数据利用jieba分词，对item name进行中文分词

python gen_cb_train.py

1 #coding=utf-8

3 '''

4 总体思路：将初始化好的用户，物品，用户行为数据进行处理，目的是为了得到token，itemid，score，我们知道生成的数据里面的name，5 将itemName进行分词，得到tfidf权重，同时将desc进行分词，处理name和desc，我们在元数据中还有已经分类好的tags，tags已经切分好6 了没必要再次进行切分，只需要用idf词表查处权重即可，但是对于name、desc、tags这三个分词结果，我们对name的结果应该更加偏重一7 点，所以分别对这三类得出的分数再次进行分数权重划分，最后得到cb的初始数据8 '''

10 importsys11 sys.path.append('../')12 reload(sys)13 sys.setdefaultencoding('utf-8')14

15 importjieba16 importjieba.posseg17 importjieba.analyse18

20 #读入初始数据

21 input_file = "../data/merge_base.data"

23 #输出cb训练数据

24 output_file = '../data/cb_train.data'

25 ofile = open(output_file, 'w')26

27 #定义三类的权重分数

28 RATIO_FOR_NAME = 0.9

29 RATIO_FOR_DESC = 0.1

30 RATIO_FOR_TAGS = 0.05

33 #为tags读入idf权重值

34 idf_file = '../data/idf.txt'

35 idf_dict ={}36 with open(idf_file, 'r') as fd:37 for line infd:38 token, idf_score = line.strip().split(' ')39 idf_dict[token] =idf_score40

41 #开始处理初始数据

42 itemid_set =set()43 with open(input_file, 'r') as fd:44 for line infd:45 ss = line.strip().split('\001')46 #用户行为

47 userid =ss[0].strip()48 itemid = ss[1].strip()49 watch_len = ss[2].strip()50 hour = ss[3].strip()51 #用户画像

52 gender = ss[4].strip()53 age = ss[5].strip()54 salary = ss[6].strip()55 user_location = ss[7].strip()56 #物品元数据

57 name = ss[8].strip()58 desc = ss[9].strip()59 total_timelen = ss[10].strip()60 item_location = ss[11].strip()61 tags = ss[12].strip()62

63 #对item去重，相同的itemid不用再计算，因为都一样，这里用到continue特性，当不同的时候才继续执行下面的代码

64 if itemid not initemid_set:65 itemid_set.add(itemid)66 else:67 continue

69 #去掉重复后的itemid，然后我们进行分词，计算权重，放到字典里面

70 token_dict ={}71 #对name统计

72 for a in jieba.analyse.extract_tags(name, withWeight=True):73 token =a[0]74 score = float(a[1])75 token_dict[token] = score *RATIO_FOR_NAME76

77 #对desc进行分词，这里需要注意的是描述一般会含有name中的词，这里我们把有的词的分数进行相加，没有的放入

78 for a in jieba.analyse.extract_tags(desc, withWeight=True):79 token =a[0]80 score = float(a[1])81 if token intoken_dict:82 token_dict[token] += score *RATIO_FOR_DESC83 else:84 token_dict[token] = score *RATIO_FOR_DESC85

86 #对tags 进行分数计算

87 for tag in tags.strip().split(','):88 if tag not inidf_dict:89 continue

90 else:91 if tag intoken_dict:92 token_dict[tag] += float(idf_dict[tag]) *RATIO_FOR_TAGS93 else:94 token_dict[tag] = float(idf_dict[tag]) *RATIO_FOR_TAGS95

96 #循环遍历token_dict，输出toke，itemid，score

97 for k, v intoken_dict.items():98 token =k.strip()99 score =str(v)100 ofile.write(','.join([token, itemid, score]))101 ofile.write("\n")102

103

104 ofile.close()

得到如下数据：

翻译,4090309101,0.561911164569(最后一个是一个不是传统的TF-IDF,因为分出的词在name,desc,tag里面他的重要性是不一样的)

(2)用协同过滤算法跑出item-item数据

相似的item配对，II矩阵的形成。相似度计算，我们要用到MapReduce的框架来进行，只要是用到shuffle阶段，对map出来的结果排序，reduce进行两两配对，这里就是主要的wordcount逻辑，主要说下注意的部分：我们需要把两两分数的过滤掉，或是把itemA和itemB相同的item过滤掉，因为这部分数据没有任何意义

map阶段：

#!usr/bin/python#-*- coding: UTF-8 -*-

'''总体思路：这里需要把初始化后的结果进行map排序，为了后续两两取 pair对，所以这里我们需要进行map，其实什么也不用操作输出即可'''

importsysimportrefor line insys.stdin:

ss= line.strip().split(',')if len(ss) != 3:continuer1= u'[a-zA-Z0-9’!"#$%&\'()*+,-./:;<=>?@，。?★、…【】《》？“”‘’！[\\]^_`{|}~]+'ss[0]= re.sub(r1,'',ss[0])if len(ss[0]) ==0:continue

print ','.join([ss[0], ss[1], ss[2]])

reduce阶段：

#!usr/bin/python#-*- coding: UTF-8 -*

'''我们前面已经在pair reduce之前我们做过map操作，输出以token，item，score输出，所以排序是token排好的序

这里我们相当于求的是II矩阵，所以是根相同的token的item进行相似度计算

思路：

1、进行user统计，若相同，把相同的user的item和score放入list里面

2、不相同，开始进行两两配对，循环该list，进行两两配对，求出相似度'''

importsysimportmath

cur_token=None

item_score_list=[]for line insys.stdin:

ss= line.strip().split(',')

itemid= ss[1]

score= float(ss[2])if len(ss) != 3:continue

if cur_token ==None:

cur_token=ss[0]if cur_token !=ss[0]:#这里需要注意的是range的区间前闭后开，同时注意range中即使前闭后开，刚开始是从0即列表里面的第一个，循环到列表最后一个的前一个

for i in range(0,len(item_score_list)-1):for j in range(i+1,len(item_score_list)):

item_a,score_a=item_score_list[i]

item_b,score_b=item_score_list[j]#score = float(score_a * score_b)/float(math.sqrt(pow(score_a,2))*math.sqrt(pow(score_b,2)))

#输出两遍的目的是为了形成II矩阵的对称

score = float(score_a*score_b)if item_a ==item_b:continue

if score < 0.08:continue

print "%s\t%s\t%s" %(item_a, item_b, score)print "%s\t%s\t%s" %(item_b, item_a, score)

cur_token=ss[0]

item_score_list=[]

item_score_list.append((itemid,float(score)))for i in range(0, len(item_score_list) - 1):for j in range(i + 1, len(item_score_list)):

item_a, score_a=item_score_list[i]

item_b, score_b=item_score_list[j]#score = (score_a * score_b) / (math.sqrt(pow(score_a, 2)) * math.sqrt(pow(score_b, 2))

#输出两遍的目的是为了形成II矩阵的对称

score = float(score_a *score_b)if item_a ==item_b:continue

if score < 0.08:continue

print "%s\t%s\t%s" %(item_a, item_b, score)print "%s\t%s\t%s" % (item_b, item_a, score)

最后得到基于cb的ii矩阵

(3)对数据格式化，item-> item list形式，整理出KV形式python gen_reclist.py

1 #coding=utf-8

2 '''

3 思路：我们已经通过CB算法得到itemA，itemB，score，然后我们需要把放入到redis库，存入的方法，4 我们以itemA为key与itemA有相似度的itemB，和分数，以value的形式存入内存库5 1、创建一个字典，将key放入itemA，value 放入与A对应的不同b和分数6 2、循环遍历字典，将key加上前缀CB，value以从大到小的分数进行排序，并且相同的item以——分割，item和score间用：分割7 '''

9 importsys10

11 infile = '../data/cb.result'

12 outfile = '../data/cb_reclist.redis'

14 ofile = open(outfile, 'w')15

16 MAX_RECLIST_SIZE = 100

17 PREFIX = 'CB_'

19 rec_dict ={}20 with open(infile, 'r') as fd:21 for line infd:22 itemid_A, itemid_B, sim_score = line.strip().split('\t')23

24 #判断itemA在不在该字典里面，若不在，创建一个key为itemA的列表，把与itemA相关联的itemB和score添加进去

25 if itemid_A not inrec_dict:26 rec_dict[itemid_A] =[]27 rec_dict[itemid_A].append((itemid_B, sim_score))28

29 #循环遍历字典，格式化数据，把itemB和score中间以：分割，不同的itemB以_分割

30 for k, v inrec_dict.items():31 key_item = PREFIX +k32

33 #接下来格式化数据，将数据以从大到小排列后再格式化

34 #排序,由于数据量大，我们只取100个

35 #排好序后，我们来格式化数据

36 reclist_result = '_'.join([':'.join([tu[0], str(round(float(tu[1]), 6))]) \37 for tu in sorted(v, key=lambda x: x[1], reverse=True)[:MAX_RECLIST_SIZE]])38

39 ofile.write(' '.join(['SET', key_item, reclist_result]))40 ofile.write("\n")41

42 ofile.close()

类似如下数据：

SET CB_5305109176 726100303:0.393048_953500302:0.393048_6193109237:0.348855

(4)灌库(redis)

下载redis-2.8.3.tar.gz安装包

进行源码编译(需要C编译yum install

gcc-c++ )，执行make，然后会在src目录中，得到bin文件(redis-server

服务器，redis-cli 客户端)

启动redis

server服务两种方法：

]# ./src/redis-server

]#后台方式启动 nohup

./redis-server &

然后换一个终端执行：]# ./src/redis-cli，连接服务

接下来灌数据(批量灌)：

需要安装unix2dos(yum install unix2dos)(格式转换)

]# cat cb_reclist.redis |

/usr/local/src/redis-2.8.3/src/redis-cli --pipe 这样是会报大量异常，所以需要用下面的方式去做,完了再使用管道插入(注意redis安装目录)

unix2dos cb_reclist.redis

cat cb_reclist.redis | /usr/local/src/redis/redis-2.8.3/src/redis-cli --pipe

验证：]# ./src/redis-cli

执行：127.0.0.1:6379> get CB_5305109176

"726100303:0.393048_953500302:0.393048_6193109237:0.348855"

3.3、【召回】CF算法

(1)以userid itemid score形式整理训练数据

python gen_cf_train.py

1 #coding=utf-8

2 '''

3 总体思路：首先和cb一样，对处理完的用户元数据，物品元数据，行为数据进行cf数据准备工作，我们的目的事输出：4 user，item score，其中主要是的到用户对item的score，这里score怎么算呢，当然是用户收听的音乐的时常和总的时5 长相除的到6 '''

8 importsys9

10 input_file = "../data/merge_base.data"

12 #输出cf训练数据

13 output_file = '../data/cf_train.data'

14 ofile = open(output_file, 'w')15

16 key_dict ={}17 with open(input_file, 'r') as fd:18 for line infd:19 ss = line.strip().split('\001')20 #用户行为

21 userid =ss[0].strip()22 itemid = ss[1].strip()23 watch_len = ss[2].strip()24 hour = ss[3].strip()25 #用户画像

26 gender = ss[4].strip()27 age = ss[5].strip()28 salary = ss[6].strip()29 user_location = ss[7].strip()30 #物品元数据

31 name = ss[8].strip()32 desc = ss[9].strip()33 total_timelen = ss[10].strip()34 item_location = ss[11].strip()35 tags = ss[12].strip()36 #拼接key，为了将同一个用户对相同物品的时长全部得到，需要做个聚合

37 key = '_'.join([userid, itemid])38 if key not inkey_dict:39 key_dict[key] =[]40 key_dict[key].append((int(watch_len), int(total_timelen)))41

42 #循环处理相同用户对相同item的分数

43 for k, v inkey_dict.items():44 t_finished =045 t_all =046 #对为key进行分数聚合

47 for vv inv:48 t_finished +=vv[0]49 t_all += vv[1]50

51 #得到userid对item的最终分数

52 score = float(t_finished) /float(t_all)53 userid, itemid = k.strip().split('_')54

56 ofile.write(','.join([userid, itemid, str(score)]))57 ofile.write("\n")58

59 ofile.close()

得到如下数据：

(2)用协同过滤算法跑出item-item数据

II矩阵数据准备，归一化，取pair对，计算总和

这里我们准备redis数据分为这么几个部分，我们来一一解析一下，当然这部分的数据需要利用到MapReduce框架，进行map和reduce排序。

归一化

归一化阶段我们主要是将相同的item进行单位模计算，因为后续我们要用到cos相似度计算公式，将相同的item的分数进行平方和再开根号，最后进行单位化。

map阶段，只要将转数据换成item，user，score ，因为我们要在reduce阶段进行相同item单位化，要充分用到shuffle阶段的排序。

1 #!usr/bin/python

2 #-*- coding: UTF-8 -*-

3 '''

4 思路：转换成i，u，s的矩阵5 '''

6 importsys7

8 for line insys.stdin:9 ss = line.strip().split(',')10 if len(ss) != 3:11 continue

12 u , i , s =ss13 print '\t'.join([i,u,s])

reduce阶段，我们需要将相同item平方和相加开根号，然后再单位化计算，最后输出。

1 #!usr/bin/python

2 #-*- coding: UTF-8 -*-

3 '''

4 在map的基础上将每个item进行归一化，map已经将相同的item排好序，这里我们根据map的结果进行给先平方再开根号：5 思路：6 1、截取字符串，取出item，user，socre7 2、在for循环中进行判断，当前的item和下一个是否相同，要是相同，将相同的放到列表(user，score)列表里面，否则往下执行8 3、若不相同，循环user和score列表，计算模计算，然后再次循环，进行单位化计算9 '''

11 importsys12 importmath13

14 cur_item =None15 user_score_list =[]16 for line insys.stdin:17 ss = line.strip().split('\t')18 if len(ss) != 3:19 continue

21 item =ss[0]22 userid = ss[1]23 score = ss[2]24

25 #wordcount判断，当前和下一个是否相同，相同添加到列表，不相同进行归一化计算

26 if cur_item ==None:27 cur_item =item28 if cur_item !=item:29 #定义sum

30 sum = 0.0

31 #循环列表进行模向量计算

32 for ss inuser_score_list:33 user,s =ss34 sum += pow(s,2)35 sum =math.sqrt(sum)36

37 #单位化计算

38 for touple inuser_score_list:39 u,s =touple40 #进行单位化完成后，我们输出重置成原来的user-item-score输出

41 print "%s\t%s\t%s" % (u, cur_item, float(s /sum))42

43 #初始化这两个变量

44 cur_item =item45 user_score_list =[]46

47 user_score_list.append((userid,float(score)))48

49 #定义sum

50 sum = 0.0

51 #循环列表进行模向量计算

52 for ss inuser_score_list:53 user,s =ss54 sum += pow(s,2)55 sum =math.sqrt(sum)56 #单位化计算

57 for touple inuser_score_list:58 u,s =touple59 #进行单位化完成后，我们输出重置成原来的user-item-score输出

60 print "%s\t%s\t%s" % (u, cur_item, float(s / sum))

两两取pair对

两两取pair对，我们在map阶段，其实什么都不用做，保证输出user，itemid，score即可。

map阶段

1 #!usr/bin/python

2 #-*- coding: UTF-8 -*-

4 #在进行pair取对之前，什么都不需要做，输出就行

6 importsys7

8 for line insys.stdin:9 u, i, s = line.strip().split('\t')10 print "%s\t%s\t%s" % (u, i, s)

reduce阶段，我们需要将同一个用户下面的item进行两两取对，因为我们要形成II矩阵，就必须以user为参考单位，相反形成uu矩阵，就必须以item参考，所以将同一个用户下的item进行两两取对，并将分数相乘，就得到临时这个相似度，因为还没有对相同pair对的分数相加，这个是最后一步要做的。

1 #!usr/bin/python

2 #-*- coding: UTF-8 -*-

4 '''

5 思路：进行map排好序之后，我们的会得到相同user对应的不同item和score，这里我们主要的思路是进行相同用户两两取pair6 1、进行判断，当前用户和下一个用户是不是一样，若是不一样，我们进行两两取对，形成ii矩阵7 2、若是相同，我们将不同的item和score放入list里面8 '''

10 importsys11

12 cur_user =None13 item_score_list =[]14 for line insys.stdin:15 user,item,score = line.strip().split('\t')16

17 if cur_user ==None:18 cur_user=user19

20 if cur_user !=user:21

22 #进行两两pair，利用range函数

23 for i in range(0,len(item_score_list)-1):24 for j in range(i+1,len(item_score_list)):25 item_a, score_a =item_score_list[i]26 item_b, score_b =item_score_list[j]27 #输出两遍的目的是为了形成II矩阵的对称

28 print "%s\t%s\t%s" % (item_a, item_b, score_a *score_b)29 print "%s\t%s\t%s" % (item_b, item_a, score_a *score_b)30

31 cur_user =user32 item_score_list =[]33

34 item_score_list.append((item,float(score)))35

36 #进行两两pair，利用range函数

37 for i in range(0,len(item_score_list)-1):38 for j in range(i+1,len(item_score_list)):39 item_a, score_a =item_score_list[i]40 item_b, score_b =item_score_list[j]41 #输出两遍的目的是为了形成II矩阵的对称

42 print "%s\t%s\t%s" % (item_a, item_b, score_a *score_b)43 print "%s\t%s\t%s" % (item_b, item_a, score_a * score_b)

进行最终分数求和

我们最后的阶段是要将相同pair的分数相加才能得到两个item的相似度

map阶段，这里我们因为要将相同item对排序到一起，就要将pair组成一个key进行排序，将同一个partition后数据放倒一个reduce桶中，再说一下MapReduce框架中国年shuffle阶段，key只是做排序，partition只是做分区，不要搞混了。

1 #!usr/bin/python

2 #-*- coding: UTF-8 -*-

4 '''

5 sum的map中，我们需要把相同的itemA，itemB组成key，为了使相同的key能够在shuffle阶段分配到同一个reduce中，6 因为是计算item的相似度，要把相同的相加7 '''

9 importsys10

11 for line insys.stdin:12 item_a,item_b,score = line.strip().split('\t')13 key = '#'.join([item_a,item_b])14 print '%s\t%s' %(key,score)

reduce阶段主要任务就是将相同的item的pair对相加.

#!usr/bin/python#-*- coding: UTF-8 -*-

'''思路：将相同的item的分数进行相加，得到最后的相似度'''

importsys

cur_item=None

score= 0.0

for line insys.stdin:

item, s= line.strip().split('\t')if notcur_item:

cur_item=itemif cur_item !=item:

ss= item.split("#")if len(ss) != 2:continueitem_a, item_b=ssprint "%s\t%s\t%s" %(item_a, item_b, score)

cur_item=item

score= 0.0score+=float(s)

ss= item.split("#")if len(ss) != 2:

sys.exit()

item_a, item_b=ssprint "%s\t%s\t%s" % (item_a, item_b, score)

最后得到基于cf的ii矩阵

(3)对数据格式化，item-> item list形式，整理出KV形式

python gen_reclist.py

1 #coding=utf-8

2 '''

3 思路：这个处理的逻辑和CB中完全一样，不一样的是redis的key是CF开头4 '''

6 importsys7

8 infile = '../data/cf.result'

9 outfile = '../data/cf_reclist.redis'

11 ofile = open(outfile, 'w')12

13 MAX_RECLIST_SIZE = 100

14 PREFIX = 'CF_'

16 rec_dict ={}17 with open(input_file,'r') as fd:18 for line infd:19 itemid_A, itemid_B, score = line.strip().split('\t')20

21 #判断itemA在不在该字典里面，若不在，创建一个key为itemA的列表，把与itemA相关联的itemB和score添加进去

22 if itemid_A not inrec_dict:23 rec_dict[itemid_A] =[]24 rec_dict[itemid_A].append((itemid_B, score))25

26 #循环遍历字典，格式化数据，把itemB和score中间以：分割，不同的itemB以_分割

27 for k,v inrec_dict.items():28 key = PREFIX+k29 #接下来格式化数据，将数据以从大到小排列后再格式化

30 #排序,由于数据量大，我们只取100个

31 list = sorted(v,key=lambda x:x[1],reverse=True)[:MAX_RECLIST_SIZE]32 #拍好序后，我们来格式化数据

33 result = '_'.join([':'.join([str(val[0]),str(round(float(val[1]),6))]) for val inlist])34

35 ofile.write(' '.join(['SET',key,result]))36 ofile.write("\n")37

38 ofile.close()

类似如下数据：

(4)灌库

unix2dos cf_reclist.redis

cat cf_reclist.redis | /usr/local/src/redis-2.8.3/src/redis-cli --pipe

验证:

3.4、LR训练模型的数据准备

准备我们自己的训练数据

进入pre_data_for_rankmodel目录：

gen_samples.py

1 #coding=utf-8

4 '''

5 思路：这里我们经过cb，cf算法，将数据已经放到内存库，召回部分已经完成，接下来我们需要做排序模型，为逻辑回归准备样本数据6 1、处理第一次将用户元数据，物品元数据，用户行为数据一起归并的数据，也就是merge_base.data,我们在这里需要得到用户画像7 数据，用户信息数据，标签数据8 2、收取样本，标签，用户画像信息，物品信息9 3、抽取用户画像信息，对性别和年龄生成样本数据10 4、抽取item特征信息，分词获得token，score，做样本数据11 5、拼接样本，生成最终的样本信息，作为模型进行训练12 '''

14 importsys15 sys.path.append('../')16 reload(sys)17 sys.setdefaultencoding('utf-8')18

19 importjieba20 importjieba.analyse21 importjieba.posseg22

23 merge_base_infile = '../data/merge_base.data'

24 output_file = '../data/samples.data'

26 #我们这里需要再生成两个文件，一个是用户样本和item样本，因为要对实时推荐的化，必须使用这两个样本

27 output_user_feature_file = '../data/user_feature.data'

28 output_item_feature_file = '../data/item_feature.data'

30 #这里生成个类似name和id对应的字典信息

31 output_itemid_to_name_file = '../data/name_id.dict'

34 #定义函数，来获取各类数据

35 defget_base_samples(infile):36 #放待处理样本数据

37 ret_samples_list =[]38 #放user用户数据

39 user_info_set =set()40 #放物品数据

41 item_info_set =set()42 item_name2id ={}43 item_id2name ={}44

45 with open(infile, 'r') as fd:46 for line infd:47 ss = line.strip().split('\001')48 if len(ss) != 13:49 continue

50 userid =ss[0].strip()51 itemid = ss[1].strip()52 #这两个时间为了计算label而使用

53 watch_time = ss[2].strip()54 total_time = ss[10].strip()55

56 #用户数据

57 gender = ss[4].strip()58 age = ss[5].strip()59 user_feature = '\001'.join([userid, gender, age])60

61 #物品数据

62 name = ss[8].strip()63 item_feature = '\001'.join([itemid, name])64

65 #计算标签

66 label = float(watch_time) /float(total_time)67 final_label = '0'

69 if label >= 0.82:70 final_label = '1'

71 elif label <= 0.3:72 final_label = '0'

73 else:74 continue

76 #接下来装在数据，并返回结果，首先我们装在itemid2name和itemname2id

77 item_name2id[name] =itemid78 item_id2name[itemid] =name79

80 #装在待处理的标签数据

81 ret_samples_list.append([final_label, user_feature, item_feature])82

83 user_info_set.add(user_feature)84 item_info_set.add(name)85

86 returnret_samples_list, user_info_set, item_info_set, item_name2id, item_id2name87

89 #step 1 程序的入口，开始调用函数，开始处理文件，得到相应的数据

90 base_sample_list, user_info_set, item_info_set, item_name2id, item_id2name =\91 get_base_samples(merge_base_infile)92

94 #step 2 抽取用户画像信息，用户标签转换，将年龄和age进行转换，用于样本使用

95 user_fea_dict ={}96 for info inuser_info_set:97 userid, gender, age = info.strip().split('\001')98

99 #设置标签idx，将男(1)和女(0)用数剧的形式表示，权重都设置为1

100 idx = 0 #default 女

101 if gender == '男':102 idx = 1

103 #将标签和权重拼接起来

104 gender_fea = ':'.join([str(idx), '1'])105

106 #性别设置完成，我们接下来设置年龄，将年龄进行划分，0-18，19-25，26-35，36-45

107 idx =0108 if age == '0-18':109 idx =0110 elif age == '19-25':111 idx = 1

112 elif age == '26-35':113 idx = 2

114 elif age == '36-45':115 idx = 3

116 else:117 idx = 4

118

119 idx += 2

120

121 age_fea = ':'.join([str(idx), '1'])122

123 user_fea_dict[userid] = ' '.join([gender_fea, age_fea])124

125 #step 3 抽取物品特征，这里我们要用到分词，将name进行分词，并且把分词后的token转换成id，这里就需要我们来做生成tokenid词表

126 token_set =set()127 item_fs_dict ={}128 for name initem_info_set:129 token_score_list =[]130 for x,w in jieba.analyse.extract_tags(name,withWeight=True):131 token_score_list.append((x,w))132 token_set.add(x)133 item_fs_dict[name] =token_score_list134

135 #进行token2id的转换

136 token_id_dict ={}137 #这里我们要用到刚刚利用set去重过的token列表，生成tokenid的字典表

138 for s inenumerate(list(token_set)):139 token_id_dict[s[1]] =s[0]140

141 #接下来，我们需要把第三步生成的item_fs_dict中name对应的token全部替换成id，然后当作字典，为下面的全量替换做准备

142 item_fea_dict ={}143 user_feature_offset = 10

144 for name ,fea initem_fs_dict.items():145 token_score_list =[]146 for (token,score) infea:147 if token not intoken_id_dict:148 continue

149 token_id = token_id_dict[token] +user_feature_offset150 token_score_list.append(':'.join([str(token_id),str(score)]))151

152 #接下来输出到字典中

153 item_fea_dict[name] = ' '.join(token_score_list)154

155 #step 4 将第一步输出的样本数据整体替换并且替换user_feature和item_feature,并输出到文件中

156 ofile = open(output_file,'w')157 for (label,userfea,itemfea) inbase_sample_list:158 userid = userfea.strip().split('\001')[0]159 item_name = itemfea.strip().split('\001')[1]160

161 if userid not inuser_fea_dict:162 continue

163 if item_name not initem_fea_dict:164 continue

165

166 ofile.write(' '.join([label,user_fea_dict[userid],item_fea_dict[item_name]]))167 ofile.write('\n')168

169 ofile.close()170

171 #step 5 为了能够实时使用userfeatre，我们需要输出一下

172 out_put_file = open(output_user_feature_file,'w')173 for userid,fea inuser_fea_dict.items():174 out_put_file.write('\t'.join([userid,fea]))175 out_put_file.write('\n')176 out_put_file.close()177

178 #step 6 输出item_feature

179 out_file = open(output_item_feature_file,'w')180 for name,fea initem_fea_dict.items():181 if name not initem_name2id:182 continue

183 itemid =item_name2id[name]184 out_file.write('\t'.join([itemid,fea]))185 out_file.write('\n')186

187 #step 7 输出id2name的对应的字典

188 o_file = open(output_itemid_to_name_file,'w')189 for id,name initem_id2name.items():190 o_file.write('\t'.join([id,name]))191 o_file.write('\n')192 o_file.close()

得到如下数据：

3.5、模型准备

1 #-*- coding: UTF-8 -*-

2 '''

3 思路：这里我们要用到我们的数据，就需要我们自己写load_data的部分，4 首先定义main，方法入口，然后进行load_data的编写5 其次调用该方法的到x训练x测试，y训练，y测试，使用L1正则化或是L2正则化使得到结果更加可靠6 输出wegiht，和b偏置7 '''

8 importsys9 importnumpy as np10 from scipy.sparse importcsr_matrix11

12 from sklearn.model_selection importtrain_test_split13 from sklearn.linear_model importLogisticRegression14

15 input_file = sys.argv[1]16

17 defload_data():18 #由于在计算过程用到矩阵计算，这里我们需要根据我们的数据设置行，列，和训练的数据准备

19 #标签列表

20 target_list =[]21 #行数列表

22 fea_row_list =[]23 #特征列表

24 fea_col_list =[]25 #分数列表

26 data_list =[]27

28 #设置行号计数器

29 row_idx =030 max_col =031

32 with open(input_file,'r') as fd:33 for line infd:34 ss = line.strip().split(' ')35 #标签

36 label =ss[0]37 #特征

38 fea = ss[1:]39

40 #将标签放入标签列表中

41 target_list.append(int(label))42

43 #开始循环处理特征：

44 for fea_score infea:45 sss = fea_score.strip().split(':')46 if len(sss) != 2:47 continue

48 feature, score =sss49 #增加行

50 fea_row_list.append(row_idx)51 #增加列

52 fea_col_list.append(int(feature))53 #填充分数

54 data_list.append(float(score))55 if int(feature) >max_col:56 max_col =int(feature)57

58 row_idx += 1

60 row =np.array(fea_row_list)61 col =np.array(fea_col_list)62 data =np.array(data_list)63

64 fea_datasets = csr_matrix((data, (row, col)), shape=(row_idx, max_col + 1))65

66 x_train, x_test, y_train, y_test = train_test_split(fea_datasets, s, test_size=0.2, random_state=0)67

68 returnx_train, x_test, y_train, y_test69

70 defmain():71 x_train,x_test,y_train,y_test =load_data()72 #用L2正则话防止过拟合

73 model = LogisticRegression(penalty='l2')74 #模型训练

75 model.fit(x_train,y_train)76

77 ff_w = open('model.w', 'w')78 ff_b = open('model.b', 'w')79

80 #写入训练出来的W

81 for w_list inmodel.coef_:82 for w inw_list:83 print >> ff_w, "w:", w84 #写入训练出来的B

85 for b inmodel.intercept_:86 print >> ff_b, "b:", b87 print "precision:", model.score(x_test, y_test)88 print "MSE:", np.mean((model.predict(x_test) - y_test) ** 2)89

90 if __name__ == '__main__':91 main()

好了，所有的一切都准备好了，我们下来就进行推荐系统的实现

3.6、推荐系统实现

推荐系统demo流程

(1)解析请求：userid，itemid

(2)加载模型：加载排序模型(model.w，model.b)

(3)检索候选集合：利用cb，cf去redis里面检索数据库，得到候选集合

(4)获取用户特征：userid

(5)获取物品特征：itemid

(6)打分(逻辑回归，深度学习)，排序

(7)top-n过滤

(8)数据包装(itemid->name)，返回

推荐系统的实现主要就是我们前面说的这几部分，思路很明确，需要大家细细看下代码。

main.py

1 #coding=utf-8

2 importweb3 importsys4 importredis5 importjson6 importmath7

8 urls =(9 '/', 'index',10 '/test', 'test',11 )12

13 app =web.application(urls, globals())14

15 #加载user特征

16 user_fea_dict ={}17 with open('../data/user_feature.data') as fd:18 for line infd:19 userid, fea_list_str = line.strip().split('\t')20 user_fea_dict[userid] =fea_list_str21

23 #加载item特征

24 item_fea_dict ={}25 with open('../data/item_feature.data') as fd:26 for line infd:27 ss = line.strip().split('\t')28 if len(ss) != 2:29 continue

30 itemid, fea_list_str =ss31 item_fea_dict[itemid] =fea_list_str32

33 classindex:34 defGET(self):35 r = redis.Redis(host='master', port=6379,db=0)36 #step 1 : 解析请求，上面我们已经得到userid，itemid

37 params =web.input()38 userid = params.get('userid', '')39 req_itemid = params.get('itemid', '')40

41 #step 2 : 加载模型

42 model_w_file_path = '../rankmodel/model.w'

43 model_b_file_path = '../rankmodel/model.b'

45 model_w_list =[]46 model_b =0.47 with open (model_w_file_path, 'r') as fd:48 for line infd:49 ss = line.strip().split(' ')50 if len(ss) != 3:51 continue

52 model_w_list.append(float(ss[2].strip()))53

54 with open (model_b_file_path, 'r') as fd:55 for line infd:56 ss = line.strip().split(' ')57 model_b = float(ss[2].strip())58

59 #step 3 : 检索候选(match)，这里我们分两次，cb，cf

60 #将检索回来的item全部放到recallitem列表里面

61 rec_item_mergeall =[]62 #3.1 cf

63 cf_recinfo = 'null'

64 key = '_'.join(['CF', req_itemid])65 ifr.exists(key):66 cf_recinfo =r.get(key)67

68 if len(cf_recinfo) > 6:69 for cf_iteminfo in cf_recinfo.strip().split('_'):70 item, score = cf_iteminfo.strip().split(':')71 rec_item_mergeall.append(item)72

73 #3.2 cb

74 cb_recinfo = 'null'

75 key = '_'.join(['CB', req_itemid])76 ifr.exists(key):77 cb_recinfo =r.get(key)78 if len(cb_recinfo) > 6:79 for cb_iteminfo in cb_recinfo.strip().split('_'):80 item, score = cb_iteminfo.strip().split(':')81 rec_item_mergeall.append(item)82

83 #step 4: 获取用户特征,将获取的用户特征处理后放到字典里面，方便后续计算内积

84 user_fea = ''

85 if userid inuser_fea_dict:86 user_fea =user_fea_dict[userid]87

88 u_fea_dict ={}89 for fea_idx in user_fea.strip().split(' '):90 ss = fea_idx.strip().split(':')91 if len(ss) != 2:92 continue

93 idx =int(ss[0].strip())94 score = float(ss[1].strip())95 u_fea_dict[idx] =score96

97 #step 5: 获取物品的特征 ,循环遍历刚刚得到itemid，判断item是否在item特征中，若在开始进行处理

98 rec_list =[]99 for itemid inrec_item_mergeall:100 if itemid initem_fea_dict:101 item_fea =item_fea_dict[itemid]102

103 i_fea_dict =dict()104 for fea_idx in item_fea.strip().split(' '):105 ss = fea_idx.strip().split(':')106 if len(ss) != 2:107 continue

108 idx =int(ss[0].strip())109 score = float(ss[1].strip())110 i_fea_dict[idx] =score111

112 #我们得到召回item对应的特征和用户的特征，我们接下来根据模型求出来的w，b，进行打分

113 wx_score =0.114 #这里我们求个内积，wx，然后做sigmoid，先将两个字典拼接起来，然后计算分数

115 for fea, score in dict(u_fea_dict.items() +i_fea_dict.items()).items():116 wx_score += (score *model_w_list[fea])117

118 #计算sigmoid: 1 / (1 + exp(-wx))

119 final_rec_score = 1 / (1 + math.exp(-(wx_score +model_b)))120 #将itemid和分数放入列表中，方便后续排序

121 rec_list.append((itemid, final_rec_score))122

123 #step 6 : 精排序(rank)

124 rec_sort_list = sorted(rec_list, key=lambda x:x[1], reverse=True)125

126 #step 7 : 过滤(filter)

127 rec_fitler_list = rec_sort_list[:10]128

129 #step 8 : 返回+包装(return)，进行将itemid转换成name

130

131 item_dict ={}132 with open('../data/name_id.dict', 'r') as fd:133 for line infd:134 raw_itemid, name = line.strip().split('\t')135 item_dict[raw_itemid] =name136

137 ret_list =[]138 for tup inrec_fitler_list:139 req_item_name =item_dict[req_itemid]140 item_name =item_dict[tup[0]]141 item_rank_score = str(tup[1])142 ret_list.append('->'.join([req_item_name, item_name, item_rank_score]))143

144 ret = '\n'.join(ret_list)145

146 returnret147

148 classtest:149 defGET(self):150 printweb.input()151 return '222'

152

153 if __name__ == "__main__":154 app.run()

验证：

192.168.150.10:9999/?userid=00370d83b51febe3e8ae395afa95c684&itemid=3880409156

下面附上一张完整的音乐推荐系统流程结构图：

你可能感兴趣的:(python音乐推荐系统)

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
抖音乐买买怎么加入赚钱?赚钱方法是什么测评君高省
你会在抖音买东西吗?如果会，那么一定要免费注册一个乐买买，抖音直播间，橱窗，小视频里的小黄车买东西都可以返佣金!省下来都是自己的，分享还可以赚钱乐买买是好省旗下的抖音返佣平台，乐买买分析社交电商的价值，乐买买属于今年难得的副业项目风口机会，2019年错过做好省的搞钱的黄金时期，那么2022年千万别再错过乐买买至于我为何转到高省呢？当然是高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自
那个抄袭的大张伟猫小努
最近一直在追《即刻电音》这个综艺，除了觉得出场节目的音乐制作人有意思之外，也觉得有两个导师挺有趣的（另外一个就忽略了吧）。孙艺兴在上一篇文章里面已经说过了，那么这篇就说说我们的大老师，大张伟吧。其实在节目刚开始大张伟出来的时候，我以为他是属于导师里面来活跃气氛负责搞笑的，毕竟孙艺兴属于卖萌卖傻卖老实的，尚雯婕一般负责装逼耍狠的，而大张伟一贯以来上综艺的形象基本上都是蹦蹦跳跳带动气氛的。谁知道，两期
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
与陌生人链接16 盼盼_9ba9
今天早上上班到下午下班，没有见到一个陌生人，但是与一个陌生人通电话了，他是师大音乐学院副院长，钢琴专业老师，想要找他给女儿教钢琴，昨天晚上我给他打了一个电话，他说他不教我家姑娘这样级别的孩子，我家姑娘刚刚学了10个月，也就一级的水平，而且说现在他们周末都上班，也没有时间，不知道什么原因，他说让我今天给他打电话看看孩子，今天我7点给他打电话，他说还在开会，8点半给他打电话他说刚刚散会！约我明天晚上8
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
继续《时光音乐会》湘梅子
平安夜，与我无关。晚饭后陪孙子玩，直到他入睡。回家，看期待的周五《时光音乐会》。今天的庄主是郁可唯。出道十多年，竟然为影视唱了八十多首歌。她的歌声很温暖，有时还很空灵，声音处理很细腻，听起来很享受。原来《知否，知否》是她原唱，当时电视剧很火，歌我也学会了。我也喜欢她的《路过人间》歌友们谈笑风生，我这个观众也不时会心笑着。每次看完这个节目，总是意犹未尽。也只有这个节目，我先生有兴趣跟我一起看完，还总
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc