给用推荐或者分析用户兴趣,可以使用用户行为也可以利用我们网站上节目的标签进行,一个个标签可以看做对一个节目的具体描述;
可以用户通过访问不同的节目用来给用户打上兴趣标签,从而可以实现用户的标签聚类、节目推荐、标签推荐;
下面的数据以8月6日节目表和cv为例
第一步:从节目表本身观察标签情况:
总节目数:72,022,802
有标签标记的节目数:69,924,664,占比:97%,可以看出97%的节目都有标签标记
标签总数:13,586,031,平均每个标签标记5个节目
标签被使用TOP排行(节目表中聚集的标签大多由编辑给出,人为干预明显,用户标签具有一定的发散;通过标签可以很好的表明节目属性):
编号 |
标签 |
节目数 |
1 |
影视 |
3196084 |
2 |
娱乐 |
2353418 |
3 |
动画 |
731858 |
4 |
动漫 |
724920 |
5 |
搞笑 |
658204 |
6 |
音乐 |
605067 |
7 |
东方神起 |
580143 |
8 |
物流公司 |
497544 |
9 |
搬家公司 |
424254 |
10 |
货运公司 |
403647 |
11 |
MV |
400536 |
12 |
货运专线 |
353209 |
13 |
SJ |
322107 |
14 |
电视剧 |
302191 |
15 |
韩剧 |
292828 |
16 |
物流专线 |
284228 |
17 |
翻唱 |
275716 |
18 |
钢管舞 |
273313 |
19 |
原创 |
267915 |
20 |
自拍 |
237739 |
第二步:从用户本身观察标签情况(给用户打标签):
总用户数:25,985,533
有标签的用户数:25,643,716,占总用户数的98.7%,可以看出通过用户行为有98.7的用户可以通过标签标记
被使用标签TOP排行(通过用户可以看到人为标签的因素减少,用户的兴趣或需求更具体,更能反映热点):
编号 |
标签 |
用户数 |
标签使用次数 |
平均次数 |
1 |
搞笑 |
1047140 |
1946513 |
1.858885154 |
2 |
影视 |
867043 |
1810165 |
2.08774536 |
3 |
娱乐 |
797445 |
1478266 |
1.853752923 |
4 |
爱情公寓3 |
687796 |
1889974 |
2.747870008 |
5 |
孙杨 |
627486 |
896767 |
1.429142642 |
6 |
NARUTO |
503846 |
2520309 |
5.002141527 |
7 |
活佛济公3 |
490016 |
2180128 |
4.44909554 |
8 |
电影 |
470980 |
645106 |
1.369709966 |
9 |
motoluo |
448636 |
1540460 |
3.433652226 |
10 |
火影忍者 |
432686 |
1650044 |
3.813490614 |
11 |
林丹 |
410362 |
578314 |
1.409277662 |
12 |
动画 |
377562 |
904218 |
2.394886138 |
13 |
美女 |
350892 |
512759 |
1.461301483 |
14 |
恶搞 |
335593 |
510835 |
1.5221861 |
15 |
女性 |
333091 |
474276 |
1.423863149 |
16 |
HunanTV |
307853 |
605931 |
1.968247833 |
17 |
伦敦奥运会 |
292765 |
514478 |
1.757307055 |
18 |
回到三国 |
289885 |
822928 |
2.838808493 |
19 |
奥运 |
277856 |
435722 |
1.568157607 |
20 |
中国好声音 |
274940 |
426027 |
1.54952717 |
第三步:通过用户标签进行用户聚类、推荐:
进行中