标签化的兴趣及其未来

我们在计算的长期和短期兴趣,到底沉淀了哪些信息?

当前,兴趣主要被以标签的方式进行描述,当用户和产品都能够转化为标签集的时候,机器就能够利用某种策略将对应的产品通过标签匹配给用户。我们可以在策略上做的尽可能复杂,但是核心的标签的对应关系是没有发生过改变的。

因此,一个不得不面对的问题是,用户的兴趣在标签中到底沉淀了什么?换句话说,我们为什么可以用标签来描述用户的兴趣?


之所以用标签来沉淀用户的兴趣,根据我的理解,主要有以下几点:



1.现实通用性:大量视频音频材料的元数据最终都可以转化为标签来进行描述。


2.可理解性:标签的含义是可以人工解释的,这就意味着我们能够在机器处理数据的过程中,人工干预这个东西。换句话说,有了标签,我们就能够判断机器的操作是对还是错,而这一点是学术界的机器学习并不关心但工业应用中非常重要的。


事实上,对于每个标签而言,人在看到的时候往往会转化为某个信息集,每个人产生的这种信息集都是不一样的,但是总有通用性。


这就意味着,我们所创建的标签,实际上就是在不同之上所找到的相同。问题到了这里,其实在讨论的就是一个服务的边界性问题了,对于用户个性化需求的满足,我们应该服务到什么程度?


当然是越深越好。


那问题就很明显了,用户描述的粒度,不应该局限在标签本身,应该深入每个标签的差异性,换句话说,要用标签来定义标签。这不仅仅是设置三级标签的问题,维度本身不应该作为信息质量的限制,也就是说,用户标签的层级关系对应于每个用户都应该是独立的,本质上这种独立性只能体现在每个用户所独有的标签系统下——换句话说——图。


从知识的角度讲,总有公用的知识体系,然而每个人都会有每个人独有的知识体系,比如有人喜欢高,有人恐高,从应用上看,喜欢不喜欢其实也是一个知识维度,树是难以存放这样的关系的,除非我们放弃“取这个人所有喜欢的事物”这么一个行为,只有图可以。


很显然,图搜索比较慢,这就更有趣了。

你可能感兴趣的:(行军令)