在无序的互联网里提取资讯

我们的策略是过滤,方法可以是基於内容或相似用户,也可以由我们或者算法完成。

基於内容的过滤

基於内容的过滤有两种方法,基於规则和基於案例。

基於规则的方法

在这个方法里,内容被透过几项因素来判断质量,文章的主题是一个好提示,保证我们只接收到与我们相关的内容。

基於案例的方法

在这个方法里,有几项指标可以用为估计内容质量。部分文章标题往往暗示不过关的文章质量,因此我们不需要理会。

协同过滤

在协同过滤里,我们与他人共享对内容的评价,方法同样有基於规则和基於案例。

基於规则的方法

在这个方法里,我们有一些对内容反馈的机制,用来表示我们对内容质量的评价。

基於案例的方法

在这个方法里,我们会关注与我们有共同兴趣的用户,因为他们认可的内容很可能对我们有用。这个方法可以在作者和读者两个维度上应用。

作者维度

在作者维度里,如果我们发现作者的一部分内容质量高,他的其他内容很可能也有高质量。

读者维度

在作者维度里,如果我们发现其他用户认同的内容与我们的喜好高度重合,他们认同的其他内容很可能也符合我们的喜好。

人类与算法的协作

算法提供内容

互联网上的算法用以上特徵来判断内容质量并推送优质内容给我们,然後我们再从中挑选适合自己的内容。

人类提供反馈

此外,我们可以向算法提供反馈来接收更多优质内容,方法除了直接评价内容还有追踪主题和用户。

结语

内容的过滤有基於内容和协同过滤两种方式,方法可以分为基於规则和基於案例,通过不同因素判断内容质量,过程由我们和算法协力完成,最终为我们提取出优质内容。

你可能感兴趣的:(在无序的互联网里提取资讯)