冷启动(cold start)问题
vote需要等待所有人,比较慢,同时打击先vote的人的积极性,因为看不到结果
对提交文档的鼓励措施
创建profile的困难
告诉朋友有意思的文件(active)
title,date,name of db,name of sender,comments by sender
In a rough survey we found that people in a workgroup of 10 people received 5-10 pointers per week. Approximately 80% of those pointers were sent out by just one person. That person thus serves a similar role to the "information mediator" we identified in
我想在隐含参数里面可以加入平均阅读时间(阅读快慢)和平均阅读量(阅读数量占总量的多少)
cf系统的要点:ease of use, contextual information(Package contextual information with hypertext links.
Existing methods for sharing references to on-line
documents are often limited to just the hypertext link,
perhaps with a few comments. Yet additional contextual
information about the name or location of the source, the
date of the document as well as knowledge of the sender's
selection biases can be used to judge the relevance of a
document prior to reading it.), flexibility
p77-konstan.pdf
怎样将CF系统整合进现有的信息系统中?
有的信息系统的新闻是很短暂的,没有一个中央存储器(???)
稀疏数据、当用户数增加时的措施
Maltz只是简单计算平均的评价,可以获得比较高的预测
usenet运行于各个操作系统,而vote和rate在各个系统之间并没有统一的标准
需要按时间先后顺序,最好先读最新的(新闻最好先新的)
THINK:最好对文章进行一下分类,各种类别的策略都有些不同
对新的文档的内容需要作出判断
对新的文档产生的预测要及时,否则可能太迟了
三个进程:prediction、rating、correlation(24小时更新一次)
THINK:对于稀疏,考虑两个人评价的文章的相似度
grouplens解决稀疏的方法:将文章按照新闻组进行分类、将用户按新闻组分类
THINK:如果用户读过该文章,那么就算感兴趣也不会再读,(考虑和已有的文章取相似度)
使用一个filter-bot模拟人进行rate,然后看哪个用户和它类似
把服务器按新闻组进行分类可以提高性能,按用户分类
将多个用户进行聚类(非层级)到prototype(原型)用户,相应的rate就反应在该原型上
grouplens的数据显示被rate的越多,那么就有越多的用户文章
resnick94grouplens.pdf
Tapestry只能对固定的site进行预测,而Grouplens的site和newsgroup是可以扩展的
Shardanand.Maes.95.pdf
Ringo
基于内容的过滤的局限:
内容需要可以分析的,比如text;不容易发现用户的新的兴趣;好的文章和坏的文章无法区分,如果他们用相同的词的话。
CF的基本思想:
需要用户文件,User Profile;将用户之间的Profile进行比较;
THINK:对于文本,可能偏好图片的多少,文章的长短等。
提供用户的音乐家分两部分:大家经常rate的和随机的,或者用户可以自己要求别的音乐家
给出了评价的公式
用户只喜欢很好的和很坏的,中间的最好不出现。
Pearson系数,-1表示有相反的爱好,0表示不相关,1表示很相似
改变了Pearson函数,由于4是爱好和不爱好的分界点,所以在了4
wei03recommender.pdf
好的推荐系统应该包含各种推荐方式、框架、技术等;在使用时各种推荐方式进行竞争向用户推荐
没有一个十全十美的推荐方法,并将持续下去。同时,各种评价方法之间不容易进行交流