实例:LibraryThing 一个供超过20万来自世界各地的读书爱好者检索和标记自己个人书库的网站,是众多使用标签的网站和应用之一,标签是利用普通用户提供的关键词来进行信息组织的一种新兴方法。
1.1 标记是如何起作用的
当我们为一本书添加标签后,可以实现:
(1)创建了一种方法来根据自己的语言和兴趣浏览自己的图书收藏
(2)为图书分配多个标签,建立了多个不同的途径来找到它
(3)自己的标签成为图书群体标签池的一部分,标签将个人和群体的知识联系在一起,大家的标签合在一起构成了对每本书的一种群体共同认识。
(4)自己的标签成为一种将与其他书籍联系起来的潜在的新方法,如果使用了已有的通用标签,则加强了已存在的联系。
(5)标签可以将其他使用标签的网站上的信息联系、聚合。
1.1.1 标记系统的基础模型
(1)用户:使用标记系统的人,可以创建标签和资源;
(2)资源:用户贴标签的对象,如书籍、网页、视频、地点等;
(3)标签:用户添加的关键词,本质上是资源的元数据。其中,标签云是一种标签呈现方法,通过字体颜色或大小强调较常引用的标签,由于每个标签同时也是一个链接,因而标签云也是一种导航形式。
(4)标记系统:所有的标记都发生在某个系统的环境中,系统定义了可以出现的标记类型,包括规定谁可以标记,可以标记什么,以及可以使用何种类型的标签。
1.1.2 主要的用途:
(1)管理个人信息:如Gmail中允许用户给邮件添加label。
(2)社会化书签标注:社会化书签标注网站的用户与其他用户一起提交、分享和标记网页,多数社会化书签标注网站提供相同的核心特性集合:允许贴出链接、评论和添加标签,用户的标签将成为群体标签池的一部分,供其他用户浏览。如Del.icio.us、Ma.gnolia、CiteULike、Connotea等
(3)收集和分享数字对象:用于收集、组织、分享和标记数字对象的网站,这些数字对象可以是照片、文档、幻灯片、视频等;例如Flickr.
(4)提升电子商务用户体验:例如Etsy根据用户提交的标签生成其部分网站导航;Buzzillions.com是一个产品结构化点评网站;Amazon有一个基于对其产品所使用的标签的“顾客社区”。
(5)其他用途:ESP游戏将两个匿名的web用户配对要求他们对一张照片给出标签,进而为照片匹配上非常好的元数据;wesabe(个人财务网站)允许用户在上面标记自己的财务交易;WordPress允许用户对博客添加标签,经博客聚合工具挑选,发现博客圈的一些趋势。
1.1.3 标记的3个视角
标记处于“信息架构”、“社会化软件”、“个人信息管理”三个领域的结合点,每个领域都有各自的参照系来审视这个世界。
(1)信息架构
信息架构协会(http://www.iainstitute.org/)将信息架构定义为“信息分享环境的结构化设计”和“组织与标注web站点”、内部网、在线社区和软件,以支持可用性和可寻性的艺术与科学。信息架构师的任务通常是构建有组织的方案。来为数量众多的用户服务,他们关心的是人们如何在众多不同的场景下找到并使用信息,因此信息架构师专注于使用受控词汇、“搜索-浏览”系统和一致性的导航机制。
(2)社会化软件
社会化软件是人们用来在线交流、写作和分享的应用程序,他们着眼促进系统内部的群组交互,乐于看到对社会化应用的出人意料的使用方式。
(3)个人信息管理
1.1.4 标记的4个张力点
在较深层次上,对于分类系统的目的、经济意义和价值有不同参照系的人对标记有不同的视角,这种社会性、个性性、控制力和专业性的张力渗透到了很多对标记的讨论中,主要表现在:
1.2 标记为何重要
标记是流行的;是多面的;是社会化的(分类既是个人的,也是协作的过程);是灵活的;适用于信息流(我们沉浸在各种环境中的持续数据流中,标记具有快速、灵活和简单的特点,能给予用户最大的组织能力和最小的认知负荷,从而帮用户使自己的数据流更有意义)
2.1 标签能为你做什么——基于价值中心(value-contered)设计模型
价值中心设计基于一个简单的理念:价值来自于平衡建立系统和使用系统的两类人的目标,标记系统主要考虑体验回报(用户从标记中的所得)和投资回报(组织从应用标记中所得)
2.2 体验回报:使用标签的5个动机
(1)标签易用:简单、灵活、可扩展、可聚合
(2)管理个人信息:追踪和组织事物
(3)协作与共享:标签提供了一种被动的社会化组件让用户参与、分享和贡献,却不需要主动地与其他用户频繁交流,在某些情况下,标签使得兴趣社区能够自发形成。
(4)娱乐
(5)自我表达:标记允许用户表达关于内容的观点,并使用户的判断、观点和身份成为系统的一部分。2.3 投资回报
(1)辅助协同工作:标记是用户以资源和标签形式向公共知识库贡献自己知识的一种途径;社会化标记系统让人们通过被动协作的方式来分享想法和资源,通过向系统添加资源和标签,用户在帮助建立一个惠及每个用户的知识库;标记还提供了获取人们的知识和术语的简单途径,让人们将自己的专业技能通过他们的分享贡献有机的展示出来。
(2)获取描述性元数据:标记用户允许组织在创建元数据的过程中招募用户,以较低成本有效提供关键词;此外,通过标签元数据可以识别出新的关键词,优化搜索引擎排名或网站导航。
(3)增强可寻性:标签使信息更容易找到,可以优化搜索。
(4)增强用户参与
(5)识别模式:标签给了组织有关人们的词汇、观点和资源的使用方式,从而帮助组织理解以下模式:判断组织提供的内容是否具有持久的生命力;理解用户是否认为内容有用;提供关于用户如何使用组织的内容的信息;通过观察哪些人在进行标记,能更多地了解用户。
(6)强化现有的分类效果:标签可以帮助理解用户如何描述资源,为现有的分类工作提供补充。
(7)激发创新:数据馈送是将信息从标记系统中抽取出来的途径。
(8)让你的工作符合系统目标
1、用户
(1)身份:他们是谁
通过问卷调查、访谈、现场研究等方式来了解。
(2)成员资格:他们如何进入系统
在标记系统中,成员资格可能包含:添加资源、创建标签和查看其他人标签和资源的权限。
a. 开放注册
b. 只能通过邀请加入:新成员被现有成员邀请,通常是在应用正在测试,尚未准备好公开发布的时候用。
c. 外部条件决定:如仅限员工。
(3)流通率:对他们而言发生了什么
流通率指用户加入和离开的比率,对于标记应用,在用户离开时,需要决定是要封存他们的账户和标签还是对其他用户不可见,如果可能的话,尽可能保持离去用户的账户可见,只要不活跃即可。
(4)活跃度:他们有多么热衷
活跃度指用户发布资源和标签的频率。可以通过以下方式确定用户活跃度:从试用版或bata版开始,观察用户如何使用系统;考虑用户对其他技术的接受程度(如果用户使用过类似系统则很快就会使用标签);着眼解决用户分享和寻找信息的痛点。(5)社区:他们如何与其他用户交互
用户间的联系有:
a. 关注者:单项用户间的联系,任何一个用户都可以关注其他任何用户,如Del.icio.us
b. 联系人:用户间的双向联系,一个用户可以向另一个用户请求成为联系人,如果该用户同意,一个双向的联系就会在他们之间建立起来,如facebook
c. 群组:用户的集合,这些用户聚在一起分享有关某一特定主题的资源,一个用户可能需要管理员的许可才能进入群组。
2、资源
(1)贡献的内容:他是如何进入系统的
a. 用户贡献的资源
b. 系统资源
(2)是原始资源还是指示器:究竟什么被标记了
我们标记的资源可能是真实的文档、照片或视频等原始资源,也可能是资源所对应的一条权威数据库记录。在社会化书签标注系统中,人们标记一个书签或一个统一资源定位符,但他们的标签并没有附加在实际被标注的web页面上,而是附加在包含URL的数据库的一条记录上,我们称其为“指示器”——一条代表被标记资源的记录。原始资源和指示器之间的关键区别是:只有一个原始资源,但是可以有与标记它的人一样多的指示器。
(3)隐私:谁能看到它
主要有4种隐私策略:
a. 完全公开
b. 可配置,但默认公开
c. 可配置,但默认私有
d. 完全私有
(4)限制:什么是不允许的
a. 文件类型:例如flicker限制文件类型为图片文件,而Del.icio.us限制为链接。
b. 对象:在librarything中,人们标记图书馆里的图书
c. 内容体裁:雅虎博客限制体裁为特定类型的音频
d. 出处:例如系统可能只支持在内部网站标记文档
(5)动态性:系统的变化有多快
系统中的资源数量和变化率会影响人们使用系统的方式。如果资源是用户贡献的,则期待持续的新增数据流,而数据流流动多快则依赖于用户有多活跃;如果资源是系统的组成部分或者通过其他过程进入系统,那么数据集合的数据量和变化率可能与用户的活跃度无关。用户贡献资源的好处是资源可以同时被提交和标记,如果资源已经存在于系统中,那么用户可能就不会觉得有那么强的动机去标记了。
3、标签
(1)权限:谁可以标记什么
谁可以创建、编辑和删除标签;
可以为哪些资源创建、编辑和删除标签;
(2)实体存在:标签在哪里
a. 实体存在与文件中:标签存储在文件(或资源本身)中,它是便携式的,随文件到处移动
b. 实体存在于数据库中:标签存储于资源之外,通常是数据库中
(3)控制:应该审查标签吗
a. 监控系统:看看人们如何使用那些可能会有侮辱性的标签,我们需要理解这些标签是一种形式的滥用还是对资源的精确描述;
b.要求用户标出不恰当的标签或资源
(4)模式:理解幂律
幂律是一种“以少数元素高频出现,而大多数低频出现”为特征的分布。在标签系统中,标签的分布服从相同的模式。一旦某个标签被使用,就有很大的概率被再次使用,社会认同、推荐界面以及其他因素都会对这种效果起推动作用。
4、标记实践
5、5个常见的标记陷阱(及其解决方法)
(1)冷启动问题:推进兴趣和活跃度
解决:从试用版或beta版开始;将产品推荐给内行和组织中的活跃分子;为标记建立系统内激励(排行榜、等级);系统外激励(推广活动或竞赛)
(2)混乱的元数据:标签的纠结
问题:有明显语法问题的标签;相同标签的多个不同版本(只有细微的拼写和标点差异);标签集合中没有明显的模式
解决:a. 更改界面,使标签更加规范,例如使用标签推荐;b. 鼓励用户遵循约定,例如使用单数形式而不使用复数形式;c. 为存在于系统中的标签建立关系(如同义词),这通常需要人工介入;d. 使用标签模式搜索算法,例如flikr的集簇算法(clustering)或Del.icio.us的同现算法(co-occurrence)。
但要注意,“混乱”是一种价值判断,当与严谨的公司内部分类法或图书馆有序的分类目录相比较时,标签是混乱的,但对于任何单独的用户,他们自己的标签可能就是完美有序的。
(3)发声的少数:当某些用户剥夺了你的系统时
问题:在社会化标记系统中,很容易出现一小部分活跃的标记着主导系统的情形,例如很多热门标签都是由一个用户添加的。
解决:调整热门度算法,以使其对用户活跃度敏感。
(4)捣蛋鬼:抑制反社会的行为
问题:试图影响系统来为自己牟利的人,如垃圾信息的制造者、发布仇恨言论或色情信息等;
解决:a. 尝试使用能区别人类与机器人程序的测试;b. 给予用户忽视或阻止其他用户的选择权;c. 号召用户来帮助识别和标出捣蛋鬼。
(5)时间就是金钱:管理有限的资源
问题:标记系统的管理和维护可能会超出当时开发系统时的投资以外的时间和金钱
解决:a. 让获取用来管理系统时的数据更容易,例如设计一个看板,显示用户、资源和标签的活跃度及趋势。b. 考虑让用户来执行一些管理任务,例如librarything让用户合并标签,即有效地让两个标签成为同义词。
4.1 面向大众的元数据
1、三种元数据:描述型、管理型和结构型
(1)描述型元数据:提供有关资源的细节
(2)管理型元数据:用于管理资源集合,例如资源获取的日期、拥有资源权限的人、负责资源的人的联系信息、用于创建资源的工具信息、保存资源的格式信息等;
(3)结构型元数据:将资源与其他资源联系起来,如书籍的页码或卷号,将纸质书转化为电子文本的公司使用结构型元数据将电子词汇与其原始书页联系起来。
2、标签作为元数据的功能
如何将元数据组织成能帮助人们找到和使用信息的结构
4.2 传统分类法和受控词汇表
传统分类法和受控词汇表是定义术语之间关系的两种分类系统,这些关系可以是语义的,比如确定math和arithmetic是同义词,也可以是概念的,比如哲学与认识论的关系,它们甚至可以消除具有多种含义的术语的二义性。传统分类法和受控词汇表通过减少语言的二义性,将概念联系起来和捕捉在真实世界中观察到的物体之间的联系,来帮助我们理解和分类各种概念。
1、受控词汇表
受控词汇表是用来管理词汇含义的系统,它去除了语言中的一些二义性,一般来说,受控词汇表有利于消除多余的词汇,主要有两种受控词汇表类型:
(1)同义词环
同义词环赋予两个或多个词相等的含义,同义词有利于消除首字母缩略词与其全称之间的区别,还有助于处理同义词之间的地区差异。同义词环一个特别好的应用是调整搜索引擎,使其识别等价的术语,并为所有术语的搜索返回结果。
(2)规范文件
类似于同义词环,但其中的一个词会被识别为首选术语,这个规范术语会显示给用户,而其他术语会用作提供指向规范术语的指示器。规范文件有利于将热门术语、昵称、变种名称和缩写映射为一个官方术语。
(3)描述词汇关系的术语
同形异义词、同形异音异义词、大写异义词、上义词和下义词、部分称谓、多义词等,更多词的含义可以参考词典数据库wordnet(http://wordnet.princeton.edu/)
(4)用户生成的受控词汇表
librarything的“合并标签”特征允许用户为网站的标签创建一个规范文件。任何付费用户都可以合并或拆分两个标签,librarything也根据热门度来决定首选术语,当标签被合并时,最热门的标签后成为首选术语。合并标签遵循一个原则——合并应该只是用来消除两个标签之间的无实际意义的差别。在其他情形下,两个似乎意义相同的标签之间的细微文化差别被忽视了,这种区别的有效性留给社区自己来决定,通过给予用户合并和拆分标签的控制权,librarything允许关于标签之间差别的不间断讨论。
2、传统分类法
传统分类法确立了术语间“父-子”或“宽-窄”关系的一种受控词表,它具有典型的层级结构,能够定义词汇间的上义词-下义词、部分称谓-整体称谓关系,也可以来定义广义和狭义的概念。多数的传统分类提供了一个层级的、一物一处的模型来反映现实世界。而Amazon.com的产品分类给了我们一个“多元层次分类”的例子,在这种分类下,一个对象可以被放在分类树的多个分支上。
3、标签与传统分类的结合
(1)Esty是一个供人们买卖手工制品的电子商务网站,其为网站定义了一个顶级分类集,但子类别并未预先定义,而是基于用户列出产品时所添加的标签。在将标签转化为子类别前,由Etsy团队人工审核这些标签,这种模式确保了Etsy的导航系统在顶端级别的稳定和一致,而又允许调整子类别来适应用户的贡献。
(2)冒泡方法:用标签丰富传统分类法
工作原理:标签被添加到资源,比如一首歌,那些标签于是从几首歌中“冒出来”描述他们的父类别,比如一张专辑,专辑标签会再冒出来描述艺术家,这就在捕捉用户的描述型词语时记住了资源之间的语义关系。
实践:博客搜索引擎Technorati使标签从个人博文中冒出以描述博客;librarything在标记其书籍的时候也使用了冒泡方法,librarything 收藏中的每本书都被单独标记,librarything维护了一个作品数据库,收集了书籍的各个版本,你添加到一本书的某个具体版本的标签会被冒出到作品这一层。
4、分面
(1)分面分类是一种根据相关属性组织事物的方法,它允许根据多个维度对事物进行分类,并通过多个途径找到他们。很多人注意到相同的基本类型标签(例如人物、资源类型、地点和事件)出现在大多数标记系统里,一旦注意到这样的模式,就会很自然地将这些标签按照类型进行区分,即将他们分面。
(2)实践应用
a.Buzzillions.com:使用结构化的评论,不需要为一件产品写几个段落,而是使用标签,这些标签随后会变成导航系统的一部分,帮助其他用户找到感兴趣的产品;集成几种不同的分类法,包括传统分类、标签和分面等。
b.Mefeedia:整合了来自web的视频博客,视频博客由博主创建并使用博客技术分享的短小数字视频。
5、大众分类
(1)其他分类系统定义了术语或术语所指的概念之间的关系(广义、狭义、等价、相关),在大众分类法中,标签之间的关系是基于它们的使用模式来推断的,大众分类法的4个特征是:
a. 独立性。用户自由选择它们自己的标签。
b. 聚合。将很多用户创建的标签聚合起来就是一个大众分类,聚合指的是将所有的标签以自动化的方式拉倒一起。
c. 推断。大众分类法并不为标签设定特定种类的语义关系,标签之间的关系通过其使用来推断。这些导出关系的价值在于其基于真实用户的语言和使用模式,他们可能缺乏先前描述的语义结构的细微差别,但却根植于真实用户的行为。
d. 推断的多种方法。1)对标签进行计数,看看哪个是最热门的。2)同现:计算哪些标签是一起使用的,对任何给定的标签,计算其他标签与它一起使用的频率,同现算法粗略估计了词典中的相关关系。3)聚类算法:着眼于两个标签的同时出现,从而计算其概率,通过将具有高出现概率的标签分组,标签的聚类就被计算出来。
6、元数据生态系统中的标签
(1)元数据垃圾问题:创造元数据的人可能不服从指令、不能正确拼写发音等
(2)中等规模的问题:分类系统不能扩展,不只能对较小的、稳定的文档集合有效,但是却不能在整个web尺度上工作。
(3)速度分层问题:速度分层是关于社会的方方面面以不同速率变化的结论,元数据结构(如传统分类法)是稳定和持久的,而标签是更加快速变化和易消失的,
(4)一个生态学解决方案:标签、传统分类法和分面交互,创建新的有价值的信息结构。
1、标签云:如果标签尺寸严格按照其使用频率缩放,有些标签会很巨大,而有一些则会很渺小,根据幂律分布,通常会是一个包含大量过分渺小和少量硕大标签的标签云,因此,我们需要权衡易读性(人们能看清最小的标签吗?)和精确度(字体的尺寸能反映其频率吗?)之间进行权衡,通常缩放有两种方法:
(1)按比例缩放:注重精确度
(2)线性缩放:注重易读性
(3)分类缩放:折衷
2、扩展标签云
(1)添加基础空间:比如按字母序或使用频率让用户可以将标签云分类;
(2)显示更多数据:利用文字大小、颜色等
(3)调整时间尺度:提供多种时间维度
(4)增加更多交互:例如下钻式标签云(http://blogoscoped.com/waxy/)、弹性标签地图(http://well-formed-data.net/thesis)
3、导航标签(导航:点击链接以探索信息空间)
1、浏览一个层次结构常常意味着从更一般的类别移动到更具体的类别(或相反);浏览一个分面系统则牵涉到合并分面以限制条目个数,而标记系统是通过用户的协同努力自底向上构建起来的。
2、标记系统中的导航通常采取3种形式:
(1)为探索系统的中心点浏览
中心点浏览是指通过选择一个新的参考点(中心点)探索系统在信息空间中移动。一个标记系统有三个潜在的中心点:用户、资源和标签。我们可以以发布的用户为中心查看他们的标签和资源,也可以以任意一个标签为中心寻找具有相同标签的其他资源,也可以以资源为中心查看谁存储了它和使用了什么标签。
中心点浏览的目标是将用户引导到特定的内容,而不仅仅是给他们很多路径去发现信息,因此设置中心点时需要考虑哪个维度会给用户最大的价值。
(2)为理解系统动态的基于热门度的导航
热门度可以作为评判标记系统中资源的质量和重要性的有价值的度量标准,时间、趋势和视角是需要考虑的因素:
a.时间:幂律分布同样存在于热门度中,意味着任何处于平均水平及以下的条目要取代最热门的条目都需要花费很长时间,因此需要设定特定时间段的热度呈现,例如有史以来、一年内、本月、当日等。
b. 趋势:追踪资源或标签的热门度趋势
c. 视角:展现在不同人群中什么是热门的,例如所有人、团队或工作组、朋友或联系人、自己
d. 处理“发声的少数”问题:手动剔除、去掉极值、降低被同一用户添加多次的标签的权重(一个标签被一个用户添加十次的价值低于一个标签被十个用户添加十次)
(3)高效挖掘数据的过滤
a. 使用标签组合对信息进行过滤,过滤可以是添加标签过滤,也可以是从结果中的去除过滤,例如librarything的tagmash功能。
3、地理标记:为资源添加地理标签,例如经纬度、地名
基于地图的浏览是一种寻找资源的非常好的途径,地理标记是标签和馈送可以形成创新的良性循环的具体实例
(1)机器标签:一种约定,用于创建可以被计算机处理和理解(甚至生成)的标签
(2)实例:TagMaps
1、标记界面中的模式
根据用户动作(添加资源并标记、只标记)与资源(单个资源、批量资源)可划分为四种:
2、标签输入
(1)标签输入系统:主要差异时支持字符分隔(利用空格、逗号等)还是动作分割(标签被单个输入到文本框中并一个一个提交)
3、标签推荐
(1)用户以前用过的标签
(2)热门标签:a. 来源:可以是系统中的所有其他用户或者限定为用户的联系人或群组;b. 时间维度
(3)推荐标签:根据流行标签、最近用过的标签以及其他某些因素,用户应该考虑的标签
(4)粘滞性标签和一次性标签的使用
4、标签管理:编辑、删除、批量编辑与拆分
1、数据模型
(1)简单标记模型:用户表+资源表+标签表+资源_标签表
(2)协同标记模型:用户表+资源表+标签表+用户_资源_标签表
2、标签云缩放方法
3、开源标记插件:freetag允许将标记功能添加到几乎任何应用,freetag包含了很多有用的特征(例如相关标签)可以用来生成标签推荐系统。
附录A 案例研究:社会化书签标注
(1)Del.icio.us(https://del.icio.us/)
附录B 案例研究:媒体分享
(1)分享视频:YouTube
(2)分享图片:Flickr
(3)其他:Viddler、Facebook、SlideShare
附录C 案例研究:个人信息管理
(1)管理在线信息:Backpack和BlueOrganizer
(2)管理项目:MyInfo和Photo Gallery