大学生调查研究报告--都是新兴技术,,,国内发展实在是很落后的,,,
简单的说,,就是一些资料的整理了,,,
1.调查背景
网络的诞生无疑已经给人们带来了无以伦比的快捷,人们已经离不开网络了。随着技术的不断研发和升级换代,网络的功能运用越来越多,覆盖面同样越来越广。现在已经成为通信功能、资讯功能、综合服务功能和其它社会功能的全面应用。网络的飞速发展的确极大的改变了人们的生活,而既然网络是服务人类的存在,那么随着人类需求的不断增加和改变,网络本身也一定需要大的变革去适应满足人类的需求。
而语义网(Semantic Web)就是一项未来网络的去满足人类新需求的新技术。
语义网是对未来网络的一个设想,现在与Web 3.0这一概念结合在一起,作为3.0网络时代的特征之一。简单地说,语义网是一种未来的一种智能网络,它不但能够理解词语和概念,而且还能够理解它们之间的逻辑关系,可以使交流变得更有效率和价值。
语义网就是能够根据语义进行判断的智能网络,实现人与电脑之间的无障碍沟通。它的核心是:通过给万维网上的文档添加能够被计算机所理解的语义“元数据”,从而使整个互联网成为一个通用的信息交换媒介。它好比一个巨型的大脑,智能化程度极高,协调能力非常强大。在语义网上连接的每一部电脑不但能够理解词语和概念,而且还能够理解它们之间的逻辑关系,可以干人所从事的工作。它将使人类从搜索相关网页的繁重劳动中解放出来,把用户变成全能的上帝。语义网中的计算机能利用自己的智能软件,在万维网上的海量资源中找到你所需要的信息,从而将一个个现存的信息孤岛发展成一个巨大的数据库。
从以上来看,语义网的发展无疑是未来Web 3.0发展和的必须的。语义网的建立极大地涉及了人工智能领域的部分,这显然与web 3.0智能网络的理念不谋而合,因此语义网的初步实现也作为web 3.0的重要特征之一,但是想要实现成为网络上的超级大脑,需要长期的研究,这意味着语义网的相关实现会占据网络发展进程的重要部分,并且延续于数个网络时代,逐渐转化成“智能网络”。
因此通过调查研究了解语义网的发展变得十重要。
2.调查目的及内容
通过调研语义网的发展现状,了解语义这一门新兴技术,来分析语义网未来的发展。
主要从语义网的提出到发展,从一些优秀的探索性产品上了解语义网的现状。以现有的资料,了解语义网的特点、运作原理及结构体系。而不是从技术方面去研究(还没那种水平。。。。)。
内容:
语义网的提出
国外的优秀发展案例
语义网的特点
看语义网的前景
3.调研的基本情况
语义网概念的提出
语义网的概念是由万维网联盟的蒂姆·伯纳斯-李(TimBerners-Lee)在1998年提出的一个概念,实际上是基于很多现有技术的,也依赖于后来和text-and-markup与知识表现的综合。其渊源甚至可以追溯到20世纪60年代末期的Collins、Quillian、Loftus等人的研究,还有之后70年代初R.F.Simon、R.C.Schamk、Minsky等人陆续提出的一些理论上的成果。其中Simon在进行自然语言理解的应用研究时提出了语义网络Semantic Network(不是现在的Semantic Web)的概念。当时人们甚至发明了以逻辑为基础的程序设计语言Prolog。
蒂姆·伯纳斯-李在2006年普林斯顿大学演讲和后期接受媒体采访时公开表示,他最初将这种智能网络命名为语义网或许不够贴切,也许更准确的名称应该是数据网(Data Web)。
国外的优秀发展案例
腾讯科技讯曾经报道,据国外媒体报道,每年读写网(ReadWriteWeb)都会从各个领域中评选出十佳产品或程序。2010年,十大语义网产品和应用的评选拉开了2010“最佳”系列产品评选的序幕。
2010年,读写网从语义网的新创公司中选出了五个产品,从大公司里挑出了五项互联网应用。这些新创公司代表了语义网发展的前沿趋势。随着用户量的增长及科技的创新,今年的语义网产品对互联网产生了一定的影响。读写网所挑选的公司为语义技术的大规模应用提供了最好的例证,其中包括Facebook、谷歌及英国广播公司BBC等。
虽然很多人认为语义网(Semantic Web)这个名词应仅用于已被W3C认可的技术(W3C全球万维网联盟),比如说RDF(资源描述框架,W3C提出的一组标记语言的技术标准)和SPARQL(W3C的RDF数据工作组设计的一种查询语言和协议,用于RDF数据的查询),但是我们有时也会互换使用“Semantic Web”(语义网)和“Semantictechnology”(语义技术)这两个术语。事实上,读写网所挑选出的十大应用技术中有相当一部分并没有获得W3C的认可,亦或已经在某种程度上得到调整,例如Facebook对RDFa的应用。因此,我们选择了将“Semantic Web”这个术语应用于更宽泛、包容更广阔的意义中。简单来说,语义网产品是将意义与语境融入到数据中去的产品。
以下是2010年十大语义网产品列表(排名不分先后):
Freebase
2010年7月,Google收购了一家语义技术领先公司Metaweb。Metaweb运营着一个开放的语义信息数据库Freebase。Freebase和维基百科类似,不同的是,它完全专注于结构化数据及个人用户可行性操作。
Google此前已和Freebase建立合作关系,引入Freebase的信息,在谷歌新闻里提供智能搜索结果。在完成对Metaweb的收购后,谷歌现在可以更充分地利用Freebase的工具和数据,尤其是在基本的Web搜索结果范畴。
Freebase也是去年语义网十大产品之一,能被Google收购,正是其发展潜能的证明。
GetGlue
对GetGlue来说,2010年是个转折点。在GetGlue网上,用户在观看电视节目、阅读书籍、听音乐时候都可以“签到”。去年十一月,GetGlue改换品牌名称,并启用新网站。一夜之间,它从一个名为Blue Organizer的浏览器插件摇身变为名为“GetGlue”的目标网站。随后不久,它又推出了移动应用程序,用户在观看电视时或者在娱乐场所都能登录应用GetGlue。
品牌变更给GetGlue带来良好的效应。今年,GetGlue的用户量呈现出强劲的增长势头,截至九月末用户人数已超过60万。
2010年iPad的问市激起了应用软件界新一波的革新浪潮。Flipboard是一款专为iPad开发的杂志阅读应用程序。很少有创业公司能像Flipboard如此充分地利用触摸屏用户界面,为客户创造无与伦比的体验。
原来Flipboard不仅外观精美,而且采用了语义技术。
2010年7月份,Flipboard收购了语义技术新创公司Ellerdale,其智能资料剖析算法在此之前已被应用于实时搜索引擎的创建及趋势追踪。Ellerdale公司的技术被Flipboard用于设计更具个性化的实时体验,能够为您选择重要的最新社会新闻,然后以您熟悉的酷似杂志的布局呈现出来。
Hunch
Hunch最初提供问答(Q&A)服务,今年八月它进行了重新定位,将自己定义为一个提供个性化服务的产品:是能向你展示你喜欢的电影、书籍、度假地点及其他类似项目的推荐引擎。该公司的目标是“将互联网上的每个人和每个目标进行比配,即使是一个产品、一项服务、一个人。”
共同创始人Caterina Fake十月份透露,Hunch通过另一种搜索方式即决策树模型,为用户提供更多个性化信息。
Apture
Apture是一家提供语义语境搜索引擎服务的公司,它一直保持着强劲发展的势头(去年它也位列十大语义网产品之一)。今年八月,Apture推出了一款新插件AptureHighlights,能让用户深入了解在网络上任一网页上发现的主题。
早些年前,当我们第一次关注Apture时,它还只是一家网络服务公司,要求发布者上传弹出式窗口链接时自我选择是否加载多媒体。随着八月份Apture Highlight的问世,Apture现已消除此项限制。一切均自动化,此插件几乎处处可用。
2010年4月份Facebook公布了一个大规模的新平台Open Graph(开放图谱),这成为语义网本年度最重大的新闻。Open Graph通讯协定的预期目标是让发布者能够将个人网页整合到社交图中去。实质上,现在每个网页都可以成为一个Facebook的社交图“对象”(社交图是Facebook对于人们在其网络系统中如何联系彼此所用的专业术语。)这意味着在所有社交网用户个人资料页、博客文章、搜索结果、Facebook个人主页信息流等等中的网页都可以被引用和相关联。
Open Graph是一个涉猎广泛的平台,包括诸如“赞”按钮和为发布商提供的插件等。它还包括一个简单的、基于RDF的标记。这就要求发布者的每个发布项至少包含4个元数据属性:名称、类型、图像、网址,还有一些额外的属性,如:域名和描述,可能有选择地进行补充和说明。
Google Squared
在网络搜索技术中人们梦寐以求的目标是能够以自然的语言提出一个简单的问题,并得到一个简单的答案。2010年5月份,Google宣布将GoogleSquared添加到其搜索结果中。2009年推出的Google Squared为Google的搜索结果添加了额外的信息。
Google通过两个层面将该功能添加到其传统搜索结果中:首先,简单的查询,如:凯瑟琳·泽塔琼斯的出生日期,这将在搜索结果中引出有用的数据:通过点击基于Squared提供的结果的“显示来源”,来源列表会向您显示Google是如何找到这个答案的。
其次,Google Squared还被用于为Google工具条(2010年搜索巨头的另一创新)增加“不一样”的新功能:此功能提供了相关搜索,列出您可能感兴趣的清单,由您确定当前的搜索关键词。
Google也通报了RichSnippets功能上的增强,Rich Snippets功能同样也为谷歌的搜索结果增添了新信息——点评类数据。
Best Buy
2010年的热议主题之一是语义网技术越来越多的被Facebook和Google这类大型商业公司所用。美国领先的零售商百思买(Best Buy)是另一个在2010年凭借运用语义技术给人们留下深刻印象的大公司。具体来说,Best Buy采用了RDFa的语义网标记语言,从而向网页中加入语义。
BestBuy.com首席网站开发工程师Jay Myers2010年早些时候接受读写网采访时说,使用语义技术的主要目标是提高BestBuy产品和服务的知名度。通过使用RDFa标记如商店名称、地址、商店营业时间和地理数据的数据,搜索引擎能够更容易的确定每个组件数据,从而将它们投入语境。Myers告诉我们,语义技术的使用,使得交易量增加,而他们也能更好的服务于客户。
Data.gov.uk
2010年1月,由英国政府支持的Data.gov.uk发布非个人数据采集应用,可供软件开发商使用。半年后,美国政府推出了Data.gov,但是从一开始这个网站就拥有三倍以上的数据。发布时,Data.gov.uk已有近3000套数据集可供开发商用于混搭。到今年-年底,数据集已超过4600。
Data.gov.uk是链接数据库的亮点之一。组织或政府向网络上传数据时,以能够被再次使用和建立的形式进行上传。链接数据库仅是广泛语义网发展的一小子集。
BBC世界杯网
2010年体育界的盛事就是被媒体广泛报道的南非世界杯。而BBC2010世界杯网站采用“动态语义发布”技术来提升加强其每日世界杯报道。
该网站有700多个专题网页,都由一个语义发布框架所支持。它包含一个综合本体(即一个概念图),动态输出自动化元数据驱动网页。这是一个让人印象深刻的实证:一个大型的主流的网站是怎样增加意义及结构的?
语义网的特点
语义网的基本特点
内容的可获取性,即基于Ontology(本体,下同)[2] 而构建的语义网网页目前还很少;
本体的开发和演化,包括用于所有领域的核心本体的开发、开发过程中的方法及技术支持、本体的演化及标注和版本控制问题;
内容的可扩展性,即有了语义网的内容以后,如何以可扩展的方式来管理它,包括如何组织、存储和查找等;
多语种支持;
本体语言的标准化。
语义网的先进性
语义网不同于现存的万维网,其数据主要供人类使用,新一代WWW中将提供也能为计算机所处理的数据,这将使得大量的智能服务成为可能;语义网研究活动的目标是“开发一系列计算机可理解和处理的表达语义信息的语言和技术,以支持网络环境下广泛有效的自动推理”。
目前我们所使用的万维网,实际上是一个存储和共享图像、文本的媒介,电脑所能看到的只是一堆文字或图像,对其内容无法进行识别。万维网中的信息,如果要让电脑进行处理的话,就必须首先将这些信息加工成计算机可以理解的原始信息后才能进行处理,这是相当麻烦的事情。而语义网的建立则将事情变得简单得多。
例如,某天早上你突然想去可可西里旅游,于是你打开电脑,连通语义网,输入“预订今天下午两点到六点之间任意时刻的到可可西里的飞机票”,此刻你的计算机代理将先与你所住地点航空公司的代理进行联系,获得符合你要求的飞机票信息,然后联系航空公司的订票代理,完成订购。你不必像现在这样上网查看时间表,并进行拷贝和粘贴,然后打电话或在线预订机票和宾馆等,安装在你计算机上的软件会自动替你完成上述步骤,你所做的仅仅是用鼠标按几个按钮,然后等着送飞机票的人上门甚至直接去机场登机就可以了。又或者你在使用搜索引擎时,语义网将给每个链接的内容贴上标签,分门别类的详细描述哪句是作者、哪句是标题,或者是直接判断其中内容的类型。这样,如果你在搜索引擎里输入“老舍的作品”,你就可以轻松找到老舍的作品,而不是关于他的文章。
语义网与万维网的差异
一、面向的对象不同
目前的万维网主要使用HTML表达网页内容。使用HTML标记的网页的确可以表达一些控制网页显示格式之类的信息,从而使人们认为计算机真的可以“理解”我们的意图。但实际上HTML仅注重文本的表现形式,如字体颜色、大小、类型等,而不考虑文本的具体内容与含义。虽然万维网上有一些自动的脚本程序可以帮助人们实现一部分功能,但在开放式的网络环境中,它们并不能很好地用于计算机之间的交互。因此目前我们所使用的万维网主要是供“人”阅读和使用的。而语义网则是要在万维网之上加入一些可以被计算机“理解”的语义信息,它在方便人们阅读和使用的同时,也方便计算机之间的相互交流与合作。因此,万维网面向的对象主要是“人”,而语义网面向的对象则主要是“机器”。
二、信息组织方式不同
由于二者面向的对象不同,因此在信息组织方式上自然会存在很大的差异。万维网在组织信息资源时主要以“人”为中心,按照人们的思维习惯和方便性组织网络信息资源。语义网在组织信息资源时则必须兼顾计算机对文本内容的“理解”以及它们之间的相互交流和沟通。
三、侧重点不同
万维网侧重于信息的显示格式和样式,而不关心所要显示的内容。例如对于比较重要的信息,万维网可能会在其显示上以大字体、或颜色鲜明的字体表示。而语义网则更加侧重于信息的语义内容,对具有特定意义的文本必须进行一定的标注或解释。
四、主要任务不同
万维网主要是供人阅读、交流和使用的,其主要任务就是信息发布与获取。通过在网络上发布或获取信息来达到共享和交流的目的。语义网的主要任务则是计算机之间的相互交流和共享,从而使计算机可以代替人们完成一部分工作,使网络应用更加智能化、自动化和人性化。
五、工作方式不同
语义网与万维网面向的对象不同,它们的工作方式自然也有所不同。万维网主要面向“人”,因此其大部分工作都是由人来完成的,包括信息的收集、检索、整理、排序和分析等等。而语义网通过加入一些可以被计算机“理解”的语义信息,则可以把人从上述各类繁琐的工作中解脱出来,利用“智能代理”帮助完成上述的大部分工作。一个典型的例子就是信息检索,利用智能搜索代理,语义网将提供给人们真正需要的信息内容,而不像现在的搜索引擎那样输出数以万计的无用的搜索结果。
语义网的具体实现形式
一、 数据网络的实现
通过一套统一的完善的数据标准对网络信息进行更彻底更详细的标记,使得语义网能够精准的识别信息,区分信息的作用和含义
要使语义网搜索更精确彻底,更容易判断信息的真假,从而达到实用的目标,首先需要制订标准,该标准允许用户给网络内容添加元数据(即解释详尽的标记),并能让用户精确地指出他们正在寻找什么;然后,还需要找到一种方法,以确保不同的程序都能分享不同网站的内容;最后,要求用户可以增加其他功能,如添加应用软件等。
语义网的实现是基于可扩展标记语言(标准通用标记语言的子集、外语缩写:XML)和资源描述框架(外语缩写:RDF)来完成的。XML是一种用于定义标记语言的工具,其内容包括XML声明、用以定义语言语法的DTD (document type declaration文档类型定义)、描述标记的详细说明以及文档本身。而文档本身又包含有标记和内容。RDF则用以表达网页的内容。
例如,某天早上你突然想去可可西里旅游,于是你打开电脑,连通语义网,输入“预订今天下午两点到六点之间任意时刻的到可可西里的飞机票”,此刻你的计算机代理将先与你所住地点航空公司的代理进行联系,获得符合你要求的飞机票信息,然后联系航空公司的订票代理,完成订购。你不必像现在这样上网查看时间表,并进行拷贝和粘贴,然后打电话或在线预订机票和宾馆等,安装在你计算机上的软件会自动替你完成上述步骤,你所做的仅仅是用鼠标按几个按钮,然后等着送飞机票的人上门甚至直接去机场登机就可以了。又或者你在使用搜索引擎时,语义网将给每个链接的内容贴上标签,分门别类的详细描述哪句是作者、哪句是标题,或者是直接判断其中内容的类型。这样,如果你在搜索引擎里输入“老舍的作品”,你就可以轻松找到老舍的作品,而不是关于他的文章。
二、具有语义分析能力的搜索引擎
如果说数据网络能够短时间通过亿万的个体实现,那么网络的语义化智能化就要通过人类尖端智慧群体的努力实现。研发一种具有语义分析能力的信息搜索引擎将成为语义网的最重要一步,这种引擎能够理解人类的自然语言,并且具有一定的推理和判断能力。
语义搜索引擎(外语:semantic search engine)和具有语义分析能力的搜索引擎(外语:semanticallyenabled search engine)是两码事。前者不过是语义网络的利用,一种信息搜索方式,而具有语义分析能力的搜索引擎是一种能够理解自然语言,通过计算机的推理而进一步提供更符合用户心理的答案。
在使用搜索引擎时,语义网将给每个链接的内容贴上标签,分门别类的详细描述哪句是作者、哪句是标题,或者是直接判断其中内容的类型。这样,如果你在搜索引擎里输入“老舍的作品”,你就可以轻松找到老舍的作品,而不是关于他的文章。
看语义网的前景
语义网的体系结构正在建设中,当前国际范围内对此体系结构的研究还没有形成一个令人满意的严密的逻辑描述与理论体系,中国学者对该体系结构也只是在国外研究的基础上做简要的介绍,还没有形成系统的阐述。
语义网的实现需要三大关键技术的支持:XML、RDF和Ontology。可扩展标记语言可以让信息提供者根据需要,自行定义标记及属性名,从而使XML文件的结构可以复杂到任意程度。它具有良好的数据存储格式和可扩展性、高度结构化以及便于网络传输等优点,再加上其特有的NS机制及XML Schema所支持的多种数据类型与校验机制,使其成为语义网的关键技术之一。目前关于语义网关键技术的讨论主要集中在RDF和Ontology身上。
RDF是W3C组织推荐使用的用来描述资源及其之间关系的语言规范,具有简单、易扩展、开放性、易交换和易综合等特点。值得注意的是,RDF 只定义了资源的描述方式,却没有定义用哪些数据描述资源。RDF由三个部分组成:RDF Data Model、RDF Schema和RDFSyntax。
主要应用技术与研究趋势
每个技术都会有科研技术和应用技术两个方面的发展。语义网是网络时代的高级智能产物,其应用广泛,自然不例外。下面将介绍主要应用技术与研究趋势。
经典的自底向上和新兴的自顶向下的方式。自底向上的方法关注于标注好的信息,使用RDF表示,所以这些信息是机器可读的。自顶向下则着重于利用现成的页面信息,从中自动抽取出有意义的信息。近年来每一种方法都有一定的发展。自底向上的方法的一个喜讯来自于Yahoo搜索引擎支持RDF与microformats的声明。这是一个对于内容发布者、Yahoo和消费者来说三赢的举措:发布者有了标注自己信息的激励,Yahoo可以更有效地利用这些信息,用户可以得到更好、更精确的结果。另一个喜讯来自于Dapper关于提供语义网络服务的声明,这项服务可以让内容发布者给现有的网页添加语义标注。可以期待的是,这种语义工具越多,发布者标注网页就会越容易。自动标注工具的发展与标注激励的增多,会使得自底向上的方法更加引人注目。尽管工具与激励都有了,但要使得自底向上的方法流行起来还是有相当的难度。事实上,今天google的技术已经可以在一定程度上理解那些非结构化的网页信息。类似地,自顶向下的语义工具关注点在于怎样处理现有的非完美的信息。这些方法主要是利用自然语言处理的技术来进行实体的抽取,这些方法包括识别文档中特定实体(与人名、公司、地点等)的文本分析技术,以及能获取特定领域信息的垂直搜索引擎。
自顶向下的技术关注于从非结构化的信息中获得知识,但它同样可以处理结构化的信息,自底向上的标注技术越多,自顶向下方法的性能就越能得到提高。在自底向上的标注方法中,有几种候选的标注技术,它们都很强大,对它们的选择需要在简单性及完全性之间作一个权衡。最完备的方法是RDF:一种强大的基于图的语言,用于表示事物、属性及事物间的关系。简单地来说,你可以认为RDF是这样的一种语言,它通过这样的方式来表达事实:Alex IS human (类型表达),Alex HAS a brain (属性表达),and Alex IS the father of Alice,Lilly,and Sofia (关系表达)。RDF很强大,但因为它是以高度递归、精确与数学化而著称的,同时它也是很复杂的。当前,大多RDF的使用都是为了解决数据的互通性。例如,医学组织使用RDF来表述染色体组数据库。因为信息被标准化了,所以,原来孤立的数据库就可以被一起查询并相互比较了。一般说来,除了语义方面的意义,RDF最主要的好处在于实现互通性与标准化,特别是对于企业来说(下文有论述)。Microfomats提供了一个简单的方法――CSS风格-―来给现有的HTML文档添加语义标记,简洁的meta数据被嵌入到原有的HTML文档中。比较流行的Microformats标签包括hCard:描述个人及公司联系信息;hReview:添加到评论页的meta信息;与hCalendar:描述事件的标签。Microformats因它的简单而得到流行,但它的能力仍然是很有限的。例如被传统的语义团体认为是很必要的层次结构的描述,它就做不到。此外,为了使得标记集最小化,难免地它们表达的意思就显得比较模糊。这就引出了另外一个问题:把标签嵌入到HTML文档中是不是一种合适的做法?然而,虽然仍存在很多的问题,Microformats还是因为它的简单而广受青睐,像Flickr,Eventful,LinkediIn及其它很多公司都在采用microformats,特别在是Yahoo的搜索声明发布之后。还有一种更为简单的方法就是把meta数据放在meta头中。这种方法已经在一定程度上被使用,可惜的是使用得还不是十分广泛。纽约时报最近为他们的新闻页面启动了一个标注扩展,这种方法的好处已经在那些主题或事件页面中显现出来。例如,一个新闻页面可以通过一组关键词来标识:地点、日期、时间、人物与类别。另一个例子是关于书的页面,已经在页面的meta头里加入了书本的信息:作者、ISBN与书的类别。尽管所有这些方法不尽相同,但相同之处是它们都是很管用的。越多的网页被标注,就会有越多的标准会被实现,同时信息也会变得更为强大与更易于得到。
关于语义网的讨论中,在用户与企业的关注点是不一样的。从消费者的立场来说,我们需要一个杀手级的应用(killer app),可以给用户传递实在而简单的价值。因为用户只会关注产品的实用性,而不会在乎它建立在什么技术之上。问题在于,直到目前为止,语义网的关注点更多的都还停留在理论层面,如标注信息以使得机器可读。我们可以给出这样的承诺:一但信息都被标注,网络就会变成一个大型的RDF数据库,大量激动人心的应用也会应运而生。但也有怀疑者指出,首先你必须得达成那样的假设。
已经有很多基于语义网的应用,如通用及垂直搜索引擎、文本助理工具、个人信息管理系统、语义浏览工具等等,但在它们为大众所接受之前,还有很长的路要走。即便这些技术成功了,用户也不会有兴趣知道那背后使用了些什么技术。所以说在用户层面推广语义网技术是没什么前景的。
企业就不一样了,第一,企业比较习惯于技术方面的论调,对于它们来说,利用语义技术可以增加产品的智能程度,从而形成市场价值。“我们的产品更好更聪明,因为我们使用语义网”,听起来这对企业来说是一个很不错的宣传。
从企业层面来说,RDF解决了数据的互通性标准的问题。这个问题其实在软件行业的早期便已出现,你可以忘掉语义网,只把它看作是一个标准协议,一个使得两个程序可以互通信息的标准。这对企业来说无疑是极具价值的。RDF提供了一个基于XML的通讯方案,它所描述的前景使得企业并不在乎它的复杂性。但还存在着一个扩展性的问题,跟已经普及优化的关系型数据库不同,基于XML的数据库并没有普及,这归咎于其可扩展性与查询能力。就像九十年代末的对象数据库一样,基于XML的数据库承载了太多的期望,让我们拭目以待。
语义API是随着语义网的发展而发展的,这类网络服务以非结构化的文本作为输入,输出一些实体与关系。例如路透社的Open Calais API,这项服务接受原始文本的输入,返回文本中的人名、地点、公司等信息,并在原文中加以标注。另一个例子是TextWise的Hacker API,该公司还提供了一百万美元的悬赏,以奖励基于它的API的最好的商业语义网应用。这个API可以把文档中的信息分为不同的类别(称为语义指纹),输出文档中的实体与主题。这点和Calais的很相似,但它还提供了一个主题的层次结构,文档中的实际对象是结构中的叶节点。再一个例子来自于Dapper,那是一个有助于从无结构的HTML页面提取结构化信息的网络服务。Dapper的工作依赖于用户在页面上为对象定义一些属性,比如,一个图片出版商会定义作者、ISBN和页数的信息在哪里,然后Dapper应用就可以为该站点创建一个识别器,之后就可以通过API来读取它的信息。从技术的角度来看,这似乎是个倒退,但实际上Dapper的技术在实际当中非常有用。举个典型的情景为例,对于一个并没有专门API可以读取其信息的网站,即便是一个不懂得技术的人都可以在短时间内用Dapper来构造一个API。这是最强大、最快捷的把网站变为网络服务的途径。
可能语义网发展的最初动机就是因为很久以来搜索的质量都已经很难再得到提升。目前google等的检索方式是把WWW上的信息筛一些出来抽到自己的数据库,这样会导致搜索一个词出现无数无关的网页。语义网试图消灭网页(是否留下网页无关紧要),只留下数据之间的联系。用户只通过自己的终端访问数据的各种版本。这样网页上无关的信息就不会出现。另一个好处是通过终端直接筛选出有用的信息。2009年出现了一个很重要的应用叫DBpedia,它把wiki(蟹)百科上的比较结构化的信息自动制作成infobox。生成了一个百科全书式的本体(词语间关系)。并把许多语义网的应用连接了起来。如果语义网可以滤除无关的信息,那么就说明这个网络已经能够理解你的确切需要了!!!已经能够通过表相已理解实质了。
语义网的前提是数据的公开化和结构化,以提取数据间的关系。关于对页面语义的理解能提高搜索质量这一点假设也已经被证实。语义网搜索两个主要的竞争者Hakia与PowerSet都已经做出不少的进步,但仍然不足够。因为,基于统计的google算法,在处理人物、城市与公司等实体时表现得与语义技术同样的好。当你提问“法国总统是谁”时,它能返回一个足够好的答案。越来越多人意识到对搜索技术边缘化的改进是很难击败google的,因而转向寻找语义网的杀手级应用。很有可能,理解语义对于搜索引擎是有帮助的,但就此并不足以构建一个更好的搜索引擎。充分结合语义、新颖的展示方式与对用户的识别能提升下一代搜索引擎的搜索体验。另有一些方法试图在搜索结果上应用语义。Google也在尝试把搜索结果分为不同的类别,用户可以决定他们对哪些类别感兴趣。搜索是一场竞赛,很多语义公司都在追逐其中。也许会有另一种提高搜索质量的可能:文本处理技术与语义数据库的结合。下面我们即将谈到。我们已经看到越来越多的文本处理工具进入消费市场。像Snap、Yahoo Shortcuts或SmartLinks那样的文本导航应用可以“理解”文本与链接中的对象,并附加相应的信息于其上。其结果是用户根本不需要搜索就可以得到对信息的理解。让我们想得更远一些,文本工具使用语义的方式可以更为有趣。文本工具不再解析用户在搜索框里输入的关键词,而是依赖于对网络文档的分析。这样对语义的理解会更为精确,或者说减少猜测性。随后文本工具给用户提供几类相关的结果供选择。这种方式从根本上不同于传统的把大量文档中得到的正确结果一起堆放在用户面前的方式。同样有越来越多的文本处理工具跟浏览器结合起来。自顶向下的语义技术不需要发布者做任何事情,因而可以想像上下文、文本工具可以结合在浏览器里。Firefox的推荐扩展页里提供了很多的文本浏览解决方案,如Interclue,ThumbStrips,Cooliris与BlueOrganizer等。
语义数据库是标注型语义网应用的一个发展方向。Twine正在beta测试阶段,它着眼于建立一个关于人物、公司、事件、地点的私人知识库,数据来源为各类论坛的非结构化内容,这些内容可通过书签、邮件或手工的方式进行提交。这项技术仍有待成熟,但它所能带来的好处显而易见。可以意想的一个基于Twine的应用为个性化的搜索,通过个人的知识库来对搜索结果进行过滤。Twine底层的数据表示方式是RDF,可以开放给其它的语义网络服务所采用,但其核心的算法,如实体提取是通过语义API的方式商业化的。路透社也提供了类似的API接口。另外一个语义数据库的先行者是一家叫Metaweb的公司,它的产品的Freebase。从它所展现的形式来看,Freebase只是一个基于RDF的更结构化的wikipedia翻版。但是Freebase的目标是建立一个像wikipedia那样的世界信息库,这个信息库的强大之处在于它可以进行精确的查询(就像关系型数据库那样)。所以它的前景依然是更好的搜索。但问题在于,Freebase怎样保持与世界信息同步俱进?google每天对网络文档进行索引,可以随着网络发展而发展。Freebase现在的信息仅来自于个人编辑及从wikipedia或其它数据库中抓回的数据。如果要扩展这个产品,就必须完善从全网络获取非结构化信息、解析并更新数据库这一处理流程。保持与世界同步这一问题对所有数据库方法都是一种挑战。对于Twine来说,需要有不断的用户数据加入,而对于Freebase来说,则需要有来自不断的来自网络的数据加入。这些问题解决起来并不简单,在真正实用之前都必须要有一个妥善的处理。所有新技术的出现都需要定义一些概念和得到一些类别。语义网提供了一个很激动人心的前景:提高信息的可发现性,实现复杂的搜索,新颖的网络浏览方式。此外语义网对不同的人有不同的意义,它对于企业和对于消费者的定义是不同的,在自顶向下VS自底向上,microformatsVS RDF等不同类型中也有不同的含义。除了这些模式,我们也看到了语义API与文本浏览工具的发展。所有的这些都还处于其早期发展阶段,但都承载着改变我们与网络信息交互方式的期望。
5调研的结论
语义网将使人类从搜索相关网页的繁重劳动中解放出来。因为网中的计算机能利用自己的智能软件,在搜索数以万计的网页时,通过“智能代理”从中筛选出相关的有用信息。而不像现在的万维网,只给你罗列出数以万计的无用搜索结果。
例如,在进行在线登记参加会议4时,会议主办方在网站上列出了时间、地点,以及附近宾馆的打折信息。如果使用万维网的话,此时你必须上网查看时间表,并进行拷贝和粘贴,然后打电话或在线预订机票和宾馆等。但假如使用的是语义网,那么一切都变得很简单了,此时安装在你计算机上的软件会自动替你完成上述步骤,你所做的仅仅是用鼠标按几个按钮而已。
在浏览新闻时,语义网将给每一篇新闻报道贴上标签,分门别类的详细描述哪句是作者、哪句是导语、哪句是标题。这样,如果你在搜索引擎里输入“老舍的作品”,你就可以轻松找到老舍的作品,而不是关于他的文章。
总之,语义网是一种更丰富多彩、更个性化的网络,你可以给予其高度信任,让它帮助你滤掉你所不喜欢的内容,使得网络更像是你自己的网络。
如果语义网可以滤除无关的信息,那么就说明这个网络已经能够理解你的确切需要了,已经能够通过表相已理解实质了。
同时,语义网的高级阶段使得图书馆,售订票系统,客户管理系统,决策系统均能发挥很好的效果。譬如要出去旅行,只要把具体时间要求与自己喜爱的国内旅游类型提供给语义网支持的查询系统,那么很快相应的国内景点,最佳旅游方案与注意事项,提示以及旅行社的评价均能很快速得准备在浏览器页面上。
语义网终会把网络的高级阶段应用到世界的每一个角落,每个人均有自己的网络IP一样的身份证明.个人消费信用、医疗、档案等等全在自己的网络身份里面。同时网络社区更比现实社区更有活跃力,网络社会更有秩序、更和谐。