Google Base与Semantic Web(语义网)的关系

Google Base与Semantic Web(语义网)的关系
原文出处: Google Home Base
作者: 只说  sayonly.com 

概要:
  本文试图通过一系列线索揭示Google Base与Semantic Web(语义网,以下简称SW)的关系,以此窥探Google在互联网服务的战略布局。当然本文属于 创业生存手册系列,在系列的开篇中只说提到这个系列会提到web2.0,所以本文也会比较SW在web2.0的关系。本文引用的SW的资料大多数为英文资料,有识之士可以翻译并推介这部分材料,将是对于国内互联网整体水平的大的提升。
Dedicated to another SW - Simon Willison。

1,Google Base
  Google Base(应该是base.google.com,暂时无法访问)还没有发布,谣言已经满天飞了,从webleon的 给出的链接看到,google的产品拓展经理Tom Oliveri列出了 一份清单,给出了 正式的解释(只说译):
你也许已经看到了今天很多关于我们正在测试的一款新产品的报道,猜测了我们的计划。在这里我告诉你们我们真正在作的是什么。我们在测试一种内容拥有者提交他们的内容到google的新方式,通过这种方式,有希望补充我们已经使用的方式如google机器人以及 SiteMaps(站点地图)。我们认为这是一款让人激动的产品,有新消息我们会立即通知你们。
  这则简单的声明已经没有办法满足很多人的好奇心,试用过的人给出 截图,更多的人在猜测google究竟在干什么。
  webleon文中说,应该是一个由用户自行创建网络数据库的服务。这些数据可以是任何的内容,从可以看到的数据内容看到,有
-聚会服务的描述;
-网站上关于时事的文章;
-二手车出售列表;
-蛋白质结构的数据库。
  这些内容,真的只是网络数据库、用户隐私?或者是google头脑发热的一次作恶(evil)?
  从google的对这个项目的声明和更多的猜测看,恐怕不这么简单。种种迹象表明,这是google在作一次SW的试水,是google开始向SW服务靠拢的一个试探。为什么只说能这么肯定,SW究竟是个什么东西,它怎么有那么大的魔力,让google这么讳莫如深?这话得从头说起。
  当然,也只有google,在产品的测试期间就能掀起这么强烈的关注。


2,Google与Semantic Web的亲密接触
  几年前,Simon Willison发了一个 简短的blog文章,对于google在作一些关于SW的研究而赞叹,他看到了一份以未来笔调描述google如何战胜Amazon和Ebay这些竞争对手的 恢宏论文,作者是 Paul Ford。Simon Willison是一位很geek的程序员,我一直有看他的blog,虽然未必能完全看懂,他现在去了yahoo,有趣的是,它的名字的简写也是SW,把本篇文章献给他(其实应该是本章,但那样说也太失礼了)。
  Paul Ford那篇被多次提到(还有 Stuart)的文章讲的是,2009年,Google统治了互联网这个媒介,回顾如何击败Amazon和Ebay的历程,其实是一篇比较通俗的整体讲述什么是SW的文章,读起来颇为有趣。同样有趣的还有那个 EPIC,当然就与SW无关了。
  其实美国东岸的几所学校对于SW的应用研究都很长时间了,最有成果的应该是 piggy bank。

  2003年,google买了一家小公司,叫做Applied Semantic,应该用来做Google adsense的。因此有人写了一篇题为 google在SW投资的文章,可以参看。

  google的搜索质量总监Peter Norvig今年初有一篇文章,题目叫做 SW可以做什么,不能做什么是只说读到关于SW应用最透彻的文章之一,这系列文章很长,从各个方面探讨了SW应用和概念。Peter Norvig是个非常有眼光的人,我以前也是一直看 他的网站,虽然至今他还没有blog,但是终于有RSS输出了。他有一篇传世文章,叫做 十年学编程后来被很多人翻译过,其实这是他在NASA研究中心时候写的,呵呵,时间过去得真快。

  如今的Google Base的出现,必然有Norvig的眼光和推动力来成就这个网站。其实欧洲人比美国人更急于想实现SW,甚至已经有了semantic weblog,例如qlogger.com,但是没有人象norvig一样技术渗透,而且身后是google这样的公司。

  背靠着索引着最大互联网网页数量的google,在将网络爬虫使用到了极致之后,极有可能是第一个可能局部实现SW的商业机构,无论从技术还是从市场上看。当然SW是一种理想,至少google base让我们初尝到这种口味。

  让我们看一看,什么是SW,为什么Google要实现SW?

3,什么是Semantic Web?
  什么是SW,就得先谈谈它的发明人Tim Berners-Lee,同时也是WWW的发明者。

  Tim Berners-Lee在近几年的报道提到互联网发展时(一般放到Future一页里面)无一例外的提到了SW,大约是发明WWW之后再发明不了其他玩意儿了,或者是其他玩意儿都没劲了。当然也还有其他的, 5月的报告指出,目前网络在手机上面临的困境跟 96年互联网在pc上面临的困境一样。当然,SW是对于整个互联网说的,跟接入的设备没有什么关系。专门关于SW的报告是题为 SW在这里,列出了Nokia、HP、IBM等厂商的SW的进展,也可以在 这里看到 那次会议中谈论的细节,不过那里看不到那个SW在这里报道中的那个 SW的形象图,画的是各种材料,包括砖头和木材,组合成的一头大象。形象地说明了在SW下,是各种可以识别的材料,组成了整个世界。many things to many people。只说喜欢他们另外一个宣传口号:Web Evolution causing a quiet revolution

  SW的核心意义在于网络内容是由多种可以识别的数据组成的,在早期的互联网,93年左右,互联网停留在文件形态,组成的是一个个文件,传送都是使用ftp 等工具;94年左右互联网处于文本的形式,出现了html和URI(唯一地址),可以通过这个地址进行访问;而不断演化,今后将在以XML等可以标记的数据结构中,而网页只是展示这些数据的一种工具,你可以通过任何其他的形式进行展示,甚至机器也可以识别。互联网不再是由一篇篇的文档和页面组成,而是由一部分一部分细碎的数据构成。

  这样说比较玄妙了,其实还可以解释得更简单一点。SW就是把原来的互联网内容,切成碎片,文章标题归文章标题,发布时间放到发布时间,文章概要归文章概要,分别存放,每一个部分都是机器可以识别的(当然实际可能更复杂一点)。在Paul Ford的2002年如何战胜Amazon和Ebay 文中提到,它其实就是描述这些内容的另一种方式,这种方式下机器可以识别,具体方式虽然不是十分清晰,但是逻辑上,其实跟在你在学校里面学习的方式没有什么两样:
-如果A是B的朋友,那么B就是A的朋友;
-张三有一个朋友叫李四
-因此,李四将有一个朋友叫张三
-李四有一个朋友叫张三
-那么,张三会有一个朋友叫李四
  就是这么简单。
  在互联网上,我们把内容放在一些定义好的XML标签指定的文件里面。然后会有程序自动收集这些内容,通过这些简单的规则,进行分析。所有区别于现在操作的就是,在搜索的时候,服务器的程序会综合更多的因素,进行更复杂的判断,理解你的请求的真实意义,然后给你最准确的内容。
例如,你输入只说,他们准确的判断出,你要找的是我这个人,而不是错认为,你又说了一句什么话,或者给你一个许如芸的“只说给你听”的歌曲应付一下你。

4,Google怎么实现Semantic Web?
  Google究竟怎么实现SW,在Peter Norvig的文章 SW可以做什么,不能做什么已经可以看出些端倪,Norvig在今年一月份(或者更早)都已经想好了应该怎么启动了,或者说,应该怎么逐步打造SW。他谈到了四个问题:
  1)先有鸡还是先有蛋的问题,
  这个问题涉及到如何建立所需的信息,因为要必须有有组织的信息才能打造相应的工具,而如果没有相应的工具,怎么把信息放到组织里面去呢?
这个问题只说要展开说一下,其实google并不是要建立一个Tim Berners-Lee等人理想中的SW,因为其实google其实只需要索引SW中的信息即可,因为如果SW建立起来,索引是一件简单的事情,甚至产品实现上面比google现在的搜索引擎更简单,技术要求更低。然而,问题就出来了,是先建立一个SW,然后来索引呢,还是先索引整个互联网,然后再生成把它放到有组织的SW里面去呢,这就是为什么google打造SW时遇到了先有鸡还是先有蛋的问题。
  那么只说的猜测是,目前Google base的作法是,目前互联网上的信息是很难组织,那么让用户提交有组织的信息到google,就能形成局部的SW。而这个局部的SW,就可以实现聚会服务的描述、网站上关于时事的文章、二手车出售列表等等信息的精确定位,机器也就能够理解这个范围内的信息。

  在Norvig后面的描述中可以证实只说的说法:
在正常情况下,定义语义的标准格式(schemas)似乎更好,但是,问题出在把什么内容放进这些标准格式,还有很多工作要做。
因为还有以下提到的几个问题,这些问题在把内容放进这些标准格式中的时候,这些问题同样会出现,而且,google不能把握住这些环节,或者从整个互联网角度来讲,把握这些环节的公司服务或者工具太分散,无法形成标准,也无法保证安全和质量。Norvig举了一个google news例子,在前一个晚上google news一共索引了658个不同来源的新闻,google可以根据这些新闻页进行一个cluster运算,算出其中重要度最高的是Blair的新闻,然而,如果google依据这些写入新闻的新闻源来做这件事情,则几乎是不可能的。
  不过通过他们的页面上的新闻来索引计算出来的质量毕竟不高,所以google现在想到另外一个办法,也就是,让用户通过google base的接口提交到google,提交的数据是定义好的一些数据标准,google来控制这个提交过程并更准确的判断提交的质量、spam等等情况,并且可以将各种数据综合起来进行分析。

  2)竞争问题,你有不同的和相似方法和工具可以选择。
  这样子就无法跟踪用户行为的全貌。

  3)Cyc问题,
  Cyc是一个专业术语,讲的是通过广泛的本题作常识推理。这样说也许不太明白,举个例子就很容易了,例如“周杰伦”,这是一个人名,如果以错输为“周杰论”,这时机器就识别不出来了,但是如果拥有了一个很大的词库,那么这个通过识别出“周杰论”可能就是“周杰伦”,那么这就是一个Cyc问题。如何在SW 中判断这些Cyc以识别出常识的判断,这是建立真正意义的SW必须解决的问题。

  4)Spam,
  垃圾,这个不用多说了。但是注意到,由于SW是精确匹配,并且要求根据意图来适配,所以对于spam要求更高。
顺便提及, Splog不就是Semantic Spam嘛。


5,Semantic Web与Web2.0
  web2.0是tim o'reilly的概念,开始这个概念定义很模糊。应该是互联网应用的发展模式,催生了新一代的应用以及人们对于这些应用的理解方式和使用方法( 这里谈到过这几个概念的分别)。国外也有人撰文 web2.0会杀掉SW吗?,也有称 Semantic Web 2.0。有很有趣的讨论。前一篇文章说得有点道理,web2.0是给少数人用的,SW会提供Accessiblity。Stefan Decker在这里补充了一下,Web2.0重“应用”,SW则是标准。这跟只说 那边谈到web2.0是应用发展模式不谋而合。其实web2.0用来说明一种公司特性也未尝不可,不过你大声的说google是web2.0的公司,而M$是1.0的公司,确实有点怪。

  当然SW也作了很多应用,例如美国东岸的几所学校,例如欧洲连Semantic weblog也搞出来了,deri也做了很多应用了。

  另外, gnowsis也是另外一个狂想,只是我还没看懂它的结构图,为什么会有一个semantic web server在里面。


6,结语
  还有几点:
  本文并没有分析google为什么要做SW,只说想这已经用不着只说在这里分析。SW对于各种应用的好处是显然的。
  Google对于SW的探索看似给予搜索引擎的,Norvig那篇文章下面也有人回复说,似乎google只是在搜索的角度看待SW,其实不然,因为互联网是一个请求应答系统,是我们人为将互联网标准定义成一个url指向一个网页的,这是一个陈旧的标准,或者对于更高层次的信息获取来讲,并非是必要的。关于信息适配的探索,其实google比任何其他人(谄媚呀)都高。
  有人说,Google还是从信息组织的角度来看待整个互联网(google的信条就是组织信息),或者,它只是互联网的一个信息组织者,以后也将成为SW 的信息组织者。其实,从根本来说,互联网整个媒介都是信息,除了信息没有其他任何东西,当然你可以持有另外一个观点互联网应用才是主导,这到了最深处都是殊途同归。
  刚写完,发现keso的 文已经出来了:
互联网提供了很多破坏规则的机会。门户新闻和搜索引擎新闻已经破坏了传统媒体的规则,分类网站正在破坏一些电子商务网站和招聘网站的规则。即将露面的 http://base.google.com/服务,很可能是一个更大的破坏者,它有可能笼络更多的个人内容提供者,进而改变互联网长期以来内容的组织方式。
  其实规则很简单,就是在得到最小的spam的情况下,获得最有组织并且方便组织的信息,google实现的局部SW当然有控制,然而,SW的目标,不是web2.0那样的应用,而是Accessibility呀。 这场革命如此quiet,甚至谈不上“规则破坏”。(指Web Evolution causing a quiet revolution的quiet)
  本文引用的大量连接都是英文链接,由于时间关系,不能将其中摘录翻译,深感抱歉。SW的很多文章并不完全是很技术化的话题,这些材料对于国内互联网水平的增长是十分有益的。

  再次强调一下本文的观点:很显然,google base是google在SW的试验和测试。而SW就是google的本垒(home base)。

你可能感兴趣的:(Google Base与Semantic Web(语义网)的关系)