Google Base与Semantic Web（语义网）的关系

原文出处： Google Home Base

作者：只说 sayonly.com

概要：
　　本文试图通过一系列线索揭示Google Base与Semantic Web（语义网，以下简称SW）的关系，以此窥探Google在互联网服务的战略布局。当然本文属于创业生存手册系列，在系列的开篇中只说提到这个系列会提到web2.0，所以本文也会比较SW在web2.0的关系。本文引用的SW的资料大多数为英文资料，有识之士可以翻译并推介这部分材料，将是对于国内互联网整体水平的大的提升。
Dedicated to another SW - Simon Willison。

1，Google Base
　　Google Base（应该是base.google.com，暂时无法访问）还没有发布，谣言已经满天飞了，从webleon的给出的链接看到，google的产品拓展经理Tom Oliveri列出了一份清单，给出了正式的解释（只说译）：

你也许已经看到了今天很多关于我们正在测试的一款新产品的报道，猜测了我们的计划。在这里我告诉你们我们真正在作的是什么。我们在测试一种内容拥有者提交他们的内容到google的新方式，通过这种方式，有希望补充我们已经使用的方式如google机器人以及 SiteMaps（站点地图）。我们认为这是一款让人激动的产品，有新消息我们会立即通知你们。

　　这则简单的声明已经没有办法满足很多人的好奇心，试用过的人给出截图，更多的人在猜测google究竟在干什么。

　　webleon文中说，应该是一个由用户自行创建网络数据库的服务。这些数据可以是任何的内容，从可以看到的数据内容看到，有
-聚会服务的描述；
-网站上关于时事的文章；
-二手车出售列表；
-蛋白质结构的数据库。
　　这些内容，真的只是网络数据库、用户隐私？或者是google头脑发热的一次作恶（evil）？
　　从google的对这个项目的声明和更多的猜测看，恐怕不这么简单。种种迹象表明，这是google在作一次SW的试水，是google开始向SW服务靠拢的一个试探。为什么只说能这么肯定，SW究竟是个什么东西，它怎么有那么大的魔力，让google这么讳莫如深？这话得从头说起。
　　当然，也只有google，在产品的测试期间就能掀起这么强烈的关注。

2，Google与Semantic Web的亲密接触
　　几年前，Simon Willison发了一个简短的blog文章，对于google在作一些关于SW的研究而赞叹，他看到了一份以未来笔调描述google如何战胜Amazon和Ebay这些竞争对手的恢宏论文，作者是 Paul Ford。Simon Willison是一位很geek的程序员，我一直有看他的blog，虽然未必能完全看懂，他现在去了yahoo，有趣的是，它的名字的简写也是SW，把本篇文章献给他（其实应该是本章，但那样说也太失礼了）。
　　Paul Ford那篇被多次提到（还有 Stuart）的文章讲的是，2009年，Google统治了互联网这个媒介，回顾如何击败Amazon和Ebay的历程，其实是一篇比较通俗的整体讲述什么是SW的文章，读起来颇为有趣。同样有趣的还有那个 EPIC，当然就与SW无关了。
　　其实美国东岸的几所学校对于SW的应用研究都很长时间了，最有成果的应该是 piggy bank。

　　2003年，google买了一家小公司，叫做Applied Semantic，应该用来做Google adsense的。因此有人写了一篇题为 google在SW投资的文章，可以参看。

　　google的搜索质量总监Peter Norvig今年初有一篇文章，题目叫做 SW可以做什么，不能做什么是只说读到关于SW应用最透彻的文章之一，这系列文章很长，从各个方面探讨了SW应用和概念。Peter Norvig是个非常有眼光的人，我以前也是一直看他的网站，虽然至今他还没有blog，但是终于有RSS输出了。他有一篇传世文章，叫做十年学编程后来被很多人翻译过，其实这是他在NASA研究中心时候写的，呵呵，时间过去得真快。

　　如今的Google Base的出现，必然有Norvig的眼光和推动力来成就这个网站。其实欧洲人比美国人更急于想实现SW，甚至已经有了semantic weblog，例如qlogger.com，但是没有人象norvig一样技术渗透，而且身后是google这样的公司。

　　背靠着索引着最大互联网网页数量的google，在将网络爬虫使用到了极致之后，极有可能是第一个可能局部实现SW的商业机构，无论从技术还是从市场上看。当然SW是一种理想，至少google base让我们初尝到这种口味。

　　让我们看一看，什么是SW，为什么Google要实现SW？

3，什么是Semantic Web？
　　什么是SW，就得先谈谈它的发明人Tim Berners-Lee，同时也是WWW的发明者。

　　Tim Berners-Lee在近几年的报道提到互联网发展时（一般放到Future一页里面）无一例外的提到了SW，大约是发明WWW之后再发明不了其他玩意儿了，或者是其他玩意儿都没劲了。当然也还有其他的， 5月的报告指出，目前网络在手机上面临的困境跟 96年互联网在pc上面临的困境一样。当然，SW是对于整个互联网说的，跟接入的设备没有什么关系。专门关于SW的报告是题为 SW在这里，列出了Nokia、HP、IBM等厂商的SW的进展，也可以在这里看到那次会议中谈论的细节，不过那里看不到那个SW在这里报道中的那个 SW的形象图，画的是各种材料，包括砖头和木材，组合成的一头大象。形象地说明了在SW下，是各种可以识别的材料，组成了整个世界。many things to many people。只说喜欢他们另外一个宣传口号：Web Evolution causing a quiet revolution

　　SW的核心意义在于网络内容是由多种可以识别的数据组成的，在早期的互联网，93年左右，互联网停留在文件形态，组成的是一个个文件，传送都是使用ftp 等工具；94年左右互联网处于文本的形式，出现了html和URI（唯一地址），可以通过这个地址进行访问；而不断演化，今后将在以XML等可以标记的数据结构中，而网页只是展示这些数据的一种工具，你可以通过任何其他的形式进行展示，甚至机器也可以识别。互联网不再是由一篇篇的文档和页面组成，而是由一部分一部分细碎的数据构成。

　　这样说比较玄妙了，其实还可以解释得更简单一点。SW就是把原来的互联网内容，切成碎片，文章标题归文章标题，发布时间放到发布时间，文章概要归文章概要，分别存放，每一个部分都是机器可以识别的（当然实际可能更复杂一点）。在Paul Ford的2002年如何战胜Amazon和Ebay 文中提到，它其实就是描述这些内容的另一种方式，这种方式下机器可以识别，具体方式虽然不是十分清晰，但是逻辑上，其实跟在你在学校里面学习的方式没有什么两样：
-如果A是B的朋友，那么B就是A的朋友；
-张三有一个朋友叫李四
-因此，李四将有一个朋友叫张三
-李四有一个朋友叫张三
-那么，张三会有一个朋友叫李四
　　就是这么简单。
　　在互联网上，我们把内容放在一些定义好的XML标签指定的文件里面。然后会有程序自动收集这些内容，通过这些简单的规则，进行分析。所有区别于现在操作的就是，在搜索的时候，服务器的程序会综合更多的因素，进行更复杂的判断，理解你的请求的真实意义，然后给你最准确的内容。
例如，你输入只说，他们准确的判断出，你要找的是我这个人，而不是错认为，你又说了一句什么话，或者给你一个许如芸的“只说给你听”的歌曲应付一下你。

4，Google怎么实现Semantic Web？
　　Google究竟怎么实现SW，在Peter Norvig的文章 SW可以做什么，不能做什么已经可以看出些端倪，Norvig在今年一月份（或者更早）都已经想好了应该怎么启动了，或者说，应该怎么逐步打造SW。他谈到了四个问题：
　　1）先有鸡还是先有蛋的问题，
　　这个问题涉及到如何建立所需的信息，因为要必须有有组织的信息才能打造相应的工具，而如果没有相应的工具，怎么把信息放到组织里面去呢？
这个问题只说要展开说一下，其实google并不是要建立一个Tim Berners-Lee等人理想中的SW，因为其实google其实只需要索引SW中的信息即可，因为如果SW建立起来，索引是一件简单的事情，甚至产品实现上面比google现在的搜索引擎更简单，技术要求更低。然而，问题就出来了，是先建立一个SW，然后来索引呢，还是先索引整个互联网，然后再生成把它放到有组织的SW里面去呢，这就是为什么google打造SW时遇到了先有鸡还是先有蛋的问题。
　　那么只说的猜测是，目前Google base的作法是，目前互联网上的信息是很难组织，那么让用户提交有组织的信息到google，就能形成局部的SW。而这个局部的SW，就可以实现聚会服务的描述、网站上关于时事的文章、二手车出售列表等等信息的精确定位，机器也就能够理解这个范围内的信息。

　　在Norvig后面的描述中可以证实只说的说法：

在正常情况下，定义语义的标准格式（schemas）似乎更好，但是，问题出在把什么内容放进这些标准格式，还有很多工作要做。

因为还有以下提到的几个问题，这些问题在把内容放进这些标准格式中的时候，这些问题同样会出现，而且，google不能把握住这些环节，或者从整个互联网角度来讲，把握这些环节的公司服务或者工具太分散，无法形成标准，也无法保证安全和质量。Norvig举了一个google news例子，在前一个晚上google news一共索引了658个不同来源的新闻，google可以根据这些新闻页进行一个cluster运算，算出其中重要度最高的是Blair的新闻，然而，如果google依据这些写入新闻的新闻源来做这件事情，则几乎是不可能的。
　　不过通过他们的页面上的新闻来索引计算出来的质量毕竟不高，所以google现在想到另外一个办法，也就是，让用户通过google base的接口提交到google，提交的数据是定义好的一些数据标准，google来控制这个提交过程并更准确的判断提交的质量、spam等等情况，并且可以将各种数据综合起来进行分析。

　　2）竞争问题，你有不同的和相似方法和工具可以选择。
　　这样子就无法跟踪用户行为的全貌。

　　3）Cyc问题，
　　Cyc是一个专业术语，讲的是通过广泛的本题作常识推理。这样说也许不太明白，举个例子就很容易了，例如“周杰伦”，这是一个人名，如果以错输为“周杰论”，这时机器就识别不出来了，但是如果拥有了一个很大的词库，那么这个通过识别出“周杰论”可能就是“周杰伦”，那么这就是一个Cyc问题。如何在SW 中判断这些Cyc以识别出常识的判断，这是建立真正意义的SW必须解决的问题。

　　4）Spam，
　　垃圾，这个不用多说了。但是注意到，由于SW是精确匹配，并且要求根据意图来适配，所以对于spam要求更高。
顺便提及， Splog不就是Semantic Spam嘛。

5，Semantic Web与Web2.0
　　web2.0是tim o'reilly的概念，开始这个概念定义很模糊。应该是互联网应用的发展模式，催生了新一代的应用以及人们对于这些应用的理解方式和使用方法（这里谈到过这几个概念的分别）。国外也有人撰文 web2.0会杀掉SW吗？，也有称 Semantic Web 2.0。有很有趣的讨论。前一篇文章说得有点道理，web2.0是给少数人用的，SW会提供Accessiblity。Stefan Decker在这里补充了一下，Web2.0重“应用”，SW则是标准。这跟只说那边谈到web2.0是应用发展模式不谋而合。其实web2.0用来说明一种公司特性也未尝不可，不过你大声的说google是web2.0的公司，而M$是1.0的公司，确实有点怪。

　　当然SW也作了很多应用，例如美国东岸的几所学校，例如欧洲连Semantic weblog也搞出来了，deri也做了很多应用了。

　　另外， gnowsis也是另外一个狂想，只是我还没看懂它的结构图，为什么会有一个semantic web server在里面。

6，结语
　　还有几点：
　　本文并没有分析google为什么要做SW，只说想这已经用不着只说在这里分析。SW对于各种应用的好处是显然的。
　　Google对于SW的探索看似给予搜索引擎的，Norvig那篇文章下面也有人回复说，似乎google只是在搜索的角度看待SW，其实不然，因为互联网是一个请求应答系统，是我们人为将互联网标准定义成一个url指向一个网页的，这是一个陈旧的标准，或者对于更高层次的信息获取来讲，并非是必要的。关于信息适配的探索，其实google比任何其他人（谄媚呀）都高。
　　有人说，Google还是从信息组织的角度来看待整个互联网（google的信条就是组织信息），或者，它只是互联网的一个信息组织者，以后也将成为SW 的信息组织者。其实，从根本来说，互联网整个媒介都是信息，除了信息没有其他任何东西，当然你可以持有另外一个观点互联网应用才是主导，这到了最深处都是殊途同归。
　　刚写完，发现keso的文已经出来了：

互联网提供了很多破坏规则的机会。门户新闻和搜索引擎新闻已经破坏了传统媒体的规则，分类网站正在破坏一些电子商务网站和招聘网站的规则。即将露面的 http://base.google.com/服务，很可能是一个更大的破坏者，它有可能笼络更多的个人内容提供者，进而改变互联网长期以来内容的组织方式。

　　其实规则很简单，就是在得到最小的spam的情况下，获得最有组织并且方便组织的信息，google实现的局部SW当然有控制，然而，SW的目标，不是web2.0那样的应用，而是Accessibility呀。这场革命如此quiet，甚至谈不上“规则破坏”。（指Web Evolution causing a quiet revolution的quiet）
　　本文引用的大量连接都是英文链接，由于时间关系，不能将其中摘录翻译，深感抱歉。SW的很多文章并不完全是很技术化的话题，这些材料对于国内互联网水平的增长是十分有益的。

　　再次强调一下本文的观点：很显然，google base是google在SW的试验和测试。而SW就是google的本垒（home base）。

Google Base与Semantic Web（语义网）的关系

你可能感兴趣的:(Google Base与Semantic Web（语义网）的关系)