在自然语言处理(NLP)技术上处于领先地位的公司Teragram 被商业智能和分析软件供应商SAS收购(08年3月17日),宣称使用自然语言处理搜索技术的Powerset被微软收购(08年7月1日),在文本分析方面领先的Inxight被法国商业智能软件公司Business Objects(BO)收购(07年5月31日),而BO随后又被德国软件大鳄SAP收购(07年10月7日),Metaweb被Google收购。
在这个软件企业兼并潮的年代里,这些以自然语言处理相关技术起家的企业选择了“寄人篱下”,但是还有一些与自然语言处理技术相关的企业依然在坚持着,譬如机器翻译行业老大Systran,基于语义计算技术的并飞速发展的企业搜索厂商Autonomy,以及国内的华建,汉王等公司,让我们看到了自然语言处理技术的前景与未来!
无论从哪个角度来看,自然语言处理是最能体现“智能”二字的领域,而“智能”又恰恰是技术追求的最高境界!因此我乐观的相信:未来的应用领域到处都会有自然语言处理相关技术的影子,而现在,仅仅是开始!
Teragram是一家美国公司,中文名为泰码,是一家领先的自然语言、知识信息、文字处理技术和服务软件提供商。公司总部设在马萨诸塞州剑桥市,拥有40名员工,创立于1997年,和很多美国科技公司一样,创始人是两位自然语言处理研究方面的博士:Yves Schabes与Emmanuel Roche。
关于Teragram这个名字,在其中文官方主页上有这样的解释:
“Teragram”一词的词源反映了泰码公司的使命。
“Tera”源于古希腊文,意为“怪物”。“Tera”这个前缀的使用,又回归到这个古老的意义上。
“Tera-” 用于计算机科学中是一个用于计量单位名称的词缀,相当于2的40次方,即1,099,511,627,776,也等于10的12次方。
“-gram”源于拉丁文,法文和古希腊文。除了是一种重量的单位,“-gram”也是有表示所写的,所画的,所记载的等意义的名词的词缀。
这里不得不让人联想到了Google公司名字的含义,而事实上Google比Teragram创立的时间还迟,但是当时他们都认识到了海量数据和信息处理的意义!
Teragram公司所独有的NLP技术已经很成熟,并且拥有一定的客户群,其中包括:CNN、 Forbes.com、NYTimes Digital、Sony、AltaVista、WashingtonPost.com、Wolters Kluwer、the World Bank和Yahoo!等公司。
Teragram在以下几个NLP应用领域具有雄厚的技术:
自然语言处理:Teragram公司的自然语言处理(NLP)技术将把多种语言和多种来源的文本内容转化为有用的信息,在文字、语言关系和字意层面上实现更加丰富的数据处理功能。Teragram公司已经开发并维护着含有注解的巨大词库,里面包含了数以亿计的词汇,语种多达30多个。
自动分类:Teragram公司先进的分类技术能够依据在企业内部广泛采用的客户标准对文件提供快捷和先进的分类功能,这就使得不论原始文件存放在何处,用户随时能够根据特定的主题更加快速和准确地获得需要的文件,满足特定用户的需求。
自然语言企业搜索:针对企业级的搜索需求,Teragram的NLP技术可以对结构性的企业数据以及非结构性的数据源进行扫描,包括基于文本的报表和网页,以便从这些不同的信息源中获取综合性的答案。
移动搜索:Teragram所提供的下一代移动搜索功能,帮助个人实现远程信息的扫描,更加快速地获得答案。采用Teragram的移动搜索技术,人们能够存储和检索信息、连接到诸如BI系统的外部应用、来自BlackBerry的搜索数据库、职能电话或其他移动设备。
2008年3月17日,SAS宣布收购Teragram,以加强SAS公司自身的文本挖掘和分析型BI产品线,并将范围扩展到企业和移动搜索领域。这对Teragram是福是祸,我们拭目以待!
在数学中,Powerset的意思是幂集的意思,一个集合S的幂集指的是S的所有子集。这是Powerset主页中给出的这个名字的数学解释,但是这又预示着什么呢?
无论在Google还是百度,搜索“Powerset”所得到的反馈远比Teragram多得多,但这些信息无非可总结为几条吸引人眼球的内容:
1、 Powerset独家获得自然语言处理搜索技术使用权将挑战Google——对于搜索引擎老大Google发起挑战无论如何都是爆炸性的新闻,无怪乎那么多网站转载,也不管里面的内容是真是假!而这条新闻发布的时候Powerset还是一个“概念股”!
2、 基于自然语言搜索技术的新型搜索引擎Powerset正式启动——这条信息的发布是在08年5月12号,这说明Powerset还不是“概念股”,还是实实在在做了些东西,无论是骡子是马,终于拉出来溜了!
3、 微软1亿美元收购Powerset——在Powerset推出不到两个月,微软来了,“狼子野心,路人皆知”,用Powerset的技术来与Google对抗,不过这也从另一个方面说明自然语言处理搜索引擎的是被看重的!
我比较关注Powerset到底真正使用了哪些自然语言处理技术,抛去网络上真真假假的消息,在Powerset的官方网站上,可以看到关于Powerset的目标介绍:
Powerset’s goal is to change the way people interact with technology by enabling computers to understand our language. While this is a difficult challenge, we believe that now is the right time to begin the journey. Powerset is first applying its natural language processing to search, aiming to improve the way we find information by unlocking the meaning encoded in ordinary human language.
Powerset的目标是通过使计算机理解人类语言的技术(自然语言理解?)改变人机交互的方式。虽然这是一个困难的挑战,但是是开启这个旅程的时候了!Powerset首先将自然语言处理应用到搜索之中,目标是在我们寻找信息的过程中将人类语言中隐藏的意义展现出来!
“Powerset is first applying its natural language processing to search”,这里是Powerset在宣称自己是第一个自然语言处理搜索引擎的公司吗?我对这句话的翻译把握不准,但是如果从“Powerset独家获得自然语言处理搜索技术使用权将挑战Google”这条新闻来看,这里翻译为第一应该可以接受。
但果真如此吗?因为在众多的搜索结果中,我也看到了把Powerset称为语义搜索引擎的消息,而语义搜索似乎已经作为下一代搜索技术的代名词炒作了一段时间了。而关于语义搜索引擎,在Powerset之前,已经有Hakia,Cognition等的存在了,最近也有一个来自印度的语义搜索引擎Sagoon刚刚发布!另外Hakia在很多文章也被称为自然语言搜索引擎。更有甚者,写了一段这样的文字:
“上个世纪 90 年代初,在很多用户为繁杂的不相关信息而头痛时,AskJeeves 诞生了。然而度过了惨淡的网络泡沫,该公司转而使用关键词搜索并且放弃了名为 Jeeves 的卡通吉祥物,来区别它曾经依赖自然语言算法的时代,这就是现在的Ask网站。”
可见,“自然语言搜索”并不是什么新的概念股,关键问题是如何做出与这个概念股相匹配的搜索引擎。而目前无论是Powerset,亦或Hakia,还仅仅处于起步阶段,但是他们所推出的概念股,却恰恰是我们所期待的智能搜索引擎,因此无法轻视!
搜索Inxight,中文信息量较之Powerset非常之小,主要是关于它被BO收购的消息,比较“可怜”的是,Inxight的官方网站已不存在,被指向到了SAP的子站点了。
Inxight诞生在著名施乐帕洛阿图研究中心(Xerox PARC research center),这里同样是Powerset技术孵化的地方。
从维基百科上找到Inxight的一些介绍,整理如下:
Inxight是一家专注于数据可视化,信息检索及自然语言处理的软件公司。2007年被BO收购;BO于2008年又被SAP收购。建立于1997年,总部位于加州的萨内维尔。它最初由Xerox PARC分离出来的(注:2005年)。
Inxight Software, Inc. is a software company specializing in visualization, information retrieval and natural language processing. It was bought by Business Objects in 2007; Business Objects was in turn acquired by SAP AG in 2008. Founded in 1997, Inxight is headquartered in Sunnyvale, California. It was originally spun out of Xerox PARC.
Inxigh提供的产品包括(Inxight offers a number of products including):
* The LinguistX text analysis API(文本分析API)
* StarTree, a hierarchichal visualization/navigation tool(可视化/导航工具)
* Summarizer, a tool for generating text abstracts and summaries(文本摘要生成及总结)
* ThingFinder, a natural language entity extractor(自然语言实体抽取)
* TableLens, trend visualization tool for large data sets(大型数据集的可视化趋势工具)
* TimeWall, an event/timeline visualization tool(事件/时间线可视化工具)
Inxight 从Xerox PARC公司分离出来之后,被公认为是非结构化信息发现领域中具有创新方案的领先提供商,产品能应用于32种语言。Inxight的客户包括Air Products、AOL、Merrill Lynch、Morgan Stanley、Novartis和Thomson以及多家美国和他国的政府机构,如:美国国防部、国防情报局、国土安全局以及联邦秘书署。此外,该公司还与包括IBM、Microsoft、Oracle、SAP和SAS在内的300多家公司签署了软件OEM协议。Inxight还是Business Objects Technology Partner Program的会员。
与Powerset一样,Inxight最终没有逃脱被收购的结局!由于Powerset与Inxight师出同门,不得不说Powerset与Inxight的血统高贵,结局相同!
关于Xerox PARC:
1970年10月,美国施乐(Xerox)公司在今天硅谷的帕洛阿托成立了Palo Alto Research Center(PARC)研究中心,更为重要的是施乐并没有为来到这里的科学家制定任何的研究计划,而是让他们自由得发挥。在此后的几年中,PARC诞生了以太网、鼠标、面向对象、图标、菜单、视窗等等一系列改变今后计算机发展方向的全新概念,并间接孵化了Windows、Office、 Macintosh等划时代的软件作品,从其间走出的科学家还创立了Adobe、3Com、Novell等等改变IT世界格局的企业。
每一个行业都有一个或屈指可数的几个巨头在引领潮流,比如操作系统领域是微软,搜索引擎领域是谷歌,视频领域是Youtube,而机器翻译领域的老大无疑是Systran!
作为机器翻译行业最早的开发者和软件提供商,Systran于1968由Dr. Peter Toma创办。Peter Toma是一位科学家,当时恰好在美国乔治敦大学为美国政府的一个机器翻译项目工作,这个项目主要是为冷战时期(Cold war)美国空军将大量俄语的科技文档翻译成英语的需要服务的,之后他以美国乔治敦大学机器翻译系统研发小组为班底由创办Systran机器翻译公司。在“臭名昭著”的ALPAC报告公布后,来自于政府资助的机器翻译研究经费锐减,Systran是这个时候存活下来的为数不多的几个机器翻译系统之一!1986年,Systran被出售给法国巴黎的Gachot家族,并于2000年在法国证券交易所上市。
Systran是目前应用最广泛﹑所开发的语种最丰富的翻译软件,可进行英语,繁体中文,简体中文,日语,韩语,西班牙语,法语,德语,意大利语,葡萄牙语,荷兰语,俄罗斯语,瑞典语,阿拉伯等13种语言的互译。它不但提供翻译技术给Yahoo!、AltaVista等大型搜寻引擎,更提供给美国空军(US Airforce)及欧洲联盟委员会(European Commission)使用。
2002年,Systran在30多年积淀的基础上发布了一套完全重新设计的机器翻译技术架构。新的Systran技术包括:模块化(Modularity),有限状态技术(Finite State Technology),词典访问(Dictionary Access),声明化(Declarativity), 隐式转换(Implicit Transfer),交换格式(Exchange Format), 自然语言处理组件(NLP Components)。
Google在07年10月之前也使用Systran的技术,但是07年下半年开始采用自己的技术,这与Google挖来统计机器翻译领域的天才人物Franz Josef Och不无关系。Systran是老一代基于规则的机器翻译技术的商业化代表,而Google的机器翻译技术则将当前主流的语料库驱动的统计机器翻译推上前台,似乎预示着一个新的时代的开始!
两年前我关注Autonomy创始人麦克•林奇这个名字的时候,主要是因为他说了一句“Google不是我的对手”以及“英国的比尔•盖茨”这个名号!也因为此,我才知道在Google这样的互联网搜索之外,还有更庞大的企业级搜索这样的市场!
因为看到了Autonomy的搜索技术是基于语义计算技术的,所以我把它算做了一家自然语言处理公司。但仔细看了一下Autonomy官方主页,发现这稍有点牵强,但是Autonomy所宣称的采用的贝叶斯概率论和香农信息论倒是统计自然语言处理的核心之一!
麦克•林奇(Mike Lynch )原是剑桥大学的教授。1991年,林奇教授创立了Autonomy的前身Nurodynamic公司,后者是林奇从一个乐队老板融资3000多英镑创建的,该公司主要致力于剑桥大学模式识别研究成果的产业化工作。到1996年时,林奇教授已经积累了足够多的客户资源。于是,他向风险投资商借贷了1500万美元,创立了Autonomy。同年,Autonomy推出了世界上第一套智能个性化信息系统,同时发布了它的拳头产品DRE(Dynamic Reasoning Engine,动态推理引擎)和Portal产品系列。
Autonomy产品的核心算法是两种数学理论的独特结合:贝叶斯概率理论和香农信息论。
贝叶斯概率论是中世纪一位叫托马斯•贝叶斯的牧师所创立的,这位古怪的牧师试图通过自己的数学推理来验证上帝之存在。这个理论在他去世后才被发表,沉寂了百年之后才被麦克•林奇发掘出来再利用,后者认为,贝叶斯的理论更加接近人的大脑思维逻辑。
香农信息论则认为,出现频率越小的信息单元,代表的信息量越大。这也可以解释这样的现象:在一个嘈杂的房子中,我们尽管不能完全听清楚对方所有的话,但我们还是能听懂对方说话的意思。也就是说,每个信息载体会包含大量重复的冗余信息,在对这些信息的处理过程中,冗余信息的权重要低得多,甚至可以忽略。而在关键词搜索中,则相反,一个单词出现的频率越高,则该词的重要程度越高。
正是基于这两个基本理论,Autonomy在海量信息处理中取得了巨大成功。
Autonomy是名副其实的企业级搜索巨无霸!尤其是在2005年收购紧随其后的Verity之后,企业级搜索市场老大的地位进一步加强!Autonomy这几年发展的势头之猛,让人刮目想看,09年2月,Autonomy便获得国内最大的企业级搜索引擎项目国家电网SG186工程,其竞争对手包括IBM,Oracle, Fast, TRS等国内外企业,这进一步证实了其在当今企业级搜索领域首屈一指的业内地位。Autonomy的客户群包括17000多家全球性公司和机构,包括荷兰银行、美国在线、BAE系统公司、英国广播公司、美国彭博公司 (Bloomberg)、波音公司、花旗集团、可口可乐公司、德国戴姆勒-克莱斯勒公司等知名企业!
目前第三代搜索引擎的概念众说纷纭,但真正实实在在赚钱的是企业级搜索,并且这个市场对于互联网搜索老大Google似乎也很难撼动!很多人认为企业级搜索是会窜出第二个Google,那么最可能的也许就是Autonomy!
在自然语言处理公司Powerset的介绍中,Powerset使用的知识来源除了维基百科外,另一个主要来源就是Freebase,而Freebase的幕后则是“野心勃勃”的Metaweb.
Metaweb是从事语义网(Semantic Web)技术开发的风险企业,目标是开发用于Web的语义数据存储的基础结构,是曾就职于原美国网景(Netscape)、英特尔以及AlexaInternet等公司的人才聚集在一起,于2005年7月成立,总部设在美国旧金山。Metaweb分别在06年3月和08年1月分别获得1500万美元和4250万美元的融资。
目前所开发和维护的第一个产品是Freebase,Freebase被描述为“开放、共享的世界知识数据库”,07年3月发布。Freebase是一个巨大的,合作编辑的交联(cross-linked)数据知识库。其背后的想法是为语义网建造一个像维基百科系统的产品。Freebase允许任何人提供,组织,查询,复制及利用其数据。这听起来很像维基百科,但是不同与维基按作品安排结构,它的结构更像一个人和软件均能读取的数据库。
Freebase目前包含数百个类别及数百万个主题的结构化信息。这些信息主要从公开的数据集(如维基百科,MusicBrainz,美国证券交易委员会和美国中央,美国中央情报局资料)采集及社区用户的贡献。Freebase与其他数据库的主要不同是它允许一个主题属于多个信息类别,也称为域。在一个典型的电影数据库中,例如,你想寻找有关施瓦辛格作为电影演员的主题。如果你还想找他作为健美运动员的信息,你不得不创建一个新主题或者一个全新的数据库。
而Freebase使用了一种不同的底层结构(从技术上讲Freebase是一种图结构数据库),这样在同一主题下施瓦辛格可以被“贴”上演员、政治家、奥地利公民及健美运动员的“标签”。由于Freebase主题的作用是作为信息传输的中枢,而不是其他数据库中作为信息收集的容器,因此用户可以轻易的将多样的信息放在同一个主题下。
08年7月,Freebase 宣布其文章总数即将超过400万篇,比英文维基百科的 240万篇超过60%,接近全语种(250种语言)维基百科1000万篇的一半。
很多 Web2.0 公司使用 Freebase 的数据库,对某个领域的知识进行归纳,获得有价值的资料,如:
* Taught or Not – 一个非常可爱的小游戏,用来测试你对历史上那些思想家之间的相互影响关系的了解。
* Shot or Not – 另一个有趣的游戏,测试你对有些历史著名人物死因的了解。
* Random Walk Through Influences – 一个小程序,输入某个艺术家的名字,你就可以知道他受哪个流派影响。
* Pull Quotes – 如果你对政治感兴趣,这个网站值得一看。
* Powerset – 也使用 Freebase 作知识来源。
最后,让我们来看看Metaweb创建Freebase的远景目标:通过这种方式重构世界数据,Freebase社区正在建立一个全球资源,总有一天它将允许世界各地的人们和机器比现在更方便和更快捷的获取信息。
如果这一天真的来临,Metaweb所钟爱的Freebase被称为“The Stem Of A Global Brain”也算得上实至名归了!Metaweb已经被Google收购。
这里曾经谈过机器翻译的行业老大Systran,今天再谈谈机器翻译行业的后起之秀Language Weaver!这两家公司相似的地方在于都源自于大学的实验室,Systran 是Peter Toma以美国乔治敦大学机器翻译系统研发小组为班底创办的,而Language Weaver背后则是统计机器机器翻译大牛Kevin Knight领导的美国南加州大学信息科学研究所(ISI/USC);不同的地方在于Systran的技术以基于规则的机器翻译方法为根基,而Language Weaver则在诞生之初就高举统计机器翻译大旗。
先来看一下“Language Weaver”这个名字,国内有的翻译工作者将它译为“语言编织公司”,这个翻译应该是译者直译的。不过了解统计机器翻译历史的人大概都知道这个“Weaver”应该与1949年最早提出统计机器翻译思想的Weaver有关:
“早在1949年,美国洛克菲勒基金会自然科学部门的负责人Warren Weaver发表了一份以《翻译》为题的备忘录,建议将机器翻译的问题用统计方法及信息论的思想解决,这事实上就是基于信源信道思想的统计机器翻译方法的雏形。但是由于当时计算机性能的有限以及后来乔姆斯基转换生成语法为代表的理性主义方法兴起后,统计机器翻译的思想几乎不再被人使用。”
这个名字本身就蕴涵着Language Weaver公司对统计机器翻译的信仰与执着!
Language Weaver创办于2002年1月,是世界上第一个把统计机器翻译软件商品化的公司,Franz Josef Och,Philipp Koehn等都曾经在这里工作和学习过。以下是这方面的一点简介:
Language Weaver, Inc. was incorporated in January 2002 to commercialize a statistical approach to automated language translation and natural language processing. This breakthrough technology overcomes the weaknesses that have limited commercial success for automated translation in the past.
Language Weaver主要提供是企业级的用户服务,和Google免费的在线翻译服务有很大区别。翻译的市场很大,尤其全球化这个浪潮对翻译的需求更加旺盛,因此即使在金融危机的大环境下,Language Weaver的发展势头仍很迅猛,在其官方博客上,有一篇文章宣布其08年的收入增长了70%。