Autonomy的“样板工程”Blinkx中文版测试工作正在有条不紊地进行着。
这家公司今年3月在中国找到了一家“非常大”的合作伙伴,双方共同投资的首笔资金就达亿元。业界传言,这个合作伙伴,就是网通。
Autonomy是个公司名称,也是一种搜索引擎技术。“这是区别于关键词搜索的下一代搜索引擎技术,在不久的将来,它将彻底取代以Google、百度为代表的‘关键词’。”Autonomy公司的创始人,也是董事长麦克·林奇日前在来访北京时对记者说。
从“搜索”到“发现”
这位有点谢顶,但言谈举止都十分“英国”的英国商界巨子,严肃而认真地告诉记者:在全球商用搜索市场上,Autonomy是老大!Autonomy的市值不足Google的零头,而Google在这一市场的份额也不足Autonomy份额的零头。
“我们拥有55%的份额,而且这些份额的一半以上来自Google的母国:美国。”林奇说,尽管Google在全球消费搜索市场上取得了巨大成功,但在商用搜索市场上的份额仅为1%。
目前,人类研究的信息搜索技术有四个方向:关键字搜索、模式识别、语义分析、神经网络。除了关键词搜索比较成熟外,其他三项技术还处于待开发状态。Autonomy掌握了模式识别。语义分析和神经网络两个技术方向目前尚无压倒性的代表者,这两个技术方向的研究难度相对较大,估计短时间内不会有突破性研究成果。所以,模式识别就成了目前比较先进的信息搜索技术。
传统搜索基本上采用“关键词”搜索方式,也就是“非0即1”的方式,它基于严格定义和分类的布尔表达式,即“与、或、非”表达式。这种搜索的最大弊病就是:如果关键词不确定,或者有错误疏漏,用户往往得不到自己想要的搜索结果。
如果说传统的“关键字”搜索方法为“搜索(search)”,Autonomy采用的“模式识别”方法则应该称为“发现(discover)”,因为它可以让用户找到一些事前他们不知道的信息。Autonomy产品中提供的“聚类”功能正是“从搜索到发现”的最佳表现。这位自信的英国人认为,Autonomy在安全性和保密性,跨平台跨语种,维护成本等方面有着非常大的优势。
林奇认为,企业级搜索需要考虑许多问题,“你不会允许公司的前台接线员搜索到CEO的邮件,也不会容忍保洁工看到某些内部文档。”
他同时认为,维护他的产品就像维护一块砖头一样简单。他说,Autonomy的产品在数据和用户界面之间建立了一个智能检索逻辑层(IDOL),通过这个中间层,用户可以像搜索结构化数据(如数据库的数据)一样搜索上百种非机构化数据,如Word、Notes、PDF、PPT、Email数据等,甚至可以检索多媒体数据(通过专门的语音分析工具对多媒体数据文档化后即可)。
掷硬币理论衍生出的搜索技术
Autonomy系列产品基于两个基本理论:贝叶斯概率论和香农信息论。
如果一枚硬币被连续抛100次,每次都是正面朝上,那么,抛第101次时,正面朝上的概率是多少?传统统计学观点的推论是:50%。而贝叶斯概率论则认为:100次连续正面朝上,证明该硬币不均衡或两面均为正面,所以抛第101次时正面朝上的概率会大大高于50%。
贝叶斯概率论是中世纪一位叫托马斯·贝叶斯的牧师所创立的,这位古怪的牧师试图通过自己的数学推理来验证上帝之存在。这个理论在他去世后才被发表,沉寂了百年之后才被麦克·林奇发掘出来再利用,后者认为,贝叶斯的理论更加接近人的大脑思维逻辑。
香农信息论则认为,出现频率越小的信息单元,代表的信息量越大。这也可以解释这样的现象:在一个嘈杂的房子中,我们尽管不能完全听清楚对方所有的话,但我们还是能听懂对方说话的意思。也就是说,每个信息载体会包含大量重复的冗余信息,在对这些信息的处理过程中,冗余信息的权重要低得多,甚至可以忽略。而在关键词搜索中,则相反,一个单词出现的频率越高,则该词的重要程度越高。
正是基于这两个基本理论,Autonomy在海量信息处理中取得了巨大成功。