2007互联网创新领袖国际论坛:搜索引擎发展论坛实录

 

2007互联网创新领袖国际论坛:搜索引擎发展论坛实录

 

整理:Ackarlix

 

2007 3 21-22 日, 2007 互联网创新领袖国际论坛在北京召开,本次会议由中国信息产业部指导,中国互联网协会主办,清华科技园和互联网实验室等单位承办。

  以下为搜索引擎发展论坛现场实录全文:

  主持人吴明华:各位来宾大家下午好,今天非常高兴大家来参加 2007 互联网创新领袖国际论坛的下午的会议部分,那么由我来主持搜索引擎发展的分论坛。首先请我们大家以热烈的掌声欢迎我们今天的嘉宾入场!他们是:社科院信息化中心秘书长姜奇平, Google 中国工程技术总监刘骏, KOOXOO CEO 陈华,中搜 COO 陈波,奇虎网副总裁石晓虹, OPENV 市场及战略合作总监张隽。

  大家都知道,在中国互联网发展的历程中,最初让我们认识到中国互联网的可能就是电子邮件。但是,随着中国互联网产业的发展,大家可能越来越觉得有一项的应用越来越重要了,它就是搜索引擎。那么包括我自己在内,也经常性上网运用的目的就是通过搜索引擎来发现我自己想要的信息,或者是搜索我想要的内容。大会在昨天上午开了全体大会,昨天下午召开了国际风险投资论坛,以及今天上午的电子商务与社区交友论坛之后,今天下午我们在这里举行搜索引擎的论坛。其目的就是为了通过各位来宾与在座的各位互动,来研讨咱们中国互联网搜索引擎的发展,以及业务革新的话题。那么我希望通过此次的研讨,各位嘉宾和朋友能够有所斩获。

  搜索引擎的发展已经非常深入人心,从搜索的内容来看,从当初的网页搜索,生活相关的搜索,以及音乐、交友等等的搜索都得到的满足。我们的市场规模也从 06 年我们接近中国市场的规模 19 个亿,可能到 2010 年会有 100 个亿的规模,所以我相信这将是一个非常好的市场的商机。第一个环节有请我们台上的第一个嘉宾,就搜索引擎的发展趋势、搜索引擎的技术以及业务的应用形式进行一个主题的演讲。首先请社科院信息化中心秘书长姜奇平老师为我们做关于搜索引擎长尾趋势的主题发言。

  姜奇平:各位来宾大家下午好,今天非常有幸跟大家交流,我在这里面唯一是一个搞纯学术研究和媒体的,包括一直在做互联网周刊,所以是观察者,今天可能更精彩的还是实践者。那么我最近写了一个配合长尾理论写了一本长尾战略,马上要出版了,其中有很多的内容也跟搜索引擎有关,我想对搜索引擎做一个长期发展趋势的预测。那么关于近期的发展,还是听在坐的其他专家讲更合适一些。

  那么长尾理论我觉得就是这样一个图形,它里面提到出去把长尾理论概括为两句话,一个是提供所有产品,另外一句话是帮我找到它。我觉得跟搜索引擎非常合适,可以提供大量丰富多彩的信息,那么当信息过剩之后如何检阅这些信息,是一个帮助的手段,所以和长尾理论是一致的。

  那么长尾理论这本书大家可能都看到了,各章的解说也是我来做的,那么它里面提出三种最基本的力量。分别是从供给、需求和供求结合这个角度。供给的含义是什么呢?就是所谓提供更多的产品,实际上是通过扩大范围来降低成本,我认为这是它的本质。就是说它的商业模式是要力求追求成本越多,品种越低的经济效果。那么从需求的角度来说,它通过消费者的参与来降低定制的成本,那么搜索引擎可以说是典型的消费者参与生产的模式。那么第三种力量就是要通过新媒体的撮合供求,使供需更好地见面。那么这个简单地说就是扩大范围,延伸需求凑合需求,这就是长尾理论的基本理论。

  那么这个理论的实质是什么呢?我认为它代表的是一种经济模式的转变,也就是说经济的重点从规模经济向范围经济转变。在规模经济和范围经济转变怎么讲呢?规模经济是品种越少成本越低,那么范围经济是品种越多成本越低,那么这个就是导致个性化的出现,因为个性化就是品种无穷无尽地增加,它能随着品种的增加而成本降低,这和以前的经济规律是不同的。这里面主要解决了什么问题呢?我们在传统经济里面叫做交易成本,现在到了信息经济中,由于信息大量地过剩,那么如何用最少的成本获得经济增长,这就是我们要面对的问题。

  我们如果概括搜索引擎的商业模式?它的数轴是决策的有效性,横轴是决策的选择性,随着选择性的增加决策性的有效性降低。在长尾短头的部分,就是单一品种大规模生产,它的决策的有效性是较高的,因为它不需要你选择。这是由生产厂家来强加给你,他只有这种品种。但是当出现了多种选择的时候,决策的有效性就在降低,所以美国提出了信息悖论,我们核心是要解决这个问题。

  那么我们沿着这个框架可以从两个方面思考这个问题,一个是从内容搜索,第二从商务搜索。内容搜索就是从长尾的头部到尾部,是经历了搜索引擎的对象从逻辑的搜索到语义的搜索,到潜意识的搜索。就是说越偏向左侧它的简约性越高,越靠近右侧就是附加价值越多,搜索引擎就是要把想的东西准确地把握住,这里面面临着这样一个纬度。

  那么实际上我们看搜索引擎按照我的观点,我认为我们现在在语形搜索和语义搜索的阶段,那么语用搜索就是根据上下文和信息的环境来捕捉这个词具体的含义。如果从我这个角度怎么来规范化搜索引起的理论问题呢?最早阶段的语形搜索就是解决科学知识,那么语义搜索就是局部知识,这个叫做 “U” 空间。下个空间是 “E” 空间,把编码和未编码分开来了,就是说一条路径是沿着技术知识的路径往下走,一条是通过手工艺的知识往下走,最终进到了美学知识,这是感性本质直观的知识,对这种的把握是最难的。第三个纬度是 C 空间,就是把已编码和未编码同扩散和未扩散结合起来,我们发现搜索引擎是目前对公共知识,就是以编码的扩散知识渐渐相位编码的个人知识发展。这个个人知识包括什么呢?就是隐藏在你内心深处的难以用语言表现出来的东西。

  举一个例子,当一个女孩子恋爱的时候,你问她你爱我吗?她说 ,可能意思是不。她说 ,实际意思可能是是。你就很难望文生义来判断这个事情的真是意思是什么。那么通过语言这一层判断真实的意义,可能就是消费者不知道自己想要的是什么,那么怎么样通过显性的知识进到隐性的知识领域,那么我刚刚提到的逻辑框架就是大的思维框架。

  如果以决策有效性和选择多样性来看,第二代的长尾在什么地方呢?实际上雅虎的这个是在短头的部分,现在 Google 和百度都是基于关健词基于超链分析在语义的阶段,以我个人的判断,我认为搜索引擎还有很长的路要走。我认为为了提高人们决策的简约度,在个性化的时代,我们有一个基于媒体的语形搜索引擎,向语用的方向发展,里面涉及了一些具体的制高点。

  首先技术的制高点在未来 5 10 年将是基于语境的人工智能和自然语言技术,像施乐、中科院和北大都在做这个研究。这个时候战略要点是什么呢?首先是个人信息的聚集地,像免费信箱这样,通过个性化的信息聚集,作为语境捕捉每一个提出的关健词,这个人的语境下到底什么意思,现在的基础理论已经解决了,现在是技术的问题在进展。第二方面是个人知识的聚集地,像博客,还有未来的商业模式,可以区别这个人和那个人的语境和环境。第三是个人行为的聚集地,在手机卡里面,通过行为记录,捕捉这个人的上下文,比如用拼音 输入法 的话会有大量重码,但是打一句话的话,立刻就没有重码了。我们说的信息资源就一句话,语境就是上下文,把单独的很多重义的词,放在个人得语境里就可以精确的定位潜意识,这是现在理论研究的判断。

  我们看商业搜索引擎的发展,原理都是一样,我只是提出一些结论性的东西,从商业搜索的模型背后价值看,我认为是效应敏感和价值敏感,从理性化搜索到个性化搜索。商业搜索重点将从对价格的敏感信息进行个性化的满足。我们看未来的搜索趋势,我们可以判断出如果在搜索引擎里,我认为对于冷门搜索的能力和服务,决定一个搜索引擎的质量。

  在未来的搜索市场上,我们看出 二八法则 正在发生变化。图片左侧是以前的商业模式, 20% 销量带来 10% 收入, 18% 的收入和 100% 的利润。现在在高度信息发达的情况下,热门进一步收缩,从 20% 降到 10% ,还有 2% 的超热门,只会得到 33% 的利润,而现在的统计调查, 80% 的冷门,虽然只带来 25% 的收入,但同样会得到 33% 的利润。这时候就会看出未来商业格局正在发生这张图的变化,三分天下的形势。沿着这个趋势我们看 Google 的关健词搜索,这是他们推出的新服务,实际上正在向一对一的方向发展。

  我注意到美国的模式,他也是通过呼叫的方式实现一对一的定位,实现网上和网下的融合。在国内包括蚂蚁互动这样的厂家也正在开始成为新的进入者。未来 1 2 年之内,我相信格局还会发生新的变化。商务引擎的制高点我这样看,除了内容资源的一致之外,我认为还有几个特殊的地方。

  第一是网上和网下结合,音频和视频的结合。中国面临欺诈的局势,所以网上和网下的结合是必然的趋势。第二方面,网上网下商务的结合,美国的搜索引擎和小区的门店结合,包括易贝。如果要不早看到趋势,很快就会处于商业的被动。第三是个性化商信息的聚集地,比如 我的店 定制等,在很多地方都没有开发,比如我在我的雅虎油箱,聚集着我上万封信,这就可以看到我和别人的不同,如果我作为消费者的话希望可以进行自测,当我买东西的时候可以做参谋,搜索出符合我需要的产品,或者有什么产品适合我,欢迎大家推荐等等,我觉得目前的商业空间还是很不充分的,从消费者来说感到还是一个初级阶段的形势。第四跟文化有关的,文化行为和行为载体和场所的聚集地,包括娱乐、心理、精神,这方面的需求会和搜索引擎很好的结合起来。做一个小结,我认为搜索引擎将会沿着、语型搜索、语义搜索、语用搜索发展,带来商务等领域的新变化。谢谢大家!

  主持人吴明华:谢谢姜老师,大家在姜老师的介绍当中可能知道了,搜索引擎要创新,可能一个在搜索技术的深度上面做一些发展,另外在搜索引擎的个性化和互动化方面交互式方面可能也是一个发展的分享。那么接下来我们有请 Google 中国工程技术总监刘骏先生为我们进行主题的发言。

  刘骏:首先感谢互联网协会和互联网实验室给大家组织了这么一个活动,所以大家也一个互动交流的机会。我今天做一个小小的演讲,希望能够抛砖引玉,能够引发大家的思考,让大家一起互相讨论一下。

  我个人认为搜索引擎在中国和全世界还是有很广的发展前途,大家今天有兴趣聚集在一起,我们可以有一个讨论的机会。

  其实这个 PPT 我以前在外面讲过一次,可能信息稍微有点旧,不过非常符合我们今天要讨论的内容,所以我特意把这个 PPT 拿过来再讲一遍,主要是起到抛砖引玉的功能。

  首先我想讲一下什么是搜索引擎。大家可能认为搜索引擎主要是安一个搜索词进去,然后结果出来。但是,实际上搜索引擎正在往一个方向发展,它在搜集全世界各式各样的信息。这是一个地图,这个地图上的信息, Google 的宗旨实际上就是要整合世界上所有的信息,然后让大家一起来享用。那么整合所有的信息就包括很多方面的因素,所以我们提出这样一个观点,就是多维搜索,从各个方面搜集资料满足用户的需要。用户从一个点进入我们的搜索引擎,把所有的信息都可以整合在这个下面。所以我们提出这样一个观点,就是要用多维从各个方面整合我们的搜索,那么怎么样是一个多维整合的搜索呢?我们从这么几个方面来看。过去的搜索还是很简单的事情,如果你们可以看到,这是我们大概 6 个月以前的图,只要你打一个关键词搜索出来的结果很简单。 Google 的特性是功能非常单一,如果你搜索一个词,他肯定给你一串网页的结果,而且结果也非常单一,是网页的结果,没有各种各样的多样性。更重要的是,他没有各种各样的功能的整合。

  那么新一代的搜索,我们在多维搜索的情况下,我们可以把各式各样的信息整合在一个搜索方式内。我不知道你们最近有没有访问 Google 的搜索引擎,如果你访问的话,你会发觉除了我们一些简单的搜索结果出来,上面会有附加的各式各样的信息,会经常给你一些小小的惊喜。但这不完全是网页的结果,比如说你搜南方基金,会把在南方基金下面所属的各种各样的信息都列在那里。比如说昨天的节气是春分,如果你打春分,会国家你昨天是什么样的节气,为什么叫春分,各种各样的信息都整合在一起。所以你可以经常试一下,会有很多的多维的信息整合在里面。

  那么要做到多维整合搜索,从几个方面来看?我们先看一下有几个方面的多维。第一个是地域上的,大家都知道 Google 的搜索是全世界范围内的,当然我们在中国搜索的话,我们不会把土耳其的结果放到中国来。但是你真的要找土耳其的结果,我们会有一个地域的优化,但是不是地域的限制,这个是蛮重要的观点,就是怎么样优化地域。甚至在中国也碰到这样的问题,比如说你在上海售 房地产 ,如果你显示的是北京的房地产的信息,那么用户就不是太感兴趣。

  第二个是在时间上的整合,实际上互联网现在有一个比较大的特征就是变化非常快,信息流量非常大,那么搜索引擎一定要按照实时及时地整合各种各样的信息。那么怎么样人搜索引擎变得更加动态,这个也是比较困难的。

  第三就是说我们各种各样的媒体,比如说可以是有视频的,或者是音乐、语音的搜索,这个我们也在不断地整合。

  最后就是刚才姜老师也谈到了,就是网上和网下的整合,就是你有各种各样的渠道,有一些不一定是网上的信息,它也整合到一起,让大家来共享。

  那么要做到整合,其实难点有几个。一个就是说你要有一个比较智能的,就是你要知道什么时候地域比较重要,什么时候时间比较重要,什么时候媒体比较重要。所以这个方面你要做大量的数据分析,然后才能做到整合,所以其实这个上面有两个难度,一个是你要有智能化,第二个是数据量比较大你要整合。这方面我们还是有很多的发展空间,这方面我们还是有很多的工作可以做,不像有些人认为搜索引擎现在已经发展到头了。

  现在我稍微讲一下地域的问题。比如说我们在亚运会期间,如果你搜索多哈,在那个时候你搜索多哈,可能人家并不想主要多哈的旅游情况,机票多少钱,那个时候可能人家想知道关于亚运会的情况。那么怎么把多哈和亚运会联系起来?这需要有一个地域的整合的过程。再比如你搜索小雪的时候,如果在中国搜索小雪,你可能是要了解中国的节气,我们会有一些非常有中国特色的东西。再比如说你查找孔子,即使你打的是英语,但是你想知道的是关于中国的新闻。我们一开始是有一个全世界的优化,现在可以做到国家,最后可以做到城市或者是小区,各种各样的地域优化,这个有很多的工作可以继续往下做。

  刚才说了一个地域上的优化,也可能你想知道别的地方发生的事情,这个需求也是很大的。我们 Google 现在在地图和网页的搜索上做了很大的工作,其实就是为了把地域信息怎么样整合到普通的网页搜索上。比如说这里大家看到的是一个普通的网页搜索,这是跟地图和卫星照片怎么整合起来的,这个也是我们现在在做的一个工作。那么我们跨越地域限制的还有一个是要促进地域之间的交流。大家知道 Google 有一个非常好的机器语言翻译的工具,不知道大家试用过没有,现在的流量还在上升。左下角的图可以说明为什么 Google 机器语言翻译是全世界领先的,这个图表示 Google 有一个比较大的优势是因为我们有海量的数据。下面的数据是说每翻一倍的数据量翻译的精度就往上提高,到现在为止还没有把所有的数据整合起来,如果所有的数据都整合起来,那么翻译的精度会大大提高。比如说你是学习语言的,老师会要求你多背一点书,在机器上也是一样的,你多见了各种各样的翻译效果就会增加,在这方面我们也做了非常好的工作,在世界的机器翻译里面 Google 一直是名列第一的。

  下面我再谈一下刚才我谈的时间的纬度。还是举卡塔尔的例子。如果在亚运会的时候搜卡塔尔,我们会有非常快的信息,会告诉你中国队最近在卡塔尔上的战绩怎么样。我们甚至可以几个小时之内把所有的结果都显示出来,我不知道你们有没有试过。再比如说 ,大家知道在去年 12 26 日左右,台湾发生了一次地震,把光纤震断了。 Google 是国外几个大的互联网网站中唯一一个没有断线的,如果那个时候你试一下 Google 的搜索,搜查地震,我们在短短的几十分钟之内,台湾的地震就会有一个结果,会告诉你台湾地震了,光纤震断了。更有意思的是,到了 1 月份你再去查地震这个词,那个时候是为什么呢?据说上海传说有一个地震,那个时候在几个小时之内,你查 Google 会发觉上海地震是一个谣言,所以我们这个也可以把辟谣的工作做得非常快。

  但是不是所有的人都需要很及时的东西,在这里我可以给大家看, Google 可以收集非常非常早的信息。这里有一个例子是阿波罗登月,这都是 69 年的事情了,那么你想知道阿波罗登月的时候《华盛顿邮报》是怎么报道阿波罗登月的,我们这里面都有,这个从时间的跨越来说是非常大的一个事情。

  下面讲一下跨越媒体的限制,我们 Google video 还有视频上载,还有各式各样的比如说电视、图像我们都在不断地往下整合。这个方面的工作在美国已经开展得比较轰轰烈烈,中国我们还在继续努力,把这个东西做得更好。

  那么跨越渠道的限制我可以再讲一下。我们知道有一个互联网连接到手机上的工作我们也在继续加强,怎么样把手机和互联网的互动不用受到 PC 的限制。从另外一个角度,是不是说往下的东西?这个图显示,如果以前要找一本书可能要跑到图书馆找这个书,现在可能不用,你可以到 Google 的书本搜索,这个在中国马上要更加加强推广。我们跟几个合作单位签了合同,越来越多的书会上线。刚才讲了几维的搜索,正因为有刚才这么多挑战,现在搜索面临一个很好的创新机会。挑战在哪里呢?正如刚才各位所说的一个是海量数据,你现在考虑的越多,带来的就是要把数据存起来,这是比较大的问题。在这方面, Google 也有一个比较大的优势, Google 在世界上有最大的数据存储库。第二,光有数据堆也没用,必须有人工能力。比如语言处理得能力,或者相关能力处理起来。比如前段时间如果你搜索《雷雨》,就会有黄金甲,因为黄金甲也是按照《雷雨》改编的。那时候黄金甲上映的时候搜索《雷雨》,黄金甲的结果也会有,这就是智能化。 Google 也做了很多的基础研究,我们在各方面都在继续努力。

   Google 有什么优势呢? Google 有比较大的优势一个是硬件构架。比如海量数据,这个照片是某个数据中心的情况, Google 在数据中心上有非常大的优势,我们有最大的机群。第二是软件的构架,也是比较大的优势,一个是大规模数据存储的系统,世界上最大的存储系统。还有一个是 INDEX ,人工智能。

  最后 Google 各方面的优势,一个是技术和创新一个是规模还有品牌,还有企业文化。我这里讲四个例子大家都比较容易理解,品牌理解不是那么明显,其实 Google 在品牌上还是非常重视的,比如我们在公正性上面, Google 因为在全世界影响非常大,对很多用户会有比较大的影响,为了我们的品牌,做了非常大量的工作,就是说保证绝对公正,所有结果都是按照机器排出来的,任何手工排的都缺乏公正性。

  今天我基本上讲这些,欢迎大家多提问题。

  主持人吴明华:谢谢刘总非常精彩的基于 Google 多维楼所和整合搜索的发现,现在有请 OPENV 市场及战略合作总监张隽。

  张隽:谢谢大家,只有十分钟,我讲点题外话,实际上前两天我跟太太吃自主餐,叫金钱豹,吃到一半太太跟我说我饭量太小了,这顿自助餐吃亏了。其实吃自助餐大概 200 元左右,所以如果吃自助餐,我们首先想我花了这么多钱能不能挣回来,还有我吃了有没有亏,所以大家都往往把剩生鱼片往自己的盘子里面放。就好像我们的家里的宽带,包括小区宽带,如果 120 块钱一个月,就会想我的带宽用足了没有,所以他就折腾,他睡觉让机器自己工作,帮他从网上下那些盗版的电影,他认为省了光盘的钱。大家都有这样的心态,那这种心态告诉我们一件事,中国朋友的心态是这样的,告诉我们一个需求,当我们接入宽待的时候,当我们上新浪搜狐的时候多出来的带宽还能干什么?除了用 BT 下载视频还能干什么?这是非常重要的问题,换句话说,市场空间已经出来了,就看谁把用户手里多余的带宽释放出来。视频的浪潮现在愈演愈烈,所以视频的搜索现在越来越重要。视频搜索有句话说是直接搜索,我不这么认为。第一,你认为互联网上的视频内容会越来越多还是越来越少?根据刚才的自助餐理论,互联网上对于视频的需求肯定会越来越多,一定会有商家满足这部分需求,于是互联网上的视频内容会越来越多,如果互联网上的视频越来越多,有一天它和图文信息的总量会不会发生变化?如果现在的互联网视频在图文信息里只占 1% ,那什么时候会达到 10% ?什么时候达到 20% ?什么时候达到 30% 呢?那么当用户的视频搜索到了一个临界点之后,那么到底是图文的搜索还是视频的搜索呢?如果把这些问题想清楚了,我想结论就不言自明。

  我给自己一个非常乐观的答案,因为我从太太吃自助餐的形态给出了答案,互联网上的视频总量一定会和图文信息有突破。视频会成为下一带主流搜索,这时候,无庸置疑有一点大家会非常清楚,视频时代一定就来临了。要想互联网上的视频早一天来临,我们还要做很多工作,有一件事情中国互联网上一直存在,视频伤亡的速度非常重要,如果很慢,而且很多视频网站基本上就是找一个编辑,用的是奴隶主管奴隶的方式管理,我们叫做科学化大生产,或者叫做工业化大生产。然后让他们每天看一段又一段的视频,直到把他们看到吐我为止,然后让他们一段一段截完,然后打上关健词,传到互联网上,那么每个人每天可以处理多少视频呢?有限,因为视频的时间和我们的现实时间是相对的,因为我看完这段视频,然后打上关健词再上传一定比视频的时间慢。那么 OPENV 解决的是什么事情呢?一件是尽快地把现下的视频尽快搬到互联网上来,第二让更多地用户通过多余的带宽通过搜索可以把自己想找的东西找到。就说这些,谢谢大家!

  主持人吴明华:谢谢张总监,那么大家都知道, OPENV 作为视频搜索引擎,有自己的独特的搜索技术,比如说基于针的搜索,我觉得也是非常有特色的搜索。刚才张总也说了,很多的小事可以从生活中得到,搜索引擎也解决了我们生活中的事情。比如说你买一张火车票或者是租房或者是找工作,这个时候你是不是依靠搜索引擎带来的结果呢?那么在生活方面做的搜索, KOOXOO 也做得很好,所以请 KOOXOO CEO 陈华做演讲。

  陈华:大家好,我是 KOOXOO 的陈华,我们是从火车票起家的,为什么会发现这个市场呢?其实现在回头来想,刚才 Google 的刘总也说了,互联网上的信息量是非常巨大的,我们面对这样的信息的时候我们怎么处理这个信息呢? Google 和百度用一种方式叫做把信息变成多个纬度进行分析,然后整合,最后算出一种统一的信息给用户。但是,我认为这种做法你顾及和这个纬度可能会损失另外一个纬度。一般的信息首先会有跟你用户查询相关的纬度,还有时间纬度、空间纬度,还有这个信息有效性的纬度。如果我们按照信息的整合方式去做,有些时候你真的不知道哪些东西是最重要的。我们 KOOXOO 是发现了一个方式处理这个信息,在互联网还有一个类别的纬度,就是信息是属于什么分类的。

  在 KOOXOO 上我们首先是用户是什么层次的,我们会分一个地理的纬度,还有一个分别的纬度,还有一个用户搜索的关键词的纬度,还有一个时间的纬度,就是用户做完了一个查询的时候,同时可以看到 4 5 种纬度,就是我们用这几种纬度把信息技术切割,而不是整合。经过切割得到一种搜索结果,这种搜索结果会完全符合用户的需求,这就是为什么 Google 或者是百度找 1 分钟前出现的火车票的时候,可能找不到,但是我们 KOOXOO 会找到。我们发现 KOOXOO 在生活方面用切割的方法都可以找到,比如说租房子的时候,可以找到几分钟前房东发布的信息。从房产来看,信息的有效性是不是中介,从火车票看,火车票是不是已经卖掉了。从有效性看, KOOXOO 也是做了一种深度的处理,就是把有效的信息展示给用户。同时我们认为生活上的问题,搜索的方式是不足够的。

  有的时候用户不知道自己想搜索什么,比如说想买车或者是买房,你不知道买什么样的,但是你会有一个需求。这里面有一个经验搜索,我们用爬山的方式把互联网上的用户分析,我们引导用户去完成他搜索车或者是房子的行为,这也是 KOOXOO 把多个垂直搜索整合在一起,提供一个服务。 KOOXOO 做了一年多的时间,相对其他公司是比较年轻的公司,我们也是刚刚起步,但是我相信 KOOXOO 的方向是有一个非常光明的前景,就是通过对信息多纬度的切割,做一些纬度的整合。我们可以提供给用户一步到位,找到一个完美结果的信息。

  主持人吴明华:互联网领域里面各家的搜索引擎也是可以取长补短的,特别是有一些用户的体验,在搜索结果和定向服务的范围里面我觉得也是可以做一些交流的。当然了,大家都知道 Web2.0 之后的时代都是基于个人的门户的搜索,接下来以热烈的掌声请中搜 COO 陈波为我们大家做主题发言。

  陈波:听了这个话题我觉得非常有意思,今天的主题是创新,我想在座最想看的是争论和不同的意见,我把 Google 的刘骏挑出来了,娱乐搜索来说 Google 是大公司代表,我们都是小公司,创新角度说,创新发生在我们的概率要比发生在 Google 的概率大的多。大公司对创新有天生的抵触,比较难。我觉得发扬最广大的是韩国的 never ,跟原来的 Google 出来的网页搜索很不一样。我自己觉得,从创新角度来说,小公司可能给出更多的好点子。 KOOXOO 就是很好的利益,火车票的事情搜索引擎很难解决,中搜也做了很久,可是作为后来者,百度跟 Google 的打压下,一直活的苦哈哈的,

  创新对 Google 来说是发展问题,创新对我们来说是生存问题。创新挺苦的,能不创新尽量不创新,拷贝如果能成功,比创新要容易的多。创新是什么?是没做过的事情,没被验证过的事情。生活也许变的有趣起来,但成功机率低。我们会在创新上作出贡献,可能有几个方向,学术界商业界都知道,不是什么秘密。一个是智能化,另一个区域垂直化。各种各样的纬度切割,变小变精确起来。最后就是个性化。我看到下面的摄影记者对着我们照相,像我长的中等偏下的人没什么好照的,为什么要浪费这么多胶卷?后来我突然明白了,那不是胶卷,除了电池的成本以外没有什么成本。 IDC 去年有一个统计, 06 年世界上 60 几亿人制造了多少信息?中搜可以存到上 T 了, T 往上是 P ,我觉得 Google 差不多到一个 P 了, Google P 之间的关系没什么特别联系,到不是有意开 Google 玩笑,我以前在 04 年看过一个资料,人的一生从小到大如果记录起来,每个声音都记录下来,每个图象都记录下来,存在一起就是一个 P ,所以人的一生就是一个 P 。其实 P 已经不足够衡量世界了, P 上面是什么呢? E E 上面还有, 06 年人类创造的信息应该是一百六十多 E Google 要把全世界的信息都存下来那是不可能的,集中处理得搜索引擎肯定面临创新,他们肯定活的很好,像微软一样,但肯定还有人借着新的机会成功。中搜走的不好也可能变成先驱。

  另外,个性化的问题,也就是说主要对付信息过渡膨胀的问题,现在有一个词叫信息污染。前些年去美国,他们告诉我光污染,我还不很理解,不愿意看到的光是污染,信息已经到了污染的地步了,我们应该有更多的创新能力,把个人想要的东西在一百六十几个 E 中拿到。 KOOXOO 提供火车票,其实网站服务很不容易的,我们有一个员工订火车票,开了 5 个网页。然后一只手拿着鼠标垫着 5 个网页,另外一只手摁着 F5 ,干什么呢?他在刷新。那么我们中搜做了一个小工具叫做 IG ,这是一个客户端软件,它会帮你摁 F5 ,这就是我们个人门户的非常简单的例子。

  主持人吴明华:我们也认为,像 Google 有今天的地位,有是有以前的创新心,面临所有企业生存和发展遇到的问题,所以这个意义上理解,创新和竞争可能是卵生姐妹。接下来我们有请奇虎网副总裁石晓虹。

  石晓虹:很高兴有这个时间跟大家讨论搜索引擎的问题,奇虎专注于社区内容方面的搜索、整合和聚合的一家小公司,我交流一下社区搜索和社会化搜索的想法。

  中国互联网的发展从用户人群数,到用户的渗透率,到中国网络营销市场的迅速增长,大家都非常清楚,我不多罗嗦了。但现在我们可以看到一个趋势,娱乐或者很多与娱乐相关、生活相关的信息越来越占互联网非常大的比例,这里有非常多内容产生于社区。调查看到,越来越成为网民使用的服务。从博客的快速发展到空间到视频分享网站的发展,都能看到这一点。包括一些其他的信息的查询,对音乐、电影的上传下载都在社区里发生的,社区一定成为互联网发展的大趋势。

  一个成功的网站,必然是成功的社区,我们看社区的形态,不仅仅是刚才提到的,我们可以理解腾讯就是即时通讯的网站。很多网站也希望有很好的人气和用户黏性,必须要发展很好的社区。从这里看到它对互联网的影响,所谓 1.0 时代,今后我们会发现,互联网上的内容主体很可能是用户产生的内容。其实现在所说的 Web2.0 核心理念就是用户的互动和参与,我们来看社区的发展是非常迅速,网民对社区的应用其实还有很多不满意的地方。

  这也是一个调查,比如垃圾信息很多,这是中国互联网社区里的特征,比如论坛有 90% 是垃圾帖,另外信息非常分散,一个社区里肯定很专业,但不丰富,大家找感兴趣的信息很困难。第三,专业的社区内容可能会单一,但在互联网上有很多符合你兴趣爱好的社区存在,但你不知道。我们看目前的搜索引擎确实在解决社区内容需求方面的缺陷,我们就希望解决这种人们对内容的需求。我们先看 UGC 的特点,门户时代有少数人来产生内容, UGC 是无数用户创造内容。

  我们可以简单总结,第一是内容很庞杂,出现信息过载,也就是陈总说的信息污染,这个情况已经很明显了。现在在论坛里内容的数量是大量的,但充满了垃圾。

  第二是分布化,用户可能在单一的社区里满足不了需求,但又不能其他社区,如果能把符合用户多个社区的内容融合在一起,那么很显然就可以满足他。

  第三就是分众特点,社区就是按照不同用户分的,分类是非常细致的,不是按照几个频道可以改造的。

  第四个特点就是实时,每天的发贴量可能在一分钟之后有人就帖出来,在门户新闻网站上可能要等一个小时,现在搜索引擎可能要等几个小时,但社区里很快就可以看到。有千千万万这样的社区,如果都是非常快的更新,对搜索引擎就带来了一个挑战,如何实时的抓取这些内容。另外一个很重要的特点,我认为就是社区核心的本质,是用户的参与,不是静态的内容放在那里,如果内容是静态的,发布出来之后就失去了活力,大量的用户在里面讨论,所以可以使内容变成活的。从社区里沉淀了很多人们的经验、评论、推荐,个人的体会、专家的意见等等。这里面怎么发现用户的重要性,包括社会化的搜索,实际上要考虑人在里面搜索的特点。

  还有就是娱乐为主,社会化、娱乐化的东西越来越多。比如说我们对搜索引擎来看,简单举几个方面,比如信息的抓取,社区的内容非常实时,要求具有很高的刷新度,还有其他难点,很多社区都是动态的,不是静态的页面,比如网页的跳转,都是动态的,如何抓取这部分内容,这是挑战。

  第二就是庞杂的社区内容,而且垃圾比例更高的内容,如何过滤掉。第三,社区里的内容体现了很多人的参与,很多人的参与形成的结果,这样的东西如何分析和抽取里面的内容,这跟原来的搜索引擎不太一样,原来就当成文本流,把广告、垃圾去掉之后,把正文抽出来,根据用户的查询词做匹配,但并不理解文字里的含义,如果做更准备的搜索的话,必须要有一定的方法理解,比如这个地方代表价格,这个地方代表航班时间,需要更精确的分析。

  还有搜索的排序,直接决定了搜索引擎用户的满意度,相关度。实际上用一种网页的外在物理属性评判一个网页的价值,这种方法在大规模的海量网页里,大规模地基于概率和统计的方法有一定的合理地方,确实能够体现网页的价值。但在社区里的内容出现了变化,在不同博客之间、帖子之间连接相关的比较少,通过这些东西分析一篇文章、一个帖子是否更重要更相关,这种算法可能不一定更有效。

  但反过来我们会看到,这里有很多认为造成的因素,比如一篇帖子有多少人看多少人回复,在多少不同的网站转载,有多少人有评论,比如视频,有多少人点击、播放,有多少人投票、留言了等等都是通过用户的交互产生的因素。用这些东西叫做人气指标,用非常多的人气指标,在用户产生的内容里决定内容重要不重要,这样排序会更合理。所以对社区内容的搜索,本身对传统搜索引擎带来了很多挑战或者新机会。

  对传统的门户来说,目前社区的发展也有一些挑战,比如传统门户的手工编辑的方式,肯定无法组织、涵盖这么广的社区内容,不可能用几百个编辑处理这样的事情,而是千千万万用户来参与的。第二,现在很多门户也在做社区,但是即使是一个再大的门户,它关心用户的爱好点是有限的,可能满足大众的需求,对细致的个性化阅读比较难以满足。也包括一个大的门户做的社区,比如关于汽车、房产,未必有一个专业的社区做的好,所以社区将来不是一种的,某几个网站就可以垄断社区内容,而一定有很多不同特点的社区存在。

  更重要的一点,谈到社区 UGC 对用户行为的影响,我觉得也带来很多不同的方法。这是我们对搜索的理解,传统来说对搜索的理解是输入一个关健词得到一个列表,这是用户有明确的目标。我知道我自己想做什么找什么用这种方式搜索,对社区来说,或对娱乐生活为目的的社区来说,很多用户没有目标,就是随便看一看,没有什么自己感兴趣的东西,所以很难找到明确的搜索词。这有点像看电视一样,即使将来电视频道丰富了,用户也很难用一些词定位一个频道,随着转一转,看哪个频道好就看一看。

  第二,在中国用户来说会比较明显,很多用户还是喜欢信息直接呈现在自己面前,最好是已经经过分类,更好就是符合我的爱好,我只需要点击阅读就好。比如 Google 的视频搜索和 Youtube 做比较, Google 的视频还是用关健词,但 Youtube 不是,是视频分享的社区,其实不仅仅是视频的分享,变成了交友网络或者一个社区,虽然没有保证找到全部的视频。但都是很多用户推荐的视频,流量远远大于 Google
  那么还有,用户对内容和信息的需求可能通过其他的是来获得,很多的用户有趋同的心理,他愿意找热门或者是潮流的。比如说各种各样的排行榜,所以对于娱乐的内容,比如说百度做视频或者是音乐都会有各种各样的排行榜。国外还有专门的网站做这样的 TOP TEN 这样的东西。那么很多人有这样一个经验,比如说你想买一款平板电视,我觉得你很难说只是看一下厂家或者是看一下这个厂家网站上所介绍的东西,就能下定决心说我要买电视,很多人到论坛或者是社区里面问这个问题,看一下别人的经验或者是评价。那么这其实就是说借助别人的知识或者是经验得到一些信息。那么怎么通过人和人的互动或者是分享得到这些经验或者知识呢?这也是人们找到自己需要的一种模式,那么这种模式在社区里面是一个非常重要的方面。也可以举一个例子,就是亚马逊图书的推荐,比如说买过这本书的人还买了什么书,这是一个很简单的例子。

  所以说,我们对社区搜索或者是社会化搜索的理解,目前的关键词的方式,我认为他是一个比较传统的图书馆式的检索,只是一种狭义地搜索方式。但是我们看将来对于社区或者是人在社区参与的过程中,他们对信息的需求,搜索只是一种手段,他们的目的是找到需要的信息,所以其实还是有很多其他的方式,我们把它都可以归到一个广义的搜索行为模式里面。比如说各种分类的排行,怎么找到这种阅读的热点和趋势,那么这种东西是不是可以不用搜索,直接我通过一种方法就可以展现给用户看,而且在看的过程中他越来越逼近他自己个性化的需求,逼近他自己所关心的领域里面的热点或者是趋势。那么怎么去找到一些专家,在某些领域里面的专家,找到他们的一些经验?或者找到一些跟你有共同兴趣、爱好的人?去分享他们的经验?那就是在这个内容里面挖掘那些人他们所推荐的知识或者经验。还有从你现有的文章里面找到一些有关联的东西,这所有的方式都是人们找到自己需要的信息的方式,而不仅仅是关键词的搜索。所以对于奇虎来说,互联网搜索的内容就是以用户自己创建为主体,那么用户对于信息的需求有搜索、发现、存储、分享等各个环节组成。我们试图针对 UGC 的特点,对搜索方面的不同的要求,我们怎么样更好地解决海量的社区内容的搜索、发现和让用户分享这方面的需求。包括怎么样对这些内容做进一步的挖掘,除了内容以外怎么挖掘里面的人的兴趣和爱好,并且通过他们之间产生互动帮助用户找到更有价值的信息。这就是奇虎关于搜索的一些想法,谢谢大家!

  主持人吴明华:接下来是一个互动的环节。

  提问:我是来自天津的一家网络公司,参加这次互联网的发展论坛,我们想看到的就是一个互联网包括搜索引擎在国内将要有怎样的一个发展。可是今天下午我不知道各位是我理解有问题,还是什么原因,大家都讲了各自的特点,没有让我们能够看到搜索引擎将会有怎样的创新,将会面对怎样的发展,没有给我们一个很好的方向。请刘总回答一下,因为刘总是 Google 中国工程技术总监, Google 是全球最大的搜索引擎,但是他在国内我理解是水土不服,比如说 Google 和百度对比,他的使用群体包括检索到的内容,我想问一下刘总, Google 在这个方面和百度的市场份额对比来说,将会有怎样的举措?

  刘骏:其实我刚才讲了一些多维搜索,实际上是我们一个发展的方向之一。可能大家有一些误解,多维搜索是不是简单地把图像或者是音乐整合在一起这个就是多维搜索,其实不是这个意思。多维搜索是什么意思呢?就是搜索考虑的方面越来越多。其实刚才讲到的,比如说时间上的、地域上的,都是在搜索行业里面是各种各样的信号。考虑的信号会越来越多,这会导致用户的体验有一个明显的变化。举一个简单的例子, Google 你每打一个问题查询,我们有 1000 台机器考虑你各种各样的需求,但是这 1000 台机器我们在火车票方面就不如陈总的公司搜索的结果,说明这还有一个发展的余地。但是这个关键点在哪里呢?有一个比较明显的效果,就是如果你搜索 Google ,你说 1000 台机器可以带来什么样的实惠,你可以看到 Google 的搜索结果有一个比较重要的特性就是 Google 的搜索结果很多样。为什么是这样的结果呢?这就是因为考虑的各种各样的因素非常多。不能说大家现在都子讨论的东西,但是人家找的东西是很偏僻的东西,但是就没有结果,所以我们要考虑各种各样的因素,我觉得我们在这方面做得相当不够,还有很多发展的余地。

  包括刚才在坐的也谈到了垂直搜索和中心搜索,这两个哪个是以后的发展方向?其实我觉得这两个并不矛盾,这两个的意思是不一样的。从广义的方面来看,比如说有一个搜索是专门搜索清华大学的,它对清华大学的了解比任何一个大型的搜索引擎更了解清华大学。但是如果一个用户要找到清华大学,他们可能所要依赖的就是一个比较大的大型的搜索引擎,所以他们其实两个解决的问题并不是同一个问题,所以我认为都会成功,都会有市场价值的余地。

  至于说 Google 和百度是不是竞争,虽然我有很大的信心,就是 Google 在中国会有很大的作为,但是我也不是市场研究专家,所以我也不会预测市场份额的变化等等。我所做的工作就是怎么样继续创新,满足中国用户的需求。我们在去年大概 7 月份左右开始成立了一个团队,就是中国工程院,人员大概是今年夏天到位,我们已经开始逐步地推出了很多的产品。其中最重要的,我们在我们的搜索质量上我们已经有一个大幅度的提高了。不知道大家最近有没有用过 Google ,跟 6 个月以前的搜索质量已经不能同日而语了,对中国的本地化做得相当有进步,我只能说今后我们会更加努力,给中国的用户一个更大的惊喜。

  主持人吴明华:下面请噢噢中国的陈总。

  提问:你好,我是噢噢中国的陈商祺,刚才刘总说 Google 的本地化现在做得很好,但是在去年我们噢噢中国本 Google 封杀长达 1 年的时间,后面有一个中国中小企业的会上,有一个中国的主管,他说看来 Google 的本地化做得不是很好,但是回去之后发现噢噢中国 341 个地区的又被封杀了,所以我在噢噢中国可以搜索到任何企业的地址、电话,但是在 Google 里面可以搜索到其他的企业,但是搜索不到我们噢噢中国,所以是不是 Google 对于我们噢噢中国存在着封杀?

  刘骏:我现在也无法回答你,到底是什么原因导致你的网站不在。我非常想帮助你,如果你在会后告诉我你的网站我会帮你调查一下,我现在实在不知道。

  提问:谢谢主持人,奇虎石总,在互联网界有一些搜索方面的公司,全靠人力解决搜索方面的问题。比如靠网友的力量进行点评,进行信息的排序,您在这方面有什么看法呢?

  石晓虹:国外会通过一些人对内容进行整理或者进行评价,甚至还出现一些公司用人来归纳用户搜索的问题。我们现在从技术角度看,这种方法不太可取,很难扩展,尤其是人回答问题给奖金的这种方式。 2.0 有很多普通用户参与,这种参与不见得只是投票、打分,如果搜索引擎能够用对人的影响考虑进去,做相关排序的话,我认为这一定是改善搜索结果重要的途径。单纯靠一个人,有一些小的网站,可能单纯一个社区或者几个社区靠这种方式,很难形成根本性的变化,但把整个互联网用户考虑进去的话会有变化。

  主持人吴明华:不知不觉中已经过了 2 个小时了,各位嘉宾、下面的听众,对搜索引擎做了深刻的沟通,接下来大家有更多的机会通过网络、现实大家认识了,希望今后有更多的交流机会。非常感谢与会的各位和台上的嘉宾,接下来搜索引擎论坛就到此为止。谢谢各位嘉宾以及各位朋友。
 
 

你可能感兴趣的:(工作,搜索引擎,互联网,生活,娱乐,Google)