杀向互联网

杀向互联网

(2007-04-11 22:21:57)
转载▼
  分类: 技术视野

(一)

2006年1月13日,我在北京大学与赵海燕博士一起主持了YOCSEF报告会“基于内容的检索与搜索引擎”,请来的三位讲者是:白硕(中科院计算所研究员)、陈沛(中国搜索CEO)、朱会灿(Google亚洲语言搜索技术负责人),作为执行主席,按照惯例我写了一段会议宣传稿的引言:

 

 

“2005年,李开复加盟Google,Google正式登陆中国;百度在纳斯达克成功上市;阿里巴巴购并雅虎中国,马云誓言成为中文搜索的霸主;中搜的第三代智能搜索引擎独树一帜;新浪推出爱问,搜狐推出搜狗,网易、腾讯等大型门户网站都在进军搜索引擎市场,一时间,中国的搜索市场群雄蜂起,煞是好看,搜索成为2005年互联网的最大亮点。是新一轮互联网商机,还是新一轮互联网泡沫?目前的搜索引擎已经达到了技术的顶峰,还是一切才刚刚开始?在基于关键词的搜索技术之后,基于内容的智能化个性化的搜索技术是一个朦胧的概念,还是很快就会变成现实?来自国家顶级研究机构的资深专家,来自国内著名搜索公司的CEO,来自世界搜索巨人Google的高级专家将为我们解读未来的搜索技术。”

 

 

写得比较仓促,竟然忘了提及微软,一个可能的原因是我以及我周围的人平时绝少使用MSN进行搜索,MSN搜索在美国位列三甲,但在中国的市场占有率还太小。微软组建了搜索技术中心,摆开足够的架势要遏制Google的挑战,微软也的确有很多非常优秀的研究人员,比如洪小文、马维英等,但是在商业上微软能够在中文搜索领域击败Google吗,很难预测。微软是软件帝国,但如今的战场是互联网,传统的软件生产销售模式势必在一定程度上阻碍微软向互联网的转型,这种阻碍可能是显式的,但更多的是隐式的,为了适应一个时代而训练出来的思维模式在一个新的时代里将成为包袱。

 

 

一项新的发明要想放到MS Word的下一个版本中去,至少需要提前2-3年进行产品设计,同时由于MS Word十分庞大,给每一项技术预留的计算资源很有限,因此在资源受限的情况下,这项新的发明很难发挥到极致。当产品推出的时候,打了折扣的发明已经显得有些过时了。然而任何一项新的技术可以立即放到网上的Google实验室里,立即被千万用户所使用,并且和运行在PC机上的程序相比,运行在Google数千台服务器上的程序拥有无比优越的计算资源。在销售方面,MS Word要经过几年一个轮回才能够更新换代,每次更新换代,从刻录光盘,包装,运输,放到软件专卖店的柜台上,用户支付、安装、使用,整个流程十分繁琐,而Google搜索系统的更新每时每刻都在进行,千万用户在使用Google的过程中也帮助Google进行了测试,同时用户点击了广告,广告商的钱源源不断地流入了Google的腰包。互联网的商业模式是一个根本性的革命,对此那些在传统软件企业里的管理、研究、开发和市场人员能否改变原有的工作方式成为这些企业能否在网络大潮中生存发展的决定性因素。

 

 

记得有一个故事说,当比尔盖茨意识到微软在网络浏览器方面落后于Netscape的时候,断然下令很多研究组中断手头已经研究了几年的项目,格式化硬盘,开始IE浏览器的研发,并迅速击败了Netscape,如果把搜索引擎比喻为艨艟巨舰的话,浏览器就只是一个小舢板,迅速开发IE是有可能的,但是微软在搜索引擎方面却迟迟推不出一个能够和Goolge比美的系统来,另一方面,用Window捆绑IE的杀手锏在对付Google的时候失效了。微软真的有点老了,尽管他的麾下仍然英才荟萃,尽管微软研究院在学术方面的创新令人眼花缭乱,但是在运作模式方面,Google显然处于领先地位。

 

 

在中国,由于盗版问题迟迟无法解决,软件业始终无法成长起来,金山书写了中国软件业的传奇,但在金山转向网游以前始终是一个小公司,因为金山做的是通用软件,因此金山的名字被广大用户所熟悉,但是由于获利太少,十几年过去了金山仍然是一个小公司。金山转向了网游,解决了收费模式问题,迅速成为四大网游企业之一,利润滚滚而来,企业规模迅速扩大,这是互联网的功劳,套装软件的时代已经过去,互联网软件的时代已经正式来临。当然,新的服务模式并不能保证互联网公司长盛不衰,金山转型获利的同时,传来令人震惊的消息,网游老大盛大公司一年亏损5个亿。曾几何时,盛大悄然收购新浪,傲视群雄,转瞬间几款游戏失败,陈天桥就挂了。

 

 

瞬息万变的互联网世界,你方唱罢我登场的虚拟舞台,令人眩目,令人流连,令人心潮澎湃,令人跃跃欲试。互联网是一个顶级的放大器、加速器,一点领先,一点切合用户需求的创意就可能让你声名鹊起,让你日进斗金;一点落败,一点疏漏,也可能使你跌入谷底,转瞬间重新成为穷光蛋。随着世界范围的互联网复苏,随着过亿的中国用户接入互联网,中国互联网的又一轮热潮已经实实在在地摆在每一个有着英雄梦想的IT青年面前,是时候了,鼠标在手,屏幕生辉,呼兄唤弟,杀向互联网。

 

 

(二)

2000年初,我在微软给李开复写了一个建议,全面阐述了一个被我称为全球信息交换(Global Information Exchange,GIE)的idea,得到了他以及张宏江的认可,然而李开复同时说,你的想法如果创建一家公司很好,但是在研究院里不适合做,意思就是太偏重于商业开发。我太喜欢自己的想法了,不甘心付诸东流,于是找了两个朋友策划创业。记得我们三个人一起吃了三顿饭,第一顿我说了自己的创业思路,大家非常兴奋;第二顿大家开始犹豫,因为各自的工作都相当不错,收入不菲,谁也不愿意彻底下海;第三顿是散伙饭。

 

 

随即,互联网泡沫破灭了,我也回到了哈尔滨,创办并担任一家公司的总经理,我仍然希望能够在互联网上做事,于是策划了基于双语例句搜索的英文辅助写作系统,并提出做一个轻型客户端,放到桌面,常用例句在本机搜索,大批量数据用server提供搜索服务,最终从例句搜索拓展到其它信息的搜索。然而,投资方都是不懂计算机,或者只懂传统软件的人,他们无法忍受互联网企业前期烧钱的阵痛,无法理解通过互联网快速占有用户资源的绝大价值,我提出的项目被认为只适合一个课题组做,不适合被用来创建公司。手下的员工有的是硬件背景,有的来自商业企业,他们从自身养家糊口的利益出发,也无法接受先让公司赔钱,通过免费的例句检索服务占领市场的思路,这个项目彻底下马。

 

 

就在我的梦想再次破灭之时,金山总裁雷军来到了哈工大,他第一次看我做双语例句检索的演示时也没有意识到这个工具有用,他问我:“这个软件有什么用”,我说可以帮助中国人写出地道的英文。几个月过去了,预期和金山的合作没有任何进展,忽然一个晚上雷总来了电话,说要推进双方的合作,并且可以用例句搜索作为第一个合作的项目。仅仅半个月过后,在金山词霸的网站上,我们的短句搜索运转起来了,并且很快受到了用户的普遍欢迎,事实证明,这个软件对用户写英文很有帮助,软件的粘度很高,国内外都有很多用户开始利用短句搜索写英文,这是迄今为止最让我感到成就感的一个项目,因为我的工作对众人有了切实的帮助。

 

 

2005年末,有一天我登陆金山词霸的网站,发现他们推出了“词霸豆豆”,那正是我在做例句搜索之初构想的轻型客户端。有人说,当你有一个好的Idea的时候,世界上已经有100个人在做了。的确,无论在商业上,还是在学术上我们每每发现自己的新创意已经被别人做过了,但是我们在扼腕叹息的同时也要找到充分的自信,因为我们也处在前沿,别人想到的我们也能够想到,如果我们能够逐步站到最前沿,并且能够果断地开始行动,专注地开展工作,那么下一个英雄就可能是我们自己。以前我常对我的学生说:王侯将相,宁有种乎。

 

 

更令我追悔的是我自以为绝妙的全球信息交换GIE,当我看到新浪在2005年推出的IAsk知识齐分享时,刹那间我真的有点失落,这个系统从界面到运行思路诸多细节几乎和我提出的GIE完全一样,而且我的GIE构思中还有一些想法是目前的IAsk没有做到的。据此,我对自己的商业策划能力有了很强的信心,同时我也深切地认识到,光有点子,在互联网大潮中仍然是无奈的,即使2000年我和朋友们下海做了GIE也未必能够做大,因为我们远没有新浪的用户资源,有点子只是创业的诸多条件之一,还要有技术,有资金,有伙伴,否则你的点子只不过是划过你梦境的一颗流星,转瞬即逝,徒增遗憾。

 

 

新一轮互联网的热潮又来了,政治运动没有像《芙蓉镇》说的“隔几年再来一次”,但互联网热潮的确是隔几年又来一次,这一次,我们还要错过吗?

 

 

 

(三)

网络大潮,淘尽几多英雄。

 

 

王志东饮恨离开新浪已经快5年了,他新办的点击公司由于他个人的名望而一度受到关注,然而他提出的协同软件的概念过于晦涩难懂,一个商业概念不但不能够被用户理解,连业内的行家里手也猜不透协同软件准确含义,不知道他是不是有意遮掩,总之最近王志东和点击公司的声音越来越弱。王志东更像一个技术专家,他自己也说过他当年应该更专注于中文应用软件的开发。

 

 

张朝阳的面相实在太像一个狐狸了,做搜狐的CEO名副其实。记得当年搜狐岌岌可危,股价跌破一美元,是短信拯救了搜狐。搜狐开发的搜狗从技术上讲很一般,只有人物搜索借助Chinaren同学录资源还有一些优势,今年是狗年,北京到处是搜狗的广告,但光靠广告成不了气候,搜狐在技术方面还很欠缺。

 

 

丁磊竟然和我是同一年上大学的,只比我大一岁,看人家混的。2005年10月的一天,中国首富丁总请我吃饭,我深感荣幸,专程从哈尔滨赶去赴约。去之前,我特意关照Car不要穿得太随便,因为毕竟丁总的名声太响,还是正式一点以示尊重。没有想到,一见面我才意识到年轻的首富穿的是牛仔裤、旅游鞋,背着一个背包,俨然学生模样。言谈也十分轻松随意,不讲虚礼客套。这就是阳光富豪,这就是互联网企业的老板,他不需要对客户屈膝谄媚,因此可以全真保性,这恰好给技术出身还没法放下自尊的青年人趟出了一条创业之路。我邀请丁总去哈工大给学生们演讲,他说他的成功是不可复制的,跟他学的人都死掉了,除了马化腾。的确,互联网瞬息万变,成功者廖若星辰,而互联网成功人士的身上笼罩着比其它行业成功人士更多的运气成分。网易的第一款游戏“大话西游”是买的,而且“大话西游-1”还失败了,但是丁磊看准了网络游戏,任用稳健的CEO,网易快速成长,其利润已超过搜狐的产值,网易今年在纳斯达克中国概念股中独领风骚,股价已经超过90多美元。不过,网易的搜索技术还刚刚起步,从技术上要走的路还很长。

 

 

至少从表面上看,李彦宏的夫人应该是世界上最幸福的女人之一,翁帆的夫君有名有利,但是太老了,而李彦宏年轻、英俊、沉稳、聪明而富有。2004年以前我是从来不用百度的,但2004年以后搜索中文的时候我都用百度,很少用Google,搜索引擎用户的忠诚度一般,几次不佳的搜索体验就可能让一个用户另寻新欢。

 

 

马云是一个神人,看到他的长相让我想起蔡志忠漫画里的庄子。异人必有异样,他常常语出惊人,虚虚实实,商人原也就是如此。

 

 

雷军是我的偶像,他的热忱、才情、幽默令我深深敬佩。2004年末,雷总来到哈工大演讲,由于飞机延误,他抵达会场已经是6:30,他没有吃饭立即投入演说,事先没有任何准备,因为他下飞机时才问我“今天谁讲”,我说“你讲”,他说“哦”,然后就开始聊别的。1小时45分钟的演讲妙语连珠,掌声不断,他有很多商业故事,夹杂着各种幽默调侃,有时惊心动魄,有时发人深省,有时令人啼笑皆非。整个演讲期间,他笔挺地站立,一动不动,一口水也不喝,就这么滔滔不绝地讲着,李开复是演讲高手尚需用PPT,雷军不用,但思路非常清楚,真可谓人杰。雷总对商业问题的判断非常敏锐,他做卓越网,7500万美元卖给亚马逊;他做网游,连续推出《剑侠》《封神榜》,使金山跻身国内网游几大供应商之一;他征战日本开拓毒霸市场,初战告捷。金山,自雷军往下,一色程序员文化,没有轻浮客套,很对我的胃口。

 

 

。。。。。。

数风流人物,下一个是谁?

 

 

 

(四)

搜索的下一个热点是什么?内容整合是一种答案。

 

 

中搜CEO陈沛把内容整合视为互联网公司必须具备的五个核心竞争力之一,网易前任总编李学凌做客新浪大谈内容整合,他们一个从技术的角度,一个从编辑的角度,殊途同归地走到了一起。

 

 

搞搜索技术的人发现,巧妇难为无米之炊,被搜索的资讯库太重要了,而自己又不愿意去雇佣记者采集原始信息,怎么办,“天下文章一大抄,看你会抄不会抄”,陈沛的思路不仅仅是要把新闻的链接集成起来,而是要把内容转贴过来,版权将是一个很大的障碍。不过,陈总有他的见解:如果没有软件盗版,中国的信息化起步会很艰难,现在处在互联网发展初期,资讯盗版亦有其合理性。

 

 

搞网络采编的人发现,信息量太大了,靠人编辑加工越来越困难,编辑提炼出来的热点新闻主观性太强,能不能符合民意很难说,怎么办?他们开始求助于技术,求助于人工智能,希望计算机能够自动采编。自动采编的结果是未来的新闻阅读者必须忍受一定的错误,比如百度关于娱乐人物“白雪”的消息里充斥着“东北地区降温,白雪覆盖大地”的字样。

 

 

当然,内容的整合绝不仅仅限于资讯,对商品信息、职位信息等等融合结构化信息的全面内容整合具有更大的价值。

 

 

洪小文在2005年21世纪的计算大会上提出以数据为中心的搜索,我当时不解其意,我觉得“以数据为中心”这种提法太落俗套。最近我领导实验室开发新闻资讯的搜索,发现从用户需求的角度出发,需要搜索、跟踪、发现、浏览等各种工具,比如用户就是想到网上漫无目的地闲逛,传统门户提供的浏览方式就很有用;当用户希望持续关注某个事件或人物的时候,就不能每天都输入相同的关键词进行搜索,这时需要用到跟踪或者叫推送;对于那些突发的热门话题,用户都可能关心,但是无法实现预制关键词,所以需要用到热点发现;当用户知道自己要找什么的时候可以输入关键词进行搜索,但是搜到的结果太多,看不过来,此刻搜索结果的后聚类派上了用场,每个类别用一个词语作为标签,这其实是在搜索模式之后又加上了浏览模式,二者结合,相得益彰,因此最近聚类式的搜索引擎很时髦。此外,文本分类、信息抽取、关联发现等等工具都能够在处理网络资讯的时候被用起来。用搜索引擎这个概念是在难以概括这样一个信息采集、整理、分发的全过程,叫跟踪引擎、发现引擎等等都不行。

 

 

据此,我理解了洪小文所说的“以数据为中心”,用户需要的是访问他感兴趣的信息,我们提供的引擎必须紧扣用户的需求为其提供各种可能的便利,各种有利的工具,用户访问信息的方式有多少种,我们提供的工具就要有多少种,工具是次要的,数据才是核心。把原始的数据经过各道工序的处理,精炼为对用户有价值的信息并呈现给用户,这个以数据的流动为转移的基本概念必须建立起来。开发者的注意力不能集中在对各种技术指标的痴迷上,而应该集中在数据上,内容聚合的本质是用技术做出一个新的资讯媒体,媒体是目标,技术是手段。注意力的这种转移看似平淡无奇,实则蕴含着深意,必然对搜索引擎未来的发展产生深远的影响。

 

 

有一个疑问是,如果大家都无偿地进行转载聚合,类似于石油的深加工,那么进行原油开采的拥有大量采编人员的新闻机构势必受到伤害,没有了原油,还怎样进行深加工呢?一个答案是大量个人媒体(如Blog)的涌现将为内容整合提供越来越丰富的原始信息,美国今年很多重要的事件都是首先在Blog被曝光的。另一个答案是如果直接转载,那么做内容聚合的网站迟早应该给信息产业链中的前一个环节(采集第一手新闻的机构)支付一定的费用。产业生态环境一定有它自我调节的能力,我们无需多虑了。

 

 

奇虎专注于社区内容的整合,成立仅6个月即获得了2000万美元的投资。内容整合,商机无限,诸君岂有意乎?

0

阅读 (439) 评论 (1) 收藏 (1) 转载 (0) 喜欢 打印 举报

转载列表:

转载

转载是分享博文的一种常用方式...

前一篇: 科研成果转化随感
后一篇: 中文信息处理——纵览与建议

你可能感兴趣的:(互联网,搜索引擎,Google,网游,金山,微软)