垂直搜索引擎技术
一、互联网信息采集与处理检索系统
1. 新闻搜索引擎SPIDER
2. 网页搜索引擎SPIDER
3. 定向专业搜索SPIDER
4. 基于视觉的正文智能提取模块(自动正文提取)
5. 智能摘要提取模块
6. 去重模块
7. 智能分类模块
8. 检索前端类聚模块
9. 分词模块
10. 索引模块
11. 最大可支持10TB以上数据容量,可分层建索引库、分布索引、分布检索、分布采集处理。
二、WEB结构化信息抽取技术(格式化数据抽取)
应用于垂直搜索引擎的重要技术,抽取出结构化数据。
三、自然语言的结构化信息抽取技术
应用于垂直搜索引擎,情报分析处理(科研产品)
垂直搜索发展方向
互联网发展至今,其间历经浮躁、追捧、泡沫、寒冬,现在正逐步向人们的日常生活消费、工作空间延伸。人们对互联网的需求也从最初的娱乐、聊天日益转为更加实际的衣、食、住、行、求医、求职等。人们获取信息的渠道从最初的几大门户发展到习惯使用Google、Baidu、Yahoo这些通用的搜索引擎。然而这些行业通用的搜索引擎能满足用户更加个性化、细化的信息需求吗?
最近很多人在讨论搜索引擎的发展趋势,普通认为垂直搜索将是下个潜力市场。从Yahoo推出旅游搜索、Goolge的本地搜索、Baidu的地图搜索、可以看出这些通用搜索巨头所面临的竞争和搜索引擎的发展趋势。如果说搜索引擎的发展方向是垂直搜索,那么垂直搜索的发展方向又是什么?
什么是垂直搜索?
所谓垂直搜索,是针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是专、精、深,且具有行业色彩。它是与通用搜索引擎截然不同的引擎类型。垂直搜索引擎专注具体、深入的纵向服务,致力于某一特定领域内信息的全面和内容的深入,这个领域外的闲杂信息不收录。比如:用户搜索上海长宁区的可带宠物就餐的川菜馆的电话、菜单价格、交通指路等这就是一种垂直搜索。
搜索领域有句名言:就是用户无法描述知道他要找什么,除非让他看到想找的东西。微软研究院一名技术专家说:“75%的内容通用搜索引擎搜索不出来”。而垂直搜索引擎的诞生则是为了更大程度的提高搜索的“查全率”和“查准率”。正如一句英文所说的“Anything you can search at google you can buy on eBay”。垂直搜索引擎通过对行业领域内的信息模型和用户模型结构化的搜集或再组织,提供更多、更专业、个性化的行业相关服务。
垂直搜索引擎的特点
其二 来源于自身平台。
可能很多人认为来源于自身平台的搜索只能称为站内搜索,不应该定义成垂直搜索。我不同意这种观点。事实当某一平台上的信息达到足够量大的时候,比如eBay、taobao上的商品数量达上百万种你能说他的搜索不是垂直搜索吗?况且垂直搜索本身就是从这些行业站点提取出数据的。
当然,eBay、taobao、Alibaba也属于垂直搜索引擎,从用户使用的行为过程来看也是先有搜索动作而后才会有交易,不过更多时候人们愿意称他们为b2b、c2c交易平台。
跟通用搜索引擎相比,垂直搜索引擎有哪些数据特性?垂直搜索引擎的数据倾向于结构化和格式化。比如在某个购物类的垂直搜索引擎上输入“mp3”就会出现,该产品的相关属性如:内存、尺寸、大小、电池型号、价格、生产厂家等相关技术属性,有的还提供比价服务。在某餐饮搜索引擎的高级搜索针对一家餐馆的搜索属性设置多达300个选项,把你想到和没想到都列出来了,这就把搜索服务专业化、细致化、个性化了。
当然,垂直搜索引擎的广告模式也不会再仅是通用搜索引擎的那些套路。除了排名和竞价之外,还很多种广告营利模式。比如,加盟收入、订单提成、会员会费收入、交易费用收入等。由于垂直搜索引擎能提供更为集中的受众群体,因此它的“单次点击有效率”相比通用搜索引擎更为有效,风险更小。
垂直搜索引擎的几个发展方向
更深化发展后,垂直搜索未来将发展到哪几个方向,是很多业内人士都在讨论的问题。笔者认为,它今后会向这几个方向发展。
首先,目录再分类。与早期的网址分类搜索引擎相似,垂直搜索引擎只选定了某一特定行业或某一主题进行目录的细化分类,结合机器抓取行业相关站点的信息提供专业化的搜索服务。这种专业化的分类目录(或称主题指南、列表浏览),很容易让用户迅速知道自己要找的是什么,并且按目录点击就能找到。
最近Looksmart在日本推出了专门搜索饮食方面文章的垂直搜索引擎LooksmartJapanesefood,这是Looksmart第一个国外垂直搜索引擎。Looksmart甚至一口气推出了多达19个独立的垂直搜索引擎,分别涉足汽车、城市、教育、健康、家庭生活、赚钱、音乐、娱乐、运动、时尚、科技游戏、 旅行。另个五个teenja.com、gradewinner.com、21hoursholar.com、Parentsufr.com、gobelle.com分别针对青少年 、大学生、tweens、父母、女性。
其次,垂直搜索引擎的第二个发展方向是深度挖掘型搜索,其特点是“元数据模型再组织、再整合、深度数据挖掘、互动性”。
通过对元数据信息进入深度加工,该类垂直搜索引擎为用户提供网页搜索引擎无法做到的专业性、功能性、关联性、有的加入了用户信息管理以及信息发布互动功能,能很好地满足了用户对专业性、准确性、功能性、个性化的需求。 Healthline是医疗行业垂直搜索引擎它保证网上所有医疗信息都在你掌握之中。进入healthline的网站,你会发现他简直就是一个无所不知的医生。
Healthline 的医疗医疗垂直搜索平台使用使用组合语义查寻技术和全面消费健康分类学 。Healthline分类数据由超过850,000项医疗相关元数据, 和50000 条相互关连的医疗概念组成。 这些独特资源使Healthline 翻译每天用户使用语言以便精确地匹配医疗术语,使得消费者能迅速从结果中判断确切的需要信息。第三,垂直搜索可以向本地搜索拓展,其特点是借助于地图元素来发展。
到目前为止,各大搜索引擎Google、Yahoo、msn都推出了本地搜索而且都相对成熟。国内很多人把本地搜索理解等同于地图搜索,这是一种观念上错误。地图搜索只是本地搜索的一个功能元素,就像本地的天气预报一样。本地搜索的关键需求在于人们大多是在本地购物、就餐、娱乐、健身、修车、喝咖啡、工作等。简单地说,去一个什么样地方吃饭要比怎么去重要,地图只是确定和帮助你找到这个地方的工具。如果你不知道一家餐馆是否有你喜欢的菜,也不知道他的消费水平,更不知道他的服务水平及顾客评论,但你知道乘什么车能到达这家餐馆,那么你会选择这家餐馆吗?Map 不等于 local,但local一定包括map。不信你打开map.yahoo.com和Local.yahoo.com比较一下。国内的几大搜索引擎的本地搜索从2005年初开始到现在却仍停留在地图+黄页+公交指路的地图搜索水平阶段。只有中搜的“搜索北京”有点接近本地搜索,可惜没有加地图定位功能,仍停留在文本、图片展示的时代。国内做本地搜索的还有citysee等同样没提供地图定位功能。总体来说国内的本地搜索在数据挖掘、开放接口、信息共享方面和国外比存在很大差距,国外的垂直搜索已经形成了事实上的数据供应链关系。
第四种可能,垂直搜索引擎可以向搜索交易平台发展。
垂直搜索引擎由于自身对行业的专注,使得它可以提供行业信息深度和广度的整合提供更加细致周到的服务。对消费领域可以推出针对某一行业的搜索交易平台。比如美容搜索、餐饮搜索、购物搜索、机票旅游搜索。这种交易平台针对的是小型商家,比如一家川菜馆,一个只有几个人机票代理商,一家美容院。他们甚至没有自己的站点,有些电话号码都是用的是私人的,你114根本查不到,但他们确实需要通过开展电子商务来获得更多的顾客。
最近,healthline垂直搜索获得了1400万美元的融资,强力地刺激了人们对垂直搜索市场认可和期待。相信在未来几年的互联网搜索市场垂直搜索引擎一定会得到更大的发间和机会。