一淘架构

一淘架构
抓取系统: 包括网页抓取、抓取调度、域名解析、死链检测、JavaScript执行等。目前,一淘的资讯、话题、问答combo中的大部分数据都 是通过抓取系统从互联网获得的。它是一淘一个重要的“原料厂”。
离线处理系统:一个功能众多、可灵活定制的Pipeline,其主要功能有:网页编码识别与转换、网页解析与内容抽取、购物相关站点发现、列 表页识别、网页分类与消重、链接提取与合并、关键词提取、众多网页静态feature的提取。它是一淘的“加工厂”。 
存储系统:负责存储抓取系统和离线处理系统的产出,同时向这两个“厂”提供高性能、大容量的存取服务。目前我们采用的是 Hadoop+HBase的体系结构,将网页、链接、图片进行了分类存放。存储系统是一淘存放原料、半成品的“核心仓库”。 
在线引擎:负责对一淘前端搜索请求返回查询结果,它生成索引的数据来自存储系统。在线引擎是一淘面向用户的“成品生产车间”。 
一淘前端:负责向终端用户展现搜索结果页,它是一淘的“门店”,设有各式各样橱窗:商品、淘吧、资讯、论坛、问答、图片、网页等。值 得一提的是,一淘采用了阿里集团新一代的HA2引擎技术,HA2结合了开源引擎和阿里上一代引擎技术的设计优点,在支持全文检索的同 时,兼备了商品搜索的各种功能。

淘宝技术
介绍淘宝所常用的分布式系统,并进行分析 HBase:
支持大型表格结构化数据存储的可伸缩、分布式数据库。 
HDFS:向应用数据提供高吞吐量访问的分布式文件系统。
Hive:提供数据汇总和随机查询的数据仓库基础设施。
MapReduce:用于对计算群集上的大型数据集合进行分布式处理的软件框架。 
Pig:用于并行计算的高级数据流语言和执行框架。 
ZooKeeper:用于分布式应用的高性能协调服务。   

你可能感兴趣的:(spider)