介绍一些平时用得到的服务/组件

介绍一些平时用得到的服务/组件

组件名 属性标签 特性 使用场景
Mysql 关系型数据库,行式存储,支持sql 轻量级数据分析,存储 hive的元数据,kettle的资源库,web 应用后台库
Oracle 关系型数据库,行式存储,支持sql 中量级数据分析,存储 。可分布式 BI(商业智能)
ES 分布式全文搜索引擎 ES自动可以将海量数据分散到多台服务器上去存储和检索,支持海量数据进行近实时的全文检索(like “%ABC%”)和结构化检索(= “ABC” ) 站内搜索(电商,招聘,门户等),IT系统(OA,CRM,ERP);维基百科,GitHub
redis 高性能的key-value数据库 读写性能极高,丰富的数据类型 结合storm的实时查询分析,java高并发秒杀
memcache 基于内存 分布式的高速缓存系统,对于一些大型的、需要频繁访问数据库的网站访问速度提升效果十分显著。 单点登录页面跳转的时候,解决重复性登录的问题。
Kafka 高吞吐量、低延迟:kafka每秒可以处理几十万条消息;
可扩展性:kafka集群支持热扩展;
持久性、可靠性:消息被持久化到本地磁盘,并且支持数据备份防止数据丢失;
容错性:允许集群中节点失败(若副本数量为n,则允许n-1个节点失败);
高并发:支持数千个客户端同时读写
一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统;
它的最大的特性就是可以实时的处理大量数据以满足各种需求场景;
比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等;
用scala语言编写
日志收集:可以用Kafka可以收集各种服务的log;
消息系统:解耦和生产者和消费者、缓存消息等;
用户活动跟踪:Kafka经常被用来记录web用户或者app用户的各种活动,如浏览网页、搜索、点击等;
运营指标:Kafka也经常用来记录运营监控数据;
流式处理:比如spark streaming和storm
ETL工具
Kettle ETL工具 本地开发,通过资源库同步在服务器执行 常用ETL工具之一
Sqoop ETL工具 常规etl工具,可集群部署 mysql与hadoop数据迁移等
调度工具
azkaban 调度工具 处理有依赖关系的复杂任务调度,只支持mysql存储基本信息 常用调度工具之一
crontab linux自带调度工具 简单任务调度 适用日常少量调度

你可能感兴趣的:(Linux,linux)