大数据产品介绍

elasticsearch
elasticsearch 简称ES : 分布式可扩展去中心化的实时搜索和分析引擎
去中心化:即无主节点,对外部来说,无论你访问的是哪个节点,都是和整个集群在互信。它的主节点是可以通过选举产生的。
特点:分布式实时文件存储,并将每一个字段都编入索引,使其可以被搜索;可以扩展到上百台服务器,处理PB级别的结构化或非结构化数据。
存储:Elasticsearch是面向文档型数据库,一条数据是一个文档,用JSON格式存储。
搜索:ES的一切设计是为了检索快速响应。使用倒排索引的设计方式,为每一列都建立索引。虽然会牺牲插入和更新的效率,但ES的核心是查询。

shards : 索引分片。将一个大的索引分成多个分片,分布到不同节点上,构成分布式搜索。只能在索引创建前指定,其后不可更改。
replicas :副本。 1、提高容错性 2、查询时可以负载均衡。
recovery : 数据重新分布。 新增或减少节点的时候,会recovery

Kafk高吞吐量的分布式发布订阅消息系统 受zookeeper管理
Kafka的特性:

  • 高吞吐量、低延迟:kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒,每个topic可以分多个partition, consumer group 对partition进行consume操作。
  • 可扩展性:kafka集群支持热扩展
  • 持久性、可靠性:消息被持久化到本地磁盘,并且支持数据备份防止数据丢失
  • 容错性:允许集群中节点失败(若副本数量为n,则允许n-1个节点失败)
  • 高并发:支持数千个客户端同时读写

Redis: 高性能的key-value数据库。
原子性:要么都成功,要么都失败;同时基于原子性也可以支持到事务,使用MULTI和EXEC指令包起来支持事务。
基于内存: Redis运行在内存中但是可以持久化到磁盘。
性能极高: Redis能读的速度可以达到100000次/s,写的速度是80000次/s 。

hive 基于Hadoop的一个数据仓库工具
1、hive本身不做数据存储,数据存放在hdfs上,对于表来说则是hdfs上的一个预定义好的额目录。hive不支持对数据的修改和增加。
2、hiveQL是一种类sql,最终会转化为Hadoop的MapReduce任务。学习成本低,通过类sql实现mr任务,使逻辑可读性增强。
3、hive适用于离线的大数据分析统计,有很高的延迟,在任务的提交和调度的时候都有很大的开销。所以几百MB的数据不适于用hive分析统计。
hive特性
● 支持创建索引,优化数据查询。
● 不同的存储类型,例如,纯文本文件、HBase 中的文件。
● 将元数据保存在关系数据库中,大大减少了在查询过程中执行语义检查的时间。
● 可以直接使用存储在Hadoop 文件系统中的数据。
● 内置大量用户函数UDF 来操作时间、字符串和其他的数据挖掘工具,支持用户扩展UDF 函数来完成内置函数无法实现的操作。
● 类SQL 的查询方式,将SQL 查询转换为MapReduce 的job 在Hadoop集群上执行。

spark 基于内存的计算。
**使用场景:**可以支持交互式查询(Spark SQL)、批处理、流计算(Spark Streaming)、图计算(GraphX)、机器学习(Spark MLlib)。
通用性:spark不同处理不同类型的数据可以在一个应用中无缝使用,统一的解决方案有效减少开发、减少维护的人力成本和部署平台的物力成本。
**兼容性:**spark主要运行在Hadoop上,可以支持Hadoop的hive、hbase和Cassandra等主要数据格式。所以Hadoop上只需安装spark即可使用这些功能,无需数据格式的迁移。
应用
Yahoo将Spark用在Audience Expansion中的应用,进行点击预测和即席查询等
淘宝技术团队使用了Spark来解决多次迭代的机器学习算法、高计算复杂度的算法等。应用于内容推荐、社区发现等
腾讯大数据精准推荐借助Spark快速迭代的优势,实现了在“数据实时采集、算法实时训练、系统实时预测”的全流程实时并行高维算法,最终成功应用于广点通pCTR投放系统上。
优酷土豆将Spark应用于视频推荐(图计算)、广告业务,主要实现机器学习、图计算等迭代计算。

flink: 流处理 基于内存的,也可定制化内存,避免oom错误

storm: 流处理。

hbase: bigtable 基于Hadoop的列式存储,时间戳记录。
HBase是一种Hadoop数据库,经常被描述为一种稀疏的,分布式的,持久化的,多维有序映射,它基于行键、列键和时间戳建立索引,是一个可以随机访问的存储和检索数据的平台
HBase使用场景和成功案例
互联网搜索问题:爬虫收集网页,存储到BigTable里,MapReduce计算作业扫描全表生成搜索索引,从BigTable中查询搜索结果,展示给用户。
抓取增量数据:例如,抓取监控指标,抓取用户交互数据,遥测技术,定向投放广告等
内容服务
信息交互
数据中台
数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。
数据中台建设的基础还是数据仓库和数据中心,并且在数仓模型的设计上也是一脉传承,之所以我们现在处处推崇数据中台建设及应用,一个是因为数据中台确实有过人之处,另一个是这套模型在阿里体现了巨大的应用价值。
数据中台能力
数据资产管理 数据质量管理 数据模型管理 构建标签体系
数据应用规划及实现
数据中台策略的基本理念是,将所有的数据汇聚到数据中台,以后的每个数据应用(无论是指标和分析类的,还是画像类和大数据类的)统统从数据中台获取数据,如果数据中台没有,那么数据中台就负责把数据找来,如果数据中台找不来,就说明当前真没有这个数据,数据应用也就无从展开。
数据中台构成
数据仓库 大数据中间件 数据资产管理

你可能感兴趣的:(技术)