- Zookeeper用于集群主备切换。
- YARN让集群具备更好的扩展性。
- Spark没有存储能力。
- Spark的Master负责集群的资源管理,Slave用于执行计算任务。
- Hadoop从2.x开始,把存储和计算分离开来,形成两个相对独立的子集群:HDFS和YARN,MapReduce依附于YARN来运行。
- YARN可以为符合YARN编程接口需求的集群提供调度服务。
- YARN:
ResourceManager 一主多备
NodeManager 一般与DataNode部署在一起。 - 单机硬件配置会严重影响集群的性能。
- 初始化集群机器环境:创建账号、安装JDK、设置时间同步。
- Zookeeper的部署最简单,其节点数必为奇数。
- ZK两个端口,前者是链接Leader后者是用于竞选。
- 部署Spark StandLone集群:
- SSH无密码登录
- 复制解压Spark
- 编写配置文件分发到所有节点
- Hadoop2.x以上支持双机热备。
- Standlone模式只支持简单的固定资源分配策略。
- YARN统一为集群上的所有计算负载分配资源,可以避免资源分配的混乱无序。
- Spark程序由Master还是YARN来调度执行,是由Spark程序在提交时决定的。
- YARN两种调度模式:
Yarn-cluster 模式,用于生产
Yarn-client 模式,用于交互 - Spark计算都是围绕RDD进行的。
- Spark在运行时,一般RDD操作会为每个RDD分区运行一个job。
- Job最简单的理解,它对应一个java线程。
- Spark所有基于文件的生产RDD方法,都支持目录、压缩文件和通配符。
- RDD是Spark的核心抽象,所有计算都围绕RDD进行。
- RDD操作分为两类:
Transformation 转换
Action 动作 - 所有Transformation都是Lazy模式,先记录计算方式,Driver返回结果时开始计算。
- RDD的Transformation实际计算只在Action返回结果时才进行,或者持久化。
- Spark严重依赖传递函数类型的参数。
- 从Driver分发各个节点过程:
Job执行:- 在Driver节点上序列化代码
- 传送至各个计算节点
- 在计算节点上反序列化
- 执行
- Scala function支持序列化。
- Spark的核心是RDD,而RDD是分布式计算的。
- Spark会将Job运行所有依赖的变量、方法、(闭包)全部打包在一起序列化。
- RDD操作的禁忌,不能嵌套调用。
- Action操作输出不再是RDD,返回值Driver程序。
- Spark集群上的资源主要是CPU core数量和物理内存。
- 在程序运行时,每个core对应一个线程。
- Standlone模式下由Spark集群中的master节点进行资源调度。
- Spark调度两类:
- spark程序见的调度(主)
- spark程序内部的调度
- 用户编写的spark程序称为Driver程序。
- 每个驱动程序都有一个SparkContext对象,担负着与集群沟通的职责。
- 集群管理器负责集群的资源调度。
- 执行器,每个spark程序在每个节点上启动的一个进程。
- 一次RDD Action对应一次job。
- Stage,job在执行过程中被分为多个阶段。
- Task,在执行器上执行的最小单位。
- Spark程序间的调度:
静态分配 (主)
动态分配 - 所有集群管理器都支持静态资源分配。
- 当spark为多用户服务时,需要配置spark程序内部的调度。
- 不同线程提交的job可以并行执行。
- 默认spark的调度器以FIFO方式运行Job。
- 公平调度还支持对多个Job进行分组,分组称为调度池。
- Spark性能优势,很大一部分原因是内存和缓存。
- RDD持久化可以多次利用,性能提高10倍以上。
- Spark提供两类共享变量——广播变量和计数器。
- 广播变量是一个只读变量,在所有节点上都是一份缓存。
- 计数器只能增加,用于技术和求和。
- 容错机制是分布式系统的一个重要能力。
- DAG:有向无环图的计算任务集合。
- 分布式系统经常需要做检查点。
- RDD也是一个DAG,每一个RDD都会记住创建该数据需要哪些操作——血统。
- RDD依赖:
窄依赖 —— 父分区对应一个子分区
宽依赖 —— 父分区对应多个子分区 - Spark提供了预写日志(journal),先将数据写入支持容错的文件系统中。
- Spark master容错:
Standalone ——Zookeeper
单点 ——本地重启 - Slave节点失效:
- Work异常停止
- 执行器异常停止
- Driver异常退出
- 监控管理:
- Web界面
- Metrics
- 外部系统
- Web界面:
- 调度器stage,Task列表
- RDD大小和内存文件统计情况
- 环境信息
- 正在执行的执行器信息
- Standlone模式的集群管理器有自己的web界面。
- Web界面表格的头部都支持点击排序。
- Spark程序一般都是由脚本bin/spark-submit来提交的。
- RDD特点:
- RDD是只读的
- RDD可指定缓存在内存中
- RDD可以通过重新计算得到
- RDD核心属性:
- 一个分区列表
- 一个依赖列表
- 一个名为compute的计算函数
- 分区器
- 计算各分区是优先的位置列表
- Action不可以在RDD Tranformation内部调用。
- Transformation只是建立在计算关系,而action才是实际的执行者——触发者
- Spark.local.dir用于shuffle。
- SparkContext是spark程序最主要的入口。
- 每个jvm只允许启动一个sparkContext。
- DAG是最高层级的调度,每个job对应一个DAG。
- RunJob,提交RDD Action 操作,是所有调度执行的入口。
- sparkContext在初始化时,创建了DAG调度与task调度来负责RDD Action操作的调度执行。
- 任务提交时,不是按Job的先后顺序提交的,而是倒序的。
- 仅对依赖类型是shuffle Dependency的RDD操作创建Stage。
- DAG在调度室,对于在相同节点上进行的Task计算会合并为一个Stage。
- 各stage之间以shuffle为分界线。
- Spark SQL是spark的一个子模块,专门用于处理结构化数据。
- Spark SQL的最大优势是性能非常高。
- Spark SQL与Apache Hive基本完全兼容。
- Spark SQL提供领域API,并且提供专门的数据结构抽象DataFrame。
- Spark SQL支持非常多的数据源:Hive、Avro、Jdbc、Json等,而且统一访问。
- Spark SQL两种使用:
- SQL引擎
- API 操作
- 分布式SQL引擎,两种运行方式:
- JDBC/ODBC Server
- Spark SQL 命令行
- Spark SQL相关的所有函数,都在SqlContext或它子类中。
- DataFrame创建:
- 使用反射的方法从RDD创建DataFrame
- 使用程序动态从RDD创建DataFrame
- 从其他数据源生产DataFrame
- DataFrame支持许多特殊的操作,称为领域编程语言或领域API。
- DataFrame注册成表,然后使用纯SQL来访问。
- Parquet是一种大数据计算中最常用的列式存储格式。
- 数据源类型的名称一般是全称。
- 优化是非常重要的环节,需要不断积累经验。
- Catalyst(催化剂)是Spark SQL执行有限优化器的代号,最核心部分。
- Catalyst最主要的数据结构是树。
- 所有优化都是基于规则的。
- Catalyst优化:
- 分析阶段
- 逻辑优化阶段
- 物理优化阶段
- 代码优化阶段
- Spark的性能基本上与数量大小保持线性关系。
- Spark Streaming接收实时数据,按日期将数据划分为成多批次(Batch),按批次提交个核心计算。
- Spark Streaming使用的数据抽象是DStream。
- DStream内部是连续的RDD序列。
- Sprak Streaming 3种输入DStream:
- 基本型
- 高级型
- 自定义
- 高级类型的输入DStream并不是由Spark提供。
- 使用数据源时,要注意可靠性。
- DStream操作:
- Transformation操作
- Output操作类似RDD Action
- Transform提供直接操作DStream内部RDD的方法。
- Spark Streaming提供专门的状态更新方法。
- 设置数据的滑动窗口,将数个原始DStream合并成一个窗口DStream。
- 窗口(Window)通过连个参数确定:1)窗口长度、2)滑动区间。
- Output操作将DStream结果输出到外部系统。
- DStream可以序列化到内存。
- 窗口函数和updateStateBykey默认会自动持久化。
- 网络按收数据,默认持久化两个节点上,保证容错。
- DStream基础属性:
- 依赖的在DStream列表
- 生产RDD的时间
- Complete计算函数
- RDD是只读的,可重复计算的分布式数据集。
- SparkStreaming大部分数据来自网络。
- 流式计算过程:
输入数据流>>数据接收>>数据计算>>结果输出。 - 结果输出操作本身提供至少一次级别的容错性能。
- Spark提供了检查点功能,用户定期记录中间状态。
- 检查点是有代价的,需要存储数据至存储系统。
- Spark性能调优两个方向:
- 每个批次的处理时间尽可能短
- 收到数据后,尽可能快地处理
- Storm是开源免费的分布式实时计算系统。
- Storm的核心数据抽象是tuple,是命名的值列表。
- Spark Streaming粗粒度,storm更细粒度些。
- 核心数据抽象的不同导致计算模式上的本质却别。
- Weblog分析的典型的流式实时应用场景。
- ZK以Fast Paxos算法为基础。
- ZK在分布式系统中协作多任务。
- Hbase是一个通常与Hadoop一起使用的数据库。
- Kafka是一个基于发布-订阅模型的消息系统。
- Solr是一个企业级的搜索平台。
- ZK不适合用作海量数据存储。
- 分布式系统中的进程通信有两种选择:直接通过网络进行信息交换,或读写某些共享存储。
- ZK使用共享存储模型来实现应用间的协作和同步原语。
- 网络通信是分布式系统中并发设计的基础。
- 分布式系统需注意:
- 消息延迟 ——传输
- 处理器性能——计算
- 时钟偏移 ——时钟
- 数据中心通常使用大量统一的硬件。
- 主-从架构:主节点负责跟踪从节点状态和任务的有效性,并分配任务到节点。
- 主-从模式必解决三个关键问题:
- 主节点崩溃
- 从节点崩溃
- 通信故障
- ZK因故障出现连个及以上主节点称为脑裂(split-brain)。
- 主-从架构的需求:
- 主节点选举
- 崩溃检测
- 组成员关系管理
- 元数据管理
- ZK:Paxos算法和虚拟同步技术。
- Znode Zookeeper 操作和维护一个小型的数据节点。
- Znode类型决定了znode节点的行为方式。
- Znode节点分持久节点和临时节点。
- Znode4中类型:
- 持久化(persist)
- 临时的
- 持久有序的
- 临时有序的
- 通知机制是单次触发的操作。
- 每一个znode都有一个版本号,它随着每次数据变化而自增。
- ZK服务器端两种模式:1)独立模式、2)仲裁模式。
- 对ZK集合执行请求需要建立会话。
- 会话请求以FIFO顺序执行。
- 会话状态:
- Connecting
- Connected
- Closed
- Not connected
- Server两个端口,第一个用作通讯,第二个用于选举。
- ZK的API围绕ZK的句柄(handle)而构建。
- 为了从ZK接收通知,我们需要实现监视点(watcher)。
- 监视点和通知形成了一个通用机制。
- 当一个监视点被一个事件触发时,就会产生一个通知。
- Redis是一个内存数据库,基于键值对存储。
- Redis是REmoteDictionaryServer(远程字典服务器)简写。
- Redis支持键值数据类型:
- 字符串类型
- 散列类型
- 列表类型
- 集合类型
- 有序集合类型
- 数据在Redis和程序中存储类似。
- Redis数据库中的所有数据都存储在内存中。
- Redis可以在一秒中读写上十万个键值(普通自己本)。
- Redis提供数据持久化到硬盘。
- Redis可用做缓存、队列系统。
- Redis可以为每个键设置生存时间,过时自动删除。
- Redis可以限定数据占用的最大内存空间。
- Redis还支持“发布/订阅”的消息模式。
- Redis支持阻塞式读取。
- Kill Redis 进程的PID也可正常退出,Redis有处理。
- 每个数据类型Redis-cli的展现结果都不同。
- Redis默认支持16个数据库,以数字命令。
- Redis不支持自定义数据库的名字,每个数据库以编号命名。
- Redis密码只有一个。
- FLUSH ALL 命令清空Redis所有数据。
- 一个Redis最好对应一个程序。
- Redis 0号数据库用于生产,1号数据库用于测试。
- Select n 切换数据库。
- Keys命令需要遍历Redis中的所有键,不建议生产用。
- Exict key 返回 1/0。
- Del key返回键值个数,不支持通配符。
- Type命名用来获取键值的数据类型。
- LPOSH命令的作用是指定列表型键中增加一个元素。
- Redis能存储任何形式的字符串。
- Redis INCR命令让当前键值递增。
- 原子操作取“原子”的“不可拆分”的意思,最下执行单元。
- Redis数据类型不支持数据类型嵌套。
- 散列类型适合存储:使用对象类别和ID构成键名,使用字段表示对象属性。
- Redis不要求每个键都依据此结构存储。
- Hset命令用来赋值,Hget用于取值。
- Hset插入返回1,更新返回0。
- Hset命令用于散列类型,set用于字符串类型。
- Hmset处理多个字段。
- HgetAll所有字段和字段值。
- Hexists用于判断一字段是否存在。
- HsetNX key field value 当字段不存在时赋值。
- Hinrby key field increment 增加数字。
- Hdel key field 删除字段。
- 列表类型(List)可以存储一个有序的字符串列表。
- 列表类型内部是使用双向链表实现的。
- 借助列表类型,Redis还可以作为队列使用。
- 向列表两端增加元素:
LPUSH KEY VALUE [. . .]
PPUSH KEY VALUE[. . .]
返回长度 - 从列表两端弹出元素:
LPOP KEY
RPOP KEY - 获取列表中元素的个数 llen key。
- 获取列表中指定值:LREM KEY count value。
- Redis集合类型内部使用散列表实现的。
- 增加和删除元素:
Sadd key member [. . .]]
Srem key member [. . .]] - Smembers命令返回集合中所有元素。
- 集合间运算:
- Sdiff key [key . . .] ——差集
- Sinter key [. . . ] ——交集
- Sunion . . . ——并集
- 有序集合是Redis最高级的类型。
- Redis中的事务是一组命令的集合。
- 事务:要么全执行,要么全不执行。
- Redis不支持回滚功能。
- Watch命令可以监控一个或多个键。
- Redis可以用expire命令设置一个键的过期时间。
- TTL命令查看剩余时间-2删除,-1永久。
- Persist取消过期。
- Redis可限制最大内存。
- LRU算法即“最近最少使用”。
- 有序集合常见的使用场景是大数据排序。
- 对有序集合类型排序是会忽略元素的分类。
- Sort默认按照从下到大排序,用desc逆序。
- Sort通过alpha参数实现按照字典,顺序排序非数字元素。
- Sort支持limit返回指定参数。
- 参考键值相同时,Redis会按照元素本身大小排序。
- 有个N个Get参数,每个元素返回的结果就有N行。
- Get会返回元素本身的值。
- Store参数常用来结合expire缓存排序结果。
- Sort是Redis中最强大最复杂的命令之一。
- 通知的过程可以借助任务队列来实现。
- 任务队列好处:1)松耦合,2)易于扩展。
- 当列表中没有元素BRPOP会一直阻塞住连接。
- BRPOP命令按收两个参数键名,超时时间,单位秒。
- 如果多个键都有元素则从左向右顺序取实现优先。
- 发布者发布消息的命令是PUBLISH。
- 订阅频道的命令是SUBSCRIBE,可用的多个订阅。
- 进入订阅状态后客户端可能收到了3种类型的恢复。
- PUSH SCRIBE命令订阅指定的规则。
- 客户端和Redis使用TCP协议连接。
- Redis的底层通信协议对管道提供了支持。
- 精简键名和键值是最直观的减少内存暂用的方式。
- 允许开发者使用LUA语言编写脚本传到Redis中执行。
- LUA脚本好处:1)减少网络开销、2)原子操作、3)复用。
- ——eval参数是告诉Redis-clli读取并运行后面的LUA脚本。
- LUA号称性能最高的脚本。
- LUA脚本很容易和C/C++交互。
- LUA是一个动态类型语言。
- 表类型是LUA语言中唯一的数据结构。
- 函数在LUA中是一等值。
- 全局变量只有Nil和非Nil的区别。
- 在Redis脚本中不能使用全局变量。
- 声明局部变量的方法为local变量。
- 多行注释:——[[ ]]。
- LUA支持多重赋值。
- LUA有5类操作符:
- 数学操作符
- 比较操作符
- 逻辑操作符
- 链接操作符
- 取长度操作符
- LUA if 语句 if .. then .. elseif ..then..else..end。
- LUA支持while,repeat和for循环语句。
- For语句中的循环变量是局部变量。
- LUA约定数组的索引从1开始。
- Paris是LUA内置的函数,实现类似迭代器的功能。
- Pairs用来遍历非数组的表。
- 函数的定义为:function(参数列表) 函数体 end。
- …实现可变参数。
- LUA中return和break用于跳出循环。
- 编写Redis脚本的目的就是读写Redis的数据。
- LUA脚本使用Redis,call函数调用Redis命令。
- EVALHA命令允许开发者通过脚本。
- Script kill命令可以终止当前脚本的运行。
- Redis支持两种方式的持久化,一种是RDB方式,另一种是AOF方式。
- Redis提供了复制(replication)功能,自动同步数据库。
- 在复制概念中,数据库分为两类:master/slave。
- Slave of 参数指向主数据库,进行同步数据。
- 通过复制可以实现读写分离,以提高服务器的负载能力。
- Master用于写,slave用于读,适合读多写收的场景。
- 哨兵的作用就是监控Redis系统的运行状态:
- 监控主/从是否正常
- 当出现故障时,从升为主
- 哨兵是一个独立的进程。
- 哨兵从独立进程的方式对一个主从系统进行监控。
- Redis 3.0版本支持集群。
- 生产环境运行时不能运行外界直连Redis。
- Bing 127.0.0.1只运行本机访问。
- Redis支持在配置文件中奖命令重命名。
- 如果希望直接禁用某个命令可以将命令重命名成XXX。
- Redis通信协议是Redis客户端与Redis间交流的语言。
- Redis两种通信协议:
- 二进制安全的统一请求协议
- telnet程序中输入的简单协议
- 哨兵提供了命令可以通过主数据库的名字获取当前系统的主数据库的地址和端口号。
- 一个哨兵可以同时监控多个Redis主从系统。
- 多个哨兵也可以同时监控同一个Redis主从系统。
- MapReduce两阶段:Map阶段和Reduce阶段。
- 每个阶段都以键值对作为输入和输出。
- Map阶段的输入时NCDN原始数据。
- 键是相对稳健起始位置的偏移量。
- Mapper类是一个泛型,四个参数:
- 输入键
- 输入值
- 输出键
- 输出值
- Hadoop本身提供了一套可优化网络序列化传输的基本类型:
LongWritable 相对于 Java 的Long
Text 相对于String
IntWritable相对于Integer - Map()方法提供了context实例用于输出内容的写入。
- Job对象指定作业执行规范。
- 构造Job对象后,需要指定输入和输出数据的路径。
- 在调试MapReduce作业时,知道作业ID和任务ID是非常有用的。
- 虚类相对接口更有利于扩展。
- MapReduce作业(Job)是客户端要执行的一个工作单元:它包括输入数据,MapReduce程序和配置信息。
- Hadoop将作业分成若干个小任务(Task)来执行,器中包括两类任务:Map和Reduce。
- 作业(Job)由一个Jobtracker及一系列tasktracker控制执行过程。
- Hadoop将MapReduce的输入数据划分成等长的小数据块称为“切片”。
- Hadoop为每一个切片构建一个map任务。
- 切片越细,负载平衡越好。
- HDFS的块大小默认是64MB。
- 数据本地化优化——输入数据在本地节点运行map。
- 数据通过网络传输到map任务节点,效率明显降低。
- Map任务将其输出写入本地硬盘,而非HDFS,因为map的输出是中间结果,Job完成自动删除。
- 单个reduce任务的输入通常来自于所有map的输出。
- 每个reduce任务的输入来自多个mao任务,所以中间过程称为shuffle(混洗)。
- Shuffle对总执行时间的影响非常大。
- 集群上的可用带宽限制了MapReduce作业的数量。
- Hadoop允许用户针对map任务的输出指定一个combiner。
- Combiner的规则制约值可用的函数类型。
- Combiner是通过Reducer类来定义的。
- Hadoop Streaming 使用Unix标准流作为Hadoop和应用程序之间的接口。
- Streaming天生适合用于文件处理。
- HDFS以流式数据访问模式来存储超大文件。
- 一次写入,多次读取是高效的访问模式。
- HDFS中的文件可能只有一个writer。
- HDFS的块大,目的为最小化寻址开销。
- HDFS集群有两类节点:管理者-工作者模式运行。
- Namenode管理文件系统的命名空间。
- 客户端代表用户通过与namenode和datanode交互。
- Datanode是文件系统的工作节点。
- 在联邦环境下每个namenode维护一个命名空间卷。
- HDFS的权限模式与POSIX非常相似。
- 用户空间文件系统允许整合式一个Unix系统。
- 从Hadoop文件系统读取文件,最简单使用Java.net.url。
- Filesystem是一个通用的文件系统API。
- Seek()方法是一个相对高开销的操作,需要慎重使用。
- Filestatus封装了文件系统中文件和目录的元数据。
- Hadoop通配符与Unix bach的相同。
- Hadoop无法自行定义网络拓扑结构。
- 文件系统的一致模型描述了文件读/写的数据可见性。
- HDFS提供了一个方法来使所有缓存与数据节点强行同步。
- HDFS中关闭文件其实还隐含执行syn()方法。
- Flume是一个将大规模数据导入HDFS的工具——典型应用从另外一个系统收集日志数据。
- Flume提供了不同数据级别的数据投递可靠性。
- Sqoop是将数据从结构化存储批量导入HDFS。——数据库。
- Distcp是作为一个MapReduce作业来实现的。
- 每个文件均按块方式存储,每个块的元数据存储在namenode的内存中。
- Hadoop存储小文件效率非常低。
- Hadoop存档文件可以使用MapReduce的输入。
- Hadoop自带一套原子操作用于数据I/O操作。
- HDFS会对写入的存储数据计算校验和,并在读取数据时验证校验和。
- Datanode负责在收到数据后存储该数据及其验证校验和。
- 客户端成功验证一个数据块后,datanode更新日志。
- Datanode定期验证所有数据块。
- Hadoop的LocalFile Systen执行客户端的校验和验证。
- 校验的计算代价是相当低的。
- LocalFileSystem通过checksumFileSystem来完成自己的任务。
- 文件压缩两大好处:存储和传输。
- 序列化两大领域常见:进程间通信和存储。
- Writable两个方法:dataoutput/datainput。
- RawComParator允许其实现直接比较数据流中的记录。
- Writable类对java基本类型提供封装。
- Text是针对URT-8序列的writable类。
- Text类的find()方法返回字节偏移量。
- 多数情况下需要将Text对象换成String对象。
- BytesWritable是对二进制数据数组的封装。
- NullWritable是writable的特殊类型,序列化长度为0.
- Nulwritable不读也不写,只当占位符。
- NullWritable可以用作在SequenceFile中的键。
- ObjectWritable是对Java基本类型的一个通用封装。
- 由于writable是MapReduce数据路径的核心,所有调整二进制表示对性能产生显著效果。
- 适当重写一个类,会更加适应我们的需求。
- IDL——接口定义语言。
- Avro是一个独立于编程语言的数据序列化系统。
- Avro模式通常用于Json来写,数据通常采用二进制格式来编码。
- Avro为序列化和反序列化提供了API。
- Avro数据文件时可切分的,适合MapReduce快速处理。
- Avro语言互相操作性。
- Avro定义了对象的排列顺序。
- Hadoop配置后添加的资源文件属性会覆盖之前定义的属性。
- MRUnit是一个测试库。
- 测试驱动程序:
- 使用本地作业运行器
- 使用一个mini集群来运行它
- Mini集群广泛应用于Hadoop自带的自动测试包中。
- Hadoop_CLASSPATH是一项客户端的设置。
- 为了启动作业,我们需要运行驱动程序。
- Job上的waitforCompletion()方法启动作业并检查进展情况。
- 作业ID的格式包含两部分:
- Jobtracker开始时间
- 唯一标识增量计数器
- 任务属于作业,任务ID通过替换作业ID的作业前缀为任务前缀,然后加上一个后缀表示哪个作业类的任务。
- Hadoop的web界面用来浏览作业信息。
- 作业历史包括已完成作业的时间和配置信息。
- 每个reducer产生一个输出文件。
- 最经典的调试方法,打印语句来调试程序。
- 任务页面包括一些看作业总任务细节的链接。
- 针对不同用户,Hadoop在不同的地方生产日志。
- Hadoop允许分析作业中的一部分任务。
- Jobcontrol的实例表示一个作业的运行图。
- Ooize中,工作流是一个有动作节点和控制节点组成的DAG。
- 每个工作都必须有一个start节点和一个end节点。
- Oozie提供了一组与工作流交互的函数。
- 工作流应用由工作流定义和所有运行所需的资源。
- 运行MapReduce作业:
- Job对象上的submit()
- Waitforcompletion()
- 客户端,提交MapReduce作业。
- Jobtracker,运行作业划分后的任务。
- Jobsummiter作业提交过程:
- 箱Jobtracker请求一个新的作业ID
- 检查作业的输出说明
- 计算作业的输入分片
- 将运行作业所需的资源复制到Jobtracker文件系统中。
- 告知Jobtracker作业,准备执行。
- 心跳 向Jobtracker表明tasktracker是否还存活。
- MapReduce 1 :
- 作业的提交
- 作业的初始化
- 任务的分配
- 任务的执行
- 进度和状态的更新
- 作业完成
- YARN (Yet Another Resource Negotiator)。
- YARN将Jobtracker的职能划分为多个独立的实体。
- YARN将两种角色划分为两个独立的守护进程:
- 资源管理器
- 应用管理器
- YARN设计的精妙之处在于不同的YARN应用可以在同一个集群共存。
- MapReduce确保每个reducer的输入都是按键排序的。
- 系统执行排序的过程称为shuffle。
- Shuffle属于不断被优化和改进的代码的一部分。
- Shuffle是MapReduce的“心脏”是奇迹发生的地方。
- 每个map任务都有一个环形内存缓冲区用于存储任务的输出。
- Hadoop设置作业配置参数作为streaming程序的环境变量。
- MapReduce模型将作业分解成任务,然而并行地运行任务。
- Hadoop MapReduce 使用一个提交协议来确保作业和任务都完成功或失败。
- Hadoop在他们自己的Java虚拟机上运行任务,以区别其他正在运行的任务。
- 计数器是收集作业统计信息的有效手段之一。
- Hadoop为每个作业维护若干内置计数器,以描述多项指标。
- 任务计数器由其任务维护,并定期发送给tasktracker再有tasktracker发送给Jobtracker。
- 作业计数器由Jobtracker维护。
- 计数器由一个java枚举(enum)类型来定义。
- 计数器是全局的。
- 排序是MapReduce的核心技术。
- MapReduce能够执行大型数据集键的“链接”操作。
- “边数据”是作业所需的额外的只读数据。
- RAID —— 磁盘阵列
- HDFS无需使用RAID的冗余机制。
- Hadoop部分代码需在Unix环境下执行。
- Namenode和Jobtracker最好分别放在不同机器中。
- Hadoop集群架构通常包含两级网络拓扑。
- 为了达到Hadoop的最佳性能,配置Hadoop系统以让其了解网络拓扑状况旧极为关键。
- HDFS和MapReduce可安装同一系统的不同位置。
- Hadoop控制脚本依赖SSH来执行针对整个集群的操作。
- 集群的每个Hadoop节点都各自保存一系列配置文件。
- Hadoop也支持为所有master和worker机器采用同一套配置文件。
- 为每一机器类维护单独的配置文件。
- 同步所有机器上的配置文件极具挑战性。
- Hadoop内置一些脚本来运行指令,在集群内启动和终止守护进程。
- MapReduce控制脚本不使用masters文件。
- Namenode在内存中保存整个命名空间中的所有文件元数据和块元数据。
- Hadoop为各个守护进程分配1GB内存。
- 在一个tasktracker上能够同时运行的任务数取决于一台机器有多少个处理器。
- Hadoop守护进程一般同时运行RPC和HTTP两个服务器。
- 各个datanode运行TCP/IP服务器以支持块传输。
- YARN是运行MapReduce的下一代架构。
- YARN有一个作业历史服务器和一个web应用程序代理服务器。
- YARN更加精细化管理内存。
- YARN守护进程运行一个或多个RPC和HTTP服务。
- Kerberos获取服务:
- 认证
- 授权
- 服务请求
- Hadoop使用委托令牌来支持后续认证访问。
- Whirr使用SSH与云端的机器通信。
- Pig为大型数据集的处理提供了更高层的抽象。
- Pig提供了一套更强大的数据变换操作。
- Pig Latin程序由一系列的操作式变换组成。
- Pig是一种探索大规模数据集的脚本语言。
- MapReduce的一个缺点是开发周期太长。
- Pig提供了多个命令来检查和处理程序中已有的数据结构。
- Pig被设计为可扩展的,处理路径中几乎每个部分都可以定制。
- Pig是作为一个客户端应用程序运行的。
- Pig两种模式:本地和MapReduce。
- Grunt是与Pig进行交互的外壳程序(shell)。
- 在MapReduce模式下,Pig翻译成MapReduce作业。
- Pig发布版本只和特定的Hadoop版本对应。
- 三种执行Pig程序方法:
- 脚本
- Grunt
- 嵌入式方法
- 创建一个精简的数据集是一门艺术。
- Pig Latin是一种数据流编程语言,而SQL是一种声明式编程语言。
- 一个Pig Latin程序由一组语句构成。
- Pig Latin并美欧正式的语言定义。
- 在Pig Latin程序执行时,每个命令按次序进行解析。
- Hive是一个构建在Hadoop上的数据仓库框架。
- Hive一般在工作站上运行。
- Hive把数据组织为表。
- 元数据(如表模式)存储在metastore数据库中。
- Hive外壳环境是我们交互的主要方式。
- HiveQL是Hive的查询语言。
- Hive操作表而Pig直接操作数据集。
- HiveQL大小写不敏感。
- 用-e选项在行嵌入命令,不用加分号。
- 在Hive的仓库目录中,表存储为目录。
- Metastore包含两部分:服务和后台数据的存储。
- 对于独立的metastore,mysql是一种很受欢迎的选择。
- Hive把表组织成“分区”。
- 桶为表加上了额外的结构。
- 每个桶就是表(分式)目录里的一个文件。
- Hive从两个维度对表的存储进行管理:行格式和文件格式。
- 视图是一种用select语句定义的“虚表”。
- Hbase是一个在HDFS上开发的面向列的分布式数据库。
- 数据模型:
- 应用把数据存放在带标签的表中
- 表中行的键也是字节数组
- 行中的列被分成“列族”
- 一个表的列族必须预先给出
- 所有列族成员都一起存放在文件系统中。
- HBase自动把表水平分成“区域”,每个区域由表中行的子集构成。
- HBase依赖于Zookeeper。
- HBase通过Hadoop文件系统API来持久化存储数据。
- HBase有Java开发。
- Hbase是一个分布式的,面向列的数据存储系统。
- HBase有一个高效的批量加载工具。
- Sqoop将结构化存储器抽取到Hadoop中。
- Sqoop有java开发。
- Hive不支持事务。
- Hive是最适合数据仓库应用程序的。
- Hive和Mysql提供的SQL方言最接近。
- Map操作会将集合中的元素从一种形式转换成另一种形式。
- MapReduce计算框架中的输入和输出的基本数据结构是键-值对。
- Hadoop神奇的一部分在于sort和shuffle过程。
- Hive驱动计算的“语言”是一XML形式编码的。
- Hive通过和Jobtracker通信来初始化MapReduce任务(Job)。
- Metastore(元数据存储)是一个独立的关系型数据库。
- Pig常用于ETL(数据抽取、数据转换、数据装载)。
- Hadoop团队通常会将Hive和Pig结合使用。
- Hive无法提供数据库特性(如行级别更新,快速查询响应和支持事务)。
- HBase的设计灵感来自goole的bigTable。
- HBase面向列存储,列组成列族。
- HBase对每个列保留多个版本。
- HBase使用HDFS来持久化存储数据。
- 将程序设计成驱动,比较方便移植。
- HBase没有提供SQL语言。
- Hadoop面向批处理系统。
- CLI是我们使用Hive的最常用方式。
- Jobtracker管理着Job,而HDFS则由namenode管理。
- 元数据存储中存储了表的模式和分区信息等元数据。
- Hive会将输出写到标准输出中。
- –e执行字符串包含的命令。
- –s去掉ok。
- –f执行文件。
- 如果查询中的表名和这个例子并不相关,我们有时候会使用src。
- 用户可以使用上下键来滚动查询历史命令。
- 用!执行bash shell命令。
- Hive Cli 可执行Hadoop的dfs命令。
- Hive本身提供了不同时区互相转换的内置函数。
- Hive中的列支持使用strct、map和arry集合数据类型。
- Hive中并没有键的概念。
- Hive不会再数据加载时进行验证,而是在查询时进行。
- Hive中数据库的概念本质上仅仅是表的一个目录式命名空间。
- Hive会为每个数据接库创建一个目录。
- 数据库的文件目录名是以.db结尾。
- Hive中并没有嵌套数据库的概念。
- Hive不允许用户删除一个包含有表的数据库。
- Hive会自动增加两个表属性:last_modified_by|last_modified_time。
- Hive总是将创建的表的目录放置在这个所属的数据库目录之后。
- Show tables命令可以列举出所有的表。
- 管理表(内布表)不方便和其他工作共享数据。
- Exte Nal告诉Hive这个表示外部表。
- Location 告诉Hive数据位于哪个路径下。
- 因为表示外部的,所以Hive并非人为其完全拥有这份数据。
- 有些Hive QL并不使用外部表。
- 分区字段,表现得旧和普通的字段一样。
- 对数据进行分区,也许最重要的原因是为了更快地查询。
- 通过show partitions命令查看表中存在的所有分区。
- Hive没有行级操作。
- Hive通常指定的路径应该是一个目录,而不是单独的文件。
- Hive要求源文件和目标文件以及目录应该在同一个文件系统中。
- 指定overwrite关键字,目标文件之前存在的会被删除。
- Hive并不会验证用户装载的数据和表的模式是否匹配。
- Hive会验证文件格式是否和表结构定义的一致。
- INSERT语句允许用户通过查询语句向目标表中插入数据。
- 静态分区键必须出现在动态分区键之前。
- Hive中没有临时表的概念。
- Select是sql中的射影算子。
- 可用正则来选举我们想要的列。
- Float和double相比较会出现问题。
- RLike可用正则指定匹配条件。
- Hive目前不支持on中的or。
- 视图可以允许保存一个查询并像对待表一样对这查询进行操作。
- Hive值有有限的索引功能。
- Bitmap索引普遍应用于排重后值较少的列。
- Hive中分区的功能是非常有用的。
- 每个task都是一个新的Jvm实例,都需要开启和销毁的开销。
- 分区提供一个隔离数据和优化查询的便遍历的方式。
- 分桶是将数据集分解或更容易管理的若干部分的另一种技术。
- Hive提供了serde抽象,其用于从输入中提取数据。
- 一个serDe通常是从左向右进行解析的。
- Hive提供了一个列式SerDe来以混合列式格式存储信息。
- Hive中通常使用“UDF”来表示任意的函数(用户自定义函数)。
- Streaming提供了另一种处理数据的方式。
- Hive中文件格式间具有明显的差异。
- Hive文本文件格式选择和记录格式是对应的。
- SequenceFile可以在块级别和记录级别进行压缩。
- 对于列式存储而言,进行压缩通常会非常高效。
- Hive功能强大的一个方面体现在不同的存储格式间转换数据非常地简单。
- SerD是序列化/反序列化的简写形式。
- Hive引擎使用定义的InputFormat来读取一行数据记录。
- Thrift是一个软件框架,其用于跨语言的服务开发。
- HiveServer使用Thrift提供服务。
- 存储处理程序是一个结合InputFormat、OutPutFormat、SerDe和Hive需要使用的特定的代码。
- 存储处理程序负责从底层存储系统中读取或写入数据。
- Hadoop起源于Apache Nutch的子项目。
- HBase弥补了Hadoop只能离线批处理的不足。
- HBase能够存储小文件,提供海量数据的随机检查。
- 大数据强调3v特征:即Volume(量级)、Varity(种类)和Velocity(速度)。
- 结构优化,质量提高,是一种实现实质性的跨越式的进程。
- NoSQL是Not only SQL,泛指非关系型数据库。
- NoSQL的实现具有两个特征:使用硬盘和把随机存储器作存储载体。
- NoSQL的Cache是记录级的,是一种粗粒度的Cache。
- NoSQL无须事先为要存储的数据建立字段,随时可以存储自定义的数据格式。
- HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库。
- HBase是NoSQL数据库。
- HBase可以通过行健(RowKey)检索数据,仅支持单行事务,主要用于存储非结构化和半结构化的松散数据。
- HBase的单表可以有百亿行,百万列。
- HBase是面向列的存储和权限控制,并支持列独立检索。
- HBase严重依赖Hadoop的HDFS组件。
- MapReduce可以直接访问HBase。
- HBase中最重要的访问方式是原生Java API。
- 客户端Client是整个HBase系统的入口。
- HMaster主要负责Table和Region的管理工作。
- HRegionServer主要负责响应用户I/O请求。
- HStore存储是HBase存储的核心。
- HStore两部分:Memstore和StoreFile。
- 当StoreFile文件增长到一定阀值,会触发CompCut。
- HBase的同一个表的记录可以有不一样的列。
- HBase中最基本的单元是列。
- 每一个行的行健是唯一的。
- HBase中的表有若干行,每行有很多列,列中的值有多个版本,每个版本的值称为一个单元格,单元格存不同的列值。
- HBase称为无模式数据库的原因是HBase的表没有列定义,没有类型。
- 创建连接是一项非常消耗资源的工作。
- HBase为我们提供了一个连接池。
- 行键是按字段排序由低到高存储在表中。
- HBase中行键是唯一的索引。
- HBase中的列族是一些列的集合。
- 一个列族中所有列成员有着相同的前缀。
- 一个列族的成员在文件系统上都是存储在一起的。
- 在创建表的时候至少指定一个列族。
- 修改列族要先停用表。
- HBase中的单元格由行键、列族、列、时间戳唯一确定。
- 单元格的内容是不可分别的字节数组。
- 每个单元格都保存着同一份数据的多个版本。
- 时间戳是64位的整数。
- HBase对数据模型4个操作包括:Get、Put、Scan和Delete。
- 多用户多线程对统一行的读写操作都不会影响该行数据的原子性。
- Get方法获取数据时,HBase返回的结果包含所有匹配的单元格数据。
- Result实例中包含列族、列限定符和时间戳等。
- Put操作要么向表增加新行,要么更新行。
- Put操作每次都会发起一次到服务器的RPC操作。
- HBase客户端有一个缓冲区,大大提高写入性能。
- HBase提供compare-and-set先检查,再执行。
- HBase没有update操作。
- Scan操作允许多行特定属性迭代。
- HBase的Delete操作可以指定删除某个列族或者某个列,或某时间更早的数据。
- HBase的Delete操作并不是真正地从磁盘删除数据。
- RowKey、Column、Version组合在一起称为HBase的一个单元格。
- Version用一个长整型表示(时间)。
- Get是在Scan的基础上实现的。
- 一个put操作会为一个Cell创建一个版本,默认使用当前时间戳。
- 删除操作的实现是创建一个墓碑标记。
- Get和Scan操作返回的是经过排序的数据。
- 返回的数据首选按行字典序排序,其次是列族、然后是列修饰符,最后的时间戳逆序。
- 获取列族的完整列名的唯一方法是处理所有行。
- HBase不支持连接查询,即Join查询。
- ICV(HBase计数器)操作发送在RegionServer上。
- 事务特性ACID,如HBase这种NoSQL数据库仅提供对行级别的原子性。
- HBase不是一个具备完整ACID特性的数据库。
- HBase中一个表的数据会被划分成很多的Region。
- 刚刚穿件的表只有一个Region。
- 每一个Region由一个RegionServer管理。
- 每个Region包含起始RowKey的记录,不包含结束RowKey的记录。
- Region的拆分与转移是由HBase自动完成。
- CAP原理是数据库软件的理论基础。
- HBase为了扩展性和性能考虑,弱化了事务性。
- RowKey是不可分割的字节数,按字典排序由低到高存储在表中。
- RowKey决定了访问HBase表时可以得到的性能。
- Region基于Rowkey为一个区间的行提供服务。
- Hfile在硬盘上存储有序的行。
- HBase只能在RowKey上建立索引。
- RowKey优化:
- 字典排序
- 进行散列
- 尽量短
- 列族是一些列的集合。
- 一个列族的所有列成员有着相同的前缀。
- 列族的前缀必须是可输出的字符。
- 列族必须在表建立的时候声明,列在用户随时可以创建。
- 在物理上,一个列族的成员在文件系统上都存储在一起。
- Flush和Compaction操作式针对一个Region的。
- 考虑Flush性能,列族数量越少越好。
- HFile数据块大小可以在列族层次设置。
- 数据块索引存储每个HFile数据块的起始键。
- 布隆过滤器(Bloom Filter)允许对存储在每个数据块的数据做一个反向测验。
- HFile可以被压缩并存放在HDFS上。
- HBase的每个单元格只维护三个时间版本。
- CRUD操作式HTable最基本的功能,其中的每类方法都包含多种实现。
- Java客户端有两种查询数据的方式:单行读和扫描读。
- 每类操作的不同实现方法应用在不同的场景下。
- HBaseAdmin类是HBase数据库的管理入口类。
- Scan类中的主要实现方法可以划分成三类:
- 添加列或列族
- 设置查询属性
- 查看属性信息
- 整个删除过程分为三步:
- 初始化Table实例
- 构造实体类Delete,Delete封装行键、列族或列名
- 执行删除
- HBase提供了若干封装类用于“无缝”连接MapReduce。
- 从HBase表汇总读取数据,使用MapReduce计算完成之后,将数据存储到其他介质中。
- NoSQL不使用SQL作为查询语言。
- 创建外部表适用于某表HBase已经存在,但在Hive中没有相关信息。
- 字符串类型是Redis中最基本的数据类型。
- 所有Redis命令都是原子操作。
- Redis提供了4个命令可以直接对二进制位进行操作。
- Redis是采用字典结构以键值对的形式存储数据的。
- 一个散列类型键可以包含至多2的32次方减去1个字段。
- 散列类型适合存储对象。
- 大数据所面对的问题是:一是存储,二是计算。
- 大数据的定义是发现潜在规律和趋势。
- 谷歌三大论文:1)GFS、2)MapReduce、3)BigTable。
- Hadoop是一个批处理系统,不擅长实时计算。
- YARN是通用的资源管理系统。
- 机器学习算法通常需要对同一个数据集合进行多次迭代计算。
- RDD弹性分布式数据集(Resillient Distributed DataSet)。
- Spark支持检查点(checkpoint)的容错机制。
- RDD支持的方法:
- 转换(Traansformation) ——生产新的RDD
- 动作(Action) ——返回一个非RDD
- Spark没有存储能力,仅做数据仓库。
- MapReduce依附于Yarn来运行。
- Zookeeper的节点必须是奇数个。
- Standalone模式下,集群可以容许某一个或多个工作节点失效。
- Hadoop:HDFS、MapReduce、YARN。
- Spark可以单独使用HDFS或YARN。
- 由YARN统一负载分配资源科避免分配混乱。
- Spark程序由master还是YARN来调度执行,是由spark程序在提交时决定的。
- 只有在交互需求是才使用yarn-client方式。
- 切片,本地模式默认去CPU的核算。
- 每个Job的执行,都会经历序列化,网络传输,反序列化和运行的过程。
- 在序列化是,spark会将Job运行所依赖的变量、方法(称为闭包)全部打包在一起。
- 如果RDD多次迭代,可将其持久化。
- 在Zookeeper模式下,恢复期间新任务无法提交。
- RDD特点:1)只读、2)可缓存、3)可以通过重新计算得到。
- Kafk是一个分布式、分区、重复提交的日志服务。
- Kafka掌管的类别消息叫做主题(topics)。
- 生产者发布消息到kafka主题中。
- 消费者订阅主题以及处理发布的消息。
- Kafka每个服务器叫做broker。
- 主题是一个类别或者被发布消息的名称。
- Kafka集群根据时间保留消息,而不是是否被消费。
- 消费者可以随时添加和移除。
- 生产者发布数据到他们选定的主题上。
- 消费者、消息处理通常有两种模式。:队列和发布-订阅。
- 在队列模式中,一组消费者可能从服务器读取消息,每个消息被其中一个消费者消费。
- 在发布-订阅模式中:消费者是广播到全部的消费者中。
- 消费者用一个消费组名称来标识自己。
- Kafka能够提供顺序保证并在一组消费者处理过程中均衡负载。
- Kafka可以替换传统的消息代理。
- Kafka可以媲美传统的消息系统例如:ActiveMQ和RabitMQ。
- Kafka通常用于操作监测数据的处理。
- Kafka作为日志聚合的一种解决方案。
- Zookeeper典型应用场景:配置文件的管理,集群管理,分布式队列,同步锁leader选举,队列管理等。
- Zookeeper是分布式服务框架。
- dataMonitor类是本程序Zookeeper逻辑的核心。
- Zookeeper是一个基于观察者模式设计的分布式服务管理框架。
- 分布式应用中通常需要有一套完整的命名规则。
- Netty高性能的NIO框架。
- Netty快速开发高性能,高可靠性的网络服务器和客户端程序。
- Netty是一个网络通信框架。
- NIO是一个面向块的I/O系统。
- NIO核心对象:缓冲区(Buffer),通道(Channel),选择器(Selecter)。
- 在NIO库中,所有数据都是用缓冲处理的。
- Netty是事件驱动的。
- Git是一个开源的分布式版本控制系统。
- Kafka系统的角色:
- Borker:一台kafka服务器就是一个broker。
- Topic:可以理解为一个MQ消息队列的名字。
- Java程序设计语言、虚拟机、API类库统称JDK。
- Jdk是用于支持Java程序开发的最小环境。
- JRE是支持Java程序运行的标准环境。
- Java技术体系可分为4个平台:Java Card、Me、Se、EE。
- Hadoop每个切片构建一个map任务。
- Map输出是中间结果,reduce产出最终输出结果。
- 集群上的带宽限制了MapReduce的作业的数量。
- HDFS中fsck指令可以显示块信息。
- Namenode之间需要通过高可用的共享存储实现编辑日志的共享。
- Datanode需要同时向连个namenode发送数据块处理报告。
- 超级用户是namenode进程的标识。
- Seek()方法是一个相对高开销的操作。
- FileSystem是一个通用的文件系统Api。
- HDFS只允许对一个打开的文件顺序写入,或者在现有文件的末尾追加数据。
- FileStatus封装了文件系统中问价和目录的元数据。
- 过滤器有path表示,只能作用域文件名。
- Hadoop无法自行第一网络拓扑结构。
- DFSoutputstream将写入分成一个个的数据包,并写入内部队列,称为“数据队列”。
- 文件系统的一致模型描述了文件读/写的数据可见性。
- HDFS为性能牺牲了一些Posix要求(可移植操作系统接口)。
- HDFS提供一个方法来使所有缓存与数据节点强行同步。
- Flume是一个将大规模流数据导入HDFS的工具。
- Flume节点允许以任何拓扑方式进行组织。
- 当一个字段中包含多个类型时,ObjectWritable非常有用。
- Avro是一个独立于编程语言的数据序列化系统。
- Avro模式通常用Json来写,数据通常采用二进制格式来编码。
- Avro数据文件时可切分的,适合MapReduce快速处理。
- SeQuenceFile是可以看做小文件的容器。
- MapFile是已经排序过的SequenceFile,它有索引,所以可以按键查找。
- Hadoop提供了钩子(hook)来辅助分析过程。
- Mini集群广泛应用于Hadoop自带的自动测试包中。
- 作业历史包括已完成作业的时间和配置信息。
- MapReduce任务日志可以从web界面访问。
- 复杂的作业通常是增加更多的作业,而不是增加作业的复杂度。
- Jobcontrol的实例表示一个作业的运行图。
- 在Ooize中,工作流是一个由动作(action)节点和控制流节点组成的DAG。
- Ooize提供了一组与工作流交互的函数。
- TaskRunner启动了一个新的Jvm里运行每个任务。
- YARN将Jobtracker的职能划分多个独立的实体。
- YARN集群上可以运行不同版本的MapReduce。
- 每个map任务都有一个环形内存缓存区用于存储任务的输出。
- 在本地作业运行器上运行时,只支持0个或1个reduce。
- 一个输入切片(split)就是一个由单个map操作来处理的输入块。
- 切片并不包含数据本身,而是指向数据的引用。
- Jobtracker使用其存储位置信息来调度map任务从而在tasktracker上处理这些切片数据。
- Reduce输入的键一定是有序的。
- Hadoop为每个作业维护若干内置计数器,以描述多项指标。
- 任务计数器由其关联任务维护,并定期发送给tasktracker,再有tasktracker发送给Jobtracker。
- “边数据”是作业所需的额外的只读数据。
- Hadoop还为mapper和reduce提供了一个包含了常用函数的库。
- Hadoop使用dfs。Mapred,rpc和jvm四个上下文根。
- FileContext将度量写到一个本地文件中。
- Ganglia是一个针对超大规模的开源的分布式监控系统。
- Hadoop包括多个托管bean(MBean),可以将hadoop度量发布给支持JMX的应用。
- Didtcp是一个理想的备份工具。
- HDFS能够容忍datanode故障,但这并不意味着允许随意终止datanode。
- Shell for((i0;i
- Break n跳出几层循环。
- For I in {1 .. 4}。
- Unset 删除一个元素。
- Nohup 保持后台允许。
- ->覆盖,->>追加。
- 0、1、2标准输入正确,错误输出。
- Ls >/de/null 深渊。
- Linux默认无回收站。
- –e执行转义字符。
- Fsimage:元数据镜像文件。
- 目前HDFS不支持断点续传。
- 最后块不足够,则按实际打下存储。
- HAR是一个目录结构。
- Namenode两种状态:Active和standly。
- Namenode同步数据通过Journanodes集群。
- Namenode切换,自动和手工切换。
- MapReduce是分布式并行计算模型,用于解决海量数据问题。
- Hive操作流程:
- 提交SQL 交给驱动
- 驱动编译解析相关字段
- 去metastore查询相关信息
- 编译返回信息,发给驱动
- 驱动发一个执行计划
- DDLS对数据库表操作
- 吧Job交给Jobtracker让tasktracker执行
- 完成Job返回数据信息,找namenode查数据
- Dfs ops直接和namenode交互
- Hive dfs ls 查看hadoop系统。
- Hive无删除语句,用replace实现。
- Replace很危险,不建议使用。
- Hive删字段,大多数情况重建表。
- 桶表时对数据进行哈希取值,然后放到不同文件中存储。
- 桶表应用于抽样查询,加载文件分文件存储。
- 使用视图可以降低查询复杂度。
- 索引是对数记录偏移量。
- 分区字段字段建索引。
- 建索引会引发MapReduce计算。
- 装载数据:1)本地文件加载方式,2)查询装载。
- 动态分区加载方式。
- Hive是读模式。
- RDBMS是写模式。
- Hive不支持对单行操作,只支持覆盖和追加。
- 每个HStore对应了Table中的一个列族的存储。
- HStore是HBase存储的核心:HFile、memstore。
- HLog用于数据还原。
- HFile是不定长的。
- CSV是逗号分隔符的文件。
- Hive分析HBase,只要表映射即可。
- 列族优化:
- 随机查询:数据块越少,索引越大,占用内存也越大
- 顺序查询:更好的顺序扫描需要更大的数据块
- 布隆:有问题反馈,无问题不反馈。
- HBase删除数据时先标记合并删除。
- HBase热点优化,创建分区。
- Solr可以实现全文搜索。
- Solr可以方便实现站内搜索功能。
- Solr是通过http协议处理搜索和查询请求。
- Solr是一个索引库。
- 线性的访问磁盘,很多时候比随机访问内存块。
- Kafka将数据分段,为每个段建立索引。
- 索引分两部分:offset和position。
- Storm处理高频数据和大规模数据。
- Storm由用户自定义处流程。
- Stream ——一列火车。
- Tuple ——一节车厢。
- 数据 ——乘客。
- Bolt ——对tuple中数据进行处理 中间站。
- Spout ——源头,相当于火车的始发站。
- Toplogy ——轨道。
- Storm 主-从结构。
- 主节点:nimbus,负责分发代码,分配任务。
- 从节点:supervisor,负责产生worker,执行任务。
- Storm集群的运行依赖于Zookeeper。
- Executor是一个被worker进程启动的单独线程。
- Task是最终运行spout或bolt中代码的执行单元。
- Slots就是work进程。
- 将数据按类型分组。
- Storm流分组:1)随机 负载均衡,2)字段 类型分组。
- Work挂掉,storm会重新启动一个进程,数据不会丢失。
- Storm不支持HA(目前)。
- 每个work都有一个ack/fail确认机制。
- Trident是对storm进行封装的一个框架。
- ES也是对Luncene的封装,天生为分布式而生。
- ES基于Restful接口。
- Hadoop RPC调用是基于Probobuf实现的。
- Client protocol定义了所有由客户端发起的,由namenode响应的操作:
- HDFS文件读相关的操作
- HDFS文件写以及追加写的相关操作
- 管理HDFS命名空间(namenode)的相关操作
- 系统问题与管理相关的操作
- 快照相关操作
- 缓存相关操作
- 其他
- FileSystem:
- HDFS文件读操作
- HDFS文件写与追加操作
- 命名空间的管理操作
- DFSAdmin:对系统问题管理相关操作。
- 处于安全模式(safemode)中的namenode不接受客户端对命名空间的修改操作,只读。
- 刚刚启动的namenode直接自动进入安全模式。
- 必须在安全模式的两个操作:
- ‘-savenamespace’用于将整个命名空间保存到新的fsimage文件中
- ‘-rolledits’则会触发重置editlog文件
- Refreshnodes()方法会触发namenode刷新数据节点列表。
- Findizeupgrade()和rollingupgrade()操作都是与namenode升级相关。
- 快照保存了一个实践点上HDFS摸个路径中所有数据的拷贝。
- 快照可以将失效的集群回滚到之前一个正常的时间点上。
- 创建快照之前,先开启目录的快照功能。
- HDFS 2.3版本添加了集中式缓存管理功能:
- Cache directive:表示要被缓存到内存的文件或目录
- Cache pool:用于管理一系列的cache directive类似于命名空间
- Datanode使用DatanodeProtocol接口与namenode握手注册,发送心跳进行全量以及增量的数据汇报。
- DatanodeProtocol三种方法类型:
- Datanode启动相关
- 心跳相关
- 数据块读写相关
- Datnode启动操作会与namenode进行四次交互:
- 与namenode握手
- 注册上的datanode
- 汇报数据块
- 缓存所有数据块
- 分布式系统的节点之间大多采用心跳维护节点的健康状态。
- InterDatanodeProtocol(DN与DN之间接口),主要用于租约恢复操作。
- 客户端打开一个文件进行写操作是,首先获取租约,并定期更新租约。
- NamenodeProtocol定义了第二namenode与namenode之间的接口。
- HDFS除了RPC调用还定义了流式接口(TCP/HTTP)。
- Hadoop RPC不足以支持大文件读写。
- HDFS客户端读取一个HDFS文件流程 :
- 打开HDFS文件
- 从namenode获取datanode地址
- 连接到datanode读取数据块
- 关闭输入流
- 数据块的应答包中不仅包含了数据,还包含了校验值。
- HDFS客户端写入一个HDFS文件的流程:
- 创建文件
- 建立数据流管道
- 通过数据流管道写入数据
- 关闭输入流并提交文件
- HDFS追加文件流程:
- 打开已有的HDFS文件
- 建立数据流管道
- 通过数据流管道写入数据
- 关闭输入流并提交文件
- 对于命名空间的一致性,两个namenode都需要与一组独立运行的节点(Journalnode,JNS)通信。
- ZKFailovercontroller负责维护HA。
- RPC(Remote Procedure Call protocol),远程过程调用协议。
- Hadoop RPC框架底层采用Java NIO,Java动态代理以及protobuf等。
- RPC框架:
- 通信模块
- 客户端stub程序
- 服务器端stub程序
- 请求程序
- 服务程序
- 客户端的stub可以看作是一个代理对象。
- Hadoop RPC 框架的使用抽象:
- 定义RPC协议
- 实现RPC协议
- 客户端获取代理对象
- 服务端启动并构造RPC servers
- Namenode:
- 文件系统目录树管理
- 数据块以及数据节点管理
- 租约管理:namenode给予租约持有者在规定时间内拥有文件权限的合同
- 缓存管理
- Fsnamesystem
Namenode的启动和停止- HDFS文件系统的命名空间是以/为根的整个目录树,是通过FSDirectory类来管理的。
- HDFS中文件与目录都被当做系统目录树的一个INode节点。
- HDFS会将命名空间保存到namenode的本地系统上一个叫fsimage的文件汇总。
- FSDirectory维护者文件系统目录树的节点。
- INode get方法:
- Username
- Groupnode
- Fspermission
- Allfeature:安全相关
- Modification
- Accesstime
- Sattrfeature:扩展属性
- HDFS的检查点机制会定时将editlog文件与fsimage文件合并以产生新的fsimage文件。
- 非HA,检查点操作由secondary namenode来执行。
- Namenode维护着HDFS中连个最重要的关系:
- HDFS文件系统的目录树以及文件的数据块索引
- 数据块和数据节点的对应关系
- 当namenode发生错误并今夕了Active与standly切换时,多余的副本不能直接删除,先汇报再从队列中移除。
- 数据块副本状态:
- 正常副本
- 损坏副本
- 多余副本
- 等待删除副本
- 等待删除副本
- 等待复制副本
- 正在复制副本
- 推迟操作副本
- 数据副本的删除情况:
- 数据块所属的HDFS文件被删除
- 数据块的副本数量多于配置表
- 副本被namenode标记损坏副本
- 在HDFS中,客户端写文件时需要先从租约管理器中申请一个租约。
- Namenode启动时会首先加载命名空间镜像并合并编辑日志。
- 预防脑裂,HDFS提供三个级别的隔离机制:
- 共享存储隔离
- 客户端隔离
- Datanode隔离
- HA管理命令的执行是由HAAdmin为负责的。
- Namenode三个类:
- Namenode类
- nameNode Rpcserver
- FSNamesystem类
- 块池:一个块池由属于同一个命名空间的所有数据块组成。
- 命名空间卷:一个namenode管理的命名空间以及它对应的块池一起被称为命名空间卷。
- 每个块池都是一个独立的数据块集合。
- Datanode从逻辑上可切分几个模块:
- 数据层
- 逻辑层:向NN汇报,心跳,扫描损坏数据块
- 服务器
- Datanode升级需要考虑:
- 版本兼容性问题
- 升级消耗的硬盘空间问题
- 回滚要求
- Datanode两个管理功能:
- 管理与组织磁盘存储目录
- 管理与组织数据块及其元数据文件
- Storedirectory:
- 获取文件夹相关
- 加锁/解锁
- 存储状态恢复
- 集中式缓存由分布在datanode上的对外内存组成,同时被namenode统一管理。
- 数据包:
- 数据包头
- 校验数据
- 实际数据
- Java NIO零拷贝模式。
- Datanode扫描器同期验证datanode上存储的数据块正确性。
- HDFS目前提供三个客户端接口:
- distributedFileSystem
- FSShell
- DFSAdmin
- DFSClient是用户使用HDFS各项功能的起点。
- HDFS管理员通过DFSAdmin工具管理与配置HDFS。
- HDFS目前实现的读操作有三个层次:
- 网络读:socket
- 短路读:同一节点
- 零拷贝读:缓存转换
- Shuffle和sort阶段负责执行两个主要动作:
- 决定哪个reducer接收map输出的键值对(切片)
- 并确定传输给reducer的键值对是进行排序的
- MapReduce是基于批处理的框架,不适合实时访问数据。
- Hadoop配置文件:
- Hadoop-env.sh ——设置环境变量
- Core-site.xml ——系统级的Hadoop配置项
- Hdfs-site.xml ——HDFS配置
- Mapred-site.xml ——HDFS设置
- Master ——Hadoop的master主机列表
- Slaves ——Hadoop的slave主机地址列表
- Flume四个组件:
- Nodes ——flume数据路径
- Agents ——从本地主机上收集流数据
- Collectors ——汇总来自代理的数据
- Master——执行配置管理任务
- Flume以Avro Json格式写数据。
- Agent数据接收器是Agent数据源的目的地。
- Flume数据源:
- Text ——处理一次的文本文件,每次处理一行
- Tail ——为加入文件的每行生产一个事件
- Multitail ——tail工具支持多文件处理
- Syslogudp ——处理syslogUDP消息
- syslogTcp ——处理sysLogTcp消息
- execperiodic ——任意命令定期执行,整个输出是一个事件
- execstream ——执行任意指令,每行是一个独立事件
- exec ——定期执行任意指令并确定整个输出的每行事件
- scribe ——处理scrive collection 系统生产的数据
- Collector数据接收器支持多种事件输入格式:
- Syslog ——输出类似syslog格式的事件
- Log4j ——输出类似Hadoop log4j 格式的事件
- avroJson——输出进过Avro编码的json格式的数据
- avrodata ——输出经过avro二进制编码的数据
- debug ——仅在调试时使用
- raw——只输出事件本身,不包含元数据
- spark编程模型是弹性分布式数据集,他是MapReduce模型的扩展和延伸。
- RDD记录血统,而不是真正数据。
- Spark四类操作:
- 创建操作:用于RDD创建工作
- 转换操作:RDD变换成新的RDD
- 控制操作:RDD持久化
- 行为操作:能够触发spark运行的操作
- 调度器安装DAG进行计算,并最终得到目标RDD。
- RDD模型将计算分解为多个相互独立的细粒度任务。
- Spark中提供了通用接口来抽象每个RDD
- 分区信息:它们是数据集的最小分片
- 依赖关系:指向其父RDD
- 函数:基于RDD计算方法
- 划分策略和数据位置的元数据
- RDD操作中用户可以使用Partition方法获取RDD划分的分区数。
- Spark中RDD计算是以分区为单位的。
- Spark默认连个划分器:哈希分区和范围分区。
- Hadoop中的每一个HDFS数据块都称为一个RDD分区。
- Map/mapPartitions作用每个元素,每个分区。
- Checkpoint将切断与该RDD之前的依赖关系。
- Spark基本概念:
- Application ——用户编写的spark应用程序
- Driver ——application的main创建sparkContext
- Cluster manager ——指在集群上获取资源的外部服务
- Standlone ——spark原生的资源管理
- Hadoop YARN
- Worl ——工作节点
- Master ——总控进程
- Executor ——执行进程
- Spark定义了通信框架接口,这些接口实现中调用netty的具体方法。
- Shuffle写有基于哈希和排序两种方式。
- Clustermanager提供了资源的分配和管理。
- 资源分配和调度的基本单位是container。
- 在YARN中,每个application实例都有一个application master进程。
- Application master是application启动的第一个容器,它负责和resourceManager打交道并请求资源。
- Spark SQL执行过程:
- 词法和语法解析
- 绑定
- 优化4. 执行
- Spark 提供了两种方式将RDD转换成DataFrame:
- 通过定义 case class ,使用反射推断schema
- 通过编程接口,定义schema,并应用到RDD上
- YARN拆分Jobtracker的两大职责:资源管理,作业调度/监控:
- 全局的resource Manager
- 每个应用对应的Application Master
- Resource Manager拥有为系统中的所有应用的资源分配的决定权。
- Container为应用程序授予在特定主机上使用资源全权利。
- YARN三种调度器:
- FIFO调度器
- Capacity调度器
- Fair调度器
- Storm一个work进程执行的是一个topplpgy的子集。
- Executor是一个被work进程启动的单独线程。
- Work之间通信是通过Netty进行通信的。
- Stream grouping:
- Shuffle ——随机分组
- Fields ——按字段分组
- All ——广播发送
- Non ——随机分配
- Diret ——直接分组
- Task是运行spout或bolt中的线程。
- Strom的核心:
- 主节点 ——Nimbus
- 工作节点——supervisor
- 协调器——Zookeeper
- 工作进程——worker
- 任务线程——task
- Storm三大应用:
- 信息流处理
- 持续计算
- 分布式远程调用
- 提交一个Topology之后,storm创建spout/bolt实例big进行序列化。
- 流是一个分布式并行创建和处理的无界的连续元组。
- Storm数据传输利用的是zmq开源的消息传递框架。
- Topology是由stream grouping链接起来的spout和bolt节点网络。
- Tupe可以理解成键值对,即Fields和values。
- Tuple的asked,faild都由spout发出并维护的。
- 本地模式:storm用一个进程红的线程模拟所有spout/bolt。
- Nimbus和supervisor之间的通信依赖Zookeeper完成。
- 用户画像是一个实际用户的虚拟代表,如年龄,性别等。
- 在机器学习中,对象是指含有一组特征的行变量。
- 行变量的集合最容易构造的结构就是表。
- Hadoop有三种令牌:
- 委托令牌
- 块访问令牌
- 作业令牌
- 对事物运动这种不确定性(随机性)的度量就是概率论。
- 大数据4V:
- Volume ——数据体量大
- Variety ——数据类型繁多
- Velocity ——处理速度快
- Value ——商业价值高
- 移动互联网产生了和客户紧密拥绑的大数据。
- 在互联网这个产业链中,谁掌握了用户,谁的天下。
- 消费者的注意力和使用习惯去了哪里,钱就会流向哪里。
- 体验的产生是一个艺术的过程。
- 大数据的目标是定位。
- 建立一个学习型企业架构。