TNTZS666

《HBase原理与实践》阅读笔记

学习笔记（1-3章）

全书概述

1.HBase概述

1.1.Hbase发展历史
1.2.Hbase数据模型
1.3.Hbase体系结构
1.4.Hbase系统特性

2.Hbase基础数据结构与算法

2.1.LSM树

2.1.1.KeyValue存储格式

2.2.跳跃表
2.3.布隆过滤器

3.Hbase依赖服务

3.1.Zookeeper相关
3.2.HDFS相关

本博客内容基本整理自《Hbase原理与实践》一书。仅用于个人学习和积累。

全书概述

《HBase原理与实践》共有16章，根据文章内容可以分为如下6个部分。

1.HBase基础部分: 包含第1、2章。其中，第1章主要介绍HBase系统的发展历史、数据模型以及体系结构，第2章主要介绍HBase系统中常用的数据结构以及基础算法。
2.HBase系统相关组件: 包含第3、4、5章。其中，第3章重点介绍HBase所依赖的核心组件，包括ZooKeeper、HDFS等，第4章介绍HBase客户端组件实现，第5章介绍RegionServer内部组件的实现。
3.HBase核心工作原理: 包含第6、7、8、9、10、11章。其中，第6章详细分析HBase读写流程，第7章介绍HBase Compaction的实现原理，第8章介绍HBase中Region的迁移、合并以及分裂等操作是如何实现的，第9章介绍RegionServer宕机后如何通过HLog进行数据恢复，第10章介绍HBase不同集群之间的复制是如何实现的，第11章介绍HBase如何通过Snapshot机制完成数据的备份和恢复。
4.HBase运维调优实践: 包含第12、13、14章。其中，第12章介绍HBase集群常用的运维管理操作，包括集群如何有效监控，基准性能如何测试等，第13章集中介绍HBase集群的常用调优技巧，第14章重点分析几个HBase实际运维案例，通过案例分析介绍HBase集群定位和处理问题的技巧。
5.HBase 2.x核心特性（第15章）: 介绍HBase最新2.x版本的核心功能与特性。
6.HBase高级话题（第16章）: 介绍社区中比较热门的二级索引话题，以及HBase内核的开发与测试。

1.HBase概述

1.1.Hbase发展历史

Hbase作为大数据中至关重要的一个组件，和其他很多组件一样，起源于Google当年风靡一时的“三篇论文”—GFS、MapReduce、BigTable。一家叫做Powerset的公司，为了高效处理自然语言搜索产生的海量数据实现了BigTable的开源版本—HBase，并在发展了2年之后被Apache收录为顶级项目，正式入驻Hadoop生态系统。
Hbase版本变迁：

注：2.x版本是接下来最受期待的一个版本（升级要慎重，请参考社区中的实践），因为最近一两年社区开发的新功能都将集中在2.x版本发布，2.x包含的核心功能特别多，包括：大幅度减小GC影响的offheap read path/write path工作，极大提升系统稳定性的Procedure V2框架，支持多租户隔离的RegionServer Group功能，支持大对象存储的MOB功能等。

1.2.Hbase数据模型

从使用角度来看，HBase包含了大量关系型数据库的基本概念—表、行、列。
从逻辑视图来看，HBase中的数据是以表形式进行组织的，而且和关系型数据库中的表一样，HBase中的表也由行和列构成，因此HBase非常容易理解。
从物理视图来看，HBase是一个Map，由键值（KeyValue，KV）构成，不过与普通的Map不同，HBase是一个稀疏的、分布式的、多维排序的Map——“sparse, distributed, persistent multidimensional sorted map”。HBase中Map的key是一个复合键，由rowkey、column family、qualifier、type以及timestamp组成，value即为cell的值。

1.3.Hbase体系结构

HBase体系结构是典型的Master-Slave模型。

RegionServer主要用来响应用户的IO请求，是HBase中最核心的模块，由WAL(HLog)、BlockCache以及多个Region构成。

WAL(HLog)：HLog在HBase中有两个核心作用—其一，用于实现数据的高可靠性，HBase数据随机写入时，并非直接写入HFile数据文件，而是先写入缓存，再异步刷新落盘。为了防止缓存数据丢失，数据写入缓存之前需要首先顺序写入HLog，这样，即使缓存数据丢失，仍然可以通过HLog日志恢复；其二，用于实现HBase集群间主从复制，通过回放主集群推送过来的HLog日志实现主从复制。
BlockCache：HBase系统中的读缓存。客户端从磁盘读取数据之后通常会将数据缓存到系统内存中，后续访问同一行数据可以直接从内存中获取而不需要访问磁盘。对于带有大量热点读的业务请求来说，缓存机制会带来极大的性能提升。
BlockCache缓存对象是一系列Block块，一个Block默认为64K，由物理上相邻的多个KV数据组成。BlockCache同时利用了空间局部性和时间局部性原理，前者表示最近将读取的KV数据很可能与当前读取到的KV数据在地址上是邻近的，缓存单位是Block（块）而不是单个KV就可以实现空间局部性；后者表示一个KV数据正在被访问，那么近期它还可能再次被访问。当前BlockCache主要有两种实现—LRUBlockCache和BucketCache，前者实现相对简单，而后者在GC优化方面有明显的提升。
Region：数据表的一个分片，当数据表大小超过一定阈值就会“水平切分”，分裂为两个Region。Region是集群负载均衡的基本单位。通常一张表的Region会分布在整个集群的多台RegionServer上，一个RegionServer上会管理多个Region，当然，这些Region一般来自不同的数据表。

1.4.Hbase系统特性

与其他数据库相比，HBase在系统设计以及实际实践中有很多独特的优点如：容量巨大，良好的可扩展性，稀疏性，高性能，多版本，支持过期，Hadoop原生支持等。

HBase的缺点

HBase本身不支持很复杂的聚合运算（如Join、GroupBy等）。如果业务中需要使用聚合运算，可以在HBase之上架设Phoenix组件或者Spark组件，前者主要应用于小规模聚合的OLTP场景，后者应用于大规模聚合的OLAP场景。
HBase本身并没有实现二级索引功能，所以不支持二级索引查找。好在针对HBase实现的第三方二级索引方案非常丰富，比如目前比较普遍的使用Phoenix提供的二级索引功能。
HBase原生不支持全局跨行事务，只支持单行事务模型。同样，可以使用Phoenix提供的全局事务模型组件来弥补HBase的这个缺陷。

2.Hbase基础数据结构与算法

Hbase的一个列簇（Column Family）本质上是一颗LSM树（Log-Structured Merge-Tree）。LSM树的索引一般分为两部分，为内存部分和磁盘部分。内存部分Hbase选择了跳跃表来维护一个有序的KeyValue集合，而磁盘部分采用了布隆过滤器。

2.1.LSM树

2.1.1.KeyValue存储格式

一般来说，LSM中存储的是多个KeyValue组成的集合，每个KeyValue一般都用一个字节数组来表示。Hbase中该字节数组主要分为以下几个字段，其中Rowkey、Family、Qualifier、Timestamp、Type这5个字段组成KeyValue中的key部分。其中type字段表示这个KeyValue操作的类型，HBase内有Put、Delete、Delete Column、Delete Family等等。注意，这是一个非常关键的字段，表明了LSM树内存储的不只是数据，而是每一次操作记录。 Value直接存储的是值的二进制内容。

2.2.跳跃表

跳跃表（SkipList）是一种能高效实现插入，删除，查找内容的数据结构，这些操作的期望复杂度都是O(logN)。
定义：

跳跃表由多条分层的链表组成。
每条链表中的元素都是有序的。
每条链表都有两个元素：+∞（正无穷大）和- ∞（负无穷大），分别表示链表的头部和尾部。
从上到下，上层链表元素集合是下层链表元素集合的子集，即S1是S0的子集，S2是S1的子集。
跳跃表的高度定义为水平链表的层数。

2.3.布隆过滤器

布隆过滤器由一个长度为N的01数组组成。布隆过滤器串对任意给定元素w，经过哈希运算后可以给出的存在性结果为两种：

w可能存在于集合A中。
w肯定不在集合A中。

详细解释见原文或者点击此处。

3.Hbase依赖服务

3.1.Zookeeper相关

在安装HBase集群时需要在配置文件conf/hbase-site.xml中配置与ZooKeeper相关的几个重要配置项，如下所示：


            hbase.zookeeper.quorum
            localhost
        
        
            hbase.zookeeper.property.clientPort
            2181
        
        
            zookeeper.znode.parent
            /hbase

其中，hbase.zookeeper.quorum为ZooKeeper集群的地址，必须进行配置，该项默认为localhost。hbase.zookeeper.property.clientPort默认为2181，可以不进行配置。zookeeper. znode.parent默认为/hbase，可以不配置。HBase集群启动之后，使用客户端进行读写操作时也需要配置上述ZooKeeper相关参数。

HBase在ZooKeeper根节点下创建的主要子节点：

  [zk: localhost:2181(CONNECTED) 2] ls /hbase
 [meta-region-server,  backup-masters,  table,  region-in-transition,  table-lock,master,  balancer,  namespace,  hbaseid,  online-snapshot,  replication,  splitWAL,recovering-regions, rs]

其中：replication用来实现HBase复制功能。 splitWAL/recovering-regions：用来实现HBase分布式故障恢复。

3.2.HDFS相关

一般情况下，一个线上的高可用HDFS集群主要由4个重要的服务组成：NameNode、DataNode、JournalNode、ZkFailoverController。
其中NameNode采用写EditLog和FsImage的方式来保证元数据的高效持久化，JournalNode其实是用来维护EditLog一致性的Paxos组。
HBase使用HDFS存储所有数据文件，从HDFS的视角看，HBase就是它的客户端。
Hbase在HDFS上的文件布局
通过HDFS的客户端列出HBase集群的文件如下：

hadoop@hbase37:～/hadoop-current/bin$ ./hdfs dfs -ls /hbase
        Found 10 items
drwxr-xr-x    - hadoop hadoop       2018-05-07 10:42 /hbase-nptest/.hbase-snapshot
drwxr-xr-x    - hadoop hadoop       2018-04-27 14:04 /hbase-nptest/.tmp
drwxr-xr-x    - hadoop hadoop       2018-07-06 21:07 /hbase-nptest/MasterProcWALs
drwxr-xr-x    - hadoop hadoop       2018-06-25 17:14 /hbase-nptest/WALs
drwxr-xr-x    - hadoop hadoop       2018-05-07 10:43 /hbase-nptest/archive
drwxr-xr-x    - hadoop hadoop       2017-10-10 20:24 /hbase-nptest/corrupt
drwxr-xr-x    - hadoop hadoop       2018-05-31 12:02 /hbase-nptest/data
-rw-r--r--    3 hadoop hadoop       2017-09-29 17:30 /hbase-nptest/hbase.id
-rw-r--r--   3 hadoop hadoop       2017-09-29 17:30 /hbase-nptest/hbase.version
drwxr-xr-x    - hadoop hadoop      2018-07-06 21:22 /hbase-nptest/oldWALs

其中：.tmp：临时文件目录，主要用于Hbase表创建删除操作。.WALs：存储集群中所有RegionServer的HLog日志文件。.archive：文件归档目录。这个目录主要会在以下几个场景下使用。

所有对HFile文件的删除操作都会将待删除文件临时放在该目录。
进行Snapshot或者升级时使用到的归档目录。
Compaction删除HFile的时候，也会把旧的HFile移动到这里。

注：不同版本的Hbase在HDFS上文件名有差异，并不是相同的。

你可能感兴趣的:(大数据学习)

大数据学习｜理解和对比 Apache Hive 和 Apache Iceberg 进击的小白菜数据库大数据大数据学习 apache
文章目录数据模型与存储事务支持性能优化使用场景总结数据模型与存储Hive:Hive使用的是传统的关系型数据模型，数据存储在Hadoop分布式文件系统(HDFS)中，通常是以文本格式（如CSV或TSV）或者二进制格式（如Parquet或ORC）。Hive的表定义和元数据存储在一个外部的关系数据库中，如MySQL，用于跟踪表结构、分区和其他元数据信息。Iceberg:Iceberg设计为一个现代的表格
Python大数据学习day01——大数据开发概论笨小孩124 python 学习总结大数据学习 python
目录大数据概念大数据特点大数据应用场景大数据分析业务步骤大数据职业规划大数据学习路线1.大数据解决问题海量数据存储——海量数据运算——海量数据迁移2.大数据特点（大、多、值、快、信）数据体量大种类和来源多源化实现低价值密度速度快数据的质量准确可信3.大数据应用4.大数据分析步骤明确分析目的思路——数据收集——数据处理（ETL）——数据分析——数据展现——撰写报告5.大数据职业规划6.大数据学习路线
大数据学习路线基础指南‌ 一马什么梅一大数据学习
随着信息技术的迅猛发展，‌大数据已成为当今社会的热门话题。‌无论是企业决策、‌市场分析还是科学研究，‌大数据都扮演着举足轻重的角色。‌对于想要投身这一领域的学习者来说，‌制定一份清晰、‌系统的大数据学习路线是至关重要的。‌提供一份从零基础到精通的大数据学习指南希望对大家有所帮助一、‌基础阶段：‌掌握核心概念与技能1.‌了解大数据基础‌学习大数据的定义、‌特点、‌价值以及应用领域。‌理解大数据与传统
学习大数据开发，需要满足哪些条件？学历，性别，专业有限制吗？ yoku酱
给大家介绍一下关于零基础学习大数据需要哪些条件？首先我们在平时的工作中，经常有小白同学问学习大数据有学历限制吗？我是大专学历可以学习大数据技术吗？我没有计算机基础，可以学习大数据吗？大数据学习是不是很难，零基础能学会吗？我是女生，可以学习大数据技术吗？下面我们针对这些问题来一一作答！首先对于零基础的童鞋想参加大数据开发学习，需要：1、一些数学常识，尤其是想从事数据分析这一块，至少要了解常用计算模型
001kafka源码项目gradle报错UnsupportedClassVersionError-kafka-报错-大数据学习 gaog2zh 大数据 kafka 大数据
1报错提示java.lang.UnsupportedClassVersionError:org/eclipse/jgit/lib/AnyObjectIdhasbeencompiledbyamorerecentversionoftheJavaRuntime(classfileversion55.0),thisversionoftheJavaRuntimeonlyrecognizesclassfile
python+大数据学习打卡day1 岁月不静好456 big data 学习
【大数据从0-1打卡-day1】1、简单了解一些关于大数据的概念数据：数据就是对客观事件进行记录并可以鉴别的符号。他不仅仅是指数字，还可以是有一定意义的字母、文字、符号、语音、文字、图画、视频或者这些元素的结合等。企业数据分析方向：现状分析：离线分析原因分析：实时分析预测分析：机器学习数据分析基本流程：采集、处理、分析、应用大数据：大数据(bigdata)，指的是所涉及的资料量规模巨大到无法透过主
大数据基础必备，大数据是什么？大数据05
随着互联网时代的到来，颠覆了传统行业的盈利模式，大家都把注意力集中在了互联网上。前几年大数据时代的来临，为各行各业提供了更加开阔的数据用作分析。大数据学习群：199427210百科对于大数据是这样解释的：麦肯锡全球研究所给出的定义是：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据
自学大数据：大数据学习线路及各阶段学习书籍 yoku酱
大数据学习路线及各阶段学习书籍推荐！阶段一、大数据基础——java语言基础方面（1）Java语言基础Java开发介绍、熟悉Eclipse开发工具、Java语言基础、Java流程控制、Java字符串、Java数组与类和对象、数字处理类与核心技术、I/O与反射、多线程、Swing程序与集合类（2）HTML、CSS与JavaScriptPC端网站布局、HTML5+CSS3基础、WebApp页面布局、原生
学习大数据需要掌握哪些知识？大数据学习01
大数据已经成为时代发展的趋势，很多人纷纷选择学习大数据，想要进入大数据行业。大数据技术体系庞大，包括的知识较多，系统的学习大数据可以让你全面掌握大数据技能。学习大数据需要掌握哪些知识？1、学习大数据首先要学习Java基础怎样进行大数据学习的快速入门？学大数据课程之前要先学习一种计算机编程语言。Java是大数据学习需要的编程语言基础，因为大数据的开发基于常用的高级语言。而且不论是学习hadoop，还
大数据学习入门级书籍推荐，零基础小伙伴们关注一下吧 kuntoria
1.《大数据分析：点“数”成金》大数据学习入门级书籍推荐你现在正坐在一座金矿之上，这些金子或被深埋于备份、存档数据之中，或正藏在你眼前的数据集里，它们是提升公司效益、拓展新的商业关系、制订更直观决策的秘诀所在，足以使你的企业更上一层楼。你将明白如何利用、分析和驾驭数据来获得丰厚回报。作者FrankOhlhorst“厚积”数十年的技术经验而“薄发”于此书，他将向读者介绍怎样将大数据分析应用于各行各业
2021-11-07大数据学习日志——MySQL进阶——报表项目王络不稳定 mysql 数据库 database
01_数据表介绍学习目标了解项目使用的数据表结构及表关系课程使用微软的Northwind数据集,零售业务，包含了客户，供应商和订单数据。原始数据集可以在微软GitHub仓库下载。为了满足课程需求，数据库数据在原始数据基础上做了微调。基于此份数据，我们将通过SQL来创建数据报表，满足业务需求。1.1数据表整体概览1.2员工表(employees)保存员工基本信息，包含如下字段：employee_id
大数据学习之Redis，十大数据类型的具体应用（五）十二点的泡面 redis 学习 redis 数据库
目录3.9Redis地理空间（GEO）简介原理Redis在3.2版本以后增加了地理位置的处理哦命令命令实操如何获得某个地址的经纬度3.9Redis地理空间（GEO）简介移动互联网时代LBS应用越来越多，交友软件中附近的小姐姐、外卖软件中附近的美食店铺、高德地图附近的核酸检査点等等，那这种附近各种形形色色的XXX地址位置选择是如何实现的?地球上的地理位置是使用二维的经纬度表示，经度范围(-180,1
量化学习：大数据时代的学习方式 weixin_44387107 大数据大数据人工智能机器学习数据挖掘数据分析
摘要：未来人工智能、大数据、学习分析等技术被广泛应用于教育教学中，量化学习将成为新的研究热点。本研究首先对量化学习的内涵、特征、工具和方法进行概述，然后阐述了量化学习的价值意义和应用案例，进而分析了量化学习发展趋势与其面临的挑战。关键词：量化学习；大数据；《地平线报告》（高等教育版）在这里相信有许多想要学习大数据的同学，大家可以+下大数据学习裙：740041381，即可免费领取套系统的大数据学习教
大数据是什么？华为云学院带你探索大数据之旅舒意从生
大数据是什么？华为云学院带你探索大数据之旅我们首先从大数据是什么开始讲起，！下面由我来带领大家！展开我们本次的大数据学习之旅！大数据是什么，内容将包括大数据的产生，发展大数据的基本概念。首先我们来追溯一下大数据的产生与发展，大数据的产生和发展主要经历了三个阶段。第一个阶段，我们称为是萌芽期！自上世纪九十年代至本世纪初，随着数据挖掘理论和数据库技术的逐步成熟，一批商业智能工具和知识的管理技术也开始得
大数据学习(32)hive优化方法总结 viperrrrrrr 大数据学习 hive
&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦Hive优化主要从以下几个方面考虑：数据倾斜：对于数据倾斜问题，可以尝试进行数据重分布，将倾斜的数据进行重新整理。也可以通过多线程处理和数据分箱等技术进行优化。减少job数：对于大量的小任务，可以尝试进行任务的合并，减少任务的启动次数，从而提高效率。合理设置ma
大数据学习之Redis，十大数据类型的具体应用（四）十二点的泡面学习 redis 数据库
3.8Redis基数统计（HyperLogLog）需求统计某个网站的UV、统计某个文章的UV什么是UVuniqueVisitor，独立访客，一般理解为客户端IP大规模的防止作弊，需要去重复统计独立访客比如IP同样就认为是同一个客户需要去重考虑用户搜索网站的关键词的数量统计用户每天搜索不同词条个数是什么？去重复统计功能的基数估计算法-就是HyperLogLogRedisHyperLogLog是用来做
大数据学习之Redis，十大数据类型的具体应用（一）十二点的泡面 redis 学习 redis 数据库
目录3.数据类型命令及落地应用3.1备注3.2Redis字符串（String）单值单value多值操作获取指定区间范围内的值数值增减获取字符串长度和内容追加分布式锁getset(先get后set)3.3Redis列表（List）简单说明单key多value3.4Redis哈希（Hash）KV模式不变，但是V是一个键值对3.数据类型命令及落地应用3.1备注命令不区分大小写，而key是区分大小写的永远
大数据学习之Redis，十大数据类型的具体应用（三）十二点的泡面学习 redis 数据库
目录3.7Redis位图（bitmap）概念需求是什么说明能干嘛?基本命令3.7Redis位图（bitmap）概念由0和1状态表现的二进制位的bit数组需求用户是否登陆过？Y/N广告是否被点击过？钉钉打卡上下班，签到统计是什么说明用String类型作为底层数据结构实现的一种统计二值状态的数据类型位图本质是数组，它是基丁String数据类型的按位的操作。该数组由多个二进制位组成，每个二进制位都对应一
大数据学习之Redis，十大数据类型的具体应用（二）十二点的泡面 redis 学习 redis 数据库
目录3.5Redis集合（Set）单值多value，且无重复sadd/smembers/sismember/srem/scardsrandmember/spopsmove集合运算应用场景3.6Redis有序集合Zset（sortedset）有序有重复zadd/zrange/zrevrangezrangebyscorezscore/zcard/zremzincrby/zcount/zmpopzran
从术语到Spark，10篇必读大数据学习资源大数据的时代
本文给想进入大数据领域的朋友提供了一系列的资源，由浅入深，比如“需要了解的51条大数据术语”、“学习python的四个理由”、“十一个必须要参加的大数据会议”等有趣的话题。相信各种背景的朋友都会在这篇文章中有所收获。之前，我们已就数据可视化进行了深入探讨。这次，我们将从更基本的概念讲起，以便在涉足更复杂的数据科学和商业智能之前能够真正理解大数据。文中会引领大家阅读介绍大数据的相关文章，研究网络上流
大数据学习之Redis、从零基础到入门（三）十二点的泡面 redis bootstrap 前端 html
目录三、redis10大数据类型1.哪十个？1.1redis字符串（String）1.2redis列表（List）1.3redis哈希表（Hash）1.4redis集合（Set）1.5redis有序集合（ZSet）1.6redis地理空间（GEO）1.7redis基数统计（HyperLongLog）1.8redis位图（bitmap）编辑1.9redis位域（bitfiled）1.10redis流
大数据学习之Redis、从零基础到入门（一）十二点的泡面 redis 大数据学习 redis
目录一、Redis入门概述1.是什么？官方解释：2.能干嘛？2.1主流功能与应用2.1.1分布式缓存2.1.2内存存储和持久化(RDB+AOF)2.1.3高可用架构搭建2.1.4缓存穿透、击穿、雪崩2.1.5分布式锁2.1.6队列2.2总体功能概括2.3优势3.去哪下？官网地址：英文：中文：中文文档：下载安装包：其他文档资料：Redis源码地址：Redis在线测试：Redis命令参考：4.怎么玩？
大数据学习之Redis、从零基础到入门（二）十二点的泡面 redis 大数据学习 redis
二、Redis安装配置1.VMWare本地虚拟机VMWare准备的为64位查看自己的VMWare是32位还是64位getconfLONG_BIT2.Redis的安装2.1系统选择选择Linux系统2.2Linux版安装2.2.1Linux环境安装Redis必须先具备gcc编译环境①什么是gccgcc是linux下的一个编译程序，是C程序的编译工具GCC(GNUCompilerCollection)
大数据运维到底是什么又需要做些什么科技资讯快报
疫情期间，大数据的广泛应用发挥了巨大的作用，作为新兴的IT领域技术，大数据行业受到越来越多的人关注，于是想要入行的、转行的纷纷选择大数据学习，那么大数据运维到底是什么？又需要做些什么?直白的解释大数据运维，就是有一些数据需要进行维护,运维的意思在这里就是维护。作为一名合格的大数据运维，需要承担的责任繁琐而严谨，今天就来了解其中的一部分，首先大数据运维需要承担团队的日常管理，组织制定中心基础设施的保
大数据学习之路金光闪闪耶
一、为什么要学习大数据？在我第一份实习的时候，忘记在什么场景下我leader突然说了一句：「干Java不就是增删改查嘛」，而恰好那时候知乎都是「干了3年Java，还是只会增删改查，迷茫」等问题，我听完leader那句话就心里一颤。因为这句话，我又一次的陷入迷茫，我不清楚自己是不是应该继续的Java，所以那段时间我干过爬虫，也撸了一阵子的西瓜书和统计学什么的。在知乎上所有相关的问题和答案我都看了，也
大数据学习之Flink算子、了解（Source）源算子（基础篇二）十二点的泡面 Flink 算子大数据学习 flink
Source源算子（基础篇二）目录Source源算子（基础篇二）二、源算子（source）1.准备工作2.从集合中读取数据可以使用代码中的fromCollection()方法直接读取列表也可以使用代码中的fromElements()方法直接列出数据获取3.从文件中读取数据说明：4.从Socket读取数据（1）编写StreamWordCount（2）在Linux环境的主机bigdata1上，执行下列
大数据学习之Flink算子、了解（Transformation）转换算子（基础篇三）十二点的泡面算子 Flink 大数据学习 flink
Transformation转换算子（基础篇三）目录Transformation转换算子（基础篇三）三、转换算子（Transformation）1.基本转换算子1.1映射（Map）1.2过滤（filter）1.3扁平映射（flatmap）1.4基本转换算子的例子2.聚合算子（Aggregation）2.1按键分区（keyBy）2.2简单聚合2.3归约聚合（reduce）3.用户自定义函数（UDF）
大数据学习之Flink算子、了解DataStream API（基础篇一）十二点的泡面 Flink 算子大数据学习 flink
DataStreamAPI（基础篇）注：本文只涉及DataStream原因：随着大数据和流式计算需求的增长，处理实时数据流变得越来越重要。因此，DataStream由于其处理实时数据流的特性和能力，逐渐替代了DataSet成为了主流的数据处理方式。目录DataStreamAPI（基础篇）前摘：一、执行环境1.创建执行环境2.执行模式3.触发程序执行二、源算子（source）三、转换算子（Trans
大数据学习之Flink、比较不同框架的容错机制十二点的泡面大数据 Flink 大数据学习 flink
第一章、Flink的容错机制第二章、Flink核心组件和工作原理第三章、Flink的恢复策略第四章、Flink容错机制的注意事项第五章、Flink的容错机制与其他框架的容错机制相比较目录第五章、Flink的容错机制与其他框架的容错机制相比较Ⅰ、Flink的容错机制与其他框架的容错机制相比较相同点：1.容错机制的目的：2.持久化存储：不同点：1.适用场景：2.容错机制的细节：3.数据一致性：综上所述
大数据学习之Flink、Flink容错机制的注意事项十二点的泡面大数据 Flink 大数据学习 flink
第一章、Flink的容错机制第二章、Flink核心组件和工作原理第三章、Flink的恢复策略第四章、Flink容错机制的注意事项第五章、Flink的容错机制与其他框架的容错机制相比较目录第四章、Flink容错机制的注意事项Ⅰ、注意事项1.Checkpoint的稳定性：2.状态一致性：3.失败的Checkpoint或Savepoint处理：4.资源管理：5.版本控制：6.监控和日志分析：第四章、Fl
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * <p>方法描述:sql语句查询返回List<Class> </p> * <p>方法备注: Class 只能是自定义类 </p> * @param calzz * @param sql * @return * <p>创建人：王川</p> * <p>创建时间：Jul

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他