是小先生

大数据笔记--HBase（第二篇）

目录

一、Hbase的基本架构

1、HRegion

2、Zookeeper的作用

3、HMaster

4、HRegionServer

5、Compaction机制

二、Hbase的架构读写流程

1、概念

2、写流程

3、读流程

三、Hbase的设计优化

1、设计原则

①、行键设计

②、列族设计

2、优化

一、Hbase的基本架构

1、HRegion

①、在Hbase中，会将一个表从行键方向上进行切分，切分成1个或者多个HRegion

②、切分之后，每一个HRegion都会交给某一个HRegionServer来进行管理

③、一个表至少会包含一个HRegion，可以包含多个HRgion

④、在HBase中，行键是有序的，因此从行键方向上来进行切分，所以HRegion之间的数据是不交叉的

⑤、因为HRegionServer会交给HRegionServer来管理，并且HRegion之间的数据相互不交叉，所以保证请求不会集中于某一个节点上而是会分散到不同的节点上

⑥、随着运行时间的推移，HRegion管理的数据会不断增多，达到指定条件的时候，会自动进行分裂

⑦、每一个HRegion包含一个到多个HStore，HStore的数量有列族的数量来决定

⑧、每一个HStore都会包含1个memStore以及包含0到多个StoreFile/HFile

2、Zookeeper的作用

①、在HBase中，Zookeeper充当了注册中心

②、当HBase启动之后，会自动的在Zookeeper上来注册一个/hbase节点

③、当Active HMaster启动之后，会自动的在Zookeeper上注册一个临时节点/hbase/master-当Active HMaster宕机之后，这个临时节点就会消失，此时Zookeeper就会从backup-masters节点中选择最早注册的节点来切换为Active状态

④、当Backup HMaster启动之后，会自动的在Zookeeper的/hbase/backup-masters节点上注册一个临时子节点

⑤、当HRegionServer启动之后，也会自动的在Zookeeper的/hbase/rs节点下，来注册子节点

3、HMaster

①、在HBase中，允许用户在任意一台安装了HBase的节点上来启动HMaster，理论上不限制HMaster的数量

②、HMaster启动命令

hbase-daemon.sh start master

③、在HBase中，如果启动了多个HMaster，那么HMaster之间就会分为Active和Backup两种状态

④、如果启动多个HMaster，那么最先注册到Zookeeper上的HMaster就会成为Active状态，后注册到Zookeeper上的HMaster就会成为Backup状态

⑤、当Active HMaster接收到请求之后，需要考虑将数据同步给其他的Backup HMasters。同步的节点数量越多，此时效率就会越低

⑥、因此在HBase中，虽然理论上不限制HMaster的个数，但是实际过程中，HMaster的个数一般不会超过3个：1个Active HMaster+2个Backup HMasters

⑦、Active HMaster会实时监控Zookeeper上/hbase/backup-masters下的节点变化以确定需要同步的节点是哪几个

⑧、HMaster的作用

Ⅰ、管理HRegionServer。需要注意的是，HMaster对HRegionServer的管理权限并不大，只能决定HRegion交由哪一个HRegionServer来进行管理

Ⅱ、记录和存储元数据。HBase中的元数据包含namespace名、table名、column family名以及属性信息等。注意，在HBase中，列不是元数据，因为列可以动态增删 - 也就意味着凡是产生元数据的操作会经过HMaster，不产生元数据的操作不会经过HMaster。

DDL(Data Defination Language，数据定义语言，例如create/drop等)以及namespace操作会产生元数据

DML(Data Manipulation Language，数据操纵定义，例如put/get/scan/delete等)语言不会产生元数据

4、HRegionServer

①、在实际生产过程中，一般会考虑将HRegionService和DataNode部署在相同的节点上，避免频繁的跨集群的请求

②、HRegionServer的作用是用于管理HRegion。官方文档中给定，每一个HRegionServer大概能够管理1000个HRegion。每一个HRegion默认能够最多管理10G数据

③、每一个HRegionServer包含三部分结构：1到多个WAL，1个BlockCache以及0到多个HRgion

④、WAL（Write Ahead Log）：发生写操作之前的日志

1、当HRegionServer接收到写请求之后，会先试图将请求记录到WAL中，之后再将数据更新到对应的memStore中

2、通过WAL这个机制，能够有效的保证数据不会产生丢失，但是因为WAL是落地在磁盘上的，因此会导致写入效率在一定程度上会降低。因此在实际过程中，如果容忍一定程度上的数据丢失的风险而想提高写入效率，那么此时可以考虑关闭WAL机制

3、在HBase0.94版本之前，WAL只能采用串行写机制；从Hbase0.94版本开始，引入了NIO中的Channel机制，使得WAL支持使用并行写机制，从而保证效率能够提升。

⑤、BlockCache：数据块缓存

1、BlockCache本质上是一个读缓存，维系在内存中，默认大小是128M

2、在HBase中，在读取数据的时候，会将读取到的数据放到BlockCache中，从而下次再次读取数据的时候，可以从BlockCache中获取，减少对HStore的读取

3、BlockCache在缓存的时候，还采用了"局部性"原理。所谓的"局部性"原理本质上就是一个猜测的过程，无非是利用时间或者空间条件来合理猜测以提高命中率

Ⅰ、时间局部性：在HBase中，如果一条数据被读取过，那么HBase会认为这条数据被再次的概率要高于其他的没有被读取过的数据，那么此时HBase就会将这条数据放到缓存中 - 只要是读取过的数据就会放到缓存中

Ⅱ、空间局部性：在HBase中，如果一条数据被读取过，那么HBase会认为与这条数据相邻的数据被读取的概率要高于其他的不相邻的数据，那么此时HBase就会将与这条数据相邻的数据也放到缓存中

4、随着时间的推移，BlockCache会被放满，那么此时BlockCache就会采用LRU(Least Recently Used，最近最少使用的数据就会被清理掉)策略

③、HRegion：HBase分布式存储和管理的基本结构，但不是数据存储的最小单位

1、每一个HRegion会至少包含1个HStore，可以包含多个HStore，HStore的数量由列族的数量来决定

2、每一个HStore中会包含1个memStore以及0到多个HFile/StoreFile

3、memStore本质上是一个写缓存，维系在内存中，大小默认是128M，可以通过hbase.hregion.max.filesize属性来调节

4、当达到一定条件的时候，就会将memStore进行冲刷，冲刷产生HFile。HFile最终会以Block形式落地到DataNode上

5、memStore的冲刷条件

        Ⅰ、当memStore被用满之后，会自动的进行冲刷，产生一个HFile

        Ⅱ、当距离上一次冲刷达到指定的时间间隔(默认是1H - 3600000ms，可以通过属性hbase.regionservers.optionalcacheflushinterval来修改，注意单位是毫秒)之后，也会自动的冲刷memStore产生HFile

        Ⅲ、当某一个HRegionServer上所有的memStore所占内存之和/实际物理内存>0.4，那么会冲刷当前HRegionServer上较大的几个memStore，直到这个值小于0.4为止

6、随着运行时间的推移，第三个条件更容易满足，此时会冲刷产生大量的小文件

5、Compaction机制

①、在HBase中，提供了2种Compaction（合并）机制：minor compact和major compact

1、minor compact：初次合并。在合并的时候，会将当前HStore中相邻的几个小的HFile合并成一个大的HFile，原本就是大的HFile不参与合并，因此合并完成之后依然存在多个HFile

2、major compact：主要合并。在合并的时候，会将当前HStore中所有的HFile进行合并，因此合并完成之后只存在一个HFile

②、相对而言，minor compact合并效率更高一些，HBase中默认采用的合并机制也是minor comapct。实际过程中，也会使用major compact，但是因为major compact的效率较低，需要对大量数据进行读写，因此一般是放在相对空闲的时间来进行

③、需要注意的是，在major compact的时候，会自动清理掉被标记为删除的数据或者过时的数据

二、Hbase的架构读写流程

1、概念

①、当客户端要进行DML操作的时候，会首先发送到Zookeeper，请求获取hbase：meta表的位置，这个表中存储HBase的元数据

②、zookeeper收到请求之后，会将hbase：meta表的位置返回给客户端。hbase：meta会由一个HRegionServer管理

③、客户端收到hbase：meta表的位置之后，会请求对应的HRegionServer，来读取hbase：meta，从这个表中获取到实际操作的HRgion所在的位置

④、客户端获取到HRegion的实际所在位置之后，会再次发送请求给对应的HRegionServer，来操作这个HRegion

⑤、注意问题

1、当客户端第一次请求Zookeeper之后，会自动缓存hbase：meta文件的位置，之后客户端的每次请求就可以不用再访问zookeeper

2、当客户端获取到HRegion的位置之后，也会自动缓存这个HRegion的位置，之后如果还操作这个HRegion，就可以直接访问

3、随着时间的推移，客户端缓存的位置越来越多，此时效率就会越来越高。但是如果客户端发生宕机，那么此时会导致缓存崩溃，那么需要重新建立缓存

2、写流程

①、当HRegionServer接收到写请求的时候，会先将这个写请求记录到WAL中，记录成功之后会再将数据更新到memStore中

②、数据在memStore中会进行排序，按照行键字典排序->列族字典排序->列字典排序->时间戳倒序排序

③、当达到冲刷条件的时候，memStore会自动冲刷产生HFile。因为memStore中的数据已经排序，所以冲刷出来的单个HFile中的数据是有序的，所有的HFile之间是局部有序整体无序的。

④、HFile最终会以Block形式落地到HDFS的DataNode上

⑤、HFile的v1版本的结构

Ⅰ、DataBlock：数据块。用于存储数据

1、每一个HFile中包含1个到多个DataBlock，DataBlock是数据存储的基本结构/最小单位

2、因为每个HFile中的数据是有序的，所以切分出来的DataBlock之间的数据是不交叉的

3、每一个dDataBlock大小默认是64KB。小的DataBlock利于查询（get），大的DataBlock利于遍历（scan）

4、每一个DataBlock都是由1个Magic（魔数）以及1到多个KeyValue来构成

i、Magic：魔数。本质上就是一个随机数，用于校验的

ii、KeyValue：存储数据，每一条数据最终都会以键值对形式来进行存储

Ⅱ、MetaBlock：元数据块。用于存储元数据的。注意，不是所有的HFile都包含这一部分，一般只有hbase：meta表对应的HFile会包含这一部分

Ⅲ、FileInfo：文件信息。用于记录HFile大小、所属HStore等信息

Ⅳ、DataIndex：数据索引，用于记录DataBlock的索引

Ⅴ、MetaIndex：元数据索引，用于记录MetaBlock的索引

Ⅵ、Trailer：在文件末尾，占用固定的字节大小，用于记录FileInfo，DataIndex和MetaIndex在文件中的起始字节

⑥、在HFile中，需要先读取文件末尾，通过Trailer来锁定DataIndex的位置，然后读取DataIndex，通过DataIndex来定位DataBlock的位置

⑦、在HFile的v2版本中，引入了BloomFilter(布隆过滤器)

3、读流程

①、当HRegionServer接收到读请求的时候，会先考虑从BlockCache中来获取数据

②、如果BlockCache中没有数据，那么会试图从memStore中来获取

③、如果memStore中也没有数据，那么会试图从HFile中来获取。在读取HFile的时候，可以先根据行键范围进行筛选，筛选掉不符合范围的HFile，但是不代表剩余的HFile中一定有找的数据。筛选完成之后，如果开启了布隆过滤器，那么可以利用布隆过滤器再次筛选，被筛选掉的文件中一定没有要找的数据，但是不代表剩余的文件中有要找的数据

三、Hbase的设计优化

1、设计原则

①、行键设计

行键在设计的时候要尽量的散列，例如可以考虑使用哈希、加密算法等使结果散列，这样能保证请求不会集中于一个节点上；

行键设计最好有意义，如果行键真的完全随机，会增加查询难度，例如订单的行键可以设计为：210510abj025 -> 520jba015012

行键在使用的时候要保证唯一

②、列族设计

在HBase中虽然理论上不限制列族的数量，但是实际过程中，一个表中的列族数量一般不会超过3个

在设计列族的时候，要尽量将具有相同特性的数据或者经常一起使用的数据放在一个列族中，尽量避免跨列族查询

2、优化

①、调节DataBlock的大小。小的DataBlock利于查询，大的DataBlock利于遍历。在建表的时候，就可以根据当前场景来确定DataBlock的大小。例如：

create 'person', {NAME => 'basic', BLOCKSIZE = '32768'}

②、关闭BlockCache。如果HBase的遍历偏多，此时没有必要将数据放到读缓存中，此时可以考虑关闭BlockCache

create 'person', {NAME => 'basic', BLOCKCACHE => 'false'}

alter 'person', {NAME => 'basic', BLOCKCACHE => 'false'}

③、更改BloomFilter的级别。BloomFilter支持三种方式：NONE，ROW以及ROWCOL。NONE不使用BloomFilter，如果节点硬件性能一般，可以考虑关闭BloomFilter；ROW对行键进行过滤，BloomFilter默认就是这个值；ROWCOL表示对行键、列族和列同时过滤，如果节点硬件性能较好，可以使用这个值

④、开启数据压缩机制。如果HBase占用了大量的HDFS空间，导致HDFS空间不够，那么可以考虑对HBase的数据进行压缩。通过COMPRESSION属性来修改，支持NONE，LZO，SNAPPY和GZIP。其中NONE表示不压缩，HBase默认不对数据压缩

⑤、在查询的时候可以考虑显式地指定列，此时可以减少在网络中传输的数据量。例如

get 'person', 'p1'

get 'person', 'p1','basic'

get 'person', 'p1','basic:name'

⑥、如果数据量较大，那么在读写的时候可以考虑使用批量读写

⑦、关闭WAL。如果想要提高写入效率，又能够容忍一定的数据丢失，那么可以考虑关闭WAL

⑧、预创建HRegion。当HRegion管理的数据比较多(默认是10G)的时候，会进行分裂。HRegion分裂之后可能会发生管理权的转移，此时HRegion的分裂和转移都要花费时间。因此在能够预估数据量的前提下，可以考虑在建表的时候就构建多个HRegion。例如

hbase org.apache.hadoop.hbase.util.RegionSplitter person HexStringSplit -c 15 -f basic

⑨、调整Zookeeper的有效Session时长。默认情况下，HMaster和Zookeeper之间通过心跳来保证联系，心跳间隔时间默认是180s即3min，也就意味着HMaster每隔3min会给Zookeeper发送一次心跳。如果HMaster产生了故障，那么可能Zookeeper需要在3min之后才能发现故障。在业务高峰期，HBase有3min不能使用，此时会造成大量的损失。因此需要调节这个时长。通过属性zookeeper.session.timeout来调节，单位是秒，放在hbase-site.xml中

你可能感兴趣的:(大数据06-HBase,hbase,hadoop)

数据分析：低代码平台助力大数据时代的飞跃发展快乐非自愿数据分析低代码大数据
随着信息技术的突飞猛进，我们身处于一个数据量空前增长的时代——大数据时代。在这个时代背景下，数据分析已经成为企业决策、政策制定、科学研究等众多领域不可或缺的重要工具。然而，面对海量的数据和日益复杂多变的分析需求，传统的数据分析方法往往捉襟见肘，难以应对。幸运的是，低代码平台的兴起为大数据分析注入了新的活力，成为推动大数据时代发展的重要力量。低代码平台，顾名思义，是一种通过少量甚至无需编写代码，就能
Apache Kafka的伸缩性探究：实现高性能、弹性扩展的关键 i289292951 kafka kafka
引言ApacheKafka作为当今最流行的消息中间件之一，以其强大的伸缩性著称。在大数据处理、流处理和实时数据集成等领域，Kafka的伸缩性为其在面临急剧增长的数据流量和多样化业务需求时提供了无与伦比的扩展能力。本文将深入探讨Kafka如何通过其独特的架构设计实现高水平的伸缩性，以及在实际部署中如何优化和利用这一特性。一、Kafka伸缩性的核心设计分区（Partitioning）与水平扩展Kafk
Azkaban各种类型的Job编写 __元昊__
一、概述原生的Azkaban支持的plugin类型有以下这些：command：Linuxshell命令行任务gobblin：通用数据采集工具hadoopJava：运行hadoopMR任务java：原生java任务hive：支持执行hiveSQLpig：pig脚本任务spark：spark任务hdfsToTeradata：把数据从hdfs导入TeradatateradataToHdfs：把数据从Te
Linux（centos7）部署hive 灯下夜无眠 Linux linux hive 运维 dbeaver hive客户端
前提环境：已部署完hadoop(HDFS、MapReduce、YARN)1、安装元数据服务MySQL切换root用户#更新密钥rpm--importhttps://repo.mysql.com/RPM-GPG-KEY-mysqL-2022#安装Mysqlyum库rpm-Uvhhttp://repo.mysql.com//mysql57-community-release-el7-7.noarch.
山东省大数据局副局长禹金涛一行莅临聚合数据走访调研聚合数据 API 大数据人工智能 API
3月19日，山东省大数据局党组成员、副局长禹金涛莅临聚合数据展开考察调研。山东省大数据局数据应用管理与安全处处长杨峰，副处长都海明参加调研，苏州市大数据局副局长汤晶陪同。聚合数据董事长左磊等人接待来访。调研组一行参观了聚合数据展厅，了解了聚合数据的发展历程、数据产品、应用案例、奖项荣誉等情况。并就企业在数据处理和应用方面取得的成绩进行了深入交流。作为最早一批进入大数据行业的企业，聚合数据深耕行业十
智慧公厕的先进技术应用中期科技ZONTREE 智慧厕所智慧公厕智慧城市
公共厕所一直以来都是城市管理中一个重要的工作，但设施老化、环境脏乱、服务质量低下等问题一直困扰着城市居民。然而，随着科技的进步和数字技术的应用，智慧公厕的建设正在改变这一现状。智慧公厕通过对所在辖区内所有公共厕所的全域感知、全网协同、全业务融合和全场景智慧的赋能，“千厕一云”的公共厕所云管理模式应运而生。智慧公厕的云端多屏管理，将各个公厕连接在一起，实现信息的共享和管理的集中化。通过大数据、云计算
关于HDP的20道高级运维面试题编织幻境的妖运维
1.描述HDP的主要组件及其作用。HDP（HortonworksDataPlatform）的主要组件包括Hadoop框架、HDFS、MapReduce、YARN以及Hadoop生态系统中的其他关键工具，如Spark、Flink、Hive、HBase等。以下是对这些组件及其作用的具体描述：Hadoop框架:Hadoop是一个开源的分布式计算框架，用Java语言编写，用于存储和处理大规模数据集。它广义
【Hadoop】使用Scala与Spark连接ClickHouse进行数据处理音乐学家方大刚 Scala Hadoop hadoop scala spark
风不懂不懂得叶的梦月不听不听闻窗里琴声意难穷水不见不曾见绿消红霜不知不知晓将别人怎道珍重落叶有风才敢做一个会飞的梦孤窗有月才敢登高在夜里从容桃花有水才怕身是客身是客此景不能久TieYann(铁阳)、薄彩生《不知晓》在大数据分析和处理领域，ApacheSpark是一个广泛使用的高性能、通用的计算框架，而ClickHouse作为一个高性能的列式数据库，特别适合在线分析处理（OLAP）。结合Scala语
HBase入门教程 xmvip01
1.1Hbase概念术语1、行键RowKey：主键是用来检索记录的主键，访问hbasetable中的行。2、列族ColumnFamily：Table在水平方向有一个或者多个ColumnFamily组成，一个ColumnFamily中可以由任意多个Column组成，即ColumnFamily支持动态扩展，无需预先定义Column的数量以及类型，所有Column均以二进制格式存储，用户需要自行进行类型
一文详解大数据时代与低代码开发应用快乐非自愿大数据低代码
随着信息技术的飞速发展，我们迎来了一个崭新的时代——大数据时代。在这个时代，数据成为了一种新的资源，大数据技术的应用成为了推动社会进步的关键力量。而在大数据技术的浪潮中，低代码开发应用也逐渐崭露头角，以其高效、灵活的特点，成为大数据时代的重要支撑。大数据时代的来临随着科技的飞速发展和互联网的广泛普及，我们迎来了一个被称为“大数据时代”的全新时代。这个时代，数据无处不在，无时不刻不在增长，其规模之大
Spark面试整理-Spark是什么？不务正业的猿面试 Spark spark 大数据分布式
ApacheSpark是一个开源的分布式计算系统，它提供了一个用于大规模数据处理的快速、通用、易于使用的平台。它最初是在加州大学伯克利分校的AMPLab开发的，并于2010年开源。自那时起，Spark已经成为大数据处理中最受欢迎和广泛使用的框架之一。下面是Spark的一些关键特点：速度：Spark使用了先进的DAG（有向无环图）执行引擎，可以支持循环数据流和内存计算。这使得Spark在数据处理方面
hadoop配置免密登录我干开发那十年 ssh 服务器 linux
1.生成密钥ssh-keygen-trsa所有节点都要执行2.所有节点执行ssh-copy-id-i~/.ssh/id_rsa.pub用户名1@主机名1ssh-copy-id-i~/.ssh/id_rsa.pub用户名2@主机名2ssh-copy-id-i~/.ssh/id_rsa.pub用户名3@主机名33.目录授权chmod700~/.sshchmod600~/.ssh/authorized_
请介绍一下大数据主要是干什么的？决策支持预测分析用户行为分析个性化服务操作优化风险管理创新与产品开发加拿大卡尔加里大学历史背景学术结构研究和创新校园设施盛溪的猫猫感悟大数据英语加拿大
目录请介绍一下大数据主要是干什么的？决策支持预测分析用户行为分析个性化服务操作优化风险管理创新与产品开发加拿大卡尔加里大学历史背景学术结构研究和创新校园设施国际化学生生活大语言模型目前的问题卡尔加里经济地理和气候文化和活动教育交通绿色城市AVL树的旋转单右旋（LL旋转）单左旋（RR旋转）左右旋（LR旋转）右左旋（RL旋转）请介绍一下大数据主要是干什么的？大数据是一个涉及从极其庞大和复杂的数据集中提
GEE在灾害预警中的遥感云大数据应用及GPT模型辅助分析 AIzmjl GPT 生态遥感大数据 gpt gee 灾害预警水体湿地遥感
随着遥感技术的快速发展，云大数据在灾害、水体与湿地领域的应用日益广泛。通过遥感云大数据，我们能够实时获取灾害发生地的影像信息，为灾害预警、应急响应提供有力支持。同时，在水体与湿地监测方面，遥感云大数据也发挥着重要作用，帮助我们了解水体的分布、变化以及湿地的生态状况。近年来，GPT模型在自然语言处理领域取得了显著成果，其强大的文本生成和理解能力为遥感云大数据的应用提供了新的可能。通过将GPT模型与遥
大数据毕设图像识别-人脸识别与疲劳检测 - python opencv fawubio_A python 算法
文章目录0前言1课题背景2Dlib人脸识别2.1简介2.2Dlib优点2.3相关代码2.4人脸数据库2.5人脸录入加识别效果3疲劳检测算法3.1眼睛检测算法3.2打哈欠检测算法3.3点头检测算法4PyQt54.1简介4.2相关界面代码0前言这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师
大数据开发（Hive面试真题-卷二） Key-Key 大数据 hive 面试
大数据开发（Hive面试真题）1、举几个Hive开窗函数例子？什么要有开窗函数，和聚集函数区别？2、说下Hive是什么？跟数据仓库区别？3、Hive架构？4、Hive数据倾斜以及解决方案？5、Hive如果不用参数调优，在map和reduce端应该做什么？6、Hive的三种自定义函数是什么？实现步骤与流程？它们之间的区别？作用是什么？7、Hive分区和分桶的区别？8、Hive的执行流程？9、Hive
【大数据面试题】014 Flink CDC 用过吗，请简要描述 Jiweilai1 一天一道面试题 flink 大数据面试 flink cdc
一步一个脚印，一天一道面试题。FlinkCDC的诞生背景FlinkCDC的全称是ChangeDataCapture（变更数据捕获）每一项技术的诞生都是为了解决某个问题，某个痛点。而FlinkCDC的诞生就是为了解决在读取，监控MySQL这样的数据库时，不会因为读取数据库，对数据库本身造成压力，影响性能。同时，保证了数据源的准确，正确。FlinkCDC原理方式一：通过查询来获取更新的数据。如查询数据
【笔记】HDFS基础笔记哇咔咔哇咔 Hadoop hdfs 笔记 hadoop 大数据 ubuntu
启动hadoop命令（未配环境变量）：进入hadoop安装目录输入./sbin/start-dfs.sh已配环境变量：start-dfs.sh关闭hadoop命令：stop-dfs.sh启动完成后，可以通过命令jps来判断是否成功启动，若成功启动则会列出如下进程:"NameNode"、"DataNode"和"SecondaryNameNode"三种Shell命令方式：1.hadoopfs2.had
【笔记】Linux常用命令哇咔咔哇咔 Linux 笔记 linux 运维 ubuntu
命令含义cd/home/hadoop#把/home/hadoop设置为当前目录cd..#返回上一级目录cd~#进入到当前Linux系统登录用户的主目录（或主文件夹）。在Linux系统中，~代表的是用户的主文件夹，即“/home/用户名”这个目录，如果当前登录用户名为hadoop，则~就代表“/home/hadoop/”这个目录ls#查看当前目录中的文件ls-l#查看文件和目录的权限信息touch文
【大数据】Flink SQL 语法篇（五）：Regular Join、Interval Join G皮T #Flink SQL 大数据 flink sql Regular Join Interval Join 双流Join
《FlinkSQL语法篇》系列，共包含以下10篇文章：FlinkSQL语法篇（一）：CREATEFlinkSQL语法篇（二）：WITH、SELECT&WHERE、SELECTDISTINCTFlinkSQL语法篇（三）：窗口聚合（TUMBLE、HOP、SESSION、CUMULATE）FlinkSQL语法篇（四）：Group聚合、Over聚合FlinkSQL语法篇（五）：RegularJoin、I
有一点动心段duan
《有一点动心》是6月4日新上映的一部影片，在香山国际影城的支持下，与水姐观影群的伙伴们共同观看了这部影片。随着社会意识形态的不断变化，人们对感情的态度，也呈现出多元化的状态。爱情，自从人类诞生之日起，不论朝代如何更替变迁，都是生命的一大核心主题，演绎出无数个动人的故事，让经历者体验其中，让倾听者无比动容。从调查出来的大数据来看，适龄人群的不婚比例，是空前高的一个数字，越来越多的适婚人士，加入了不婚
大数据开发（Kafka面试真题-卷一） Key-Key 大数据 kafka 面试
大数据开发（Kafka面试真题）1、请解释以下ApacheKafka是什么？它在大数据系统中的角色是什么？2、请解释以下Kafka的工作原理和它与传统消息队列服务的不同之处？3、解释以下ApacheKafka的作用以及它与常见消息队列系统（如RabbitMQ）之间的区别？4、如何使用ApacheKafka来实现实时数据流处理？5、Flinkcheckpoint和Kafkaoffset的关联是什么？
HBase常用命令叶域大数据 HBase hbase 数据库大数据
简介：HBaseShell是一种操作HBase的交互模式，支持完整的HBase命令集。hbaseshell#打开HbaseShell目录:命令类别常用命令Generalversion，status，whoami，helpDDLalter，creater，describe，disable，drop，enable，exists，is_disabled，is_enabled，list，DMLcount，
什么是分布式搜索引擎罗彬桦分布式搜索引擎搜索引擎分布式
什么是分布式搜索引擎搜索引擎所谓搜索引擎，就是根据用户需求与一定算法，运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术。搜索引擎依托于多种技术，如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等，为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等，同时可添加其他一系列辅助模块，以为用户创造更好的网络使用环境。分布
挑战杯大数据商城人流数据分析与可视化 - python 大数据分析 laafeer python
0前言优质竞赛项目系列，今天要分享的是基于大数据的基站数据分析与可视化该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：3分创新点：3分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate课题背景随着当今个人手机终端的普及，出行群体中手机拥有率和使用率已达到相当高的比例，手
Java开发从入门到精通（七）：Java的面向对象编程OOP：常用API HACKNOE Java开发从入门到精通 java intellij-idea
Java大数据开发和安全开发（一）Java的常用API1.1Object类1.1toString1.1equals方法1.1对象克隆clone1.1Objects类1.1包装类1.1StringBuilder1.1StringBuffer1.1StringJoiner1.1Math、System、Runtime1.1BigDecimal1.1传统时间：Date日期类、SimpleDateForma
linux安装单机版spark3.5.0 爱上雪茄大数据 JAVA知识 spark 大数据分布式
一、spark介绍是一种通用的大数据计算框架，正如传统大数据技术Hadoop的MapReduce、Hive引擎，以及Storm流式实时计算引擎等.Spark主要用于大数据的计算二、spark下载spark3.5.0三、spark环境变量配置exportJAVA_HOME=/usr/local/jdk1.8.0_391exportJRE_HOME=/usr/local/jdk1.8.0_391/jr
Hadoop简介程序员小郭同学 hadoop
简介大数据简介概述大数据的说法从出现到现在，也经历了十多年时间的发展。而在这十几年的发展过程中，非常多的机构、组织都试图对大数据做出过定义，例如：研究机构Gartner给出了这样的定义："大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。再例如根据维基百科的定义，大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
数大数据时代的关键：融合数据治理与AI为企业增值_光点科技光点数据治理人工智能大数据科技
在数据驱动的今天，企业不能再将数据治理和人工智能（AI）视作孤立的实体。它们之间的协同作用已经成为推动企业增长的强大引擎。本文将探索数据治理与AI如何相互作用，形成闭环，以及企业如何利用这一关系来提升数据价值，实现数字化转型。数据治理与AI的依存共生数据治理是整理和优化数据的过程，以确保其质量、安全性和可用性。而AI，尤其是大模型，是解析和应用这些数据的工具。没有高质量的数据治理，AI无法发挥其最
2024年阿里云大数据acp认证条件腾科教育阿里云大数据云计算
阿里云大数据acp认证考试没有条件，在校大学生、应届毕业生、在职员工均可报考。acp认证考试预约流程1.账户注册，认证人员登录阿里云认证全球培训中心网站，在页面右上角点击“立即注册”2.选择专业。账户注册成功会自动返回到网站首页，认证人员根据实际需要进行报考，3,认证购买。进入专业介绍页后点击“购买认证"跳转到认证购买页，点击对应专业认证名称再点击“立即购买”，确认订单后完成支付即可。4.考试预约
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他