牧梦者

HBase基本概念与基本使用

1. HBase简介

1.1 什么是HBase

HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。

HBASE的目标是存储并处理大型的数据，更具体来说是仅需使用普通的硬件配置，就能够处理由成千上万的行和列所组成的大型数据。

HBASE是Google Bigtable的开源实现，但是也有很多不同之处。比如：Google Bigtable使用GFS作为其文件存储系统，HBASE利用Hadoop HDFS作为其文件存储系统；Google运行MAPREDUCE来处理Bigtable中的海量数据，HBASE同样利用Hadoop MapReduce来处理HBASE中的海量数据；Google Bigtable利用Chubby作为协同服务，HBASE利用Zookeeper作为协同服务。

1.2 与传统数据库的对比

1、传统数据库遇到的问题：

1）数据量很大的时候无法存储；
2）没有很好的备份机制；
3）数据达到一定数量开始缓慢，很大的话基本无法支撑；

2、HBASE优势：

1）线性扩展，随着数据量增多可以通过节点扩展进行支撑；
2）数据存储在hdfs上，备份机制健全；
3）通过zookeeper协调查找数据，访问速度快。

1.3 HBase集群中的角色

1、一个或者多个主节点，Hmaster；

2、多个从节点，HregionServer；

3、HBase依赖项，zookeeper；

2. HBase数据模型

2.1 HBase的存储机制

HBase是一个面向列的数据库，在表中它由行排序。表模式定义只能列族，也就是键值对。一个表有多个列族以及每一个列族可以有任意数量的列。后续列的值连续存储在磁盘上。表中的每个单元格值都具有时间戳。总之，在一个HBase：

表是行的集合。
行是列族的集合。
列族是列的集合。
列是键值对的集合。

这里的列式存储或者说面向列，其实说的是列族存储，HBase是根据列族来存储数据的。列族下面可以有非常多的列，列族在创建表的时候就必须指定。

HBase 和 RDBMS的比较

RDBMS的表：

HBase的表：

2.2 Row Key 行键

与nosql数据库一样，row key是用来表示唯一一行记录的主键，HBase的数据时按照RowKey的字典顺序进行全局排序的，所有的查询都只能依赖于这一个排序维度。访问HBASE table中的行，只有三种方式：

1. 通过单个row key访问；

2. 通过row key的range（正则）

3. 全表扫描

Row key 行键（Row key）可以是任意字符串(最大长度是64KB，实际应用中长度一般为10-1000bytes)，在HBASE内部，row key保存为字节数组。存储时，数据按照Row key的字典序(byte order)排序存储。设计key时，要充分排序存储这个特性，将经常一起读取的行存储放到一起。(位置相关性)

2.3 Columns Family 列族

列簇：HBASE表中的每个列，都归属于某个列族。列族是表的schema的一部分(而列不是)，必须在使用表之前定义。列名都以列族作为前缀。例如courses：history，courses：math 都属于courses这个列族。

2.4 Cell

由{row key，columnFamily，version} 唯一确定的单元。cell中的数据是没有类型的，全部是字节码形式存储。

关键字：无类型、字节码

2.5 Time Stamp 时间戳

HBASE中通过rowkey和columns确定的为一个存储单元称为cell。每个cell都保存着同一份数据的多个版本。版本通过时间戳来索引。时间戳的类型是64位整型。时间戳可以由HBASE(在数据写入时自动)赋值，此时时间戳是精确到毫秒的当前系统时间。时间戳也可以由客户显示赋值。如果应用程序要避免数据版本冲突，就必须自己生成具有唯一性的时间戳。每个cell中，不同版本的数据按照时间倒序排序，即最新的数据排在最前面。

为了避免数据存在过多版本造成的管理(包括存储和索引)负担，HBASE提供了两种数据版本回收方式。一是保存数据的最后n个版本，而是保存最近一段时间内的版本(比如最近7天)。用户可以针对每个列族进行设置。

3. HBase原理

HBase系统架构体系图

组成部件说明：

Client：

使用HBase RPC机制与HMaster和HRegionServer进行通信
Client与HMaster进行管理类操作
Client与HRegionServer进行数据读写类操作

Zookeeper：

Zookeeper Quorum存储-ROOT-表地址、HMaster地址
HRegionServer把自己以Ephedral方式注册到Zookeeper中，HMaster随时感知各个HRegionServer的健康状况
Zookeeper避免HMaster单点问题

Zookeeper的主要作用：客户端首先联系ZooKeeper子集群（quorum）（一个由ZooKeeper节点组成的单独集群）查找行健。上述过程是通过ZooKeeper获取含有-ROOT-的region服务器名（主机名）来完成的。通过含有-ROOT-的region服务器可以查询到含有.META.表中对应的region服务器名，其中包含请求的行健信息。这两处的主要内容都被缓存下来了，并且都只查询一次。最终，通过查询.META服务器来获取客户端查询的行健数据所在region的服务器名。一旦知道了数据的实际位置，即region的位置，HBase会缓存这次查询的信息，同时直接联系管理实际数据的HRegionServer。所以，之后客户端可以通过缓存信息很好地定位所需的数据位置，而不用再次查找.META.表。

HMaster：

HMaster没有单点问题，HBase可以启动多个HMaster，通过Zookeeper的Master Election机制保证总有一个Master在运行
主要负责Table和Region的管理工作：
1. 管理用户对表的增删改查操作
2. 管理HRegionServer的负载均衡，调整Region分布
3. Region Split后，负责新Region的分布
4. 在HRegionServer停机后，负责失效HRegionServer上Region迁移

HRegionServer：

HBase中最核心的模块，主要负责响应用户I/O请求，向HDFS文件系统中读写

HRegionServer管理一系列HRegion对象；
每个HRegion对应Table中一个Region，HRegion由多个HStore组成；
每个HStore对应Table中一个Column Family的存储；
Column Family就是一个集中的存储单元，故将具有相同IO特性的Column放在一个Column Family会更高效。

可以看到，client访问hbase上的数据并不需要master参与（寻址访问zookeeper和region server，数据读写访问region server），master仅仅维护table和region的元数据信息（table的元数据信息保存在zookeeper上），负载很低。HRegionServer存取一个子表时，会创建一个HRegion对象，然后对表的每个列族创建一个Store实例，每个Store都会有一个MemStore和0个或多个StoreFile与之对应，每个StoreFile都会对应一个HFile，HFile就是实际的存储文件。因此，一个HRegion（表）有多少个列族就有多少个Store。一个HRegionServer会有多个HRegion和一个HLog。

HRegion：

table在行的方向上分隔为多个Region。Region是HBase中分布式存储和负载均衡的最小单元，即不同的region可以分别在不同的Region Server上，但同一个Region是不会拆分到多个server上。

Region按大小分隔，每个表一般是只有一个region。随着数据不断插入表，region不断增大，当region的某个列族达到一个阀值（默认256M）时就会分成两个新的region。

每个region由以下信息标识：

<表名，startRowKey，创建时间>
由目录表(-ROOT-和.META.)记录该region的endRowKey

HRegion定位：Region被分配给哪个RegionServer是完全动态的，所以需要机制来定位Region具体在哪个region server。

HBase使用三层结构来定位region：

通过zookeeper里的文件/hbase/rs得到-ROOT-表的位置。-ROOT-表只有一个region。
通过-ROOT-表查找.META.表的第一个表中相应的region的位置。其实-ROOT-表是.META.表的第一个region；.META.表中的每一个region在-ROOT-表中都是一行记录。
通过.META.表找到所要的用户表region的位置。用户表中的每个region在.META表中都是一行记录。

注意：

-ROOT-表永远不会被分隔为多个region，保证了最多需要三次跳转，就能定位到任意的region。client会将查询的位置信息缓存起来，缓存不会主动失效，因此如果client上的缓存全部失效，则需要进行6次网络来回，才能定位到正确的region，其中三次用来发现缓存失效，另外三次用来获取位置信息。

table和region的关系

table默认最初只有一个region，随着记录数的不断增加而变大，起初的region会逐渐分裂成多个region，一个region有【startKey, endKey】表示，不同的region会被master分配给相应的regionserver管理。

region是hbase分布式存储和负载均衡的最小单元，不同的region分不到不同的regionServer。

注意：region虽然是分布式存储的最小单元，但并不是存储的最小单元。region是由一个或者多个store组成的，每个store就是一个column family。每个store又由memStore和1至多个store file 组成(memstore到一个阀值会刷新，写入到storefile，有hlog来保证数据的安全性，一个regionServer有且只有一个hlog)　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

HStore：

HBase存储的核心。由MemStore和StoreFile组成。MemStore是Stored Memory Buffer。
HLog：

引入HLog原因：在分布式系统环境中，无法避免系统出错或者宕机，一旦HRegionServer意外退出，MemStore中的内存数据就会丢失，引入HLog就是防止这种情况。

工作机制：
每个HRegionServer中都会有一个HLog对象，HLog是一个实现Write Ahead Log的类，每次用户操作写入MemStore的同时，也会写一份数据到HLog文件，HLog文件定期会滚动出新，并删除旧的文件(已持久化到StoreFile中的数据)。当HRegionServer意外终止后，HMaster会通过Zookeeper感知，HMaster首先处理遗留的HLog文件，将不同region的log数据拆分，分别放到相应region目录下，然后再将失效的region重新分配，领取到这些region的HRegionServer在Load Region的过程中，会发现有历史HLog需要处理，因此会Replay HLog中的数据到MemStore中，然后flush到StoreFiles，完成数据恢复。

3.1 HBase的存储格式

HBase中的所有数据文件都存储在Hadoop HDFS文件系统上，格式主要有两种：

1. HFile，HBase中Key-Value数据的存储格式，HFile是Hadoop的二进制格式文件，实际上StoreFile就是对HFile做了轻量级包装，即StoreFile底层就是HFile。

2. HLog File，HBase中WAL(Write Ahead Log)的存储格式，物理上是Hadoop的Sequence File

HFile

图片解释：

HFile文件不定长，长度固定的块只有两个：Trailer和FileInfo

Trailer中指针指向其他数据块的起始点

File Info中记录了文件的一些Meta信息，例如：AVG_KEY_LEN, AVG_VALUE_LEN, LAST_KEY, COMPARATOR, MAX_SEQ_ID_KEY等

Data Index和Meta Index块记录了每个Data块和Meta块的起始点

Data Block是HBase I/O的基本单元，为了提高效率，HRegionServer中有基于LRU的Block Cache机制

每个Data块的大小可以在创建一个Table的时候通过参数指定，大号的Block有利于顺序Scan，小号Block利于随机查询

每个Data块除了开头的Magic以外就是一个个KeyValue对拼接而成, Magic内容就是一些随机数字，目的是防止数据损坏

HFile里面的每个KeyValue对就是一个简单的byte数组。这个byte数组里面包含了很多项，并且有固定的结构。

KeyLength和ValueLength：两个固定的长度，分别代表Key和Value的长度

Key部分：Row Length是固定长度的数值，表示RowKey的长度，Row 就是RowKey

Column Family Length是固定长度的数值，表示Family的长度

接着就是Column Family，再接着是Qualifier，然后是两个固定长度的数值，表示Time Stamp和Key Type（Put/Delete）

Value部分没有这么复杂的结构，就是纯粹的二进制数据

HLog File

HLog文件就是一个普通的Hadoop Sequence File，Sequence File 的Key是HLogKey对象，HLogKey中记录了写入数据的归属信息，除了table和region名字外，同时还包括 sequence number和timestamp，timestamp是“写入时间”，sequence number的起始值为0，或者是最近一次存入文件系统中sequence number。

HLog Sequece File的Value是HBase的KeyValue对象，即对应HFile中的KeyValue

3.2 写流程

1) Client通过Zookeeper的调度，向RegionServer发出写数据请求，在Region中写数据；

2) 数据被写入Region的MemStore，知道MemStore达到预设阀值(即MemStore满)；

3) MemStore中的数据被Flush成一个StoreFile；

4) 随着StoreFile文件的不断增多，当其数量增长到一定阀值后，触发Compact合并操作，将多个StoreFile合并成一个StoreFile，同时进行版本合并和数据删除；

5) StoreFiles通过不断的Compact合并操作，逐步形成越来越大的StoreFile；

6) 单个StoreFile大小超过一定阀值后，触发Split操作，把当前Region Split成2个新的Region。父Region会下线，新Split出的2个子Region会被HMaster分配到相应的RegionServer上，使得原先1个Region的压力得以分流到2个Region上。

可以看出HBase只有增添数据，所有的更新和删除操作都是在后续的Compact历程中举行的，使得用户的写操作只要进入内存就可以立刻返回，实现了HBase I/O的高性能。

3.3 读流程

1) Client访问Zookeeper，查找-ROOT-表，获取.META.表信息；

2) 从.META.表查找，获取存放目标数据的Region信息，从而找到对应的RegionServer；

3) 通过RegionServer获取需要查找的数据；

4) RegionServer的内存分为MemStore和BlockCache两部分，MemStore主要用于写数据，BlockCache主要用于读数据。读请求先到MemStore中查数据，查不到就到BlockCache中查，再查不到就会到StoreFile上读，并把读的结果放入BlockCache。

寻址过程：client—>Zookeeper—>ROOT表—>.META. 表—>RegionServer—>Region—>client

4. HBASE命令

4.1 命令的进退

1、hbase提供了一个shell的终端给用户交互

hbase shell

2、如果退出执行quit命令

4.2 命令

名称	命令表达式
查看hbase状态	status
创建表	create '表名','列族名1','列族名2','列族名N'
查看所有表	list
描述表	describe '表名'
判断表存在	exists '表名'
判断是否禁用启用表	is_enabled '表名' is_disabled '表名'
添加记录	put '表名','rowkey','列族：列'，'值'
查看记录rowkey下的所有数据	get '表名','rowkey'
查看所有记录	scan '表名'
查看表中的记录总数	count '表名'
获取某个列族	get '表名','rowkey','列族：列'
获取某个列族的某个列	get '表名','rowkey','列族：列'
删除记录	delete '表名','行名','列族：列'
删除整行	deleteall '表名','rowkey'
删除一张表	先要屏蔽该表，才能对该表进行删除第一步 disable '表名'，第二步 drop '表名'
清空表	truncate '表名'
查看某个表某个列中所有数据	scan '表名',{COLUMNS=>'列族名：列名'}
更新记录	就是重新一遍，进行覆盖，hbase没有修改，都是追加

具体实例：

1、查看HBase运行状态 status

2、创建表 create

,{NAME => , VERSIONS => }

创建一个User表，并且有一个info列族

3、查看所有表 list

4、描述表详情 describe 'User'

5、判断表是否存在 exists 'User'

6、启用或禁用表 is_disabled 'User' is_enabled 'User'

7、添加记录，即插入数据，语法：put

,,,

8、根据rowKey查询某个记录，语法：get

,,[, ...]

9、查询所有记录，语法：scan

,{COLUMNS => [family:column, ...], LIMIT => num}

扫描所有记录

扫描前2条

范围查询

另外，还可以添加TIMERANGE和FILTER等高级功能，STARTROW、ENDROW必须大写，否则报错，查询结果不包含等于ENDROW的结果集。

10、统计表记录数，语法：count

, {INTERVAL => intervalNum，CACHE => cacheNum}

INTERVAL设置多少行显示一次及对应的rowkey，默认1000；CACHE每次去取的缓存区大小，默认是10，调整该参数可提高查询速度。

11、删除

删除列

删除整行

删除表中所有数据

12、禁用或启用表

禁用表

启用表

12、删除表

删除前，必须先disable

总结

【参考资料】

https://www.cnblogs.com/cenyuhai/p/3708135.html

https://blog.csdn.net/liutong123987/article/details/79377327

https://www.cnblogs.com/Richardzhu/p/3435568.html 单独启动secondarynamenode，辅助namenode的元数据合并

你可能感兴趣的:(HBase基本概念与基本使用)

C#中使用NModbus4 工控-搬运工上位机 c#开发语言
以下是关于在C#中使用NModbus4库进行Modbus通信的完整技术指南，包含代码示例和工程实践：一、开发环境搭建安装NModbus4库通过NuGet安装Install-PackageNModbus4基础UI布局设计二、ModbusRTU主站实现串口初始化与连接privateSerialPort_serialPort;privateIModbusSerialMaster_master;priva
深度解析与实践：外观模式代码世界的浪客 java设计模式深度详解外观模式
1.什么是外观模式1.1外观模式的定义外观模式（FacadePattern）是一种结构性设计模式，它为复杂的子系统提供一个更简单、更易用的接口。通过这种方式，外部客户端无需直接与复杂的子系统交互，而是通过一个统一的外观类来访问子系统的功能。外观模式主要用于简化客户程序与复杂系统之间的接口。1.2为什么需要外观模式当程序需要处理多个子系统的复杂交互时，直接操作这些子系统可能会给客户端带来很大的负担。
深入解析：FIR滤波器在FPGA上的设计与实现全流程 king-agic FPGA fpga开发经验分享
在FPGA中实现FIR（FiniteImpulseResponse）滤波器涉及多个步骤，包括滤波器设计、系数量化、硬件架构设计、HDL（HardwareDescriptionLanguage）编码、综合、布局布线以及验证。1.滤波器设计使用软件工具如MATLAB、Octave或者Python中的SciPy库来设计FIR滤波器。定义滤波器的规格，例如采样频率、截止频率、通带和阻带衰减等。生成滤波器的
侠盗猎车手4 完整版[2008年度最佳游戏] GTA4 mod 1.03（Grand Theft Auto IV）免安装中文版免费分享下载 huang_sir_11 游戏
相关信息：【PC端游戏】【容量13G】【完整版免安装中文版】关于这款游戏：尼可．贝利（NikoBellic）、钱宁．克雷比兹（JohnnyKlebitz）以及刘易斯．罗培兹（LuisLopez）都有一个共通点，那就是他们都住在美国最糟糕的城市里。在利伯维尔这个金钱和地位至上的城市里，现实与梦想的差距甚远。尼可想要逃离他的过去，并在这片处处充满机会的土地中创造出他自己的新生活。过去曾是失落摩托车帮派
前端基础——HTML happyhappy666568 前端 html javascript
目录一、前端概述二、HTML简介三、HTML基本结构一、前端概述在Web开发中，有前端与后端之分。前端负责页面的布局，后端负责页面的逻辑。前端负责设计网页的样子，也就是我们看到的一个个彩色的方框和文字，但是一个网站只有这些按钮还远远不够啊，肯定还有服务器记录我们输入的信息数据。所以，后端负责的就是我们看不到的那些逻辑程序，它负责处理我们在网页上输入的那些信息或者点击信号等。核心技术：HTML(负责
探索智能合约开发的宝藏钥匙：Brownie教程项目潘俭渝Erik
探索智能合约开发的宝藏钥匙：Brownie教程项目去发现同类优质开源项目:https://gitcode.com/随着区块链技术的迅速崛起，智能合约成为了构建去中心化应用的基石。对于渴望深入这一领域的开发者而言，BrownieTutorial正是打开这扇神秘大门的金钥匙。本项目由Curve团队精心打造，通过一系列详尽的教学视频与配套代码仓库，引领您从零起步，直至成为智能合约领域的行家里手。项目介绍
金融赋能绍兴纺织民生银行助力外贸中小微企业“走出去” 尺度商业其他
在浙江绍兴，纺织业作为一张熠熠生辉的产业名片，承载着深厚的历史底蕴与蓬勃的发展活力。这里依傍长三角经济圈，交通网络纵横交错，将原材料产地与广阔市场紧密相连；产业集群高度成熟，上下游产业链完备，从化纤原料到精美纺织品一应俱全，协同效应显著降低成本。尤为亮眼的是其出口成绩，绍兴纺织产品远销全球，出口业务量连年攀升，在国际纺织品市场稳稳占据重要一席，成为拉动地方经济、惠及民生的关键力量。民生银行在支持小
从代码到云端：纷析云以开源生态重构企业财务管理边界沈晓晶开源 java gitee gitcode
一、公司简介纷析云是专注于企业数字化转型的财务软件服务商，致力于提供高效、安全且灵活的财务管理工具。通过结合云计算、开源技术与智能化功能，纷析云助力企业实现财务流程的自动化与合规化，尤其适合中小型企业及需要高度定制化的用户。二、核心产品与解决方案灵活的部署模式：源代码销售：企业可购买源代码进行二次开发，完全掌控系统功能，满足个性化需求。私有化部署：适用于对数据隐私要求高的企业，支持本地化部署与定制
FPGA开发，使用Deepseek V3还是R1（4）：Deepseek参数配置 LeeConstantine 用Deepseek开发FPGA fpga开发语言模型
以下都是Deepseek生成的答案FPGA开发，使用DeepseekV3还是R1（1）：应用场景FPGA开发，使用DeepseekV3还是R1（2）：V3和R1的区别FPGA开发，使用DeepseekV3还是R1（3）：系统级与RTL级FPGA开发，使用DeepseekV3还是R1（4）：Deepseek参数配置FPGA开发，使用DeepseekV3还是R1（5）：temperature设置FPG
HBA的WWN号以及存储区域网络骚老头 wwn HBA SAN 存储区域网络
古驰古驰巴拉巴拉，今天讲一下存储区域网络和wwn号以及查看wwn号的方法存储区域网络（StorageAreaNetwork，简称SAN）采用网状通道（FibreChannel，简称FC，区别与FiberChannel光纤通道）技术，通过FC交换机连接存储阵列和服务器主机，建立专用于数据存储的区域网络WWN:worldwidenumber是硬件的全球唯一标示WWPN:worldwideportnum
关于后端使用Boolean或boolean时前端收到的参数的区别燃星cro 前端后端 java
当后端使用的是Boolean时，调用的方法是setIsLoginUser，前端收到的参数的参数名是isLoginUser而当后端使用的是boolean时，调用的方法是setLoginUser，前端收到的参数的参数名是loginUser封装类和基本数据类型在使用时需要注意这些细微的差别，因为这些细微的差别可能会导致前端收到的参数名称与预想的并不一样从而导致功能无法正常实现
博通Emulex Secure HBA：后量子加密与零信任架构的存储网络革命古猫先生产业动态架构网络量子计算
在数字化浪潮中，数据安全愈发关键。近期，博通推出的EmulexSecureHBAs配备后量子加密技术，引发了行业的广泛关注。这一创新产品不仅是技术的突破，更是应对未来数据安全挑战的重要举措。量子计算机的并行计算能力理论上可破解当前广泛使用的RSA、ECC等非对称加密算法，尤其是针对公钥基础设施（PKI）的攻击可能彻底颠覆现有网络安全体系。尽管实用化量子计算机尚未成熟，但其威胁已引发全球安全界的警惕
探索未来金融世界的钥匙——代币开发 Lovely_xwys 区块链开发金融区块链去中心化智能合约
在数字经济飞速发展的今天，区块链技术与加密货币的结合催生了一个崭新的领域——代币开发。这一领域不仅重新定义了资金流动的方式，更为全球金融体系带来了前所未有的透明度和效率，成为探索未来金融世界的钥匙。一、代币开发的定义与意义代币是基于区块链技术的一种数字资产，它们可以在特定的网络中作为价值交换媒介、权益证明或使用权限的载体。代币开发则是指利用区块链平台创建这些数字代币的过程。每个代币背后都承载着独特
PythonNet：实现Python与.Net代码相互调用！编程乐趣 python .net microsoft
现在是多元化编程，每一个程序员都需要使用多门编程语言，特别现在是AI时代，对于我们.Net程序员来说，就需要经常同时使用Python和.Net。下面一个开源库，方便我们来突破Python和.NET的界限。01项目简介Python.NET是一个开源项目，它允许Python代码与.NETCommonLanguageRuntime（CLR）进行交互，为.NET开发者提供了一个强大的应用脚本工具。通过Py
嵌入式开发：傅里叶变换（4）：在 STM32上面实现FFT（基于STM32L071KZT6 HAL库+DSP库）魂兮-龙游嵌入式开发 stm32 嵌入式硬件单片机 DSP库数字信号处理
目录步骤1：准备工作步骤2：创建Keil项目，并配置工程步骤3：在MDK工程上添加CMSIS-DSP库步骤5：编写代码步骤6：配置时钟和优化步骤7：调试与验证步骤8：优化和调整注意事项：在STM32L071KZT6上使用MDK（KeiluVision）移植DSP库源码，并且基于HAL库进行开发，可以按照以下步骤进行操作：步骤1：准备工作安装KeilMDK：。安装STM32CubeMX：参考博客：S
Spark技术系列（三）：Spark算子全解析——从基础使用到高阶优化数据大包哥 #Spark spark 大数据分布式
Spark技术系列（三）：Spark算子全解析——从基础使用到高阶优化1.算子核心概念与分类体系1.1算子本质解析延迟执行机制：转换算子构建DAG，行动算子触发Job执行任务并行度：由RDD分区数决定（可通过spark.default.parallelism全局配置）执行位置优化：基于数据本地性的任务调度策略1.2官方分类标准
Lucene硬核解析专题系列（四）：性能优化与调优 yinlongfei_love lucene 性能优化 java
Lucene的高效性不仅源于其底层数据结构和算法，还得益于在实际应用中对性能的精心优化。本篇将从索引合并、内存管理、多线程搜索等方面，揭示Lucene如何应对高负载场景，并提供调优思路，帮助开发者充分发挥其潜力。一、索引合并（MergePolicy）与性能权衡Lucene的索引由多个分段组成，随着数据写入，分段数量增加会导致查询性能下降。索引合并是将小分段合并为大分段的过程，由MergePolic
【构建企业级Spring Boot应用：从基础到高级的全面指南】小怪兽9699 spring boot 后端 java
摘要本文旨在为开发者提供一份详尽的指南，帮助大家深入理解并掌握如何使用SpringBoot框架来快速开发企业级应用程序。通过实际案例分析、代码示例以及架构设计思路分享，读者不仅能够学习到理论知识，还能获得宝贵的实践经验。本文将涵盖从环境搭建、项目创建、配置管理、数据访问层、Web服务开发、安全机制实现、日志记录、单元测试与集成测试，到最终的部署上线等各个方面。目录摘要目录引言SpringBoot简
基础篇（二）从监督学习到强化学习：机器学习的不同范式带上一无所知的我智能体的自我修炼：强化学习指南机器学习人工智能基础篇
从监督学习到强化学习：机器学习的不同范式在机器学习的广阔领域中，监督学习和强化学习是两种最重要的范式。它们各自有其独特的特点和应用场景，但也存在紧密的联系。本文将从监督学习出发，逐步延伸到强化学习，帮助你理解这两种范式的区别与联系，以及它们在实际中的应用。1.监督学习：从标注数据中学习1.1什么是监督学习？监督学习是机器学习中最常见的范式之一。它通过从标注数据中学习，建立输入（特征）与输出（标签）
学习计划：第四阶段（第九周）狐凄学习 python 前端
目录第四阶段：特殊方法与高级特性第9周：了解属性装饰器周一周二周三周四周五总结一、学习内容回顾二、问题与解决三、学习成果四、下周计划第四阶段：特殊方法与高级特性第9周：了解属性装饰器周一上午理论学习阅读Python官方文档及相关教程，了解属性装饰器的基本概念。明确属性装饰器是Python提供的一种语法糖，用于简化属性的访问控制逻辑，将方法伪装成属性，使代码更简洁、易读。学习属性装饰器与传统属性访问
JAVA学习|第二章控制语句 sailing_c JAVA入门学习 java 学习开发语言笔记
目录1.程序块、循环和分支1.1程序块1.2循环结构1.2.1while循环1.2.2do...while循环1.2.3for循环1.3分支结构1.3.1if语句1.3.2switch语句2.程序设计中的算法2.1伪代码与逐步细化3.Java语言中的异常处理简介3.1异常的分类3.2try-catch机制3.3throws和throw4.数组4.1数组的声明与创建4.2数组的初始化4.3多维数组4
【数据结构初阶】八大排序算法「已注销」数学排序算法数据结构算法
一、插入排序1.直接插入排序1.直接插入排序思想：假设现在已经有一个有序序列，如果有一个数字插入到这段序列的末尾，我们会选择拿这个数和它前面的每个数字都比较一遍，如果前面的数字比他大，那我们就让前面的数字赋值到这个被插入的数字位置，依次与前面的数字进行比较，最后我们把插入有序序列的数字放到他应该在的位置voidInsertSort(int*arr,intn){for(inti=0;i=0){if(
算法干货 | 深入理解堆排序：Java 代码 + 复杂度分析扣丁梦想家常见算法解析算法开发语言排序算法 java 数据结构
1.引言堆排序（HeapSort）是一种基于堆（Heap）数据结构的排序算法，具有时间复杂度为O(nlogn)，且不需要额外的辅助空间（空间复杂度为O(1)）。它是一种不稳定排序，但在实际应用中仍然非常高效，尤其适用于需要大量数据排序的场景。在本教程中，我们将详细介绍堆排序的原理、算法步骤、实现代码（Java版）、复杂度分析，并探讨其应用场景。2.堆的基本概念堆是一棵完全二叉树，并满足以下特性：大
青少年编程与数学 02-010 C++程序设计基础 22课题、自定义类型明月看潮生编程与数学第02阶段青少年编程 c++编程与数学开发语言
青少年编程与数学02-010C++程序设计基础22课题、自定义类型一、类（Class）定义类使用类二、结构体（Struct）定义结构体使用结构体三、枚举（Enum）定义枚举使用枚举四、联合体（Union）定义联合体使用联合体五、类模板（ClassTemplate）定义类模板使用类模板六、类型别名（TypeAlias）使用`typedef`定义类型别名使用`using`定义类型别名七、异构类型（Va
【DeepSeek R1构建本地RAG知识库】应用框架选型对比（MaxKB、Dify、FastGPT、RagFlow、Anything-LLM） Xd聊架构从0到1落地AI人工智能 rag ai 知识库
文章目录前言一、MaxKB1.简介2.技术概览二、Dify1.简介2.技术概览三、FastGPT1.简介四、RagFlow1.简介2.技术概览五、Anything-LLM1.简介2.技术概览六、更多资料1.LLM框架推荐2.RAG生产落地实践架构七、总结1.综合对比2.优缺点对比3.按需选择4.社区与支持5.部署与使用便捷性结尾前言在人工智能技术加速渗透各行各业的今天，检索增强生成（Retriev
使用 Nginx 轻松处理跨域请求（CORS） m0_74824025 面试学习路线阿里巴巴 nginx 运维
使用Nginx轻松处理跨域请求（CORS）在现代Web开发中，跨域资源共享（CORS）是一种重要的机制，用于解决浏览器的同源策略限制。CORS允许服务器声明哪些来源可以访问其资源，从而确保安全性与可用性。本文将介绍如何在Nginx中配置跨域访问，并详细解析每个配置项的作用和用法。什么是CORS？CORS（Cross-OriginResourceSharing）是一种HTTP头部机制，允许服务器声明
Nodemailer使用教程：在Node.js中发送电子邮件 m0_74824054 面试学习路线阿里巴巴 node.js linux 运维
目录1.简介2.安装3.基本配置3.1创建传输器3.2配置说明4.发送邮件4.1基本发送示例4.2发送验证码示例5.?常见问题解决5.1“Greetingneverreceived”?错误5.2?安全建议SMTP与邮件加密协议详解?1.SMTP简介1.1基本特点2.加密协议对比2.1SSL/TLS(端口465)?2.2?STARTTLS(端口587)3.端口使用建议3.1常用端口对比3.2选择建议
算力100问☞第68问：大模型红利何时到来？正儿八经的数字经算力经济人工智能大模型大数据
目录1、技术成熟与市场认知：红利期的起点已至2、行业落地：红利分阶段释放3、时间窗口：2024-2034年或为红利持续期4、政策与区域布局：加速红利释放5、挑战与可持续性大模型红利的到来时间因行业和应用场景的差异而呈现不同步性，但整体来看，2025年是关键节点。以下从技术发展、行业落地、政策支持等角度综合分析：1、技术成熟与市场认知：红利期的起点已至技术突破：2024年，大模型在核心能力（如多模态
STM32 RTC实时时钟详解与HAL库实战教程 DOMINICHZL STM32 单片机 stm32
摘要：本文深入讲解STM32的RTC（Real-TimeClock）模块，涵盖原理分析、CubeMX配置、HAL库编程实现，并提供完整的闹钟设置与时间校准例程代码。通过本文，您将掌握RTC在低功耗场景下的核心应用技巧。1.RTC模块概述RTC（实时时钟）是STM32内部独立运行的定时器模块，主要特点：独立供电：通过VBAT引脚连接备用电池（3V纽扣电池）32位计数器：可记录秒级时间（配合预分频器）
2024年linux——环境基础开发工具使用_gcc test file(4)，2024年最新程序设计+Linux运维+Web+数据库+框架+分布式 2401_83740189 程序员运维 linux 前端
最全的Linux教程，Linux从入门到精通======================linux从入门到精通(第2版)Linux系统移植Linux驱动开发入门与实战LINUX系统移植第2版Linux开源网络全栈详解从DPDK到OpenFlow第一份《Linux从入门到精通》466页====================内容简介====本书是获得了很多读者好评的Linux经典畅销书**《Linu
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他