今晚滿天星

Chapter4 分布式数据库HBase

4.1概述

4.1.1从BigTable说起

HBase是BigTable的开源实现。
BigTable是一个分布式存储系统，它最初是用于解决谷歌公司内部的大规模网页所搜问题。

网页搜索可以分为两个阶段：
1.第一阶段：建立整个网页的索引。
通过爬虫不断的抓取各个网站的页面，将网页的每页一行存储到BigTable中。
在BigTable上运行MapReduce，MapReduce计算作业运行在整张表上，会生成索引，保证能够快速搜索相关网页。
2.第二阶段：搜索互联网网页。
搜索引擎接收用户发起的查询请求。
网络搜索应用通过查询建立好的索引，从BigTable得到网页。
最后将网页搜索结果返回给用户。

BigTable诞生之初主要就是满足互联网搜索引擎的基本需求。但现如今，BigTable作为分布式存储系统，不止用于网页搜索，还用于谷歌非常多的项目中，包括搜索、地图、财经、打印，以及一些社交网站、视频共享网站、博客系统等。

BigTable并非直接将底层磁盘作为存储，它是架构在GFS(谷歌分布式文件系统)基础之上的，并使用GFS作为底层数据存储。并且采用Chubby提供的协调管理服务。

BigTable受到广泛关注的原因包括：
1.它具有非常好的性能，可以支持PB级别的数据。
2.它具有非常好的可扩展性，可以用集群去存储几千台服务器，完成分布式存储。

4.1.2HBase简介

HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库。
相比于只能存储完全非结构化数据的底层分布式文件系统，HBase可以用来存储非结构化和半结构化的松散数据。并且HBase的目标是通过水平扩展的方式，允许几千台服务器去存储海量文件，实现庞大的存储规模。

HBase和BigTable的底层技术对应关系如下：

关系型数据库已经流行许多年了，况且Hadoop已经有了HDFS和MapReduce，为什么需要HBase？

Hadoop可以解决大规模数据的离线批量处理问题，但是Hadoop受限于Hadoop MapReduce编程框架的高延迟数据处理机制，随着数据的大规模爆炸式增长，Hadoop没有办法满足大规模数据实时处理的需求。
传统的关系型数据库的扩展能力非常有限，对大规模数据的存储能力不够。即使分库分表，也不能很好解决数据规模剧增导致的系统扩展性和性能问题。
传统的关系数据库可以应对一定的数据结构变化，但是需要进行停机维护。
HDFS面向的是批量访问模式，而非随机访问模式。

HBase与传统的关系数据库的主要区别有哪些？

数据类型方面
传统的关系数据库使用的是经典的关系数据模型，具有丰富的数据类型和存储方式。
而HBase采用了更简单的数据模型，把数据存储为未经解释的字符串，需要依靠程序开发人员解释数据类型。
数据操作方面
关系数据库中定义了非常多的数据操作，比如更新、删除、查询、多表连接等。
而HBase只有简单的插入、查询、删除、清空等操作，避免了复杂的表与表之间的关系。
存储模式
关系数据库基于行模式存储。
而HBase基于列存储，每个列族都由几个文件保存，不同列族的文件是分离的。
数据索引
关系数据库可以直接针对各个不同的列，构建非常复杂的索引，以快速定位到相关记录。
而HBase只支持对行键进行索引，所有访问方法，要么通过行键访问，要么通过行键扫描。
数据维护
在关系数据库中进行数据更新操作的时候，原来的旧值会被新值替换掉。
而HBase不存在替换操作，不会擅长旧的版本，而是生成一个新的版本，并且每生成一个新版本就会生成一个时间戳标识新版本。直到过了设置的期限之后，系统才会在后台把它清理掉。
可伸缩性
关系数据库很难实现水平扩展，最多实现纵向扩展，比如增加CPU、单核变双核、双核变四核、增加内存条、增加磁盘。但纵向扩展的空间也是有限的。
而HBase借助于分布式集群存储海量数据，能够轻易的通过在集群中增加或者减少硬件数量来实现性能的伸缩。

4.1.3HBase访问接口

类型	使用场合
原生Java API	Hadoop MapReduce作业并行批处理HBase表数据
Shell命令	HBase管理使用
Thrift Gateway方式	其他异构系统在线访问HBase表数据
REST Gateway	支持REST风格的Http API访问HBase
Pig	数据统计
数据仓库产品Hive	以类似SQL语言的方式访问HBase

4.2HBase数据模型

4.2.1HBase数据模型概述

HBase是一个稀疏的多维度的排序的映射表。这张表的索引是四个元素：行键、列族、列限定符、时间戳。

HBase中，每一个值都是未经解释的字符串，也就是Bytes数组。

用户在表中存储数据时，一个行可以有一个行键和任意多个列。

表的水平方向由一个或多个列族组成，一个列族可以包含任意多个列，相同列族中的数据存储在一起。

列族支持动态扩展（增加、减少等），因此无序事先定义好列的数量和类型。

HBase执行数据更新操作时，会保留旧的版本。这是因为HBase基于HDFS存储数据，而HDFS只支持追加不支持修改。所以HBase只能生成一个新的版本并追加时间戳，然后根据时间戳找到新的版本。

HBase中很多数据是冗余存储的，通过牺牲空间追求更高的效率。

4.2.2基本概念

表：HBase使用表组织数据，表由若干个行和列构成，每个列可以包含多个列族。
行：每个行由唯一的标识符rowKey（行键）来标识。
列族：列族是HBase存储的基本单元，不同列族存储在不同文件中。一个HBase表被划分成多个列族的集合，列族是基本的访问控制单元。
列限定符（列）：列族中的数据通过列定位。
单元格：是具体存储数据的地方。通过行、列族、列，就可以唯一的确定一个单元格。单元格中存储的数据类型都是未经解释的字符串。
时间戳：数据需要更新，新的版本会通过时间戳进行区分。因此一个单元格中有很多版本的数据保存在系统中。

数据坐标：在传统关系数据库中，只需要通过行、列两个维度就可以确定唯一数据(如Excel)。而HBase采用四维坐标定位，必须确定行键、列族、列限定符、时间戳。

4.2.3概念视图和物理视图

在设计HBase 的时，在概念上和底层的存储是有区分的。

HBase数据的概念视图举例如下：
在这个例子中，仅仅有一个行键"com.cnn.www"，唯一的标识一行。在行键中可能包含多个列族，在这里第一个列族是contents、第二个列族是anchor。一个列族也可以包含多个列，在这里t1、t2、t3对应的是contents列族。
每一行在不同的时间版本插入数据时，并不是插入所有的相关列。比如在t1时，只在列族contents下面的html列中有数据。在t5时间戳下，只在列族anchor下有数据，anchor:cnnsi.com=“CNN"表示的是：anchor是列族、cnnsi.com是列的名称、存储的内容是"CNN”。

从上面的概念视图中，可以看到HBase是稀疏表，很多单元是空的。然而，在底层中，HBase并不是以这种方式存储的。

HBase数据的物理视图举例如下：
在底层存储时，以列族为单位存储，把行键、时间戳、列族单独拿出来存储。
底层物理存储并没有像上面一样，存储很多空值。

4.2.4面向列的存储

HBase的存储方式和传统的关系型数据库的存储方式是存在很大区别的。传统的关系数据库采用面向行的方式进行存储，而HBase采用面向列的方式进行存储。

面向行的存储的优点：

对于传统的事务型操作，需要每次插入一条数据的时候，比如一条购物记录。一次会写入一条完整的记录，将购物记录的各项信息存入数据库。
采用面向行存储的原因是之前我们使用的大都是OLTP(事务型操作)系统，每一次都生成一个完整的记录。需要一次写入完整字段。

面向行的存储的缺点：

对于行式存储来讲，如果想分析某一列数据，为了得到这一列数据，必须先扫描数据库中第一行，再扫描第二行。便利整个数据库才能得到完整的列数据。
目前通常是针对某一列进行分析，使用行式存储代价过大。
而列式存储通常是按一个列去存储，且每列中的数据类型通常是相似的，所以可以带来很高的数据压缩率。这是行式做不到的，因为行式存储，一行中的不同字段的差别非常大，不可能达到很高的数据压缩率。

如果事务型操作比较多 -> 使用行式存储
如果企业以分析型应用为主 -> 使用列式存储

HBase数据库采用列式存储。

4.3HBase实现原理

4.3.1HBase的功能组件

HBase包括三个最核心的功能组件：

库函数：通常用于链接每个客户端
Master服务器：充当管家的作用
Master服务器可以实现对HBase表中的分区信息进行维护和管理。
Master服务器维护了一个Region服务器列表，通过它可以知道整个集群中有哪些Region服务器在工作。
Master服务器也负责对Region进行分配，一个表要进行分区分成多个Region，每个Region被分配到哪个Region服务器上由它决定。
Master服务器还负责负载均衡。
多个Region服务器：负责存储不同的Region
一个大的表会被分成多个不同的Region，这个Region就由Region服务器进行维护和管理。
客户端要访问数据的时候，也是直接和Region服务器进行数据的存取（客户端不会直接从Master处获取数据，一般是直接获得整个Region的位置信息后，直接和相应的Region服务器交互。）
客户端并不依赖Master获取位置信息，而是通过Zookeeper获取Region位置信息。大多数客户端甚至从不和Master通信，减小了负载。

4.3.2表和Region

一个HBase表在起初数据量很小，只有一个Region。但是，随着数据不断的增加，Region会逐渐增大，增大到一定程度后，一个Region会分裂成多个新的Region。并且这种分裂过程是十分迅速的，在分开的瞬间修改数据的指向信息即可，实际的数据还是存储在旧的Region中，访问的时候还是访问旧的Region中的数据。一直到合并过程，把存储文件异步的写到独立的文件之后，才会读取新的文件。

在2006年之前，Region大小为100MB到200MB。但是到目前，一个Region的最佳大小配置为1GB到2GB。
注意，拆分时对于同一个Region，不会被拆分到不同的Region服务器上去。

4.3.3Region的定位

HBase设计了三层结构实现Region的寻址和定位，实现原理如下：

构建一个元数据表，假设这个元数据表只有两列。第一列是Region的id，第二列是Region服务器的id。
HBase最开始构建时有一个映射表，这个映射表被称为.META.表（用于存储元数据）。
随着Region的不断分类，映射条目逐渐增多，使得.META.表也需要分成多个Region进行存储。
为了记录所有元数据的具体位置，还需要另外一个表——根数据表(-ROOT-表)。但注意，HBase不允许-ROOT-表进行分裂，-ROOT-表最多只能有一个Region。
-ROOT-表的地址在程序中是被写死的，在Zookeeper文件中记录了-ROOT-表的位置。

HBase的三层结构中各层次的名称和作用：

为了加快访问速度，.META.表的全部Region都会被保存在内存中。

假设.META.表的每行（一个映射条目）在内存中大约占用1KB，并且每个Region限制为128MB。那么，上面的三层结构可以保存的用户数据表的Region数目的计算方法是：

(-ROOT-表能够寻址的.META表的Region个数) x (每个.META.表的Region可以寻址的用户数据表的Region个数)

一个-ROOT-表最多只能有一个Region，也就是最多只能有128MB，按照每行(一个映射条目)占用1KB内存计算，128MB空间可以容纳 128MB/1KB=2¹⁷行。
也就是说，一个-ROOT-表可以寻址2¹⁷个.META.表的Region。
同理，每个.META.表的 Region可以寻址的用户数据表的Region个数是
128MB/1KB=2¹⁷。
最终，三层结构可以保存的Region数目是(128MB/1KB) × (128MB/1KB)= 2³⁴个Region。这个数目远远超过企业的实际需求。

客户端访问数据时的"三级寻址"：为了加速寻址，客户端会缓存位置信息。同时，需要解决缓存失效问题（采用惰性机制，只有发现某个缓存不能正确找到数据的时候才会更新缓存，使用三级寻址找到Region的ID再次缓存下来）。

4.4HBase运行机制

4.4.1HBase系统架构

从HBase系统架构示意图课件，HBase的数据存储并非直接和底层存储打交道，而是借助于HDFS完成数据存储的。

1.客户端：包含访问HBase的接口。并且为了加快访问速度，客户端会在自己的缓存中维护已经访问过的Region位置信息。

2.Zookeeper服务器：实现协同管理服务。被大量用于分布式系统，提供配置维护、域名服务、分布式同步服务。在HBase中，作为管家存在，负责维护和管理整个HBase集群，可以帮助选举出一个Master作为集群的总管，并保证任何时刻总有一个唯一的Master在运行，避免了Master的单点失效问题。

3.Master（主服务器）：负责整个HBase中表及Region的管理工作，包括管理用户对表的增删改查、对不同的Region服务器进行负载均衡、负责调整分裂/合并后Region的分布、负责重新分配故障/失效的Region服务器。

4.Region服务器：负责用户数据的存储和管理。用户读数据的时候就是和Region服务器交互。

4.4.2Region服务器工作原理

每一台Region服务器中可以存储10~1000个Region，这些Region共用一个公用的HLog文件。在进行存储时，每一个Region中的每一个列族会构成一个单独的Store，注意Store中的数据不是直接写到底层，而是先写入缓存MemStore中，缓存满了之后再刷新写入StoreFile(在底层借助HDFS存储，文件格式是HFile)中去。

用户数据读写过程
1.写数据：

用户写入数据时，需要去被分配到的相应的Region服务器上执行。
首先写入到缓存MemStore中。为了保证数据的安全和恢复性，还要写日志到HLog中。
只有保证HLog中的数据已经被完整的写入磁盘后，才允许调用返回给客户端。

2.读数据：

读数据时，Region服务器也会首先访问MemStore缓存，因为最新的数据都在MemStore中，而非磁盘的StoreFile中。
如果在MemStore缓存找不到，再去磁盘的StoreFile中找相关数据。

缓存的刷新
系统会周期性的把MemStore缓存里的内容刷写到磁盘的StoreFile文件中，清空缓存，并在HLog日志中写入一个标记。
由于每次刷写都生成一个新的StoreFile文件，因此每个Store包含多个StoreFile文件。
每个Region服务器都有一个自己的HLog日志文件（是所有Region公用的），每次启动时都检查该文件，确认最近一次执行缓存刷新操作之后是否发生新的写入操作。如果发现更新，则先写入MemStore，再刷写到StoreFile，最后删除旧的HLog文件，开始为用户提供服务。

StoreFile的合并
由于每一次刷写都会生成一个新的StoreFile，如果数量非常多，会影响查找速度。
当StoreFile数目达到一定程度的时候，会合并成一个大的StoreFile。
这种合并是非常耗费资源的，只有磁盘中刷写生成的StoreFile数量达到一定阈值后，才会启动合并操作。

然而，StoreFile可能会随着合并不断增大。大到一定程度的时候又会触发分裂操作(HBase的Region分裂就发生在这里)。一个父Region被分裂成两个子Region。

4.4.3HLog工作原理

HBase通过构建一个集群去管理数据，是典型的分布式环境，底层又是非常廉价的低端机，因此故障是难免的，并且必须采取手段应对故障。HBase中采用日志HLog保证系统恢复。
HBase为每个Region服务器配置了公共的HLog文件（是一种预写式日志），用户更新数据时必须先写入日志，然后才能写入MemStore缓存。直到MemStore缓存内容对应的日志已经写入磁盘，缓存内容才能被刷写磁盘。
ZooKeeper负责监视Region服务器集群，当它发现某个Region服务器发生故障的时候，会通知Master。
Master会处理故障Region服务器遗留的HLog文件（包含故障Region服务器上各个Region的日志记录）。
由于多个Region共用一个HLog，所以需要根据每条日志记录所属的Region对象，对HLog数据进行拆分，分别放到相应Region对象的目录下。然后将失效的Region重新分配到可用的Region服务器中，并把与该Region对象相关的HLog日志记录发送给相应的Region服务器。
Region服务器领取到分配给自己的Region对象以及相关的HLog记录之后，会重新执行一遍日志记录中的各种操作，把日志记录中的数据写入到MemStore缓存中，然后刷新到磁盘的StoreFile文件中，完成数据恢复。

一个Region服务器中所有Region共用一个HLog日志：
优点是可以提高对表的写操作性能。
缺点是一旦发生故障，进行恢复的时候需要进行日志拆分。

4.5HBase应用方案

4.5.1HBase实际应用中的性能优化方法

1.行键
HBase中按照行键索引数据，而行键按照字典序存储。因此可以把最近可能被访问的数据放在一起，举例如下：
如果想把时间靠近的数据都存在一起，可以考虑将时间戳作为行键的一部分，然而按照升序排序的话，越到后面时间戳会越来越大。考虑到长整形变量是64位，可以使用系统最大的整型值减去时间戳，让排序顺序反转。也就是说将Long.MAX_VALUE - timestamp作为行键。这样可以保证最新写的数据可以被很快命中。

2.提升读写性能
如果对实时性要求比较高，想把数据放入缓存中，以提升读写性能。可以在创建表时，通过设置HColumnDescriptor.setInMemory选项为true，就可以把相关的表放到Region服务器的缓存中，根据需要决定是否放入缓存。

3.最大版本
在创建表时，通过设置HColumnDescriptor.setMaxVersions(int MaxVersions)，以限制最大版本数。如果仅仅想保存最新版本的数据，将参数设置为1即可。

4.生存时间
在创建表时，通过设置HColumnDescriptor.setTimeToLive(int TimeToLive)设置表中存储数据的生命周期，一旦超过生命周期就成为过期数据，会被系统自动删除。
比如，如果只需要最近两天的数据，可以设置为setTimeToLive(2 * 24 * 60 * 60)

4.5.2HBase性能检测

有四种常用工具可以帮助进行HBase性能检测：
1.Master-status
2.Ganglia
3.OpenTSDB
4.Ambari

Master-status：是HBase自带的工具。通过Web界面的方式可以查询HBase运行状态，直接在浏览器中输入地址即可查看。

Ganglia：是UC Berkeley发起的一个开源集群监视项目，用于监控系统性能，也支持对HBase进行性能监控。

OpenTSDB：可以从大规模的集群中获取相关的性能参数，进行存储索引，然后以可视化的方式提供给管理员。

Ambari：是Hadoop架构上的一个产品，作用是创建、管理、监视Hadoop的集群。

4.5.3在HBase上构建SQL引擎

构建SQL引擎的好处：
1.易使用：目前大部分工作人员还是更了解SQL，SQL也更容易理解。
2.减少编码：SQL语句非常简洁，是非过程语言，可以减少代码量。

在HBase上构建SQL引擎有两种常用方法：

Hive整合HBase
从Hive0.6.0版本开始，已经具备了和HBase的整合功能，它们的接口互相通信就可以实现对HBase的访问。
Phoenix
Phoenix是知名的SaaS服务供应商Salesforce的产品。这个Salesforce.com公司开源了一个项目叫Phoenix，它是构建在Apache HBase之上的一个SQL中间层，开发者可以通过它在HBase上执行SQL查询。

4.5.4构建HBase二级索引

二级索引，也称辅助索引。在关系数据库中，可以对学号字段建立主索引（Primary key），然后对姓名和成绩字段构建多个二级索引。

然而，原生的HBase产品不支持对各个列构建相关的索引，默认只支持对行键rowKey进行索引。
因此，在HBase中想访问某一行，仅有三种方式：
1.通过单个行键访问
2.定一个行键的开始点和结束点去访问区间数据
3.只能进行全表扫描，对整个HBase表顺序扫一遍

实际应用中，通常需要针对不同的列构建索引。因此，HBase0.92版本后引入了一个新特性叫做Coprocessor，用于帮助HBase构建二级索引。
一些产品包括：Hindex、HBase+Redis、HBase+solr

Coprocessor解析
利用Coprocessor，可以构建二级索引。
Coprocessor提供了两个实现：endpoint和observer。endpoint相当于关系型数据库的存储过程，而observer相当于触发器。
observer允许在记录put前后做一些处理。因此，可以在插入数据的时候同步写入索引表。在这种情况下，在HBase数据库中就有主表、索引表。索引表是通过Coprocessor机制，额外开发的二级索引（可以针对其他列）

这种构建方式的优点：非侵入性：引擎构建在HBase之上，既没有对HBase进行任何改动，也不需要上层应用作出任何妥协。
缺点：每插入一条数据需要向索引表插入数据，耗时是双倍的，对HBase集群的压力也是双倍的。

Hindex：是华为公司使用Java开发的，专门针对HBase数据库。支持多个表索引，也支持多个列索引，也支持基于部分列值的索引。

HBase+Redis：Redis是一种键值数据库产品，能高效的管理键值对。由Redis数据库在缓存中管理索引，再定期把索引更新到HBase底层数据中。避免了频繁更新索引引起的耗时等问题。

HBase+Solr：Solr是高性能、基于Lucene的全文搜索服务器。Solr构建的是其他列和行键rowKey之间的对应关系。通过输入其他列中某一个值，可以快速找到这一行对应的行键，再根据行键在HBase中查找数据。

你可能感兴趣的:(#,Hadoop,big,data,hbase,大数据)

在虚拟机上安装Hadoop 杜清卿 hadoop
基本步骤与安装java一致:先用finalshell将hadoop-3.1.3.tar.gz导入到opt目录下面的software文件夹下面，然后解压,最后配置环境变量。1.使用finalshell上传。这里直接鼠标拖动操作即可。2.解压。进入到Hadoop安装包路径下，cd/opt/software/，再解压安装文件到/opt/module下，对应的命令是:tar-zxvfhadoop-.1.3
hadoop集群配置-scp拓展使用杜清卿 hadoop 服务器大数据
任务1：在hadoop102上，将hadoop101中/opt/module/hadoop-3.1.3目录拷贝到hadoop102上。分析：使用scp进行拉取操作：先登录到hadoop2使用命令：scp-rroot@hadoop101:/opt/module/hadoop-3.1.3/opt/module/任务2：在hadoop101上操作，将hadoop100中/opt/module目录下所有目
Java-校验值区间值的连续性江节胜-胜行全栈AI java 状态模式开发语言
最新版本更新https://code.jiangjiesheng.cn/article/363?from=csdnc＜30，30≤c＜60，60≤c＜100，100≤c有值时，必须收尾相等。BigDecimalendCheckValue=null;for(BssCompareMethodParameterConfigAddVOconfigRow:actualSampleCompareList){e
Spring Boot 与 Couchbase 整合教程嘵奇提升自己 spring boot 后端 java
精心整理了最新的面试资料和简历模板，有需要的可以自行获取点击前往百度网盘获取点击前往夸克网盘获取SpringBoot与Couchbase整合教程环境要求JDK8+SpringBoot2.7.xCouchbaseServer7.xMaven/Gradle步骤1：创建SpringBoot项目使用start.spring.io创建项目，添加以下依赖：SpringWeb（可选，用于RESTAPI）Spri
微软Data Formulator：用AI重塑数据可视化的未来几道之旅人工智能智能体及数字员工人工智能信息可视化
在数据驱动的时代，如何快速将复杂数据转化为直观的图表是每个分析师面临的挑战。微软研究院推出的开源工具DataFormulator，通过结合AI与交互式界面，重新定义了数据可视化的工作流。本文将深入解析这一工具的核心功能、安装方法及使用技巧，助你轻松驾驭数据之美。一、DataFormulator是什么？DataFormulator是一款基于大语言模型（LLM）的AI工具，旨在帮助用户通过自然语言和界
element plus table树形数据，增、删、改子节点数据时，进行局部刷新，而不刷新整个页面 catino vue.js javascript elementui
...constlistLoading=ref(false)//保存节点映射的Mapconstmaps=reactive(newMap())constload=async(row,treeNode,resolve)=>{constpid=row.idmaps.set(pid,{row,treeNode,resolve})constpost_data={parent_id:row.id,}listL
uni-app 设置背景图在手机中无效 catino uni-app
如下写法在微信开发者工具中显示正常，但在真机调试下，手机端背景图并未显示内容文字exportdefault{data(){return{imageBgURL:'../../static/imageBg.png'};}}解决方案如下：1，将图片转为base64编码2，将图片文件上传至服务器，使用网络地址3，使用image标签替代，如文本内容.textBg{height:114rpx;width:62
QT中Xml及查看调试中容器的内部数据苜柠 QT qt
voidChuankouUI::writeFile(){QFilefile(filePath);if(!file.open(QIODevice::WriteOnly)){emiterrData("打开配置文件失败");return;}QDomDocumentdoc;//添加根节点QDomElementroot=doc.createElement("config");doc.appendChild(
DataGridView使用方法汇总 weixin_33933118 操作系统数据库 ui
DataGridView控件DataGridView是用于WindowsFroms2.0的新网格控件。它能够代替先前版本号中DataGrid控件，它易于使用并高度可定制，支持许多我们的用户须要的特性。关于本文档：本文档不准备面面俱到地介绍DataGridView，而是着眼于深入地介绍一些技术点的高级特性。本文档按逻辑分为5个章节，首先是结构和特性的概览，其次是内置的列/单元格类型的介绍，再次是数据
探索Astra DB与LangChain的集成：从向量存储到对话历史 eahba 数据库 langchain python
技术背景介绍AstraDB是DataStax推出的一款无服务器的向量数据库，基于ApacheCassandra®构建，并通过易于使用的JSONAPI提供服务。AstraDB的独特之处在于其强大的向量存储能力，这在处理自然语言处理任务时尤为突出。LangChain与AstraDB的集成为开发者提供了强大的工具链，从数据存储到语义缓存，再到自查询检索，帮助简化复杂的数据操作。核心原理解析LangCha
kotlin基础淮山2 kotlin
//Kotlin1.3.11编译器版本//无包声明importkotlin.experimental.ExperimentalUnsignedTypes//定义数据类A1，类型前置dataclassA1(valrepresentation:UInt){//这里可以添加数据类的其他方法或属性，但当前仅包含一个属性}funmain(){//1.集中声明变量，类型前置，符合C语言风格的变量声明习惯//无
COMP 315: Cloud Computing for E-Commerce 后端
Assignment1:JavascriptCOMP315:CloudComputingforE-CommerceFebruary20251IntroductionAcommontaskwhenbackendprogrammingisdatacleaning,whichistheprocessoftakinganinitialdatasetthatmaycontainerroneousorinco
硅谷企业的大数据平台架构什么样？看看Twitter、Airbnb、Uber的实践大数据v 分布式数据库大数据编程语言 hadoop
导读：本文分析一下典型硅谷互联网企业的大数据平台架构。作者：彭锋宋文欣孙浩峰来源：大数据DT（ID：hzdashuju）01Twitter的大数据平台架构Twitter是最早一批推进数字化运营的硅谷企业之一，其公司运营和产品迭代的很多功能是由其底层的大数据平台提供的。图7-2所示为Twitter大数据平台的基本示意图。▲图7-2Twitter大数据平台架构Twitter的大数据平台开发比较早，很多
uniapp特有生命周期钩子浪裡遊 uniapp uni-app vue.js 前端
生命周期钩子在UniApp中，页面的生命周期与Vue的生命周期钩子紧密相关，并且针对小程序平台，UniApp还扩展了一些额外的生命周期钩子。以下是重要的页面生命周期钩子及其简要说明：基础的Vue生命周期钩子beforeCreate在实例初始化之后，数据观测(dataobserver)和event/watcher事件配置之前被调用。created实例已经创建完成之后被调用。此时已完成数据观测，属性和
如何更优雅构建对象？我梦见你梦见我° java 开发语言
1.使用Lombok的@Builder注解Lombok的@Builder是一种非常简洁且强大的工具，可以自动生成Builder模式的代码。它避免了手动编写大量样板代码，并且支持链式调用和不可变对象的设计。@Data@NoArgsConstructor@AllArgsConstructor@BuilderpublicclassPerson{privateStringname;privateintag
table合并行花归去 vue3 element vue.js javascript elementui
{{scope.row.gdLength/10}}importtype{TableColumnCtx}from'element-plus';consttableData=[{"id":6140,"projectId":1306,"projectName":"","sectionId":12985,"sectionName":"YYZQ-9标","tunnelId":96160,"tunnelNam
Java 基础数据类型代码先锋者 java开发 java 开发语言
一、引言在Java中每个变量都必须先声明其数据类型，才能使用（即Java是强类型语言）。Java的数据类型分为两大类：基本数据类型（PrimitiveDataTypes）和引用数据类型（ReferenceDataTypes）。二、基本数据类型分类Java有8种基本数据类型（如下图所示），可分为四大类（整数型，浮点型，字符型和布尔型）：8大基本数据类型具体位数、取值范围和默认值等如下表所示：数据类型
Linux内核srio驱动,Zynq—Linux移植学习笔记（十四）：RapidIO驱动开发 weixin_39942572 Linux内核srio驱动
#defineDRIVER_NAME"xiic-rio"#defineSRIO_ZYNQ_BASEADDR0x40000000#defineSRIO_ZYNQ_NODE_BASEADDR0x10100#defineSRIO_ZYNQ_MAX_HOPCOUNT13structxiic_rio{structmutexlock;u8*data;};/*Weneedglobalvarriableforma
【图像预处理】瞬间记忆深度学习 python
(4条消息)图像预处理方法总结_AI强仔的博客-CSDN博客对图像进行预处理的一些常见方法包括：调整图像大小和分辨率，以便适应模型的输入要求。对图像进行裁剪或填充，以使其大小和比例符合要求。调整图像的亮度、对比度和饱和度等图像属性。进行图像平滑或锐化操作，以去除噪声或增强图像特征。进行图像归一化或标准化，以确保各个特征在相同的尺度上。应用数据增强技术，如旋转、平移、缩放、翻转等，以扩大数据集，提高
C语言，记录一次局部变量被意外修改的问题三日沐水嵌入式全套学习教程 c语言
背景：单片机开发过程中，我在函数体内（begin_face_record）定义了一个局部变量data_length，在使用的时候，该局部变量一直别改变，每次调用其他函数，例如c库里面的函数memcpy，不知什么情况data_length值就会被改变。1、源码分析voidmain(void){init_gpio();init_face();face_power_up();begin_face_rec
Mariadb5.5.68升级10.5 熊博主 Linux云计算架构工程师 mysql mariadb 运维 linux 服务器
Mariadb5.5.68升级10.5#提前备份好数据库[root@master~]#mysqldump-uroot-p--all-databases>alldb.sqlEnterpassword:[root@master~]#llalldb.sql-rw-r--r--.1rootroot51523011月1818:59alldb.sql#移除原来的mariadb数据库[root@master~]
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
大数据点燃智能制造变革之火——从数据到价值的跃迁 Echo_Wish 大数据高阶实战秘籍大数据制造
大数据点燃智能制造变革之火——从数据到价值的跃迁在全球制造业向智能化转型的浪潮中，大数据已然成为点燃变革的关键火种。从车间到供应链，从设备到产品生命周期，制造业正通过大数据分析找到隐形的效率优化机会，打破传统生产模式的桎梏。作为Echo_Wish，今天我将和大家探讨大数据如何融入智能制造，助力实现生产效率和业务价值的双重飞跃。一、智能制造的核心诉求：数据驱动的决策与执行智能制造的目标是通过数据驱动
echarts tooltip 自动轮播前端bug工程师可视化 vue.js echarts vue.js
一、效果展示二、使用步骤代码如下（示例）：data(){return{setInterval:''}},constmyChart=this.$echarts.init(document.getElementById("id"))letoption={tooltip:{//鼠标滑过配置项},//其他配置项}myChart.setOption(option)letidx=1this.setInterv
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
mysql总结 tianyunlinger 大数据 mysql 数据库
MySQL基础1.数据库基本介绍数据库定义：用于存储数据的仓库，通过SQL语句操作。数据库作用：存储应用程序中的数据，便于管理和查询。数据库分类：关系型数据库（如MySQL、Oracle、DB2）和非关系型数据库（如Redis、HBase）。关系型数据库：通过E-R图描述数据之间的关系，支持复杂查询。2.MySQL在Linux中的安装安装前准备：配置防火墙、创建统一的管理目录（如/export/s
echarts图表在修改了数据之后，如何进行重新渲染？小智玩前端 echarts javascript 前端
letmap=echarts.init(document.getElementById('map'));letoption=map.getOption()//获取option数据option.series[0].data=[1,2,3]//找到data修改数据map.setOption(option,true)//重新渲染
Zynq PL端IP核之AXI DMA Mazy.v fpga开发嵌入式硬件 arm开发单片机
1.AXIDMA简介Zynq提供了两种DMA，一种是PS中的DMA控制器，通过GP口与PL端连接，另一种是PL中的AXIDMAIP核（软核），通过HP口与PS端连接。Zynq有4个HP接口，每一个HP接口都包含控制和数据FIFO，这些FIFO为大数据量突发传输提供缓冲，让HP接口成为理想的高速数据传输接口。AXIDMAIP内核在AXI4内存映射和AXI4StreamIP接口之间提供高带宽直接储存访
echarts的tooltip自动轮播，dataZoom同步轮播小智玩前端 echarts 前端 javascript
功能：tooltip轮播时，dataZoom也同步轮播，并且鼠标放上去之后，停止轮播；鼠标移出后重新触发轮播；封装成一个函数，直接用就行，代码如下：/*myChart：创建的图表实例startValue：dataZoom的起始值endValue：dataZoom的末尾值dataLength：x轴数据的长度*/autoPlay(myChart,startValue,endValue,dataLeng
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。