KG大数据

Hive数据存储格式详细讲解（好文点赞收藏！）

0-前言
1-TextFile
2-SequenceFile
3-RCFile
4-ORCFile
- 4.1-ORC相比较 RCFile 的优点
- 4.2-ORC的基本结构
- 4.3-ORC的数据类型
- 4.4-ORC 的 ACID 事务的支持
- 4.5-ORC 相关的 Hive 配置
5-Parquet
- 5.1-Parquet基本结构
- 5.2-Parquet 的相关配置：
- 5.3-使用Spark引擎时 Parquet 表的压缩格式配置：
- 5.4-Parquet 和 ORC 压缩格式对比：

0-前言

本文讲解 Hive 的数据存储，是 Hive 操作数据的基础。选择一个合适的底层数据存储文件格式，即使在不改变当前 Hive SQL 的情况下，性能也能得到数量级的提升。这种优化方式对学过 MySQL 等关系型数据库的小伙伴并不陌生，选择不同的数据存储引擎，代表着不同的数据组织方式，对于数据库的表现会有不同的影响。

Hive 数据存储常用的格式如下：

行式存储
文本格式（TextFile）
二进制序列化文件（SequenceFile）
列式存储
行列式文件（RCFile）
优化的行列式文件（ORCFile）
Apache Parquet

注：RCFile 和 ORCFile 并不是纯粹的列式存储，它是先基于行对数据表进行分组(行组)，然后对行组进行列式存储

我们看下这几种存储结构的优缺点：

水平的行存储结构:

行存储模式就是把一整行存在一起，包含所有的列，这是最常见的模式。这种结构能很好的适应动态的查询。
比如：
select a from tableA 和 select a, b, c, d, e, f, g from tableA
这样两个查询其实查询的开销差不多，都需要把所有的行读进来过一遍，拿出需要的列。
而且这种情况下，属于同一行的数据都在同一个 HDFS 块上，重建一行数据的成本比较低。

但是这样做有两个主要的弱点：

当一行中有很多列，而我们只需要其中很少的几列时，我们也不得不把一行中所有的列读进来，然后从中取出一些列。这样大大降低了查询执行的效率。
基于多个列做压缩时，由于不同的列数据类型和取值范围不同，压缩比不会太高。

垂直的列存储结构:

列存储是将每列单独存储或者将某几个列作为列组存在一起。列存储在执行查询时可以避免读取不必要的列。而且一般同列的数据类型一致，取值范围相对多列混合更小，在这种情况下压缩数据能达到比较高的压缩比。

但是这种结构在重建行时比较费劲，尤其当一行的多个列不在一个 HDFS 块上的时候。比如我们从第一个 DataNode 上拿到 column A，从第二个 DataNode 上拿到了 column B，又从第三个 DataNode 上拿到了 column C，当要把 A，B，C 拼成一行时，就需要把这三个列放到一起重建出行，需要比较大的网络开销和运算开销。

混合的 PAX 存储结构:

PAX 结构是将行存储和列存储混合使用的一种结构，主要是传统数据库中提高 CPU 缓存利用率的一种方法，并不能直接用到 HDFS 中。但是 RCFile 和 ORC 是继承自它的思想，先按行存再按列存。

本文重点讲解最后两种：Apache ORC 和 Apache Parquet，因为它们以其高效的数据存储和数据处理性能得以在实际的生产环境中大量运用。

1-TextFile

TextFile 为 Hive 默认格式，建表时不指定则默认为这个格式，导入数据时会直接把数据文件拷贝到 hdfs 上不进行处理。

创建一个 TextFile 格式的 Hive 表：

create table if not exists textfile_table
(
    ueserid STRING,
    movieid STRING,
    rating STRING,
    ts STRING
)
row formated delimated fields terminated by '\t'
stored as textfile;  -- 可不指定（默认格式）

向 TextFile 表中加载数据：

load data local inpath "/root/rating.csv" overwrite into table textfile_table

TextFile 优缺点：

TextFile 格式因为不对导入的数据文件做处理，所以可以直接使用 load 方式加载数据，其他存储格式则不能使用 load 直接导入数据文件。所以 TextFile 的加载速度是最高的。
TextFile 格式虽然可以使用 Gzip 压缩算法，但压缩后的文件不支持 split。在反序列化过程中，必须逐个字符判断是不是分隔符和行结束符，因此反序列化开销会比 SequenceFile 高几十倍。

2-SequenceFile

SequenceFile 是 Hadoop API 提供的一种二进制文件支持，其具有使用方便、可分割、可压缩的特点。

SequenceFIle 的内部格式取决于是否启用压缩，如果是压缩，则又可以分为记录压缩和块压缩。

无压缩（NONE）：如果没有启用压缩(默认设置)那么每个记录就由它的记录长度(字节数)、键的长度，键和值组成。长度字段为 4 字节。

记录压缩（RECORD）：记录压缩格式与无压缩格式基本相同，不同的是值字节是用定义在头部的编码器来压缩。注意：键是不压缩的。

块压缩（BLOCK）：块压缩一次压缩多个记录，因此它比记录压缩更紧凑，而且一般优先选择。当记录的字节数达到最小大小，才会添加到块。该最小值由 io.seqfile.compress.blocksize 中的属性定义。默认值是 1000000 字节。格式为记录数、键长度、键、值长度、值。Record 压缩率低，一般建议使用 BLOCK 压缩。

创建一个 SequenceFile 格式的 Hive 表：

create table if not exists seqfile_table
(
    ueserid STRING,
    movieid STRING,
    rating STRING,
    ts STRING
)
row format delimited
fields terminated by '\t'
stored as sequencefile;

设置压缩格式为块压缩：

set mapred.output.compression.type=BLOCK;

向 SequenceFile 表中加载数据：

insert overwrite table seqfile_table select * from textfile_table;

SequenceFile 优点：

支持基于记录(Record)或块(Block)的数据压缩。
支持 splitable，能够作为 MapReduce 的输入分片。
修改简单：主要负责修改相应的业务逻辑，而不用考虑具体的存储格式。

SequenceFile 的缺点：

需要一个合并文件的过程，且合并后的文件不方便查看。

3-RCFile

RCFile 文件格式是 FaceBook 开源的一种 Hive 的文件存储格式，首先将表分为几个行组，对每个行组内的数据进行按列存储，每一列的数据都是分开存储，正是先水平划分，再垂直划分的理念。

首先对表进行行划分，分成多个行组。一个行组主要包括：

16 字节的 HDFS 同步块信息，主要是为了区分一个 HDFS 块上的相邻行组；
元数据的头部信息主要包括该行组内的存储的行数、列的字段信息等等；
数据部分我们可以看出 RCFile 将每一行，存储为一列，将一列存储为一行，因为当表很大，我们的字段很多的时候，我们往往只需要取出固定的一列就可以。

在一般的行存储中 select a from table，虽然只是取出一个字段的值，但是还是会遍历整个表，所以效果和 select * from table 一样，在 RCFile 中，像前面说的情况，只会读取该行组的一行。

创建一个 RCFile 的表：

create table if not exists rcfile_table
(
    ueserid STRING,
    movieid STRING,
    rating STRING,
    ts STRING
)
row format delimited fields terminated by '\t'
stored as rcfile;

在存储空间上：

RCFile 是行划分，列存储，采用游程编码，相同的数据不会重复存储，很大程度上节约了存储空间，尤其是字段中包含大量重复数据的时候。

懒加载：

数据存储到表中都是压缩的数据，Hive 读取数据的时候会对其进行解压缩，但是会针对特定的查询跳过不需要的列，这样也就省去了无用的列解压缩。

如：

select c from table where a>1;

针对行组来说，会对一个行组的 a 列进行解压缩，如果当前列中有 a>1 的值，然后才去解压缩 c。若当前行组中不存在 a>1 的列，那就不用解压缩 c，从而跳过整个行组。

4-ORCFile

4.1-ORC相比较 RCFile 的优点

ORC 是在一定程度上扩展了 RCFile，是对 RCFile 的优化：
ORC 扩展了 RCFile 的压缩，除了 Run-length（游程编码），引入了字典编码和 Bit 编码。
每个 task 只输出单个文件，这样可以减少 NameNode 的负载；
支持各种复杂的数据类型，比如：datetime，decimal，以及一些复杂类型(struct, list, map,等)；
文件是可切分（Split）的。在 Hive 中使用 ORC 作为表的文件存储格式，不仅节省 HDFS 存储资源，查询任务的输入数据量减少，使用的 MapTask 也就减少了

采用字典编码，最后存储的数据便是字典中的值，及每个字典值的长度以及字段在字典中的位置；
采用 Bit 编码，对所有字段都可采用 Bit 编码来判断该列是否为 null，如果为 null 则 Bit 值存为 0，否则存为 1，对于为 null 的字段在实际编码的时候不需要存储，也就是说字段若为 null，是不占用存储空间的。

4.2-ORC的基本结构

ORCFile 在 RCFile 基础上引申出来 Stripe 和 Footer 等。每个 ORC 文件首先会被横向切分成多个 Stripe，而每个 Stripe 内部以列存储，所有的列存储在一个文件中，而且每个 stripe 默认的大小是 250MB，相对于 RCFile 默认的行组大小是 4MB，所以比 RCFile 更高效。

下图是 ORC 的文件结构示意图：

ORC 文件结构由三部分组成:

条带（stripe）：ORC 文件存储数据的地方。
文件脚注（file footer）：包含了文件中 stripe 的列表，每个 stripe 的行数，以及每个列的数据类型。它还包含每个列的最小值、最大值、行计数、求和等聚合信息。
postscript：含有压缩参数和压缩大小相关的信息。

stripe 结构同样可以分为三部分：index data、rows data 和 stripe footer：

index data：保存了所在条带的一些统计信息，以及数据在 stripe 中的位置索引信息。
rows data：数据存储的地方，由多个行组构成，数据以流（stream）的形式进行存储。
stripe footer：保存数据所在的文件目录。

rows data 存储两部分的数据，即 metadata stream 和 data stream：

metadata stream：用于描述每个行组的元数据信息。
data stream：存储数据的地方。

ORC 在每个文件中提供了 3 个级别的索引：

文件级：这一级的索引信息记录文件中所有 stripe 的位置信息，以及文件中所存储的每列数据的统计信息。
条带级别：该级别索引记录每个 stripe 所存储数据的统计信息。
行组级别：在 stripe 中，每 10000 行构成一个行组，该级别的索引信息就是记录这个行组中存储的数据的统计信息。

程序可以借助 ORC 提供的索引加快数据查找和读取效率。程序在查询 ORC 文件类型的表时，会先读取每一列的索引信息，将查找数据的条件和索引信息进行对比，找到满足查找条件的文件。
接着根据文件中的索引信息，找到存储对应的查询条件数据 stripe，再借助 stripe 的索引信息读文件中满足查询条件的所有 stripe 块。

之后再根据 stripe 中每个行组的索引信息和查询条件比对的结果，找到满足要求的行组。
通过 ORC 这些索引，可以快速定位满足查询的数据块，规避大部分不满足查询条件的文件和数据块，相比于读取传统的数据文件，进行查找时需要遍历全部的数据，使用 ORC 可以避免磁盘和网络 I/O 的浪费，提升程序的查找效率，提升整个集群的工作负载。

4.3-ORC的数据类型

Hive 在使用 ORC 文件进行存储数据时，描述这些数据的字段信息、字段类型信息及编码等相关信息都是和 ORC 中存储的数据放在一起的。

ORC 中每个块中的数据都是自描述的，不依赖外部的数据，也不存储在 Hive 的元数据库中。

ORC 提供的数据数据类型包含如下内容：

整型：包含 boolean（1bit）、tinyint（8bit）、smallint（16bit）、int（32bit）、bigint（64bit）。
浮点型：包含 float 和 double。
字符串类型：包含 string、char 和 varchar。
二进制类型：包含 binary。
日期和时间类型：包含 timestamp 和 date。·
复杂类型：包含 struct、list、map 和 union 类型。

目前 ORC 基本已经兼容了日常所能用到的绝大部分的字段类型。另外，ORC 中所有的类型都可以接受 NULL 值。

4.4-ORC 的 ACID 事务的支持

在 Hive 0.14 版本以前，Hive 表的数据只能新增或者整块删除分区或表，而不能对表的单个记录进行修改。

在 Hive 0.14 版本后，ORC 文件能够确保 Hive 在工作时的原子性、一致性、隔离性和持久性的 ACID 事务能够被正确地得到使用，使得对数据更新操作成为可能。

Hive 是面向 OLAP 的，所以它的事务也和 RDMBS 的事务有一定的区别。Hive 的事务被设计成每个事务适用于更新大批量的数据，而不建议用事务频繁地更新小批量的数据。

创建 Hive 事务表的方法：

设置 hive 环境参数：

 --开启并发支持，支持插入、删除和更新的事务
set hive.support.concurrency=true;

--支持ACID事务的表必须为分桶表
set hive.enforce.bucketing=true;

--开启事物需要开启动态分区非严格模式
set hive.exec.dynamic.partition.mode=nonstrict;

--设置事务所管理类型为org.apache.hive.ql.lockmgr.DbTxnManager
--原有的org.apache.hadoop.hive.ql.lockmgr.DummyTxnManager不支持事务
set hive.txn.manager=org.apache.hadoop.hive.ql.lockmgr.DbTxnManager;

--开启在相同的一个meatore实例运行初始化和清理的线程
set hive.compactor.initiator.on=true;

--设置每个metastore实例运行的线程数
set hive.compactor.worker.threads=1;

创建表：

create table student_txn
(id int,
 name string
)
clustered by (id) into 2 buckets --必须支持分桶
stored as orc TBLPROPERTIES ('transactional'='true'); --在表属性中添加支持事务

插入数据：

--插入id为1001，名字为'student_1001
insert into table student_txn values('1001','student_1001');

更新数据：

update student_txn
set name='student_lzh'
where id='1001';

查看表的数据，最终会发现 id 为 1001 被改为 sutdent_lzh；

4.5-ORC 相关的 Hive 配置

表的属性配置项有如下几个：

orc.compress：表示 ORC 文件的压缩类型，可选的类型有 NONE、ZLIB 和 SNAPPY，默认值是 ZLIB。
orc.compress.size：表示压缩块（chunk）的大小，默认值是 262144（256KB）。
orc.stripe.size：写 stripe，可以使用的内存缓冲池大小，默认值是 67108864（64MB）。
orc.row.index.stride：行组级别索引的数据量大小，默认是 10000，必须要设置成大于等于 10000 的数。
orc.create.index：是否创建行组级别索引，默认是 true。
orc.bloom.filter.columns：需要创建布隆过滤的组。
orc.bloom.filter.fpp：使用布隆过滤器的假正（False Positive）概率，默认值是 0.05。

注：在 Hive 中使用布隆(bloom)过滤器，可以用较少的文件空间快速判定数据是否存在于表中，但是也存在将不属于这个表的数据判定为属于这个这表的情况，这个情况称之为假正概率，可以手动调整该概率，但概率越低，布隆过滤器所需要的空间越多。

5-Parquet

Parquet 是另外的一种高性能行列式的存储结构，可以适用多种计算框架，被多种查询引擎所支持，包括 Hive、Impala、Drill 等。

5.1-Parquet基本结构

在一个 Parquet 类型的 Hive 表文件中，数据被分成多个行组，每个列块又被拆分成若干的页（Page），如下图所示：

Parquet 在存储数据时，也同 ORC 一样记录这些数据的元数据，这些元数据也同 Parquet 的文件结构一样，被分成多层文件级别的元数据、列块级别的元数据及页级别的元数据。

文件级别的元数据（fileMetadata）记录主要如下：

表结构信息（Schema）；
该文件的记录数；
该文件拥有的行组，以及每个行组的数据总量，记录数；
每个行组下，列块的文件偏移量。

列块的元数据信息如下：

记录该列块的未压缩和压缩后的数据大小和压缩编码；
数据页的偏移量；
索引页的偏移量；
列块的数据记录数。

页头的元数据信息如下：

该页的编码信息；
该页的数据记录数。

程序可以借助 Parquet 的这些元数据，在读取数据时过滤掉不需要读取的大部分文件数据，加快程序的运行速度。

同 ORC 的元数据一样，Parquet 的这些元数据信息能够帮助提升程序的运行速度，但是 ORC 在读取数据时又做了一定的优化，增强了数据的读取效率。在查询时所消耗的集群资源比 Parquet 类型少。

Parquet 在嵌套式结构支持比较完美，而 ORC 多层级嵌套表达起来比较复杂，性能损失较大。

5.2-Parquet 的相关配置：

可以根据不同场景需求进行适当的参数调整，实现程序优化。

parquet.block.size：默认值为 134217728byte，即 128MB，表示 RowGroup 在内存中的块大小。该值设置得大，可以提升 Parquet 文件的读取效率，但是相应在写的时候需要耗费更多的内存。
parquet.page.size：默认值为 1048576byte，即 1MB，表示每个页（page）的大小。这个特指压缩后的页大小，在读取时会先将页的数据进行解压。页是 Parquet 操作数据的最小单位，每次读取时必须读完一整页的数据才能访问数据。这个值如果设置得过小，会导致压缩时出现性能问题。
parquet.compression：默认值为 UNCOMPRESSED（不压缩），表示页的压缩式。可以使用的压缩方式有 UNCOMPRESSED、SNAPPY、GZIP 和 LZO。
parquet.enable.dictionary：默认为 true，表示是否启用字典编码。
parquet.dictionary.page.size：默认值为 1048576byte，即 1MB。在使用字典编码时，会在 Parquet 的每行每列中创建一个字典页。使用字典编码，如果存储的数据页中重复的数据较多，能够起到一个很好的压缩效果，也能减少每个页在内存的占用。

5.3-使用Spark引擎时 Parquet 表的压缩格式配置：

Spark 天然支持 Parquet，并为其推荐的存储格式(默认存储为parquet)。

对于 Parquet 表的压缩格式分以下两种情况进行配置：

对于分区表：
需要通过 Parquet 本身的配置项 parquet.compression 设置 Parquet 表的数据压缩格式。如在建表语句中设置：“parquet.compression”=“snappy”。
对于非分区表：
需要通过 spark.sql.parquet.compression.code 配置项来设置 Parquet 类型的数据压缩格式。直接设置parquet.compression 配置项是无效的，因为它会读取 spark.sql.parquet.compression.codec 配置项的值。
当 spark.sql.parquet.compression.codec 未做设置时默认值为 snappy，parquet.compression 会读取该默认值。
因此，spark.sql.parquet.compression.codec 配置项只适用于设置非分区表的 Parquet 压缩格式。

5.4-Parquet 和 ORC 压缩格式对比：

ORC 表支持 None、Zlib、Snappy 压缩，默认为 ZLIB 压缩。但这 3 种压缩格式不支持切分，所以适合单个文件不是特别大的场景。使用 Zlib 压缩率高，但效率差一些；使用 Snappy 效率高，但压缩率低。
Parquet 表支持 Uncompress、Snappy、Gzip、Lzo 压缩，默认不压缩(Uncompressed)。其中 Lzo 压缩是支持切分的，所以在表的单个文件较大的场景会选择 Lzo 格式。Gzip 方式压缩率高，效率低；而 Snappy、Lzo 效率高，压缩率低。

Python——生成AIGC图像朱剑君 AIGC 人工智能 python
文章目录一、背景介绍二、效果图展示三、完整代码四、分步解释五、实用建议1）提示词技巧2）性能优化3）常见问题处理4）扩展功能建议六、注意事项1.硬件要求2.法律合规3.模型安全一、背景介绍AIGC（AI-GeneratedContent），即由人工智能生成的内容，涵盖了文本、图像、音频、视频等各种形式。通过深度学习、生成对抗网络（GAN）和扩散模型等技术，AIGC能够生成高度逼真、具有艺术性的内容
人工智能（AI）：科技新纪元的领航者 r_martian AI 人工智能科技
摘要人工智能（AI）作为当今科技领域最具变革性的力量之一，正以惊人的速度重塑着我们的世界。本文旨在全面且专业地介绍人工智能，涵盖其定义、发展历程、关键技术、应用领域、面临的挑战以及未来展望等方面，以期为读者呈现一幅清晰、深入的人工智能图景。一、引言在科技飞速发展的今天，人工智能已不再是科幻作品中的遥远概念，而是切实融入到我们日常生活和各个行业的重要技术。从智能手机上的语音助手到自动驾驶汽车、LLM
PLC中位、字、双字的关系技术花境单片机人工智能
在1200PLC（可编程逻辑控制器）中，数据的存储单位有几个基本概念，包括位（bit）、字节（byte）和字（word）。它们之间的关系如下：1.位（bit）定义:位是信息的基本构成单位，是计算机数据存储中最小的信息单位。特点:它只能取两个值，0或1。这使得位能够表示各种状态，如开和关（例如，开关状态、传感器状态等）。在PLC中的应用:位通常用于表示单个输入或输出状态，例如操作开关、传感器的状态，
安科瑞企业微电网能效管理平台推动电网向能源互联网升级 Acrel_LF 用电安全物联网 iot
安科瑞王冲1前言近日，国家电网有限公司董事长辛保安在《中国网信》杂志2022年第2期发表署名文章。国家高度重视发展数字经济，对建设网络强国、数字中国作出一系列重要部署。作为关系国家能源安全和国民经济命脉的国有骨干企业，国家电网始终把数字化作为推进电网转型升级、实现高质量发展的重要抓手，制定实施数字化转型发展战略纲要，编制“十四五”数字化规划，完成新型电力系统数字技术支撑体系框架设计，整体推动电网向
【Golang 面试题】每日 3 题（六十二） Pandaconda 的测开之路 #Golang 面试专栏 golang 开发语言后端笔记面试 go 经验分享
✍个人博客：Pandaconda-CSDN博客专栏地址：http://t.csdnimg.cn/UWz06专栏简介：在这个专栏中，我将会分享Golang面试中常见的面试题给大家~❤️如果有收获的话，欢迎点赞收藏，您的支持就是我创作的最大动力184.三色标记法具体步骤具体来说，三色标记算法分为以下几个步骤：初始时，所有对象都是白色，加入一个“根集合”（rootset），根集合是一组已知可达对象的集合
70道Spring Boot面试八股文（答案、分析和深入提问）整理守护海洋的猫 spring boot 面试后端 java
1.什么是RESTfulWeb服务？如何在SpringBoot中创建一个RESTfulWeb服务？回答什么是RESTfulWeb服务？RESTfulWeb服务是基于REST（RepresentationalStateTransfer）架构风格构建的网络服务。REST的核心思想是利用HTTP协议的标准方法（如GET、POST、PUT、DELETE等）来操作资源。每个资源在服务中都有一个URI（统一资
图解前馈神经网络（FNN） Zucker N 深度学习神经网络人工智能深度学习
目录编辑1.前馈神经网络介绍2.网络结构3.模型工作示例4.总结1.前馈神经网络介绍前馈神经网络（FeedforwardNeuralNetwork，FNN）是一种最简单、最经典的神经网络结构，它是人工神经网络的基础形式之一。前馈神经网络是一种信息只沿一个方向传播的神经网络。它由多个神经元（或称为节点）组成，这些神经元被组织成不同的层，包括输入层、隐藏层和输出层。信息从输入层开始，经过一层或多层隐藏
深入理解 QObject的作用 @hdd Qt qt
QObject作为Qt库中所有对象的基类，其地位无可替代。几乎Qt框架内的每一个类，无论是负责构建用户界面的QWidget，还是专注于数据处理与呈现的QAbstractItemModel，均直接或间接继承自QObject。这种继承体系赋予Qt类库高度的一致性和可扩展性，使得开发者能够基于统一的接口和特性进行开发，极大地提高了开发效率和代码的可读性。从底层实现来看，QObject内部维护了一套元数据
Qt Embedded性能优化详解 HiRuyue QT
QtEmbedded是挪威公司的图形化界面开发工具QT的嵌入式版本，它通过QTAPI与LinuxI/O以及Framebuffer直接交互,拥有较高的运行效率，而且整体采用面向对象编程，拥有良好地体系架构和编程模式.QtEmbedded和Qt一样，在4.5版本之后提供了三种不同的授权协议GPL,LGPL和Commercial。长久以来，虽然使用QtEmbedded在作开发，但对QtEmbedded的
C 语言文件操作 Hello__nibuhao c++c语言
在C语言中，文件操作是通过标准库中的文件输入输出函数来实现的。最常用的文件操作函数包括读取和写入文件的函数。常见的文件操作函数有：1.打开文件：fopen()fopen()函数用于打开一个文件，返回一个文件指针（FILE*），该指针可以用于后续的文件操作。FILE*fopen(constchar*filename,constchar*mode);filename：文件的路径或文件名。mode：打开
新产品来袭~适用于新能源电力的霍尔传感器 Acrelgq23 自动化运维
安科瑞电气顾强霍尔电流传感器：由安科瑞（Acrel）生产，用于电流测量和监控，基于霍尔效应原理，适用于电力系统、工业自动化和能源管理等领域。安科瑞霍尔电流传感器AHBC-400SS11-GJ1特点：高精度测量：基于霍尔效应，测量精度高（±0.5%）。非接触式测量：安全性高，安装方便。宽电流测量范围：0-400A（可定制）。多种输出方式：4-20mA、0-5V或数字信号（如RS485）。抗干扰能力强
绿色低碳转型中的多场景有序充电 ACRELKY 物联网汽车
摘要：公共交通是城市的“动脉”，在城市公交车辆逐渐新能源化的当下，对充电桩资源进行集约化一体化管理，实现充电资源的有效利用；根据电池充放电特性及行车作业计划，制定合理的充电策略是保证城市“动脉”畅通的关键所在。在当今全球气候变化和环境保护的大背景下，推动公交绿色低碳转型已成为城市可持续发展的重要任务。多场景有序充电作为一项创新的技术和管理模式，正为公交绿色低碳转型注入强大动力。关键词：公共交通，一
Python爬虫 +数据采集分析：淘宝商品评论页面数据接口代码逐梦人爬虫技能晋升路线 python 爬虫开发语言
Python爬虫+数据采集分析：淘宝商品评论页面数据接口一、引言在当今数字化商业时代，电商平台的数据蕴含着巨大的价值。淘宝作为全球知名的电商平台，其商品评论数据能反映消费者的真实反馈、偏好和需求，对于商家优化产品、制定营销策略，以及研究人员进行市场分析等都具有重要意义。然而，直接从淘宝商品评论页面采集数据并非易事，淘宝有严格的反爬机制。为了高效、合法地获取这些数据，利用数据接口是一种可行的解决方案
图像处理：模拟色差的生成何以为皇图像处理人工智能
图像处理：模拟色差的实战案例在做瓷砖瑕疵检测的过程中，需要检测色差。但在实际生产环境中，瓷砖色差检测的数据量较少，无法直接获取足够的数据来训练和优化深度学习模型。于是就考虑通过人为生成色差数据的方式来扩充数据集，进行色差的模拟。1.什么是色差？色差（ColorDifference）是指两种颜色之间的视觉差异。在色彩科学中，CIEDE2000是目前最先进的色差计算方法之一。然而，CIEDE1976也
Nginx与API安全：OAuth2与JWT验证的守护神盾墨瑾轩一起学学Nginx【一】nginx 安全网络
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣开篇：API安全的奇幻冒险嗨，勇敢的网络安全骑士们！今天我们要一起踏上一段保卫API安全的奇幻冒险。在这个数字王国中，我们的使命是确保只有合法的勇士才能访问珍贵的数据宝藏。我们将使用强大的Nginx，结合神秘的OAuth2和JWT验证，来铸造我们坚不可摧的守护
041集——选取若干点生成三角网（CAD—C#二次开发入门）山水CAD筑梦人 CAD C#二次开发 c#数据库 java
随机生成2000个三维点并生成三角网，效果如下：随机生成20个点，效果如下：附部分代码如下：publicclassNTS三角网{publicstaticintnumPoints=20;[CommandMethod("xx")]publicvoid在NTSdemo(){//获取当前文档和编辑器Documentdoc=Application.DocumentManager.MdiActiveDocum
随想录Day 64| 图论part01 转行中的小石头图论深度优先算法数据结构 leetcode c++
随想录Day64|图论part01深度搜索广度搜索98所有可达路径题目描述给定一个有n个节点的有向无环图，节点编号从1到n。请编写一个函数，找出并返回所有从节点1到节点n的路径。每条路径应以节点编号的列表形式表示。输入描述第一行包含两个整数N，M，表示图中拥有N个节点，M条边后续M行，每行包含两个整数s和t，表示图中的s节点与t节点中有一条路径输出描述输出所有的可达路径，路径中所有节点之间空格隔开
掌握 ElasticSearch 精准查询：Term Query 与 Filter 详解全端工程师 elasticsearch elasticsearch 大数据搜索引擎
掌握ElasticSearch精准查询：TermQuery与Filter详解一、引言(Introduction)二、准备工作：创建索引和添加示例数据三、TermQuery：精准匹配3.1`term`查询：单个值的精准匹配3.2`terms`查询：多个值的精准匹配3.3`term`vs.`match_phrase`四、Filter：高效过滤4.1什么是Filter？4.2Queryvs.Filter
如何在 Hugging Face 上下载和使用模型—全面指南 Hello.Reader 人工智能 python语言运维人工智能机器学习 ai
1.引言在自然语言处理（NLP）领域，HuggingFace已成为一个不可忽视的平台。无论你是从事学术研究还是在工业中应用NLP技术，HuggingFace都为你提供了丰富的预训练模型和工具库，这些资源大大加速了NLP任务的开发和部署。HuggingFace提供的模型库涵盖了从文本分类到文本生成、从机器翻译到问答系统等各种NLP任务。这些模型大多是由社区贡献并经过大规模数据训练的，使用它们可以帮助
双指针专题4：区间最大和 williamzhou_2013 算法 c++双指针
描述给定n个正整数组成的数列a1,a2，⋅⋅⋅，an和一个整数m。求出这个数列中的一个子区间[i,j]，也就是在这个数列中连续的数字使得这个子区间的和在不超过m的情况下最大。如果有多个区间符合要求，请输出最靠前的那一个区间。输入描述输入共两行。第一行，两个整数n,m;第二行，n个整数a输出描述一行，三个整数，表示符合题意的区间的左端点、右端点和累加和。解释一个样例：mx=-1,l1=-1,r1=-
变形的宽搜育才官网 HN036 涂色游戏 williamzhou_2013 算法宽度优先 c++
描述李老师喜欢玩一种涂色游戏：一个由n × n个单元格组成的白色格子纸，按照事先给定的m次操作，一个接一个地把白色单元格涂黑，总共在纸上涂m个不同的单元格。李老师想知道，在涂黑的过程中，要出现一个边长为3的黑色方块，需要进行多少次操作？输入描述第一行包含两个整数n和m(1 ≤ n ≤ 1000，分别表示方格纸的大小和操作次数）然后，m行包含操作的描述。第i行包含两个整数xi，yi（1 ≤ xi,
股指期货套利例子（金融期货套利的例子） v527209157 区块链
股指期货套利是什么意思，怎么才可以股指期货套利？楼上的朋友都说的太复杂。。。我通俗一点说吧。。股指期货套利有几种套发。1。股指期货跨月套利，比方说，多12月合约，空10月合约，认为股指期货合约之间价差不合理，价差偏大或者是偏小，认为价差日后将会回归理性，做套利。2。股指期货期现套利：方法1：股指期货和基金套利，跟etf或者是指数型基金，或者其他股票型基金套利，认为股指期货价格偏高，而实际基金价格偏
安全面试2 白初& 面试题目总结面试职场和发展
文章目录简单描述一下什么是水平越权，什么是垂直越权，我要发现这两类漏洞，那我代码审计要注意什么地方水平越权：垂直越权：水平越权漏洞的审计重点垂直越权漏洞的审计重点解释一下ssrf漏洞原理攻击场景修复方法横向移动提权win权限提升Linux权限提升include和require区别绕waf的常见姿势log4g有哪些混淆绕过的方法文件上传绕过XSS绕过内存马常见实现方式：内存马的特点内存马的检测简单描
实战：用Spring Boot构建电商系统中的API接口 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介1998年，在经历了无数的创新革命之后，互联网成为科技界最重要的分支之一。随着时间的推移，互联网已经成为人类信息化革命的源头。如今的电子商务网站数量达到数百亿，这些网站都具有大规模的用户群体、丰富的内容、高频的交易、海量数据等特征。电商行业近几年有了很多变革，比如大数据分析、物流管理、供应链管理、订单评价、信用卡支付等等。其中API接口开发对于电商系统而言尤其重
创新思维培养：激发团队创造力的方法 AI天才研究院计算 ChatGPT DeepSeek R1 &大数据AI人工智能大模型 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
引言创新思维的重要性在当今快速变化且竞争激烈的商业环境中，创新思维已经成为企业持续发展和竞争力的关键因素。创新不仅仅体现在产品和服务上，还渗透到了管理、运营和营销等多个方面。创新思维是一种能够帮助个体和团队在既定框架内突破限制、发现问题、提出解决方案的能力。《创新思维培养：激发团队创造力的方法》这本书正是为了帮助读者理解和掌握这一关键能力而编写的。它旨在探讨创新思维的理论基础、实践应用以及培养策略
JWT令牌认证介绍及安全风险墨痕诉清风渗透常识研究 web安全安全
目录1.JWT认证介绍2.为什么使用的JWT认证，而不是Session认证？2.1基于传统的Session认证3.JWT认证流程4.JWT的结构4.1名词解释4.2JWT组成JWT第一部分：标头HeaderJWT第二部分：有效载荷PayloadJWT第三部分：签名Signature5.JWT的使用6.封装Jwt工具类JavaKotlin7.案例：用户登录和退出登录8.关于JWT认证的安全漏洞8.1
面试题--1 轩宝宝hyx 笔记 java 算法数据结构
1.给定一个非负整数的数组（如果元素个数小于2，则返回0），其中第个元素代表了第天的股票价格，你可以无限次地完成交易，这里的一笔交易指买入持有并卖出股票的整个过程，但是你每笔交易都需要付手续费2元。如果你已经购买了一个股票，在卖出它之前你就不能再继续购买股票了，请返回获得利润的最大值。publicstaticintnumber(int[]x){inta=x.length;intnum=0;if(a
什么是 QGraphicsWidget 和 QGraphicsScene ? 七贤岭双花红棍 Qt Charts 小课堂 qt
QGraphicsWidget和QGraphicsScene是Qt框架中用于构建复杂2D图形界面的核心类，属于GraphicsViewFramework的一部分。它们提供了强大的功能来管理、显示和交互复杂的图形元素。1.QGraphicsSceneQGraphicsScene是一个场景类，用于管理多个图形项（QGraphicsItem或其子类）。它充当了一个容器，负责管理所有图形项的布局、事件处理
End-to-End Object Detection with Transformers M1kk0 目标检测计算机视觉神经网络
End-to-EndObjectDetectionwithTransformers会议：2020ECCV论文：https://arxiv.org/abs/2005.12872代码：https://github.com/facebookresearch/detr创新点：\作者摒弃了基于anchor、NMS等这种需要手工设计的模块，和R-CNN系列、YOLO系列，以及其他anchor-free的方法都
error: conversion to non-scalar type requested。请求转换为非标量类型逻各斯 c语言 c++
非标量类型和标量类型是无法相互转换的（貌似）什么是标量，什么是非标量？标量类型就是没法再细分的变量，比如指针变量、int变量等。非标量类型就是可以再细分的变量，比如struct类型、类，这些都有成员变量，是可再细分的
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin