Big-Data

HBase理解

1.简介

HBase– Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

HBase是GoogleBigtable的开源实现，类似Google Bigtable利用GFS作为其文件存储系统，HBase利用HadoopHDFS作为其文件存储系统；Google运行MapReduce来处理Bigtable中的海量数据，HBase同样利用Hadoop MapReduce来处理HBase中的海量数据；Google Bigtable利用 Chubby作为协同服务，HBase利用Zookeeper作为对应。

上图描述了Hadoop EcoSystem中的各层系统，其中HBase位于结构化存储层，Hadoop HDFS为HBase提供了高可靠性的底层存储支持，Hadoop MapReduce为HBase提供了高性能的计算能力，Zookeeper为HBase提供了稳定服务和failover机制。

此外，Pig和Hive还为HBase提供了高层语言支持，使得在HBase上进行数据统计处理变的非常简单。 Sqoop则为HBase提供了方便的RDBMS数据导入功能，使得传统数据库数据向HBase中迁移变的非常方便。

2.HBase使用场景

当我们对于数据结构字段不够确定或杂乱无章很难按一个概念去进行抽取的数据适合用使用什么数据库？答案是什么，如果我们使用的传统数据库，肯定留有多余的字段，10个不行，20个，但是这个严重影响了质量。并且如果面对大数据库，pt级别的数据，这种浪费更是严重的，那么我们该使用是什么数据库？hbase数个不错的选择，那么我们对于hbase还存在下列问题：

1.Column Family代表什么？
2.HBase通过row和column确定一份数据，这份数据的值可能有多个版本，为什么会存在多个版本？
3.查询的时候会显示那个版本？
4.它们的存储类型是什么？
5.tableName是什么类型？
6.RowKey 和 ColumnName是什么类型？
7.Timestamp 是什么类型？
8.value 是什么类型？

引言

团队中使用HBase的项目多了起来，对于业务人员而言，通常并不需要从头搭建、维护一套HBase的集群环境，对于其架构细节也不一定要深刻理解（交由HBase集群维护团队负责），迫切需要的是快速理解基本技术来解决业务问题。最近在XX项目轮岗过程中，尝试着从业务人员视角去看HBase，将一些过程记录下来，期望对快速了解HBase、掌握相关技术来开展工作的业务人员有点帮助。我觉得作为一个初次接触HBase的业务开发测试人员，他需要迫切掌握的至少包含以下几点：
深入理解HTable，掌握如何结合业务设计高性能的HTable

掌握与HBase的交互，反正是离不开数据的增删改查，通过HBase Shell命令及Java Api都是需要的

掌握如何用MapReduce分析HBase里的数据，HBase里的数据总要分析的，用MapReduce是其中一种方式

掌握如何测试HBase MapReduce，总不能光写不管正确性吧，debug是需要的吧，看看如何在本机单测debug吧

本系列将围绕以上几点展开，篇幅较长，如果是HBase初学者建议边读边练，对于HBase比较熟练的，可以选读下，比如关注下HBase的MapReduce及其测试方法。

从一个示例说起

传统的关系型数据库想必大家都不陌生，我们将以一个简单的例子来说明使用RDBMS和HBase各自的解决方式及优缺点。
以博文为例，RDBMS的表设计如下：

为了方便理解，我们以一些数据示例下

上面的例子，我们用HBase可以按以下方式设计

同样为了方便理解，我们以一些数据示例下，同时用红色标出了一些关键概念，后面会解释

HTable一些基本概念

Row key

行主键， HBase不支持条件查询和Order by等查询，读取记录只能按Row key（及其range）或全表扫描，因此Row key需要根据业务来设计以利用其存储排序特性（Table按Row key字典序排序如1,10,100,11,2）提高性能。

Column Family（列族）

在表创建时声明，每个Column Family为一个存储单元。在上例中设计了一个HBase表blog，该表有两个列族：article和author。

Column（列）

HBase的每个列都属于一个列族，以列族名为前缀，如列article:title和article:content属于article列族，author:name和author:nickname属于author列族。
Column不用创建表时定义即可以动态新增，同一Column Family的Columns会群聚在一个存储单元上，并依Column key排序，因此设计时应将具有相同I/O特性的Column设计在一个Column Family上以提高性能。同时这里需要注意的是：这个列是可以增加和删除的，这和我们的传统数据库很大的区别。所以他适合非结构化数据。

Timestamp

HBase通过row和column确定一份数据，这份数据的值可能有多个版本，不同版本的值按照时间倒序排序，即最新的数据排在最前面，查询时默认返回最新版本。如上例中row key=1的author:nickname值有两个版本，分别为1317180070811对应的“一叶渡江”和1317180718830对应的“yedu”（对应到实际业务可以理解为在某时刻修改了nickname为yedu，但旧值仍然存在）。Timestamp默认为系统当前时间（精确到毫秒），也可以在写入数据时指定该值。
Value

每个值通过4个键唯一索引，tableName+RowKey+ColumnKey+Timestamp=>value，例如上例中{tableName=’blog’,RowKey=’1’,ColumnName=’author:nickname’,Timestamp=’ 1317180718830’}索引到的唯一值是“yedu”。

存储类型

TableName 是字符串
RowKey 和 ColumnName 是二进制值（Java 类型 byte[]）
Timestamp 是一个 64 位整数（Java 类型 long）
value 是一个字节数组（Java类型 byte[]）。

存储结构

可以简单的将HTable的存储结构理解为

即HTable按Row key自动排序，每个Row包含任意数量个Columns，Columns之间按Column key自动排序，每个Column包含任意数量个Values。理解该存储结构将有助于查询结果的迭代。

话说什么情况需要HBase

半结构化或非结构化数据
对于数据结构字段不够确定或杂乱无章很难按一个概念去进行抽取的数据适合用HBase。以上面的例子为例，当业务发展需要存储author的email，phone，address信息时RDBMS需要停机维护，而HBase支持动态增加.

记录非常稀疏
RDBMS的行有多少列是固定的，为null的列浪费了存储空间。而如上文提到的，HBase为null的Column不会被存储，这样既节省了空间又提高了读性能。

多版本数据
如上文提到的根据Row key和Column key定位到的Value可以有任意数量的版本值，因此对于需要存储变动历史记录的数据，用HBase就非常方便了。比如上例中的author的Address是会变动的，业务上一般只需要最新的值，但有时可能需要查询到历史值。

超大数据量
当数据量越来越大，RDBMS数据库撑不住了，就出现了读写分离策略，通过一个Master专门负责写操作，多个Slave负责读操作，服务器成本倍增。随着压力增加，Master撑不住了，这时就要分库了，把关联不大的数据分开部署，一些join查询不能用了，需要借助中间层。随着数据量的进一步增加，一个表的记录越来越大，查询就变得很慢，于是又得搞分表，比如按ID取模分成多个表以减少单个表的记录数。经历过这些事的人都知道过程是多么的折腾。采用HBase就简单了，只需要加机器即可，HBase会自动水平切分扩展，跟Hadoop的无缝集成保障了其数据可靠性（HDFS）和海量数据分析的高性能（MapReduce）。

3.HBase的优缺点

HBase的优点：

1 列的可以动态增加，并且列为空就不存储数据,节省存储空间.
2 Hbase自动切分数据，使得数据存储自动具有水平scalability.
3 Hbase可以提供高并发读写操作的支持

Hbase的缺点：
1 不能支持条件查询，只支持按照Row key来查询.
2 暂时不能支持Master server的故障切换,当Master宕机后,整个存储系统就会挂掉.

4.HBase术语及原理

术语

catalog 表
-ROOT- 表用来跟踪 .META. 表。
META 用来保存所有 region 列表。
客户端直接和对应的 regionserver 联系。不通过 master。一个 region 是否应该被重新分配要么由 master 的负载均衡决定要么一个 regionserer 死了，客户端重新查询 catalog 表来看新的 region 在哪个 regionserver 上。
关于 master
用来监视所有的 RegionServer 的行为，同时也是所有 meta 数据改变的接口。
启动行为
在多主环境下，主会竞争。
运行时的影响
如果主挂掉，由于客户端直接和 RegionServer 通信，因此 cluster 可能短期依然是可运行的。catalog 表不一定存在于 master 上。master 应该尽快恢复。
接口
master 暴露的接口包括：表的创建，修改，删除等等；region 的移动，分配；列族的增加修改等等。
master 有几个后台线程：
负载均衡线程，.META. 的清理等等。
regionserver
暴露的方法包括数据的增加，删除，next，get 等；
region 的拆分紧凑等等。
当 HBaseAdmin 的 majorCompact 方法在一个表上被请求时，客户端实际上是直接和每个 region 在通信。
会启动下面几个线程：
compact，split，memstore flush，HLog 检查。
major 和 minor compact 区别是啥？
“minor compaction” 仅仅合并小文件为大文件，major compaction 则合并一个 region 内的所有文件，并进行清理操作。
log 总是刷吗？
是的，也可以不刷。
zookeeper 作用：
保存了 root 在哪里。
Zookeeper为HBase提供了稳定服务和failover机制。
ROOT- 和.META表
HBase中有两张特殊的Table，-ROOT-和.META.
META.：记录了用户表的Region信息，.META.可以有多个regoin
ROOT-：记录了.META.表的Region信息，-ROOT-只有一个region
Zookeeper中记录了-ROOT-表的location
Client访问用户数据之前需要首先访问zookeeper，然后访问-ROOT-表，接着访问.META.表，最后才能找到用户数据的位置去访问，中间需要多次网络操作，不过client端会做cache缓存。
Zookeeper
Zookeeper Quorum中除了存储了-ROOT-表的地址和HMaster的地址，HRegionServer也会把自己以Ephemeral方式注册到Zookeeper中，使得HMaster可以随时感知到各个HRegionServer的健康状态。此外，Zookeeper也避免了HMaster的单点问题

原理简介

前提是大家至少了解HBase的基本需求和组件。

从大家最熟悉的客户端发起请求开始讲起吧，这样大家能够深有体会的逐步了解原理。比如我们发起了一条PUT请求，客户端首先需要查找到需要响应请求的REGIONSERVER。记录region->regionserver映射是由HBASE系统表.META.记录的。所以我们只要知道. META.表的位置就能知道每个region响应的key的范围和region所在机器。但是.META.表又保存在哪些机器上呢？这又是由-ROOT-表记录的 master在分配完-ROOT-表后会将-ROOT-表的位置放到ZOOKEEPER中。所以我们在配置客户端的时候配置的是ZOOKEEPER的位置，而不是MASTER位置。

为什么要分为-ROOT-和.META.呢？这是因为region信息本身很多一个集群中可能会出现成千上万的region 因此.META.表本身也无法在一个region中保存所有用户region的信息，所以本身也会分裂。而.META.表的region数就比较有限了所以-ROOT-是不会分裂的.

综上，客户端首次请求时，先拿-ROOT-然后通过请求范围找对应的.META.，在.META.中找打具体的region server 然后发送请求。-ROOT-和.META.是可以缓存的。

现在，我们解决了客户端应当把PUT发送到哪个rs的问题，接下来就要发送请求了。region server收到请求后会保存PUT数据。这就不得不说HBASE的数据模型了，HBASE使用的列式存储，基本数据结构为LSMT log structure merge tree。简略的思路描述是，将操作记录在树中的节点上然后适时的将节点合并从而使key的删除修改能够最终体现在一个节点上，读取的时候会读取带有key相应操作的节点，返回最终key的值。可以看到lsmt是将随机读写转化为顺序读写的数据结构,读方面更适合扫库那样的顺序读取，不太适合随机读取。

那么一个PUT请求时怎么和LSMT搭上关系的呢？首先region server接到请求时，先将操作(keyvalue 时间戳操作类型)保存为HLog，然后在保存到memstore中，然后即可返回写入成功的请求。其中memstore保存在内存中，写满后flush为hdfs文件。hlog是为了防止rs故障时，memstore数据必然丢失导致的数据丢失，在客户端可以禁用hblog来加快写入速度，但这是用数据不安全换来的。只要每次memstore刷入hdfs后，会判断hdfs刷入的中最早的操作然后由另外的线程根据此记录删除旧的HLog文件。

接下来说说memstore写满时的处理。memstore写满（每个region的列族都有单独的memstore对象但实际上共用一块内存池）时，会将其中的操作分发到对应region的每个列族（store）做处理。然后store将这些操作序列保存为存储文件(storefile)。

从大体上粗略的看 region server这边重要的实体结构是这样：regionserver : region = 1 : n；region : store= 1 ： n；store : storefile = 1 : n。对于每个列族的数据文件,实机上是一个LSMT的叶子节点，每个文件中保存的是最近的对于列族中key的操作。

当一个列族中文件过多的时候，会触发compact，也就是说的文件合并。HBase的compact分为两种 minor和major：minor是小范围内的合并文件，只合并部分。目的在于把小文件积累成大文件。因为没有全量数据，所以对于一个key的删除操作还是需要保留标记，无法物理删除。majorcompact把列族中的所有文件合并为一个，目的在于使key的修改和删除，最终在物理上生效。因为major compact操作的是此列族的全量数据，所以可以做物理删除。但是也由于是全量数据，执行起来耗费时间也会比价长，所以hbase对major compact做了时间间隔限制。

当store的store file集合中总文件长度太大时(超过配置的阈值)，这个region会一分为二，也就是split。由于split是以region为单位的，所以有些列族因为其他列族过大也被连坐般的split。所以从这个流程粗略的看来 put会触发flush，flush会触发compact，compact会触发split。当然这都是在多个线程中执行的，不会明显的阻塞住客户端请求。

store file的大小和memstore大小有关系，一次flush会在一个列族里生成一个store file。所以memstore越大，产生大store file的机会也就越多。put不均匀时，有的列族里会有比较多的长度较小的store file，但是文件多了会触发compact。小文件compact很快，所以不用担心。

store file
------------------------------------------------
|block                      |
|----------------------------------------------|
|block                      |
...
|  meta                   |
|---------------------------------------------|
|block索引，以及一些key范围信息|
|---------------------------------------------|
|布隆过滤                |
-----------------------------------------------

可以粗略的认为一个storefile的结构是这样的，尾部的顺序和细节记不太清楚了。一个block包括多个key value，key在文件内是有序的。一条key value记录如下图：

读数据的时候我会发送一个get请求,在region server内部会转为一个scan。他会到相关列族中去scan storefile。storefile的尾部包含block索引、布隆过滤器、更新时间等所以这可以加快需要scan的文件过滤。所以针对一个store file读是这样的：判断get请求中的row key是否在文件保存的数据范围内；判断get请求中的row key是否能从布龙过滤器中找到(如果过滤器为row-col过滤器还可以判断是否包括需要get的col)；判断get请求中的时间范围是否在文件保存的数据的时间范围中；获取对应的block index；把block加载到block cache中；然后scan block；从多个store file的结果中 get请求中需要包含的version个数，取前几个从而满足get请求中需要包含的version个数。get可以看做特殊的scan操作。

总得blockcache大小是有限的,会有淘汰的.实际上blockcache对于scan来说更合适,因为scan一般是一个范围的扫,block中的row key又是有序的,所以说顺序读会比随机读快。一般hbase比较难适应高并发的随机读，因为blockcache这个设计的本身，就不适合缓存随机的row key：随机读的特点就是读的key均匀散列,这样会使读操作,落在每个block上，导致读的时候每个block先被加载到内存，然后很快因为其他的block持续加载进来而被淘汰出去，然后就这样换来换去，反而更浪费时间。

最后两个比较重要的操作是open和close region。这两个在容灾和均衡中常用。

先说close吧正常close时会先flush memstore 然后通知master close结束。非正常关闭时，就来不及flush了。master会通过zk和region server之间的心跳这两种途径得知regionsever挂掉的情况。

open 一般由master发起。master先找到包含region操作对应的HLog文件，然后挑选出region对应的操作放到region目录中，然后命令某个region server open之。open时先重演HLog中记录的操作，然后再加载region对应的store和store file。

比较重要的原理就是这样的了。原理清楚了的话，再分析起来代码，就能有一个宏观的了解了。

Cinema4D高级建模技巧_2024-07-15_22-41-07.Tex chenjj4003 游戏开发 cinema4d 游戏引擎 android blender 3dsmax
Cinema4D高级建模技巧Cinema4D基础回顾3D空间和坐标轴理解在Cinema4D中，3D空间是由三个相互垂直的坐标轴组成的，这与现实世界中的空间概念相似。坐标轴包括X轴、Y轴和Z轴，它们分别代表了宽度、高度和深度的方向。理解这些坐标轴对于在3D环境中定位和操作对象至关重要。X轴：通常表示左右方向，正方向指向屏幕的右侧。Y轴：表示上下方向，正方向通常向上。Z轴：表示前后方向，正方向通常指向
人工智能与深度学习的应用案例：从技术原理到实践创新 accurater 人工智能深度学习科技
第一章引言人工智能（AI）作为21世纪最具变革性的技术之一，正通过深度学习（DeepLearning）等核心技术推动各行业的智能化进程。从计算机视觉到自然语言处理，从医疗诊断到工业制造，深度学习通过模拟人脑神经网络的层次化学习机制，实现了对复杂数据的高效分析与决策。本文结合前沿技术框架与行业应用案例，探讨深度学习的核心原理及其在多个领域的实践路径，并附代码实例以增强技术理解。第二章深度学习的技术基
【数据库】通俗易懂掌握MySQL存储最小单位及数据存取过程千益数据库数据库 mysql
MySQL是一种广泛使用的关系型数据库管理系统（RDBMS），它的核心功能是存储和管理数据。要深入理解MySQL的工作原理，首先需要了解它的存储最小单位以及数据存取过程。此外，MySQL支持多种存储引擎（如InnoDB、MyISAM等），不同的存储引擎在数据存取过程中会有一些区别。本文将通过丰富的案例和通俗易懂的解释，帮助你掌握这些核心概念。1.MySQL存储的最小单位：页（Page）1.1什么是
深入理解 JavaScript 执行上下文 www.www JavaScript 相关 javascript 开发语言 ecmascript
深入理解JavaScript执行上下文什么是JavaScript执行上下文JavaScript执行上下文的分类全局执行上下文函数执行上下文eval执行上下文JavaScript管理执行上下文的方式：执行上下文栈什么是JavaScript执行上下文概念：JavaScript中，在执行任何代码之前，JavaScript引擎会先创建一个执行上下文（globalexecutioncontext）。它包含有
打卡代码随想录算法训练营第11天： 150. 逆波兰表达式求值 239. 滑动窗口最大值 347.前 K 个高频元素 jingjingjing1111 leetcode
代码随想录文中含LLM回答内容150.逆波兰表达式求值力扣题目链接思路K:先理解逆波兰表达式是啥，是把运算符放在了两个要运算的数字的后边，又叫后缀表达式。遇见数字就入栈，遇见算符就计算栈里前两个数字，算完再存回去classSolution{public:intevalRPN(vector&tokens){stackpoland;for(inti=0;ique;voidpop(intval){if(
向量数据库及其在大模型应用落地中的作用一望无际的大草原高级数据应用读书笔记工作总结数据库向量数据库解决方案
一、几个术语需要弄清楚几个术语，比如向量、Embedding、向量检索、向量数据库，具体如下。1.向量：为AI理解世界的通用数据形式，是多模态数据的压缩，任何模态数据都可以转为向量。文本直接送给计算机是无法认识的，而且是高维数据，需要对其进行向量化处理（即Embedding），处理完成后就形成一个个向量。2.Embedding：将文字文本转化为保留语义关系的向量文本，相当于利用embedding模
地址解析协议（ARP）：深入理解网络的“地址翻译官” leo·li 路由交换技术笔记 ARP 网络通信 IP与MAC 局域网 ARP欺骗网络排错协议原理
地址解析协议（ARP，AddressResolutionProtocol）是网络通信中的“幕后翻译”，负责在局域网中将IP地址转换为MAC地址。作为TCP/IP协议栈的基础组件，ARP在数据帧传输中起着关键作用。本文将从零开始，详细剖析ARP的原理、过程及应用，通过丰富的示例带你彻底掌握这一“地址翻译官”的工作奥秘。一、ARP的基本概念：IP与MAC的“桥梁”在局域网中，设备通信靠的是二层地址（M
简单分享下Python数据可视化小软件大世界信息可视化 python 开发语言
在数据科学的广阔天地里，数据可视化是不可或缺的一环，它让复杂的数据变得易于理解。对于Python初学者而言，掌握Matplotlib和Seaborn这两个强大的库，无疑能让你的分析报告更加生动有趣。本文专为渴望提升数据可视化技能的你设计，通过15个实用技巧，带你从基础走向高级，探索数据背后的精彩故事。1.基础条形图-简单入手Matplotlib示例：import matplotlib.pyplot
SQL Server 中SQL语句执行顺序冷漩 SQL Server学习 sqlserver
SQLServer中SQL语句执行顺序我们需要对SQL语句的执行顺序了若指掌，才能更好的理解SQL。SQL不同于与其他编程语言的最明显特征是处理代码的顺序。在大数编程语言中，代码按编码顺序被处理。但是在SQL语言中，第一个被处理的子句是FROM子句，尽管SELECT语句第一个出现，但是几乎总是最后被处理。每个步骤都会产生一个虚拟表，该虚拟表被用作下一个步骤的输入(需要理解这一概念)。这些虚拟表对调
SQL SELECT语句执行顺序 LJWWD 底层原理研究 sql 数据库 mysql
SELECT语句内部的执行步骤。一条完整的SELECT语句内部的执行顺序是这样的：FROM子句组装数据（包括通过ON进行连接）；WHERE子句进行条件筛选；GROUPBY分组；使用聚集函数进行计算；HAVING筛选分组；计算所有的表达式；SELECT的字段；ORDERBY排序；LIMIT筛选。查询是RDBMS中最频繁的操作。我们在理解SELECT语法的时候，还需要了解SELECT执行时的底层原理。
Java程序设计2 第三章荷包蛋大王iovo java 开发语言笔记
第三章：异常一、异常的理解1.异常：程序运行过程中出现的非正常的情况。2.异常的分类(1)父类：Throwable，位于java.lang包中(2)子类：Error，错误(3)子类：Exception,异常二、异常的分类1.父类：Throwable，位于java.lang包中(1)Throwable类是Java语言中所有错误或异常的超类(父类)(2)常见的构造方法：Throwable()：无参数的
老榕树的Java专题：深入理解线程池程序员_老榕树树哥java专题：从0到1 java jvm
一、引言在现代软件开发中，多线程编程是提升应用程序性能与响应性的关键手段。不过，频繁创建和销毁线程会产生较大开销，线程池技术便由此诞生。它能高效管理线程，提高线程复用性，进而增强系统整体性能。本文将深入探究线程池的概念、原理、优势，以及在Java中的具体应用。二、线程池的概念线程池，简言之，就是容纳多个线程的“池子”。系统启动时，它会预先创建一定数量的线程，并将其存储在一个线程队列中。当有任务需要
【AI】如何理解与应对AI中的敏感话题：详细分析与实用指南丶2136 AI 人工智能 AI 敏感话题
引言随着人工智能（AI）技术的不断发展，我们在与AI交互时，可能会遇到敏感话题的讨论限制。在许多情况下，AI系统为了避免触及社会、政治或文化敏感点，会对用户输入进行一定的筛选和过滤。那么，这些敏感话题是如何定义的，AI如何识别并避免这些话题，以及作为开发者和用户，我们该如何应对这一问题？本文将详细探讨这些问题，并通过表格、图示等方式帮助大家更好地理解。目录引言一、AI中的敏感话题分类与处理策略1.
【实战项目】Python 手撕一个基于最新端到端大模型的语音聊天系统 kakaZhui 解码前沿多模态大模型：认知分析和工业级实战 python 开发语言 AIGC 人工智能 chatgpt
写在前面：为什么需要端到端语音交互近年来，随着深度学习技术的飞速发展，语音交互技术取得了显著的进步。从智能音箱到虚拟助手，语音交互已经渗透到我们生活的方方面面。然而，传统的语音交互系统往往采用“语音识别（ASR）-自然语言理解（NLU）-对话管理（DM）-自然语言生成（NLG）-语音合成（TTS）”的级联式架构，这种架构存在着诸多弊端，如：错误累积：每个模块的错误都会传递到下一个模块，导致最终结果
R语言入门——数据类型和数据结构 Sean1014 r语言数据结构 r语言
变量基本说明R语言计算的过程中，通常需要使用变量来存放中间结果。变量相当于给定一个空间，只能保存一种数据结构，只保存最后一次被赋值的数据。无需事先声明。命名规则变量名应该尽可能简单、意义明确，命名遵循一定规律，以便与他人交流理解。只能使用字母（区分大小写）、数字、下划线“_”和英文句点“.”给变量命名；不能以数字、下划线作为开头；若以句点开头，第二位不能是数字；变量名有效性原因var_name1.
数据分析与取证网络安全技能竞赛 Hacker_xingchen 数据分析 web安全数据挖掘
数据分析与取证网络安全技能竞赛：新手入门指南在网络安全的世界中，数据分析与取证是两个至关重要的领域。对于刚入行的小白来说，理解这两个领域并运用到竞赛中可能有些困难。本文将带你了解如何在“数据分析与取证网络安全技能竞赛”中获得优势。我们将通过一个流程图和逐步的代码实现来帮助你构建一个基础的理解。整体流程以下是进行数据分析与取证的整体流程。我们将分为五个主要步骤，通过表格展示每个步骤的简要说明和所需工
顶点着色器和片段着色器无敌最俊朗@ UnityShader 着色器
在Unity渲染中，**顶点着色器（VertexShader）和片段着色器（FragmentShader）**是图形渲染管线中的两个核心阶段。我们可以通过一个比喻来理解它们的分工：想象你要画一幅由三角形组成的3D模型，顶点着色器负责确定每个三角形的“顶点位置”，而片段着色器负责给每个像素“填色”。1.顶点着色器（VertexShader）——定位形状作用：顶点着色器是渲染管线的第一步，它处理模型的
【Elasticsearch】自定义内置的索引生命周期管理（ILM）策略。 risc123456 Elasticsearch elasticsearch
以下是对Elasticsearch官方教程《Customizebuilt-inILMpolicies》的详细解读，结合原文内容，帮助您更好地理解如何自定义内置的索引生命周期管理（ILM）策略。---Elasticsearch教程：自定义内置ILM策略1.背景与目标Elasticsearch提供了内置的索引生命周期管理（ILM）策略，例如`logs@lifecycle`、`metrics@lifec
Python常见的第三方库：requests、numpy、pandas 大数据张老师 python numpy pandas
常见的第三方库：requests、numpy、pandasPython拥有丰富的第三方库，涵盖了数据分析、网络爬取、人工智能、科学计算等多个领域。其中，requests、numpy和pandas是最常用的三个库，分别用于网络请求、数值计算和数据处理。本节将详细介绍它们的基本功能，并通过示例代码帮助理解它们的使用方法。requests：处理网络请求的库requests是Python中用于处理HTTP
超实用计算机网络面试题，快来学习一下优人ovo 计算机网络学习
引言计算机网络作为程序员的内功，不仅要做到深入理解，面试题也要详细掌握，跟着作者的节奏好好复盘一下吧1.OSI模型和TCP/IP模型的区别是什么？各层的主要功能是什么？考察点：网络分层架构、协议栈理解答案方向：OSI分为7层（物理层→数据链路层→网络层→传输层→会话层→表示层→应用层），TCP/IP简化为4层（网络接口层→网络层→传输层→应用层）。关键区别：OSI是理论模型，TCP/IP是实际工业
领域驱动设计中的核心概念能源革命技术技术 DDD 领域驱动
领域驱动设计（DDD）的核心概念是理解和构建复杂系统的基础。1.领域（Domain）定义：领域是软件所解决的业务问题所在的范围，是业务逻辑和规则的集合。理解：领域是DDD的出发点，它定义了软件需要解决的问题空间。例如，在一个电商系统中，领域可能包括订单管理、用户管理、支付处理、库存管理等。重要性：明确领域可以帮助开发团队聚焦于业务的核心问题，避免被技术细节分散注意力。2.领域模型（DomainMo
【有啥问啥】深入浅出：大模型应用工具 Ollama 技术详解有啥问啥大模型科普人工智能深度学习
深入浅出：大模型应用工具Ollama技术详解引言近年来，大型模型（LargeModels，LLMs）技术突飞猛进，在自然语言处理、计算机视觉、语音识别等领域展现出强大的能力。然而，部署和运行这些庞大的模型往往面临着环境配置复杂、资源需求高昂等挑战。为了解决这些痛点，Ollama应运而生。本文将深入探讨Ollama，一个旨在简化大模型本地运行和管理的开源工具，帮助读者理解其核心概念、优势以及应用场景
社会科学市场博弈和价格预测之时间序列挖掘（Datawhale AI 夏令营）会飞的Anthony 人工智能人工智能
深入理解赛题——探索性数据分析首先，我们先介绍一下什么是EDA：探索性数据分析（ExploratoryDataAnalysis,EDA）是一组数据分析技术，旨在总结其主要特征，通常通过可视化手段来实现。EDA的目标是通过数据的统计摘要和图形展示来发现数据的结构、异常值、模式、趋势、关系以及变量之间的相互作用。为什么进行EDA？在现在的数据挖掘类比赛中，模型和方法选择空间往往很小，同时存在不少自动机
数据在内存中的存储逻辑（打得手累版） Cinema KI 开发语言 c语言
数据在内存中的存储这期博客咱们来讲一讲数据在内存中是如何存储的呢，这期较难，博主在理解的时候也是几近崩溃，今天给大家讲三个内容字节在存放中有大小端之分整数在内存中的存储浮点数在内存中的存储字节在内存中存放有大小端之分咱们先确定一个事实，就是：整数在内存中都是以补码的形式存储的，那么为什么呢？这里引用一下别的文献原因在于，使⽤补码，可以将符号位和数值域统⼀处理；同时，加法和减法也可以统⼀处理**（C
Vue项目结构分析企鹅会游泳 1 vue
Vue项目结构分析1.概览使用CLI构建出来的Vue项目结构是这样的里面我们需要关注的内容如下图，重点需要关注的用小红旗标了，其中我们最常修改的部分就是components文件夹了，几乎所有需要手动编写的代码都在其中。接下来我们分析几个文件，目的是理解各个部分是怎么联系到一起的。2.index.html首页文件的初始代码如下：wj-vue就是一个普普通通的html文件，让它不平凡的是，下面有一行注
链表操作的高阶技巧：K个一组翻转链表的实现与思考 Echo_Wish LeetCode专题链表网络数据结构
链表操作的高阶技巧：K个一组翻转链表的实现与思考在算法领域中，链表操作是一项基础而又充满挑战的技术，特别是在面试中常常出现的“翻转链表”问题。今天，我，Echo_Wish，将带大家深入探讨一种链表操作的高阶技巧——“K个一组翻转链表”。本文不仅会详细讲解这一问题的解决思路，还会通过具体的代码示例，帮助大家更好地理解和掌握这一技巧。问题描述“K个一组翻转链表”问题的描述如下：给定一个链表和一个整数K
深入理解 Java 中的 Lambda 表达式与函数式编程庞胖 java spring boot jdk
引言Java8引入的StreamAPI是处理集合数据的强大工具，结合Lambda表达式，可以极大地简化集合操作。本文将全面介绍StreamAPI的常用操作，涵盖实体类Map互转、生成新List、取内层嵌套的Map组成List、循环、过滤、根据多个属性过滤、分组、去重、根据条件筛选数据等常见场景。通过学习本文，你将掌握StreamAPI的95%常用操作，提升代码的简洁性和效率。1.实体类Map互转场
人工智能之数学基础：对线性代数中逆矩阵的思考？每天五分钟玩转人工智能机器学习深度学习之数学基础线性代数人工智能矩阵机器学习逆矩阵向量
本文重点逆矩阵是线性代数中的一个重要概念，它在线性方程组、矩阵方程、动态系统、密码学、经济学和金融学以及计算机图形学等领域都有广泛的应用。通过了解逆矩阵的定义、性质、计算方法和应用，我们可以更好地理解和应用线性代数知识，解决各种实际问题。关于逆矩阵的思考现在我们有一个计算过程如上所示，我们知道矩阵的作用就是函数，向量a先经过矩阵1进行函数作用，然后再经过矩阵2函数作用最后可以得到输出向量c，这个过
DeepSeek大模型如何提升论文与代码效率智能计算研究中心其他
内容概要DeepSeek大模型作为人工智能领域的前沿成果，通过670亿参数的混合专家架构（Mixture-of-Experts,MoE），在多模态任务处理与专业场景应用中展现了显著优势。其核心技术突破体现在多语言处理能力、视觉语言理解模块以及深度优化的自然语言处理算法上，能够覆盖学术研究、代码开发、内容创作等多元场景。例如，在论文写作领域，模型通过智能选题推荐、文献综述生成及SEO关键词拓展功能，
理解RESTful API和Web服务：关键区别与应用场景
理解RESTfulAPI和Web服务：关键区别与应用场景在现代软件开发的环境中，RESTfulAPI和Web服务都在不同系统之间实现无缝通信方面发挥着重要作用。尽管这两个术语常常被交替使用，但它们代表了不同的概念，具有独特的特点和应用场景。理解RESTfulAPI和Web服务之间的区别对于开发人员在构建高效、可互操作和可扩展的应用程序时至关重要。在本节中，我们将探索每种方法的复杂性，突出它们的独特
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数