Summer_ZJU

一些存储基本概念

存储基础知识

存储基础知识
- 存储技术
- 存储方式
- iSCSI协议
- scale up 和 scale out
- write back和write through
- RAID
- RAID 5 和 RAID 10 对比
- LUN的概念
- 块设备
- buffer_head
- bio
- sync 和 fsync

存储技术

网络存储设备根据存储技术的不同，主要分为三类：DAS（Direct Attached Storage）、NAS（Network Attached Storage）和SAN（Storage Area Network）。
1、直接连接存储DAS是对SCSI总线的进一步发展。它对外利用SCSI总线通道和多个主机连接，解决了SCSI卡只能连接到一个主机上的缺陷。
2、NAS（附网存储系统）系统是用一个装有优化的文件系统和瘦操作系统的专用数据存储服务器，提供跨平台的文件共享功能。
3、SAN（存储区域网）是通过专用高速网将一个或多个网络存储设备（如磁盘阵列RAID）和服务器连接起来的专用存储系统。连接

DAS存储一般应用在中小企业，与计算机采用直连方式，NAS存储则通过以太网添加到计算机上，SAN存储则使用FC接口，提供性能更加的存储。NAS与NAS的主要区别体现在操作系统在什么位置。如下图所示：

NAS和SAN的区别：
1、NAS和SAN最本质的不同就是文件管理系统在哪里。SAN结构中，文件管理系统（FS）还是分别在每一个应用服务器上；而NAS则是每个应用服务器通过网络共享协议（如：NFS、CIFS）使用同一个文件管理系统。
2、SAN提供的存储单位是LUN，属于block级别的。经过NAS创建成文件系统后，就变成文件级别的了。
3、SAN 更好的支持RAID，因为它拥有更多硬盘和更强的控制器。当有一大块数据写到RAID Group上，它可以被分成数小块，同时写到几个磁盘上。
4、SAN有更大的cache，Cache对性能的提高也有明显的作用。
更稳定：多机头，热备盘，多路径等机制杜绝了单点故障。
更安全：统一的容灾，备份和远程复制保证了数据的安全性。

三种技术比较：

比较项	DAS	NAS	FC SAN	IP SAN
传输类型	SCSI、FC	IP	FC	IP
数据类型	块级	文件级	块级	块级
典型应用	大部分场景	文件服务器	数据库应用	视频监控
优点	配置简单部署容易和快捷	部署的物理位置灵活文件共享范围广数据读取效率高易于安装、管理成本低	高扩展性高性能	高扩展性成本低
缺点	扩展性差资源利用率低可管理性差异构化严重维护成本高	性能较低可扩展性受到设备大小的限制不适合block级的ing用	成本高配置复杂	性能较低

存储方式

1、对象存储基于文件系统，通过文件系统来存储访问数据。
2、块存储是以块为基本单元的存储方式，其传输不存在数据打包/解包的过程，可提供更高的传输性能
3、文件存储设备通过以太网与服务器连接。服务器通过NFS、CIFS、HTTP、FTP等协议进行数据访问。数据通过以太网传输，有打包/解包的过程
总结：

比较项	对象存储	块存储	文件存储
存储单位	对象	块	文件
存储系统	块存储设备+文件系统+定位逻辑+应用程序	块存储设备	块存储设备+文件系统
典型应用	NAS	SAN	NAS
优点	支持高并行性支持可伸缩的数据访问管理性好安全性高	高性能的随机I/O和数据吞吐率	扩展性好易于管理价格便宜
缺点	处于发展阶段，相应的硬件/软件支持有待进一步完善	可扩展性和管理性较差价格较高不能满足成千上万CPU规模的系统	开销高带宽低延迟大不利于在高性能集群中应用

以上两幅表格参考这里

iSCSI协议

ISCSI与FC并列为两大标准的块级传输协议。成本昂贵，是部署光纤存储区域网络（FC SAN ）的最大缺点。

iSCSI 协议定义了在TCP/IP网络发送、接收块级存储数据的规则与方法。发送端将SCSI指令与数据本体封装到TCP/IP封包中，然后通过以太网络发送。接收端收到TCP/IP封包后，将它们还原为SCSI指令与数据，并依指令执行。完成指令后，再将响应的SCSI指令与数据封装到TCP/IP封包，发回发送端。通过这种方式，存取远程存储设备时，就如同在本地端存取本机的SCSI硬盘一样。

iSCSI和FC比较：
光纤通道 (FC)与iSCSI各有自己的优缺点。
1、FC作为SAN的基础架构，它专门为满足大容量存储需求和实现业务连续性而设计，利用光信号完成传送的过程，具备非常高的性能。
2、而iSCSI基于许多用户都已经熟悉的IP协议，传送的距离更远，而且企业用户已经广泛应用的百兆或千兆局域网为iSCSI的广泛铺开打好了基础。
3、利用iSCSI，可以把FC的基础设施扩展到更远距离和更多服务器，实现业务连续性和更出色的掉电保护，更加灵活。利用IP技术的低成本优势，可以把SAN扩展到更多服务器。

scale up 和 scale out

什么是scale up 和 scale out？
常见的系统扩展方式有scale up和scale out两种：
Scale Up(纵向扩展) 主要是利用现有的存储系统，通过不断增加存储容量来满足数据增长的需求。　但是这种方式只增加了容量，而带宽和计算能力并没有相应的增加。
Scale-out（横向扩展）架构的升级通常是以节点为单位，每个节点往往将包含容量、处理能力和I / O带宽。一个节点被添加到存储系统，系统中的三种资源将同时升级。

一个比较形象的鱼缸比喻：

当你只有六七条鱼的时候，一个小型鱼缸就够了;可是过一段时间新生了三十多条小鱼，这个小缸显然不够大了。
　　如果用Scale up解决方案，那么你就需要去买一个大缸，把所有沙、水草、布景、加热棒、温度计都从小缸里拿出来，重新布置到大缸。这个工程可不简单哦，不是十分钟八分钟能搞得定的，尤其水草，纠在一起很难分开(不过这跟迁移数据的工程复杂度比起来实在是毛毛雨啦，不值一提)。
　　那么现在换个思路，用Scale out方案，就相当于是你在这个小缸旁边接了一个同样的小缸，两个缸联通。鱼可以自动分散到两个缸，你也就省掉了上面提到的那一系列挪沙、水草、布景等的折腾了。

write back和write through

这里引用smartcache的关于它两的定义：

Write-through Cache Policy: The goal of write-through caching is to accelerate the read operations. All write operations go to
Primary Source (HDDs); write operations may also go to the Cache (SSDs). Thus the write operations may be slower compared to a
configuration without Write-through Cache

Write-back Cache Policy: The goal of write-back caching is to accelerate both read and write operations. Writes may be cached on the Cache (SSDs) and written to the Primary Storage (HDDs) at a later point of time.

翻译：
write-through(透写): 加速读操作，所有的写操作直接写往主存，同时也写在缓存cache中，因此写操作相对较慢。
write-back(回写):同时加速读写操作，写操作先缓存在cache中，稍后才会写到主存中去。

write-back的优缺点：
优点：回写操作先将数据写到cache缓冲之中便立刻返回，不等待磁盘等存储设备IO写指令执行完毕。因为免去了等待操作较慢的IO写操作的执行，这种方式具有较高的效率。
缺点：Cache中会保存上一次写之后的数据（通常叫做脏数据），而且如果写的过程中发生了掉电，则不能确保数据切实被写入到磁盘中。

RAID

RAID（Redundant Array of Inexpensive Disks）称为廉价磁盘冗余阵列。RAID 的基本原理是把多个便宜的小磁盘组合到一起，成为一个磁盘组，使性能达到或超过一个容量巨大、价格昂贵的磁盘。
RAID技术大致分为两种：基于硬件的RAID技术和基于软件的RAID技术。

在 Linux下通过自带的软件就能实现RAID功能，这样便可省去购买昂贵的硬件 RAID 控制器和附件就能极大地增强磁盘的 IO 性能和可靠性。由于是用软件去实现的RAID功能，所以它配置灵活、管理方便。同时使用软件RAID，还可以实现将几个物理磁盘合并成一个更大的虚拟设备，从而达到性能改进和数据冗余的目的。
基于硬件的RAID解决方案比基于软件RAID技术在使用性能和服务性能上稍胜一筹，具体表现在检测和修复多位错误的能力、错误磁盘自动检测和阵列重建等方面。

RAID级别对比：

RAID级别	优缺点
RAID 0	存取速度最快没有容错
RAID 1	完全容错成本高
RAID 2	带海明码校验，数据冗余多，速度慢
RAID 3	写入性能最好没有多任务功能
RAID 4	具备多任务及容错功能 Parity 磁盘驱动器造成性能瓶颈
RAID 5	具备多任务及容错功能写入时有overhead
RAID 0+1/RAID 10	速度快、完全容错成本高

其他还有RAID 6、7、5E、5EE、DP、ADG之类的就不一一介绍了。每种RAID的详细介绍网上一搜一堆，之一。

RAID 5 和 RAID 10 对比

RAID 0、10、5、ADG对比表格：

上表在可用磁盘空间计算，假设以下条件成立：
1）阵列中所有的物理磁盘容量一致；
2）没有使用热备硬盘；
3）RAID 5中不超过14块硬盘；
4）RADI ADG中不超过56块硬盘。

一般raid5会多配一块热备盘，因为raid5本身只允许有1块磁盘损坏，而raid10，每组允许损坏1块，2组就是各1块，4组就是各4块，但是同组内不允许有2块损坏。

读方面：磁盘阵列读操作的关键更多的体现在cache的命中率上。所以，RAID5和RAID10在读数据上面，他们基本是没有差别的。
连续写：在连续写操作过程，如果有写cache存在，并且算法没有问题的话，RAID5比RAID10甚至会更好一些，差别不大，因为这个时候的RAID校验是在cache中完成，如4块盘的RAID5，可以先在内存中计算好校验，同时写入3个数据+1个校验。而RAID10只能同时写入2个数据+2个镜相。如果没有写缓存存在，RAID5写性能不如10。
随机写：假定要把一个数字2变成数字4，那么对于RAID5，实际发生了4次io：

先读出2与校验6，可能发生读命中
然后在cache中计算新的校验
写入新的数字4与新的校验8

对于RAID10，同样的单个操作，最终RAID10只需要2个io，而RAID5需要4个io。这里考虑的是没有缓存的情况。

总结：小io的数据库类型操作，建议采用RAID10，而大型文件存储，数据仓库，则从空间利用的角度，可以采用RAID5。

LUN的概念

lun的全称是logical unit number，也就是逻辑单元号。
scsi总线上可挂接的设备数量是有限的，一般为6个或者15个，我们可以用target ID(也有称为scsi id的)来描述这些设备，设备只要一加入系统，就有一个代号，我们在区别设备的时候,只要说几号几号就ok了。
实际上我们需要用来描述的对象，是远远超过该数字的，于是我们引进了lun的概念，也就是说lun id的作用就是扩充了target id。每个target下都可以有多个lun device，我们通常简称lun device为lun，这样就可以说每个设备的描述就有原来的target x变成target x lun y了,那么显而易见的,我们描述设备的能力增强了
lun id不等于某个设备,只是个号码而已,不代表任何实体属性,在我们的实际环境里,我们碰到的lun可能是磁盘空间,可能是磁带机,或者是media changer等等.

继续学习和整理的资料参考：
http://support.huawei.com/ecommunity/bbs/10174443.html

块设备

系统能够随机访问固定大小数据片（chuncks）的硬件设备称作块设备。这些固定大小的数据片称作块。它们都是以安装文件系统的方式使用的，这也是块设备一般的访问方式。
块设备中最小的可寻址单元是扇区。扇区大小一般为2的整数倍，最常见的是512字节。扇区是所有块设备的基本单元。
软件都会用到自己的最小逻辑可寻址单元“块”。块是文件系统的一种抽象，只能基于块来访问文件系统。
虽然物理磁盘寻址是按照扇区级进行的，但是内核执行的所有磁盘操作都是按照块进行的。块数是扇区大小的2的整数倍，并且小于页面大小。所以通常块大小是512字节，1KB, 4KB。

扇区：设备的最小寻址单元，亦称”硬扇区”或”设备块”
块：文件系统的最小寻址单元，亦称”文件块”或”I/O块”

buffer_head

当一个块被调入内存时，它要存储在一个缓冲区中，每个缓冲区与一个块对应，它相当于是磁盘块在内存中的表示。
内核在处理数据时需要一些相关的控制信息，每一个缓冲区都有一个对应的描述符，用buffer_head结构体表示，称作缓冲区头。在文件中定义。
缓冲区头的目的在于描述磁盘块和物理内存缓冲区之间的映射关系。这个结构体在内核中只扮演一个描述符的角色，说明从缓冲区到块的映射关系。也说明其所描述块的状态(脏，干净，过期等)。它并不与底层的块驱动程序打交道。

弊端：
一、缓冲区头是一个很大且不易控制的数据结构体，对数据的操作不方便也不清晰。
二、仅能描述单个缓冲区。

bio

目前内核中块I/O操作的基本容器由bio结构体表示，定义在中。该结构代表了正在现场(活动)的以片段(segment)链表形式组织的块I/O操作。一个片段是一小块连续的内存缓冲区。通过片段来描述缓冲区，即使一个缓冲区分散在内存的多个位置上，bio结构体也能对内核保障I/O操作的执行。像这样的向量I/O就是所谓的聚散I/O。

bio结构体中最重要的几个域是bi_io_vec、bi_vec、和bi_index，如下图所示：

每一个块I/O请求都是通过一个bio结构体表示。每个请求包含一个或多个块，这些块储存在bio_vec结构体数组中。

buffer_head是用来管理buffer，而bio是用来传输buffer的。bio为通用层的主要数据结构，既描述了磁盘的位置，又描述了内存的位置，是上层内核vfs与下层驱动的连接纽带。

sync 和 fsync

sync只是将所有修改过的块的缓存排入写队列，然后就返回，它并不等待实际I/O操作结束。相当于是异步的。
fsync只引用单个文件，它等待I/O结束，然后返回。相当于同步操作。
当将数据写到文件上时，通常该数据先由内核复制到缓存中，如果该缓存尚未写满，则并不将其排入输出队列，而是等待其写满或者当内核需要重用该缓存以便存放其他磁盘块数据时，再将该缓存排入输出队列，然后待其到达队首时，才进行实际的I/O操作。这种输出方式被称之为延迟写（delayed write）。

存储系统怎么选？分布式存储vs.集中式存储的区别在哪？东方念分布式
在当今的数字化时代，安防监控已成为维护社会秩序和公共安全的重要手段。随着监控设备的普及和监控数据的不断增加，如何高效、安全地存储和管理这些视频数据，成为了安防行业面临的重要挑战。EasyCVR视频存储系统凭借其卓越的性能和灵活的架构，为安防行业提供了一个理想的解决方案。一、EasyCVR视频监控存核心优势EasyCVR视频汇聚平台是一个具备高度集成化、智能化的视频监控汇聚管理平台，拥有远程视频监控
Q&A：备份产品的存储架构采用集中式和分布式的优劣？云祺vinchin 技术分享架构分布式网络运维大数据
分布式和集中式各有优劣，且这两者下面的存储类型也都不尽相同，从备份与恢复的数据层面来看，这两者存储相结合才是优解。众所周知，备份数据只存一份还只放在一个存储里是不现实的。假设把备份数据访问频率、生命周期等参数分为三个等级（热、温、冷）。很显然，以分布式存储的优点用来存放热备份数据是非常合适的，能满足大规模数据在备份与恢复时的高吞吐需求，同时也能提供并行计算的能力，提供高效的目标端数据压缩和数据重删
哈希表的前沿演进：从经典实现到未来潜力大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
摘要：哈希表（HashTable）作为一种基本且高效的数据结构，已广泛应用于计算机科学的各个领域。从数据库的索引、缓存系统到密码学、分布式系统中，哈希表都发挥着至关重要的作用。随着计算需求的不断增长，哈希表的性能优化及其新型变种已成为当前研究的热点。本文将探讨哈希表的经典实现方式及其优化技术，并展望未来在量子计算、分布式存储等领域的潜在应用。1.引言：哈希表作为一种具有常数时间复杂度（O(1)）的
Ceph数据恢复方案–分布式文件系统删除数据的恢复 San结构数据恢复数据恢复相关 ceph
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、Ceph的三种存储结构二、Ceph中删除数据的恢复提取1.本次案例情况简介：2.数据分析：2.1：BlueStore架构2.2分布式存储中元数据概述2.3提取元数据2.3.2：获取meta_data2.3.4.元数据整理2.3.5.计算数据地址3.数据恢复提取总结前言什么是分布式文件系统分布式文件系统（Distribu
【服务器数据恢复】数据中心存储服务器VMware vSAN分布式存储架构数据恢复解析海境超备服务器分布式架构网络安全系统安全运维
随着企业数据中心的数据量的不断增加，数据存储和恢复成为了企业必须面对的重要问题。vSAN（VirtualStorageAreaNetwork）分布式存储架构是一种新型的存储技术，它可以有效地解决企业数据存储和管理方面的问题。本文将详细介绍vSAN分布式存储架构的原理和特点，并解析其数据恢复的原理和方法。分布式文件系统（DistributedFileSystem，DFS）是一种能够在多台计算机之间共
C#抖音无水印视频地址解析 longsky .net c#视频处理
实现最简单的半手工方式获取抖音无水印视频地址。纯C#代码，无任何第三方控件，一看就会，很简单。主要代码来自于https://blog.csdn.net/qq_15555767博主。他的这篇博文写的很清楚明白。https://blog.csdn.net/qq_15555767/article/details/108997122?utm_medium=distribute.pc_relevant_do
云原生分布式存储：数据洪流中的时空折叠艺术桂月二二云原生分布式
引言：数据维度战争的新防线蚂蚁集团存储集群达500EB规模，Netflix每日处理3PB视频数据。AWSS3支持每秒1.5亿次请求，字节跳动对象存储延迟低至12ms。IDC预测2026年全球存储开销达亿，沃尔玛每秒处理万笔交易日志，沙特阿美地震勘探数据集超。微软冷存单价降至0.00099/GB·月，中国天眼FAST每秒生成160GB射电数据，Twitter使用Ambry实现250万IOPS。Gar
Starrocks 命令 Alter table DISTRIBUTED 重分布数据的实现鸿乃江边鸟大数据 StarRocks starrocks 大数据
背景在前文Starrocks写入报错primarykeymemoryusageexceedsthelimit中，可以通过ALTERTABLExxxxDISTRIBUTEDBYHASH(xx)BUCKETS50;来改变数据的分布状态,具体的执行过程是怎么样的呢？分析首先对应的g4文件中为alterTableStatement，这里最终的调用是AlterJobExecutor.visitAlterTa
鸿蒙API14开发【@ohos.account.distributedAccount (分布式账号管理)】短距通信服务移动开发技术栈鸿蒙开发 harmonyos 分布式华为鸿蒙系统鸿蒙通信
本模块提供管理分布式账号的一些基础功能，主要包括查询和更新账号登录状态。说明本模块首批接口从APIversion7开始支持。后续版本的新增接口，采用上角标单独标记接口的起始版本。导入模块import{distributedAccount}from'@kit.BasicServicesKit';distributedAccount.getDistributedAccountAbilitygetDis
draw.io插入 Mermaid格式画图
现在很多ai工具生成的流程图都如下sequenceDiagramparticipantSSPparticipantADXSSP->>ADX:广告播放完成ADX->>ADX:更新flow_distribute.status=1ADX->>SLS:记录adPlayed事件NoterightofADX:定时任务同步状态与日志如果想自己编辑这种格式，draw.io就支持，操作如下，我的是网页版参考链接：h
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路 Echo_Wish 大数据大数据 hadoop spark
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路说起大数据技术，Hadoop和Spark可以说是这个领域的两座里程碑。Hadoop曾是大数据的开山之作，而Spark则带领我们迈入了一个高效、灵活的大数据处理新时代。那么，它们的演变过程到底有何深意？背后技术上的取舍和选择，又意味着什么？一、Hadoop：分布式存储与计算的奠基者Hadoop诞生于互联网流量爆发式增长的时代，
【机器学习】基于t-SNE数据可视化工程无水先生 AI原理和python实现人工智能综合人工智能算法
一、说明t-SNE(t-DistributedStochasticNeighborEmbedding)是一种常用的非线性降维技术。它可以将高维数据映射到一个低维空间（通常是2D或3D）来便于可视化。Scikit-learnAPI提供TSNE类，以使用T-SNE方法可视化数据。在本教程中，我们将简要学习如何在Python中使用TSNE拟合和可视化数据。二、t-SNE是个什么？2.1什么是t-SNE？
AUTOSAR从入门到精通-汽车电子电气架构（EEA）格图素书汽车
目录前言算法原理EEA发展历程->分布式架构（distributed）：->基于域的集中式架构(DCUbasedcentralized)：->基于域融合的带状架构(DCUfusionbasedzonal)：什么是电子电气架构？EEA的特点EEA发展的三大阶段特征第一阶段：分布式架构第二阶段：基于域的集中式架构（转型中）第三阶段：基于域融合的带状架构（未来趋势）车载电子电气架构作用EEA开发工作内容
英伟达系列显卡大解析B100、H200、L40S、A100 2301_78234743 java
家里有了变故。。。快手数分秋招一面面经我发现算法岗也不很难进啊(深度学习)算法想转数开…Java零基础校招学习路线突击版（吐血整理）等的花都谢了的华子最后给开了22k，武汉，应该是14a。不过在这几个月里我坚定了搞几年快钱回家和np朋友因骂了hr，boos被封了哈哈哈在央企想被开除需要做什么？2024小米分布式存储研发急招华为2012被毁意向我发现算法岗也不很难进啊(深度学习)在央企想被开除需要做
【大模型LLM面试合集】分布式训练_总结 X.AI666 大模型LLM面试合集面试分布式人工智能语言模型
9.总结1.数据并行数据并行，由于其原理相对比较简单，是目前使用最广泛的分布式并行技术。数据并行不仅仅指对训练的数据并行操作，还可以对网络模型梯度、权重参数、优化器状态等数据进行并行。我们首先以PyTorch数据并行的发展（DataParallel、DistributedDataParallel、FullyShardedDataParallel）为主线进行讲述了数据并行的技术原理。同时，也简述了D
浅显易懂——连接池、分布式系统、微服务等概念十五春会分布式微服务
文章目录连接池比喻技术层面关键参数实际应用示例分布式系统概念实现方式实际应用场景关键概念分布式会话管理分布式计数器分布式锁分布式事务（DistributedTransaction）分布式追踪集群环境比喻优缺微服务架构比喻优缺实际场景服务间通信负载均衡服务发现连接池比喻想象你是一家餐厅的顾客，你想点餐。每次点餐时，服务员需要去厨房取一个厨师来为你准备食物。如果每次点餐都重新找一个新厨师，不仅浪费时间
Hive高级SQL技巧及实际应用场景小技工丨大数据随笔 sql hive 数据仓库大数据
Hive高级SQL技巧及实际应用场景引言ApacheHive是一个建立在Hadoop之上的数据仓库基础设施，它提供了一个用于查询和管理分布式存储中的大型数据集的机制。通过使用类似于SQL（称为HiveQL）的语言，Hive使得数据分析变得更加简单和高效。本文将详细探讨一些Hive高级SQL技巧，并结合实际的应用场景进行说明。HiveSQL的高级使用技巧1.窗口函数描述：窗口函数允许我们在不使用GR
ClickHouse 学习笔记金州饿霸 Big Data 分布式数据库 clickhouse 学习笔记
1.连接到ClickHouse服务器clickhouse-client--host=10.16.226.100--user=default--password2.在ClickHouse中，如果你想要单独删除一行记录，且使用的是Distributed表引擎（或者其他不支持ALTERTABLEDELETE的引擎），你将无法直接通过删除操作来实现这一目标。ClickHouse是为大规模数据分析设计的，它
分布式存储—— HBase数据模型详解 Future_yzx 分布式 hbase 数据库
目录1.3HBase数据模型1.3.1两类数据模型1.3.2数据模型的重要概念1.3.3数据模型的操作1.3.4数据模型的特殊属性1.3.5CAP原理与最终一致性1.3.6小结本文章参考、总结于学校教材课本《HBase开发与应用》1.3HBase数据模型在开始学习HBase之前非常有必要先学习HBase的特性，因此本节将介绍HBase的逻辑模型、物理模型和访问HBase的方法等。和传统的关系型数据
分布式存储学习——HBase表结构设计 Future_yzx oracle 数据库
目录1.4.1模式创建1.4.2Rowkey设计1.4.3列族定义1.4.3.1可配置的数据块大小1.4.3.2数据块缓存1.4.3.3布隆过滤器1.4.3.4数据压缩1.4.3.5单元时间版本1.4.3.6生存时间1.4.4模式设计实例1.4.4.1实例1：动物分类1.4.4.2实例2：店铺与商品1.4.4.3实例3：网上商城用户消费记录1.4.4.4实例4：微博用户与粉丝1.4.4.5小结本文
Java中的分布式锁：原理、实现与最佳实践 Lill_bin java java 分布式开发语言算法数据结构排序算法 maven
引言在分布式系统中，多个服务实例或进程需要协调对共享资源的访问。例如，电商系统中库存扣减、金融交易中的余额操作等场景，都需要保证同一时刻只有一个客户端能执行关键操作。**分布式锁（DistributedLock）**正是解决这一问题的核心技术。本文将深入探讨分布式锁的实现原理、常见方案及其在Java生态中的实践应用，涵盖5000字详细解析。一、为什么需要分布式锁？传统单机锁的局限性在单机环境下，J
qt----实现模拟键盘爱吃巧克力的程序媛上位机 qt
https://blog.csdn.net/ken2232/article/details/129803417https://blog.csdn.net/judgejames/article/details/93191524?spm=1001.2101.3001.6661.1&utm_medium=distribute.pc_relevant_t0.none-task-blog-2%7Edefau
PyTorch分布式训练阳光明媚大男孩 pytorch 分布式人工智能
本文结构：分布式训练概述环境设置数据并行（DDP）模型并行启动训练性能优化建议示例代码参考资料和相关问题以下是为您整理的PyTorch分布式训练教程指南：一、PyTorch分布式训练核心概念数据并行：通过分割数据集实现多GPU并行训练，主流方法包括：DistributedDataParallel(DDP)：官方推荐的分布式训练接口DataParallel(DP)：单机多卡方案（已逐步被DDP取代）
Hive-4.0.1版本部署文档 CXH728 hive hadoop 数据仓库
1.前置要求操作系统：建议使用CentOS7或Ubuntu20.04（本试验使用的是CentOSLinuxrelease7.9.2009(Core)）Java环境：建议安装Java8或更高版本。Hadoop：Hive需要依赖Hadoop进行分布式存储，建议安装Hadoop3.x版本（本实验采用的是hadoop3.3.6）。数据库：HiveMetastore需要数据库支持，建议使用MySQL、Pos
K8S单机部署 qq_48704877 kubernetes 容器云原生
主线:部署简单的单节点k8s-sowler-博客园学习网址：为什么我不能获取到镜像，ImagePullBackoff|Kuboarddocker镜像源：https://chuxia.blog.csdn.net/article/details/145090710?spm=1001.2101.3001.6650.3&utm_medium=distribute.pc_relevant.none-task
Hadoop、Spark和 Hive 的详细关系夜行容忍 hadoop spark hive
Hadoop、Spark和Hive的详细关系1.ApacheHadoopHadoop是一个开源框架，用于分布式存储和处理大规模数据集。核心组件：HDFS(HadoopDistributedFileSystem)：分布式文件系统，提供高吞吐量的数据访问。YARN(YetAnotherResourceNegotiator)：集群资源管理和作业调度系统。MapReduce：基于YARN的并行处理框架，用
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系雨中徜徉的思绪漫溢大数据 hadoop hive
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系在大数据领域中，Hadoop、Hive和Spark是三个常用的开源技术，它们在大数据处理和分析方面发挥着重要作用。虽然它们都是为了处理大规模数据集而设计的，但它们在功能和使用方式上存在一些区别。本文将详细介绍Hadoop、Hive和Spark的区别和关系，并提供相应的源代码示例。Hadoop：Hadoop是一个用于分布式存储和处理大规
内容中台的核心架构是什么？清风徐徐de来其他
模块化架构设计解析内容中台的模块化架构通过分层解耦实现灵活扩展，其核心由基础资源层、能力服务层与业务应用层构成。基础层以统一数据治理体系为支撑，通过标准化接口实现结构化与非结构化数据的统一存储，例如Baklib采用分布式存储架构保障数据安全性与访问效率。服务层整合智能分发引擎与API协同策略，支持动态编排内容处理流程，如自动标签生成与多版本管理。应用层通过可配置化组件对接多终端场景，确保知识库构建
鸿蒙（HarmonyOS NEXT）开发实战：Distributed Service Kit（分布式管理服务开发）我很英俊小名男男 OpenHarmony HarmonyOS 鸿蒙开发 harmonyos 华为前端开发语言鸿蒙移动开发分布式
鸿蒙开发往期必看：HarmonyOSNEXT应用开发性能实践总结一分钟了解”纯血版！鸿蒙HarmonyOSNext应用开发！“非常详细的”鸿蒙HarmonyOSNext应用开发学习路线！（从零基础入门到精通）“一杯冰美式的时间”了解鸿蒙HarmonyOSNext应用开发路径！DistributedServiceKit（分布式管理服务）实现了分布式设备管理、分布式硬件管
【技术干货】三大常见网络攻击类型详解：DDoS/XSS/中间人攻击，原理、危害及防御方案挣扎与觉醒中的技术人网络安全入门及实战 ddos xss 前端网络
1.DDoS攻击1.1什么是DDoS攻击？DDoS（DistributedDenialofService，分布式拒绝服务攻击）通过操控大量“僵尸设备”（Botnet）向目标服务器发送海量请求，耗尽服务器资源（带宽、CPU、内存），导致正常用户无法访问服务。1.2攻击原理与分类流量型攻击：如UDP洪水、ICMP洪水，通过发送大量无效数据包占用带宽。协议型攻击：如SYN洪水攻击，利用TCP三次握手漏洞
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要