qinggebuyao

Hypertable应用实践：比肩HBase

作者： baiyuzhong分类：云计算, 选题策划, 高端视点阅读：15,525 次添加评论

文 / 杨栋

Hypertable是一个开源、高性能、可伸缩的数据库，采用与Google的BigTable相似的模型。BigTable让用户可以通过一些主键来组织海量数据，并实现高效的查询。Hypertable和HBase分别是BigTable的两个开源实现：HBase主要使用Java语言开发，而Hypertable使用Boost C++，另外在一些细节的设计理念上也有所不同。

Hypertable系统主要包括Hyperspace、Master和Range Server三大组件（如图1所示）。Hyperspace是一个锁服务，地位相当于Google的Chubby，主要用于同步、检测节点是否发生故障和存放顶层位置信息；Master主要用于完成任务分配，未来会有负载均衡以及灾后重建（Range Server失效后自动恢复服务）等其他作用；Range Server是Hypertable的实际工作者，主要负责对一个Range中的数据提供服务，此外它还肩负起灾后重建的责任，即重放本地日志恢复自身故障前状态；另外，还有访问Hypertable的客户端Client等组件。

图1 Hypertable原有架构示意图

业务应用

Facebook在SIGMOD 2011会议上介绍了基于Hadoop/HBase的三种应用系统：Titan（Facebook Messages）、Puma（Facebook Insights）和ODS（Facebook Internal Metrics）。Titan主要用于用户数据存储，Puma用于MapReduce分布式计算，ODS用于存储公司内部监控数据，Facebook基于HBase的应用方式与国内几大互联网公司类似。

和ODS类似，对于一些硬件或软件的运行数据，我们会保存监控数据到数据库中，供软件工程师或者运维工程师查询。这里的查询可能是大批量的，也可能是个别条目；可能是延迟查询，也可能是即时查询。将此类业务的需求总结如下。

要求存储容量非常大，往往达到10～100TB，10亿～100亿条记录。
需要支持自动扩容，因为数据的增长模式不易估计，可能出现短时间的爆炸性增长。
写吞吐的压力较大，每秒超过1万次的插入。
近期导入数据能够快速检索。
需要支持扫描早期的大量数据，例如支持周期性的检查或回滚。

这里可选的一个方案是使用传统的DBMS（如MySQL）。但它存在如下弊端：首先MySQL单机存储有上限，一般超过1.5GB性能就会有波动；不过即使MySQL支持拆表，也并非完全分布式的，由于表的大小限制，对于不规则的数据增长模式，分布式MySQL也并不能很好地应对，如果抖动频率较大，需要引入较多的人工操作来进行数据迁移；再者MySQL也不支持表的Schema动态改变。另一个可选方式是使用Hadoop。不过MapReduce并非实时计算，并且HDFS不支持随机写，随机读性能也很差。

综上分析，我们选择BigTable类型的系统来支持业务需求，即使用Hypertable+Hadoop的方式（如图2所示）。

图2 监控数据收集与查询示意图

高可用改进

元数据集中化

挑战：在Hypertable或其他类似BigTable的系统中，元数据一般采用一种两级的类B+树结构，这主要是出于规模的考虑：采用这种结构理论上可以支持存放并索引2EB的用户数据。若要索引这么多用户数据，所需的元数据就高达16TB，一台机器是存不下的，因此在类BigTable系统中，元数据也是分布在不同节点上进行管理的，集群中任意一个节点既可能包含用户Range也可能包含元数据Range。

虽然这种做法可以解决规模问题，但在管理上带来了一些困难，特别是进行故障恢复时，由于用户表的Range恢复过程中需要读取元数据，所以必须先恢复METADATA表中的Range，再恢复用户表中的Range。如果有多台Range Server同时故障，这种跨节点的依赖性处理起来非常困难，其他一些维护性操作同样具有类似问题。此外，由于一条METADATA实际上覆盖了一个200MB的Range，所以任何一台包含METADATA的Range Server发生故障，都可能导致这部分METADATA所涵盖的一大批数据不可访问。将METADATA分布到多个不同的Range Server上，无异于给系统增加了很多单点，降低了系统可靠性。

解决：本着简单原则，我们认为将元数据与用户数据分离，放在专用的Meta Range Server上更具有可操作性。元数据集中化的唯一缺点是，由于受Meta Range Server内存限制，32GB物理内存所能存放的元数据理论上只能支持上PB的用户数据。但考虑一般机房所能容纳的机器规模，PB级的数据规模完全可以满足大多数公司的需要。

图3 Hypertable高可用改进架构示意图

图3给出了Hypertable元数据集中管理的整体结构。目前的实现将Hypertable中的数据服务器（Range Server）分为两种：Meta Range Server和User Range Server。Meta Range Server只管理Root表和METADATA表的Range，User Range Server只管理用户表的Range。由于Master的负载较轻，因此一般将Meta Range Server与Master放在同一个节点上。

系统启动时，每个Range Server从配置文件得知自己的类型，并在注册时汇报自己的类型。Master记录每台Range Server的信息。当Master需要将Range分配给Range Server时（例如表格创建和Range分裂），会根据Range所在表格的类型来选择合适的Range Server，元数据Range分配到Meta Range Server，用户Range则分配到User Range Server。

数据与日志存储分离

挑战：Hypertable集群中某些Range Server发生故障（Range Server进程故障退出）时，需要重新启动该Range Server并恢复服务，这依赖于Range Server记录的操作日志（CommitLog和SplitLog等）。BigTable系统（Hypertable/HBase）最重要的功能之一是自动恢复，自动恢复依赖操作日志（Commit Log）能够真正写入HDFS（Sync），故障发生后，系统通过重放日志构建故障前的一致性状态。

在我们早期使用Hypertable和Hadoop系统时，Hadoop 0.18版本尚不支持Append Sync功能。即使当前版本的Hadoop支持了Append Sync功能，频繁使用Sync也会影响系统的写吞吐能力。另外，Hadoop的稳定性在当时还不能得到保证，存在写入失败的情况。如果Hadoop出现问题，那么Hypertable刚写入的数据可能丢失。如果是日志，那么重启时无法恢复系统状态。

解决：一般情况下，Hypertable系统的存储基于Hadoop文件系统，数据和日志都写入HDFS。而在改进后的Hypertable系统中我们采用了不同的存储方式：数据写HDFS，日志写Local FS。

较之本地文件系统Ext2等，HDFS的稳定性还是略逊一些，在Hypertable的实际运维过程中，我们也遇到过Hypertable向Hadoop写入数据失败的情况。鉴于日志的重要性，我们选择将日志写入可靠性更高的本地文件系统，这样即使Hadoop写文件时出现问题，也可以通过重放本地日志来恢复Hypertable系统状态。

改进后的Hypertable集群发生故障时，有以下几种处理场景。

写日志故障：Range Server在写日志时（CommitLog等）发生错误，可能是本地磁盘故障。此时日志的完整性不能得到保证，需要在Range Server写日志的相关操作上附加额外的例外处理。日志写例外将触发Range Server执行一次OFFLINE操作，即在日志完整性不能保证的前提下，尽快保证数据的完整性和一致性，之后再人工参与后续的恢复处理。

写数据故障：Range Server故障非日志操作引起的，可能由系统Bug导致，也可能是Hadoop写数据文件失败。此时日志的完整性有保障，可以直接执行SHUTDOWN操作，关闭各个Range Server。待Bug解决或Hadoop恢复后，重启Hypertable重放日志即可恢复集群状态和数据。

以上提到半自动容错机制的两条路线分别保证了“日志- | 数据+”和“日志+ | 数据-”两种故障情况下集群数据的完整性和一致性。那么有没有“日志- | 数据-”的情况，极端情况下可能出现Hadoop写数据文件失败和某Data Node（Range Server）硬盘故障同时发生，此时系统将不可避免地丢失数据，我们只能通过上层应用回滚重放的方式来恢复系统数据。

分裂日志策略

挑战：Hypertable系统涉及的日志为CommitLog和SplitLog等，日志写本地文件系统的策略约束了SplitLog的故障恢复。

Hypertable系统设计SplitLog的初衷在于保证导入数据的速率。Range Server上的Range在分裂时，数据可以无阻塞地写入SplitLog（它必须写到分布式文件系统上，因为它保存的是实际数据），Range分裂完成后SplitLog文件可能被其他的Range Server重放。CommitLog中记录了SplitLog的位置，系统恢复时日志重放会涉及SplitLog日志的重放，如果SplitLog写在本地，那么故障恢复时就无法读取该日志。

HBase系统中并未涉及SplitLog机制，在Range分裂时数据不能继续导入。

解决：解决方案有两种，一种是本着稳定性和可靠性优先于性能的原则，为了保证日志的可靠性和使得自动恢复机制更简单，取消SplitLog机制，修改后的Hypertable系统在Range分裂过程不涉及SplitLog相关操作；另一种是将SplitLog写入更加可靠的共享存储中，能够让Range Server远程访问，这相当于引入了第三方系统。

安全停机策略

挑战：kill/run操作可以完成任意时刻Hypertable系统的关闭和启动，无论当前是否正在导入数据，因为Range Server启动后会重放日志。但由于当时的Hypertable缺乏自动迁移（负载均衡）机制，这组操作并不适用于集群的变更，例如更替或添加节点。

解决：offline/online操作方式的提出是为了辅助kill/run操作，增加Hypertable集群的可扩展性。执行这组操作，可以保证offline执行时内存数据都写入文件系统，online执行时Range能够均匀分布加载，易于集群节点更换。系统管理员通过Hypertable命令行工具执行offline向各个Range Server发出命令，Range Server进程收到offline命令后，等待其上执行的Maintenance任务执行完成，并卸载其上加载的Range后退出。Range卸载成功时，所有系统数据被成功写入分布式文件系统，本地文件系统的日志被删除；卸载失败时，日志保留。系统管理员通过Hypertable命令行工具执行online命令，Master收到online命令后，将METADATA记录的Ranges均匀分配给各个Range Server加载，这就做到了半自动的负载均衡。

性能优化

内存优化

挑战：在Hypertable系统的运维中，我们发现，Hypertable在内存使用效率上存在严重问题。在数据插入过程中，Range Server内存用量一直飙升，而且持久不下，很容易造成内存溢出并最终崩溃，严重威胁Hypertable的稳定性。

为了定位内存占用过量问题，我们使用valgrind和TCMalloc库的Heap Profiling工具对Hypertable进行了测试，发现Hypertable内存飙升的原因是Cell Cache代码中存在频繁分配、释放小片内存（从十几字节到几千字节不等）的情况，从而产生了大量内存碎片，致使内存效率存在严重问题。如图4所示，Range Server中的大量内存分配集中于Cell Cache为<key, value>和Cell Map进行空间分配的时候。

图4 改进前Range Server内存使用情况统计

解决：我们决定对Cell Cache相关的内存实施独立管理，即采用自定义的内存分配回收方式管理<key, value>和Cell Map，使其产生的内存碎片最小化。

图5显示了Hypertable数据服务器上的数据更新过程。Client向Range Server发送数据（<key, value>形式），Range Server首先将数据缓存在Cell Cache中，并使用Cell Map结构建立树形索引。当需要进行Compaction时，会新开一个Cell Cache，并把当前Cell Cache冻结，新写入的数据会进入新开的Cell Cache，而冻结的Cell Cache则在后台写到文件系统中形成Cell Store文件，Compaction完成后，冻结了的Cell Cache会被统一释放。此过程中，Cell Cache涉及的内存分配释放操作主要有：分配空间（new）容纳要写入的key/value；分配空间维护Cell Map（本质上是一个std::map，使用默认的STL allocator分配空间）索引结构；释放数据和索引占用的全部空间。可见，问题主要出在内存分配太过细碎。

图5 Hypertable插入数据时Cell Cache内存分配示意图

我们修改了Cell Cache的分配策略，利用简化的内存池思想，将内存分配策略改为统一分配。每个Cell Cache使用1个内存池（MemPool），每个MemPool初始时包含1个4MB（默认设置）的缓冲区（MemBuf），所有的<key, value>和Cell Map结构占用的空间都在MemBuf内部分配。当MemBuf满了之后，再分配一片新的MemBuf，释放时也是大片释放，这样就防止了频繁的new/delete操作。此外，<key, value>和Cell Map结构占用的内存是分别从MemBuf的两端分配的，这样做的目的是保证Cell Map内存对齐，减少因为内存非对齐访问带来的效率下降。当一个缓冲区用满后，内存池会自动扩充一个新的缓冲区，内存释放只是针对整个内存池。

这种内存池分配方式最终也被合入到Hypertable官方版本之中。

图6给出了Google Heap Profiling工具检测的Cell Cache内存使用情况，对比图4中的数据，改进后版本Range Server的主要内存使用集中于CellCachePool::get_memory，即Cell Cache的内存使用，这和原始版本中主要使用内存的地方是一致的。这说明如果我们的内存管理机制有效，就能大量减小Hypertable的内存占用量。

图6 改进后Range Server内存使用情况统计

图7给出了Range Server的Cell Cache在使用普通new/delete、TC Malloc、Pool Malloc（with Map）以及Pool Malloc（without Map）四种内存分配方式下，插入数据过程及之后的内存占用量对比。图7中的蓝、绿、黄、红四种颜色分别对应上述的四种分配方式。可以看出，普通分配方式的内存占用量最不理想，并且最终不能降低，最终内存占用约6.4GB；TC Malloc方式较前者略好，内存占用增长方式也与之相似，也是最终内存占用很大，约4.4GB；后两种内存池方式在整个过程中的内存占用变化趋势很一致，区别在于对Cell Map使用内存池分配方式的曲线最终能够降到很低（30MB左右），而对Map使用默认（STL库）内存分配方式的曲线下降的幅度并没有那么大，最终的内存占用大约为929MB。

图7 各种分配策略下的Range Server内存使用情况对比

随机访问

挑战：Hypertable支持顺序读和随机读，相比顺序读，随机读的性能并不好。由于随机读（非批量）性能较低，基于Hypertable的某些应用功能也很难实现，因此优化随机性能对支持更多应用以及提升系统整体性能都非常有好处。

如图8所示，使用IOzone对一些常见机型的机器磁盘做随机读测试，可以看到，如果访问落到磁盘，性能会非常差，最好吞吐也是小于2MB/s。

图8 各种机型磁盘随机读写吞吐对比

解决：从磁盘分级、内存模式和Cache支持三个方面进行解决。

（1）磁盘分级向Hypertable系统导入470GB的原始数据，导入后经压缩实际占用360GB×3副本≈1.1TB磁盘空间，大约分裂为2600多个Range，平均每台服务器负责近300个。以下测试进行了3轮，每轮都分别进行单进程和多进程随机查询，每个进程共完成1000次查询。相对于第一轮，第二轮进行了两项优化：对row key进行了反转，例如1234→4321，从而使之分布更均匀；调整每个range的cell store个数上限到5（默认是10），第三轮则把cell store个数进一步缩小到1（通过发命令强制做major compaction）。测试结果如图9所示。

图9 cell store文件数配置不同时导入性能对比

此测试最大的特点是数据量远大于内存总数，因此存在较多随机磁盘访问。以第二轮16进程查询为例，平均每个Range有4.4个Cell Store文件，因此每秒需要进行4.4×216≈950次HDFS文件随机访问。每读一次HDFS中的文件实际至少需要访问两个文件：一个blk文件和一个meta文件，因此每秒至少需要950×2=1900次随机磁盘访问，这还不算dentry cache miss和超时重试。观察发现，实际测试过程中最繁忙的节点每秒的磁盘随机读取次数达500多次，磁盘I/O利用率达到100%。第三轮测试同样有类似的规律。因此我们可以得出结论，数据量较大时，Hypertable的瓶颈在于磁盘随机I/O次数。

我们使用分层的方式来提升磁盘随机访问性能。固化存储分级为SSD/SATA/SAS，随机读性能要求高的应用数据存储到SSD，依次类推。测试发现，使用SSD，随机读性能提升60%以上，不过随机写性能会有部分下降，而且SSD的更新寿命约为1万个操作。

（2）内存模式

对于那些频繁访问的数据，我们可以将其设置为in memory方式，这些数据将一直驻留内存（直接用一个C++ std::map结构存起来的，本质上相当于使用了红黑树索引），因此随机查询时不用从文件里读，效率很高。

如果只用一台Range Server，使用1个进程查询同一行数据（共约600字节数据），速度可达4650次/s，若用16个进程并行查询，每秒总查询次数达到12700次，40进程时达到峰值16000次/s，相当于约10MB/s；如果每次查询50行数据（40进程并行查询），每秒查询次数下降到1300左右，但聚合带宽达到40MB/s。此过程Range Server的CPU sys时间较高（30%~40%），但user和iowait时间都比较低，因此认为瓶颈在网络RPC上。

但in memory这种模式非常耗费内存，原因有以下两点。

由于Hypertable设计时为了支持稀疏表，每个value是单独存的，而不是按行存的，因此每个value都需要存一份key （包括row key、column family、column qualifier和timestamp，最小开销16字节），再加上map数据结构的开销24字节，一个value至少有40字节额外开销，一个帖子就是40×13=520字节，比帖子的实际内容（平均300多字节）还多。
为了支持高并发，Hypertable采用了MVCC（Multi-version Concurrency Control）模式存储<key, value>，也就是说，删改一个value时只是追加了一个补丁，而不是在原值基础上修改，多余的版本只有当Cell Cache大小达到一定程度时才会清理。

（3）Cache支持

当前版本的Hypertable依据当时的负载状况，动态调整分配给每个子系统的内存。对于读密集型的负载，Hypertable分配大部分内存给Block Cache；而HBase则固定分配20%的Java Heap作为Block Cache。此外，Hypertable还提供Query Cache机制，缓存查询结果，使得其随机访问性能超过了HBase，如图10所示。当然，Bloomfilter机制对HBase和Hypertable都支持，能够避免大量的无效访问。

图10 Hypertable vs. HBase随机读吞吐量测试

小结

HBase在Facebook的应用非常成功，后端平台的实时改进提高了其前端的业务水平。而Hypertable尚未在业界大规模使用，但我依然非常看好它，看好其精细的架构和高质量的代码实现。相信未来将会有更多的开发者来使用和改进Hypertable系统。

作者杨栋，百度分布式高级研发工程师，从事Hypertable、Hadoop及流式计算的研究和开发。

本文选自《程序员》杂志2012年02期，更多精彩内容敬请关注02期杂志

Elasticsearch数据存储概念轨迹coding elasticsearch 大数据搜索引擎
Elasticsearch的数据是存储在磁盘中，但它也会利用内存来提高查询和索引的性能。具体来说，Elasticsearch采用了混合存储模型，即数据存储在磁盘上，但为了提高效率，系统会将一些数据和索引结构加载到内存中。这个内存和磁盘的配合使用是Elasticsearch高效处理大规模数据的核心之一。Elasticsearch的数据存储模型1、数据存储在磁盘上：Elasticsearch使用Luc
Elasticsearch 用一张脑图来详细了解底层存储水的精神 Elasticsearch lucene 全文检索
做es搜索，特别是做搜索优化的，一定要去关注底层的存储原理。看看底层的小文件都是一些什么。然后去思考一下，一次检索过程中，这些文件是如何被使用的！高清脑图链接
人脸识别项目实战：从零到一一碗黄焖鸡三碗米饭人工智能前沿与实践 tensorflow 机器学习人工智能 python 深度学习人脸识别
目录人脸识别项目实战：从零到一1.人脸识别技术概述2.人脸识别项目的开发流程2.1准备环境2.2数据采集与预处理2.3特征提取与模型训练2.3.1使用预训练模型进行人脸特征提取2.3.2构建识别系统2.4人脸识别系统的优化2.4.1使用深度学习优化模型2.4.2数据增强2.5部署与应用2.5.1使用Flask部署人脸识别模型2.6系统测试与性能优化3.总结与展望人脸识别作为计算机视觉中的重要应用之
聚簇索引二级索引（辅助索引、非聚簇索引）联合索引 SAFE20242034 #三 MySQL java 数据库开发语言
针对主键构建的索引，我们称之为聚簇索引，而针对非主键构建的索引，我们称之为非聚簇索引（辅助索引或者是二级索引）聚簇索引二级索引（辅助索引、非聚簇索引）联合索引1.聚簇索引（ClusteredIndex）数据即索引，索引即数据，形成了一种你中有我，我中有你的关系。聚簇索引并不需要直接用INDEX语句去创建，一旦创建表添加数据，自动出来聚簇索引定义数据存储顺序与索引顺序一致，即索引的叶子节点直接存储了
构建可持续数据中心的关键因素与趋势 FS_Marking 人工智能网络大数据
在当今的商业环境中，对数据处理中心的重视日益增加，这些中心在为大量信息提供可靠的存储、处理和传输能力方面发挥着至关重要的作用。随着数据中心的重要性不断上升，确保业务连续性变得日益迫切。本文探讨了建立可持续数据中心的关键因素和当前趋势。可持续数据中心的关键考虑因素构建可持续发展的数据中心需要综合考量多个关键因素，以确保其稳健性和高效性。从战略规划与实施，到高效的能源管理及全面的安全保障，每个方面在维
InfiniBand：赋能高性能计算网络的出色引擎 FS_Marking 网络
InfiniBand作为一种先进的内网计算平台，凭借其出色的性能优势成为驱动高性能计算（HPC）以及超大规模云基础设施发展的核心力量。该技术专为满足服务器级连接需求设计，在服务器间的高速通信、存储设备与网络设施之间的高效互联中发挥着关键作用。InfiniBand因其出色性能和可靠表现，不仅被InfiniBand行业协会广泛接纳并积极推广，更是在全球超级计算机500强榜单中占据主导地位，成为理想互连
iOS抓包工具——Stream 金丝猴也是猿 http udp https websocket 网络安全网络协议 tcp/ip
简介在iOS平台上进行网络抓包分析时，Stream和SniffMaster都是非常实用的工具。Stream是一款可以直接独立运行在iOS设备上的网络抓包工具，无需依赖PC环境。而SniffMaster则是一款功能更全面的专业级抓包工具，支持更高级的流量分析和数据包解析功能。这两款工具都面向广大前端开发、客户端开发、后端开发、运维工程师、测试工程师以及具备一定网络分析能力的普通用户。下载安装Stre
单链表的基本操作（包含有头节点和无头结点）又菜又爱玩的小码农算法链表
定义单链表是一种线性的数据结构，由一系列的节点组成，每一个节点包含数据域和指向下一个节点的指针。**节点结构：**数据域：存储节点值（如整数、字符等）。指针域：指向下一个节点的地址，尾节点的指针为NULL；##特性：**1.动态结构：**无需预先分配内存，可动态分配扩展和收缩。**2.单向连接：**每个节点仅指向后继节点，无法直接访问前驱。**3.头指针：**通过头指针（head）访问链表，空链表
Elasticsearch架构原理与底层设计：深入解析分布式架构、索引结构与高并发高可用机制一碗黄焖鸡三碗米饭 elasticsearch 架构分布式搜索引擎大数据 java 后端
Elasticsearch架构原理与底层设计：深入解析分布式架构、索引结构与高并发高可用机制在现代的搜索引擎和数据存储应用中，Elasticsearch是一个广泛使用的分布式搜索引擎，它基于ApacheLucene构建，提供强大的全文检索能力以及高效的分布式存储和检索能力。作为一款开源工具，Elasticsearch不仅仅是搜索引擎，它还可以用于日志存储、实时分析、监控以及各种数据查询需求。本文将
为什么云存储的重要数据需要加密以及解决方案安当加密网络
引言：当数据上云成为必然，安全博弈如何破局？2025年3月，某跨国医疗影像平台因未加密的CT数据遭勒索攻击，导致全球300家医院诊疗中断48小时，直接损失超2亿美元。这一事件再次警示：云存储中的数据加密已从“可选项”升级为“生存线”。根据IBM《2025全球数据风险报告》，未加密的云存储数据被攻击概率是加密数据的17倍，而云服务商与用户的责任边界模糊则加剧了安全治理的复杂性。本文将深度解析云存储加
c语言数据结构-------最小生成树(Prim和Kruskal算法) javaisC c语言数据结构算法
#include#include#include#include//图，邻接矩阵存储#defineMaxVertexNum100//最大顶点数typedefstruct{charvex[MaxVertexNum];//顶点表intedge[MaxVertexNum][MaxVertexNum];//边表intvernum,arcnum;//记录当前图的顶点数量和边数}MGraph;//初始化图MG
Debezium系列之：使用Debezium和Apache Iceberg构建数据湖快乐骑行^_^ debezium Debezium系列使用Debezium Apache Iceberg 构建数据湖
Debezium系列之：使用Debezium和ApacheIceberg构建数据湖DebeziumServerIceberg“DebeziumServerIceberg”消费者设置数据复制Upsert模式保留已删除的记录使用Upsert模式追加模式优化批处理大小在数据分析的世界中，数据湖是存储和管理大量数据以满足数据分析、报告或机器学习需求的流行选择。在这篇博客文章中，我们将描述一种构建数据湖的简
计算机等级三级数据库复习书籍,计算机等级考试三级数据库技术重点复习笔记... fan meng 计算机等级三级数据库复习书籍
在信息化社会，充分有效地管理和利用各类信息资源，是进行科学研究和决策管理的前提条件。下面是小编整理的关于计算机等级考试三级数据库技术重点，希望大家认真阅读!1、计算机的硬件基本上由哪五大部分组成?答：运算器、控制器、存储器、输入设备、输出设备。2、运算器都可对数据进行哪两种运算?答：算术运算和逻辑运算。3、CAD、CAM、CAT、CAI都代表什么?答：1、计算机辅助设计(CAD)2、计算机辅助制造
Linux下安装Zookeeper教程 .猫的树 Linux java-zookeeper zookeeper linux
ZooKeeper简介ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。一、下载ZooKe
Spring Boot项目实战：短信功能分布式限流 modelsetget SpringBoot spring boot 分布式后端
项目背景与需求项目名称：充电桩项目升级：进行微服务架构升级关键功能：短信服务，用于用户登录、注册等短信功能设计考虑短信模板存储：需考虑存储方式发送次数限制：防止恶意攻击，设计60秒内只能发送一次短信成本问题：短信成本累积，需考虑限制发送次数以控制成本分布式限流技术概述目的：防止恶意用户频繁发送短信导致成本上升限流方案：列举了五种不同的限流技术及其适用场景限流方案详解基于令牌桶算法：简单，平滑限流，
Android设计模式之观察者模式木子庆五设计模式观察者模式 android
一、定义：定义对象间一种一对多的依赖关系，使得每当一个对象改变状态，则所有依赖于它的对象都会得到通知并被自动更新。二、核心角色：Subject：抽象主题被观察的角色，管理观察者集合，提供注册/注销方法，定义通知逻辑。ConcreteSubject：具体主题，存储具体状态数据，状态变更时触发通知。Observer：抽象观察者，定义更新接口，使得主题状态发生变化时更新自己。ConcreteOberve
MySQL 8.0.41源码目录深度解析：探索数据库内核的架构蓝图山巅 #Mysql 数据库 mysql 架构
文章目录MySQL8.0.41源码目录深度解析：探索数据库内核的架构蓝图一、MySQL8.0.41目录结构总览1.1安装目录核心子目录1.2数据目录关键组件二、核心源码模块剖析2.1SQL引擎核心（sql/目录）2.1.1核心组件2.1.2架构亮点2.2存储引擎层（storage/目录）2.2.1InnoDB引擎2.2.2MyISAM引擎2.3跨平台抽象层（mysys/目录）2.3.1核心功能三、
eos 连接mysql_EOS智能合约中数据库的使用与常见问题 weixin_39552304 eos 连接mysql
阅读本文前，您需要熟悉eos节点的操作流程，熟悉cleos客户端基础指令，并且对自定义合约的开发有着一定的了解。操作系统：MACOS10.13.x，EOSIO版本号：1.1.3背景在EOS自定义合约开发过程中有持久化存储的需求，则需要创建一个用作持久化存储的数据库。EOS中的数据库是通过multi_index来完成交互与访问。下面通过我们先创建数据表，并进行数据表进行增删改查。1创建数据表创建智能
解剖linux内核之进程 lzuzhp06 linux内核 linux内核 struct 脚本 list 语言 each
HaiPeng(lzuzhp@gmail.com)一台PC机，CPU是核心，对于操作系统，管理CPU的那部分便是OS的核心，这就是进程管理，我就认为“得进程管理者得linux内核”，OS的其他资源（内存、磁盘、网络等）都要提供该该资源的操作函数来供进程来使用。打印内核中的所有进程通过ulk我们知道，linux内核的所有进程是通过双向链表串在一起的，而且每一个进程都有一个进程描述符来代表（其实就是一
Java基础——第二章Java的基本程序设计结构猪头的彩虹糖 Java基础学习 java
目录数据类型变量与常量运算符字符串控制流程大数数组数据类型Java是一种强类型语言。这就意味着必须为每一个变量声明一种类型。在Java中一共有八种基本类型，其中4种整形、两种浮点类型、1种字符类型char（用于表示Unicode编码的代码单元）和1种用于表示真值的boolean类型。整形：用于表示没有小数部分的数值，允许负数。Java提供了4种整形。类型存储需求取值范围int4字节-2417483
从系统架构、API对接核心技术、业务场景设计及实战案例四个维度，深度解析1688代采系统数据小爬虫.网站开发-Brad 1688 系统架构
以下从系统架构、API对接核心技术、业务场景设计及实战案例四个维度，深度解析1688代采系统的技术实现与商业价值：一、系统架构设计与技术选型1.分层架构体系HTTP/HTTPS鉴权数据交互存储消息队列支付/物流用户终端API网关业务层数据层MySQL/RedisRabbitMQ/Kafka第三方服务表现层：支持PC端/移动端H5/小程序多端适配，采用Vue3+ElementPlus构建响应式界面网
高级java每日一道面试题-2025年3月16日-微服务篇[Eureka篇]-Eureka如何获取服务更新信息? java我跟你拼了 java每日一道面试题 java 微服务 eureka
如果有遗漏,评论区告诉我进行补充面试官:Eureka如何获取服务更新信息?我回答:在Java高级面试中讨论Eureka如何获取服务更新信息时，可以从以下几个方面进行详细解答：一、Eureka服务更新的核心机制服务注册当服务提供者（Provider）启动时，它会向EurekaServer发送注册请求，包含服务名称、IP地址、端口号以及元数据等信息。EurekaServer将这些信息存储在其服务注册表
The Rust Programming Language 学习 (七) rust
常见集合使用Vector存储表Vec，也被称为vector。vector允许我们在一个单独的数据结构中储存多于一个的值，它在内存中彼此相邻地排列所有的值。vector只能储存相同类型的值。它们在拥有一系列项的场景下非常实用新建Vector为了创建一个新的空vector，可以调用Vec::new函数letv:Vec=Vec::new();新建一个空的vector来储存i32类型的值注意这里我们增加了
Mysql-DML 小马爱记录 MySql mysql sql 数据库
1.外键外键作用：保持数据一致性，完整性，主要目的是控制存储在外键表中的数据，约束。使两张表形成关联，外键只能引用外表中的列的值或使用空值。创建外键:建表时指定外键约束--创建外键的方式一:创建子表同时创建外键--年级表(id\年级名称)CREATETABLE`grade`(`gradeid`INT(10)NOTNULLAUTO_INCREMENTCOMMENT'年级ID',`gradename`
Python 爬虫实战：于美团民宿抓取房源信息，规划旅行住宿选择西攻城狮北 python 爬虫实战案例美团
目录一、前言二、准备篇2.1确定目标2.2工具与库2.3法律与道德声明三、实战篇3.1分析美团民宿页面3.2模拟登录3.3获取房源列表3.4爬取更多房源数据3.5数据存储3.6数据分析3.6.1数据清洗3.6.2房源分析3.6.3设施分析四、总结与展望五、注意事项一、前言美团民宿作为国内知名的短租民宿平台，提供了丰富的房源信息。了解这些房源信息，对于旅行者规划住宿、民宿经营者优化房源以及相关市场分
Linux nc 命令详解我是唐青枫 Linux linux 运维服务器
简介nc全称netcat，是一个在Linux中多功能的网络工具，通常用于通过TCP或UDP读取和写入网络连接，也能作为客户端或服务端用来debug，测试，网络问题分析。常用示例检查端口是否是打开的nc-zvnc-zvexample.com80#-z：扫描但不发送数据#-v：详细输出模式启动一个简单的TCP服务nc-lnc-l1234#启动一个监听在1234端口的服务，任何数据发送在这个端口上将会显
数据库-MySQL面试题系列 005 code36 数据库
说⼀下InnoDB内存相关的参数优化？BufferPool参数优化缓冲池内存⼤⼩配置⼀个⼤的⽇志缓冲区允许⼤量的事务在提交之前不写⽇志到磁盘。因此，如果你有很多事务的更新，插⼊或删除操作，通过设置这个参数会⼤量的减少磁盘I/O的次数数。建议:在专⽤数据库服务器上，可以将缓冲池⼤⼩设置为服务器物理内存的60%-80%查看缓冲池⼤⼩在线调整InnoDB缓冲池⼤⼩innodb_buffer_pool_s
Linux 磁盘管理阳光向日葵向阳 linux 开发语言
Linux磁盘管理好坏直接关系到整个系统的性能问题。Linux磁盘管理常用三个命令为df、du和fdisk。df（英文全称：diskfree）：列出文件系统的整体磁盘使用量du（英文全称：diskused）：检查磁盘空间使用量fdisk：用于磁盘分区dfdf命令参数功能：检查文件系统的磁盘空间占用情况。可以利用该命令来获取硬盘被占用了多少空间，目前还剩下多少空间等信息。语法：df[-ahikHTm
Python中操作mysql的pymysql模块详解程序员老华 mysql 数据库 java python 开发语言
前言pymsql是Python中操作MySQL的模块，其使用方法和MySQLdb几乎相同。但目前pymysql支持python3.x而后者不支持3.x版本。本文测试python版本：2.7.11。mysql版本：5.6.24一、安装1pip3installpymysql二、使用操作1、执行SQL1234567891011121314151617181920212223242526#!/usr/bi
接口自动化测试，使用Python的pymysql模块连接数据库，实现增删改查操作 luoluoxx0115 自动化测试 python 数据库软件测试
文章目录1、需求场景2、需求实现1、需求场景接口自动化测试中，需要测试A接口，该接口是获取当前图片的相关图片数据，匹配规则是：相关图片至少有4个指定标签组下的标签，需与主图片（当前图片）的标签相同。手工测试的步骤是：1、先到数据库resources_attrs表查询主图片关联的标签属性是哪些：结果12、请求相关图片接口，获取到该接口返回的相关图片ID3、拿相关图片ID，去数据库resources_
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL

Hypertable应用实践：比肩HBase

你可能感兴趣的:(mapreduce,hadoop,测试,hbase,存储,磁盘)