SmartX超融合

2018 存储技术热点与趋势总结

文章来源：SmartX知乎专栏 https://zhuanlan.zhihu.com/p/34455548

作者介绍

@张凯(Kyle Zhang)，SmartX 联合创始人 & CTO。SmartX 拥有国内最顶尖的分布式存储和超融合架构研发团队，是国内超融合领域的技术领导者。

过去半年阅读了 30 多篇论文，坚持每 1~2 周写一篇 Newsletter，大部分都和存储相关。今天在这里进行一个总结，供大家作为了解存储技术热点和趋势的参考。本文包含了全新的技术领域，如 Open-Channel SSD，Machine Learning for Systems；也包含老话题的新进展，如 NVM，LSM-Tree，Crash Consistency；以及工业界的进展。

Open-Channel SSD

Open-Channel SSD 在国内关注的人比较少。和传统 SSD 相比，Open-Channel SSD 仅提供一个最简化的 SSD，只包含 NAND 芯片和控制器，并不包含 Flash Translation Layer（FTL）。原有 FTL 中的功能，例如 Logical Address Mapping，Wear Leveling，Garbage Collection 等，需要由上层实现，可能是操作系统，也可能是某个应用程序。也就是说，Open-Channel SSD 提供了一个裸 SSD，用户可以根据自己的需要设计和实现自己的 FTL，以达到最佳效果。

我们通过一个具体场景来描述 Open-Channel SSD 的价值。RocksDB 作为一个单机存储引擎，被广泛应用在很多分布式存储的场景中。RocksDB 的数据存储采用 LSM-Tree + WAL 的方式，其中，LSM-Tree 用于存储数据和索引，WAL 用于保证数据写入的完整性（Data Integrity）。由于目前在 RocksDB 的实现中，LSM-Tree 中的 SSTable 和 WAL 都是文件系统上的一个文件，所以数据写入 WAL 的过程中，也会触发文件系统的数据保护机制，例如 Journaling。而文件系统在将数据写入 Journal 时，也会触发 SSD FTL 层的数据保护机制。所以，一次 RocksDB 的写请求会经过三个 IO 子系统：RocksDB，File System，FTL。每一层子系统为了保证数据完整性，都会产生写放大（Write Amplification），使得一次写入被放大几十甚至上百倍。这个现象可以被形象的描述为『Log-On-Log』的现象。

而实际上，对于 RocksDB 的 WAL，以及文件系统的 Journal，实际上都是临时性的写入，并不需要底层系统额外的数据保护机制。Open-Channel SSD 的出现提供了打破这个现象的机会，如果在 RocksDB 可以绕过文件系统层以及 FTL，则可以将三层 Log 合并为一层，避免写入放大，最大化发挥 SSD 的性能。

除了避免写放大之外，在 LSM-Tree 数据结中，由于 SSTable 是只读不可修改的，而 SSD 的 Block 也是只读的（如果要写入必须先擦写），那么 RocksDB 可以利用 SSD 的这个特点，让 SSTable 与 Block 对齐，将 LSM-Tree 中的删除 SSTable 操作与 SSD 的 Block 回收操作合并，避免 SSD Block 回收时产生的数据拷贝操作，避免 GC 对性能产生影响。在『An Efficient Design and Implementation of LSM-Tree based Key-Value Store on Open-Channel SSD』中，就实现了将 LevelDB 直接运行在 Open-Channel SSD 上。

除了避免写放大，Open-Channel SSD 还提供了实现 IO Isolation 的可能性。由于 SSD 的物理特性，SSD 的性能和数据的物理布局紧密相关。SSD 的性能来自于每一个 NAND 芯片的性能的总和。每一个 NAND 芯片提供的 IO 性能很低，但由于 NAND 芯片之间可以进行并行化，这使得 SSD 的整体性能非常高。换句话说，数据的布局决定了 IO 性能。然而由于传统的 SSD 上运行了 FTL，FTL 不仅会对数据的布局进行重映射，同时在后台还会运行 GC 任务，这使得 SSD 的性能是无法预测的，也无法进行隔离。Open-Channel SSD 将底层信息暴露给上层应用，通过将数据放置在不同的 NAND 芯片上，可以在物理层面达到数据分布隔离，同时也就打到了性能的隔离的效果。

为了方便的管理和操作 Open-Channel SSD，LightNVM 应运而生。LightNVM 是在 Linux Kernel 中一个针对 Open-Channel SSD 的 Subsystem。LightNVM 提供了一套新的接口，用于管理 Open-Channel SSD，以及执行 IO 操作。为了和 Kernel 中现有的 IO 子系统协同工作，还存在 pblk（Physical Block Device）层。他在 LightNVM 的基础上实现了 FTL 的功能，同时对上层暴露传统的 Block 层接口，使得现有的文件系统可以通过 pblk 直接运行在 Open-Channel SSD 上。2017 年 FAST 上的一篇 paper：『LightNVM: The Linux Open-Channel SSD Subsystem』专门介绍了 LightNVM。

目前 LightNVM 已经被合并入 Kernel 的主线。而对于用户态的程序来说，可以通过 liblightnvm 操作 Open-Channel SSD。

2018 年 1 月，Open-Channel SSD 发布了 2.0 版本的标准。但无论是 Open-Channel SSD，还是 LightNVM 都还处于非常早期的阶段，目前在市面上很难见到 Open-Channel SSD，不适合直接投入到生产中。尽管如此，Open-Channel SSD 和 Host based FTL 带来的好处是非常巨大的。对于追求极致存储性能的场景，在未来很可能会采用 Open-Channel SSD + LightNVM 的实现方式。

Non-volative Memory（NVM）

NVM，或者 PM（persistent memory），SCM（storage class memory），实际上都是一个意思，指的都是非易失性内存。NVM 在学术界火了很多年了，相关的研究在不断向前推进。

一直以来，由于 2：8 定律的特性，计算机系统的存储一直是采用分层的结构，从上到下依次是 CPU Cache，DRAM，SSD，HDD。其中，CPU Cache 和 DRAM 是易失性的（volatile），SSD 和 HDD 是非易失性的（non-volatile）。尽管 SSD 的速度远高于 HDD，但和 DDR 相比，还是有一定的差距。SSD 提供 10us 级别的响应时间，而 DRAM 只有 ns 级别，这中间有一万倍的差距。由于 DRAM 和 SSD 之间巨大的性能差距，使得应用程序需要非常仔细的设计 IO 相关的操作，避免 IO 成为系统的性能瓶颈。

而 NVM 的出现弥补了这个差距。NVM 在保持非易失性的前提下，将响应时间降低到 10ns 级别，同时单位容量价格低于 DRAM。此外，NVM 是按字节访问（byte-addressable），而不像磁盘按照块（Block）访问。NVM 的出现打破了传统的存储层次，将对软件架构设计产生巨大的影响。

NVM 看上去很美好，但目前并不能像内存或磁盘一样，做到即插即用。在传统的操作系统中，Virtual Memory Manager（VMM）负责管理易失性内存，文件系统负责管理存储。而 NVM 既像内存一样可以通过字节访问，又像磁盘一样具有非易失性的特点。使用 NVM 的方式主要有两种：

将 NVM 当做事务性内存（Persistant Transactional Memory）使用，包括采用 Redo Logging，Undo Logging，以及 Log-Structured 等管理方式。
将 NVM 当做磁盘使用，提供块以及文件的接口。例如在 Linux 中引入的 Direct Access（DAX），可以将对现有的文件系统进行扩展，使得其可以运行在 NVM 上，例如 Ext4-DAX。也有类似于 PMFS，NOVA 等专门为 NVM 定制的文件系统。

面向 NVM 进行编程和面向传统的内存或磁盘编程是非常不同，这里我们举一个非常简单的例子。例如，有一个函数用于执行双链表插入操作：

void list_add_tail(struct cds_list_head *newp, struct cds_list_head *head) {
    head->prev->next = newp;
    newp->next = head;
    newp->prev = head->prev;
    head->prev = newp;}

然而对于 NVM 来说，由于是非易失性的，假设在执行到函数的第一行后发生了断电，当系统恢复后，链表处于一个异常且无法恢复的状态。同时，由于 CPU 和 NVM 之间还有 CPU Cache 作为缓存，以及 CPU 执行具有乱序执行的特性，所以 NVM 需要使用特殊的编程模型，也就是 NVM Programming Model。通过显示的指定 Transaction，达到原子性操作的语义，保证当系统恢复时，不会产生中间状态。

在分布式场景下，如果要充分发挥 NVM 的性能，就必须和 RDMA 结合。由于 NVM 的超高的性能，Byte Addressable 的访问特性，以及 RDMA 的访问方式，使得分布式的 NVM + RDMA 需要全新的架构设计，包括单机数据结构，分布式数据结构，分布式一致性算法等等。在这方面，清华计算机系高性能所去年发表的 Octopus 提供了一个思路，通过 NVM + RDMA 实现了分布式文件系统，同时在自己实现一套基于 RDMA 的 RPC 用于进行节点间的通信。

然而尴尬的是，尽管学术界在 NVM 上已经研究了数十年，但在工业界目前还没有可以大规模商用的 NVM 产品，大家还只能基于模拟器进行研究。Intel 和 Micro 在 2012 年合作一起研发 3D XPoint 技术，被认为是最接近能商用的 NVM 产品。Intel 在 2017 年发布了基于 3D XPoint 技术的磁盘产品 Optane，而 NVM 产品（代号 Apache Pass）还没有明确的发布时间。

然而即使 NVM 产品面世，由于 NVM 的价格和容量的限制，以及复杂的编程模式，在实际生产中很少会出现纯 NVM 的场景，更多的还是 tiering 的形式，也就是 NVM + SSD + HDD 的组合。在这个方面，2017 SOSP 上的一篇论文 Strata 也提供了一个不错的思路。

Machine Learning for Systems

去年 Jeff Dean 所在的 Google Brain 团队发表了一篇非常重要的论文『The Case for Learned Index Structures』。可以说从这篇文章开始，系统领域展开了一个新的方向，Machine Learning 与系统相结合。不得不赞叹 Jeff Dean 对计算机科学的影响力。

这篇文章，以及 Jeff Dean 在 NIPS17 ML Systems Workshop 上的 talk，都释放出了一个很强的信号，计算机系统中包含了大量的 Heuristics 算法，用于做各种各样的决策，例如 TCP 窗口应该设置为多大，是否应该对数据进行缓存，应该调度哪一个任务等等。而每一种算法都存在性能，资源消耗，错误率，以及其他方面的 Tradeoff，需要大量的人工成本进行选择和调优。而这些正是Machine Learning 可以发挥的地方。

在『The Case for Learned Index Structures』文章中，作者提到了一个典型的场景，数据库的索引。传统的索引通常采用 B 树，或 B 树的变种。然而这些数据结构通常是为了一个通用的场景，以及最差的数据分布而进行设计的，并没有考虑到实际应用中数据分布情况。对于很多特殊的数据分布场景，B 树并不能够达到最优的时间和空间复杂度。为了达到最佳效果，需要投入大量的人力进行数据结构的优化。同时，由于数据的分布在不断的变化，调优的工作也是持续不断的。作者提出的的 Learned Index，则是通过与 Machine Learning 技术结合，避免人工调优的开销。

在这篇文章中，作者把索引数据结构当做一个 Model，这个 Model 的输入是一个 Key，输出是这个 Key 对应的 Value 在磁盘中的位置。而 B 树或其他的数据结构只是实现这个 Model 的一种方式，而这个 Model 也可以存在其他的实现形式，例如神经网络。

和 B 树相比，神经网络具有很大的优势：

由于不需要在内存中保存 key，所以占用内存空间极小。尤其当索引量巨大时，避免产生磁盘访问。
由于避免了树遍历引入的条件判断，查找速度更快

通过进行离线的模型训练，牺牲一定的计算资源，可以达到节省内存资源，以及提高性能的效果。

当然，这种方法也存在一定的局限性。其中最重要的一点，就是 Learned Index 只能索引固定数据分布的数据。当有数据插入时导致数据分布发生了变更，原有的模型就会失效。解决的方案是对于新增的数据，依然采用传统的数据结构进行索引，Learned Index 只负责索引原有数据。当新增数据积累到一定程度时，将新数据与原有数据进行合并，并根据新的数据分布训练出新的模型。这种方法是很可行的，毕竟和新增数据量相比，全量数据是非常大的。如果能对全量数据的索引进行优化，那应用价值也是巨大的。

尽管存在一定的局限性，Learned Index 还是有很多适用的场景，例如 Google 已经将其应用在了 BigTable 中。相信 Learned Index 只是一个开端，未来会有越来越多的 System 和 Machine Learning 结合的工作出现。

LSM-Tree 优化

LSM-Tree 是 LevelDB，以及 LevelDB 的变种，RocksDB，HyperDB 等单机存储引擎的核心数据结构。

LSM-Tree 本身的原理我们不过多介绍。目前 LSM-Tree 最大的痛点是读写放大，这使得性能往往只能提供裸硬件的不到 10%。所以关于解决 LSM-Tree 读写放大问题成为近些年研究的热点。

在 2016 年 FAST 会议上发表的论文 WiscKey 提出了将 Key 与 Value 分开存放的方法。传统 LSM-Tree 将 Key 和 Value 相邻存放，保证 Key 和 Value 在磁盘上都是有序的。这提高了 Range Query 的效率。然而，当进行 Compaction 时，由于需要同时操作 Key 和 Value，所以造成了较大读写比例放大。而在 WiscKey 中，通过将 Key 和 Value 分开存放，Key 保持 LSM-Tree 结构，保证 Key 在磁盘上的有序性，而 Value 使用所谓『Value Log』结构，很像 Log-Structured File System 中的一个 Segment。通过在 Key 中保存 Value 在磁盘上的位置，使得可以通过 Key 读取到 Value。由于 LSM-Tree 中只保存 Key，不保存 Value，且 Key 的大小通常远小于 Value 的大小，所以 WiscKey 中的 LSM-Tree 的大小远小于传统 LSM-Tree 的大小，因此 Compaction 引入的读写放大可以控制在非常小的比例。WiscKey 的缺点是牺牲了 Range Query 的性能。由于相邻 Key 的 Value 在磁盘上并没有存在相邻的位置，WiscKey 中对连续的 Key 读取被转化成随机磁盘读取操作。而作者通过将预读（Prefetching）IO 并行化的方式，尽可能降低对顺序读性能的影响。

而在 2017 年 SOSP 上发表的论文 PebblesDB 提出了另外一种思路。在传统 LSM-Tree 中，每一层由多个 SSTable 组成，每一个 SSTable 中保存了一组排好序 Key-Value，相同层的 SSTable 之间的 Key 没有重叠。当进行 Compaction 时，上层的 SSTable 需要与下层的 SSTable 进行合并，也就是将上层的 SSTable 和下层的 SSTable 读取到内存中，进行合并排序后，组成新的 SSTable，并写回到磁盘中。由于 Compaction 的过程中需要读取和写入下层的 SSTable，所以造成了读写放大，影响应能。

PebblesDB 将 LSM-Tree 和 Skip-List 数据结构进行结合。在 LSM-Tree 中每一层引入 Guard 概念。每一层中包含多个 Guard，Guard 和 Guard 之间的 Key 的范围是有序的，且没有重叠，但 Guard 内部包含多个 SSTable，这些 SSTable 的 Key 的范围允许重叠。

当需要进行 Compaction 时，只需要将上层的 SSTable 读入内存，并按照下层的 Guard 将 SSTable 切分成多个新的 SSTable，并存放到下层对应的 Guard 中。在这个过程中不需要读取下层的 SSTable，也就在一定程度上避免了读写放大。作者将这种数据结构命名为 Fragemented Log-Structured Tree（FLSM）。PebblesDB 最多可以减低 6.7 倍的写放大，写入性能最多提升 105%。

和 WiscKey 类似，PebblesDB 也会多 Range Query 的性能造成影响。这是由于 Guard 内部的 SSTable 的 Key 存在重叠，所以在读取连续的 Key 时，需要同时读取 Guard 中所有的 SSTable，才能够获得正确的结果。

WiscKey 和 PebblesDB 都已经开源，但在目前最主流的单机存储引擎 LevelDB 和 RocksDB 中，相关优化还并没有得到体现。我们也期待未来能有更多的关于 LSM-Tree 相关的优化算法出现。

Crash Consistency

Crash Consistency 的意思是，存储系统可以在故障发生后，保证系统数据的正确性以及数据，元数据的一致性。可以说 Crash Consistency 是存储领域永恒不变的话题。

早些年大家热衷于通过各种方法在已实现的文件系统中寻找 Bug，而这两年构造一个新的 Bug Free 的文件系统成为热门的方向。在这方面最早做出突破的是 MIT 的团队的 FSCQ。FSCQ 通过 Coq 作为辅助的形式化验证工具，在 Crash Hoare Logic 的基础上，实现了一个被证明过 Crash Safty 的文件系统。

然而使用 Coq 的代价是需要人工手动完成证明过程，这使得完成一个文件系统的工作量被放大了几倍，例如 FSCQ 的证明过程花费了 1.5 年。

而 Washington 大学提出的 Yggdrasil 则基于 Z3，将文件系统证明过程自动化，也就是最近非常流行的『Push-Button Verification』的方法。

值得注意的是，无论是 FSCQ 还是 Yggdrasil 都存在着巨大的局限性，例如不支持多线程访问，文件系统功能并不完备，性能较弱，以及代码生成过程中依赖一些没有被验证过的工具等等。我们距离构建一个在通用场景下可以完全替代已有文件系统（如 ext4）还有很长的路要走。这也依赖于形式化验证方面的技术突破。

工业界进展

随着虚拟化技术的成熟和普及，存储的接入端逐渐从 HBA 卡或传统操作系统，转变为 Hypervisor。在 Linux KVM 方面，随着存储性能逐渐提高，原有的 virtio 架构逐渐成为了性能瓶颈，vhost 逐渐开始普及。所谓 vhost 就是把原有 Qemu 对于 IO 设备模拟的代码放到了 Kernel 中，包含了 vhost-blk，以及 vhost-net。由 Kernel 直接将 IO 请求发给设备。通过减少上下文的切换，避免额外的性能开销。

在容器方面，随着 K8S 的应用和成熟，在 K8S 的存储方面也诞生了一些新的项目。比如 rook.io 是基于 K8S 的编排工具。而 K8S 本身也发布了 Container Storage Interface（CSI），用于第三方存储厂商更好的开发 K8S 的存储插件。未来也会看到越来越多的存储厂商对 K8S 进行支持。

2017 年 Linux Kernel 共发布了 5 个版本，从 4.10 到 4.14，目前最新的版本是 4.15。其中存储相关比较值得注意的变化包括：AIO 改进，Block Layer 错误处理改进，基于 MQ 的调度器 Kyber 等等。然而比较悲伤的消息是，为了修复 Meltdown 和 Spectrue 漏洞，Kernel 引入了 Kernel Page Table Isolation（KPTI）技术，这导致系统调用和上下文切换的开销变得更大。Brendan Gregg 在他的博客中详细分析了 KPTI 对性能产生的影响。对于系统调用与上下文切换越频繁的应用，对性能的影响越大。也就是说，IO 密集型的应用将受到比较大的影响，而计算密集型的应用则影响不大。

在企业级存储方面，去年有很多存储厂商都开始向纯软件厂商进行转型，包括 Nutanix，Kaminario 以及 E8 等等。向软件化转型并不是处于技术的原因，而是商业的考虑。考虑到 Dell 和 EMC 的合并，存储硬件的利润率必定会不断下降。软件化最大的好处，就是可以提升财务报表中的利润率，使得公司的财务状况更加健康，也避免了和 Dell EMC 的存储硬件发生竞争。

在资本市场方面，2017 年可以说是波澜不惊。上图是 2017 年存储行业发生的并购案。其中 Toshiba Memory 被收购的案件是存储行业历史上第三大收购案（第一名是 Dell 收购 EMC）。

总结

以上是作者对当前存储热点和趋势的不完整的总结。希望帮助读者对存储领域增加一点点了解，或者是对存储技术产生一点点的兴趣。也欢迎大家把自己感兴趣的话题写在评论里，我们将在后面尽可能的为大家进行介绍。

顺便广告一下，SmartX 是全球技术领先的分布式存储厂商，如果想在存储领域做出一番事业的话，欢迎加入 SmartX。另外，有兴趣了解更多分布式存储相关信息的读者，可访问：www.smartx.com

Redis GEO vs MongoDB 地理空间关键指标对比
方案对比：RedisGEO：优点：性能极快（微秒级）简单易用，支持距离计算缺点：仅支持位置查询，无法直接关联其他属性（如商家类型）需要额外存储详细信息（需要二次查询MySQL或MongoDB）数据同步：需要维护数据一致性（当商家位置更新时，需要同步更新Redis）MongoDB地理空间索引：优点：支持地理位置+属性联合查询（如查找附近且类型为“餐饮”的商家）数据与业务模型存储在一起，避免二次查询提
管理大数据存储的十大技巧 weixin_34238633 大数据数据库运维
在1990年，每一台应用服务器都倾向拥有直连式系统(DAS)。SAN的构建则是为了更大的规模和更高的效率提供共享的池存储。Hadoop已经逆转了这一趋势回归DAS。每一个Hadoop集群都拥有自身的——虽然是横向扩展型——直连式存储，这有助于Hadoop管理数据本地化，但也放弃了共享存储的规模和效率。如果你拥有多个实例或Hadoop发行版，那么你就将得到多个横向扩展的存储集群。而我们所遇到的最大挑
TDengine DECIMAL 数据类型使用手册 TDengine （老段） TDengine 产品设计 tdengine 大数据时序数据库数据库物联网涛思数据 iot
TDengineDECIMAL数据类型使用手册1.概述DECIMAL数据类型用来存储高精度数值数据，在其他数据库也被称为NUMERIC。DECIMAL数据类型的基本运算返回的是精确结果，适用于需要精确计算的场景，如金融数据、货币计算等。相比于浮点数类型（FLOAT、DOUBLE），DECIMAL类型：优势：保证精确计算，避免浮点数舍入误差劣势：计算性能相对较低2.基本概念2.1核心术语DECIMA
数据库MySQL与SQLite afab 数据库数据库 sqlite
常用数据库及Qt中的用法一、常用数据库数据库管理系统（DBMS）是旨在使用、检索和定义规则以验证和操作数据库中的数据的软件。有四种DBMS类型：关系型、面向对象型、分层型和网络型。有很多开源数据库，包括MySQL、SQLite等。SQLite：是一个开源的关系型数据库管理系统（RDBMS）。RDBMS在多个二维表中存储数据，而不是一个大表。每张表由包含唯一值的行组成，该值被称为键，用于连接各表。这
MySQL与SQLite区别 GoKu~ mysql sqlite
MySQL和SQLite都是关系型数据库管理系统（RDBMS），它们都使用SQL（结构化查询语言）作为标准查询语言。然而，尽管它们共享许多共同点，但它们在语法、功能、性能和存储机制方面存在一些差异。以下是一些主要的差异：1.存储引擎：-MySQL：支持多种存储引擎，如InnoDB、MyISAM、Memory等，每种存储引擎都有不同的特性，如事务支持、索引类型、数据存储方式等。-SQLite：只有一
行业案例| MongoDB在腾讯零售优码中的应用 MongoDB中文社区 MongoDB 数据库 mongodb
本文主要分享腾讯智慧零售团队优码业务在MongoDB中的应用，采用腾讯云MongoDB作为主存储服务给业务带来了较大收益，主要包括：高性能、快捷的DDL操作、低存储成本、超大存储容量等收益，极大的降低了业务存储成本，并提高了业务迭代开发效率。一.业务场景腾讯优码从连接消费者到连接渠道终端，实现以货的数字化为基础的企业数字化升级，包含营销能力升级和动销能力升级。腾讯优码由正品通、门店通和会员通三个子
RocksDB深度指南：从LSM树原理到时序键优化涵树_fx Rust 实战架构设计 rust 后端时序数据库
RocksDB确实很适合这种中等规模的配置数据存储场景，它比文件存储更高效，又比独立数据库更轻量。除此之外，它还具有下面这些优点：支持原子写入操作，避免文件存储可能出现的写入中断问题读操作支持无锁并发，效率非常高支持列式存储，带来了更加丰富的数据管理和查询能力内置压缩功能，可以节省存储空间支持快照功能，方便配置回滚当然，我选择RocksDB的原因是我不希望因为存储配置相关的数据而依赖传统意义上的数
QA - RAG智能问答系统中的文档切片与实现原理 ai开发
引言在现代企业知识管理系统中，智能问答系统正发挥着越来越重要的作用。GC-QA-RAG系统作为葡萄城技术栈中的重要组成部分，其核心功能是通过对文档内容进行智能切片和向量化存储，实现对技术文档的高效检索和问答。本文将深入剖析该系统的文档切片原理，包括短文档和长文档的不同处理策略，以及如何将这些技术应用于实际场景中。正文1.原始方案及其局限性最初的GC-QA-RAG系统采用了一种直观的方法：将整个文档
ESP32-S3开发板麦克风录音到SD卡存储测试 xu_wenming mcu 嵌入式硬件物联网
硬件版本：ESP32-S3-EYE-MB_V2.2软件版本：esp-idf-v5.4.1实测ESP的DEMO，无法正常运行。测试修改验证：实现麦克风录音到SD卡存储。#include#include#include#include#include#include"esp_log.h"#include"esp_err.h"#include"esp_system.h"#include"esp_vfs_
Redis存储Cookie实现爬虫保持登录 requests | selenium
前言前面已经介绍了requests和selenium这两种方式的基础知识和模拟登录,但是我们需要每次都进行登录,这明显是很麻烦并且不合理的,所以这次我分享一下怎么可以让我们的程序进行一次登录之后,和普通浏览器一样下次不进行登录直接进行对网站数据的爬取下面的我分享的内容需要前置知识,如果同志有知识不理解,可以查看我以前写的文章Python爬虫request三方库实战-CSDN博客Python爬虫XP
R 列表：深入解析与高效应用沐知全栈开发开发语言
R列表：深入解析与高效应用引言在R语言中，列表（List）是一种非常重要的数据结构，它允许我们将不同类型的数据组合在一起。列表在数据分析和统计建模中扮演着至关重要的角色。本文将深入探讨R列表的概念、创建方法、操作技巧以及在实际应用中的高效使用。R列表概述定义R列表是一种可以包含多种数据类型的数据结构，如数值、字符、逻辑值、其他列表等。列表可以看作是一个容器，可以存储任意数量的元素。类型R列表分为两
[netty5: FastThreadLocal]-源码解析
在解析FastThreadLocal之前，我们先了解一下ThreadLocal，它和Thread究竟什么关系。翻看Thread源码,我们可以知道，Thread类里维护了两个ThreadLocal.ThreadLocalMap，这两个字段由ThreadLocal类管理，用来实现线程局部变量的存储和传递。ThreadpublicclassThreadimplementsRunnable{//线程局部变
SharePlex for Oracle应用系统高可用和容灾方案 dsg_gulibin 【正Dataguard rman oracle 数据库服务器 constraints 数据备份产品
第1章前言在企业信息化进程不断加快的今天，保持业务的连续性是企业用户进行数据存储时必须考虑的重要方面。灾难的出现可能导致生产停顿、客户满意度降低，减少企业的竞争力。如何安全、可靠、完整地保存数据，实现系统的灾难恢复是市场竞争的需要，更是进一步提高服务水平和改善服务质量、提升业务支撑能力的重要技术手段。“911”事件使大家更加谨慎地审视自己的应用系统。据有关数据表明，接近50%的公司需要关键业务24
Hadoop核心组件最全介绍 Cachel wood 大数据开发 hadoop 大数据分布式 spark 数据库计算机网络
文章目录一、Hadoop核心组件1.HDFS(HadoopDistributedFileSystem)2.YARN(YetAnotherResourceNegotiator)3.MapReduce二、数据存储与管理1.HBase2.Hive3.HCatalog4.Phoenix三、数据处理与计算1.Spark2.Flink3.Tez4.Storm5.Presto6.Impala四、资源调度与集群管
JSONLines和JSON数据格式使用教程 Cachel wood 现代程序设计技术 json jsonlines 贪心算法算法 spark ajax 大数据
文章目录一、核心区别二、JSONLines的优势三、Python中使用JSONLines1.写入JSONLines文件2.读取JSONLines文件3.处理大文件示例四、常见工具支持1.命令行工具2.编程语言库五、适用场景选择六、注意事项总结JSONLines（简称jsonl或jl）和传统JSON都是用于存储结构化数据的格式，但它们的设计目标和使用场景有所不同。以下是详细对比和使用指南：一、核心区
Unity 内置着色器的使用与性能优化【Usage and Performance of Built-in Shaders】小李也疯狂 #Shader：Built-in shaders unity 着色器性能优化 shader
Unity中的着色器通过材质（Material）应用，材质将着色器代码与纹理、颜色等参数结合。理解着色器与材质的关系及性能影响因素，对优化项目渲染效率至关重要。以下是内置着色器的使用指南与性能分析：一、着色器与材质的关系核心概念着色器（Shader）：定义渲染逻辑（如光照计算、纹理混合），决定材质的属性和外观。材质（Material）：着色器的实例，存储具体参数（如纹理、颜色值），同一着色器可创建
【华为od刷题（C++）】HJ33 整数与IP地址间的转换 m0_64866459 华为od c++链表
我的代码：#include//这个头文件提供了输入输出流的功能，使得我们能够使用cin和cout来进行输入输出usingnamespacestd;//可以直接使用标准命名空间std中的功能//比如cout和cin，而不需要每次都写出std::intmain(){longlonginta,b,c,d;//a,b,c,d：这四个变量用来存储IP地址的四个部分//分别代表IP地址中的四个字节longlo
数据结构--单链表
数据结构基础（3）文章目录数据结构基础（3）单链表的定义：不带头结点的单链表：带头结点的单链表：单链表的插入操作：按位序插入（带头结点）：按位序插入（不带头结点）：指定结点的后插操作：指定结点的前插操作：按位序删除（带头结点）：按位查找：按值查找：求表的长度：单链表的建立--尾插法单链表的建立--头插法单链表的定义：带头结点不带头结点顺序表：优点：可随机存取，存储密度高缺点：要求大片连续空间，改变
STM32-内存运行原理与RAM执行实战东方少爷内存地址单片机嵌入式硬件 arm开发硬件工程 stm32
一、底层原理深度解析（先懂“为什么要拷贝”）1.存储介质本质差异（ROM/FlashvsRAM）ROM（以STM32内部Flash为例）：物理特性：电可擦写非易失性存储（虽叫ROM，实际可通过编程改写），擦写次数有限（一般万次级别），读速度慢（STM32F1系列Flash读取周期约30-50ns）。存储内容：程序代码（指令）、只读常量（const修饰的全局变量、字符串字面量）、初始化的全局变量（R
数据仓库技术及应用（Hive 产生背景与架构设计，存储模型与数据类型）娟恋无暇数据仓库笔记 hive
1.Hive产生背景传统Hadoop架构存在的一些问题：MapReduce编程必须掌握Java，门槛较高传统数据库开发、DBA、运维人员学习门槛高HDFS上没有Schema的概念，仅仅是一个纯文本文件Hive的产生：为了让用户从一个现有数据基础架构转移到Hadoop上现有数据基础架构大多基于关系型数据库和SQL查询Facebook诞生了Hive2.Hive是什么官网：https://hive.ap
C#与SQL Server交互的数据库技术实践不教书的塞涅卡
本文还有配套的精品资源，点击获取简介：本课程深入探讨C#与SQLServer数据库的交互技术，包括建立连接、执行SQL语句以及进行CRUD操作。详细介绍使用C#进行数据库操作时的核心概念与高级功能，如参数化查询、存储过程、事务处理、索引、视图和触发器等。旨在教授开发者如何高效、安全地管理和开发SQLServer数据库应用。1.C#与SQLServer的连接建立在现代软件开发中，后端服务经常需要与数
JavaScript基础语法之运算符和控制流 AA-代码批发V哥 JavaScript javascript
JavaScript基础语法之运算符和控制流一、运算符1.1算术运算符：数值计算的基石1.1.1字符串拼接陷阱1.2比较运算符：条件判断的起点1.2.1严格比较（`===`）vs松散比较（`==`）1.2.2其他比较运算符1.3逻辑运算符：复杂条件的组合1.3.1短路逻辑（重要特性）1.3.2实战：表单验证1.4赋值运算符：数据存储的桥梁1.4.1基础赋值（`=`）1.4.2解构赋值（ES6新增）
Android PNG/JPG图ARGB_8888/RGB_565‌解码形成Bitmap在物理内存占用大小的简单计算
AndroidPNG/JPG图ARGB_8888/RGB_565‌解码形成Bitmap在物理内存占用大小的简单计算Android的Bitmap是一个用于表示图像数据的核心类，代表一张图片在内存中的存储，Bitmap存储了图像的像素信息数据。Bitmap把图像理解为像素点组成的二维矩阵，每个像素点存储对应位置的一系列ARGB值（透明度+红绿蓝通道）。Bitmap在内存中占用大小的关键计算公式：‌内存
数据结构之栈实验 lannnn_ 学习记录数据结构 c语言栈
栈实验实验目的实验环境实验要求实验内容源代码运行结果实验目的掌握栈这种数据结构特性及其主要存储结构，并能在现实生活中灵活运用。实验环境CodeBlocks实验要求1.熟悉c语言的语法知识；2.掌握栈的顺序存储结构—顺序栈的定义、构造、获得栈顶元素、入栈、出栈等基本操作；实验内容完成栈的定义、构造、获得栈顶元素、进栈、出栈等函数的编写。要求在主函数中实现对以上操作的调用，编写一个算法判断给定的字符向
Python实例题：基于 Flask 的在线聊天系统
目录Python实例题题目要求：解题思路：代码实现：Python实例题题目基于Flask的在线聊天系统要求：使用Flask框架构建一个实时在线聊天系统，支持以下功能：用户注册、登录和个人资料管理一对一实时聊天功能群聊功能消息通知和未读消息提示在线用户状态显示使用Flask-SocketIO实现实时通信。使用SQLite数据库存储用户、聊天记录等信息。添加美观的前端界面，支持响应式设计。解题思路：使
xml文件笔记
今天学习了一下xml下面是总结的一些笔记Xml可以用来配置文件xml特点：Xml可以从HTYML中分离数据可以利用xml文件在不兼容的系统之间交换数据Xml数据以纯文本格式存储Xml与其他软硬件的耦合度更低，数据可以被更多的设备利用，还可以将XML文件当作数据源来处理，就像操作数据库一样Xml的格式在xml文件头部要有声明在XML中字母的大小写是敏感的Xml文件中有且只有一个根元素，所有的其他元素
在 Dify 平台中集成上下文工程技术由数入道人工智能数据库大数据人工智能软件工程 dify
1.提升LLM问答准确率的上下文构建与提示策略大语言模型在开放领域问答中常面临幻觉和知识过时等问题。为提高回答准确率，上下文工程的关键是在提示中注入相关背景知识与指导。具体策略包括：检索增强(RAG)：通过从知识库中检索相关内容并将其纳入提示，可以显著提升回答的准确性和可信度。Dify提供了知识检索节点，支持向量数据库存储外部知识，并将检索结果通过上下文变量注入LLM提示中。例如，在知识库问答应用
【Note】《Kafka: The Definitive Guide》第5章：深入 Kafka 内部结构，理解分布式日志系统的核心奥秘
《Kafka:TheDefinitiveGuide》第5章：深入Kafka内部结构，理解分布式日志系统的核心奥秘ApacheKafka在表面上看似只是一个“分布式消息队列”，但其背后的存储架构、分区机制、复制策略与高性能设计，才是它在千万级TPS场景中立足的根本。一、Kafka的核心逻辑结构Kafka是一个分布式日志服务（distributedcommitlog），核心概念有以下几类：TopicK
【数据结构】顺序表和链表晚云与城数据结构链表
线性表线性表是由n个具有相同特性的数据元素组成的有限序列。作为一种在实际应用中广泛使用的数据结构，常见的线性表包括顺序表、链表、栈、队列和字符串等。线性表在逻辑上呈现线性结构，表现为一条连续的直线。然而，其物理存储结构并不要求连续，通常采用数组或链式结构来实现存储。顺序表1.最好用数组2.功能：增删查改。3.静态顺序表，动态顺序表。4.源文件#include"SeqList.h"//初始化void
Redis分片集群原理
1.为何需要分片集群？让我们先快速回顾一下Redis扩展的演进过程：单机Redis：最简单，但也最受限于服务器的物理资源（CPU、内存、网络带宽）。一旦宕机，服务完全中断。主从复制：通过设置一个主节点和多个从节点，实现了读写分离，提高了读并发能力，并提供了数据冗余以应对主节点故障。但所有数据仍存储在主节点上，内存容量和写性能依然受限于单个服务器，无法无限扩展。当业务数据量达到数十GB甚至TB级别，
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23