～千溪杂谈(随风而逝)～

分布式文件系统-Facebook haystack

0、分布式文件系统

分布式文件系统很常见，主要功能：

存储文档、视频、图像等
作为分布式表格系统的存储层

这类系统很多，比如：
国外系统：GFS-(Google File System)、haystack（Fackbook图片存储系统）
国内：淘宝TFS
这些系统架构和设计很多都相似，同时也有细微之处有许多区别，最近因为需要给一个朋友讲解haystack，重读了haystack，记录做下总结

一、背景

Facebook在2012年发布了《Finding a needle in Haystack: Facebook’s photo storage》论文，实现了小文件（图片）的高性能的存储系统。
Facebook目前存储了2600亿张照片，总大小为20PB，通过计算每张照片的平均大小为20PB/260GB，约80KB。用户每周新增照片数为10亿（总大小为60TB），平均每秒新增的照片数为10亿/7/40000（按每天40000s计算，半天时间），约为每秒3500次写操作，读操作峰值可以达到每秒百万次。

Facebook相册后端早期采用基于NAS的存储，通过NFS挂载NAS中的照片文件来提供服务。后来出于性能和成本考虑，自主研发了Facebook Haystack存储相册数据。Haystack是一个对象存储系统，主要解决facebook的图片存储问题。图片存储访问特点：

Write once：往往只写一次
Read often : 读很多次，被很多朋友或者陌生人浏览
Never Modified：基本不更改
Rarely Deleted：删除比较少

传统文件系统问题：
如果使用常用文件系统（比如POSIX），读取一张照片需要多次磁盘操作: 将文件名转换为inode号，从磁盘读取inode，最后读取文件本身
过多的磁盘IO操作，会影响系统的整体吞吐。

Haystack 设计的目标：

高吞吐，低延迟(High throughput and low latency)

 keeping all metadata in main memory，在内存中维护照片的META信息，避免IO

可容错（Fault-tolerant）

 可以处理服务宕机、硬件故障、网络、BUG等

低成本(Cost-effective)

 Haystack’s cost per terabyte of usable storage and Haystack’s read rate normalized for each terabyte of usable storage.
       In Haystack, each usable terabyte costs 28% less and processes 4x more reads per second than an equivalent terabyte on a NAS appliance.
　　相比之前基于NFS的架构，存储成本降低，读的速度提升

实现简单(Simple)
```
 保证能快速迭代和上线
```

二、早期架构

2.1 经典设计

用户通过浏览器访问页面，发送HTTP请求到Web服务器访问照片
Web服务器为每个照片生成一个URL链接，并重定向到CDN
对于流行的网站，这个URL通常指向一个CDN。如果CDN缓存了图像，那么CDN会立即响应数据
如果CDN不包含该照片，解析URL到真实存储系统获取照片，并缓存在CDN中

2.2 基于NFS的设计

Facebook 使用了CDN来缓存热点的图片。但是社交网络，有大量的请求都不是热点，也就是大量的长尾（long tail）请求，比如很多老照片。而缓存所有的图片的代价高昂。来长尾的请求占了Facebook 流量的很大一部分，几乎这些的请求都访问后台的照片存储。

用一系列NAS设备存储照片，Photo Store servers通过NSF挂载这些NAS。Photo Store servers从照片的URL提取卷以及文件的完整路径信息，通过NFS读取数据，并将结果返回给CDN。
一个NFS卷的每个目录中存储了数千个文件，后果是：即使是读取一张照片，也会导致过多的磁盘操作。因为目录的块映射(blockmap)太大，设备无法有效地缓存它。优化方式：一个NFS目录保存上百个文件，一个读操作还至少需要3次IO操作：

在父目录中查找directory metadata，并从磁盘加载到内存
在磁盘读取文件的inode结构
读取文件内容

同时为了进一步减少IO操作，Photo Store servers每次打开文件，都在内存中保持了文件句柄，这样下次访问的时候，就可以通过自定义的系统调用open by filehandle，来直接进行。该优化存在问题：对于非热点照片，基本不可能被缓存。
同时是否可以缓存所有文件句柄? 但是只能解决部分问题，因为这依赖于NAS设备将其所有inode都放在内存中，这对于传统文件系统来说是一种昂贵的需求。

三、Haystack设计和实现

Facebook使用CDN来提供流行/热点图片，并利用Haystack来有效地响应长尾图片请求。对于非热点图片，即长尾请求，设计思路是尽量减少磁盘IO操作，因此对于文件的META信息特殊设计，这样将META信息都缓存在内存中。
注意两个概念：
Application metadata describes the information needed to construct a URL that a browser can use to retrieve a photo. 浏览器为用户访问照片维护的META信息
Filesystem metadata identifies the data necessary for a host to retrieve the photos that reside on that host’s disk. 照片文件存储的META

3.1 整体架构

最主要三个核心组件：

Haystack Store

物理存储节点，以物理卷轴（physical volume）的形式组织存储空间，照片写在物理卷轴，每个物理卷轴一般很大，比如100GB，这样10TB的数据只需100个物理卷轴。每个物理卷轴对应一个物理文件，因此，每个存储节点上的物理文件元数据都很小。多个物理存储节点上的物理卷轴组成一个逻辑卷轴（logical volume），用于备份。

Haystack Directory

维护映射关系logical to physical mapping
存放逻辑卷轴和物理卷轴的对应关系，以及照片id到逻辑卷轴之间的映射关系

Haystack Cache

主要用于解决对CDN提供商过于依赖的问题，提供最近增加的照片的缓存服务

如上图，用户可能访问到CDN或者Haystack Cache。
用户请求一个照片，Haystack Directory会按照如下规则生成URL：

http://＜CDN＞/＜Cache＞/＜Machine id＞/＜Logical volume,Photo＞

上述规则有很多部分组成，后续根据各个部分的信息依次访问CDN、Haystack缓存和后端的Haystack存储节点。比如CDN没有该照片信息，就会请求缓存等。

如上图，当用户上传一个照片时，Haystack目录为照片生成唯一ID，将其上传到映射到指定逻辑卷的每个物理卷。
这里留意一个write-enabled机器概念，当为Haystack Store新加机器扩容时，这些机器会标记为只写，避免大量读请求打到该机器（这个很好理解，当新增照片的时候，往往会带来很多访问量，类似微信朋友圈）后面还会具体讨论。

3.2 Haystack目录

目录主要提供四个功能：

逻辑卷到物理卷的映射关系：用于写请求（上传照片）和读请求（为照片构建上述访问的URL）
读写之间的负载均衡，决定读请求或者写请求去哪里
决定一个照片请求是由CDN处理还是缓存处理
如果逻辑卷达到存储容量上限，标识为只读

3.3 Haystack Cache

缓存既接受来自CDN的HTTP请求，也直接接受来自用户的请求
数据结构是一个分布式哈希表，并使用照片的id作为键来定位缓存的数据。如果缓存无法命中，那么就会从Haystack Store层读取数据。
Haystack Cache在满足如下两种场景下，才会缓存照片：

该请求直接来自用户，而不是CDN。基于经验，CDN无法命中的请求，也基本不可能在Haystack Cache命中，因此需要缓存上，保证后续可以在Haystack Cache中命中。
照片是从write-enabled机器存储上获取的。照片往往一上传，会获取大量访问-读请求，因此如果该情况不进行缓存，write-enabled机器同时会有大量读请求，会影响系统吞吐以及不稳当，因此对于上述场景，直接缓存上，是一种针对业务特点很好的优化

3.4 Haystack Store

每个Store机器上包含多个物理卷，而每个卷包含数百万张照片。一个物理卷可以认为非常大的文件，比如100G，按照如下格式保存：

‘/hay/haystack ’

物理卷设计如图5：开始是一个superblock，后续是一系列Needle(每一个代表一张照片)
每个Needle设计的字段以及如表1，很多字段都语义很清楚，其中需要关注几点如下：

Key: 　生成的照片ID
alternatekey：对于每张照片，FaceBook为其都会生成４个大小的照片，用于不同的高清度。因此会附加alternatekey来标记不同的大小

Store机器上用（key, alternatekey）映射相应的Needle信息

Flags: 标记删除

3.4.1 读流程

当需要从Haystack Store请求照片，提供参数如下：logical volume id, key, alternate key, and cookie

其中cookie是在Haystack目录随机生成和分配，避免黑客攻击，构造有效的URL

当Haystack Store收到上述请求，Haystack Store先在内存中查找应映射关系，如果照片没有被删除，Haystack Store在卷中查找实际偏移位置，在确认存储的cookie一致，以及校验和通过过，返回照片给Haystack Cache

3.4.2 写流程

当需要上传一张照片，Haystack web服务器将Haystack目录生成以及分配的the logical volume id, key, alternate key, cookie以及照片数据传给Haystack Store
为了高可用，往往照片也采用多副本，每个机器收到请求，开始同步追加needle（照片）到自身的物理卷，同时更新内存映射，因为只能追加写，不允许覆盖写，其实有一些限制，比如修改照片等流程
当需要修改照片，只会采用同样的key, alternate key来生成和存储新的needle，分如下情况讨论：

（1）如果新的needle和初始照片写在不同的逻辑卷， Haystack目录会更新application metadata，保证后续用户不会再访问老的请求
（2）如果新的needle和初始照片写在相同的逻辑卷， Haystack Store会追加到同样的物理卷，基于位置偏移来区分照片的新旧，只返回最高偏移的照片，保证是最新的照片

3.4.3 删除流程

删除照片，只是标记删除，在内存映射删除flag，文件追加一个删除标记的needle

3.4.4 索引文件

Haystack Store设计了索引文件，进行优化，本质上优化机器重启后，如何快速构建和恢复宕机前的状态。
如果没有索引文件，机器宕机重启后，可用通过读所用物理卷来恢复状态，比如内存中的映射关系，但是数据量太多，过于耗时。所以设计了索引文件。

Haystack Store为每个卷都维护了索引文件，索引文件如上图6，以superblock，然后每个needle对应一个索引信息，这些索引信息是和物理卷的needle一一对应。基于Table2，可以看出索引信息，其实能快速定位needle，所以本身也是内存映射的一种文件持久化方式，类似CHECKPOINT

索引文件本身是异步记录的，含义是当写一张照片，只保证照片持久化物理卷，就可以返回用户，而不必要同步的等待索引文件记录成功，只需要异步追加，这在尽量保证照片尽快上传成功的同时，也带来了一些问题，索引文件是异步的，可能存在脏记录。比如当删除一张照片，Haystack Store同步设置flag即可返回，保证写操作、删除操作尽快返回，但是存在如下bad cases:
1. needle没有相应的索引记录：对于该场景，称之为orphans-孤儿，在Haystack Store重启后，会为这些孤儿创建一个匹配的索引信息，然后追加到索引文件。快速识别孤儿的方式也很简单，基于现有的索引文件最后一条记录，找到物理卷文件的记录（非孤儿），之后全是孤儿信息。Haystack Store通过索引文件即可初始内存映射。
2. 索引记录存在，但是没有体现是删除状态。对于该场景，Haystack Store读取到删除的needle(存在删除的flag)，会更新相应的内存信息，并通知Haystack Cache这个照片不能找到

3.4.5 文件系统

Haystack使用RAID 6，并且底层文件系统使用性能更好的XFS

3.5 故障恢复

为了检测机器、硬件故障，设计了一个后台任务叫做pitch-fork，用户周期性检查每台Haystack Store机器的状态，具体方式如下：

检测是否连通过、检查每个卷文件的可用性，并尝试从Store机器读取数据
当认定一个Haystack Store存在异常，会将该机器所有逻辑卷标记为只读，再检查失败原因
如果发生故障的Store节点不可恢复，需要执行一个拷贝任务，从其他副本所在的存储节点拷贝丢失的物理卷轴的数据；由于物理卷轴一般很大，所以拷贝的过程会很长

3.6 一些优化

对于一些重复数据（比如照片多次修改）和标记删除的数据（照片被删除），通过Compaction来真正物理删除。Compaction操作，即将所有老数据文件中的数据扫描一遍，以保留最新一个照片的原则进行删除，并生成新的数据文件。因此Haystack Store采用延迟删除的回收策略，因为删除照片只是向卷轴中追加一个带有删除标记的Needle。
内存优化，主要是Haystack Store一些信息不需要内存维护，比如cookie等
批量上传，磁盘顺序写比随机写更快，因此系统会对批量上传做优化，比如用户上传多张照片或者整个相册

Ts学习笔记初学者7. 学习笔记 typescript
一、Ts与Js区别TsJsJavaScript的超集，用于解决大型项目的代码复杂性一种脚本语言，用于创建动态网页。强类型，支持静态和动态类型动态弱类型语言可以在编译期间发现并纠正错误只能在运行时发现错误不允许改变变量的数据类型变量可以被赋予不同类型的值二、Ts基础类型：boolean,number,string,undefined,null,any,unknown,void，neverany,un
《Flutter从入门到实战：手把手构建跨平台应用（万字深度解析）》前端极客探险家 flutter
目录标题前言：为什么选择Flutter？一、Flutter基础篇：环境搭建与核心概念1.1开发环境配置1.2项目结构深度解析二、核心机制：Widget与渲染原理2.1Widget树构建原理2.2状态管理方案对比三、企业级开发实战3.1工程化架构设计3.2典型功能实现四、进阶开发技巧4.1性能优化方案4.2平台特定代码集成五、项目实战：开发企业级Todo应用（深度扩展版）5.1项目初始化与工程化配置
SAP-ABAP：SAP工厂(Plant)与公司代码(Company Code)关联查询指南爱喝水的鱼丶 SAP ABAP ERP 开发运维运维
SAP工厂(Plant)与公司代码(CompanyCode)关联查询指南一、核心查询方法对比方法类型事务码/表名响应速度适用场景权限要求配置界面查询OX18快单工厂详细信息查看S_TCODE(OX18)数据表直查T001W/T001K极快批量导出或多系统对接S_TABU_DIS(T001W/T001K)组织结构浏览PPOME中企业架构全景分析S_TCODE(PPOME)二、详细操作指南方法1：配置
保姆级 STM32 HAL 库外部中断教学 CircuitWizard 单片机 stm32 单片机嵌入式硬件
1.外部中断概述为什么用外部中断？当按键按下时，CPU无需轮询检测引脚状态，而是通过中断机制立即响应，提高效率，适用于实时性要求高的场景。关键概念EXTI(ExternalInterrupt/EventController)：STM32的外设，负责管理外部中断/事件。NVIC(NestedVectoredInterruptController)：管理中断优先级和使能。GPIO与EXTI的映射：每个
Python后端学习系列（10）：分布式系统与数据一致性（使用分布式锁、分布式事务等） DoYangTan python 学习分布式
Python后端学习系列（10）：分布式系统与数据一致性（使用分布式锁、分布式事务等）前言随着业务规模的不断扩大以及对系统性能、可扩展性的更高要求，后端应用往往会朝着分布式系统的方向发展。然而，分布式系统带来诸多优势的同时，也面临着如数据一致性等复杂的挑战。本期我们就聚焦于分布式系统中的关键问题——数据一致性，深入探讨分布式锁、分布式事务等相关知识以及保障数据一致性的策略与实践，让我们一起深入学习
泛目录程序：2025快云站群程序的SEO优化功能云惠科技大数据泛目录
快云站群程序的SEO优化功能围绕搜索引擎算法设计，具体包含以下核心模块：1.关键词智能布局密度检测与优化：自动分析内容关键词密度，建议合理区间（2%-8%），避免堆砌或遗漏；多词策略支持：可针对单篇内容设置主关键词+长尾词组合，覆盖更多搜索场景；标题/摘要自动生成：根据关键词智能生成高点击率的标题和Meta描述，提升搜索展示效果。2.内链自动化系统内容关联推荐：基于语义分析，自动在文章中插入相关内
如何使用C# 读写西门子PLC A_nanda 西门子
在C#WPF应用程序中，与西门子S7系列PLC进行通信是一个常见的需求，尤其是在工业自动化领域。以下是三种实现WPF上位机与西门子S7系列PLC通信同步的方式，每种方式都提供了代码实例、优缺点和使用场景。1.使用S7.Net库代码示例：//创建PLC连接varplc=newS7.Net.Plc(CpuType.S71500,"192.168.1.10",0,1);plc.Open();//读取PL
掌握C#企业级应用的数据一致性与分布式事务：从基础到高级的全面解析墨夶 C#学习资料1 c#分布式 wpf
在当今的企业级应用开发中，确保数据的一致性是至关重要的。尤其是在涉及分布式系统时，如何处理跨服务、跨数据库的操作以保证数据的一致性和可靠性成为了一个复杂但必须解决的问题。本文将深入探讨使用C#进行企业级应用开发时的数据一致性和分布式事务管理，提供详细的代码示例和最佳实践。第一部分：理解数据一致性与分布式事务的基础知识1.1数据一致性的重要性在企业级应用中，数据一致性是指关联数据之间的逻辑关系是否正
sql与html 就很对 sql html jvm
sql与htmlsqlite3sqlsql_callbacksql_dicthtmlhtml01ser02sersql_workhtml_ser03.htmlwebser06ser012.html011.html013.html015.html03.html04.html05.html06.htmlsqlite3sql//sqlite3_open//sqlite3_exec//sqlite3_cl
MyBatis-Plus核心功能与实战案例千层冷面 mybatis java
MyBatis-Plus核心功能与实战案例，代码示例基于SpringBoot3.x+MyBatis-Plus3.5.3：一、MyBatis-Plus基础篇1.简介与核心优势MyBatis-Plus（MP）是MyBatis的增强工具，在保留MyBatis原生功能的基础上，通过内置通用Mapper、Service、条件构造器等，大幅简化开发。核心优势：无侵入：只做增强不做改变，可与MyBatis原生功
指令系统和计算机体系结构——一文解析冯·诺依曼架构点滴汇聚江河软考-软件设计师架构
文章目录一、核心思想二、核心组成部分1.中央处理器（CPU）2.内存（Memory）3.输入/输出（I/O）设备4.总线（Bus）三、工作流程四、冯·诺依曼架构的局限性五、现代计算机的改进1.流水线技术（Pipeline）关键机制2.高速缓存（Cache）关键机制3.多核CPU（Multi-Core）关键挑战与解决方案4.乱序执行（Out-of-OrderExecution）关键技术5.其他关键改
python assert()函数欢天喜地小姐姐 python编程学习 python
1.断言函数作用断言函数是对表达式布尔值的判断，要求表达式计算值必须为真。可用于自动调试。如果表达式为假，触发异常；如果表达式为真，不会报错。2.使用assert判断数组是否相等np.array.any()和numpy.array.all()np.array.any()是或操作，任意一个元素为True，输出为True。np.array.all()是与操作，所有元素为True，输出为True。当我们
GGUF量化模型技术解析与DeepSeek-R1-Distill-Llama-8B选型指南每天三杯咖啡人工智能
```markdown#【完全指南】GGUF量化技术与DeepSeek-R1模型选型：从入门到部署##什么是模型量化？（小白扫盲版）###1.1量化就像"模型减肥术"-**传统模型**：每个参数用32位浮点数（好比高清无损图片）-**量化模型**：用4-8位整数存储（类似手机压缩照片）-**核心原理**：`FP32→Int8/Int4`的数学映射，保留关键特征###1.2为什么要量化？|对比项|原
含光热电站、有机有机朗肯循环、P2G的综合能源优化调度（Matlab代码实现）创新优化代码学习能源 matlab 前端
‍个人主页欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述含光热电站、有机朗肯循环与P2G的综合能源优化调度研究一、技术基础与系统作用二、多技术协同机制三、优化调度模型构建四、典型案例与仿真分析五、未来研究方向结论2运行结果3参考文献4Matlab代码实现1概述光热发电(concentratingsolarp
力扣Hot100——136. 只出现一次的数字飞奔的马里奥 leetcode 算法职场和发展
难点在于时间与空间复杂度的要求，一般遇到这样的限制，就要考虑使用位运算，位运算效率最高了。异或当且仅当两个输入值不同时，异或运算输出为真（1），否则输出为假（0），即“同为0，异为1”。这是针对二进制运算的规则，整数进行异或运算，需要转换为二进制，一样遵循这个运算规则。异或的运算律：交换律：p⊕q=q⊕p结合律：p⊕(q⊕r)=(p⊕q)⊕r恒等律：p⊕0=p归零律：p⊕p=0对合运算：p⊕q⊕q
MySQL请求处理全流程深度解析：从SQL语句到数据返回 longdong7889 mysql sql adb
MySQL请求处理全流程深度解析：从SQL语句到数据返回一、MySQL架构全景图MySQL采用经典的C/S架构和分层设计，其核心模块协同工作流程如下：客户端连接管理器查询解析器查询优化器执行引擎存储引擎磁盘存储各层核心职责：连接层：管理客户端连接、权限验证服务层：SQL解析、优化、内置函数实现存储引擎层：数据存储与索引管理（如InnoDB）文件系统层：日志文件、数据文件存储二、请求处理七步详解步骤
RAG 企业级应用落地框架细节差异对比一顿码架构人工智能 python 数据挖掘知识图谱语言模型
—1—什么是RAG？RAG检索增强生成本质上来讲，就三件事情：第一、Indexing索引。即如何更有效地存储知识。第二、Retrieval检索。即在庞大的知识库中，如何筛选出少量的有益知识，供大模型参考。第三、Generation生成。即如何将用户的提问与检索到的知识相结合，使得大模型能够生成有价值的回答。这三个步骤表面上看似乎并不复杂，然而在RAG从构建到实际部署的整个流程中，包含了众多精细且复
系统架构设计（以飞控系统、航电系统、机电管理系统、电子电气架构为例）机载软件与适航机载系统系统工程适航系统架构架构
架构的定义系统架构涉及对系统的结构和行为进行高层次的描述。它包括系统的组成部分、这些部分之间的关系、与外部环境的交互方式，以及满足特定功能和非功能性需求的方法。系统架构定义了系统的总体设计蓝图，指导系统的开发、集成、部署和维护。系统架构的核心要素组成部分（Components）：系统中的独立模块或单元，每个模块执行特定的功能。组件可以是软件模块、硬件设备、数据库、用户界面等。组件间的关系（Rela
kvm虚拟化的概念与作用千航@abc kvm虚拟化 kvm 虚拟化
概念——虚拟化是指通过虚拟化技术将一台计算机虚拟为多台逻辑计算机。在一台计算机上同时运行多个逻辑计算机，每个逻辑计算机可运行不同的操作系统，并且应用程序都可以在相互独立的空间内运行而互不影响，从而显著提高计算机的工作效率。作用——虚拟化技术可以扩大硬件的容量，简化软件的重新配置过程。CPU的虚拟化技术可以单CPU模拟多CPU并行，允许一个平台同时运行多个操作系统，并且应用程序都可以在相互独立的空间
PCDN 与传统 CDN 的对比：优势和劣势分析 yczykjyxgs pcdn 智能路由器
在内容分发领域，PCDN和传统CDN是两种重要的技术手段。传统CDN凭借其成熟的架构，在互联网发展历程中发挥着关键作用。它通过在各地广泛部署缓存服务器，将内容缓存至离用户更近的节点，以此加快分发速度。这种模式下，内容传输路径短，能有效减少延迟，为用户提供稳定的访问体验。不过，传统CDN的大规模服务器部署带来了高昂成本，无论是建设费用还是维护成本都不容小觑。PCDN作为融合了P2P技术的新兴内容分发
Python助力区块链互通——跨链桥接的实现与实践 Echo_Wish Python！实战！区块链 python 开发语言
Python助力区块链互通——跨链桥接的实现与实践区块链技术的繁荣发展带来了巨大的生态创新，但也因各链之间的割裂局面限制了它们的潜力。例如，你或许想在以太坊上使用来自比特币的资产，却因两条链不互通而不得不求助于中心化交易所。要打破“链间壁垒”，跨链桥接（Cross-chainBridge）应运而生。今天，我以Echo_Wish的视角，通过Python代码实践，带你深入了解跨链桥接的工作原理，技术实
DevOps中集成自动化测试的具体案例 Zachary AI CICD相关 devops 运维
在DevOps中集成自动化测试的具体案例可以从多个角度进行分析，包括金融行业、分布式系统、大型企业等不同领域的实践。以下是几个具体的案例：金融行业的DevOps实践：在金融行业中，DevOps被广泛应用于提升软件开发和运营的效率。例如，通过解析后台接口代码日志格式，自动化生成接口测试案例，解决了接口自动化测试过程中各交易输入值难以确定的问题，从而提高了接口测试效率[14]。此外，农行手机银行系统存
【Spring AI】基于专属知识库的RAG智能问答小程序开发——代码逐行精讲：核心交互函数及RAG知识库构建 un_fired spring 人工智能 java
系列文章目录【SpringAI】基于专属知识库的RAG智能问答小程序开发——完整项目（含完整前端+后端代码）【SpringAI】基于专属知识库的RAG智能问答小程序开发——代码逐行精讲：核心ChatClient对象相关构造函数【SpringAI】基于专属知识库的RAG智能问答小程序开发——代码逐行精讲：核心交互函数及RAG知识库构建文章目录系列文章目录前言1.Service层知识库构建与检索函数详
关于STM32如何选择：HAL与标准库的抉择及初学者建议笑靥藏情. stm32 嵌入式硬件单片机
STM32是意法半导体（STMicroelectronics）推出的一系列基于ARMCortex-M内核的32位微控制器，因其高性能、多功能性和成本效益而广受嵌入式系统开发者的欢迎。对于初学者而言，学习STM32编程时面临的第一个重要抉择往往是如何选择编程方式：是使用硬件抽象层（HAL），还是选择标准外设库（StandardPeripheralLibrary）？本文将围绕这一问题展开，详细比较HA
某智慧医养服务平台Uploads存在任意文件上传漏洞(DVB-2025-8968) Byp0ss403 漏洞复现集合文件上传 web安全
免责声明本文所描述的漏洞及其复现步骤仅供网络安全研究与教育目的使用。任何人不得将本文提供的信息用于非法目的或未经授权的系统测试。作者不对任何由于使用本文信息而导致的直接或间接损害承担责任。如涉及侵权，请及时与我们联系，我们将尽快处理并删除相关内容。0x01产品介绍广西金中软件集团有限公司前身成立于1999年，隶属于广西电信下的三产公司金中信息产业有限公司，是一家集软件开发、网站建设、网络工程、系统
大整数加、减法（Java实现）与debug找错 gfu_ java 算法数据结构
前言这篇文章主要内容涉及大整数加法的实现以及debug使用的简单记录。以前当我碰到程序报错时，总是想找别人帮忙，感觉debug太难了，自己根本看不懂。这次，自己在做一道算法题时，程序能够运行，结果却出错了。本来想找别人帮忙，但想着学习还是要脚踏实地，于是自己硬着头皮上了，先在网上了解如何debug，然后一步一步找到了错误所在。主要是想记录下第一次debug找到问题的快乐。一、大整数加法（java）
Java+Selenium+Cucumber自动化测试框架：高效软件测试的利器测试渣 java selenium
一、引言在当今软件开发的快速迭代的背景下，确保软件质量和功能的正确性变得愈发关键。自动化测试作为一种提高测试效率、降低成本的有效手段，受到了广泛的关注。Java作为一门功能强大且广泛应用的编程语言，与Selenium和Cucumber相结合的自动化测试框架，为软件测试领域带来了诸多优势。本文将深入探讨这一自动化测试框架，包括其简介、各组件的作用、环境搭建、实际应用案例以及未来发展趋势等内容。二、J
从需求文档到测试用例的转化方法论测试渣测试用例
在当今快速发展的软件行业中，软件质量的高低直接关系到企业的市场竞争力和用户体验。作为软件质量保障的关键环节，测试用例的设计与实施起着至关重要的作用。而测试用例的设计，又是以需求文档为依据的。因此，如何从需求文档中准确、全面地提取信息，并转化为有效的测试用例，成为了测试团队面临的重要挑战。本文将从需求文档的特点、测试用例设计的原则和方法，以及二者之间的转化流程等方面，详细阐述从需求文档到测试用例的转
如何用Python和Selenium实现表单的自动填充与提交？字节王德发 python python selenium 开发语言
在今天的数字化时代，自动化工具可以极大地提高工作效率。很多人可能会觉得填表单是个繁琐的任务，不过你知道吗？用Python和Selenium可以轻松解决这一问题！本文将带你走进如何利用这两个强大的工具，实现表单的自动填充和提交，让你省去不少时间。什么是Selenium？Selenium是一个广泛使用的自动化测试工具，它能够模拟用户在浏览器中的操作。通过它，我们可以自动化执行诸如点击按钮、输入文本、选
【从零开始学习计算机科学】信息安全（十三）区块链贫苦游商学习区块链 hash 公有链私有链信息安全网络安全
【从零开始学习计算机科学】信息安全（十三）区块链区块链区块链概述区块链的主要特性开放，共识交易透明，双方匿名不可篡改，可追溯区块链的主要类别公有链私有链联盟链区块链核心技术Hash指针Merkle（梅根）树SPV交易验证过程区块链网络分叉解决机制51%攻击问题基于比特币的区块链的优势与不足常用的区块链区块链区块链概述能否在互联网环境（开放环境）下，创造一种技术，使得在无法保证人们相互信任的前提下，
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理