黄浩松

大数据处理之如何确保断电不丢数据

今年7、8月份杭州实行拉闸限电时，导致阿里余杭机房的机器意外断电，造成HDFS集群上的部分数据丢失。

在Hadoop 2.0.2-alpha之前，HDFS在机器断电或意外崩溃的情况下，有可能出现正在写的数据丢失的问题。而最近刚发布的CDH4中HDFS在Client端提供了hsync()的方法调用(HDFS-744)，从而保证在机器崩溃或意外断电的情况下，数据不会丢失。这篇文件将围绕这个新的接口对其实现细节进行简单的分析，从而希望找出一种合理使用hsync()的策略，避免重要数据丢失。

HDFS中sync()，hflush()和hsync()的差别

在hsync()之前，HDFS就已经提供了sync()和hflush()的调用，单从方法的名称上看，很难分辨这三个方法之间的区别。咱们先从这几个方法之间的差别介绍起。

在HDFS中，调用hflush()会将Client端buffer中的存放数据更新到Datanode端，直到收到所有Datanode的ack响应时结束调用。这样可保证在hflush()调用结束时，所有的Client端都可以读到一致的数据。HDFS中的sync()本质也是调用hflush()。

hsync()则是除了确保会将Client端buffer中的存放数据更新到Datanode端外，还会确保Datanode端的数据更新到物理磁盘上，这样在hsync()调用结束后，即使Datanode所在的机器意外断电，数据并不会因此丢失。而hflush()在机器意外断电的情况下却有可能丢失数据，因为Client端传给Datanode的数据可能存在于Datanode的cache中，并未持久化到磁盘上。下图描述了从Client发起一次写请求后，在HDFS中的数据包传递的流程。

hsync()的实现本质

hsync()执行时，实际上会在对应Datanode的机器上产生一个fsync的系统调用，从而将内存中的相关文件的数据更新到磁盘。

Client端执行hsync时，Datanode端会识别到Client发送过来的数据包中的syncBlock_字段为true，从而判定需要将内存中的数据更新到磁盘。此时会在BlockReceiver.java的flushOrSync()中执行如下语句：

((FileOutputStream)cout).getChannel().force(true);

而FileChannel的force(boolean metadata)方法在JDK中，底层为于FileDispatcherImpl.c中调用fsync或fdatasync。metadata为true时执行fsync，为false时执行fdatasync。

Java_sun_nio_ch_FileDispatcherImpl_force0(JNIEnv *env, jobject this, 
jobject fdo, jboolean md)
{
    jint fd = fdval(env, fdo);
    int result = 0;

    if (md == JNI_FALSE) {
        result = fdatasync(fd);
    } else {
        result = fsync(fd);
    }
    return handle(env, result, "Force failed");
}

当Datanode将数据持久化到磁盘上后，会发ack响应给Client端。当收到所有Datanode的ack响应时，hsync()的调用结束。

值得注意的是，fsync或fdatasync本身是一个非常耗时的调用，因为磁盘的读写速度远低于内存的读写速度。在不调用fsync或fdatasync的情况下，数据可能保存在各级cache中。

最开始笔者在测hsync()的读写性能时，发现不同机器上测试结果hsync()耗时差别巨大，有的集群平均调用耗时为4ms，而有的集群平均调用耗时则需25ms。后来在公司各位大神的点拨下才意识到是跟Linux文件系统的机制有关。在这种情况下，只有一探Linux相关部分的源码才能解开心中的疑惑，下面这节就将从更底层的角度来解析与hsync()密切相关的系统调用fsync及fdatasync方法。

fsync和fdatasync的大致实现过程

对ext4格式的文件系统来说，fsync和fdatasync方法的实现代码位于fs/ext4/fsync.c这个文件中。在追加写文件的情况下，fsync和fdatasync的流程几乎一致，因为对HDFS的写操作基本都是追加写，下面我们只讨论追加写文件下的情景。ext4格式的文件系统中布局大致如下：

Group 0 Padding	Super Block	Group Descriptors	Reserved GDT Blocks Data	Data Block Bitmap	inode Bitmap	inode Table	Data Blocks
1024 bytes	1 block	many blocks	many blocks	1 block	1 block	many block	many more blocks

在我们追加写文件时，涉及到修改的有DataBlock BitMap、inode BitMap、inode Table、Data Blocks。但从代码中来看，实际上对文件的追加会被合并成两次写(这里是指逻辑意义上的两次写，实际在从系统Cache刷新到磁盘时，读写操作会被再次合并)，第一次为写DataBlock和DataBlock Bitmap，第二次为写inode BitMap和更新inode BitMap中的inode。ext4为了支持更大的容量，使用了extend tree来实现块映射。在追加文件的情况下，fsync和fdatasync除了更新inode中的extend tree外，还会更新inode中文件大小，块计数这些metadata。对fsync来说，还会修改inode中的文件修改时间、文件访问时间（在mount选项不含noatime的情况下）和inode修改时间。

写障碍和Disk Cache的影响

在了解了fsync()和fdatasync()方法会对文件系统进行的改动后，离找出之前为什么在不同集群上hsync()的调用平均耗时的原因仍还有一段距离。这时我发现了不同的磁盘挂载选项会影响到fsync()和fdatasync()的执行时间，进而确定是写障碍和Disk Cache在搞怪。下面这节就将分析写障碍和Disk Cache对hsync()方法调用耗时的影响。

由于市面上大部分的磁盘都是带Disk Cache的，这导致在不开启写障碍的情况下，机器意外断电可能会对其造成metadata的不一致。对ext4这种journal文件系统来说，journal写入一个事务后，会对metadata进行更新，更新完成后会将该事务标记从未执行修改为完成。举个例子，加入我们要创建并写一个文件，那么在journal中可能会产生三个事务。那么创建并写一个文件的执行流程如下：

在磁盘没有Disk Cache的情况下，即时机器意外断电，那么重启自检时，可通过journal中最后事务的状态来对metadata进行重新执行修复或者废弃该事务。从而保证了metadata的一致性。但在磁盘有Disk Cache的情况下，IO事件会当数据写到Disk Cache中就响应完成。虽然journal按上图的流程进行执行，但是执行完成后这些数据仍可能有部分并未持久化到磁盘上。假如在执行第6个步骤的时候机器意外断电，同时第4个步骤中的数据暂未更新到磁盘，而第1，2，3，5个步骤的数据已经同步到磁盘的话。这时机器重启自检时，由于第5个步骤中journal的执行状态为未完成，会重新执行第6个步骤一次。但第6个步骤对metadata的修改是建立在第4个步骤已经完成的基础之上的，由于第4个步骤并未持久化到磁盘，所以重新执行第6个步骤时会发生异常，造成metadata的错误。

Linux中为了避免这一情况，可以在ext4的mount选项中加barrier=1,data=ordered开启写障碍，来确保数据持久化到磁盘的顺序。在写障碍前的数据会先于写障碍后的数据刷新到磁盘，Linux会在journal的事务写到Disk Cache中后放置一个写障碍。这样journal的事务位于写障碍之前，而对应的metadata的修改数据位于写障碍之后。避免了Disk Cache中合并IO时，对读写操作进行重排序后，由于读写操作执行顺序的改变而造成意外断电后metadata无法修复的情况。

关闭写障碍，即ext4的mount选项为barrier=0时，除了有可能造成在机器断电或异常崩溃重启后metadata错误外，fsync和fdatasync的调用还会在数据更新到Disk Cache时就返回，而非等到数据刷新到磁盘上后才结束调用。因为在不开写障碍的情况下，Linux会将此时的磁盘当做没有Disk Cache的磁盘来处理，当数据只是更新到Disk Cache，就会认为该IO操作已完成，这也正是前文中提到的不同集群上hsync()的平均调用时长差别巨大的原因。所以关闭写障碍的情况下，调用fsync或fdatasync并不能确保数据在机器断电或异常崩溃时不丢失。

Disk Cache的存在可以提高磁盘每秒的吞吐量，通过重排序IO，尽量将IO读写变成顺序读写提高速率，同时减少文件系统碎片。而通过开启写障碍，可避免意外断电情形下metadata异常，同时确保调用fsync或fdatasync时Disk Cache中的数据持久到磁盘。

开启journal的影响

除了写障碍和Disk Cache会影响到hsync()的调用时长外，Datanode上文件系统有没有打开journal也是影响因素之一。关闭journal的情况下可以减少hsync()的调用时长。

在不开启journal的情况下，调用fsync或fdatasync主要是由generic_file_fsync这个方法来实现将数据刷新到磁盘。在追加写文件的情况下，不论是fsync还是fdatasync，在generic_file_fsync这个方法中都会先更新Data Block数据，再更新inode数据。如果执行fsync或fdatasync的文件为新创建的文件，在不开启journal的情况下，还会在更新完文件的inode后，更新该文件的父结点的Data Block和inode。

而开启journal的情况下，调用fsync或fdatasync会先写Data Block，然后提交journal的事务。虽然调用fsync或fdatasync是指定对某个文件进行操作，但在ext4中，整个文件系统只有一个journal文件，提交journal的修改事务时会将整个文件系统的metadata的修改事务一并提交。在文件系统写入操作频繁时，这一步操作会比较耗时。

fsync及fdatasync耗时测试

测试使用的代码如下：

代码中以追加的方式向一个已存在的文件写入4k数据，4k刚好为内存页和磁盘块的大小。下面分别以几种模式来测试fsync和fdatasync的耗时。

#define BLOCK_LEN 1024

static long long microseconds(void) {
        struct timeval tv;
        long long mst;

        gettimeofday(&tv, NULL);
        mst = ((long long)tv.tv_sec) * 1000000;
        mst += tv.tv_usec;
        return mst;
}

int main(void) {
        int block = open("./block", O_WRONLY|O_APPEND, 0644);
        long long block_start, block_end, fdatasync_time, fsync_time;

        char block_buf[BLOCK_LEN];
        int i = 0;
        for(i = 0; i < BLOCK_LEN; i++){
                block_buf[i] = i % 50;
        }

        if (write(block, block_buf, BLOCK_LEN) == -1) {
                perror("write");
                exit(1);
        }
        block_start = microseconds();
        fdatasync(block);
        block_end = microseconds();
        fdatasync_time = block_end - block_start;

        if (write(block, block_buf, BLOCK_LEN) == -1) {
                perror("write");
                exit(1);
        }
        block_start = microseconds();
        fsync(block);
        block_end = microseconds();
        fsync_time = block_end - block_start;

        printf("fdatasync spent: %lld, fsync spent: %lld\n",
               fdatasync_time,
               fsync_time);

        close(block);
        exit(0);
}

测试准备

文件系统：ext4
操作系统内核：Linux 2.6.18-164.el5
硬盘型号：WDC WD1003FBYX-1 1V02，SCSI接口
通过sdparm--set=WCE /dev/sdx开启Disk Write Cache，sdparm--clear=WCE /dev/sdx关闭Disk Write Cache
通过barrier=1,data=ordered开启写障碍，barrier=0关闭写障碍
通过tune4fs-O has_journal /dev/sdxx开启Journal，tune4fs-O ^has_journal /dev/sdxx关闭Journal

关闭Disk Cache，关闭Journal

类型	耗时（微秒）
fdatasync	8368
fsync	8320

Device	wrqm/s	w/s	wkB/s	avgrq-sz	avgqu-sz	await	svctm	%util
sdi	0.00	120.00	480.00	8.00	1.00	8.33	8.33	100.00

可以看到，iostat为8ms，对inode、Data Block、inode Bitmap、DataBlock Bitmap的数据更新合并为了一次写操作。

关闭Disk Cache，开启Journal

类型	耗时（微秒）
fdatasync	33534
fsync	33408

Device	wrqm/s	w/s	wkB/s	avgrq-sz	avgqu-sz	await	svctm	%util
sdi	37.00	74.00	444.00	11.95	1.22	16.15	13.32	99.90

通过使用blktrace跟踪对磁盘块的读写，发现此处写journal会比较耗时，下面的记录为fsync过程中对磁盘发送的写操作，已预处理掉了大部分不重要的信息，可以看到，后面三条记录都是journal的写操作（通过此处kjournald的进程id为3001来识别）。

13	1	0.000000000	8835	A	W	2855185 + 8 <- (8,129) 2855184
4	5	0.000313001	3001	A	W	973352281 + 8 <- (8,129) 973352280
4	1	0.000305325	3001	A	W	973352273 + 8 <- (8,129) 973352272
4	12	0.014780357	3001	A	WS	973352289 + 8 <- (8,129) 973352288

开启Disk Cache，开启写障碍，开启Journal

类型	耗时（微秒）
fdatasync	23759
fsync	25006

从结果可以看到，Disk Cache的开启可以合并更多IO，从而减少耗时。

值得注意的是，在开启Disk Cache时，iostat的await是按照从内存写完到Disk Cache中来统计耗时，并非是按照写到磁盘上来计时，所以此种情况下iostat的await参数会比较小，并无参考意义。

小结

从这次测试结果可以看到，虽然CDH4提供了hsync()方法，但是若我们对每次写操作都执行hsync()，会严重加剧磁盘的写延迟。通过一些策略，比方说定期执行hsync()或当存在于Cache中的数据达到一定数目时，执行hsync()会是更可行的方案，从而尽量减少机器意外断电所带来的影响。

附：术语解释

Hadoop: Apache基金会的开源项目，用于海量数据存储与计算。
CDH4: Cloudera公司在Apache社区发行版基础之上进行改进后的发行版，更稳定更适用于生产环境。
Namenode: Hadoop的HDFS模块中管理所有文件元数据的组件。
Datanode: Hadoop的HDFS模块中存储文件实际数据的组件。
HDFS Client: 这里指连接HDFS对其中文件进行读写操作的客户端。

作者简介

黄浩松，华南农业大学学生，现于阿里巴巴数据平台实习。微博ID：@华农金中菊

Python LDAP库在Windows 64位环境中的应用规则哥讲规则
本文还有配套的精品资源，点击获取简介：PythonLDAP库是一个开源模块，它让Python开发者能够与LDAP服务器进行交互，执行操作如连接、查询、修改目录信息等。该库针对Python3.6和3.7版本优化，并适用于Windows64位架构。解压缩后，可以通过pip安装至项目中，实现集中式身份验证和数据管理功能。1.LDAP技术与Python交互概述LDAP（轻量级目录访问协议）是一种应用广泛的
【PyTorch】2024保姆级安装教程-Python-（CPU+GPU详细完整版）金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 python pytorch 人工智能
【PyTorch】2024保姆级安装教程（CPU+GPU详细完整版）PyTorch是当前最受欢迎的深度学习框架之一。本文将详细讲解在Python环境中安装PyTorch，包括CPU和GPU版本的全方位指南。一、前置环境首先确保已安装Python环境，推荐使用Python3.8或以上版本。验证Python安装：python--versionpip--version推荐使用虚拟环境（如conda或ve
JavaScript基础-常见网页特效案例咖啡の猫 javascript 开发语言 ecmascript
一、前言在前端开发中，实现网页特效（如轮播图、下拉菜单、Tab切换、拖拽效果等）是提升用户体验和页面交互性的关键手段之一。这些特效不仅能增强用户对网站的粘性，也是衡量一个前端开发者能力的重要标准。JavaScript是实现网页特效的核心技术之一，结合HTML和CSS，可以轻松构建丰富的交互效果。本文将带你深入了解：常见网页特效的实现原理；如何使用原生JavaScript实现经典特效；每个案例附带完
JavaScript基础-触屏事件咖啡の猫 javascript 开发语言 ecmascript
一、前言随着移动端设备的普及，网页不仅要适配PC浏览器，更要兼容手机和平板等触摸设备。传统的鼠标事件（如click、mousedown等）在触控操作中存在一定的延迟和局限性，因此JavaScript提供了专门用于处理触摸操作的API——触屏事件（TouchEvents）。本文将带你深入了解：触屏事件的基本概念；常见的触屏事件类型（touchstart、touchmove、touchend等）；如何
随机化在临床试验中的应用与挑战 qq_34062333 临床试验统计学
一、随机化的核心目的1.1控制混杂偏倚1.1.1平衡预后因素确保已知/未知预后因素在组间分布均衡，避免基线不平衡影响结果。1.1.2避免选择偏倚防止研究者或患者主观选择分组，保障组间差异归因于干预。1.2保障统计推断有效性1.2.1满足独立性假设满足统计检验的独立性假设，使统计推断有效。1.2.2实现盲法基础为双盲实施提供先决条件，确保试验结果无偏。二、随机化类型与技术实现2.1简单随机化2.1.
重复原则与样本量估计：临床试验的统计引擎 qq_34062333 临床试验统计学
一、重复原则的科学内涵1.1核心目的1.1.1量化随机误差通过足够样本量估计效应值的波动范围，确保结果可重现。1.1.2避免偶然性结论避免因小样本极端结果导致的偶然性结论，确保结论稳健。1.1.3提升外推性覆盖人群异质性，提升研究结果的外推性。1.2统计学本质1.2.1标准误样本量增加，标准误减小，置信区间变窄，精度提高。二、样本量估计的四大核心参数2.1显著性水平(α)2.1.1定义I类错误概率
整合性安全总结（ISS）早期规划 qq_34062333 临床试验 NDA
1.ISS统一性建设工作启动1.1研究元数据标准化1.1.1不同类型研究元数据规范DBL研究锁定数据库后，需梳理元数据，确保信息完整准确，为后续分析奠定基础。OL研究进行中，实时更新元数据，反映研究进展，避免数据偏差影响结果。新启动研究，依据统一模板构建元数据，减少初期工作量，提高研究效率。1.1.2cADaM规范建立结合各类研究特点，制定跨研究核心分析数据集规范，提升数据整合性。规范涵盖数据结构
使用大模型预测心力衰竭的全流程系统技术方案大纲 LCG元大模型医疗研究-方案大纲方案大纲深度学习机器学习人工智能
目录1.引言背景与意义目标2.术前风险评估与预测数据采集与预处理风险预测模型输出应用3.术中风险实时监测与预警实时数据流处理动态风险预测4.术后恢复与并发症预测恢复轨迹建模并发症防控5.个性化治疗方案制定6.统计分析与模型验证验证方法性能指标7.健康教育与指导方案8.技术架构与实施路径1.引言背景与意义问题现状：心力衰竭（HF）全球患者超千万，中国25岁以上人群患病率1.1%；传统诊疗漏诊率高，预
HTTP常见状态码汇总 Ailerx 计算机网络 http 网络协议网络
HTTP常见状态码汇总HTTP状态码是服务器对客户端请求的响应结果，用三位数字表示，分为五类。了解常见状态码，有助于快速定位问题和优化体验。1xx：信息响应100Continue说明客户端可以继续发送请求的剩余部分。常见于大文件上传，告诉客户端服务器已准备好。2xx：成功200OK请求成功，服务器返回请求的数据。最常见的成功状态码。201Created资源创建成功，比如POST请求新建数据后返回。
MSTP技术解析：提升网络负载均衡 Honey\ 服务器运维
MSTP背景RSTP/STP的缺陷:RSTP/STP的被阻塞端口阻塞的链路不承载任何流量，无法实现数据的负载均衡；可能有二层次优路径MSTP:通过将一个或多个VLAN映射到instance上，再基于instance进行生成树的计算解决了二层环路问题；提供了二层网络冗余环境；实现流量的负载分担MSTP基本概念MSTRegion（多生成树域）:MSTP网络中包含一个或多个MST域MSTI（多生成树实例
从入门到精通：前端工程师必学的 JSON 全解析前端视界前端 json 状态模式 ai
从入门到精通：前端工程师必学的JSON全解析关键词：JSON、前端工程师、数据交换、JavaScript、数据格式摘要：本文围绕前端工程师必学的JSON展开全面解析。从JSON的基本概念、背景知识入手，深入探讨其核心原理、算法实现、数学模型等方面。通过详细的代码示例和实际应用场景分析，帮助前端工程师从入门到精通掌握JSON的使用。同时，提供了丰富的学习资源、开发工具和相关论文推荐，最后对JSON的
redis的持久化 2401_85327573 redis 数据库缓存
Redis的持久化机制是其重要特性之一，允许将内存中的数据保存到磁盘，以防止数据丢失或支持系统重启后数据恢复；Redis提供两种主要持久化方式：RDB（快照）和AOF（追加日志）。1.Redis持久化机制(1)RDB（快照）RDB持久化通过定期将内存中的数据集快照保存到磁盘上的二进制文件。-工作原理：-Redis在满足特定条件（如时间间隔或操作次数）时，触发快照操作。-优点：-文件紧凑，适合备份和
RDKit：药物化学和分子数据处理的强大工具库碳酸的唐机器学习人工智能
引言在药物研发、化学信息学和分子设计领域，高效处理和分析分子数据是至关重要的。RDKit作为一个开源的化学信息学和机器学习工具包，为研究人员和数据科学家提供了丰富的功能，包括分子操作、描述符计算、指纹生成、相似性比较、子结构搜索和分子可视化等。本文将详细介绍RDKit的主要功能、应用场景以及实际操作示例，展示这一强大工具在分子数据处理中的核心价值。RDKit简介RDKit是一个由C++和Pytho
掌握Python与LDAP在域认证中的应用 seiji morisako
本文还有配套的精品资源，点击获取简介：信息技术领域中的域认证机制利用LDAP协议实现用户身份验证。Python脚本语言通过python-ldap库与LDAP服务器交互，执行用户认证。本文将详细介绍Python如何使用python-ldap库进行LDAP连接、搜索、绑定操作，以及如何处理Web开发中的Cookie。学习这些技能有助于构建安全的用户登录系统和提升Web应用的用户体验。1.LDAP协议基
【企业研发】ELK开发 flyair_China django python 后端
一、ElasticSearchElasticsearch作为当前最流行的全文检索引擎之一，在众多领域展现出强大的搜索和分析能力。1.1、全文检索与精准检索的差异Elasticsearch提供两种主要的查询方式：全文检索匹配检索(Full-textMatchQuery)和精准匹配检索(ExactMatchQuery)，它们在处理查询词和索引数据时有显著区别。1.精准匹配检索(ExactMatchQu
【企业管理】研发管理之产品生命周期管理 flyair_China 企业管理研发管理产品经理
一、产品生命周期管理的体系化方法与思路1.全周期管理框架四阶段模型：导入期（市场验证）、成长期（规模扩张）、成熟期（利润优化）、衰退期（战略退出）。核心流程：需求分析：通过市场调研与用户画像精准定位需求（如特斯拉ModelS导入期的高端定位）。研发协同：采用敏捷开发（Scrum/Kanban）与模块化设计，缩短研发周期（如华为硬件迭代效率提升30%）。生产与供应链：数字化供应链管理（如西门子工业4
Wireshark的捕获接口设置没有梦想的程序猿 wireshark 测试工具网络
通过Wireshark菜单栏的“捕获”-“选项”和工具栏的“捕获选项”按钮，可以进入接口捕获接口的设置。打开捕获接口设置界面，首先设置“Input”标签。进行接口选择，关掉不必要的接口。选择使用接口模式，选择“混杂模式”，即抓取经过的所有数据包，包括发往本网卡和本网卡转发的。“非混杂模式”，表示只抓取目标地址是本网卡的数据包。也可以在本界面设置过滤器。在“输出”标签，进行输出文件的设置。勾选“自动
landsat卫星遥感影像下载、处理教程一条破秋裤个人笔记笔记
1.landsat数据下载USGS网址：EarthExplorer参考链接：USGS下载遥感影像——以Landsat影像下载为例_usgs怎么下载遥感影像-CSDN博客L1TP数据进行了几何校正和辐射校正，L2SP数据在此基础上，进一步处理后的数据，通常包括地表反射率和其他相关的地表特征信息。但是L1和L2的选择需要根据实际需求。这里我们选择下载landsat8-9L1数据目前是可以直接在浏览器下
流量的代价：当“带货神话”撞上法律利剑数据与人工智能律师人工智能云计算区块链网络算法
首席数据官高鹏律师数字经济团队创作AI辅助一、数据洪流中的“信任坍塌”在数字经济的浪潮中，一场场直播带货的狂欢正在重塑商业生态。屏幕前的KOL们，用话术编织出商品的“完美图景”，观众在“限时折扣”“独家首发”的鼓点中按下订单键。然而，当流量红利与法律底线形成对冲，一场关于信任的博弈悄然展开。某平台头部主播曾宣称某保健品可“逆转糖尿病”，结果产品成分仅为普通压片糖果；另一直播间用“癌症克星”“三天见
数据霸权与公共利益的博弈：强制许可制度能否打破数字帝国的城墙
首席数据官高鹏律师数字经济团队创作，AI辅助当数据成为新贵：一场静默的“圈地运动”2025年的某个清晨，某头部电商平台的数据库负责人在晨会上宣布：“我们的用户行为数据集已覆盖8亿活跃用户，这是我们的护城河。”这句话背后，藏着一个被忽视的真相：数据的排他性权利正在催生新的垄断形态——那些掌握海量数据的企业，正悄然构建起数字时代的“封建领地”。数据知识产权的排他性，本意是保护企业对数据的投入与创新，但
【网络安全】对称密码体制 Hacker_xingchen web安全安全网络
1.对称密码体制概述1.1定义与特点对称密码体制，也称为单钥密码体制，是一种加密方法，其中加密和解密过程使用相同的密钥。这种加密方式的主要特点包括简单、高效和计算速度快，适合于大量数据的快速加密和解密。对称密码体制的安全性完全依赖于密钥的保密性，一旦密钥被泄露，加密的安全性就会受到威胁。效率：对称密码算法通常比非对称密码算法要快，因为它们的算法结构相对简单，计算量较小。密钥管理：对称密码体制的密钥
【AI大模型】Spring AI 基于Redis实现对话持久存储详解小码农叔叔 AI 大模型应用到项目实战高手 springboot 入门到精通项目实战 Spring AI会话存储 Spring AI会话记忆 Spring AI持久化会话 Spring AI会话持久化 Spring AI会话 Spring AI记忆
目录一、前言二、SpringAI会话记忆介绍2.1SpringAI会话记忆概述2.2常用的会话记忆实现方式2.2.1集成数据库持久存储会话实现步骤2.3适用场景三、SpringAI基于内存会话记忆存储3.1本地开发环境准备3.2工程搭建与集成3.2.1添加核心依赖3.3.2添加配置文件3.3.3添加测试接口3.2ChatMemory介绍3.2.1ChatMemory概述3.2.2InMemoryC
SpringBoot-jdbcTemplate访问数据库 xiatianit springboot spring boot 数据库 java
在实际的企业级应用开发中，却很少有人直接使用原生的JDBCAPI进行开发，这是因为使用JDBCAPI对数据库进行操作十分繁琐，需要我们对每一步都做到“步步把控，处处关心”，例如我们需要手动控制数据库连接的开启，异常处理、事务处理、最后还要手动关闭连接释放资源等等。Spring提供了一个SpringJDBC模块，它对JDBCAPI进行了封装，其的主要目的降低JDBCAPI的使用难度，以一种更直接、更
如何在编辑器wangEditor中完美复制粘贴WORD内容？ M_Snow 编辑器 word umeditor粘贴word ueditor粘贴word ueditor复制word ueditor上传word图片 ueditor导入word
要求：开源，免费，技术支持编辑器：wangEditor前端：vue2,vue3,vue-cli,html5后端：java,jsp,springboot,asp.net,php,asp,.netcore,.netmvc,.netform群体：学生,个人用户,外包,自由职业者,中小型网站,博客,场景：数字门户,数字中台,站群,内网，外网，信创国产化环境，web截屏行业：医疗，教育，建筑，政府，党政，国
黑马JVM解析笔记（六）：深入理解JVM类加载机制与运行时优化 null不是我干的 JVM jvm 笔记
1.JVM类加载类加载是Java虚拟机将描述类.class文件加载到内存，并对数据进行校验、转换解析和初始化，最终形成可以被JVM直接使用的Java类型的过程。核心阶段：加载—>连接—>初始化1.1加载，以jdk1.8为例类加载器先把Person.class字节码解析为InstanceKlass（底层是c++）结构，存放一些关键信息和对象的引用，生命周期与类加载器相同（类卸载时才释放）然后就是把新
网页版wangEditor如何实现WORD图片的高效粘贴？ M_Snow word umeditor粘贴word ueditor粘贴word ueditor复制word ueditor上传word图片 ueditor导入word ueditor导入pdf
要求：开源，免费，技术支持编辑器：wangEditor前端：vue2,vue3,vue-cli,html5后端：java,jsp,springboot,asp.net,php,asp,.netcore,.netmvc,.netform群体：学生,个人用户,外包,自由职业者,中小型网站,博客,场景：数字门户,数字中台,站群,内网，外网，信创国产化环境，web截屏行业：医疗，教育，建筑，政府，党政，国
学习日记-spring-day37-6.25 永日45670 学习日记学习 spring java
知识点：1.使用utillist进行配置知识点核心内容重点Spring框架中utl名称空间创建List通过utl名称空间创建并管理集合对象，实现数据复用utllist与普通list赋值的区别;名称空间引入方法无参构造器使用规则当类中没有其他构造器时，默认无参构造器可不写；若有其他构造器则必须显式定义无参构造器构造器覆盖机制;显式定义的必要性XML名称空间引入使用alt+enter自动引入或手动添加
MapReduce概述 Tate小白大数据学习 mapreduce
1、MapReduce概述1.1MapReduce定义MapReduce是一个分布式运算程序的编程框架，是用户开发“Hadoop的数据分析应用”的核心框架。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Reduc
47、文件系统操作与管理 nnn11 C++编程精华：从基础到高级 C++文件系统 std::filesystem
文件系统操作与管理1.文件系统的概述文件系统是操作系统中用于组织、管理和存储文件的数据结构。在C++中，文件系统的操作主要依赖于标准库中的头文件，该库提供了丰富的API来处理文件和目录。通过std::filesystem命名空间，开发者可以轻松地进行文件路径解析、目录遍历、文件属性查询等操作，极大地提高了代码的可读性和可维护性。2.库简介C++17引入了库，使得文件系统操作更加简便和高效。std:
【Axum】Rust Web 高效构建：Axum 框架从入门到精通指南 LCG元前端 rust 前端开发语言
目录一、环境准备与项目创建1.1安装Rust工具链1.2创建项目并添加依赖二、Axum核心架构解析三、项目结构设计四、核心代码实现4.1应用入口(src/main.rs)4.2数据模型(src/models.rs)4.3路由配置(src/routes.rs)4.4认证服务(src/services/auth.rs)4.5用户处理器(src/handlers.rs)4.6数据访问层(src/repo
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb