andyhuabing

Redis 之BIO与RIO

一、BIO 之后台IO操作
BIO : Background I/O service for Redis.

负责我们需要在后台执行的操作。现在redis的版本中只有两类的操作，后台的close及fsync 系统调用。
为了避免一个文件最后的owner在执行close操作带来的unlink使得阻塞server，将这类操作用单独的后台线程来执行

将数据从内存写入磁盘这点非常重要，即fdatasync、因此就需要调用 fsync() 把文件数据和文件元信息写入强制刷新到磁盘中，这个速度是比较慢的、而其调用频度又会很高，所以有必要不能因IO而堵住现有的流程操作。

REDIS 允许有三种不同的策略:

/* Append only defines */
// 让kernel后台线程去做  这个线程默认可能是30秒去做一次
#define AOF_FSYNC_NO 0  
// 每次有write操作到AOF里 就会调用fsync
#define AOF_FSYNC_ALWAYS 1 
// 每秒调用一次fsync
#define AOF_FSYNC_EVERYSEC 2 
#define CONFIG_DEFAULT_AOF_FSYNC AOF_FSYNC_EVERYSEC

AOF_FSYNC_EVERYSEC是一个很好的这种折中对于性能和安全这2个点。

/* 刷新缓存区的内容到磁盘中 */
void flushAppendOnlyFile(int force) {
	int sync_in_progress = 0;
	
    if (server.aof_fsync == AOF_FSYNC_EVERYSEC) // 这个判定是否后台正在执行 fsync 
        sync_in_progress = bioPendingJobsOfType(BIO_AOF_FSYNC) != 0;

	// 这里根据时间进行判定
    if (server.aof_fsync == AOF_FSYNC_EVERYSEC && !force) {
        /* With this append fsync policy we do background fsyncing.
         * If the fsync is still in progress we can try to delay
         * the write for a couple of seconds. */
        if (sync_in_progress) {
            if (server.aof_flush_postponed_start == 0) {
                /* No previous write postponing, remember that we are
                 * postponing the flush and return. */
                server.aof_flush_postponed_start = server.unixtime;
                return;
            } else if (server.unixtime - server.aof_flush_postponed_start < 2) {
                /* We were already waiting for fsync to finish, but for less
                 * than two seconds this is still ok. Postpone again. */
                return;
            }
            /* Otherwise fall trough, and go write since we can't wait
             * over two seconds. */
            server.aof_delayed_fsync++;
            serverLog(LL_NOTICE,"Asynchronous AOF fsync is taking too long (disk is busy?). Writing the AOF buffer without waiting for fsync to complete, this may slow down Redis.");
        }
    }
    
    /* We want to perform a single write. This should be guaranteed atomic
     * at least if the filesystem we are writing is a real physical one.
     * While this will save us against the server being killed I don't think
     * there is much to do about the whole server stopping for power problems
     * or alike */
	//在进行写入操作的时候，还监听了延迟、write函数由于aof_buf一般不大很快就能返回，而阻塞的是fdatasync导致write等待
    latencyStartMonitor(latency);
    nwritten = write(server.aof_fd,server.aof_buf,sdslen(server.aof_buf));
    latencyEndMonitor(latency);
    
    // 调用偏移量
    server.aof_current_size += nwritten;

	// 优化内存重复使用性
    /* Re-use AOF buffer when it is small enough. The maximum comes from the
     * arena size of 4k minus some overhead (but is otherwise arbitrary). */
    if ((sdslen(server.aof_buf)+sdsavail(server.aof_buf)) < 4000) {
        sdsclear(server.aof_buf);
    } else {
        sdsfree(server.aof_buf);
        server.aof_buf = sdsempty();
    }
    
    /* Perform the fsync if needed. */
    if (server.aof_fsync == AOF_FSYNC_ALWAYS) {
        /* aof_fsync is defined as fdatasync() for Linux in order to avoid
         * flushing metadata. */
        latencyStartMonitor(latency);
        aof_fsync(server.aof_fd); /* Let's try to get this data on the disk */
        latencyEndMonitor(latency);
        latencyAddSampleIfNeeded("aof-fsync-always",latency);
        server.aof_last_fsync = server.unixtime;
    } else if ((server.aof_fsync == AOF_FSYNC_EVERYSEC &&
                server.unixtime > server.aof_last_fsync)) {
        // 交由后台执行fsync操作
        if (!sync_in_progress) 
        	aof_background_fsync(server.aof_fd);
        server.aof_last_fsync = server.unixtime;
    }
}

用法很简单、下面重点看下BIO内部是如何实现的.

/* Background job opcodes */
#define BIO_CLOSE_FILE    0 /* Deferred close(2) syscall. */
#define BIO_AOF_FSYNC     1 /* Deferred AOF fsync. */
#define BIO_NUM_OPS       2

主要两类作业类型：1.close 2.aof_fsync

//使用互斥量+条件变量，作为线程的保护条件
static pthread_mutex_t bio_mutex[REDIS_BIO_NUM_OPS];
static pthread_cond_t bio_condvar[REDIS_BIO_NUM_OPS];

//两类作业的队列、工作与挂起队列
static list *bio_jobs[REDIS_BIO_NUM_OPS];
static unsigned long long bio_pending[REDIS_BIO_NUM_OPS];

/* This structure represents a background Job. It is only used locally to this
 * file as the API does not expose the internals at all. */
struct bio_job {
    time_t time; /* Time at which the job was created. */
    /* Job specific arguments pointers. If we need to pass more than three
     * arguments we can just pass a pointer to a structure or alike. */
    void *arg1, *arg2, *arg3;
};

// 初始化相应变量并建立后台线程bioProcessBackgroundJobs
/* Initialize the background system, spawning the thread. */
void bioInit(void) {
    pthread_attr_t attr;
    pthread_t thread;
    size_t stacksize;
    int j;

    /* Initialization of state vars and objects */
    for (j = 0; j < BIO_NUM_OPS; j++) {
        pthread_mutex_init(&bio_mutex[j],NULL);
        pthread_cond_init(&bio_condvar[j],NULL);
        bio_jobs[j] = listCreate();
        bio_pending[j] = 0;
    }

    /* Set the stack size as by default it may be small in some system */
    pthread_attr_init(&attr);
    pthread_attr_getstacksize(&attr,&stacksize);
    if (!stacksize) stacksize = 1; /* The world is full of Solaris Fixes */
    while (stacksize < REDIS_THREAD_STACK_SIZE) stacksize *= 2;
    pthread_attr_setstacksize(&attr, stacksize);

    /* Ready to spawn our threads. We use the single argument the thread
     * function accepts in order to pass the job ID the thread is
     * responsible of. */
    for (j = 0; j < BIO_NUM_OPS; j++) {
        void *arg = (void*)(unsigned long) j;
        if (pthread_create(&thread,&attr,bioProcessBackgroundJobs,arg) != 0) {
            serverLog(LL_WARNING,"Fatal: Can't initialize Background Jobs.");
            exit(1);
        }
        bio_threads[j] = thread;
    }
}

// 创建后台作业、并将作业挂成链表
void bioCreateBackgroundJob(int type, void *arg1, void *arg2, void *arg3) {
    struct bio_job *job = zmalloc(sizeof(*job));

    job->time = time(NULL);
    job->arg1 = arg1;
    job->arg2 = arg2;
    job->arg3 = arg3;
    pthread_mutex_lock(&bio_mutex[type]);
    // 作业加入到队尾
    listAddNodeTail(bio_jobs[type],job);
    // 挂起的作业队列数目加1
    bio_pending[type]++;
    pthread_cond_signal(&bio_condvar[type]);
    pthread_mutex_unlock(&bio_mutex[type]);
}
 
// 后台处理线程
void *bioProcessBackgroundJobs(void *arg) {
    struct bio_job *job;
    unsigned long type = (unsigned long) arg;
    sigset_t sigset;

    /* Check that the type is within the right interval. */
    if (type >= BIO_NUM_OPS) {
        serverLog(LL_WARNING,
            "Warning: bio thread started with wrong type %lu",type);
        return NULL;
    }

    /* Make the thread killable at any time, so that bioKillThreads()
     * can work reliably. */
    pthread_setcancelstate(PTHREAD_CANCEL_ENABLE, NULL);
    pthread_setcanceltype(PTHREAD_CANCEL_ASYNCHRONOUS, NULL);

    pthread_mutex_lock(&bio_mutex[type]);
    /* Block SIGALRM so we are sure that only the main thread will
     * receive the watchdog signal. */
    sigemptyset(&sigset);
    sigaddset(&sigset, SIGALRM);
    if (pthread_sigmask(SIG_BLOCK, &sigset, NULL))
        serverLog(LL_WARNING,
            "Warning: can't mask SIGALRM in bio.c thread: %s", strerror(errno));

    while(1) {
        listNode *ln;

		// 是否有作业未做，如果无任何作业则wait
        /* The loop always starts with the lock hold. */
        if (listLength(bio_jobs[type]) == 0) {
            pthread_cond_wait(&bio_condvar[type],&bio_mutex[type]);
            continue;
        }
        
        // 取出链表头作业结点
        /* Pop the job from the queue. */
        ln = listFirst(bio_jobs[type]);
        job = ln->value;
        /* It is now possible to unlock the background system as we know have
         * a stand alone job structure to process.*/
        pthread_mutex_unlock(&bio_mutex[type]);

		// 真正执行
        /* Process the job accordingly to its type. */
        if (type == BIO_CLOSE_FILE) {
            close((long)job->arg1);
        } else if (type == BIO_AOF_FSYNC) {
            aof_fsync((long)job->arg1);
        } else {
            serverPanic("Wrong job type in bioProcessBackgroundJobs().");
        }
        zfree(job);

        /* Lock again before reiterating the loop, if there are no longer
         * jobs to process we'll block again in pthread_cond_wait(). */
        pthread_mutex_lock(&bio_mutex[type]);
        // 从链表中删除已完成的作业
        listDelNode(bio_jobs[type],ln);
        // 挂起的作业队列数目减1
        bio_pending[type]--;
    }
}

总结：
1、针对耗时的 close及fsync 进行另起线程后台执行、可以避免主线程阻塞问题。
2、对于高性能的文件刷新还有一些好的创意、这个好好再细看下。

二、RIO (统一buffer、file、socket不同对象IO操作)
I/O操作对于每个系统来说都是必不可少的一部分、而I/O操作的好坏，在一定程度上也会影响着系统的效率问题。

提供三个方面内容：
1、读写操作、获取偏移量操作等相关的回调函数。
rio可以处理buffer、file、socket三种不同类型的I/O对象，不同的rio对象底层使用相应的系统调用完成
read、write、tell、flush操作。比如，对于file rio对象，底层通过fwrite函数完成写操作，通过fread
函数完成读操作。
2、校验和操作。rio使用了RCR64算法计算校验和，具体实现可以参看crc64.h和crc64.c文件。
3、IO变量。_rio中的io成员是一个联合体，针对不同的I/O情况进行不同的处理：当执行内存buffer的I/O操作时，
使用rio.buffer结构体；当执行文件I/O操作时，使用rio.file结构体；当执行socket的I/O操作时，使用rio.fdset结构体。

先看一下 struct rio 结构：

// 系统IO操作的封装
struct _rio {
    /* Backend functions.
     * Since this functions do not tolerate short writes or reads the return
     * value is simplified to: zero on error, non zero on complete success. */
    // 数据流的读方法
    size_t (*read)(struct _rio *, void *buf, size_t len);
    // 数据流的写方法
    size_t (*write)(struct _rio *, const void *buf, size_t len);
    // 获取当前的读写偏移量
    off_t (*tell)(struct _rio *);
    // flush操作
    int (*flush)(struct _rio *);
    /* The update_cksum method if not NULL is used to compute the checksum of
     * all the data that was read or written so far. The method should be
     * designed so that can be called with the current checksum, and the buf
     * and len fields pointing to the new block of data to add to the checksum
     * computation. */
    // 更新校验和
    void (*update_cksum)(struct _rio *, const void *buf, size_t len);

    /* The current checksum */
    // 当前校验和
    uint64_t cksum;

    /* number of bytes read or written */
    // 已读或已写的字节数
    size_t processed_bytes;

    /* maximum single read or write chunk size */
    // 每次读或写操作的最大字节数
    size_t max_processing_chunk;

    /* Backend-specific vars. */
    // 不同的io变量
    union {
        /* In-memory buffer target. */
        // 内存缓冲区buffer结构体(buffer指针及偏移量)
        struct {
            sds ptr;
            off_t pos;
        } buffer;
        
        /* Stdio file pointer target. */
        // 文件结构体(文件句柄)
        struct {
            FILE *fp;
            // 最后一个fsync后写入的字节数
            off_t buffered; /* Bytes written since last fsync. */
            // 多少字节进行一次fsync操作
            off_t autosync; /* fsync after 'autosync' bytes written. */
        } file;
        
        /* Multiple FDs target (used to write to N sockets). */
         // 封装了多个文件描述符结构体（写同样的数据到多个socket fd中）
        struct {
        	// 文件描述符数组
            int *fds;       /* File descriptors. */
            int *state;     /* Error state of each fd. 0 (if ok) or errno. */
            // 文件描述符的个数
            int numfds;
            // 偏移量
            off_t pos;
            // 缓冲区
            sds buf;
        } fdset;
    } io;
};

再看rio统一定义的读写方法：

static inline size_t rioWrite(rio *r, const void *buf, size_t len) {
    while (len) {
    	//判断当前操作字节长度是否超过最大长度
        size_t bytes_to_write = (r->max_processing_chunk && r->max_processing_chunk < len) ? r->max_processing_chunk : len;
        //写入新的数据时，更新校验和
        if (r->update_cksum) r->update_cksum(r,buf,bytes_to_write);
        //执行写方法
        if (r->write(r,buf,bytes_to_write) == 0)
            return 0;
        buf = (char*)buf + bytes_to_write;
        len -= bytes_to_write;
        //操作字节数增加  
        r->processed_bytes += bytes_to_write;
    }
    return 1;
}

static inline size_t rioRead(rio *r, void *buf, size_t len) {
    while (len) {
    	//判断当前操作字节长度是否超过最大长度 
        size_t bytes_to_read = (r->max_processing_chunk && r->max_processing_chunk < len) ? r->max_processing_chunk : len;
        //读数据方法  
        if (r->read(r,buf,bytes_to_read) == 0)
            return 0;
        //读数据时，更新校验和  
        if (r->update_cksum) r->update_cksum(r,buf,bytes_to_read);
        buf = (char*)buf + bytes_to_read;
        len -= bytes_to_read;
        r->processed_bytes += bytes_to_read;
    }
    return 1;
}

每次当有数据发生改变的时候，Redis都会做一个计算校验和的处理算法，表明了数据操作的改变动作，用的算法就是CRC64算法。

下面继续分析 buffer IO和File IO及Socket IO.
rioFileIO使用标准C流式文件IO进行流式IO操作
rioBufferIO使用sds进行内存流式IO操作
rioFdsetIO使用多个socket fd写数据的IO操作

static const rio rioBufferIO = {
    rioBufferRead,
    rioBufferWrite,
    rioBufferTell,
    rioBufferFlush,
    NULL,           /* update_checksum */
    0,              /* current checksum */
    0,              /* bytes read or written */
    0,              /* read/write chunk size */
    { { NULL, 0 } } /* union for io-specific vars */
};

static const rio rioFileIO = {
    rioFileRead,
    rioFileWrite,
    rioFileTell,
    rioFileFlush,
    NULL,           /* update_checksum */
    0,              /* current checksum */
    0,              /* bytes read or written */
    0,              /* read/write chunk size */
    { { NULL, 0 } } /* union for io-specific vars */
};

static const rio rioFdsetIO = {
    rioFdsetRead,
    rioFdsetWrite,
    rioFdsetTell,
    rioFdsetFlush,
    NULL,           /* update_checksum */
    0,              /* current checksum */
    0,              /* bytes read or written */
    0,              /* read/write chunk size */
    { { NULL, 0 } } /* union for io-specific vars */
};

以上的几个函数都很简单、稍微看下就能明白意思，就不细讲了。这里说下file write函数，有个细节是
当把内容写入到rio.file.buffer时，buffer超过给定的同步最小字节，必须将buffer内容刷新到文件中。

static size_t rioFileWrite(rio *r, const void *buf, size_t len) {
    size_t retval;

    retval = fwrite(buf,len,1,r->io.file.fp);
    r->io.file.buffered += len;

	//判读是否需要同步
    if (r->io.file.autosync &&
        r->io.file.buffered >= r->io.file.autosync)
    {
        fflush(r->io.file.fp);
        aof_fsync(fileno(r->io.file.fp));
        r->io.file.buffered = 0;
    }
    return retval;
}

Redis中的rio模块还封装了一些辅助生成AOF协议的函数:

// 以【"*\r\n"】 的形式将count以字符串的格式写入rio对象中，返回写入的字节数。
size_t rioWriteBulkCount(rio *r, char prefix, int count);

// 以【"$\r\n\r\n"】格式往rio对象中写入二进制安全字符串。
size_t rioWriteBulkString(rio *r, const char *buf, size_t len);

// 以【"$\r\n\r\n"】的格式往rio对象中写入long long类型的值。
size_t rioWriteBulkLongLong(rio *r, long long l);

// 以【"$\r\n\r\n"】的格式往rio对象中写入double类型的值。
size_t rioWriteBulkDouble(rio *r, double d);

总结：
1、rio提供了基于文件流和内存流的读、写、位置通告、校验和操作方法
2、若设置了校验和方法，读写前会进行校验和更新操作
3、提供了用于写Redis协议的高层API函数

大规模分布式存储（1）-- 概念、挑战和分类叹了口丶气 HDFS全方位实战分布式分类数据库
随着数据的激增，我们已经进入到了一个数据时代，无论是云计算，大数据还是互联网公司的各种应用，其后台存储平台的目标都是要构建低成本、高性能、可扩展、易用的分布式存储系统。相比传统的分布式存储系统，互联网公司的分布式存储系统具有两个特点：规模大和成本低。本文主要介绍一下什么是大规模分布式存储系统，以及分布式存储系统有哪些类别。一、分布式存储的概念1.1大规模分布式存储系统的定义大规模分布式存储系统的定
《大规模分布式存储系统：原理解析与架构实战》读书笔记 weixin_36908057 存储存储系统
《大规模分布式存储系统：原理解析与架构实战》读书笔记1、事务满足ACID特性2、单机存储引擎：哈希存储引擎和B树存储引擎和LSM存储引擎。存储系统的数据模型：文件模型、关系模型和键值模型。3、分布式系统：数据分布、复制、一致性、容错。数据分布的方式：哈希分布和顺序分布。将数据分散到多台机器之后，需要保证多台机器之间的负载均衡。衡量负载涉及的因素有很多，如cpu,内存。负载均衡需要执行数据迁移操作。
大规模分布式存储系统：原理解析与架构实战克终杂文
《大规模分布式存储系统：原理解析与架构实战》是分布式系统领域的经典著作，由阿里巴巴高级技术专家“阿里日照”（OceanBase核心开发人员）撰写，阳振坤、章文嵩、杨卫华、汪源、余锋（褚霸）、赖春波等来自阿里、新浪、网易和百度的资深技术专家联袂推荐。理论方面，不仅讲解了大规模分布式存储系统的核心技术和基本原理，而且对谷歌、亚马逊、微软和阿里巴巴等国际型大互联网公司的大规模分布式存储系统进行了分析；实
java获取本地文件和远程文件的方式码至终章 java 开发语言 servlet
问题背景：我们项目开发的时候，经常会读取文件，如果文件在本服务器，则直接用newFile()读取即可，但是有时候需要远程读取文件，比如读取分布式存储服务器的内容或者是别人家的图片资源，这个时候newFile就无法满足要求了。下面提供列出获取远程文件和本地文件的方式1、获取远程文件如图片路径为https://kk360.com/user/20230622/gm/30293817365.jpgimpo
软考高级系统架构设计师系列之：分布式存储技术快乐骑行^_^ 软考高级系统架构设计师考试软考高级系统架构设计师系列分布式存储技术
软考高级系统架构设计师系列之：分布式存储技术一、分布式存储技术及其实现机制二、分布式存储系统设计中的冗余技术三、常见的缓存工作模式和适应场景四、NOSQL一、分布式存储技术及其实现机制简要说明在分布式存储系统架构设计中所使用的分布式存储技术及其实现机制，详细叙述你在具体项目中选用了哪种分布式存储技术，说明其原因和实施效果。分布式存储技术集群存储技术。集群存储系统是指架构在一个可扩充服务器集群中的文
大数据平台建设整体架构设计方案 AI天才研究院 ChatGPT AI大模型企业级应用开发实战大数据AI人工智能大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
《大数据平台建设整体架构设计方案》关键词：大数据平台、分布式存储、分布式计算、数据仓库、数据湖、数据安全、数据质量管理、数据治理、数据挖掘、机器学习、图计算、自然语言处理、Hadoop、Spark、Flink、项目规划、运维管理、最佳实践。摘要：本文将深入探讨大数据平台建设整体架构设计方案，从概述与核心概念、技术栈、建设实践、运维管理以及经验展望等多个方面进行详细阐述。通过梳理大数据平台的核心组成
分布式存储的技术选型之HDFS、Ceph、MinIO对比 Linux运维老纪勇敢向前迎接运维开发之挑战分布式 hdfs ceph 云原生运维开发大数据云计算
分布式存储的技术选型比：HDFS、Ceph、MinIO对比一文读懂分布式存储在当今数字化时代，数据呈爆炸式增长，分布式存储技术应运而生，成为大数据存储与管理的得力助手。它将数据分散存于多台独立设备，构建起一个庞大而可靠的虚拟存储体系，有效突破了传统集中式存储的性能瓶颈，大幅提升了可靠性、可用性及存取效率，轻松应对海量数据的存储挑战。分布式存储的应用场景极为广泛。在大数据处理领域，如互联网公司应对海
prometheus持久化到mysql_Prometheus的架构及持久化 CHM单
原文：https://my.oschina.net/go4it/blog/855598Prometheus是什么Prometheus是一个开源的系统监控和报警工具，特点是多维数据模型(时序列数据由metric名和一组key/value组成)在多维度上灵活的查询语言(PromQl)不依赖分布式存储，单主节点工作.通过基于HTTP的pull方式采集时序数据可以通过pushgateway进行时序列数据推
深入理解 Redis：高性能缓存与分布式存储架构全栈探索者chen redis 缓存 redis 分布式数据库开发语言服务器运维
深入理解Redis：高性能缓存与分布式存储架构Redis，作为现代互联网架构中广泛使用的高性能内存数据存储系统，其高效性、丰富的数据结构和分布式能力，使得它成为了分布式缓存和存储解决方案的首选。在本篇文章中，我们将深入探讨Redis的核心特性，工作原理，使用场景，并通过实际案例来帮助你掌握如何在项目中高效地使用Redis。目录Redis基础概念与核心特性Redis的工作原理Redis的数据持久化机
国产海光CPU平台兼容性指南-基础软件分册-20231013（附各系统下载链接）技术瘾君子1573 服务器&存储服务器兼容列表海光 CPU 云计算大数据操作系统
目录声明一、操作系统二、虚拟化和云2.1虚拟化和云2.2虚拟机上的操作系统2.2.1VMwarevSphere上的虚拟机操作系统2.2.2KVM上的虚拟机操作系统2.2.3WindowsHyper-V上的虚拟机操作系统2.2.4VirtualBox上的虚拟机操作系统三、分布式存储四、数据库五、中间件六、大数据七、平台组件7.1云平台7.2大数据平台7.3人工智能平台7.4科学与工程计算平台八、其它
分布式系统理论基础二-CAP 王知无(import_bigdata)
GitHub：https://github.com/wangzhiwubigdata/God-Of-BigData关注公众号,内推,面试,资源下载,关注更多大数据技术~大数据成神之路~预计更新500+篇文章，已经更新50+篇~引言CAP是分布式系统、特别是分布式存储领域中被讨论最多的理论，“什么是CAP定理？”在Quora分布式系统分类下排名FAQ的No.1。CAP在程序员中也有较广的普及，它不仅
nfs-ganesha(用户态NFS)编译、安装和使用沙拉OK Ceph分布式存储运维 ceph nfs 经验分享
前面的文章介绍了基于社区或自己项目编译rpm包搭建Ceph分布式存储集群的方法。本篇介绍使用nfs-ganesha源码编译、安装，客户端使用用户态nfs协议挂载使用Ceph文件存储和对象存储的方法。编译与安装nfs-ganesha一、获取源码源码可直接从github上gitclone，也可以使用自己库维护的代码：github：[email protected]:nfs-ganesha/n
KVM+GFS分布式存储系统构建KVM高可用 henan程序媛分布式 GFS 高可用 KVM
一、案列分析1.1案列概述本章案例主要使用之前章节所学的KVM及GlusterFs技术,结合起来从而实现KVM高可用。利用GlusterFs分布式复制卷，对KVM虚拟机文件进行分布存储和冗余。分布式复制卷主要用于需要冗余的情况下把一个文件存放在两个或两个以上的节点,当其中一个节点数据丢失或者损坏之后，KVM仍然能够通过卷组找到另一节点上存储的虚拟机文件，以保证虚拟机正常运行。当节点修复之后，Glu
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Web3入门指南：从基础概念到实际应用 dingzd95 去中心化 web3 区块链人工智能智能合约
Web3，即“去中心化的第三代互联网”，正在逐步改变我们对互联网的传统认知。从最初的静态网页（Web1.0）到互动平台和社交媒体为主的互联网（Web2.0），Web3的目标是让用户重新掌握对数据和数字资产的控制权。什么是Web3？Web3被视为互联网的下一代发展阶段，其核心是去中心化。与以往依赖中心化服务器和大公司控制的数据模式不同，Web3通过区块链技术实现了数据的分布式存储和处理。这一去中心化
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
KVM+GFS分布式存储系统构建 KVM 高可用 wkysdhr 分布式
一、案例分析本案例主要使用KVM及GlusterFS技术,结合起来从而实现KVM高可用。利用GlusterFs分布式复制卷，对KVM虚拟机文件进行分布存储和冗余。分布式复制卷主要用于需要冗余的情况下把一个文件存放在两个或两个以上的节点,当其中一个节点数据丢失或者损坏之后，KVM仍然能够通过卷组找到另一节点上存储的虚拟机文件，以保证虚拟机正常运行。当节点修复之后，GlusterFS会自动同步同一组卷
ELK架构介绍星河漫漫l elk elasticsearch 运维服务器
一、ELK简介ELK是由三个开源软件组成的，分别是：Elasticsearch、Logstash和Kibana，这三个软件各自在日志管理和数据分析领域发挥着重要作用。Elasticsearch提供分布式存储和搜索能力；Logstash负责数据收集和处理，而Kibana则提供数据可视化和分析界面。他们共同构成了一个完整的日志管理解决方案，帮助企业高效利用日志数据进行监控、分析和安全审计。1.Elas
Hbase、hive以及ClickHouse的介绍和区别？ damokelisijian866 hbase hive clickhouse
一、Hbase介绍：HBase是一个分布式的、面向列的开源数据库，由ApacheSoftwareFoundation开发，是Hadoop生态系统中的一个重要组件。HBase的设计灵感来源于Google的Bigtable论文，它通过提供类似于Bigtable的能力，在Hadoop之上构建了一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。HBase主要用于存储大量结构化数据，并支持随机读写访问，
java 实现前后端分离_详解前后端分离之Java后端 bfecoder java 实现前后端分离
前后端分离的思想由来已久，不妨尝试一下，从上手开始，先把代码写出来再究细节。前言以前服务端为什么能识别用户呢？对，是session，每个session都存在服务端，浏览器每次请求都带着sessionId(就是一个字符串)，于是服务器根据这个sessionId就知道是哪个用户了。那么问题来了，用户很多时，服务器压力很大，如果采用分布式存储session，又可能会出现不同步问题，那么前后端分离就很好的
先进制造业数字化转型：典型场景存储需求及实践解析 XSKY星辰天合云计算
在上一篇《先进制造业数字化转型，为什么基于传统存储无法完成？》中，我们分析了先进制造企业在数字化转型过程中所面临的存储架构挑战，企业需要更高性价比的存储系统，更需要实现全局数据的秒级查询，这些是传统存储无法满足的。本文将从先进制造企业数字化转型中典型场景的存储需求出发，结合XSKY分布式存储的实际案例，看分布式存储如何帮助企业进行存储转型，满足相关的数据使用需求。01 本地硬盘存储方案的
【初出江湖】分布式之什么是分布式存储？无休居士微服务与分布式分布式分布式存储分布式存储的应用场景集中式存储分布式数据库分布式文件系统
目录标题分布式存储分布式存储系统特点分布式存储原理分布式存储的应用场景分布式存储和集中式存储的区别分布式存储分布式存储是一种将数据分散存储在多个节点上的存储方式。与传统的集中式存储相比，分布式存储将数据分布在多个节点上，每个节点都可以独立地存储和访问数据。这种分布式的存储方式可以提供更高的可靠性、可扩展性和性能。在分布式存储系统中，数据通常被分割成多个块或对象，并分布在多个存储节点上。每个节点都可
缓存读写策略 Cache Aside Pattern，开发必备架构师修炼缓存缓存 java 读写策略分布式
我们在前面讲到了当我们业务面临大量写并发的时候，将数据库开发成分布式存储系统，然后又介绍了NoSql数据库与关系型数据库互相配合，以用来更好的服务与我们的业务发展。但随着并发的持续增加，存储数据量的增多，数据库的磁盘IO逐渐成了系统的瓶颈，我们需要一种访问更快的组件来降低请求响应时间，提升整体系统性能，这时我们就会使用到缓存。至于缓存这个概念，这里就不去多说了，我相信大家都懂，也知道它的作用是为了
经验笔记：Hadoop 漆黑的莫莫随手笔记笔记 hadoop 大数据
Hadoop经验笔记一、Hadoop概述Hadoop是一个开源软件框架，用于分布式存储和处理大规模数据集。其设计目的是为了在商用硬件上运行，具备高容错性和可扩展性。Hadoop的核心是HadoopDistributedFileSystem(HDFS)和YARN(YetAnotherResourceNegotiator)，这两个组件加上MapReduce编程模型，构成了Hadoop的基本架构。二、H
京存分布式存储强势助力自动驾驶行业！京存高性能存储分布式自动驾驶人工智能服务器科技
随着自动驾驶技术的快速发展，数据存储已成为该领域的关键技术之一。自动驾驶系统涉及的数据类型繁多，包括车辆状态信息、环境感知数据、高精度地图数据、道路基础设施数据等，其规模庞大，需要高效、稳定的数据存储解决方案来满足不断增长的数据存储需求。在需求方面，自动驾驶行业要求存储系统具备高性能、高可靠性和高可用性，以支持实时数据处理和快速决策。例如，自动驾驶汽车需要实时访问大量的传感器数据、地图数据和其他相
极客天成签署 CCLA，携手openEuler社区共拓信创AI新天地极客天成ScaleFlash 人工智能
近日，北京极客天成科技有限公司（以下简称“极客天成”）签署CCLA（CorporateContributorLicenseAgreement企业贡献者许可协议），正式加入openEuler开源社区。极客天成以高通量分布式集群存储为先锋，围绕软件定义、智能化、安全可靠，全链RDMA构建了完全自主可控的分布式存储产品线和解决方案，主要解决用户海量数据下的高性能低时延数据读写难题，可为用户的数据中心提供
中标 | 极客天成分布式存储软件成功中标华泰证券并行文件系统软件项目极客天成ScaleFlash 分布式
2023年9月21日，北京极客天成科技有限公司分布式存储软件V3.0通过代理商成功中标华泰证券并行文件系统软件项目。华泰证券并行文件系统软件项目是服务于华泰证券量化投研的重点项目,是华泰证券能否取得可持续性竞争优势的关键所在,华泰证券多年深耕信用量化投研领域，基于大数据、人工智能、NLP等技术自主研发。汇聚各类市场数据，研发量化模型，能够高效全面地进行信用风险分析和研究。北京极客天成科技有限公司分
如何在Web3.0应用中实现数据的安全存储？ alankuo 生成式人工智能AIGC 人工智能
在Web3.0应用中，可以通过以下几种方式实现数据的安全存储：一、分布式存储技术1.IPFS（InterPlanetaryFileSystem，星际文件系统）：-IPFS是一种去中心化的分布式文件存储系统。它将文件分割成小块，并通过哈希算法为每个块生成唯一的标识符。这些块被存储在全球各地的节点上，提高了数据的冗余性和可用性。-数据在IPFS上存储时，会被加密并分布在多个节点上，降低了单点故障的风险
单机安装 ELK 日志分析系统 TheFlsah Linux
一、ELK介绍ELKStack是软件集合Elasticsearch、Logstash、Kibana的简称，它们都是开源软件。新增了一个FileBeat，它是一个轻量级的日志收集处理工具(Agent)，Filebeat占用资源少，适合于在各个服务器上搜集日志后传输给Logstash，官方也推荐此工具。Elasticsearch是一个基于Lucene的、支持全文索引的分布式存储和索引引擎，主要负责将日
Python知识点：如何使用HBase与HappyBase进行分布式存储杰哥在此 Python系列分布式 python hbase 编程面试
使用HBase与HappyBase进行分布式存储是处理大规模数据的有效方式。HBase是一个基于Hadoop的开源分布式数据库，可以处理非常大的表。HappyBase是一个Python库，它提供了一个友好的接口来与HBase交互。以下是详细的步骤：1.安装HBase和HappyBase安装HBase首先，确保你已经安装并配置好HBase。你可以通过以下步骤安装HBase：下载HBase：Apach
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag

Redis 之BIO与RIO

你可能感兴趣的:(分布式存储)