瓦哥架构实战

Ceph入门到精通-存储集群ceph df 用量统计算法说明

3.2.5. Ceph 如何计算数据使用量

used 值反映了使用的实际原始存储量。xxx GB / xxx GB 代表可用的存储（其中较小的数字）和总存储容量。总容量反映了在复制、克隆或快照前存储数据的大小。因此，实际存储的数据量通常会超过名义上的存储量。这是因为 Ceph 会创建数据的副本，进行克隆和快照也需要使用存储。

3.2.6. 了解存储集群用量统计

要检查集群的数据使用量和数据分布在池间，请使用 df 选项。它类似于 Linux df 命令。您可以运行 ceph df 命令或 ceph df detail 命令。

示例

[ceph: root@host01 /]# ceph df
RAW STORAGE:
    CLASS     SIZE       AVAIL      USED        RAW USED     %RAW USED
    hdd       90 GiB     84 GiB     100 MiB      6.1 GiB          6.78
    TOTAL     90 GiB     84 GiB     100 MiB      6.1 GiB          6.78

POOLS:
    POOL                          ID     STORED      OBJECTS     USED        %USED     MAX AVAIL
    .rgw.root                      1     1.3 KiB           4     768 KiB         0        26 GiB
    default.rgw.control            2         0 B           8         0 B         0        26 GiB
    default.rgw.meta               3     2.5 KiB          12     2.1 MiB         0        26 GiB
    default.rgw.log                4     3.5 KiB         208     6.2 MiB         0        26 GiB
    default.rgw.buckets.index      5     2.4 KiB          33     2.4 KiB         0        26 GiB
    default.rgw.buckets.data       6     9.6 KiB          15     1.7 MiB         0        26 GiB
    testpool                      10       231 B           5     384 KiB         0        40 GiB

ceph df detail 命令提供了更多关于其他池统计数据的详细信息，如配额对象、配额字节、压缩状态等。

示例

[ceph: root@host01 /]# ceph df detail
RAW STORAGE:
    CLASS     SIZE       AVAIL      USED        RAW USED     %RAW USED
    hdd       90 GiB     84 GiB     100 MiB      6.1 GiB          6.78
    TOTAL     90 GiB     84 GiB     100 MiB      6.1 GiB          6.78

POOLS:
    POOL                          ID     STORED      OBJECTS     USED        %USED     MAX AVAIL     QUOTA OBJECTS     QUOTA BYTES     DIRTY     USED COMPR     UNDER COMPR
    .rgw.root                      1     1.3 KiB           4     768 KiB         0        26 GiB     N/A               N/A                 4            0 B             0 B
    default.rgw.control            2         0 B           8         0 B         0        26 GiB     N/A               N/A                 8            0 B             0 B
    default.rgw.meta               3     2.5 KiB          12     2.1 MiB         0        26 GiB     N/A               N/A                12            0 B             0 B
    default.rgw.log                4     3.5 KiB         208     6.2 MiB         0        26 GiB     N/A               N/A               208            0 B             0 B
    default.rgw.buckets.index      5     2.4 KiB          33     2.4 KiB         0        26 GiB     N/A               N/A                33            0 B             0 B
    default.rgw.buckets.data       6     9.6 KiB          15     1.7 MiB         0        26 GiB     N/A               N/A                15            0 B             0 B
    testpool                      10       231 B           5     384 KiB         0        40 GiB     N/A               N/A                 5            0 B             0 B

输出的 RAW STORAGE 部分概述了存储集群为数据管理的存储量。

CLASS: OSD 设备的类。
SIZE： 由存储集群管理的存储容量量。

在上例中，如果 SIZE 是 90 GiB，它是不包括复制因子（默认为三）的总大小。带有复制因子的可用的总容量为 30 GiB（90 GiB/3）。根据全满比率（默认为 0.85%），最大可用空间为 30 GiB * 0.85 = 25.5 GiB
AVAIL： 存储集群中可用空间的数量。

在上例中，如果 SIZE 是 90 GiB，而 USED 空间为 6 GiB，则 AVAIL 空间为 84 GiB。带有复制因素的总可用空间（默认为 84 GiB/3 = 28 GiB）
USED： 用户数据使用的原始存储量。

在上例中，100 MiB 是在考虑了复制因子后的总可用空间。实际可用大小为 33 MiB。
RAW USED： 用户数据、内部开销或保留容量消耗的原始存储量。
% RAW USED： RAW USED 的百分比。使用这个数值以及 full ratio 和 near full ratio，以确保您没有消耗倒所有的存储集群容量。

输出的 POOLS 部分提供了池列表以及每个池的不利使用情况。本节的输出不会反映副本、克隆或快照的情况。例如，如果您存储 1 MB 的数据的对象，名义的使用量为 1 MB，但实际使用量可能为 3 MB 或更多。具体的实际使用量取决于副本的数量（例如： size = 3）、克隆和快照。

POOL：池的名称。
id： 池 ID。
STORED: 用户存储在池中的实际数据量。
OBJECTS: 每个池存储的名义数量。它是 STORED 大小 * 复制因素。
USED: 存储以 KB 为单位的数据数量，除非数字带有 M（megabyte）或 G（gigabytes）。
%USED: 每个池使用的名义存储的百分比。
MAX AVAIL: 可以写入这个池的数据数量的估计值。它是在第一个 OSD 变为满之前可以使用的数据量。它考虑了 CRUSH map 中跨磁盘的项目分布数据，并使用第一个 OSD 来填充作为目标。

在上例中，MAX AVAIL 为 153.85 MB（没有考虑复制因子，默认为三）。

请参阅红帽知识库中的 ceph df MAX AVAIL is incorrect for simple replicated pool 以计算 MAX AVAIL 的值。
QUOTA OBJECTS： 配额对象的数量。
QUOTA BYTES： 配额对象中的字节数。
USED COMPR： 为压缩数据分配的空间量，包括其压缩数据、分配、复制和擦除编码开销。
UNDER COMPR: 通过压缩格式传输的数据量，以压缩形式存储有更多益处。

注意

POOLS 部分中的数字是估算的。它们不包括副本数、快照或克隆的数量。因此，USED 和 %USED 数值的总和可能会与输出的 GLOBAL 部分中的 RAW USED 和 %RAW USED 不同。

注意

MAX AVAIL 值是使用复制或退出代码的复杂功能，即将存储映射到设备、这些设备的利用率以及配置的 mon_osd_full_ratio。

其它资源

详情请参阅 Ceph 如何计算数据使用量。
详情请参阅了解 OSD 用量统计。

3.2.7. 了解 OSD 使用量统计

使用 ceph osd df 命令查看 OSD 使用率统计。

示例

[ceph: root@host01 /]# ceph osd df
ID CLASS WEIGHT  REWEIGHT SIZE    USE     DATA    OMAP    META    AVAIL   %USE VAR  PGS
 3   hdd 0.90959  1.00000  931GiB 70.1GiB 69.1GiB      0B    1GiB  861GiB 7.53 2.93  66
 4   hdd 0.90959  1.00000  931GiB 1.30GiB  308MiB      0B    1GiB  930GiB 0.14 0.05  59
 0   hdd 0.90959  1.00000  931GiB 18.1GiB 17.1GiB      0B    1GiB  913GiB 1.94 0.76  57
MIN/MAX VAR: 0.02/2.98  STDDEV: 2.91

ID: OSD 的名称。
CLASS: OSD 使用的设备类型。
WEIGHT: CRUSH 映射中的 OSD 权重。
REWEIGHT： 默认的重新加权值。
SIZE： OSD 的整体存储容量。
USE： OSD 容量。
DATA: 用户数据使用的 OSD 容量量。
OMAP： 用于存储对象映射(omap)数据（rocksdb 中存储的键值对）的 bluefs 存储的估算值。
META： 分配的 bluefs 空间或在 bluestore_bluefs_min 参数中设置的值（取决于哪个值更大），对于内部元数据，它的值是在 bluefs 中分配的总空间减去预计的 omap 数据大小。
AVAIL： OSD 上可用的空间量。
%USE： OSD 使用的存储百分比
VAR： 高于或低于平均利用率的差异。
PGS： OSD 中的置放组数量。
MIN/MAX VAR： 所有 OSD 的最小和最大变化。

其它资源

详情请参阅 Ceph 如何计算数据使用量。
详情请参阅了解 OSD 用量统计。
详情请参阅 Red Hat Ceph Storage Storage 策略指南中的 CRUSH Weights。

你可能感兴趣的:(Ceph入门到精通,ceph,大数据,数据挖掘)

GBase 数据库在大数据环境下的应用与优势 big crab 数据库大数据
引言随着大数据技术的发展，传统数据库面临着越来越多的挑战。尤其是在处理海量数据时，如何在保证高性能的同时，确保系统的可扩展性、容错性和高可用性，成为许多企业关心的问题。GBase数据库系列，特别是GBase8a、GBase8s和GBase8c，提供了一种新型的解决方案，它们能够在大数据环境下提供卓越的性能和可靠性。本文将深入探讨GBase数据库在大数据环境中的应用及其优势。一、GBase数据库系列
GBase 数据库的性能调优与故障排查 big crab 数据库
一、引言在现代企业的数据驱动运营中，数据库的性能是核心问题之一。GBase数据库作为高性能、高可用的数据库解决方案，被广泛应用于大数据、高并发的场景中。为了最大化GBase数据库的性能，了解如何调优数据库的配置、查询执行计划和硬件资源使用至关重要。本文将深入探讨GBase数据库的性能调优策略、常见故障排查方法，并结合SQL示例和调优技巧，帮助开发者和数据库管理员提升GBase数据库的整体效率。二、
GBase数据库在大数据环境下的存储和查询优化策略 big crab 数据库大数据
一、引言随着大数据时代的到来，数据量的激增给数据库管理和查询性能带来了巨大的挑战。尤其是对于关系型数据库，如何在海量数据的存储和查询中保持高效的性能，已经成为企业IT架构设计中的关键问题。GBase数据库，作为一款高性能的关系型数据库，凭借其强大的数据处理能力和高可用性，在大数据领域得到了广泛应用。本文将深入探讨GBase数据库在大数据环境下的存储与查询优化策略，结合GBase8a、GBase8s
AI时代，需要怎样的架构师？腾讯云架构师峰会来了！架构
引言架构设计对应用有关键性的影响，不仅决定应用的整体品质，还直接影响开发、维护和扩展的难易度。卓越的架构设计不仅能够确保系统的稳定性、高效性和可扩展性，还能大幅提升研发效能，同时显著降低维护成本。在快速变化的技术环境中，架构师们面临业务需求快速迭代、数据量急剧膨胀以及系统复杂性不断提升等挑战。随着云计算、大数据、人工智能等前沿技术的蓬勃发展，一系列创新解决方案如微服务架构、AI大模型、自动化运维工
360智算中心万卡GPU集群架构分析科技互联人生科技数码人工智能硬件架构系统架构人工智能
360智算中心：万卡GPU集群落地实践 360智算中心是一个融合了人工智能、异构计算、大数据、高性能网络、AI平台等多种技术的综合计算设施，旨在为各类复杂的AI计算任务提供高效、智能化的算力支持。360智算中心不仅具备强大的计算和数据处理能力，还结合了AI开发平台，使得计算资源的使用更加高效和智能化。360内部对于智算中心的核心诉求是性能和稳定性，本文将深入探讨3
【数据挖掘实战】房价预测机器学习司猫白数据挖掘人工智能 python 机器学习
本次对kaggle中的入门级数据集，房价回归数据集进行数据挖掘，预测房屋价格。本人主页：机器学习司猫白机器学习专栏：机器学习实战PyTorch入门专栏：PyTorch入门深度学习实战：深度学习ok，话不多说，我们进入正题吧概述本次竞赛有79个解释变量（几乎）描述了爱荷华州艾姆斯住宅的各个方面，需要预测每套住宅的最终价格。数据集描述本次数据集已经上传，大家可以自行下载尝试文件说明train.csv-
金融行业数据安全指南，大数据时代不容忽视的底线！后端
金融数据：数字时代的“新石油”在大数据时代，金融行业正经历着一场深刻的变革。随着信息技术的飞速发展，金融数据量呈爆炸式增长，这些数据涵盖了客户信息、交易记录、市场行情等各个方面，成为了金融机构的关键资产，也被称为数字时代的“新石油”。以银行业为例，一家中等规模的商业银行每天产生的交易数据就可达数百万条，内容包括客户的存取款、转账汇款、消费支付等。这些数据不仅记录了客户的资金流动情况，还反映了客户的
Python语法总结彧侠脚本处理 Python
Python作为一种解释型的脚本语言，无论从自动化运维、大数据处理还是人工智能都得到了广泛的应用，而且它好理解、易学习、上手快的特点也使它成为了当下最火热的开发语言之一。下面就对Python语言中的各种语法做一个总结，以备后用数据类型一、整数二、浮点数三、字符串四、布尔值五、空值print语句注释什么是变量比如：定义字符串raw字符串与多行字符串Unicode字符串字符串还有一个编码问题。整数和浮
Hadoop 与 Spark：大数据处理的比较王子良. 大数据经验分享 hadoop spark 大数据
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
虚拟机VMware Workstation Pro安装集群+hadoop+spark+scala 落枫兮 hadoop spark scala
参考资料：参考视频教程链接：大数据实验虚拟机安装Hadoop和Spark_哔哩哔哩_bilibiliup主：孤独时代的硕硕namenode安装选择镜像、路径、磁盘（最好不要c盘）、内存和处理器编辑名称与位置可点击此处自定义硬盘进行设置。选择语言、时区、软件、位置和网络
大数据手写面试题Scala语言实现大全（持续更新）大模型大数据攻城狮大数据数据结构算法面试题面试宝典
在大数据领域，Scala语言因其强大的函数式编程特性和对并发处理的良好支持而成为了开发者们的热门选择。有些面试官，为了考验面试者的基本功，需要让手写一些面试题，以数据结构和算法类的居多。本文将为您提供一些常见的Scala手写面试题及参考答案，帮助您在面试或工作中更好地运用Scala。目录1.冒泡排序2.二分查找3.快速排序4.归并排序5.手写Spark-WordCount6.手写Spark程序求平
基于Python的三种主流网络爬虫技术吃肉肉335 python 爬虫开发语言
一、网络爬虫是什么网络爬虫，通常也被称为网络蜘蛛或网络机器人，是一种按照一定方法，获取网络各种信息的自动化脚本程序，也可以将其理解为一个在互联网上自动提取网页信息并进行解析抓取的程序。网络爬虫的功能不仅局限于复制网页内容、下载音视频文件，更包括自动化执行行为链以及模拟用户登录等复杂操作。在当前大数据背景下，无论是人工智能应用还是数据分析工作，均依赖于海量的数据支持。如果仅依赖人工采集这一种方式，不
PL/SQL语言的学习路线轩辕烨瑾包罗万象 golang 开发语言后端
PL/SQL语言的学习路线PL/SQL（ProceduralLanguage/StructuredQueryLanguage）是Oracle公司为其数据库系统开发的一种编程语言，它结合了SQL的强大数据处理能力和过程式编程的灵活性。PL/SQL被广泛应用于Oracle数据库开发中，能够有效地提高程序的执行效率和维护性。对于想深入学习PL/SQL的开发者来说，明确的学习路线至关重要。本文将为大家提供
Bash语言的数据库交互清妍琉璃包罗万象 golang 开发语言后端
Bash语言的数据库交互引言随着信息技术的飞速发展，数据库在各行各业中扮演着越来越重要的角色。无论是企业管理、数据分析，还是大数据处理，数据库都是基础设施的重要组成部分。对于开发者和系统管理员而言，能够高效地与数据库进行交互是一项必不可少的技能。在众多编程语言中，Bash作为一种脚本语言，以其简洁、高效和易用的特点，逐渐在数据库管理和交互中获得了一席之地。本文将深入探讨如何使用Bash进行数据库交
Java 大视界 -- Java 大数据文本分析与自然语言处理：从文本挖掘到智能对话一只蜗牛儿 java 大数据自然语言处理
在当今的信息化时代，数据成为了重要的资源。特别是文本数据，随处可见，如社交媒体、新闻网站、技术文档、客户反馈等，这些都包含着大量的潜在信息。因此，如何从海量的文本中提取有价值的信息，成为了大数据分析领域的重要课题。Java作为一种高效、灵活的编程语言，在大数据文本分析与自然语言处理（NLP）中发挥着至关重要的作用。本文将介绍如何利用Java开发大数据文本分析和自然语言处理（NLP）应用，带领你从文
Hadoop分布式文件系统-HDFS架构 Fancs2024 hadoop hadoop hdfs
一、HDFS的简介HDFS全称HadoopDistributedFileSystem，是分布式文件管理系统。主要是为了解决大数据如何存储的问题，跟一般文件系统不同的是，它可以通过扩展服务器结点来扩充存储量，可以用低成本的硬件构建出支持高吞吐量的文件系统。二、HDFS的特点高容错性：一个HDFS集群会包含非常多的结点，HDFS将文件分块存储，并且会保存多个副本到不同的机器节点上以保证数据的安全，而且
科技赋能，商贸物流新速度 —— 智慧供应链商城加速企业成长呆码科技科技
科技赋能，商贸物流新速度——智慧供应链商城加速企业成长随着科技的飞速发展，AI（人工智能）、大数据、物联网等先进技术正深刻重塑着商贸物流行业，推动其向更高效、更智能、更环保的方向迈进。这些技术的应用不仅提升了物流效率，降低了运营成本，还增强了供应链的透明度和可控性，为商贸物流行业带来了前所未有的变革。智慧供应链商城是一个集成了AI、大数据、物联网等先进技术的综合服务平台，旨在通过科技手段提升物流效
数据挖掘：定义、挑战与应用黑色叉腰丶大魔王数据挖掘人工智能
一、数据挖掘的定义（一）概念阐述数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它融合了数据库技术、统计学、机器学习、人工智能等多学科的理论和方法，旨在通过对数据的深入分析和处理，发现有价值的模式、关联、趋势等，从而为决策提供支持。（二）与相关概念的区别与联系数据库管理：数据库管理侧重于数据的存储、组织、检索和维护
Python爬虫项目合集：200个Python爬虫项目带你从入门到精通人工智能_SYBH 爬虫试读 2025年爬虫百篇实战宝典:从入门到精通 python 爬虫数据分析信息可视化爬虫项目大全 Python爬虫项目合集爬虫从入门到精通项目
适合人群无论你是刚接触编程的初学者，还是已经掌握一定Python基础并希望深入了解网络数据采集的开发者，这个专栏都将为你提供系统化的学习路径。通过循序渐进的理论讲解、代码实例和实践项目，你将获得扎实的爬虫开发技能，适应不同场景下的数据采集需求。专栏特色从基础到高级，内容体系全面专栏内容从爬虫的基础知识与工作原理开始讲解，逐渐覆盖静态网页、动态网页、API数据爬取等实用技术。后续还将深入解析反爬机制
国内优秀的FPGA设计公司主要分布在哪些城市？博览鸿蒙 FPGA fpga开发
近年来，国内FPGA行业发展迅速，随着5G通信、人工智能、大数据等新兴技术的崛起，FPGA设计企业的需求也迎来了爆发式增长。很多技术人才在求职时都会考虑城市的行业分布和发展潜力。因此，国内优秀的FPGA设计公司主要分布在哪些城市？以下将对国内FPGA企业集中的城市进行梳理。北京北京在我国FPGA产业发展中有着重要地位，尤其在设计和应用领域有较大优势，形成了完整的研发和产业生态。目前，北京主要的产业
MDX语言的语法糖 ByteBlossom666 包罗万象 golang 开发语言后端
MDX语言的语法糖及其应用分析引言在当今数据驱动的时代，大数据分析和数据可视化已成为企业决策中不可或缺的一部分。MDX（MultidimensionalExpressions，多维表达式）作为一门专为分析多维数据而设计的查询语言，广泛应用于商业智能（BI）工具中。随着技术的发展，MDX语言逐渐演变，形成了其独特的语法糖，以提高开发者的效率和可读性。本文将深入探讨MDX语言的语法糖特性及其在实际应用
大数据的一些基本概念 weixin_49536779 大数据数据分析数据库 python
首先，大数据是什么？大数据是指数据集规模巨大且复杂，传统的数据处理软件无法高效处理它们。它是非常大的数据集。这种复杂性可能来自于数据的“3V”特性：体量（Volume）、多样性（Variety）和速度（Velocity）。体量（Volume）首先，什么是体量？体量指的是以PB（Petabytes）为单位的数据量，甚至是EB（Exabytes）。这种数据量远大于GB（Gigabytes）或TB（Te
TiDB 对 Hadoop 的影响：大数据时代的新选择狮歌~资深攻城狮 tidb 数据仓库数据分析数据库分布式
TiDB对Hadoop的影响：大数据时代的新选择随着大数据时代的到来，各种处理和存储海量数据的技术应运而生。Hadoop和TiDB都是这个时代的代表性技术，但它们的设计初衷、使用场景和应用方式却有所不同。那么，TiDB作为一个分布式数据库，它对传统的Hadoop生态系统产生了哪些影响呢？今天，我们就来聊聊这个话题。Hadoop简介：大数据的“老牌劲旅”首先，我们需要了解一下Hadoop的背景。Ha
MPP（Massively Parallel Processing）是什么？它的特点是什么？狮歌~资深攻城狮数据仓库数据分析数据库分布式
MPP（MassivelyParallelProcessing）是什么？它的特点是什么？在信息化、数据化的今天，处理大规模数据成为了很多行业的关键能力。我们常常听到“大数据”和“数据处理”的词汇，而MMP（MassivelyParallelProcessing，大规模并行处理）正是帮助我们解决大数据处理的利器。那么，MPP究竟有什么特点，让它能够高效处理海量数据呢？1.什么是MPP？MPP的全称是
大语言模型原理与工程实践：网页数据 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：网页数据1.背景介绍在当今信息爆炸的时代，网页数据成为了大数据的重要来源之一。网页数据不仅包含了丰富的文本信息，还包括了图像、视频、音频等多媒体内容。大语言模型（LargeLanguageModels,LLMs）作为自然语言处理（NLP）领域的前沿技术，能够从海量的网页数据中提取有价值的信息，进行文本生成、情感分析、问答系统等多种任务。大语言模型的成功离不开深度学习技术的
Flink系列-2、Flink架构体系技术武器库大数据专栏 flink 架构 jvm
版权声明：本文为博主原创文章，遵循CC4.0BY-SA版权协议，转载请附上原文出处链接和本声明。大数据系列文章目录官方网址：https://flink.apache.org/学习资料：https://flink-learning.org.cn/目录Flink中的重要角⾊Flink数据流编程模型Libraries支持Flink集群搭建Local本地模式（开发测试）Standalone-伪分布环境（开
【原创】大数据治理入门（5）《数据生命周期管理：从采集到归档》入门必看高赞实用精通代码大仙数据库 hadoop python 大数据数据挖掘数据治理数据库 python
数据生命周期管理：从采集到归档引言：数据生命周期的概念数据生命周期管理（DataLifecycleManagement，DLM）是指从数据的创建、使用、存储到最终归档或销毁的全过程管理。在大数据时代，企业需要通过对数据生命周期的全面管理，确保数据的可用性、安全性和合规性。本文将详细介绍数据生命周期的各个阶段，以及相应的管理策略和技术工具。各阶段介绍：采集、存储、处理、分析、归档数据采集（DataC
Java 大视界 -- Java 与大数据分布式机器学习平台搭建（58）青云交大数据新视界 Java 大视界大数据分布式机器学习 Apache Spark Hadoop Apache Flink 平台搭建架构设计
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、欢迎加入【福利社群
基于MRS-Hudi构建数据湖的典型应用场景介绍华为云技术精粹云计算华为云
一、传统数据湖存在的问题与挑战传统数据湖解决方案中，常用Hive来构建T+1级别的数据仓库，通过HDFS存储实现海量数据的存储与水平扩容，通过Hive实现元数据的管理以及数据操作的SQL化。虽然能够在海量批处理场景中取得不错的效果，但依然存在如下现状问题：问题一：不支持事务由于传统大数据方案不支持事务，有可能会读到未写完成的数据，造成数据统计错误。为了规避该问题，通常控制读写任务顺序调用，在保证写
MySQL、HBase 和 Elasticsearch：特点与区别详解一休哥助手 mysql hbase elasticsearch
引言随着大数据和分布式计算的快速发展，数据库系统已从传统的关系型数据库（RDBMS）扩展到多种新型数据存储技术，包括NoSQL数据库和搜索引擎等。MySQL、HBase和Elasticsearch是其中三种非常常见的数据存储系统，它们在各自的领域都有着重要的应用。MySQL作为传统的关系型数据库，HBase则是一个分布式、可扩展的NoSQL数据库，而Elasticsearch则是一个分布式的搜索引
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他