云智慧AIOps社区

全面解析湖仓一体与大数据演进历程｜内含技术工具选型策略

云智慧 AIOps 社区是由云智慧发起，针对运维业务场景，提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交流社区。该社区致力于传播 AIOps 技术，旨在与各行业客户、用户、研究者和开发者们共同解决智能运维行业技术难题，推动 AIOps 技术在企业中落地，建设健康共赢的AIOps 开发者生态。

大数据架构的演进历程

对于大部分人来说，大数据架构所涉及的概念及术语繁多且复杂。如何将这些混乱的词汇转化为有机思维，使其可以通过横向切面、纵向切片的方式呈现出来是我们必须思考的一个问题。本章将通过对大数据核心架构类型进行梳理，以及通过对不同阶段基础选型工具的讲解，带大家详细了解大数据架构的演进历程。

基础知识介绍

MPP 架构 & 分布式架构

MPP 架构

MPP 大规模并行处理结构 (Massivly Parallel Processing）指将任务并行分散到多个 SMP 节点，每个节点计算完成后，将各自部分的结果汇总在一起得到最终的结果。

由于 MPP 在数据库领域应用较为广泛，所以在事务一致性方面要求比较高。从总体来讲，MPP 的一致性>可靠性>容错性。在外部的一些情况下，在能保证 MPP 一致性的时候必须保证一致性，否则就失去了数据库定位的这个本质。

分布式架构

分布式架构（Hadoop 架构/批处理架构）指集群中各节点实现自治，即独立运行局部应用；MPP 架构无法做到节点自治，它只能作为整体对外提供服务。分布式架构（Hadoop 架构/批处理架构)集群中各节点实现自治，即独立运行局部应用；MPP 架构无法做到节点自治，它只能作为整体对外提供服务。

分布式架构更多关注的是“分而治之”，它要保证的是整体节点之间的一个平衡，所以从整体优先级来讲，分布式架构的容错性>可靠性>一致性。

总体来讲，我们平时了解到的分布式架构一般指的就是 Hadoop 系列，集群以及一些数据库则指的是MPP。

OLAP 面向数据仓库与OLTP面向事务数据库

在线分析处理 OLAP（On-Line Analytical Processing）应用于数据仓库领域，支持复杂查询的数据分析，侧重于为业务提供决策支持（DSS）；在线事务处理 OLTP（On-Line Transaction Processing）应用于在线业务交易系统，支持频繁的在线操作（增删改）、事务特性。

总体来讲，OLAP 侧重于事务的计算、 BI 分析、智能决策；而 OLTP 更多地是保证事务的一致性，比如在线交互系统中的增删改操作。

分布式架构如何“拆层”

分布式架构分为分布式消息队列层、分布式计算引擎层、分布式存储架构层以及分布式SQL引擎层和分布式配置管理层。本章中的数据架构侧重点则会统一集中在分布式计算、分布式存储和分布式 SQL 引擎三大块，下面我们将从分布式存储切入讲解。

Hadoop生态环境

由于上述所说的分布式架构和批处理均是基于 Hadoop 生态环境，所以上文所描述的分层逻辑也可以套在 Hadoop 生态中。底层 HDFS 就是刚才所说的分布式存储，中间层 MapReduce 就是分布式计算，而Hive 指的就是分布式 SQL。

作为一个先驱型的技术工具，Hadoop 被广泛应用于业界各个领域之中。2004年 Hadoop 发布了第一个版本，即 HDFS 和 MapReduce，直到 2011 年 Hadoop 1.0.0 版本正式发布，在此期间，HDFS 和MapReduce 也完成了之前基于 MPP 数据库做不到的那些能力，比如多少个节点计算多少个数据量。时间跨度从 2011 年至 2016 年，版本跨度从 1.0.1 到 2.7.0，短短五年时间，Hadoop 更新了将近 3 个大版本，这段期间可以说是 Hadoop 的爆发期。而从 2017 年到 2021 年，Hadoop 只跨越了 3 个小版本，即从 3.0.0 到 3.3.1。从上述的版本发布频率我们可以看到 Hadoop 生态系统是一直在持续不断地完善。

MPPDB 与 Hadoop、传统数仓库特性对比

下面我们将对 MPPDB 与 Hadoop 以及传统数仓库进行横向对比。 MPP 对应的是数据库，Hadoop 对应的是分布式集群，两者之间是有共性的。从存储侧来讲，MPP 的运维复杂度、扩展能力以及运维成本等特性基本都处于中等，而 Hadoop 整体的性能都是比较优势的，但由于 Hadoop 对技术的要求较高，所以对于一些初创公司或者技术沉淀不足的一些企业，也是一种挑战。

MPP 主要实现两个功能点，一是消除共享资源，二是支持并行计算。MPP 并行结构加上 HDFS 分布式存储，原则上就是一个基于 Hadoop 生态的 Hive 分布式 SQL，达到了刚才所说基于 HDFS 并行处理的分布式架构能力。

总体来讲，MPP 和 Hadoop 之间既有关联又有区别，区别的唯一性就是 Hadoop 有自已完整的生态。

实时计算类选型特性对比

ClickHouse 是基于 OLAP 场景需求出发，全新的、MPP 架构风格的高效列式数据库管理系统，实现了数据有序存储、主键索引、稀疏索引、数据 Sharding、数据 Partitioning、TTL、主备复制等丰富功能，属于分析型数据库。

Elasticsearch 是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使海量数据具有搜索、分析和探索的能力。通过充分利用 Elasticsearch 的水平伸缩性，使价值密度极低的海量数据在生产环境变得更有价值。

HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase 技术可在廉价 PC Server 上搭建起大规模结构化存储集群。

Druid 是一个为 OLAP 查询需求而设计的开源大数据系统，Druid 提供低延时的数据插入、实时的数据查询能力。

分布式 SQL 引擎特性对比

Spark（SQL on Hadoop）中使用 Scala 语言开发的类 MapReduce 通用并行框架，拥有 MapReduce 所具有的优点，专为大规模数据处理而设计的、快速通用的计算引擎。

注：MapReduce 面向磁盘、Spark 面向内存。

大数据架构历程

批式架构

批式大数据架构也称离线大数据架构，具备大数据处理能力，但数据处理的时效性太差。

流式架构

流式大数据架构相比批式大数据架构，删除了 ETL 过程、通过数据通道得到数据流，以消息队列的方式将处理结果推送至数据消费者；舍弃了离线批量处理模式，但数据保存周期较短；若历史数据场景或复杂数据场景参与计算时，实现难度非常大。

Lambda 架构

Lambda 数据架构在批式大数据架构基础上增加了实时计算的链路，由数据服务层完成离线与实时结果的合并，流处理计算指标时，批处理依然计算，最终以批处理为准，即每次批处理计算后会覆盖流处理的结果。

Kappa 架构

Kappa 数据架构在 Lambda 架构基础上进行了优化，删除了批处理层（Batch Layer）的架构，将数据通道以消息队列进行替代；使用流式重新处理历史数据的吞吐能力会低于批处理，需要增加计算资源来弥补。

实时 OLAP 架构

实时 OLAP 变体架构是对 Kappa 数据架构的进一步演化，是将聚合分析计算由 OLAP 引擎承担，减轻实时计算部分的聚合处理压力。

优点：自由度高，满足数据分析师的实时自助分析需求，减轻了计算引擎的处理压力。
缺点：消息队列中保存了存量数据，于是将计算部分的压力转移到了查询层。

数据架构特性对比

下图为具有演进相关性的 Lambda、Kappa、实时 OLAP 变体架构对比。

如何理解湖仓一体

湖仓一体架构演进史

湖仓一体首先就是数据仓库，它要做的是把数据进行分层，需要将数据先清洗再入仓，此时，所有的数据已经失去了原本的价值；而数据湖是将数据先入库，随后再根据业务需要对数据进行加载转化，其优点在于保证需求变化的同时，任何的数据在底层依然可以存储下来，这也是数据湖的一个价值这也是数据湖的重要价值。

而湖仓一体就是将数据湖与数据仓库进行结合，数据湖是对存储层数据多样化能力的完善。

ETL 抽取-转换-加载（Extract-Transform-Load），先清洗（消耗内存）再入库。
ELT 抽取-加载-转换（Extract-Load-Transform），先入库（临时表）再清洗。

数据湖与数据仓库的互补关系

数据湖本身支持多种计算引擎以及存储计算分离，保障了存储的时候数据是完整的，计算的时候和存储完全没关系，可以按照计算需求去加载数据。而数据仓库依然保持面向主题、面向集成、稳定性以及动态性。

技术工具选型策略

湖仓一体设计时需要考虑以下因素；

是否满足业务需求：技术选型并非只要求大而全，而是根据业务需求进行匹配，选择功能覆盖度最合适的；
关注成熟度/流行度：结合开源社区活跃度，具体可查看 Github Star 数；
技术栈落地成本：结合架构复杂度及已有开发经验，把控使用成本；
技术栈一致性：结合本公司技术栈的一致性、相关性，即代码易维护性；
业界使用案例：复用前任厂商的填坑经验

下图为各技术工具成熟度/流行度数据列表：

数据湖工具选型特性对比

Hudi（Hadoop Upserts anD Incrementals）是基于 Spark2.x 管理存储在 HDFS 上的大型分析数据集，支持在 Hadoop 上执行诸如更新、插入和删除之类的操作，支持：读优化表（Read Optimized Table）和近实时表（Near-Real-Time Table）。

Iceberg 是一个面向海量数据分析场景的开放表格式(Table Format). 定义中所说的表格式(Table Format), 可以理解为元数据以及数据文件的一种组织方式, 处于计算框架(Flink, Spark…)之下, 数据文件之上。

Delta Lake 是一个存储层，为 Apache Spark 和大数据 Workloads 提供 ACID 事务能力，其通过写和快照隔离之间的乐观并发控制（Optimistic Concurrency Control），在写入数据期间提供一致性的读取，从而为构建在 HDFS 和云存储上的数据湖（Data Lakes）带来可靠性。

湖仓一体蓝图方案

基于 Hadoop 的 HDFS 存储，不仅可以存储结构化数据，还可以存储非结构化数据，并且对于历史数据和实时数据，在 Hive 上可以进行全量存储和以后的数据回溯。

湖仓一体方案预研理由

Hudi 集成能力：Hudi 拥有良好的 Upsert 能力以及支持对接 Flink 增量处理的框架。
Flink 技术沉淀：云智慧自己维护了部分 Flink 引擎开发，已支撑数据产品的实时计算。
应对突发需求：对于突发的业务需求，可使用即席查询 Presto 满足查询。
满足近期目标：支持实时获取数据到 Hive，间隔时间在分钟级别，并支持 Upsert。

写在最后

近年来，在AIOps领域快速发展的背景下，IT工具、平台能力、解决方案、AI场景及可用数据集的迫切需求在各行业迸发。基于此，云智慧在2021年8月发布了AIOps社区， 旨在树起一面开源旗帜，为各行业客户、用户、研究者和开发者们构建活跃的用户及开发者社区，共同贡献及解决行业难题、促进该领域技术发展。

社区先后 开源 了数据可视化编排平台-FlyFish、运维管理平台 OMP 、云服务管理平台-摩尔平台、 Hours 算法等产品。

可视化编排平台-FlyFish：

项目介绍：https://www.cloudwise.ai/flyFish.html

Github地址： https://github.com/CloudWise-OpenSource/FlyFish

Gitee地址： https://gitee.com/CloudWise/fly-fish

行业案例：https://www.bilibili.com/video/BV1z44y1n77Y/

部分大屏案例：

【Python运维】构建基于Python的自动化运维平台：用Flask和Celery 蒙娜丽宁 Python杂谈运维 python 运维自动化
在现代IT运维中，自动化运维平台扮演着至关重要的角色，它能够显著提高运维效率，减少人为错误，并且增强系统的可维护性。本文将引导读者如何使用Python构建一个简单的自动化运维平台，通过Flask提供Web界面，利用Celery进行任务调度。通过实际代码示例，讲解如何在平台中集成系统监控、日志管理、任务调度等功能。首先，我们会介绍Flask和Celery的基本用法，并演示如何通过它们创建一个基本的W
使用 ElementUI 和 Spring 实现稳定可靠的文件上传和下载功能随风九天 Vue六脉神剑前端 spring elementui spring 上传下载
前端（ElementUI）1.文件上传使用el-upload组件配置上传接口处理上传成功和失败点击上传只能上传jpg/png文件，且不超过500kbexportdefault{data(){return{headers:{Authorization:'Bearer'+localStorage.getItem('token')//如果需要认证}};},methods:{handleSuccess(r
ORA-19809 ORA-19804 错误处理夜光小兔纸运维 Oracle 数据库数据库运维 oracle
一、问题描述通过备库的备份文件做还原恢复，数据库启后为ReadOnly，现想通过failover的方式将standby库转换为主库。在执行alterdatabasecommittoswitchovertoprimary;命令时出现如下错误：SQL>alterdatabasecommittoswitchovertoprimary;alterdatabasecommittoswitchovertopr
【Excel笔记_5】 LET 函数中数据范围不连续的处理方法科熊小猪 Office excel 笔记
在LET函数中，如果数据范围是不连续的（比如DK4:DK176和DK188:DK242），直接使用ABS计算偏差会导致错误，因为Excel不支持对多个不连续区域执行数学运算。正确的方法可以使用VSTACK（Excel365/2021支持）或CHOOSE（适用于更早的Excel版本）将不连续区域合并，然后进行计算。方法1：使用VSTACK（Excel365/2021）=LET(data,VSTACK
python openpyxl应用举例（集合法去重、random，split） kittykittyis python 开发语言
##0204集合法去重，添加标题、random.random()引入，split方法引入##importopenpyxlasvbimportosimportpandasaspdimportnumpyasnpimportrandomimportglobpath='c:/Users/Administrator/Desktop'data='三年级.xlsx'file=os.path.join(path,
Java面试宝典：全面掌握编程、架构和设计模式不爱说话的我
本文还有配套的精品资源，点击获取简介：Java面试题大全是一个全面的参考资料，涉及Java编程语言的各个方面，从基础语法到面向对象概念，再到集合框架、异常处理、多线程、JVM内存管理、IO与NIO、反射与注解、设计模式、框架与库、数据库和分布式微服务架构等。本资料旨在帮助Java开发者深入理解并掌握面试中可能遇到的关键技术问题，为职业生涯提供技术提升。1.Java基础语法回顾与面试重点1.1数据类
3. 【.NET Aspire 从入门到实战】--理论入门与环境搭建--环境搭建喵叔哟 .NET Aspire 从入门到实战 .net java 开发语言
构建现代云原生应用程序时，开发环境的搭建至关重要。NETAspire作为一款专为云原生应用设计的开发框架，提供了一整套工具、模板和集成包，旨在简化分布式系统的构建和管理。开始项目初始化之前，确保开发环境的正确配置是成功的第一步。1.安装.NETSDK先确保系统上安装了.NET8.0或.NET9.0SDK。可以从.NET官方网站下载适用于你操作系统的版本。装完成后可以通过在命令行中运行以下命令来验证
1. 初识spark wlyang666 大数据之spark spark 大数据分布式
背景：作为一名开发人员，用内存处理数据是每天都在做的事情。内存处理数据最大的优势就是方便，快捷，可以很快得到结果，但是内存总是有瓶颈的，不管你运行代码的机器有多大的内存，总是有更大规模的数据需要处理，而且随着单个机器内存扩容，硬件成本会指数级上升。在当今互联网行业，数据快速膨胀的时代，分布式计算来处理数据是大势所趋。本文通过介绍的是大数据领域优秀框架spark，打开分布式实时计算的大门1.spar
大数据存储引擎 NoSQL极简教程 An Introduction to Big Data: NoSQL AI天才研究院大数据AI人工智能 nosql 大数据数据库 java 开发语言
本文路线图：NoSQL简介文档数据库键值数据库图数据库Here’stheroadmapforthisfourthpostonNoSQLdatabase:IntroductiontoNoSQL
Python 实现 Ollama 提示词生成与优化系统老大白菜机器学习 python python 开发语言
1.基础环境配置importrequestsimportjsonfromtypingimportList,Dict,Optionalfromdataclassesimportdataclass@dataclassclassPromptContext:task:strdomain:strrequirements:List[str]classOllamaService:def__init__(self
使用python实现Hadoop中MapReduce qq_44801116 Python python hadoop mapreduce
Hadoop包含HDFS(分布式文件系统)、YARN（资源管理器）、MapReduce（编程模型）。一、三大组件的简介（1）HDFS（HadoopDistributedFileSystem）：HDFS是Hadoop的分布式文件系统，它是将大规模数据分散存储在多个节点上的基础。主要负责数据的存储和管理，可以将大数据集分成多个数据块，并将数据块分配到不同的计算节点上存储，提高数据的可靠性和处理效率。旨
自定义数据集使用pytorch框架实现逻辑回归并保存模型，然后保存模型后再加载模型进行预测 sirius12345123 pytorch 逻辑回归人工智能
importtorchimportnumpyasnpimporttorch.nnasnnfromtorch.utils.dataimportDataLoader,TensorDatasetdata=np.array([[-0.5,7.7],[1.8,98.5],[0.9,57.8],[0.4,39.2],[-1.4,-15.7],[-1.4,-37.3],[-1.8,-49.1],[1.5,75.
0day 蓝凌EKP系统接口sysFormMainDataInsystemWebservice存在任意文件读取漏洞漏洞库-网络安全 ZeroDay漏洞库网络安全运维网络攻击模型安全架构网络安全系统安全
0x01阅读须知技术文章仅供参考，此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等（包括但不限于）进行检测或维护参考，未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失，均由使用者本人负责。本文所提供的工具仅用于学习，禁止用于其他！！！0x02产品概述蓝凌EKP系统接口sysFormMainDataInsystemWebser
六。自定义数据集使用pytorch框架实现逻辑回归并保存模型，然后保存模型后再加载模型进行预测菜狗woc pytorch 逻辑回归人工智能
importtorchimporttorch.nnasnnfromtorch.utils.dataimportDatasetimportnumpyasnp#自定义数据集类classCustomDataset(Dataset):def__init__(self,x_data,y_data):self.x_data=torch.from_numpy(x_data).float()self.y_data
【大数据技术】编写Python代码实现词频统计（python+hadoop+mapreduce+yarn） Want595 Python大数据采集与分析大数据 python hadoop
编写Python代码实现词频统计（python+hadoop+mapreduce+yarn）搭建完全分布式高可用大数据集群（VMware+CentOS+FinalShell）搭建完全分布式高可用大数据集群（Hadoop+MapReduce+Yarn）本机PyCharm连接CentOS虚拟机在阅读本文前，请确保已经阅读过以上三篇文章，成功搭建了Hadoop+MapReduce+Yarn+Python
7招，实现安全高效的流水线管理阿里云云栖号云栖号技术分享安全 devops 运维
简介：云效团队多年来为阿里巴巴内部（Aone）和云上企业用户（云效）分别提供研发运维工具，并致力于打造企业级一站式的DevOps平台，更多关注不同类型的企业用户在使用过程中的管理与协作场景，本文将重点介绍高效安全管理云效流水线的7招。概述传统流水线Pipeline工具，包括Jenkins、Teamcity、TravisCI等产品，作为企业DevOps中持续集成/持续交付的核心工具，从核心功能上来说
lua学习 qq_26306321 Lua Lua
Lua数据类型Lua是动态类型语言，变量不要类型定义,只需要为变量赋值。值可以存储在变量中，作为参数传递或结果返回。Lua中有8个基本类型分别为：nil、boolean、number、string、userdata、function、thread和table。nil这个最简单，只有值nil属于该类，表示一个无效值（在条件表达式中相当于false）boolean包含两个值：false和true。Lu
MongoDB学习笔记-解析jsonCommand内容人生偌只如初见 MongoDB mongodb 笔记 java
如果需要屏蔽其他项目对MongoDB的直接访问操作，统一由一个入口访问操作MongoDB，可以考虑直接传入jsonCommand语句解析执行。相关依赖包org.springframework.bootspring-boot-starter-data-mongodb2.4.2部分代码@ResourceprotectedMongoPropertiesmongoProperties;publicList
使用Kettle实现不同数据之间同步 Azure DevOps 数据库数据仓库 etl big data database
Contents1.概述2.软件安装3.典型场景：Oracle-2-SqlServer4.定期自动同步数据1.概述Kettle是一个久负盛名的ETL数据传输工具，在我们接触过的许多IT企业中，几乎都有不同的开发或运维团队在使用这个工具。AzureDevOpsServer中存储着大量的开发过程数据，如果对于开发过程数据进行度量分析，为了避免大量读取实时库(AzureDevOps_DefaultCol
MongoDB 青衫天子后端 mongodb 后端
MongoDB非关系型数据库应用场景Highperformance-对数据库高并发读写的需求。HugeStorage-对海量数据的高效率存储和访问的需求。HighScalability&&HighAvailability-对数据库的高可扩展性和高可用性的需求。启动&部署直接启动mongod--dbpath=…\data\db配置启动bin/conf/mongod.confstorage:dbPat
如何利用边缘节点服务打造极致用户体验？ Anna_Tong ux 服务器云计算网络分布式
随着互联网和数字化技术的飞速发展，用户对网络访问速度和服务体验的要求也在不断提高。在一个信息快速传播的时代，延迟过高或访问卡顿的问题会直接影响用户体验，甚至导致用户流失。因此，企业如何优化网络性能、提升用户访问速度，成为了必须面对的挑战。而边缘节点服务作为一种先进的技术解决方案，正在帮助企业应对这些挑战，并实现极致用户体验。什么是边缘节点服务？边缘节点服务是一种分布式计算架构，通过在靠近用户的物理
ACK One 如何通过 GitOps & DevOps 实现高效 CI/CD 流水线？ Anna_Tong devops ci/cd 运维 kubernetes GitOps 阿里云
在云原生架构的快速演进下，企业IT系统正在向容器化、微服务化、多云化发展。阿里云分布式云容器平台ACKOne作为一站式Kubernetes多集群管理解决方案，能够帮助企业高效管理跨地域、跨云、多集群的Kubernetes资源。而在应用交付层面，GitOps和DevOps已成为DevSecOps时代下最优的CI/CD（持续集成与持续部署）实践之一。那么，ACKOne如何结合GitOps&DevOps
brpc butil::IOBuf zxb@hny c++
_bv_svrefs[0]offset=36length=9block=0x7fffd8037ee0nsharedflags=2abi_check=0size=45cap=8160udata=0x7fffd8037ff0""[1]
datapasta包学习-可复制网页、Excel表格等其他来源的数据至Rstudio中凑齐六个字吧科研工具数据挖掘
datapasta是一个R语言中用于优化数据复制和粘贴（copy-paste）的R包，旨在简化数据导入和转换过程，减少手动格式调整的需求，提高数据整理的效率。功能介绍将Excel/CSV/表格数据快速粘贴到R代码：可将剪贴板中的数据直接转换为data.frame、tibble、vector等格式，无需手动整理格式。从R数据转换为文本格式（适用于论文、报告）：支持将R变量（如data.frame、向
利用Vue编写一个“计数器” 慕斯-ing Vue2.x vue.js 前端经验分享
目录一、利用Vue编写一个“计数器”的操作方法：二、html文件相关源代码三、CSS文件相关源代码四、代码执行效果展示如下一、利用Vue编写一个“计数器”的操作方法：1、data中定义计数器的相关数据，如num、min、max。2、methods中添加计数器的递增与递减方法，其中①递减sub方法：大于0递减；②递增add方法：小于10累加。3、使用v-text将num设置给span标签。4、使用v
【硬刚大数据之面试篇】2021年从零到大数据专家面试篇之ClickHouse篇王知无(import_bigdata)
欢迎关注博客主页：https://blog.csdn.net/u013411339欢迎点赞、收藏、留言，欢迎留言交流！本文由【王知无】原创，首发于CSDN博客！本文首发CSDN论坛，未经过官方和本人允许，严禁转载！本文是对《【硬刚大数据之学习路线篇】2021年从零到大数据专家的学习指南(全面升级版)》的面试部分补充。硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021
Spring Cloud微服务程序老猫 spring cloud 微服务 spring
一、SpringCloud简介定位：基于SpringBoot的分布式系统开发工具集，提供微服务架构的完整解决方案。核心功能：服务发现、配置管理、负载均衡、熔断限流、API网关等。生态优势：与SpringBoot深度集成，社区活跃，组件丰富。二、SpringCloud核心组件1.服务注册与发现Eureka（Netflix，已闭源，推荐替代方案）服务注册中心，管理微服务实例的元数据（IP、端口、健康状
运维自动化工具集：构建高效运维体系的密钥我的运维人生运维自动化运维开发技术共享
运维自动化工具集：构建高效运维体系的密钥在数字化转型的大潮中，企业对于IT系统的稳定性和高效运维的需求日益增长。传统的运维模式依赖于人工操作，不仅效率低下，而且难以应对大规模、高复杂度的IT环境。因此，运维自动化成为提升运维效率、保障业务连续性的关键。本文将深入探讨一系列运维自动化工具集，并通过实际代码案例展示其应用，旨在为运维工程师提供一套构建高效运维体系的实践指南。一、运维自动化概述运维自动化
Hadoop1.0和2.0的主要区别 web_15534274656 java hadoop 大数据 hdfs dubbo java-zookeeper
Hadoop1.0指的是版本为ApacheHadoop0.20.x、1.x或者CDH3系列的Hadoop，组件主要由HDFS和MapReduce两个系统组成，HDFS是一个分布式文件存储系统，MapReduce是一个离线处理框架，分为三部分，运行时环境为JobTracker和TaskTracker，编程模型为Map映射和Reduce规约，数据处理引擎为MapTask和ReduceTask，Hado
Hadoop1.0-HDFS介绍 szjianzr HADOOP介绍 hadoop HDFS
Hadoop是Apache软件基金会所开发的并行计算框架与分布式文件系统。最核心的模块包括HadoopCommon、HDFS与MapReduce。HDFS是Hadoop分布式文件系统（HadoopDistributedFileSystem）的缩写，为分布式计算存储提供了底层支持。采用Java语言开发，可以部署在多种普通的廉价机器上，以集群处理数量积达到大型主机处理性能。一、HDFS基本概念1、Bl
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>