浪尖聊大数据-浪尖

知乎热议：数据仓库、数据湖、湖仓一体，究竟有什么区别？

来源：知乎作者：十叶心

全文共 14108个字，建议阅读 20分钟

一、基本概念

1.1数仓发展历史

数据湖是以集中方式存储各种类型数据，提供弹性的容量和吞吐能力，能够覆盖广泛的数据源，支持多种计算与处理分析引擎直接对数据进行访问的统一存储平台。它能够实现数据分析、机器学习，数据访问和管理等细粒度的授权、审计等功能。

数据湖对存取的数据没有格式类型的限制，数据产生后，可以按照数据的原始内容和属性，直接存储到数据湖，无需在数据上传之前对数据进行任何的结构化处理。数据湖可以存储结构化数据（如关系型数据库中的表），半结构化数据（如 CSV、JSON 、XML、日志等），非结构化数据（如电子邮件、文档、PDF 等）以及二进制数据（如图形、音频、视频等）

1.2数据湖、数据仓、湖仓一体发展历程

（1）数据仓库，适合结构化数据，但不适合非结构化数据。

（2）数据湖：支持多种格式存储数据库。但不支持事务处理、不保证数据质量in过去缺乏一致性/隔离性，无法实现混合追加和读取数据，以及完成批处理和流式作业。

（3）lakehouse:直接在用于数据湖的低成本存储上实现与数据仓库中类似的数据结构和数据管理功能。

1.3数据湖

1.3.1数据湖特征

保真性，有一份业务原始数据，对业务数据一模一样完整拷贝。
灵活性，读取型schema，数据逻辑处理延后
可管理，数据管理能力，包括数据源、数据连接、数据格式、数据schema（库/表/列/行），权限等。
可追溯，数据生命周期管理，定义、接入、存储、处理、分析、应用全过程，可清楚重现数据完整产生过程和流动过程。
丰富计算引擎，批处理+流式技术+交互式分析+机器学习。
多模态的存储引擎

1.3.2数据湖架构

通用数据湖架构

1.3.3云原生数据湖的特征

1.4数据湖与数据仓库对比

首先，数据捕获时未定义架构。数据湖在功能上可以实现各种类型数据的存储，数据湖中的数据可以是非结构化的、未处理的形态，数据可以在确定需要使用时才会对数据进行对应处理与转换；而数据仓库则通常存放的是经过处理的、结构化的数据，数据存储的 Schema 在数据存储之前就需要被定义好。

其次，存储到数据湖中的数据通常会按照原始形态直接存储，随着业务和使用场景的发展，会使用不同的计算存储的数据进行分析与处理，数据湖中的数据在一个企业组织中通常会被多个不同应用、系统和部门使覆盖的场景广泛并且范围也会动态延展，因此需要提供更多的灵活性以适应快速变化的应用场景；数据通常使用场景是在数据收集期间就已经明确，数据仓库通常集中在 BI、业务、运营等商业决策相关场仓库也可以把已经存在的数据转换到新场景，但在灵活性方面不如数据湖，需要有更多的数据转换时间投入。

1.5批处理和流式处理区别：

（1）数据范围：批处理对数据集中的所有或大部分数据进行查询或处理。流处理对滚动时间窗口内的数据或仅对最近的数据记录进行查询或处理。　　　　

（2）数据大小，批处理针对的是大批量数据（如GB或者PB级别）。流处理针对的是单条记录或包含几条记录的微批数据（如KB或者MB）。　　　　

（3）性能，批处理所需的时间一般是几分钟至几小时的延迟。流处理所需的时间几毫秒至几秒的延迟。　　　　

（4）场景，批处理使用的场景分析起来很复杂。流处理只需要简单的响应调用，聚合和滚动指标。

二、阿里大数据治理平台

2.1产品架构

DataWorks（大数据开发治理平台）是阿里云重要的PaaS（Platform-as-a-Service）平台产品，为您提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务，一站式开发管理的界面，帮助企业专注于数据价值的挖掘和探索。

DataWorks支持多种计算和存储引擎服务，包括离线计算MaxCompute、开源大数据引擎E-MapReduce、实时计算（基于Flink）、机器学习PAI、云原生数据仓库 AnalyticDB for PostgreSQL，云原生数据仓库AnalyticDB for MySQL，并且支持用户自定义接入计算和存储服务。DataWorks为您提供全链路智能大数据及AI开发和治理服务。

全面托管的调度
- DataWorks提供强大的调度功能，详情请参见调度配置。
  - 支持根据时间、依赖关系，进行任务触发的机制。详情请参见时间属性配置说明和配置同周期调度依赖。
  - 支持每日千万级别大规模周期性任务调度，其将根据DAG关系准确、准时地运行。
  - 支持分钟、小时、天、周、月、年多种调度周期配置。

- 完全托管的服务，无需关心调度的服务器资源问题。
- 提供隔离功能，确保不同租户之间的任务不会相互影响。
DataWorks提供丰富的节点类型，详情可参考：选择数据开发节点。全面的引擎能力封装，让您无需接触复杂的引擎命令行。并提供自定义节点插件化机制，支持您扩展计算任务类型，自主接入自定义计算服务，同时，支持您结合DataWorks其他节点进行复杂数据处理。
- 数据集成：依托DataWorks中数据集成的强力支撑，支持超过20种数据源，为您提供稳定高效的数据传输功能。详情请参见数据集成。
- 数据转化：
  - 依托引擎强大的能力，保证了大数据的分析处理性能。例如：创建ODPS SQL节点、ODPS Spark、EMR Hive、EMR MR等节点。
  - 提供通用类型节点,，结合引擎节点可实现复杂数据分析处理过程。例如：赋值节点、do-while、for-each等节点。
  - 支持自定义节点，通过自定义计算服务进行数据开发。关于自定义节点配置详情，可参考文档：概述。
可视化开发DataWorks提供可视化的代码开发、工作流设计器页面，无需搭配任何开发工具，简单拖拽和开发，即可完成复杂的数据分析任务。详情请参见界面功能点介绍。只要有浏览器有网络，您即可随时随地进行开发工作。
监控告警运维中心提供可视化的任务监控管理工具，支持以DAG图的形式展示任务运行时的全局情况，详情请参见运维中心。您可以方便地配置各类报警方式，任务发生错误可及时通知相关人员，保证业务正常运行。详情请参见智能监控。

2.2功能介绍

2.2.1数据集成

数据集成有两个定位，第一是数据中台对接外界核心枢纽，即对接云上系统之间数据流转的打通；第二是跨云跨网一站式数据传输，即在数据集成中，所有数据的进出都可以提供一站式的解决方案。

批量配置数据源和批量配置同步任务。

向导模式和脚本模式，向导模式配置数据源后，参数自动生成。

过程：选择数据源-添加同步任务。

规则类型，8种，例如，目标表前缀；新增字段、字段赋值；目标表子端替换；

同步任务运行方式：测试运行、补数据运行和周期运行。

同步速度调优：任务切分（切分键、作业并发数）、资源占用；

切分键，切分源端数据；并发数小于DMU两倍。
- 资源单位DMU，为完成同步需要占用的CPU、内存、网络资源
- 任务DMU<=5，并发资源数<=10
自定义资源组，独占资源，利用专线+独占资源=提高速度

2.2.2数据建模

DataWorks 数据建模同时支持关系（ER、3NF）建模和维度建模（星型，雪花）。不同类型的模型没有最好，只有更适合。用户应该从企业的实际场景出发选择建模方式。根据经验总结，大多数企业都会同时存在以上两种建模方式，底层模型用关系建模，力求做到数据精简，往上维度建模就更适合，靠数据冗余带来可用性、分析性和可操作性。

2.2.3数据开发-降本增效利器

DataWorks数据开发（DataStudio、StreamStudio、HoloStudio）面向各引擎提供可视化开发的主界面，赋予用户智能代码开发、多引擎混编工作流、规范化任务发布的强大能力，让用户轻松构建离线数仓、实时数仓与即席分析系统。支持引擎：MaxCompute、E-MapReduce、Flink、Hologres、AnalyticDB for PostgreSQL，满足用户不同的企业级业务场景。
大幅提升工作效率

非技术人员1~2小时即可掌握完整的数据研发流程
无需维护各类开源技术栈，释放更多人力专注于业务

从容面对复杂场景

支持顺序、循环、分支、判断等节点类型
支持跨引擎、跨地域、跨周期的任务调度

提供更规范、科学的开发模式

高效的多人协同任务开发模式
规范且安全的任务发布上线流程

2.2.4数据治理

2.2.5数据服务

2.3应用场景

资源优化：帮您节省计算、存储费用
移动运维：轻松搞定任务运维
运行诊断：为您快速定位疑难问题
智能监控：提高生产力，更加智慧的告警处理方式
字段级数据血缘：快速定位脏数据源头
多种控制节点：满足复杂业务场景逻辑
数据保护伞：进行数据安全保障
实时流计算开发：极大降低新技术使用门槛

三、华为数据湖治理中心- DGC

https://support.huaweicloud.com/usermanual-dgc/dgc_01_0024.html

3.1产品架构

华为云整个的数据湖解决方案，完整覆盖了数据处理的生命周期，并且明确支持了数据治理，并提供了基于模型和指标的数据治理流程工具，在华为云的数据湖解决方案中逐渐开始往“湖仓一体化”方向演进。

DGC基于数据湖底座，提供数据集成、开发、治理、开放等能力。DGC支持对接所有华为云的数据湖与数据库云服务作为数据湖底座，例如数据湖探索（Data Lake Insight，简称DLI）、MRS Hive、数据仓库服务DWS等，也支持对接企业传统数据仓库，例如Oracle、Greenplum等。DGC包含如下功能组件：

管理中心，提供DGC数据连接管理的能力，将DGC与数据湖底座进行对接，用于数据开发与数据治理等活动。
数据集成之批量数据迁移，批量数据迁移提供20+简单易用的迁移能力和多种数据源到数据湖的集成能力，全向导式配置和管理，支持单表、整库、增量、周期性数据集成。
数据集成之实时数据集成，实时数据接入为处理或分析流数据的自定义应用程序构建数据流管道，主要解决云服务外的数据实时传输到云服务内的问题。实时数据接入每小时可从数十万种数据源（例如日志和定位日志事件、网站点击流、社交媒体源等）中连续捕获、传送和存储数TB数据。
规范设计，作为数据治理的一个核心模块，承担数据治理过程中的数据加工并业务化的功能，提供智能数据规划、自定义主题数据模型、统一数据标准、可视化数据建模、标注数据标签等功能，有利于改善数据质量，有效支撑经营决策。
数据开发，大数据开发环境，降低用户使用大数据的门槛，帮助用户快速构建大数据处理中心。支持数据建模、数据集成、脚本开发、工作流编排等操作，轻松完成整个数据的处理分析流程。
数据质量，数据全生命周期管控，数据处理全流程质量监控，异常事件实时通知。
数据资产，提供企业级的元数据管理，厘清信息资产。通过数据地图，实现数据资产的数据血缘和数据全景可视，提供数据智能搜索和运营监控。
数据服务，数据服务定位于标准化的数据服务平台，提供一站式数据服务开发、测试部署能力，实现数据服务敏捷响应，降低数据获取难度，提升数据消费体验和效率，最终实现数据资产的变现。
数据安全，数据安全为数据湖治理中心提供数据生命周期内统一的数据使用保护能力。通过敏感数据识别、分级分类、隐私保护、资源权限控制、数据加密传输、加密存储、数据风险识别以及合规审计等措施，帮助用户建立安全预警机制，增强整体安全防护能力，让数据可用不可得和安全合规。

3.2数据集成（批量数据迁移）

批量数据迁移基于分布式计算框架，利用并行化处理技术，支持用户稳定高效地对海量数据进行移动，实现不停服数据迁移，快速构建所需的数据架构。

表/文件/整库迁移支持批量迁移表或者文件，还支持同构/异构数据库之间整库迁移，一个作业即可迁移几百张表。
增量数据迁移支持文件增量迁移、关系型数据库增量迁移、HBase/CloudTable增量迁移，以及使用Where条件配合时间变量函数实现增量数据迁移。
事务模式迁移支持当CDM作业执行失败时，将数据回滚到作业开始之前的状态，自动清理目的表中的数据。
字段转换支持去隐私、字符串操作、日期操作等常用字段的数据转换功能。
文件加密在迁移文件到文件系统时，CDM支持对写入云端的文件进行加密。
MD5校验一致性支持使用MD5校验，检查端到端文件的一致性，并输出校验结果。
脏数据归档支持将迁移过程中处理失败的、被清洗过滤掉的、不符合字段转换或者不符合清洗规则的数据单独归档到脏数据日志中，便于用户查看。并支持设置脏数据比例阈值，来决定任务是否成功。

3.3数据开发

使用数据开发模块，用户可进行数据管理、脚本开发、作业开发、作业调度、运维监控等操作，轻松完成整个数据的处理分析流程。

支持的功能	说明
数据管理	支持管理DWS、DLI、MRS Hive等多种数据仓库。支持可视化和DDL方式管理数据库表。
脚本开发	提供在线脚本编辑器，支持多人协作进行SQL、Shell、Python脚本在线代码开发和调测。支持使用变量和函数。
作业开发	提供图形化设计器，支持拖拉拽方式快速构建数据处理工作流。预设数据集成、SQL、Shell等多种任务类型，通过任务间依赖完成复杂数据分析处理。支持导入和导出作业。
资源管理	支持统一管理在脚本开发和作业开发使用到的file、jar、archive类型的资源。
作业调度	支持单次调度、周期调度和事件驱动调度，周期调度支持分钟、小时、天、周、月多种调度周期。
运维监控	支持对作业进行运行、暂停、恢复、终止等多种操作。支持查看作业和其内各任务节点的运行详情。支持配置多种方式报警，作业和任务发生错误时可及时通知相关人，保证业务正常运行。

3.4总结

华为的数据湖解决方案比较完整，DLI承担了所有的数据湖构建、数据处理、数据管理、数据应用的核心功能。DLI最大的特色是在于分析引擎的完备性，包括基于SQL的交互式分析以及基于Spark+Flink的流批一体处理引擎。在核心存储引擎上，DLI依然通过内置的OBS来提供，和AWS S3的能力基本对标。华为数据湖解决方案在上下游生态上做的比AWS相对完善，对于外部数据源，几乎支持所有目前华为云上提供的数据源服务。

DLI可以与华为的CDM（云数据迁移服务）和DIS（数据接入服务）对接：1）借助DIS，DLI可以定义各类数据点，这些点可以在Flink作业中被使用，做为source或者sink；2）借助CDM，DLI甚至能接入IDC、第三方云服务的数据。

为了更好的支持数据集成、数据开发、数据治理、质量管理等数据湖高级功能，华为云提供了DAYU平台。DAYU平台是华为数据湖治理运营方法论的落地实现。DAYU涵盖了整个数据湖治理的核心流程，并对其提供了相应的工具支持；甚至在华为的官方文档中，给出了数据治理组织的构建建议。DAYU的数据治理方法论的落地实现如图11所示（来自华为云官网）。

四、阿里云数据湖方案

对象存储 OSS 是基于阿里云自研的分布式存储引擎——盘古搭建，提供体系化的数据采力，支持结构化/半结构化/非结构化数据源。体系由数据湖对象存储 OSS、云原生数据湖分析 DLA、数据湖构建 DLF、E-MapReduce、 Works 等产品强强组合，在存储与计算分离架构下，提供“湖存储”、“湖加速”、“湖计算”的企业级数据湖解决方案。

数据存储：OSS
数据加工：数据湖构建+E-mapreduce
- 数据湖构建（DLF），云原生数据湖架构核心组成部分，帮助用户简单快速构建云原生数据湖解决方案，DLF提供湖上云数据统一管理、企业级权限控制，并无缝对接多种计算引擎，打破数据孤岛，洞察业务价值。
- E-mapreduce，构建在阿里云服务器ECS上的开源Hadoop、spark、Hbase、hive、Flink生态大数据Pass产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时分析、机器学习等场景下的大数据解决方案。
数据分析与治理，对企业数据的可用性、完整性和安全性全面管理。数据湖采用API接口让数据湖实现多引擎的统一元数据管理和权限管理。
- MaxCompute ：MaxCompute 是一项面向分析的大数据计算服务，它以 Serverless 架构提供快速、全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您经济并高效的分析处理海量数据。
- 云原生数据湖分析(Data Lake Analytics，简称 DLA) 采用全新的云原生+Serverless+ 据库与大数据一体化架构，支持企业级权限管理、高效入湖、 ETL、机器学习、流计算与交互式分析等。核心组包括：统一Meta、Lakehouse、Serverless Spark、Serverless Presto.
- 机器学习 PAI：机器学习 PAI（Platform of Artificial Intelligence）是阿里云面向企业客户及开发者，提供轻量化、高性价比的云原生机器学习平台支持百亿特征、千亿样本规模加速训练，百余种落地场景，全面提升机器学习工程效率
- 日志服务SLS，日志大数据解决方案，一站式提供数据收集、清洗、分析、可视化和告警功能。
- dataworks，基于EMR/MC-Hologres 等大数据计算引擎，为客户提供专业高效、安全可的一站式大数据开发与治理平台。

4.1数据湖架构

4.2数据湖构建（Data Lake Formation，简称 DLF）

4.2.1产品架构

阿里云数据湖构建（Data Lake Formation，简称 DLF）是一款全托管的快速帮助用户构建云上数据湖及Lakehouse的服务，为客户提供了统一的元数据管理、统一的权限与安全管理、便捷的数据入湖能力以及一键式数据探索能力。DLF可以帮助用户快速完成云原生数据湖及Lakehouse方案的构建与管理，并可无缝对接多种计算引擎，打破数据孤岛，洞察业务价值。

元数据管理，通过控制台查看和管理数据湖中元数据库和表的信息，通过API的方式操作元数据，集成到第三方应用服务。并支持多版本管理、可通过元数据发现和入湖任务自动生成元数据。
数据入湖，通过入湖任务的方式将分散在MySQL、Kafka和PolarDB等数据统一存储，入湖过程如果没有定义元数据信息，入湖任务会自动生成元数据的表信息。
数据权限管理，可以加强湖上数据权限控制，保障数据安全。可支持对元数据库、元数据表、元数据列三种粒度的权限。
数据探索，为您提供一键式数据探索能力，可支持Spark 3.0 SQL语法，可以保存历史查询，预览数据，导出结果，一键生产tpc-ds测试数据集。
湖管理，将为您提供对湖内数据存储的分析及优化建议，加强对数据生命周期管理，优化使用成本，方便您进行数据运维管理。

4.2.2应用场景

数据分析场景，通过元数据发现、数据探索能力，可以快速的对OSS内结构化、半结构化数据进行分析、探索。
结合E-MapReduce、OSS两个产品，DLF协助客户快速构建云上数据湖。

结合MaxCompute、Dataworks、E-MapReduce3个产品，DLF协助客户快速构建湖仓一体架构。

结合Databricks、OSS产品，构建云上全托管Lakehouse数据架构。

4.2.3阿里DDI（databricks datainsight 数据洞察）

产品核心：

基于商业版 Spark 的全托管大数据分析& AI 平台
内置商业版 Spark 引擎 Databricks Runtime ，在计算层面提供高效、稳定的保障
与阿里云产品集成互通，提供数据安全、动态扩容、监控告警等企业级特性

产品引擎与服务：

100% 兼容开源 Spark，经阿里云与 Databricks 联合研发性能优化
提供商业化 SLA 保障与7*24小时 Databricks 专家支持服务

产品关键信息与优势

4.2.3.1产品架构

Databricks数据洞察构建在ECS之上，使用阿里云对象存储服务（OSS）为核心存储。存储访问加速层方便您可以像操作HDFS上的数据一样访问OSS上的数据。
Databricks数据洞察提供了两种执行Spark作业的方式，包括通过Notebook或者在项目空间里新建Spark作业。
Databricks数据洞察还提供了监控告警、元数据管理、权限管理等功能，方便您对集群资源进行管理。

4.2.3.2应用场景

1、数据湖分析

使用阿里云对象存储OSS作为云上存储，DDI集群提供灵活的计算资源，OSS上的数据可以被多个DDI集群共享，减少数据冗余。同时，DataInsight Notebook支持多用户同时协同工作，您可以在Notebook中完成作业编辑、提交和结果查看。

2、实时数仓

利用Databricks Delta Lake的ACID事务特性，可以构建云上大数据的实时数仓。

五、华为数据湖探索（Data Lake Insight，以下简称DLI）

5.1产品架构

数据湖探索（Data Lake Insight，以下简称DLI）是完全兼容Apache Spark、Apache Flink、openLooKeng（基于Presto）生态，提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务。DLI是完全托管的大数据处理分析服务，企业使用标准SQL、Spark、Flink程序就可轻松完成多数据源的联合计算分析，挖掘和探索数据价值。数据无需复杂的抽取、转换、加载（ETL），使用SQL或程序就可以对云上CloudTable、RDS、DWS、CSS、OBS、ECS自建数据库以及线下数据库的异构数据进行探索。

5.2功能介绍

DLI用户可以通过可视化界面、Restful API、JDBC、ODBC、Beeline等多种接入方式对云上CloudTable、RDS和DWS等异构数据源进行查询分析，数据格式兼容CSV、JSON、Parquet、Carbon和ORC五种主流数据格式。

三大基本功能
- SQL作业支持SQL查询功能：可为用户提供标准的SQL语句。具体内容请参考《数据湖探索SQL语法参考》。
- Flink作业支持Flink SQL在线分析功能：支持Window、Join等聚合函数、地理函数、CEP函数等，用SQL表达业务逻辑，简便快捷实现业务。具体内容请参考《数据湖探索SQL语法参考》。
- Spark作业提供全托管式Spark计算特性：用户可通过交互式会话(session)和批处理(batch)方式提交计算任务，在全托管Spark队列上进行数据分析。具体内容请参考《数据湖探索API参考》。
多数据源分析：
- Spark跨源连接：可通过DLI访问CloudTable，DWS，RDS和CSS等数据源。具体内容请参考《数据湖探索用户指南》。
- Flink跨源支持与多种云服务连通，形成丰富的流生态圈。数据湖探索的流生态分为云服务生态和开源生态：具体内容请参见《数据湖探索开发指南》。
  - 云服务生态：数据湖探索在Flink SQL中支持与其他服务的连通。用户可以直接使用SQL从这些服务中读写数据，如DIS、OBS、CloudTable、MRS、RDS、SMN、DCS等。
  - 开源生态：通过增强型跨源连接建立与其他VPC的网络连接后，用户可以在数据湖探索的租户独享队列中访问所有Flink和Spark支持的数据源与输出源，如Kafka、Hbase、ElasticSearch等。
BI工具
- 对接永洪BI：与永洪BI对接实现数据分析。具体内容请参考《数据湖探索开发指南》。
支持地理空间查询。具体内容请参考《数据湖探索开发指南》。

5.3应用场景

（1）大数据ETL处理

大数据ETL：具备TB~EB级运营商数据治理能力，能快速将海量运营商数据做ETL处理，为分布式批处理计算提供分布式数据集。
高吞吐低时延：采用Apache Flink的Dataflow模型，高性能计算资源，从用户自建的Kafka、MRS-Kafka、DMS-Kafka消费数据，单CU每秒吞吐1千~2万条消息。
细粒度权限管理：P公司内部有N个子部门，子部门之间需要对数据进行共享和隔离。DLI支持计算资源按租户隔离，保障作业SLA；支持数据权限控制到表/列，帮助企业实现部门间数据共享和权限管理。

（2）异构数据源联邦分析

多源数据分析免搬迁：关系型数据库RDS中存放车辆和车主基本信息，表格存储CloudTable中存放实时的车辆位置和健康状态信息，数据仓库DWS中存放周期性统计的指标。通过DLI无需数据搬迁，对多数据源进行联邦分析。
数据分级存储：车企需要保留全量历史数据支撑审计类等业务，低频进行访问。温冷数据存放在低成本的对象存储服务OBS上，高频访问的热数据存放在数据引擎（CloudTable和DWS）中，降低整体存储成本。
告警快速敏捷触发服务器弹性伸缩：对CPU、内存、硬盘空间和带宽无特殊要求。

（3）海量日志分析

高效的Spark编程模型：使用Spark Streaming直接从DIS中获取数据，进行数据清理等预处理操作。只需编写处理逻辑，无需关心多线程模型。
简单易用：直接使用标准SQL编写指标分析逻辑，无需关注背后复杂的分布式计算平台。
按需计费：日志分析按实效性要求按周期进行调度，每次调度之间存在大量空闲期。DLI按需计费只在使用期间收费，成本较独占队列降低50%以上。

六.Dremio(产品定位有差异)

6.1公司简介

Dremio由MapR的前员工：Tomer Shiran（CEO）和Jacques Nadeau（CTO）于2015年创立。融资总额为4500万美元。其总部位于美国，2017年发布了v1.0产品，客户包括帝亚吉欧（Diageo）、微软、瑞银、Nutanix和皇家加勒比游轮公司。

6.2产品架构

Dremio是一款DaaS（Data-as-a-Service）数据即服务平台，可对接多类数据源来进行BI分析，该产品直接使用数据湖的源数据进行快速访问以达到直接进行数据分析而不经过数据的清洗、处理、加工、建模等方式。数据湖的意思就是将不同存储类型、不同种类的数据汇聚在一起，这个存储集群统一对外就是一个数据湖了。而Dremio通过直接在云数据湖存储中进行实时的、交互式的查询来释放数据价值。

Dremio的技术特点：

快速的数据查询

在Dremio中，查询数据是直达数据湖存储的，无论数据是存储在S3、ADLS、Hadoop、MySQL、Mongodb等载体上。Dremio使用了包括不限于以下技术来加速每次的查询：

- Data Reflections
- Columnar Cloud Cache (C3)
- Predictive Pipelining work alongside Apache Arrow
使用Predictive Pipelining和Columnar Cloud Cache（C3）技术加速数据读取

Dremio的Predictive Pipelining技术使得来自数据源的数据只有在执行引擎真正需要到时才会去拉取，这个做法能显著降低引擎等待数据的时间成本。同样地，C3技术则是会自动地在数据存取时将数据缓存到本地的NVMe存储载体，使得查询访问数据湖中的数据能有NVMe存取速度级别的表现。

为云而建造的现代化执行引擎

Dremio的执行引擎是建立在Apache Arrow及其生态技术上的，一个Dremio集群能够根据存储数据的体量规模弹性伸缩。

Data Reflections - 能够更高效查询速度的开关

通过在Dremio提供的客户端页面的几下点击，就能够创建反射，反射是一种物理层面上对数据结构的优化，能够加速各种查询模式，根据你的需要可以创建任意数量的反射，Dremio会隐形并自动地在查询计划中合并反射，并保证查询到最新数据。

Arrow Flight - 以1000x的倍速移动数据

AF被设计出来是用于取代处理小规模数据的ODBC和JDBC协议，AF在高速、分布式传输协议的基础上，为Dremio和应用的数据传输提供了1000x倍速度提升的吞吐。

自助式服务语义层

Dremio提供了一个应用安全和商业意义的抽象层，以支持用户能够探索数据，以及派生出新的虚拟数据集。

可自定义化的语义抽象层

Dremio的语义层是一个能够索引出所有用户元数据的集成化、可搜索的目录。在此语义层上，虚拟数据集以及空间构成了语义层，并且都是能够倍索引和搜索的。

高效的数据上下文管理

通过虚拟上下文的管理，Dremio让可以使得筛选、转换、联表、聚合一个或多个数据源的数据变得快速，容易并且成本低。另外，Dremio的虚拟数据集是通过标准SQL定义的，如此我们使用起来旧不需要再另外学习一套查询语法了。

直接应用在BI或数据科学工具上

Dremio其实就如同关系型数据库一样，并且Dremio可以暴露ODBC、JDBC、REST以及Arrow Flight协议的接口，这样我们就可以在一些BI应用上连接Dremio获取数据。

细粒度的访问权限控制

Dremio提供行级和列级的权限控制，可以让我们基于敏感数据、基于角色来控制对数据的访问权限。

数据血缘

Dremio的data graph管理着数据源、虚拟数据集以及查询语句之间的关系，我们可以通过data graph获知到当前查询的数据集的来源。

七.Databricks

7.1公司概况

1、Databricks 于 2013 年在旧金山成立，是大型数据分析工具的最大供应商之一，由美国伯克利大学AMP实验室的开源处理引擎系统Apache Spark的多位创始人联合创立，专注于大数据和AI人工智能，致力于提供基于Spark的云服务及开放统一的数据平台。

2、Databricks开创了云计算领域的“Lakehouse”结构概念，这一术语是由“Data Lakes”与“Data Warehouses”合成而成。目前Databricks提供四种产品：Spark、Delta Lake、MLflow（开发和维护 AI 生命周期管理平台）和Koalas（数据分析工具）。

3、公司定位：

Databricksis the Data + AI company，为客户提供数据分析、数据工程、数据科学和人工智能方面的服务，一体化的 Lakehouse 架构
开源版本 VS 商业版本：公司绝大部分技术研发资源投入在商业化产品
多云策略，与顶级云服务商合作，提供数据开发、数据分析、机器学习等产品，Data+AI 一体化分析平台

4、市场地位

Databricks的全球客户数量达5000多家，且全球有超过40%的财富500强企业都在使用Databricks的云平台。
2021年8月20日，H轮，15亿美元，估值380亿美元。

7.2不同产品介绍

7.2.1Delta Lake

Delta Lake 是一个统一的数据管理系统，为云上数据湖带来数据可靠性和快速分析。Delta Lake 运行在现有数据湖之上，并且与 Apache Spark 的 API 完全兼容。使用Delta Lake，您可以加快高质量数据导入数据湖的速度，团队也可以在云服务上快速使用这些数据，安全且可扩展。

ACID 事务性：Delta Lake 在多个写操作之间提供 ACID 事务性。每一次写操作都是一个事务操作，事务日志（Transaction Log）中记录的写操作都有一个顺序序列。事务日志（Transaction Log）跟踪了文件级别的写操作，并使用了乐观锁进行并发控制，这非常适用于数据湖，因为尝试修改相同文件的多次写操作的情况并不经常发生。当发生冲突时，Delta Lake 会抛出一个并发修改异常，抛给供用户处理并重试其作业。Delta Lake 还提供了最高级别的隔离（可序列化隔离），允许工程师不断地向目录或表写入数据，而使用者不断地从同一目录或表读取数据，读取数据时会看到数据的最新快照。
Schema 管理（Schema management）：Delta Lake 会自动验证正在写入的DataFrame 的 Schema 是否与表的 Schema 兼容。若表中存在但 DataFrame 中不存在的列则会被设置为 null。如果 DataFrame 中有额外的列不在表中，那么该操作将会抛出异常。Delta Lake 具有 DDL（数据定义语言）显式添加新列的功能，并且能够自动更新 Schema。
可伸缩的元数据（Metadata）处理：Delta Lake 将表或目录的元数据信息存储在事务日志（Transaction Log）中，而不是元数据 Metastore 中。这使得 Delta Lake够在固定时间内列出大目录中的文件，并且在读取数据时效率很高。
数据版本控制和时间旅行（Time Travel）：Delta Lake 允许用户读取表或目录的历史版本快照。当文件在写入过程中被修改时，Delta Lake 会创建文件的新的版本并保留旧版本。当用户想要读取表或目录的较旧版本时，他们可以向 Apach Spark的 read API 提供时间戳或版本号，Delta Lake 根据事务日志（Transaction Log）中的信息来构建该时间戳或版本的完整快照。这非常方便用户来复现实验和报告，如果需要，还可以将表还原为旧版本。
统一批流一体：除了批处理写入之外，Delta Lake 还可以作为 Apache Spark 的结构化流的高效流接收器（Streaming Sink）。与 ACID 事务和可伸缩元数据处理相结合，高效的流接收器（Streaming Sink）支持大量近实时的分析用例，而无需维护复杂的流和批处理管道。
记录更新和删除：Delta Lake 将支持合并、更新和删除的 DML（数据管理语言）命令。这使得工程师可以轻松地在数据湖中插入和删除记录，并简化他们的变更数据捕获和 GDPR（一般数据保护条例）用例。由于 Delta Lake 在文件级粒度上进行跟踪和修改数据，因此它比读取和覆盖整个分区或表要高效得多。

7.2.2产品架构

1、Databricks 产品支持执行 Spark、Python、Scala、Java 和 R 等语言，甚至支持 SQL，适用于不同类型的用户。

2、强大的数据版本控制：Databricks 原生支持 DELTA 格式。Delta Lake 是完全兼容 ACID 的，这就解决了 Spark 的不兼容 ACID 这一主要问题。

7.2.3湖仓一体

事物支持：Lakehouse 在企业级应用中，许多数据管道通常会同时读取和写入数据。通常多方同时使用 SQL 读取或写入数据，Lakehouse 保证支持ACID事务的一致性。
模式实施和治理：Lakehouse 应该有一种支持模式实施和演变的方法，支持 DW 模式规范，例如 star /snowflake-schemas。该系统应该能够推理数据完整性，并且应该具有健壮的治理和审核机制。
BI支持：Lakehouse 可以直接在源数据上使用BI工具。这样可以减少陈旧度和等待时间，提高新近度，并且降低必须在数据湖和仓库中操作两个数据副本的成本。
存储与计算分离：事实上，这意味着存储和计算使用单独的群集，因此这些系统能够扩展到更多并发用户和更大数据量。一些现代数据仓库也具有这种属性。
兼容性：Lakehouse 使用的存储格式是开放式和标准化的，例如 Parquet，并且它提供了多种 API，包括机器学习和 Python/R 库，因此各种工具和引擎都可以直接有效地访问数据。
支持从非结构化数据到结构化数据的多种数据类型：Lakehouse 可用于存储，优化，分析和访问许多新数据应用程序所需的数据类型，包括图像，视频，音频，半结构化数据和文本。
支持各种工作场景：包括数据科学，机器学习和 SQL 分析。这些可能依赖于多种工具来支持的工作场景，它们都依赖于相同的数据存储库。
端到端流式任务：实时报告是许多企业的日常需要。对流处理的支持消除了对专门服务于实时数据应用程序的单独系统的需求。

八、confluent调研

8.1公司概况

1、团队背景

（1）LinkedIn开发Apache Kafka实时信息列队技术的程序员，创立confluent，核心是利用Apache Kafka。

三个创始人：Jay Kreps（美国加州人）和清华毕业的饶军（Jun Rao）及来自印度的女生纳赫（Neha Narkhede）。

2、融资情况

2021-6-25美股上市，市值143.64亿美元。

3、商业化产品

商业化产品有3大类：

主营产品：Confluent Platform，Confluent Cloud
支撑产品：无法单独购买，主要用来给楼上引流，例如应用市场中的各种插件
咨询服务类：例如专家服务，培训等

4、不同实时计算工具的对比

Spark 做批处理、Flink 做流处理、Clickhouse 做交互分析，这是最简单的一套。再复杂一点，可能还要部署 HBase 做 KV 查询，用 ElasticSearch 做文本检索。

产品
Spark streaming	不是特别适合于做秒级甚至亚秒级的计算
Kafka streaming	很难满足我们对大体量的复杂计算的需求
Storm	没有批处理能力
Flink	批流结合

8.2产品架构

Confluent是用来管理和组织不同数据源的流媒体平台，可以实时地把不同源和位置的数据集成到一个中心的事件流平台。而且还强调了这个平台很可靠、性能很高，总之就是很好用，很强大。Confluent目前提供了社区版和商业版两个版本，社区版永久免费，商业版面向企业收费。

社区版提供了Connectors、REST Proxy、KSQL、Schema-Registry等基础服务。
商业版为企业提供了控制面板、负载均衡，跨中心数据备份、安全防护等高级特性。

（1）Confluent Control Center（控制中心），让我们很容易地管理kafka的连接，创建，编辑，和管理与其他系统的连接。我们可以从producer到consumer监控data streams，保证我们的每一条消息都被传递，还能测量出消息的传输耗时多久。使用confluent control center能让开发人员不写一句代码，也能构建基于kafka的数据生产管道。

（2）Confluent Replicator（数据复制与迁移），Confluent Platform使我们可以比以往更轻松地在多个数据中心内维护多个Kafka群集。管理数据中心之间的数据复制和topic配置，比方说：ative-active地理定位部署：允许用户访问最近（附近）的数据中心，以优化其架构，实现低延迟和高性能

集中分析：将来自多个Kafka集群的数据聚合到一个地方，以进行组织范围的分析
云迁移：可以使用kafka完成本地应用与云之间的数据迁移

我们可以利用Confluent Replicator从Confluent Control Center或CLI工具配置管理所有这些方案的复制。

（3）Confluent Auto Data Balancer（解决负载均衡），随着集群的增长，topic和partition以不同的速度增长，随着时间的推移，添加和删除会导致跨数据中心资源的工作负载不平衡。有一些brokers是空闲的（数据倾斜），而其他brokers则对大量或多个partitions负载，从而减慢了消息传递的速度。当执行时，Confluent Auto Data Balancer会监控您的群集中的broker数量，partition大小，partition数量以及群集中的broker数量。它允许我们转移数据以在整个群集中创建均匀的工作负载，同时限制重新平衡流量，以最大限度地减少重新平衡时对生产工作负载的影响。

（4）Confluent JMS Client，Confluent Platform包含适用于Kafka的JMS兼容客户端。通过用Kafka替换旧的JMS消息代理，现有的应用程序可以与我们的现代流式平台集成，而无需重新编写应用程序。

（5）Confluent Security Plugins，目前，有一个可用于Confluent REST Proxy的插件，它有助于验证传入的请求并将经过身份验证传到kafka请求。

Kafka Brokers(开源）。构成Kafka的消息，数据持久性和存储层。

Kafka Java Clients(开源)。Java 库，写消息到kafka 或者从kafka 读消息。

Kafka Streams（开源）。Kafka Streams是一个库使kafka转换成功能齐全的流处理系统。

Kafka Connect（开源）。一种可扩展的和可靠的连接Kafka框架与外部系统（如数据库，键值存储，搜索索引和文件系统）的框架。

除了Kafka以外， Confluent Platform 包括更多的工具和服务，使构建和管理数据流平台更加容易。

Confluent Control Center（闭源）。管理和监控Kafka最全面的GUI驱动系统。

Confluent Kafka Connectors（开源）。连接SQL数据库/Hadoop/Hive

Confluent Kafka Clients（开源）。对于其他编程语言，包括C/C++,Python

Confluent Kafka REST Proxy（开源）。允许一些系统通过HTTP和kafka之间发送和接收消息。

Confluent Schema Registry（开源）。帮助确定每一个应用使用正确的schema当写数据或者读数据到kafka中。

总的来说，Confluent Platform平台的组件给你的团队朝着建立统一而灵活的方式建立一个企业范围的数据流平台。

你可能感兴趣的:(数据库,大数据,hadoop,devops,java)

Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。