月亮给我抄代码

大数据之数据治理架构 —— Atlas

文章目录

- - - 什么是数据治理？
    - 什么是 Atlas?
    - Atlas 的作用
    - Atlas 架构
    - - Atlas 架构解析
    - Atlas 大数据集群搭建
    - - JDK 与 Hadoop 搭建
      - MySQL 与 Hive 搭建
      - Zookeeper 与 HBase 搭建
      - Kafka 搭建
      - Solr 搭建
      - Atlas 搭建与集成
    - Atlas 启动
    - Hive 元数据导入
    - Atlas 模拟生成血缘依赖

什么是数据治理？

数据治理是一种组织和管理数据资源的过程，旨在确保数据的质量、安全性、可靠性、可访问性和合规性，以支持企业决策和运营需求。

数据治理涉及制定和执行数据管理策略、规则和流程，包括数据分类、数据质量管理、数据安全和隐私保护、数据共享和访问控制、数据存储和备份等方面。

数据治理通常需要跨部门合作，包括IT、业务和法务等部门，以确保数据资源在整个企业中的有效管理和利用。数据治理对于企业决策的准确性和效率至关重要，可以提高数据价值、减少风险和遵守法规要求。

什么是 Atlas?

Apache Atlas 是一组可伸缩和可扩展的核心基础治理服务——使企业能够有效且高效地满足其在 Hadoop 中的合规性要求，并允许与整个企业数据生态系统集成。

Atlas 为组织提供开放的元数据管理和治理功能，以构建其数据资产的目录，对这些资产进行分类和治理，并为数据科学家、分析师和数据治理团队提供围绕这些数据资产的协作能力。

Atlas 的作用

元数据类型和实例

各种 Hadoop 和非 Hadoop 元数据的预定义类型
能够为要管理的元数据定义新类型
类型可以有原始属性、复杂属性、对象引用；可以继承自其他类型
类型的实例，称为实体，捕获元数据对象的详细信息及其关系
用于处理类型和实例的 REST API 允许更轻松的集成

分类

能够动态创建分类，如 PII、EXPIRES_ON、DATA_QUALITY、SENSITIVE
分类可以包括属性——比如 EXPIRES_ON 分类中的 expiry_date 属性
实体可以与多个分类相关联，从而更容易发现和安全实施
通过沿袭传播分类，自动确保分类在数据经过各种处理时遵循

血统

直观的 UI 可在数据通过各种流程时查看数据沿袭
用于访问和更新沿袭的 REST API

搜索/发现

用于按类型、分类、属性值或自由文本搜索实体的直观 UI
丰富的 REST API 可按复杂条件进行搜索
用于搜索实体的类似 SQL 的查询语言 - 领域特定语言 (DSL)

安全和数据屏蔽

元数据访问的细粒度安全性，支持对实体实例的访问和添加/更新/删除分类等操作的控制
与 Apache Ranger 的集成可以根据与 Apache Atlas 中实体相关的分类对数据访问进行授权/数据屏蔽。例如：
- 谁可以访问分类为 PII、敏感的数据
- 客户服务用户只能看到归类为 NATIONAL_ID 的列的最后 4 位数字

Atlas 架构

Atlas 架构解析

底层：

Atlas 的最底层是通过 HBase 与 Solr 完成对 Atlas 组件的元数据存储。

Core 核心层：

Ingest / Export：Ingest 组件允许将元数据添加到 Atlas。同样，Export 组件公开 Atlas 检测到的元数据更改，并将其作为事件引发。消费者可以使用这些更改事件来实时响应元数据更改。
Type System 类型系统：Atlas 允许用户为他们想要管理的元数据对象定义模型。该模型由称为“类型”的定义组成。称为“实体”的“类型”实例代表了被管理的实际元数据对象。类型系统是一个允许用户定义和管理类型和实体的组件。开箱即用的 Atlas 管理的所有元数据对象（例如 Hive 表）都使用类型建模并表示为实体。
Graph Engine 图引擎：在内部，Atlas 使用图模型持久化它管理的元数据对象。这种方法提供了极大的灵活性，并能够有效地处理元数据对象之间的丰富关系。图形引擎组件负责 Atlas 类型系统的类型和实体之间的转换，以及底层图形持久化模型。除了管理图形对象外，图形引擎还为元数据对象创建适当的索引，以便可以有效地搜索它们。Atlas 使用 JanusGraph 来存储元数据对象。

Integration 消息传递层：

用户可以使用以下两种方法管理 Atlas 中的元数据。

Messaging 消息传递：用户可以选择使用基于 Kafka 的消息传递接口与 Atlas 集成。这对于将元数据对象与 Atlas 通信以及使用来自 Atlas 的元数据更改事件都非常有用，可以使用这些事件构建应用程序。如果希望使用与 Atlas 的耦合更松散的集成以实现更好的可伸缩性、可靠性等，则消息传递接口特别有用。Atlas 使用 Apache Kafka 作为通知服务器，用于挂钩和元数据通知事件的下游消费者之间的通信。事件由钩子和 Atlas 写入不同的 Kafka 主题。
API：Atlas 的所有功能都通过 REST API 公开给最终用户，该 API 允许创建、更新和删除类型和实体。它也是查询和发现 Atlas 管理的类型和实体的主要机制。

Metadata sources 元数据源层：

Atlas 支持与开箱即用的许多元数据源集成。目前，Atlas 支持从以下来源获取和管理元数据：

HBase
Hive
Sqoop
Storm
Kafka

集成意味着两件事：Atlas 本地定义元数据模型来表示这些组件的对象。Atlas 提供了一些组件来从这些组件中摄取元数据对象（在某些情况下以实时或批处理模式）。

Apps 应用层：

Atlas 管理的元数据被各种应用程序使用，以满足许多治理用例。

Atlas Admin UI：该组件是一个基于 Web 的应用程序，允许数据管理员和科学家发现和注释元数据。这里最重要的是搜索界面和类似 SQL 的查询语言，可用于查询 Atlas 管理的元数据类型和对象。管理 UI 使用 Atlas 的 REST API 来构建其功能。
基于标签的策略：Apache Ranger是 Hadoop 生态系统的高级安全管理解决方案，与各种 Hadoop 组件广泛集成。通过与 Atlas 集成，Ranger 允许安全管理员定义元数据驱动的安全策略以实现有效治理。Ranger 是 Atlas 通知的元数据更改事件的消费者。

Atlas 大数据集群搭建

从 Atlas 的架构中，我们可以看出其涉及的大数据组件很多，例如：HBase、Solr、Hadoop、Kafka、Hive 等等，在正式搭建 Atlas 之前，我们需要先确保这些相关的组件都已经搭建完毕，且能够正常启动运行。

架构搭建计划如下：

服务名称	子服务	hadoop104服务器	hadoop105服务器	hadoop106服务器
Java	JDK	√	√	√
HDFS	NameNode	√
HDFS	DataNode	√	√	√
HDFS	SecondaryNameNode			√
Yarn	Resourcemanager		√
Yarn	NodeManager	√	√	√
HistoryServer	JobHistoryServer	√
Zookeeper	QuorumPeerMain	√	√	√
Kafka	Kafka	√	√	√
HBase	HMaster	√
HBase	HRegionServer	√	√	√
Solr	Jar	√	√	√
Hive	Hive	√
MySQL	MySQL	√
Atlas	Atlas	√

JDK 与 Hadoop 搭建

参考我的这篇博客：Hadoop 完全分布式搭建（超详细）

启动服务后，相关节点运行如下图所示：

MySQL 与 Hive 搭建

参考我的这篇博客：Hive 搭建（将 MySQL 作为元数据库）

启动服务后，相关组件运行如下图所示：

MySQL 运行图

Hive 运行图

Zookeeper 与 HBase 搭建

参考我的这篇博客：HBase 分布式搭建

启动服务后，相关节点运行如下图所示：

Kafka 搭建

参考我的这篇博客：Kafka 搭建

启动服务后，相关节点运行如下图所示：

Solr 搭建

参考我的这篇博客：大数据之 Solr 集群搭建

选择任意一台主机地址，访问 Solr 的默认端口 8983 ，成功启动如下图所示：

Atlas 搭建与集成

解压压缩包

tar -zxvf apache-atlas-2.1.0-server.tar.gz -C /opt/module/

# 修改名称
cd /opt/module
mv apache-atlas-2.1.0/ atlas

配置环境变量

使用命令 vi /etc/profile 编辑环境变量文件，添加如下参数：

#ATLAS_HOME
export ATLAS_HOME=/opt/module/atlas
export PATH=$PATH:$ATLAS_HOME/bin

相关路径注意修改成自己的，然后通过 source /etc/profile 使环境生效。

Atlas 集成 HBase

Atlas 的底层是通过 HBase 去存储元数据的。

修改 Atlas 安装目录下的 conf/atlas-application.properties 配置文件，为 HBase 设置 Zookeeper 的连接地址。

atlas.graph.storage.hostname=hadoop104:2181,hadoop105:2181,hadoop106:2181

修改 Atlas 安装目录下的 atlas-env.sh 环境配置文件，设置 HBase 的目录。

export HBASE_CONF_DIR=/opt/module/hbase-2.0.5/conf

Atlas 集成 Solr

修改 Atlas 安装目录下的 conf/atlas-application.properties 配置文件，为 Solr 设置 Zookeeper 的连接地址。

atlas.graph.index.search.solr.zookeeper-url=hadoop104:2181,hadoop105:2181,hadoop106:2181

创建 Solr 集合，因为在 Atlas 中是通过 Solr 来负责存储图形数据索引信息的，所以需要创建点、线（边缘）以及全文（图）索引。

# 创建点索引，设置 3 个分片以及两个副本
sudo -i -u solr solr create -c vertex_index -d /opt/module/atlas/conf/solr -shards 3 -replicationFactor 2

# 创建线（边缘）索引，设置 3 个分片以及两个副本
sudo -i -u solr solr create -c edge_index -d /opt/module/atlas/conf/solr -shards 3 -replicationFactor 2

# 创建全文（图）索引，设置 3 个分片以及两个副本
sudo -i -u solr solr create -c fulltext_index -d /opt/module/atlas/conf/solr -shards 3 -replicationFactor 2

创建完成后，我们可以在 Solr 的 WEB 界面中查看索引结构，如下所示：

Atlas 集成 Kafka

修改 Atlas 安装目录下的 conf/atlas-application.properties 配置文件，为 Kafka 设置相关参数。

# 是否开启 atlas 的通知嵌入
atlas.notification.embedded=false

# 指定 kafka 的 data 目录
atlas.kafka.data=/opt/module/kafka/data

# 指定 kafka 的 zookeeper 连接地址
atlas.kafka.zookeeper.connect=hadoop104:2181,hadoop105:2181,hadoop106:2181/kafka

# 指定 kafka 的连接地址
atlas.kafka.bootstrap.servers=hadoop104:9092,hadoop105:9092,hadoop106:9092

Atlas Server 配置

修改 Atlas 安装目录下的 conf/atlas-application.properties 配置文件。

# 设置 atlas 的默认 WEB 访问地址
atlas.rest.address=http://hadoop104:21000

# 每次启动 atlas 是否都进行初始化
atlas.server.run.setup.on.start=false

# 为 atlas 绑定 zookeeper 地址
atlas.audit.hbase.zookeeper.quorum=hadoop104:2181,hadoop105:2181,hadoop106:2181

Atlas 集成 Hive

修改 Atlas 安装目录下的 conf/atlas-application.properties 配置文件，在该文件末尾添加如下参数：

#########  Hive  Configuration ########
# 是否开启 hive 的自动同步测试
atlas.hook.hive.synchronous=false
# 重试次数
atlas.hook.hive.numRetries=3
# 最大队列大小
atlas.hook.hive.queueSize=10000
# 集群名称
atlas.cluster.name=primary

修改 Hive 的配置文件 hive-site.xml，配置钩子属性，如下所示：

	<property>
		<name>hive.exec.post.hooksname>
		<value>org.apache.atlas.hive.hook.HiveHookvalue>
	property>

安装 Hive 的 Atlas 钩子程序。

tar -zxvf apache-atlas-2.1.0-hive-hook.tar.gz -C /opt/module/

复制 Hive 钩子程序的文件夹到 Atlas 目录下。

cd /opt/module/apache-atlas-hive-hook-2.1.0

cp -r ./* /opt/module/atlas/

接下来需要修改 Hive 的环境变量 hive-env.sh 配置文件。

cd $HIVE_HOME/conf/

# 复制模板文件并改名
cp hive-env.sh.template hive-env.sh

# 然后编辑复制的文件，在其中添加如下参数，指定 Hive 的 hook 目录
export HIVE_AUX_JARS_PATH=/opt/module/atlas/hook/hive

最后将 Atlas 配置文件目录下的 atlas-application.properties 文件拷贝到 Hive 中的 conf 目录下。

cp /opt/module/atlas/conf/atlas-application.properties $HIVE_HOME/conf/

Atlas 集群 Hive 完成。

Atlas 启动

从 Atlas 的设计架构中就可以看出，它的运行依附了许多组件，所以，在启动 Atlas 之前，我们需要先启动如下组件：

Hadoop
Zookeeper
Kafka
HBase
Solr

上述组件启动后，相关服务节点如下所示：

然后最终再启动 Atlas 服务。

# 启动 atlas
atlas_start.py

# 停止 atlas
atlas_stop.py

首次启动需要大概五分钟左右，启动期间会频繁打印 . 符号，启动成功后，会出现如下提示：

并且使用 jps 命令，可以查看到 Atlas 进程：

但启动成功后，我们发现，还是无法访问 Atlas 的 WEB 界面，如下所示：

这是由于 Atlas 还在做初始化工作，还需要再耐心等待三四分钟，然后再次刷新，就看到了 Atlas 的登录界面：

默认的账号密码都是 admin。

登录进入之后，Atlas 的基本界面如下所示：

Hive 元数据导入

我们可以通过 Atlas 提供的 Hive 钩子程序来直接进行首次元数据的同步，但在这之前，我们需要在 Hive 中创建一个表来进行模拟数据。

首先，我们进入 MySQL 中修改 Hive 的元数据库相关字段字符编码格式为 utf8，修改完成后，无需重启 MySQL 和 Hive 就能生效。

这一步的目的是避免后面在 Atlas 中查看中文字符时出现乱码情况。

# 切换到 Hive 的元数据库中
use metastore;

# 修改字段注释字符集
alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;

#修改表注释字符集
alter table TABLE_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;

# 修改分区表参数，以支持分区键能够用中文表示
alter table PARTITION_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;
alter table PARTITION_KEYS modify column PKEY_COMMENT varchar(4000) character set utf8;

# 修改索引注解
alter table INDEX_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;

然后修改 Hive 的配置文件 hive-site.xml，设置 JDBC 的连接参数，如下所示：

        <property>
                <name>javax.jdo.option.ConnectionURLname>
                <value>jdbc:mysql://hadoop104:3306/metastore?useSSL=false&useUnicode=true&characterEncoding=UTF-8value>
        property>

进入 Hive 中，创建测试表。

drop table if exists student;
create table student(
id int comment '学号',
name string comment '姓名',
age int comment '年龄',
sex string comment '性别')
row format delimited fields terminated by '\t'; 

# 插入一些模拟数据
insert into student values(1,"张三",20,"男"),(2,"李四",20,"男"),(3,"王五",21,"男"),(4,"张梅",20,"女"),(5,"王甜甜",21,"女");

插入后数据如下所示：

字符编码显示正常：

下面我们就可以通过运行 Atlas 提供的 Hive 钩子程序来进行首次元数据的导入了。

# 进入 Atlas 的安装目录
cd /opt/module/atlas

# 进入我们拷贝来的 Hive 的 hook-bin 目录
cd /hook-bin

直接运行该脚本文件 import-hive.sh。

运行后会提示输入 Atlas 的账号与密码，默认都是 admin。

导入完成后会出现 Hive Meta Data imported successfully!!! 提示，表示导入成功。

导入的时长和元数据量大小有关，后续 Hive 的元数据 Atlas 都会自动更新同步，无需再次执行该钩子程序。

我们打开 Atlas 的 WEB 界面，查看导入的元数据资产信息，点击右上角的统计标志。

然后就会发现我们的数据资产，显然我们的元数据已经首次同步完成了。

Atlas 模拟生成血缘依赖

模拟创建两张表。

订单表

CREATE TABLE dwd_order_info (
`id` STRING COMMENT '订单号',
`final_amount` DECIMAL(16,2) COMMENT '订单最终金额',
`order_status` STRING COMMENT '订单状态',
`user_id` STRING COMMENT '用户 id',
`payment_way` STRING COMMENT '支付方式',
`delivery_address` STRING COMMENT '送货地址',
`out_trade_no` STRING COMMENT '支付流水号',
`create_time` STRING COMMENT '创建时间',
`operate_time` STRING COMMENT '操作时间',
`expire_time` STRING COMMENT '过期时间',
`tracking_no` STRING COMMENT '物流单编号',
`province_id` STRING COMMENT '省份 ID',
`activity_reduce_amount` DECIMAL(16,2) COMMENT '活动减免金额',
`coupon_reduce_amount` DECIMAL(16,2) COMMENT '优惠券减免金额',
`original_amount` DECIMAL(16,2) COMMENT '订单原价金额',
`feight_fee` DECIMAL(16,2) COMMENT '运费',
`feight_fee_reduce` DECIMAL(16,2) COMMENT '运费减免'
) COMMENT '订单表'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

地区表

CREATE TABLE dim_base_province (
`id` STRING COMMENT '编号',
`name` STRING COMMENT '省份名称',
`region_id` STRING COMMENT '地区 ID',
`area_code` STRING COMMENT '地区编码',
`iso_code` STRING COMMENT 'ISO-3166 编码，供可视化使用',
`iso_3166_2` STRING COMMENT 'IOS-3166-2 编码，供可视化使用'
) COMMENT '省份表'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

模拟数据下载：数据治理-模拟数据下载

数据导入：

load data local inpath '/opt/software/base_province.txt' into table dwd_order_info;

load data local inpath '/opt/software/order_info.txt' into table dim_base_province;

下面来建立一张需求表，用于保存订单表与地区表的合并分析结果。

CREATE TABLE `ads_order_by_province` (
`dt` STRING COMMENT '统计日期',
`province_id` STRING COMMENT '省份 id',
`province_name` STRING COMMENT '省份名称',
`area_code` STRING COMMENT '地区编码',
`iso_code` STRING COMMENT '国际标准地区编码',
`iso_code_3166_2` STRING COMMENT '国际标准地区编码',
`order_count` BIGINT COMMENT '订单数',
`order_amount` DECIMAL(16,2) COMMENT '订单金额'
) COMMENT '各省份订单统计'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

执行需求，统计各个省份的订单量以及金额：

insert into table ads_order_by_province 
select
    '2021-08-30' dt,
    bp.id,
    bp.name,
    bp.area_code,
    bp.iso_code,
    bp.iso_3166_2,
    count(*) order_count,
    sum(oi.final_amount) order_amount
from 
   dwd_order_info oi
left join 
   dim_base_province bp 
on 
   oi.province_id=bp.id
group by bp.id,bp.name,bp.area_code,bp.iso_code,bp.iso_3166_2;

运行完成后，我们进入 Atlas 查看表的血缘关系：

查看数据字典

查看表

查看表的血缘关系

所以说呢，Atlas 就是做这么一个事情，通过对数据仓库的监控，生成十分详细的血缘依赖图，能够对你执行的操作进行增量同步，数据资产清晰可见，适合在大型项目中使用，部署过程有点繁琐。

你可能感兴趣的:(大数据,hadoop,数据仓库,分布式,Atlas)

Python（28）Python循环语句指南：从语法糖到CPython字节码的底层探秘一个天蝎座白勺程序猿 Python爬虫入门到高阶实战 python 开发语言
目录引言一、推导式家族全解析1.1基础语法对比1.2性能对比测试二、CPython实现揭秘2.1字节码层面的秘密2.2临时变量机制三、高级特性实现3.1嵌套推导式优化3.2条件表达式处理四、性能优化指南4.1内存使用对比4.2执行时间优化技巧五、最佳实践建议六、总结Python爬虫相关文章（推荐）引言在Python编程中，循环语句是控制流程的核心工具。传统for循环虽然直观，但在处理大数据时往往面
25年最新Java后端社招场景项目题总结！（附100w字面试题）小凡敲代码 java java面试 Java面试题 Java场景题程序员互联网大厂计算机
一、高并发与分布式系统设计百万级QPS秒杀系统核心问题：如何解决超卖、库存一致性、高并发请求？技术方案：Redis预减库存+异步扣减（Kafka/RocketMQ）分布式锁（Redisson）或乐观锁（CAS）限流策略（Nginx/Sentinel）扩展：热点数据隔离（独立Redis集群）、风控防刷（IP限流、验证码）。分布式文件存储系统（类似GFS）需求：支持海量文件存储、高可用、快速检索。关键
C#实战分享--爬虫的基础原理及实现
关注我，持续分享逻辑思维&管理思维；可提供大厂面试辅导、及定制化求职/在职/管理/架构辅导；有意找工作的同学，请参考博主的原创：《面试官心得--面试前应该如何准备》，《面试官心得--面试时如何进行自我介绍》《做好面试准备，迎接2024金三银四》。推荐热榜内容：《架构实战--以海量存储系统讲解热门话题：分布式概念》-------------------------------------正文----
安装Python3.12报错：HTTP 429 TOO MANY REQUESTS for url ＜https://mirrors.ustc.edu.cn/anaconda/pkgs/free/li
安装Python3.12报错(base)[xxx@hadoop104python_shell]$condacreate--namepythonThirteenpython=3.12报错如下：Retrievingnotices:…working…ERRORconda.notices.fetch:get_channel_notice_response(63):Requesterrorforchanne
Spring Boot多数据源实现方案深度对比：优缺点分析与实战指南 xiaoyu❅ java #springboot spring boot 后端 java
目录一、为什么需要多数据源？二、5大主流实现方案对比三、方案实现详解方案1：手动配置多DataSource（基础版）方案2：AbstractRoutingDataSource（动态路由）方案3：MyBatis-Plus多数据源（推荐）方案4：JPA多数据源配置方案5：ShardingSphere（企业级方案）四、事务管理解决方案1.分布式事务（XA协议）2.BASE柔性事务五、性能优化策略1.连接
分布式领域后端服务的限流算法实现大厂资深架构师 Spring Boot 开发实战分布式算法 wpf ai
分布式领域后端服务的限流算法实现关键词：分布式系统、限流算法、令牌桶、漏桶、滑动窗口、Redis、高并发摘要：本文深入探讨分布式系统中后端服务的限流算法实现。我们将从基础概念出发，详细分析各种限流算法的原理和适用场景，包括计数器算法、滑动窗口算法、令牌桶算法和漏桶算法。文章将提供Python实现代码和数学建模，并通过实际案例展示如何在分布式环境中使用Redis实现高效的限流机制。最后，我们将讨论限
大数据分析技术的学习路径，不是绝对的，仅供参考水云桐程序员学习大数据数据分析学习方法
阶段一：基础筑基（1-3个月）1.编程语言：Python：掌握基础语法、数据结构、流程控制、函数、面向对象编程、常用库（NumPy,Pandas）。SQL：精通SELECT语句（过滤、排序、分组、聚合、连接）、DDL/DML基础。理解关系型数据库概念（表、主键、外键、索引）。MySQL或PostgreSQL是很好的起点。Java/Scala：深入理解Hadoop/Spark等框架会更有优势。初学者
React金融数据分析应用性能优化实战：借助AI辅助解决18万数据量栈溢出Bug 马特说 REACT react.js 金融数据分析
React金融数据分析应用性能优化实战：借助AI辅助解决18万数据量栈溢出Bug前言在现代前端开发中，处理大数据量的实时金融应用已成为常态。最近我在开发一个React-based金融数据分析应用时，遇到了典型的"Maximumcallstacksizeexceeded"错误。通过AI辅助分析和系统性优化，最终成功解决了这个复杂的性能问题。这篇文章将分享从问题发现到最终解决的完整过程。项目背景这是一
python模拟内置函数reversed_Python内置函数reversed weixin_39594895
{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里技术人对外发布原创技术内容的最大平台；社区覆盖了云计算、大数据、人工智能、IoT、云原生、数据库、微服务、安全、开发与运维9大技术领域。","link1":
头歌作业-HBase 开发：使用Java操作HBase http_lizi hbase java python
第一关packagestep1;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.HColumnDescriptor;importorg.apache.h
flink数据同步mysql到hive_基于Canal与Flink实现数据实时增量同步(二)
背景在数据仓库建模中，未经任何加工处理的原始业务层数据，我们称之为ODS(OperationalDataStore)数据。在互联网企业中，常见的ODS数据有业务日志数据(Log)和业务DB数据(DB)两类。对于业务DB数据来说，从MySQL等关系型数据库的业务数据进行采集，然后导入到Hive中，是进行数据仓库生产的重要环节。如何准确、高效地把MySQL数据同步到Hive中？一般常用的解决方案是批量
RabbitMQ消息队列在大数据系统中的实战应用案例 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据 rabbitmq 分布式 ai
RabbitMQ消息队列在大数据系统中的实战应用案例关键词：RabbitMQ、消息队列、大数据系统、实战案例、高并发处理、分布式架构、数据管道摘要：本文深入探讨RabbitMQ消息队列在大数据系统中的核心应用场景，结合具体技术实现和实战案例，详细解析其在数据采集、实时处理、异步解耦等关键环节的技术优势。通过架构设计原理、核心算法实现、数学模型分析和项目实战，展示如何利用RabbitMQ构建高可靠、
Redisson实现的分布式锁核心原理俏布斯 redis 分布式 redis
Redisson实现的分布式锁核心原理是利用Redis的原子操作、数据结构和发布订阅机制，在单节点或集群环境下提供互斥、可重入、自动续期（看门狗）、公平锁等特性。其核心机制如下：核心原理与流程锁获取(加锁)Lua脚本保证原子性：当线程尝试获取锁时，Redisson会执行一个Lua脚本到Redis服务器。脚本的核心逻辑是：if(redis.call('exists',KEYS[1])==0)then
Redission实现的分布式锁的可重入性俏布斯 redis redis
Redisson分布式锁在Redis中存储可重入状态所使用的Hash结构，并通过示例说明。核心数据结构Key:锁的名称。例如："myLock"。数据类型:Hash(RedisHSET/HGET/HINCRBY操作的对象)。HashField(字段名):客户端唯一标识符。格式通常为：UUID:threadId。UUID:生成Redisson客户端实例时创建的一个全局唯一ID（一个JVM进程一个）。t
canal实现Mysql数据同步 BUG指挥官 MySQL数据库相关讲解 mysql 数据库
在当今互联网行业尤其是现在分布式、微服务开发环境下，为了提高搜索效率，以及搜索的精准度，会大量使用Redis、Memcached等NoSQL数据库，也会使用大量的Solr、Elasticsearch等全文检索服务和搜索引擎。那么，这个时候，就会有一个问题需要我们来思考和解决：那就是数据同步的问题！如何将实时变化的数据库中的数据同步到Redis/Memcached或者Solr/Elasticsear
大数据开发高频面试题：Spark与MapReduce解析
被招网约司机的盯上了好几天实习了六个月，到期被通知不能转正。外包裁员让我去友商我该去吗？offer比较华为状态码浏览器插件嵌入式项目推荐2019秋招总结+云从语音算法面经+银行群面面经科大讯飞语音算法面经语音算法美团一面已挂科大讯飞智能语音方向值得去吗？语音算法oc科大讯飞语音算法二面荣耀一面语音算法面经，已挂荣耀_语音算法工程一面科大讯飞语音一面凉经8.18携程机器学习（语音方向）一面【vivo
HDFS中fsimage和edits究竟是什么清平乐的技术博客大数据运维 hdfs hadoop 大数据
fsimage和edits是HadoopHDFS(Hadoop分布式文件系统)中的两个关键组件，用于存储文件系统的元数据，以确保文件系统的持久性和一致性。在理解它们的作用之前，我们先了解一下HDFS的基本工作原理。HDFS采用了一种分布式文件系统的架构，其中数据被划分成块并分布在不同的数据节点上，而元数据(文件和目录的信息)则由单独的组件进行管理。元数据的持久性和一致性非常重要，因为文件系统的正确
MinIO 常见功能详解及 Spring Cloud 集成代码展示 csdn_tom_168 分布式文件存储系统 spring cloud spring MinIO
MinIO常见功能详解及SpringCloud集成代码展示MinIO是一个高性能的分布式对象存储系统，兼容AmazonS3API。以下是核心功能详解及SpringCloud集成方案：一、MinIO核心功能详解1.基础功能对象存储：存储任意类型文件（文档、图片、视频等）S3兼容：完全兼容AmazonS3API多租户：支持多个独立租户空间版本控制：保留对象历史版本2.高级特性功能描述数据加密客户端/服
HTML表格导出为Excel文件的实现方案 ~风清扬~ 前端技术 html excel 前端
1、前端javascript可通过mime类型、blob对象或专业库（如sheetjs）实现html表格导出excel，适用于中小型数据量；2、服务器端方案利用后端语言（如python的openpyxl、java的apachepoi）处理复杂报表和大数据，确保安全性与格式控制；3、常见问题包括数据类型识别错误、样式丢失、大文件卡顿、浏览器兼容性及乱码，需通过设置单元格类型、使用后端样式api、分页
数据库锁等待时间过长问题的深度解析与大数据解决方案百态老人数据库大数据
一、锁等待问题的核心原因与日志特征锁等待超时是数据库高并发场景下的典型瓶颈问题，其根本原因与日志特征可归纳为以下维度：事务管理缺陷原因：未提交的长事务（如代码分支遗漏提交）、隐式事务（自动提交关闭）导致锁持有时间过长。日志特征：information_schema.innodb_trx表中存在trx_started时间早于当前时间数分钟的事务。错误日志中频繁出现Lockwaittimeoutexc
科学的第五范式：人工智能如何重塑发现之疆田园Coder 人工智能科普人工智能科普
在人类探索未知的壮阔史诗中，科学方法的演进如同照亮迷雾的灯塔。从基于经验的第一范式（描述自然现象），到以理论推演为核心的第二范式（牛顿定律、麦克斯韦方程），再到以计算机模拟为标志的第三范式（气候模型、分子动力学），直至以大数据挖掘为驱动的第四范式（基因组学、高能物理），每一次范式跃迁都极大地拓展了认知的疆界。如今，我们正站在一个更恢弘转折的门槛上——第五范式：人工智能驱动的科学（AIforScie
【分布式】自定义统一状态机流转设计沉着的码农分布式 Java 分布式 java spring boot
自定义统一状态机流转设计StateMachine接口通用状态机BaseStateMachine举例实现状态事件OrderStateMachine(BaseStateMachine实现类)使用状态机用于描述一个系统在不同状态之间的转换和行为，是状态模式的一种具体应用。状态机是一种抽象的计算模型，它包含有限个状态和转换规则，用于描述系统在不同状态下如何响应输入以及在不同输入下如何进行状态转换。一个状态
springCloud集成elasticsearch 月光一族吖 spring cloud elasticsearch spring
Elasticsearch是一个分布式、RESTful风格的搜索和数据分析引擎，同时是可扩展的数据存储和矢量数据库，能够应对日益增多的各种用例。作为ElasticStack的核心，Elasticsearch能够集中存储您的数据，实现闪电般的搜索速度、精细的相关性调整以及强大的分析能力，并且能够轻松地进行规模扩展。废话少说，开干一、docker部署ES1、创建网络，让ES与Kibana容器互联doc
spark处理kafka的用户行为数据写入hive 月光一族吖 spark kafka hive
在CentOS上部署Hadoop（Hadoop3.4.1）和Hive（Hive3.1.2）的详细步骤说明。这份指南面向单机安装（伪集群模式），如果需要搭建真正的多节点集群，各节点间的网络互访、SSH免密登录以及配置同步需进一步调整。注意：本指南假设你已拥有root权限或者具有sudo权限，并且系统连接Internet（用于下载安装包）。步骤中的版本号可根据实际需要进行更改。一、环境准备更新系统软件
【Hadoop】Hadoop车辆数据存储 db_hjx_2066 java hadoop
Hadoop车辆数据存储本作业旨在实现将车辆数据按天存储到Hadoop分布式文件系统（HDFS）中，并根据数据文件大小分割成多个文件进行存储。数据格式为JSON。作业要求车辆数据按天存储，每天的数据存储在一个文件夹下。数据文件以JSON格式存储。如果数据文件大于100M，则另起一个文件存储。每天的数据总量不少于300M。实现方法1.代码说明以下是用Java编写的实现代码：1.导入类//导入必要的类
计算机毕业设计之基于Hadoop的公共自行车数据分布式存储与计算
如今，在科学技术飞速发展的情况下，信息化的时代也已因为计算机的出现而来临，信息化也已经影响到了社会上的各个方面。它可以为人们提供许多便利之处，可以大大提高人们的工作效率。随着计算机技术的发展的普及，各个领域也都体会到其强大的数据处理能力，这也成为各行各业不可或缺的工具。所以计算机技术被广泛应用于信息管理系统和数据处理等方面。通过它可以大大减少相关的工作处理步骤，也可以提高信息和数据的安全性。本文对
【软件开发 | 项目架构】实现缓存一致性秋说前后端项目开发(新手必知必会)架构缓存软件开发
文章目录前言缓存失效与缓存一致性的定义我们为何如此关注缓存一致性？缓存失效的思维模型可靠的一致性观测能力一致性追踪真实缺陷总结前言缓存有助于降低延迟、扩展读密集型负载并节省成本，几乎无处不在。缓存不仅运行在你的手机和浏览器中，诸如CDN（内容分发网络）和DNS（域名系统）本质上也是地理分布式的缓存系统。正是因为背后有众多缓存协同工作，你才能顺畅地阅读这篇博客文章。著名计算机科学家PhilKarlt
【unity游戏开发——网络】计算机网络中的三种数据管理模型（分散式、集中式、分布式）和三大通信模型（C/S、B/S、P2P）向宇it 【unity游戏开发——网络】unity 网络游戏引擎编辑器 c#p2p 计算机网络
注意：考虑到热更新的内容比较多，我将热更新的内容分开，并全部整合放在【unity游戏开发——网络】专栏里，感兴趣的小伙伴可以前往逐一查看学习。文章目录一、数据管理模型1、分散式(Decentralized-各管各的)2、集中式(Centralized-一个大脑管所有)3、分布式(Distributed-大家分工合作)二、通信模型1、客户端-服务器模型(C/S,Client-Server)2、浏览器
Eureka服务注册中心与断路器（如 Hystrix）的集成详解
前言在分布式微服务系统中，服务之间的调用关系错综复杂，服务故障或延迟可能引发级联效应，导致整个系统崩溃。Eureka服务注册中心负责服务的注册与发现，Hystrix断路器则能在服务出现异常时快速熔断，防止故障扩散。二者集成后，可显著增强系统的容错能力和稳定性。本文将深入讲解Eureka与Hystrix的集成原理、配置方法和实际应用，并通过具体代码示例帮助开发者掌握相关技术。一、Eureka与Hys
Redis缓存架构实战西岭千秋雪_ Redis 缓存 redis 架构笔记学习 java
本文为个人学习笔记整理，仅供交流参考，非专业教学资料，内容请自行甄别文章目录概述二、数据冷热分离三、解决缓存击穿四、解决缓存穿透五、热点缓存重建六、缓存一致性问题七、分布式锁的优化八、解决缓存雪崩九、最终案例总结概述 Redis除了可以用于缓存临时数据，以及排行榜，共同关注等业务功能的实现之外，最主要应用也是最广的地方是缓存热点数据，防止高并发场景下所有的请求都打到数据库。数据库的并发能力是有限
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号