E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓同步工具
数仓
建设指南
数仓
建设指南数据模型架构规范数据层次的划分ODS:OperationalDataStore,操作数据层,在结构上其与源系统的增量或者全量数据基本保持一致。
左美美  ̄
·
2024-01-13 06:04
java
大数据
数据仓库
Linux 基于 rsync 实现集群分发脚本 xsync
一、rsync简介rsync(remotesynchronize)是Liunx/Unix下的一个远程数据
同步工具
。
快乐的小三菊
·
2024-01-13 06:33
linux
linux
大数据开发工程师需要具备哪些技能?
在回答这个问题之前,需要充分了解一下当前大数据的几个就业方向,可以参考下主流互联网行业的部门架构、职责和JD,大数据开发工程师,总体来说有这么几类,不同的公司叫法不一样:1、
数仓
开发工程师2、算法挖掘工程师
郑小柒是西索啊
·
2024-01-12 21:58
大数据
Semaphore
Semaphore是Java并发包中的一个
同步工具
,用于控制同时访问特定资源的线程数量。它维护了一个许可证(permit)计数,线程在获取资源时需要消耗一个许可证,在释放资源时会释放一个许可证。
郭梓航
·
2024-01-12 20:55
算法
Semaphore
Databend 开源周报第 127 期
Databend是一款现代云
数仓
。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn。
Databend
·
2024-01-12 20:45
数据库
开源
Centos安装Datax
环境信息2、编写同步的配置文件(user_info.json)3、执行同步4、验证同步结果一、DataX简介DataX是阿里云DataWorks数据集成的开源版本,在阿里巴巴集团内被广泛使用的离线数据
同步工具
GreaterBuilder
·
2024-01-12 18:04
DataX
centos
dataX
mysql
hdfs
数据交付变革:研发到产运自助化的转型之路
作者|Chris导读本文讲述为了提升产运侧数据观察、分析、决策的效率,支持业务的快速迭代,移动生态数据研发部对
数仓
建模与BI工具完成升级,采用宽表建模与TDA平台相结合的方案,一站式自助解决数据应用需求
百度Geek说
·
2024-01-12 16:14
信息可视化
数据分析
数据挖掘
数仓建模
BI工具
GBASE南大通用 GBase 8a 产品构建
数仓
系统架构
lGBASE南大通用GBase8a产品构建
数仓
应用的系统架构:架构技术实现特点适用场景独立数据仓库(集市)系统架构一套GBase8a物理集群适用于数据规模较小的业务场景适用于各业务之间数据互访较频繁的业务场景适用于单一独立的业务场景企业级
数仓
系统架构多套
GBASE数据库
·
2024-01-12 12:04
数据库
GBASE南大通用
GBASE
【DolphinScheduler】datax读取hive分区表时,空分区、分区无数据任务报错问题解决
问题背景:最近在使用海豚调度DolphinScheduler的Datax组件时,遇到这么一个问题:之前给客户使用海豚做的离线
数仓
的分层搭建,一直都运行好好的,过了个元旦,这几天突然在
数仓
做任务时报错,具体报错信息如下
Alex_81D
·
2024-01-12 08:49
部署项目相关
大数据基础
数据治理
hive
hadoop
数据仓库
【大数据面试】常见
数仓
建模面试题附答案
数仓
架构为什么要分层?事实表的类型?维度建模步骤?维度建模的三种模式?
数仓
架构进化?数据仓库如何保证数据质量?开发流程/你们是怎么测试的?维度建模过程?维度建模的三种模式?事实表都有哪几种?
话数Science
·
2024-01-12 07:28
面试
大数据
大数据
Hive解析json数组
在使用Hive搭建数据仓库,处理数据时,同传统
数仓
的结构化数据不同,我们经常会遇到一些非结构化的数据,json格式的字符串就是常见的一种类型。
风筝flying
·
2024-01-12 03:47
scp远程传输工具和rsync远程
同步工具
scp:远程传输工具(只传输的是单个文件,链接文件属性不保留,默认不保留权限和时间戳)-r:复制目录(复制文件不用这个选项)scp-r/root/testroot@server:$PWD-p:保留时时间戳(只保留mtime)和权限(拥有人和拥有组以哪个用户传输的拥有人拥有组就是谁,注意:文件不保留拥有组和其他人的w权限)scp-pfile1.txtroot@server:$PWD-P:指定远程主机
小王丨小王
·
2024-01-12 03:19
运维
Linux系统
Centos
linux
centos
运维
数据
同步工具
chunjun(flinkx)-1.12.7 使用tips
目录本文旨在记录chunjun使用过程中的tips,并且记录与官网描述不符的地方,以减少学习成本1、在编写json的时候推荐使用在线json编辑器:2、类似MySQLMySQL这种需要编写带jdbcUrl的任务,注意reader和writer中jdbcUrl类型不一致3、以kafka—>mysql举例解释字段间的映射关系4、kafka—>mysql,当kafka输入脏数据时,mysql会写入空行5
省略号的搬运工
·
2024-01-12 01:36
json
大数据
数据库
kafka
Phaser详解
与CyclicBarrier和CountDownLatch等传统的
同步工具
相比,Phaser提供了更灵活和更高级的功能,特别是在处理动态和可变的并行任务集合时。
一杯可乐、
·
2024-01-12 01:55
多线程
java
【Databend】数据类型
文章目录数据类型列表转换数据类型数据类型扩展整数类型布尔类型浮点数类型字符串类型日期时间类型其它数据类型总结数据类型列表Databend作为一款开源、弹性、低成本,基于对象存储也可以做实时分析的新式
数仓
有请小发菜
·
2024-01-11 17:08
Databend
数据库
mysql
python
rust
Apache Flink 和 Paimon 在自如数据集成场景中的使用
业务背景自如目前线上有基于Hive的离线
数仓
和基于Flink、Kafka的实时
数仓
,随着业务发展,我们也在探索引入湖仓一体的架构更好的支持业务,我们对比了Iceberg、Hudi、Paimon后,最终选择
Apache Flink
·
2024-01-11 13:09
apache
flink
大数据
亚信安慧AntDB团队引领数据库创新浪潮
该数据库经过多次迭代,形成了完整的“超融合流式实时
数仓
”体系,为通信运营商和各行业提供卓越的服务
亚信安慧AntDB数据库
·
2024-01-11 12:48
数据库
人工智能
大数据
antdb
antdb数据库
Java中的信号量(Semaphore)机制详解
为了解决这类问题,Java提供了一种叫做“信号量”的
同步工具
类。本文将详细介绍信号量的工作原理、使用场景以及如何正确地使用信号量来解决多线程并发问题。
创客公元
·
2024-01-11 12:56
java
开发语言
基于Hologres+Flink的曹操出行实时
数仓
建设作者:林震|曹操出行实时计算负责人
作者:林震|曹操出行实时计算负责人曹操出行业务背景介绍曹操出行创立于2015年5月21日,是吉利控股集团布局“新能源汽车共享生态”的战略性投资业务,以“科技重塑绿色共享出行”为使命,将全球领先的互联网、车联网、自动驾驶技术以及新能源科技,创新应用于共享出行领域,以“用心服务国民出行”为品牌主张,致力于打造服务口碑最好的出行品牌。作为一家互联网出行平台,主要提供了网约车、顺风车、专车等一些出行服务。
阿里云大数据AI技术
·
2024-01-11 09:40
flink
大数据
DataX 学习笔记
一.DataX简介1.1DataX概述DataX是阿里巴巴开源的一个异构数据源离线
同步工具
,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能
十二同学啊
·
2024-01-11 08:39
数据离线同步框架
数据库
big
data
database
离线
数仓
构建案例一
数据采集日志数据(文件)到Kafka自己写个程序模拟一些用户的行为数据,这些数据存在一个文件夹中。接着使用flume监控采集这些文件,然后发送给kafka中待消费。1、flume采集配置文件监控文件将数据发给kafka的flume配置文件:#定义组件a1.sources=r1a1.channels=c1#配置sourcea1.sources.r1.type=TAILDIRa1.sources.r1
躺着听Jay
·
2024-01-10 22:06
大数据
big
data
大数据
数仓
规范
目录:一、数据模型架构原则
数仓
分层原则主题域划分原则数据
听雪10
·
2024-01-10 15:37
hive基础知识大全
一、Hive基本概念1.1hive是什么hive是基于hadoop的一个
数仓
分析工具,hive可以将hdfs上存储的结构化的数据,映射成一张表,然后让用户写HQL(类SQL)来分析数据telupdown138383843813451567138383843953451567138383844012411657713838384413453157571383838434353551567567
不爱吃鱼的馋猫
·
2024-01-09 13:23
hive
数据仓库
数仓
分层结构
--图片来源尚硅谷ODS层:数据存储格式:JSON/TSV+gzip压缩(默认)OperateDataStore--存储从mysql业务数据库和日志服务器的日志文件中采集到的数据--日志数据--格式:JSON--业务数据--历史数据--格式:--全量--Datax:TSV--增量--Maxwell:JSON--汇总数据--希望用最少的资源存储最多的数据--压缩:--gzip:Hadoop默认支持的
Young_IT
·
2024-01-09 06:40
大数据开发
大数据技术
大数据
数据仓库
某大厂大数据开发-外包面试
4.spark用过吗,用到的开发工具5.数据量多少,服务器台数6.
数仓
每层做了什么事,为什么这样做?
劝学-大数据
·
2024-01-09 06:42
面试
职场和发展
大数据
流式湖仓增强,Hologres + Flink 构建企业级实时
数仓
流式湖仓增强,Hologres+Flink构建企业级实时
数仓
一、Hologres+Flink,阿里云上众多客户实时
数仓
的首选随着大数据从规模化走向实时化,实时数据的需求覆盖互联网、交通、传媒、金融、政府等各个领域
Elivis Hu
·
2024-01-08 22:52
数仓
flink
大数据
数仓
建设学习路线(二)模型建设(1)
OLTPVSOLAPOLTP概念全称OnLineTransactionProcessing,中文名联机事务处理系统,主要是执行基本日常的事务处理,比如数据库记录的增删查改,例如mysql、oracle。OLAP概念全称OnLineAnalyticalProcessing,中文名联机分析处理系统,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果,例如、ClickHouse、Doris、K
语兴数据
·
2024-01-08 18:58
数仓建设-学习路线
大数据
数据仓库
人工智能
数仓
建设学习路线(一)
前言
数仓
建设实践路线是语兴发布在B站的系列课程,搜索语兴呀即可学习完整的
数仓
建设理论。大数据相关岗位大数据常见的岗位主要包括实时开发、数据治理、数据安全、数据资产等。
语兴数据
·
2024-01-08 18:57
数仓建设-学习路线
大数据
数据仓库
人工智能
数仓
建设学习路线(二)模型建设(2)
写在最前面本节内容主要讲解模型的具体设计过程,也是我们平常
数仓
工作中的重中之重。更多精彩课程关注B站语兴呀,或关注gzh:语数,获取全部课件资料。
语兴数据
·
2024-01-08 18:52
数仓建设-学习路线
大数据
数据仓库
大数据技术架构
整表同步数据量大,一般是
数仓
T+1方式同步,保证数据一条不丢;还
乘风踏羽
·
2024-01-08 17:47
数据平台
大数据
oracle数据迁移到mysql
不能满足需求解决方案:使用阿里巴巴的yugong阿里巴巴去Oracle数据迁移
同步工具
(全量+增量,目标支持MySQL/DRDS)GitHub-alibaba/yugong:阿里巴巴去Oracle数据迁移
同步工具
勤奋上进的兔子
·
2024-01-08 15:43
Mysql
android
【大数据进阶第三阶段之Datax学习笔记】阿里云开源离线
同步工具
Datax类图
【大数据进阶第三阶段之Datax学习笔记】阿里云开源离线
同步工具
Datax概述【大数据进阶第三阶段之Datax学习笔记】阿里云开源离线
同步工具
Datax快速入门【大数据进阶第三阶段之Datax学习笔记】
伊达
·
2024-01-08 06:12
大数据
Datax
大数据
学习
笔记
【大数据进阶第三阶段之Datax学习笔记】阿里云开源离线
同步工具
Datax概述
【大数据进阶第三阶段之Datax学习笔记】阿里云开源离线
同步工具
Datax概述【大数据进阶第三阶段之Datax学习笔记】阿里云开源离线
同步工具
Datax快速入门【大数据进阶第三阶段之Datax学习笔记】
伊达
·
2024-01-08 06:12
Datax
大数据
大数据
学习
笔记
【大数据进阶第三阶段之Datax学习笔记】使用阿里云开源离线
同步工具
DataX 实现数据同步
【大数据进阶第三阶段之Datax学习笔记】阿里云开源离线
同步工具
Datax概述【大数据进阶第三阶段之Datax学习笔记】阿里云开源离线
同步工具
Datax快速入门【大数据进阶第三阶段之Datax学习笔记】
伊达
·
2024-01-08 06:40
大数据
Datax
大数据
学习
笔记
【大数据进阶第三阶段之Datax学习笔记】阿里云开源离线
同步工具
Datax快速入门
【大数据进阶第三阶段之Datax学习笔记】阿里云开源离线
同步工具
Datax概述【大数据进阶第三阶段之Datax学习笔记】阿里云开源离线
同步工具
Datax快速入门【大数据进阶第三阶段之Datax学习笔记】
伊达
·
2024-01-08 06:39
大数据
Datax
大数据
学习
笔记
DataX,数据
同步工具
,亲测真香
有些项目的数据量高达五千万,但是因为报表那块数据不太准确,业务库和报表库又是跨库操作,所以并不能使用SQL来进行同步。当时的打算是通过mysqldump或者存储的方式来进行同步,但是尝试后发现这些方案都不切实际:mysqldump:不仅备份需要时间,同步也需要时间,而且在备份的过程,可能还会有数据产出(也就是说同步等于没同步)存储方式:这个效率太慢了,要是数据量少还好,我们使用这个方式的时候,三个
测试界柠檬
·
2024-01-08 05:19
软件测试
软件测试
自动化测试
功能测试
程序人生
职场和发展
基于DataWorks+MaxCompute的公共电影票房数据预处理实践
实验内容:对MaxCompute
数仓
公共数据进行预处理,主要对maxcompute_public_data.dwd_product_movie_basic_info(电影基本信息,包含影片名、导演、编剧
周周的奇妙编程
·
2024-01-08 00:43
odps
数据库
服务器
Hive元数据迁移及升级方案
Hive的架构和工作原理简介Hive是基于Hadoop之上的
数仓
,便于用户可以基于SQL(HiveQL)进行数据分析,其架构图如下:从上图可知,Hive主要用来将建立结构化数据库和后端分布式结构化文件的映射
云原生大数据
·
2024-01-07 22:49
大数据技术
hive
hadoop
数据仓库
物流实时
数仓
:
数仓
搭建(DWS)二
系列文章目录物流实时
数仓
:采集通道搭建物流实时
数仓
:
数仓
搭建物流实时
数仓
:
数仓
搭建(DIM)物流实时
数仓
:
数仓
搭建(DWD)一物流实时
数仓
:
数仓
搭建(DWD)二物流实时
数仓
:
数仓
搭建(DWS)一物流实时
数仓
超哥--
·
2024-01-07 17:28
物流实时数仓
flink
大数据
java
数仓
知识点总结(面试常问)
目录1
数仓
1.1定义1.2特点1.3架构1.4
数仓
的分层架构1.5常见术语1.5.1实体1.5.2维度1.5.3度量1.5.4粒度1.5.5口径
南潇如梦
·
2024-01-07 15:52
面试
数据仓库
数据库
Bigdata
数仓
工具—Hive进阶之常见的StorageHandler(24)
这里我们介绍一下常见的StorageHandler,但是由于目前StorageHandler的种类还是比较多的,主要包括官方的和非官方的,我们使用的时候需要注意的是版本的兼容性。常见的StorageHandlerApacheHive提供了多个存储处理程序(StorageHandler),允许用户集成Hive查询和分析引擎与不同的底层存储系统。以下是一些常见的存储处理程序:HDFSStorageHa
不二人生
·
2024-01-07 15:07
#
Hive
hive
hadoop
数据仓库
数仓
工具—Hive内部表和外部表(5)
内部表和外部表未被external修饰的是内部表(managedtable),被external修饰的为外部表(externaltable);因为默认情况下我们不加external关键字修饰,所以默认情况下是内部表区别:内部表数据由Hive自身管理,外部表数据由HDFS管理;内部表数据存储的位置是hive.metastore.warehouse.dir(默认:/user/hive/warehous
不二人生
·
2024-01-07 07:42
#
Hive
大数据
hive
面试
数据仓库
数仓
工具—Hive进阶之StorageHandler(23)
另外,Hive作为
数仓
的核心组件,借助Stora
不二人生
·
2024-01-07 07:39
#
Hive
hive
hadoop
数据仓库
实时
数仓
模型
为了计算一些实时指标,就在原来离线
数仓
的基础上增加了一个实时计算的链路,并对数据源做流式改造(即把数据发送到消息队列),实时计算去订阅消息队列,直接完成指标增量的计算,推送到下游的数据服务中去,由数据服务层完成离线
jero_lei
·
2024-01-06 23:48
Doris 的概述及使用场景
基于此,ApacheDoris能够较好的满足报表分析、即席查询、统一
数仓
构建、数据湖联邦查询加速等使用场景,用户可以在此之上构建用户行为分析、AB实验平台、日志检索分析、用户
一座野山
·
2024-01-06 16:16
bigdata
Doris
big
data
数据库开发
hbase
sql
database
湖仓架构的演进
1.数据仓库架构的历史演进起初,业界数据处理首选方式是
数仓
架构。通常数据处理的流程是把一些业务数据库,通过ETL的方式加载到DataWarehouse中,再在前端接入一些报表或者BI的工具去展示。
土豆马铃薯
·
2024-01-06 16:09
数据湖
架构
大数据
Databend使用入门
Databend官网:专注于打造全球最强云
数仓
,弹性、简单、低成本,支持mysql、clickhouse有线连接协议(白话就是可以直接用它们的客户端连接Databend服务)。
_hys
·
2024-01-06 14:48
数据库
docker
java
linux
利用 Addax 异构迁移数据到 Databend
这也有了异构数据库的数据同步需求,今天重点给大家介绍两个利器:异构数据迁移:Addax结合云原生
数仓
Databend实现异构数据库数据合
Databend
·
2024-01-06 14:17
数据库
大数据
java
Migrate your data into databend with DataX
这也有了异构数据库的数据同步需求,今天重点给大家介绍两个利器:异构数据迁移:DataX结合云原生
数仓
Databend实现异构数据库数据合并及分析。
Databend
·
2024-01-06 14:17
数据库
DataX部署及迁移操作说明
DataX安装部署1、DataX简介DataX是阿里巴巴开源的一个异构数据源离线
同步工具
,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能
曹弘毅
·
2024-01-06 06:11
datax
上一页
2
3
4
5
6
7
8
9
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他