E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓学习专栏
[实战系列]SelectDB Cloud Kafka Connect 最佳实践张家锋
新一代云原生实时
数仓
SelectDBCloud作为一款运行于多云之上的云原生实时数据仓库,致力于通过开箱即用的能力为客户带来简单快速的
数仓
体验。
hf200012
·
2023-03-15 07:15
kafka
大数据
分布式
Doris
selectdb
[实战系列]SelectDB Cloud Spark Connector 最佳实践
新一代云原生实时
数仓
SelectDBCloud作为一款运行于多云之上的云原生实时数据仓库,致力于通过开箱即用的能力为客户带来简单快速的
数仓
体验。
hf200012
·
2023-03-15 07:14
大数据
DolphinScheduler2.0版本升级3.0版本方案
1.升级背景因项目需要使用数据质量模块功能,可以为
数仓
提供良好的数据质量监控功能。
缤纷的世界
·
2023-03-15 02:13
数据库
java
sql
apache
大数据
AntDB“超融合+流式实时
数仓
”,谈传统数据库与流计算的有机融合
(一)前言据统计,在信息化时代的今天,人们一天所接触到的信息量,是古人一辈子所能接收到的信息量的总和。当今社会中除了信息量“多”以外,人们对信息处理的“效率”和“速度”的要求也越来越高。譬如,对于很多企业决策者来说,在当前的经济形势下需要尽一切可能降本增效。过去每周看看经营报表的习惯,现在慢慢转变为利用实时可视化的方式来随时分析企业当前的经营状况。数据库作为信息的核心载体,在过去的半个世纪中,基本
亚信安慧AntDB数据库
·
2023-03-15 02:46
国产数据库
AntDB
AISWare
AntDB
数据库
antdb数据库
antdb
大数据
墨天轮发布数据库行业报告,亚信科技AntDB“超融合+流式实时
数仓
”开启新纪元
近日,知名数据库社区墨天轮发布《2022中国数据库行业年度分析报告》,亚信科技全新发布的“超融合+流式实时
数仓
”数据库AntDB入选报告并被业界广泛关注。
亚信安慧AntDB数据库
·
2023-03-15 02:15
国产数据库
AntDB
AISWare
AntDB
数据库
antdb
大数据
科技
漫谈数据治理之二:思想上的体系化
数据的滚雪球效应现代
数仓
体系中,数据数量的高速增长已经不是什么新鲜事了,在大数据的作用被业界所认知到后,几乎所有对于业务有价值的行为,都将以数据的形式被收集。
晓阳的数据小站
·
2023-03-14 15:54
数据开发
浅谈一个新人的大数据之路
第一章,大数据之路浅谈
数仓
&数据集市&数据湖**数据仓库**:英文名称为DataWarehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。
CCCCCColdkl
·
2023-03-14 14:57
Apache Hudi简介、与Kudu、Hive、 HBase对比
数据实时处理和实时的数据实时分为处理的实时和数据的实时,即席分析是要求对数据实时的处理,马上要得到对应的结果,Flink、SparkStreaming是用来对实时数据的实时处理,数据要求实时,处理也要迅速,数据不实时,处理也不及时的场景则是我们的
数仓
四月天03
·
2023-03-14 11:47
数据湖(Delta
Hudi
Iceberg)
hive
hadoop
big
data
kettle8.0源码编译
kettle作为一款开源etl工具,在数据仓库领域的应用还算是比较广泛的,做过
数仓
的朋友应该都知道,在做etl开发的时候,对于参数变量的引用是时常出现的场景,对于一些公共的变量,kettle的做法是启动的时候默认读取用户目录下一个
paopaodaxia
·
2023-03-14 01:49
2019年总结回顾 ~ 开心!评上CSDN博客专家-100篇博文回顾人工智能的前行之路!
CSDN的小编,在一直帮助着我CSDN相关的内容可以按照不同专栏进行回顾,这次回顾的主要内容如下:目录博士手推笔记系列干货系列机器学习AI面经Github资源推荐计算机视觉和无人驾驶论文推荐Python
学习专栏
就业资讯
SophiaCV
·
2023-03-13 17:40
成长见识
hive迷案之数据异常
经过:2018-04-02凌晨,
数仓
同学收到数据质量报警,某个字段的唯一性检查没有通过。一般情况下,这种问题是由脏数据引起的。然而这一次排查发现上游数据没有问题,于是
数仓
同学尝试直接
群演_
·
2023-03-12 14:49
电商数据仓库项目简介
项目简介基于hadoop生态搭建的电商数据仓库,整体功能架构包含数据采集、
数仓
搭建、数据导出、数据可视化等。
如虎添
·
2023-03-12 02:40
flink 学习笔记 — 基于 Flink 实时
数仓
的简单实践
作为一个实时计算的框架,Flink在实时
数仓
中发挥着越来越重要的作用。这里将以简单的案例,实现一个简单的
数仓
数据流。
飞不高的老鸟
·
2023-03-11 22:56
原来Canal也可以做HA?
前言在做实时
数仓
时,数据量往往比较大的,如果使用Canal来监听MySQL的状态当Canal是单节服务时,服务器挂掉是就会造成数据丢失,这时Canal恰好可以配置HA这样就能解决单点问题,但是依赖于zookeeper
大数据老哥
·
2023-03-11 22:26
Hive 拉链表实践
应用场景现假设有如下场景:一个企业拥有5000万会员信息,每天有20万会员资料变更,需要在
数仓
中记录会员表的历史变化以备分析使用,即
000X000
·
2023-03-11 03:00
数据仓库
数据建模
HIVE
hive
big
data
hadoop
Hive
拉链表实践
数仓
项目-拉链表技术精解
数仓
项目-拉链表技术精解一、拉链表的使用场景在数据仓库的模型设计的过程中,通常我们会碰到那种非常大的业务基础信息表,如用户表;假如一个用户表有10亿条记录,50个列,就算使用orc压缩,但张表的存储也会超过
yiluohan0307
·
2023-03-11 03:29
Linux系统
hive
拉链表
缓慢变化维
历史拉链表实战
应用场景现假设有如下场景:一个企业拥有5000万会员信息,每天有20万会员资料变更,需要在
数仓
中记录会员表的历史变化以备分析使用,即每天都要保留一个快照供查询,
大数据技术与数仓
·
2023-03-11 03:53
Hive
数据仓库
数据仓库
详细记录拉链表的实现过程
面试中被问到了,想了会儿思路混乱没答好,还是理解的不够深刻,重新好好理解记录一下~拉链表的用途,主要是用来在
数仓
中记录业务库数据的全部历史信息和当前最新信息,也就是用来实现对渐变维的记录。
atwdy
·
2023-03-11 03:23
数仓相关
拉链表
数据仓库
Flink系列之Flink的应用场景(二)
从接触
数仓
就开始听说ETL,ETL也始终贯传
数仓
仓库,问大家一个问题,ETL在
数仓
领域家喻户晓的原因是因为它简单吗?答案是:恰恰是因为其复杂和重要。那么ETL解决了什么问题呢?我们为什么需要ETL?
当_下
·
2023-03-10 23:26
hive整理-按照题目顺序--一
2.3
数仓
分层3.hive底层原理,sql执行过程3.1hive执行顺序3.2.1Hive执行流程3.2.1
wuli玉shell
·
2023-03-10 09:51
Hive
Hive-清洗出最新一个分区中新增和变化的数据
背景:大数据清晰后的大量数据(明细数据)同步到接口或者业务端使用问题描述每次全量同步费时又费力解决方案:将hive
数仓
中最近两个分区的数据取新增和变化后,同步到目标表中(支持更新)即可涉及hive关键字
_猫屎不是咖啡_
·
2023-03-10 09:50
hive
大数据
数据仓库面试题总结
根据尚硅谷电商
数仓
4教程进行总结目录1Hadoop常用压缩方式2HDFS存在大量小文件的问题与处理3flume零点漂移问题4数据冗余的优缺点5同步策略6关系建模与维度建模7维度建模的四个过程8数据分层9LZO
迪奥不及你的美
·
2023-03-10 07:33
hive
hadoop
企业
数仓
拉链表制作
一、拉链表定义记录每条信息的生命周期,一旦一条记录的生命周期结束,就重新开始一条新的记录,并把当前日期放入生效开始日期。如果当前信息至今有效,在生效结束日其中填入一个极大值(如:9999-99-99)生效日期=某个日期二、为什么要做拉链表拉链表适合于:数据会发生变化,但是大多数的数据是不变的,即缓慢变化维比如:订单信息从未支付、已支付、未发货、已完成等状态经历了一周,大部分时间是不变化的,如果数据
比格肖
·
2023-03-09 18:05
数仓
建设保姆级教程,离线和实时一网打尽(理论+实战)
本文大纲:因内容较多,带目录的PDF查看是比较方便的:
数仓
建设保姆级教程PDF文档一、
数仓
基本概念1.数据仓库架构我们在谈
数仓
之前,为了让大家有直观的认识,先来谈
数仓
架构,“架构”是什么?
园陌
·
2023-03-09 16:58
50000字,
数仓
建设保姆级教程,离线和实时一网打尽(理论+实战) 上
文档大纲:一、
数仓
基本概念1.数据仓库架构我们在谈
数仓
之前,为了让大家有直观的认识,先来谈
数仓
架构,“架构”是什么?这个问题从来就没有一个准确的答案。
浪尖聊大数据-浪尖
·
2023-03-01 07:14
数据仓库
数据库
scipy
makefile
crm
50000字,
数仓
建设保姆级教程,离线和实时一网打尽(理论+实战) 下
文档大纲:本文上半部分之前已经发过了,传送门:50000字,
数仓
建设保姆级教程,离线和实时一网打尽(理论+实战)上此篇文章是整个文档的下半部分,将接着上半部分从第五章开始。
浪尖聊大数据-浪尖
·
2023-03-01 07:14
数据仓库
scipy
relativelayout
powerdesigner
大数据
【SQL开发实战技巧】系列(二十二):
数仓
报表场景☞ 从分析函数效率一定快吗聊一聊结果集分页和隔行抽样实现方式
系列文章目录【SQL开发实战技巧】系列(一):关于SQL不得不说的那些事【SQL开发实战技巧】系列(二):简单单表查询【SQL开发实战技巧】系列(三):SQL排序的那些事【SQL开发实战技巧】系列(四):从执行计划讨论UNIONALL与空字符串&UNION与OR的使用注意事项【SQL开发实战技巧】系列(五):从执行计划看IN、EXISTS和INNERJOIN效率,我们要分场景不要死记网上结论【SQ
赵延东的一亩三分地
·
2023-03-01 07:06
Oracle开发运维实战
分页查询
随机抽样
分析函数优化
merge调优
数据仓库
【平台
数仓
设计——2023】
平台
数仓
设计——2023前言一、选取大数据平台1、CDH大数据平台2、HDP大数据平台3、CDP大数据平台4、各种云数据中台二、选取调度平台1、DolphinScheduler(海豚调度)2、AzKaban3
BigData_LYT
·
2023-02-27 18:44
数据仓库
我从银行
数仓
项目学到了什么
|后台回复“银行
数仓
”,下载论文数据分析当下十分流行,但能把数据分析出花来的,本文算的上先驱。做
数仓
的朋友,年底汇报时,写不出总结,在老板面前无功可表时,学学这。
dbLenis
·
2023-02-26 07:24
数据仓库
数据可视化
jdbc
db2
jwt
银行
数仓
体系发展之路
银行的数字化实践必须建设好
数仓
体系。数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
易观
·
2023-02-26 07:54
离线
数仓
04—— 用户行为数据同步
文章目录第1章实时
数仓
同步数据第2章离线
数仓
同步数据2.1用户行为数据同步2.1.1数据通道2.1.2日志消费Flume配置概述2.1.3日志消费Flume配置实操2.1.4日志消费Flume测试2.1.5
就是这个范~
·
2023-02-26 07:54
离线数仓
kafka
hadoop
大数据
维度建模详解
合并2事实表设计2.1明细事实表(dwd)2.1.2案例:2.1.3存储方案2.1.4事实拉链表示例:2.2聚合事实表(dws)2.2.1分类2.2.2案例3数据集市4业务数据案例4.1数据采集4.2
数仓
设计
Fouradam
·
2023-02-26 07:23
数据仓库
【实时
数仓
】介绍、需求分析、统计架构分析和ods层日志行为数据采集
文章目录一电商实时
数仓
介绍1普通实时计算与实时2实时电商
数仓
分层二实时
数仓
需求分析1离线计算与实时计算的比较2应数场景(1)日常统计报表或分析图中需要包含当日部分(2)实时数据大屏监控(3)数据预警或提示
OneTenTwo76
·
2023-02-26 07:23
实时数仓
架构
大数据
数据库
36 大数据项目之电商
数仓
(集群监控Zabbix)
文章目录第1章Zabbix入门1.1Zabbix概述1.2Zabbix基础架构第2章Zabbix部署2.1集群规划2.2准备工作2.2.1关闭集群2.2.2关闭防火墙(3台节点,已关闭)2.2.3关闭SELinux(hadoop102)重启生效2.3配置Zabbixyum源(3台节点)2.3.1安装yum源2.3.2修改为阿里云镜像2.4安装Zabbix2.5配置Zabbix2.5.1创建zabb
普通网友
·
2023-02-26 07:48
数据库
▼ 系列 | 漫谈
数仓
第四篇NO.4 『BI选型』
大数据时代商业智能(BI)和数据可视化诉求更为强烈,淘宝大屏更是风靡全球!数据可视化是大数据『最后一公里』,BI唤醒沉睡的数据。传统型BI力求大而全的统一综合型报表和分析平台,侧重传统式报表开发,俨然一把屠龙刀。现互联网公司快速迭代的业务发展,需要的却是倚天剑,促使自助式BI和敏捷BI得以迅速发展。时代召唤,传统BI巨头也逐渐向自助式BI和云BI转型。一时间,数据可视化和BI呈现出"百家争鸣,百花
浪尖聊大数据-浪尖
·
2023-02-26 07:48
可视化
大数据
编程语言
人工智能
数据分析
维度建模方法论
维度建模方法一、前言本人学习《
数仓
工具箱》的学习总结,纯学习分享,供大家参考。二、经典
数仓
架构理论围绕着维度建模,那就不得不了解,早期的数据仓库构架方法。这里介绍一下两个经典的
数仓
架构理论。
清风和月明
·
2023-02-26 07:47
大数据
数据仓库
数据建模
数仓
建模理论--维度建模
总线架构:维度建模的数据仓库中,有一个概念叫BusArchitecture,中文一般翻译为“总线架构”。总线架构是Kimball的多维体系结构(MD)中的三个关键性概念之一,另两个是一致性维度(ConformedDimension)和一致性事实(ConformedFact)。一致性维度和事实,企业数据仓库应该建立一个一致性维度和事实,而不是为每个部门建立维度和事实。一致性维度:具有一致的维度关键字
Dylan ZhaoHT
·
2023-02-26 07:47
数据仓库
数仓建模
数据仓库
大数据项目---电商
数仓
(三)
目录1.即席查询_Presto概述2.即席查询_Presto_Server的部署3.即席查询_Presto_Server启动4.即席查询_命令行客户端说明5.即席查询_LZO说明6.即席查询_Presto_web端口编辑7.即席查询_Presto使用注意事项/优化8.即席查询_Kylin简介9.即席查询_前置概念10.即席查询_Kylin架构11.即席查询_Hbase的一个安装12.即席查询_Ky
ASDWYang
·
2023-02-26 07:13
大数据
linux
JAVA
大数据
实时数据同步工具<Maxwell入门简介及原理解析、安装部署>
文章目录一、Maxwell的定义二、Maxwell的工作原理三、Maxwell的安装部署简述:对于离线
数仓
项目中将MySQL中的数据同步到大数据平台使用的工具是sqoop,而我们在大数据处理中并不是只有离线计算
徐象
·
2023-02-26 06:36
数据同步工具
大数据
实时数据
数据同步
mysql
实时
数仓
实践(一)之数据库实时增量同步工具-CDC(Change Data Capture)
数据库实时增量同步工具-CDC(ChangeDataCapture)Canal阿里巴巴B2B公司,因为业务的特性,卖家主要集中在国内,买家主要集中在国外,所以衍生出了杭州和美国异地机房的需求,从2010年开始,阿里系公司开始逐步的尝试基于数据库的日志解析,获取增量变更进行同步,由此衍生出了增量订阅&消费的业务。Canal是用java开发的基于数据库增量日志解析,提供增量数据订阅&消费的中间件。目前
NuOne_plus
·
2023-02-26 06:36
实时数仓实践
阿里云
数仓
实时同步任务binlog解析文档
背景:阿里云dataworks中有实时同步数据库binlog的任务配置,起源是业务数据库中数据被回滚了,所以借助
数仓
这边的同步任务数据进行解析和监控更新时间。
Hunter_Young
·
2023-02-26 06:35
大数据
阿里云
dataworks
实时同步
数仓
:浅谈银行业的
数仓
构建实践
文章目录简介一、银行
数仓
画像二、银行业
数仓
建设2.1数据总线2.2数据仓库ODM层2.3数据仓库SDM层2.4数据仓库FDM层2.5数据仓库ADM层2.6数据服务三、项目管理简介数据仓库,对从事IT行业的从业者来说并不是个陌生的名词
Freedom3568
·
2023-02-26 06:04
数据仓库
数据中台
数据仓库
数据挖掘
数仓
银行
实践
大数据项目之电商
数仓
、实时
数仓
同步数据、离线
数仓
同步数据、用户行为数据同步、日志消费Flume配置实操、日志消费Flume测试、日志消费Flume启停脚本
文章目录8.实时
数仓
同步数据9.离线
数仓
同步数据9.1用户行为数据同步9.1.1数据通道9.1.1.1用户行为数据通道9.1.2日志消费Flume配置概述9.1.2.1日志消费Flume关键配置9.1.3
Redamancy_06
·
2023-02-26 06:02
#
电商数仓
大数据
flume
kafka
数据仓库
hadoop
使用 Docker 搭建离线
数仓
环境
文章目录前言一、Docker安装1.1CentosDocker安装1.2UbuntuDocker安装【推荐】1.3MacOsDocker安装1.4WindowsDocker安装【不推荐】二、容器准备2.1拉取镜像2.2启动并创建容器2.3进入容器三、环境准备3.1安装必要软件3.2配置SSH免密登录3.3设置时区3.4关闭防火墙3.5时间同步、静态ip、主机映射四、MySQL安装4.1上传解压安装
Vicky_Tang
·
2023-02-25 07:18
docker
运维
大数据
数据仓库
Tapdata Connector 实用指南:实时
数仓
场景之数据实时同步至 ClickHouse
【前言】作为中国的“Fivetran/Airbyte”,Tapdata是一个以低延迟数据移动为核心优势构建的现代数据平台,内置60+数据连接器,拥有稳定的实时采集和传输能力、秒级响应的数据实时计算能力、稳定易用的数据实时服务能力,以及低代码可视化操作等。典型用例包括数据库到数据库的复制、将数据引入数据仓库或数据湖,以及通用ETL处理等。随着TapdataConnector的不断增长,我们最新推出《
·
2023-02-24 20:37
数据库
【离线
数仓
-5-数据仓库环境准备】
离线
数仓
-5-数据仓库环境准备离线
数仓
-5-数据仓库环境准备1.数据仓库运行环境1.Hive环境搭建1.Hive引擎2.HiveonSpark配置2.Yarn环境配置2.数据仓库开发环境3.模拟数据准备离线
数仓
Apache Minor Trend
·
2023-02-24 18:28
数据仓库
大数据
数据治理
数据仓库
大数据
大数据平台实时
数仓
从0到1搭建之 - 14 Maxwell & Canal 对比
大数据平台实时
数仓
从0到1搭建之-14Maxwell&Canal对比概述环境数据库配置安装配置启动命令输出结果HA监控web总结概述前两章分别写了maxwell和canal的安装使用,我本人其实是第一次听说这两个工具
这都不是事er
·
2023-02-24 12:17
实时数仓
kafka
big
data
docker
大数据平台实时
数仓
从0到1搭建之 - 12 Maxwell
大数据平台实时
数仓
从0到1搭建之-12Maxwell概述Maxwellquickstart修改MariaDB配置Maxwelldocker下载maxwell测试stdout:输出控制台kafka后续附客户端代码概述今天学习下
这都不是事er
·
2023-02-24 12:16
实时数仓
docker
mysql
mariadb
kafka
云音乐数据资产化建设的思考与实践
……“咱们的
数仓
建设得好不好?”,“
数仓
建设进度到哪儿了?模
·
2023-02-24 11:57
大数据数据库数据结构
数据治理如何做?火山引擎DataLeap帮助这款产品3个月降低计算成本20%
该产品随着用户体量和数据体量不断增长,
数仓
的任务量、数据量也不断攀升,运维难、成本贵、稳定性等问题在不断凸显。通过使用火山引擎DataLeap的数据治理能力,3个月时间将计算成本大幅缩减20%。
·
2023-02-23 16:20
大数据数据库
上一页
38
39
40
41
42
43
44
45
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他