E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓(
基于Apache Iceberg打造T+0实时
数仓
为了同时满足大数据量和高时效性的双重要求,实时
数仓
和在线交互式(ad-hoc
过往记忆
·
2020-08-01 02:18
基于Flink构建实时数据仓库
本文从OPPO实时
数仓
的演进之路,基于FlinkSQL的扩展工作,构建实时
数仓
的应用案例,未来工作的思考和展望4个方面介绍了OPPO基于Flink构建实时
数仓
的经验和未来的规划。
大数据技术与架构
·
2020-08-01 02:42
【实时
数仓
篇】(04)利用 Flink 实现实时状态复用场景
如果你也对数据中台、数据建模、数据分析以及Flink/Spark/Hadoop/
数仓
开发感兴趣,可以关注我的动态https://blog.csdn.net/BeiisBei,让我们一起挖掘
云 祁
·
2020-07-31 13:12
#
----
Flink
阿里云高级技术专家李金波:优秀
数仓
的要素及如何从传统
数仓
转型做互联网
数仓
?
介然(李金波),阿里云高级技术专家,现任阿里云大数据
数仓
解决方案总架构师。8年以上互联网数据仓库经历,对系统架构、数据架构拥有丰富的实战经验,曾经数据魔方、淘宝指数的数据架构设计专家。
BabyFish13
·
2020-07-31 13:37
数仓理论相关
DataWarehouse
游戏日志分析2:全方位数据采集
数据库与日志关联分析游戏日志分析(6):CDN/对象存储日志分析游戏日志分析(7):网络日志查询与分析游戏日志分析(8):数据库日志分析游戏日志分析(9):安全日志分析游戏日志分析(10):数据可视化与报表游戏日志分析(11):
数仓
建设
weixin_34183910
·
2020-07-31 10:47
数仓
分层
000概述
数仓
分层是数据仓库设计中十分重要的一个环节,优秀的分层设计能够让整个数据体系更容易理解和使用本文的大纲001,介绍数据分层的作用002,分层设计的原则以及介绍一种通用的数据分层设计003,具体案例
吗达拉
·
2020-07-30 21:02
数仓
千亿级
数仓
>总体需求
需求1•统计2019年期间每个季度的销售订单笔数、订单总额•统计2019年期间每个月的销售订单笔数、订单总额•统计2019年期间每周一到周日的销售订单笔数、订单总额•统计2019年期间国家法定节假日、休息日、工作日的订单笔数、订单总额需求2订单分析地域、分类维度分析业务开发集团总公司分为很多的分公司(销售事业部)分公司唐山市分公司邯郸市分公司邢台市分公司保定市分公司承德市分公司沧州市分公司廊坊市分
千千匿迹
·
2020-07-30 20:06
项目
CDH5.1.2
数仓
搭建基本环境准备
环境准备机器节点192.168.17.150hadoop102192.168.17.151hadoop103192.168.17.152hadoop104修改网卡信息vi/etc/sysconfig/network-scripts/ifcfg-eth0修改网卡设备文件vi/etc/udev/rules.d/70-persistent-net.rules修改主机名vi/etc/sysconfig/n
Jeremy-D
·
2020-07-30 20:31
大数据
cdh中业务
数仓
的搭建
文章目录生成业务数据业务
数仓
通过sqoop导入HDFSODS层订单表订单详情表商品表用户表商品一级分类表商品二级分类表商品三级分类表支付流水表ODS层导入脚本DWD层订单表订单详情表用户表支付流水表商品表
_张不帅
·
2020-07-30 19:43
基于阿里云的数据仓库架构设计
文章目录基于阿里云的数据仓库架构设计产品对比离线
数仓
实时
数仓
数仓
规范基于阿里云的数据仓库架构设计产品对比阿里云产品同类产品简介RDSMySQL、PostgreSQL关系型数据库服务,是阿里提供的云数据库
蒋含竹
·
2020-07-30 14:56
BigData
#
架构设计
经典sql题目(使用窗口函数解决)
很多同学可能对窗口函数,但是他确实已经出现在了sqlserver,oracle,mysql等关系型数据库中以及hive,presto等
数仓
中。使用窗口函数确实能够为我们解决很多sql难题。
zhangshk_
·
2020-07-30 11:31
hive数仓
数据中台体系结构、建设方法和落地实践(1)- 目录
数据中台体系结构、建设方法和落地实践第一部分:体系结构篇:关键词:数据仓库:内容组织内容数据平台:存储和计算技术数据中台:数据服务应用概念定义:中台、平台、
数仓
体系结构:一个中心,两套体系,三项服务,四类用户第二部分
HadoopDev
·
2020-07-30 06:42
数据中台最佳实践
《2020/07/24》
数仓
理论
数仓
理论1.
数仓
分层1.1
数仓
分层ODS(OperationDataStore)原始数据层原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理。
guo_xiaozhong
·
2020-07-30 04:33
数据仓库
数仓
demo-点击流 笔记
文章目录
数仓
demo-点击流分析日志数据格式数据仓库-ETL处理点击流模型pageviews点击流模型visit数据入库1.1.原始日志数据表1.2.点击流模型1.3.点击流visit模型表点击流需求分析代码实现
数仓
大数据AIRDE
·
2020-07-30 04:16
数据仓库
数据仓库
greenplum presto impala选型与测评
2019独角兽企业重金招聘Python工程师标准>>>
数仓
框架:商业系统InfoBrightGreenplum(已开源)、HPVertica、TeraData、Palo、ExaData、RedShift
weixin_34041003
·
2020-07-30 03:38
数仓
项目实战03:DWS公共汇总粒度事实层
2.2DWS公共汇总粒度事实层Hive数据库建库建表:创建Hive库并进入:createdatabaseifnotexistsdws_nshop;usedws_nshop;2.2.1用户主题2.2.2.1用户启动【DWS】CREATEexternalTABLEIFNOTEXISTSdws_nshop.dws_nshop_ulog_launch(user_idstringCOMMENT'用户id',
曾牛
·
2020-07-29 22:38
数仓
数仓
项目实战05:ADS数据应用层
5.ADS应用数据层5.1流量类指标_平台统计表【ADS】建库:createdatabaseads_nshop;useads_nshop;建表:CREATEexternalTABLEIFNOTEXISTSads_nshop.ads_nshop_platform_flow_stat(customer_genderTINYINTCOMMENT'性别:1男0女',age_rangestringCOMME
曾牛
·
2020-07-29 22:38
数仓
数仓
项目实战2:ODS贴源层
2本项目中使用的ODS层数据主要包括:用户基本信息、商品分类信息、商品信息、店铺信息、订单数据、订单支付信息、活动信息、行为日志信息1.1业务数据表
数仓
ods层和业务数据表的对应关系中文含义MYSQL表名
曾牛
·
2020-07-29 22:38
数仓
数仓
项目实战04:中间层和维表层
3.维表层中文含义MYSQL表名HIVE表名商品分类表nshop.categorydim_nshop.dim_pub_category店铺表nshop.supplierdim_nshop.dim_pub_supplier商品表nshop.productdim_nshop.dim_pub_product页面布局表nshop.page_dimdim_nshop.dim_pub_page通用字典表nsh
曾牛
·
2020-07-29 22:38
数仓
数仓
--Hive-面试之向Hive中传入变量的方式
Hive向程序中传递变量的方式暴力替换字符串替换正则替换模板引擎系统环境变量shell环境变量:${env:varname}system系统变量:${system:varname}hive命令参数hivevar方式:${hivevar:varname}hiveconf方式:${hiveconf:varname}hive接收外部变量方式详解使用Hive编写程序最常用的方法是将Hive语句写到文件中,
李小李的路
·
2020-07-29 16:41
大数据技术之实时
数仓
环境准备
大数据技术之实时
数仓
版本:V1.0第1章环境准备1.1虚拟机准备克隆三台虚拟机(hadoop101、hadoop102、hadoop103),配置好对应主机的网络IP、主机名称、关闭防火墙。
小小花生酱
·
2020-07-29 15:59
大数据
基于半衰期的分级存储
前言随着大数据时代的到来,数据量的膨胀式发展,对
数仓
建设提出的新的挑战和要求,为了实现资源的合理化配置和利用,提高资源使用率,通过半衰期的分级存储,应用于
数仓
建设,可以在一定程度上解决资源配置不合理,资源使用效率不高等问题
Burgess_Lee
·
2020-07-29 15:56
阅读文献
关于数据仓库的一点思考
理解数据仓库之前在工作中参与了公司一个细分业务的宽表和数据仓库的建设,因此对
数仓
和宽表有了进一步的理解。在我的理解中,数据仓库最大的特点是集成,即将不同的数据来源和不同形式的数据整合在一起。
国家级睡觉型选手
·
2020-07-29 04:05
笔记
大数据
数据库
数据挖掘
读懂这本书,才算读懂阿里大数据
今年双11,阿里巴巴MaxCompute大数据云
数仓
服务,单日数据吞吐量接近EB级别,任务数达到千万级,而我们所有重保高优先级任务,却都做到了按时产出;同时,我们还通过在离线混部,
阿里云云栖号
·
2020-07-29 02:57
阿里云实时
数仓
AnalyticDB PG
目的随着数字经济时代的到来,越来越多的应用依赖数据分析来挖掘数据的价值。作为大数据存储、在线分析的重要基础系统,分析型数据库(OLAP)为数据价值的在线化提供重要的技术平台。阿里巴巴OLAP团队经过调研发现,现有的OLAP数据库执行引擎往往是在已有的OLTP执行引擎的基础之上,进行二次开发而来,存在性能损耗大、历史包袱重、未充分利用最新优化技术、未充分发挥新硬件优势等问题。随着数据量的快速增长和数
阿里云云栖号
·
2020-07-29 02:57
我是程序员
greenplum
数仓
(一):centos7.2虚拟机部署greenplum6集群
项目用到基于greenplum的数据仓库建设,测试实施开发都自己搞,这里首先在测试环境基于虚拟机完成一套部署,生产环境需要考虑磁盘和分区问题;1、root做免密主机A/B/C为例,设置免密登录的方法:①每台机器上执行ssh-keygen-trsa,敲3次回车会在家目录/home/csap下生成隐藏的.ssh目录,首先需要给此目录赋权限700:chmod700.ssh;这个目录下有两个文件:id_r
有腹肌的小蝌蚪_
·
2020-07-29 01:23
数据库和MPP数据库
linux
postgres
ranger的安装
2.编译目前
数仓
用的hive1.2.1,更改pom.xml1.2.1mvncleancompilepackageassembly:assemblyinstall-Dmaven.test.skip=true
wyl9527
·
2020-07-29 00:42
组件tar包安装
高性能实时
数仓
建设(四):模拟数据代码
packagecom.zyd.billondataCollect;importcom.alibaba.fastjson.JSONObject;importcom.zyd.input.app.AppProductLog;importjava.io.InputStream;importjava.io.OutputStream;importjava.net.HttpURLConnection;impor
_张不帅
·
2020-07-29 00:20
高性能实时数仓建设
高性能实时
数仓
建设(五):FLUME读取kafka数据推送hdfs上
文章目录a1.sources=s1a1.channels=c1a1.sinks=s1a1.sources.s1.type=org.apache.flume.source.kafka.KafkaSourcea1.sources.s1.zookeeperConnect=192.168.18.100:2181,192.168.18.101:2181,192.168.18.102:2181a1.sourc
_张不帅
·
2020-07-29 00:20
高性能实时数仓建设
Shell_ODPS-D2-2-离线
数仓
集群分发、整体操作脚本xsync
Shell_ODPS-D2-2.0-集群分发、整体操作脚本xsync191129版(一)集群分发脚本xsync1.hadoop102上编写脚本[root@hadoop102~]#cd/usr/local/bin[root@hadoop102bin]#vimxsync脚本内容#!/bin/bash#1获取输入参数个数,如果没有参数,直接退出pcount=$#if((pcount==0));thene
in_
·
2020-07-28 22:36
Shell
大数据
项目
shell
odps
大数据
Java_ODPS-D2-1-离线
数仓
-日志数据样本
Java_ODPS-D2-1-离线
数仓
-日志数据样本191129版(一)样本日志数据,java模拟产生这里四五条0000-00-0000:00:44.587[main]INFOcom.ataliyun.appclient.AppMain
in_
·
2020-07-28 22:36
Java
MaxCompute
项目
阿里云PB级实时
数仓
建设
摘要如今,数据和分析对于企业来说是不可或缺的。很多企业的数据工程师、数据分析师和开发人员都希望将数据仓库迁移到云上,以提高性能和降低成本。本文讨论了实现实时数据仓库的必要性和实时数据模型,介绍了基于AnalyticDB构建阿里云实时数据仓库解决方案的方法和优势。为什么构建数据仓库为什么要构建数据仓库,而不是直接在OLTP数据库上运行分析查询?为了回答这个问题,我们先来看下数据仓库与OLTP数据库之
weixin_34116110
·
2020-07-28 18:02
感恩节快乐,PM2小窍门致NodeJS开发者!
最近从
数仓
跑定时任务拉取数据时遇到一个问题,pm2以cluster模式运行,高并发访问Hive数据表会直接被拒绝连接。那么怎么解决这个问题呢?
weixin_34117211
·
2020-07-28 18:02
runtime
大数据
前端
30PB数据1年内迁移到Spark,eBay的经验有何可借鉴之处?
采访&撰稿|Natalie嘉宾|俞育才编辑|Debra出处丨AI前线AI前线导读:eBay使用Teradata已经有二十年的历史,这个
数仓
系统中积累了60PB数据和上万张核心表,他们支撑着eBay最核心的商务逻辑和站点功能
weixin_33921089
·
2020-07-28 18:25
基于 DataLakeAnalytics 的数据湖实践
随着软硬件各方面条件的成熟,数据湖(DataLake)已经越来越受到各大企业的青睐,与传统的
数仓
实践不一样的是,数据湖不需要专门的“入仓”的过程,数据在哪里,我们就从哪里读取数据进行分析。
George_Fal
·
2020-07-28 17:22
大数据-一站式内容画像数据处理(pyodps+odps)
dataworks中使用在本机使用在dsw的helloworld在dsw中进行埋点分析(时间序列分析)工程选择工程中存在以下问题工程选择评价背景公司的pro环境并没有搭建自己存储环境,而是直接使用阿里云的rds,那么
数仓
的建设也就直接使用了阿里云的
感性企鹅
·
2020-07-28 15:09
大数据
基于OGG 实现Oracle到Kafka增量数据实时同步
传统的
数仓
通过批量数据同步的方式,定期从OLTP系统中抽取数据。但是随着业务需求的升级,批量同步无论从实时性,还是对在线OLTP系统的抽取压力,都无法满足要求。
u011663641
·
2020-07-28 13:26
数据中台
基于mysql binlog实现的增量数据抽取
但是实际生产中数据往往都是
数仓
的构建都是基于数据库的改变做的。Oracle和Sqlserver都有基于CDC的数据仓库构建方案。而mysql目前已知的方案就是基于binlog来构建
数仓
。
微瞰技术
·
2020-07-28 13:41
大数据
数仓
架构层次
1.Source,3NF/File,源数据2.Stg,3NF,暂存数据(同源同构,不对外提供服务)3.ODS,3NF,操作数据(简单处理,提供基于业务数据的应用)4.BL,Star,明细数据(面向主题域,数据加工,产生衍生指标)5.DM,Start,汇总数据(特定领域的应用)6.OLAP,Cube,多维数据7.Report。最难:需求分析、模型设计工作量最大:ETL(60-80%)标准化:格式,缺
Share-Get
·
2020-07-28 11:45
数仓
实时数据平台设计:技术选型与应用场景适配模式
在上篇《实时数据平台设计:解决从OLTP到OLAP实时流转缺失》中,我们从现代
数仓
架构角度和典型数据处理角度介绍了RTDP,并探讨了RTDP的整体设计架构。
脚丫先生
·
2020-07-28 11:56
大数据开发
MVC + EFCore 项目实战 -
数仓
管理系统8 - 数据源管理下--数据源预览
上篇我们完成了数据源保存功能,并顺便看了保存后的数据源列表展示功能。本篇我们开始开发预览功能,用户预览主要步骤:1、点击数据源卡片预览按钮2、查看数据源包含的表3、点击表名,预览表中数据一、前端结构及样式效果如下图(静态html示意图):左侧是数据源及包含的表。右上为筛选条件(筛选条件功能先不开发,预留)。右下为点击表之后显示的预览数据。二、前端交互先在DWController中新建Action及
MiroYuan
·
2020-07-28 08:00
MVC + EFCore 项目实战 -
数仓
管理系统8 - 数据源管理下--数据源预览
上篇我们完成了数据源保存功能,并顺便看了保存后的数据源列表展示功能。本篇我们开始开发预览功能,用户预览主要步骤:1、点击数据源卡片预览按钮2、查看数据源包含的表3、点击表名,预览表中数据一、前端结构及样式效果如下图(静态html示意图):左侧是数据源及包含的表。右上为筛选条件(筛选条件功能先不开发,预留)。右下为点击表之后显示的预览数据。二、前端交互先在DWController中新建Action及
我们的征途是星辰大海
·
2020-07-28 08:00
美团点评基于 Flink 的实时
数仓
平台实践
摘要:数据仓库的建设是“数据智能”必不可少的一环,也是大规模数据应用中必然面临的挑战,而Flink实时
数仓
在数据链路中扮演着极为重要的角色。
大数据技术之路---花火
·
2020-07-28 07:25
flink
问题-为什么需要搭建数据平台
数据管理的概念和工具:
数仓
、数据建模、数据探查、数据质量管理、数据安全、元数据管理数据建模
zdkdchao
·
2020-07-28 06:39
问题
系列 | 实时
数仓
实践第二篇NO.2『数据质量』
点击上方蓝色字体,置顶/星标哦目前10000+人已关注加入我们作者author诸葛子房,现就职于一线互联网公司,中国Hbase技术社区委员,从事大数据相关工作。了解互联网、大数据,一直在努力的路上。对于一个实时数据产品人员、或者开发人员来说,产品上展示的实时数据,pv、uv、gmv等等,怎么知道这些数据是不是正确的呢?当其他的小组开发的产品的数据(或者其他的数据提供方)又是另外一个数字,那么究竟该
仙子紫霞
·
2020-07-28 03:59
系列 | 实时
数仓
实践第一篇NO.1『宽表处理』
一、实时
数仓
和离线
数仓
由于离线
数仓
每天凌晨拉去线上生成数据库(凌晨请求较少,减少线上库压力),导致数据是T+1,而对于一些时效性要求较强的场景。比如需要看现在的用户数、GMV等等,离线方案就很难解决了
仙子紫霞
·
2020-07-28 03:59
Apache Flink 任意 Jar 包上传致 RCE 漏洞复现
l实时推荐系统l实时报表l实时
数仓
与ETLl复杂事件处理l实时欺诈与实时信用评估l大数据安全监测Flink核心是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布、数据
东塔安全学院
·
2020-07-28 03:07
漏洞复现
蚂蚁金服上市,阿里云再招5000人,
数仓
的开发到底有多吃香?
今年,大家都说市场不好。但就在前天,支付宝的母公司蚂蚁金服宣布在科创板上市,估值2000亿美金,朋友圈不少蚂蚁大佬纷纷实现财务自由了!真让人回想起上个月的2020阿里云峰会上的招聘豪言,原来底气在这!当时,阿里云智能总裁张建锋明确表示今年要再招5000人,在这5000人里,大数据研发相关岗位是绝对的重头戏~其实不止阿里,现在越来越多企业也开始关注大数据……现在企业想要做大,就离不开大数据。而企业做
路人甲Java
·
2020-07-28 02:09
编程语言
大数据
分布式存储
数据仓库
网易
kylin(一)介绍 编译 与 单节点测试
文章目录1.kylin的产生背景1.1传统
数仓
会遇到的问题1.2kylin核心设计理念的诞生的过程2.kylin的发展历史3.kylin技术架构3.1数据源3.2核心模块4.kylin核心概念4.1维度
黄土高坡上的独孤前辈
·
2020-07-28 02:55
Hive/Kylin数据仓库
阿里云dataworks/maxcomputer和自建集群的对比
指标自建集群云平台研发要求高低自由度高低研发配置
数仓
/集群搭建
数仓
学习成本高低工种配置
数仓
组+平台组+大数据产品组+分析组数据组主要技术hive+hbase+spark+datax+storm+调度系统
huobumingbai1234
·
2020-07-27 23:30
阿里云
上一页
68
69
70
71
72
73
74
75
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他