E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓(
数仓
建设几个关键问题
数仓
的功能以我当前的认知,
数仓
应该至少有下面两个职责:数据整合统一口径下面详细说说这两点。数据整合数据整合是为了解决各系统的异构问题。对于大体量的公司来说,往往会投入大量的资源解决“数据孤岛”问题。
bluedraam_pp
·
2019-04-06 18:32
大数据
数仓
--Theory--对
数仓
面向主题的理解
面向主题面向主题是
数仓
的四大特点之一,听起来很高大上,但是细细理解起来却有些费劲,本文主要是记录一下个人的理解,参考互联网上各种博客进行理解。
李小李的路
·
2019-04-04 11:42
Greenplum 5.16.0初探
另外
数仓
/数据集市方面还有性能强悍的HAWQ,支持更大数据规模Hadoop。
我的二狗呢
·
2019-03-30 23:00
Greenplum
初探
PostgreSQL
informatica-etl全量增量设计流程
在
数仓
ODS层创建目标表例:若源表为test01目标表在172.16.0.133/oratestods_wshh/wshh@2015的格式:创建全量覆盖工作流在sourcetarget目录导入工作流所需要的源和目标并保存
Demonson
·
2019-03-30 11:01
ETL
基于Mysql源数据的
数仓
表结构整理
1、简单的表结构信息查看SELECT a1.table_name表名, a1.TABLE_ROWS记录条数, a1.TABLE_COMMENT表注释, a2.COLUMN_NAME列名, a2.COLUMN_TYPE数据类型, a2.IS_NULLABLE是否为空, a2.COLUMN_DEFAULT默认值, a2.COLUMN_COMMENT列备注, a1.C
BabyFish13
·
2019-03-21 15:14
DataWarehouse
Mysql
Sql
基于Mysql源数据的
数仓
表结构整理
1、简单的表结构信息查看SELECT a1.table_name表名, a1.TABLE_ROWS记录条数, a1.TABLE_COMMENT表注释, a2.COLUMN_NAME列名, a2.COLUMN_TYPE数据类型, a2.IS_NULLABLE是否为空, a2.COLUMN_DEFAULT默认值, a2.COLUMN_COMMENT列备注, a1.C
BabyFish13
·
2019-03-21 15:14
DataWarehouse
Mysql
Sql
数据中台精华问答 | 数据中台和传统
数仓
的区别是什么?
中台系统把业务层同性的算法能力,服务能力,业务能力高度集成,有效组织,动态规划。更好的帮助上层业务。今天就让我们看看关于数据中台的问答吧。1Q:什么是数据中台?A:数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。这些服务跟企业的业务有较强的关联性,是这个企业独有的且能复
csdn业界要闻
·
2019-03-20 08:49
在hue平台上使用oozie工作流调度
在实习期间,公司使用的hue平台做的
数仓
,下面就简单介绍一下hue的一些使用的注意事项,主要是工作流的使用和调度进入hue首页:Workflow是工作流,Schedule是调度工作流的,如设置工作流何时跑
luruixiao
·
2019-03-15 11:00
TiDB简述
项目内使用的MySQL2Hive任务失败,是由于
数仓
使用的TiDB新版组件BUG引起的,自此了解到了TiDB。
dkjkls
·
2019-03-09 11:53
经验分享
广告场景下的实时计算
articles/692364案例与解决方案汇总页:阿里云实时计算产品案例&解决方案汇总广告场景的综述,计算广告与流处理技术综述:其中涉及的主要实时处理环节:实时数据统计与BI,可参考数据仓库介绍与实时
数仓
案例在线流量反作弊
串行并jjjjj
·
2019-03-05 11:34
数据中台和
数仓
的关系
传统
数仓
传统
数仓
有几个特点:数据具有历史性基于文件存储以表为形态,自带元数据存储(比如Hive)在
数仓
的数据是其他数据的拷贝或者拷贝的加工传统
数仓
需要拷贝数据的重要原因是因为基于数据和存储需要尽可能的近
祝威廉
·
2019-03-04 14:07
数据中台和
数仓
的关系
传统
数仓
传统
数仓
有几个特点:数据具有历史性基于文件存储以表为形态,自带元数据存储(比如Hive)在
数仓
的数据是其他数据的拷贝或者拷贝的加工传统
数仓
需要拷贝数据的重要原因是因为基于数据和存储需要尽可能的近
祝威廉
·
2019-03-04 00:00
一些awesome网站
nginxNginx高性能Web服务器3、docker系列docker系列-jsonhcloocode-docker系列4、Spark系列Spark学习之路5、Flink系列Flink系列美团点评实时
数仓
实践滴滴是如何从零构建集中式实时计算平台的
江畔独步
·
2019-03-01 15:20
运维
大数据平台安全建设实践
大数据平台的定位主要是服务数据开发人员,提高数据开发效率,提供便捷的开发流程,有效支持
数仓
建设。大数据平台的用户都是公司内部人员。数据本身的安全性已经由公司层面的网络及物理机房的隔离来得到保证。
金光闪闪耶
·
2019-03-01 12:36
关于目前某游戏直播平台
数仓
建设规划的思考3
现在回想起在苏宁的
数仓
做法,及另一前同事在天源迪科的
数仓
建模描述,也是大致按这种方式进行的。所以,综合考虑,可能要舍弃【思考2】中在DWH中两种建模方式的表述,统一采用宽表的建模方
BabyFish13
·
2019-02-27 17:01
DataWarehouse
数仓分层架构
阿里云实时计算产品案例&解决方案汇总
场景:广告场景下的实时计算运维场景下的实时计算案例&解决方案:通过Flink实时构建搜索引擎的索引基于实时计算(Flink)与高斯模型构建实时异常检测系统计算广告与流处理技术综述数据仓库介绍与实时
数仓
案例基于实时计算
客服小羊
·
2019-02-26 18:34
数仓
项目第一天
关系数据库系统是支持关系模型的数据库系统。常见的数据库MySQL,Oracle、DB2,SQLServer都是关系型数据库。关系:由行和列构成的二维结构,对应关系数据中表,也就是数据的存储结构元组关系数据库中的一个表的行,也就是一条记录。关系数据库的特性在一个数据库中,表名称唯一表中的每个列名称不同,不同的表列名称可以相同列是无序的行是无序的关系数据模型中的键关系模型中具有一些键:超键、候选键、主
大岛君
·
2019-02-12 20:03
Hadoop
Spark SQL 读取hive分区表出现分区字段为null的情况
今天在使用SparkSQL读取hive分区表数据的时候,出现了下面的错误:由于这个表是
数仓
维护提供给我使用的,我并不是很清楚表中数据的情况,于是我取查了一下这个表,发现分区字段pk_year,pk_month
big_data1
·
2019-01-23 16:02
那些年踩过的坑
hive电商项目:1
数仓
构建过程
1、获取数据源后台的服务数据前台的点击流日志数据业务数据2、确定主题用户主题:用户、会员相关的信息订单主题:订单相关的信息浏览器主题:跟浏览器相关的信息事件主题:跟事件相关3、创建模型(创建表)100张表以内不分层,以外将分层。如果维度表较多则将维度表单独分层1、创建维度层:dim_维度表地域维度:拆分成省市浏览器维度:浏览器名称、版本时间维度:周、季度事件维度:category(种类)、acti
大岛君
·
2019-01-05 00:52
Hadoop
数仓
模型示例
数仓
模型案例一、范式建模1.零范式为便于分级说明三范式的特点,我们将不满足任何范式即无范式的数据称为零范式,假设它只满足一个最基本的条件——数据中不存在重复数据。
abebill
·
2019-01-03 17:38
数仓
模型
范式
数据仓库
eBay:将60PB的MPP DBMS迁移至Spark的经验
从17年开始,eBay将这个庞大的
数仓
向Spark做迁移,使用eBay开发的工具,这其中90%的工作都可以自动化地完成,并且通过优化Spark框架,这些措施使得整个流程节省了一半的内存。
Hadoop技术博文
·
2018-12-21 08:10
深入理解 Hive 分区分桶
在Hive
数仓
中也有分区分桶的概念,在逻辑上分区表与未分区表没有区别,在物理上分区表会将数据按照分区键的列值存储在表目录的子目录中,目录名=“分区键=键值”。其中
tingtingding
·
2018-12-19 15:39
hive
CDH5.12.0-HiveServer2-java.net.SocketTimeoutException: Read timed out
一.问题背景基于CDH构建离线
数仓
,在通过JDBC向HiveServer2提交作业时出现java.net.SocketTimeoutException:Readtimedout错误,导致大批量的作业失败
HamaWhite
·
2018-12-14 21:45
hadoop
hive
hadoop
cdh
大数据
杠上Spark、Flink?Kafka为何转型流数据平台
它通常作为一个数据管道,链接了各种业务前台和数据后台(比如
数仓
等)。\u003cstrong\u003e但是随着越来越多的企业应用开始采纳流计算作为数据的计算引擎,以及基础架构
坚持669
·
2018-12-10 09:15
HIVE
数仓
的安装与使用
hive的安装与简单入门1HIVE简单介绍1.1什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序1.2Hive架构原理1.3Hive在加载数据的过程中不会对数据进行任何处理,甚至不会对数据进行扫描,因此也没有对数据中的
huoliangwu
·
2018-11-29 20:09
大数据
大数据
数仓
之Hive入门《一》
一、Hive基本概念1.1什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。它是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质就是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行在Yarn上1.2Hive的优缺点1.2.1优
Forever_ck
·
2018-11-29 18:43
Hive
大数据
美团点评基于 Flink 的实时
数仓
建设实践
更多精选文章关注MAYOU18引言近些年,企业对数据服务实时化服务的需求日益增多。本文整理了常见实时数据组件的性能特点和适用场景,介绍了美团如何通过Flink引擎构建实时数据仓库,从而提供高效、稳健的实时数据服务。此前我们美团技术博客发布过一篇文章《流计算框架Flink与Storm的性能对比》,对Flink和Storm俩个引擎的计算性能进行了比较。本文主要阐述使用Flink在实际数据生产上的经验。
qq_41694752
·
2018-10-22 09:19
架构
美团点评基于 Flink 的实时
数仓
建设实践
引言近些年,企业对数据服务实时化服务的需求日益增多。本文整理了常见实时数据组件的性能特点和适用场景,介绍了美团如何通过Flink引擎构建实时数据仓库,从而提供高效、稳健的实时数据服务。此前我们美团技术博客发布过一篇文章《流计算框架Flink与Storm的性能对比》,对Flink和Storm俩个引擎的计算性能进行了比较。本文主要阐述使用Flink在实际数据生产上的经验。实时平台初期架构在实时数据系统
美团技术团队
·
2018-10-19 00:00
美团
系统
flink
美团点评基于 Flink 的实时
数仓
建设实践
引言近些年,企业对数据服务实时化服务的需求日益增多。本文整理了常见实时数据组件的性能特点和适用场景,介绍了美团如何通过Flink引擎构建实时数据仓库,从而提供高效、稳健的实时数据服务。此前我们美团技术博客发布过一篇文章《流计算框架Flink与Storm的性能对比》,对Flink和Storm俩个引擎的计算性能进行了比较。本文主要阐述使用Flink在实际数据生产上的经验。实时平台初期架构在实时数据系统
美团点评技术团队
·
2018-10-18 22:00
美团
flink
实时
【云+社区极客说】新一代大数据技术:构建PB级云端
数仓
实践
本文来自腾讯云技术沙龙,本次沙龙主题为构建PB级云端
数仓
实践在现代社会中,随着4G和光纤网络的普及、智能终端更清晰的摄像头和更灵敏的传感器、物联网设备入网等等而产生的数据,导致了PB级储存的需求加大。
腾讯云加社区
·
2018-10-10 00:00
大数据
hadoop
spark
云计算
程序员
数据仓库Kimball Or Inmon?
对
数仓
建立要求的开始,往往源于一个部门,而非多个部门的联合,需求往
云藤
·
2018-10-03 16:26
大数据
数仓
中增量数据问题讨论
目录数据增量类型介绍三种增量类型的具体介绍流水新增数据常规业务变化数据优化的业务变化数据总结
数仓
中增量数据的方法探讨先做个数据例子1月份2月份3月份4月份
数仓
分层生产数据同步到ODS层1月份ODS层表2
远处的一只猫
·
2018-09-29 10:20
大数据
Core Table Housekeeping案例1
分享一下自己做CoreTableHousekeeping的思路…首先说下背景:我们系统没有使用warehouse,用的是ODS,因为考虑到改动和测试量很大,所以暂不考虑建
数仓
。一、为什么要做数据清理?
小代嘚吧嘚
·
2018-09-12 12:21
Core
Banking
使用CLI进行高速跨域日志复制、历史数据重新索引与
数仓
投递
摘要:高速跨域日志复制、对历史数据重新索引,投递历史数据到OSS/ODPS?现在这些操作CLI都可以支持了。背景使用日志服务是不是常常遇到如下烦恼?开启了字段索引却无法对历史日志起作用,而手动重建索引又很困难怎么办?需要迁移数据,复制数据到其他区域logstore,写代码实现大并发复制又很复杂怎么办?投递日志到OSS/ODPS仅仅对新数据起作用,又想投递历史日志怎么办?现在使用CLI就可以帮你轻松
阿里云云栖社区
·
2018-09-07 00:00
配置
数据
索引
服务器
日志
深入理解 Hive 分区分桶 (Inceptor)
在Hive
数仓
中也有分区分桶的概念,在逻辑上分区表与未分区表没有区别,在物理上分区表会将数据按照分区键的列值存储在表目录的子目录中,目录名=“分区键=键值”。其中
bw_233
·
2018-08-31 17:11
大数据
大数据核心原理与实践
ORA-30013: undo tablespace currently in use故障处理思路
当日早上,某系统
数仓
数据库告警,数据库版本为12c,操作系统为RHEL7.22018-08-23T06:43:17.297341+08:00PDB$SEED(2):OpatchvalidationisskippedforPDBPDB
yangjunfeng
·
2018-08-23 17:28
ORA
30013
12c坑
Oracle
调度、模型、同步与任务——阿里云大数据
数仓
建设性能优化方案
摘要:对于阿里云大数据
数仓
建设性能优化而言,主要可以从调度优化、模型优化、同步优化以及任务优化这四个方面着手。
xstardust
·
2018-08-03 17:04
算法
同步
数据仓库
数仓
面试题
hive优化https://blog.csdn.net/oracle8090/article/details/80008924https://blog.csdn.net/B11050101/article/details/787546521.hive表关联查询,造成数据倾斜的常见原因,如何解决数据倾斜2请说明hive中sortby,orderby,clusterby,distributeby含义3
oracle8090
·
2018-07-31 11:29
大数据面试
如何处理新业务
对
数仓
的要求是什么?
一路琼瑶足迹多
·
2018-07-19 12:30
数据仓库
HBase系列(一):HBase表结构及数据模型的理解
一般我们从
数仓
中离线统计分析海量数据,将得到的结果插入HBase中用于实时查询。HBase表结构这里以一个公司员工表为案例来讲解,此表中
bw_233
·
2018-07-18 21:18
大数据
大数据核心原理与实践
将传统
数仓
(mysql)数据导入hive中
步骤:一:建表1.获取建表语句(例dim_area),代码如下注意:如果不设置建表格式为orc文件,txt文件loaddata到orc中会出错。2.做部分修改后获得如下createtabledim_area(AreaIdint,AreaNamestring,ParentIdint,Shortstring,IsActiveint,FullNamestring,start_datestring,end
-dimension
·
2018-07-17 12:37
linux
mysql
hadoop
hive
ClickHouse REST API(HTTP接口)及Engine引擎的使用
clickhouse-client使用的是“原生”的TCP连接来完成与服务端的交互,而在应用中用它的话,它有实现一个HTTP的访问接口,把SQL语句通过HTTP发送到服务端,就可以得到响应数据了(其实不用担心效率问题,
数仓
场景下
i000zheng
·
2018-05-28 20:58
clickhouse
袋鼠云数据中台专栏(一) :浅析数据中台策略与建设实践
数据中台和传统
数仓
还有数据
chudufan0339
·
2018-05-28 10:00
分享一个实时
数仓
系统--SnappyData的博客与中文社区
分享一个实时OLAP系统–SnappyData的博客与中文社区SnappyData中文博客SnappyData中文社区
lmalds李麦迪
·
2018-04-23 00:00
sql与plsql
大数据
DataStream
数据处理
hive中的lateral view 与 explode函数的使用
本身已经违背了数据库的设计原理(不论是业务系统还是数据仓库系统),不过大数据技术普及后,很多类似pv,uv的数据,在业务系统中是存贮在非关系型数据库中,用json存储的概率比较大,直接导入hive为基础的
数仓
系统中
guodong2k
·
2018-03-06 16:24
数仓
心得(一):管理和发展
做
数仓
也有三年了,经历过业务和平台的零到一,一到二,一把鼻涕一把泪。把这些经历总结下,主要从三个方面去总结:一、
数仓
管理和发展;二、
数仓
逻辑架构和维度建模;三、平台选型。
ckqq46580
·
2018-02-28 19:19
Apache Kylin 深入Cube和查询优化
ApacheKylin在中企的使用主要在新
数仓
系统以及BI报表的数据计算工作,带来的变化有:一方面Kylin帮助我们提升了开发效率,减少了开发人员需要手动编写HQL/SQL语句去查询维度数据的状况;另一方面解耦现有系统设计
choulanlan
·
2018-02-05 14:58
kylin
cube
dimension
kylin
Kylin中cube优化
前言ApacheKylin在中企的使用主要在新
数仓
系统以及BI报表的数据计算工作,带来的变化有:一方面Kylin帮助我们提升了开发效率,减少了开发人员需要手动编写HQL/SQL语句去查询维度数据的状况;
choulanlan
·
2018-02-05 14:40
kylin
cube
dimension
kylin
数仓
-概述
个人学习笔记记录,不做他用一、ETL系统从源系统抽取数据,执行数据质量和一致性标准,然后规格化数据,从而使分散的源数据可以集中在一起使用,最终再以可以展现的格式提交数据,以便应用开发者可以创建应用系统,也使最终用户可以制定决策消除数据错误并纠正缺失数据提供对于数据可信度的文档化衡量为保护数据获取相互作用的数据流程把多个源数据整合到一起将数据进行结构化供最终用户使用二、设计流程2.1规划与
bin330720911
·
2018-01-03 17:21
TiDB / TiSpark 在易果集团实时
数仓
中的创新实践
项目背景目前企业大多数的数据分析场景的解决方案底层都是围绕Hadoop大数据生态展开的,常见的如HDFS+Hive+Spark+Presto+Kylin,在易果集团,我们初期也是采取这种思路,但是随着业务规模的快速增长和需求的不断变化,一些实时或者准实时的需求变得越来越多,这类业务除了有实时的OLTP需求,还伴随着一些有一定复杂度的OLAP的需求,单纯地使用Hadoop已经无法满足需求。现有的准实
tidb_pingcap
·
2017-12-21 10:21
TiDB
hadoop
spark
上一页
79
80
81
82
83
84
85
86
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他