E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
实时计算(数仓)
数据仓库高级面试题
数仓
高内聚低耦合是怎么做的定义高内聚:强调模块内部的相对独立性,要求模块内部的元素尽可能的完成一个功能,不混杂其他功能,从而使模块保持简洁,易于理解和管理。
小小哭包
·
2023-11-21 13:16
大数据
大数据
spark
分布式
数据仓库
基于Flink打造
实时计算
平台为企业赋能
点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源大数据技术与架构点击右侧关注,大数据开发领域最强公众号!大数据真好玩点击右侧关注,大数据真好玩!本文是清香白莲在知乎的分享,很有借鉴意义,分享给大家。原文地址:https://zhuanlan.zhihu.com/p/143169143随着互联网技术的广泛使用,信息的实时性对业务的开展越来越重要,特别是业务的异常信息,没滞后一点带来的就是直
王知无(import_bigdata)
·
2023-11-21 10:40
大数据
编程语言
hadoop
java
数据库
pyspark案例系列5-Spark ETL将MySQL数据同步到Hive
数仓
其它层:Spark可以通过SparkSQL直接运行hive的sql语句,所以用Spark来
只是甲
·
2023-11-21 10:33
大数据和数据仓库
#
Spark
hive
spark
mysql
DolphinDB 流计算优化实践:时延统计与性能调优
在
实时计算
中,端到端的响应延迟是衡量计算性能时最重要的指标。
DolphinDB智臾科技
·
2023-11-21 10:59
流计算
数据分析
实时计算
流计算引擎
数据库
数据统计
DolphinDB
流计算 Oceanus | 巧用 Flink 构建高性能 ClickHouse 实时
数仓
作者:董伟柯——腾讯云大数据产品中心高级工程师概述ApacheFlink是流式计算处理领域的领跑者。它凭借易用、高吞吐、低延迟、丰富的算子和原生状态支持等优势,多方位领先同领域的开源竞品。同样地,ClickHouse是OLAP在线分析领域的一颗冉冉新星,它拥有极其出众的查询性能,以及丰富的分析函数,可以助力分析师灵活而迅速地挖掘海量数据的价值。然而金无足赤,人无完人,每个组件都有自己擅长和不擅长的
腾讯云大数据
·
2023-11-21 07:19
大数据可视化BI分析工具Superset部署详解
2.应用场景由于Superset能够对接常用的大数据分析工具,如Hive、Kylin、Impala、Druid、mysql等,且支持自定义仪表盘,故可作为
数仓
的可视化工具。
尚硅谷铁粉
·
2023-11-21 05:54
大数据
big
data
python
大数据
clickhouse做mysql从库_ClickHouse MaterializeMySQL 数据库引擎
ClickHouse20.8将新增MaterializeMySQL引擎,可通过binlog日志实时物化mysql数据,极大提升了
数仓
的查询性能和数据同步的时效性;原有mysql中承担的数据分析工作可交由
赤水.鲁
·
2023-11-21 05:03
Flink SQL 性能优化实战
由于是实时
数仓
指标计算上线初期,经常验证作业如果有问题就得重蹈覆辙重新追数,效率很低,于是我开始分析FlinkSQL的优化。问题insertintotableBselecta,max(b),ma
坨坨的大数据
·
2023-11-21 02:54
数仓
建模理论之实体和维度建模
数据建模方式将数据有序的组织和存储起来。1、ER实体关系模型ER实体关系模型:是当前几乎所有的OLTP系统设数据库设计理论基础,当在信息系统中将事物抽象为“实体”,”属性“,”关系“来表示数据关联和事物描述。实体:实体是一个数据对象,指应用中可以区别的客观存在的事物。例如:商品、用户、学生、课程等属性:实体的某一特性称为属性。例如:商品的重量、颜色、尺寸。用户的性别、身高、爱好等。关系:表示一个或
一流觞
·
2023-11-20 20:36
大数据
数据仓库
数据挖掘
big
data
大数据
数仓
建模基础理论【维度表、事实表、
数仓
分层及示例】
文章目录什么是
数仓
仓库建模?
月亮给我抄代码
·
2023-11-20 20:59
大数据
数据仓库
hive
Hive 基于hadoop来构建
数仓
的工具(三) 概念及原理介绍
参数配置三种方式:配置文件(全局有效默认hive-default.xml自定义配置会覆盖默认配置)命令行参数(对hive启动实例有效bin/hive--hiveconf)参数声明(对hive连接的当前session有效set)注意:系统级别的参数,只能使用2和1,这些参数读取在session建立之前,例如log4j优先级:3>2>1hiveshell命令行bin/hive命令-i初始化hql文件-
章云邰
·
2023-11-20 19:55
Flink 最锋利的武器:Flink SQL 入门和实战
[TOC]一、FlinkSQL背景FlinkSQL是Flink
实时计算
为简化计算模型,降低用户使用
实时计算
门槛而设计的一套符合标准SQL语义的开发语言。
tracy_668
·
2023-11-20 16:02
AWS云服务器EC2实例实现ByConity快速部署
ByConity是字节跳动面向现代数据栈的一款开源
数仓
炒香菇的书呆子
·
2023-11-20 15:48
aws
服务器
云计算
【知识】可实操使用的
数仓
建设规范指南
大数据封面.png目录:一、数据模型架构原则
数仓
分层原则主题域划分原则数据模型设计原则二、
数仓
公共开发规范层次调用规范数据类型规范数据冗余规范NULL字段处理规范指标口径规范数据表处理规范表的生命周期管理三
笔名辉哥
·
2023-11-20 14:27
【离线
数仓
-2-数据采集】
离线
数仓
-2-数据采集离线
数仓
-2-数据采集1.用户行为日志数据模拟1.用户行为日志的介绍2.埋点有哪些3.用户行为日志内容4.用户行为日志格式5.用户行为日志数据采集1.节点之间配置免密登录2.linux
Apache Minor Trend
·
2023-11-20 13:00
数据仓库
大数据
数据仓库
大数据
数据库
docker-compose 使用maxwell实时获取数据
背景空闲使用docker搭建大数据集群,并实现离线、实时
数仓
。走到了maxwell这边发现点问题,记录下。
初上路的小码农
·
2023-11-20 13:59
docker
kafka
大数据
12-海豚调度器DolphinScheduler
Azkaban能做任务调度,任务编排A-->B还可以做定时任务,还能预警(发邮件,发钉钉,打电话)
数仓
项目因为是分层的,分层的数据之间,是有先后顺序的。
YuPangZa
·
2023-11-20 12:55
大数据
大数据
数仓
DWS层之旁路缓存优化
优化原因:外部数据源的查询常常是流式计算的性能瓶颈。以本程序为例,每次查询都要连接Hbase,数据传输需要做序列化、反序列化,还有网络传输,严重影响时效性。可以通过旁路缓存对查询进行优化。旁路缓存模式是一种非常常见的按需分配缓存模式。所有请求优先访问缓存,若缓存命中,直接获得数据返回给请求者。如果未命中则查询数据库,获取结果后,将其返回并写入缓存以备后续请求使用。(1)旁路缓存策略应注意两点a)缓
大数据阿嘉
·
2023-11-20 10:44
缓存
flink
redis
大数据流式处理框架Flink介绍
的介绍随着数据的飞速发展,出现了很多热门的开源社区,比如:hadoop、spark、storm社区,他们都有各自专注的适用场景,比如hadoop主要是做数据的存储及批处理计算,spark既可以做批处理也可以做准
实时计算
大数据动物园
·
2023-11-20 01:57
大数据flink学习及问题解决
大数据
Flink
实时计算
框架简介
文章目录(一)Flink介绍(二)Flink架构(三)Flink三大核心组件(四)Flink的流出来和批处理(五)大数据
实时计算
引擎对比(六)计算框架如何选择(一)Flink介绍ApacheFlink是一个开源的分布式
小崔的技术博客
·
2023-11-20 01:56
大数据学习
flink
大数据
spark
大数据研发工程师面试
4.
数仓
是怎么设计的?5.linux查看进程的命令是什么,如何查看具体某一行的内容(查看第n至m行)?6.从浏览器输入网址到返回页面,中间发生了什么?7.具体说一下三次握手四次挥手?
ChlinRei
·
2023-11-20 01:43
面试
大数据
面试
职场和发展
Hive参数与性能企业级调优(建议收藏)
但是如果我们只局限于会使用Hive,而不考虑性能问题,就难搭建出一个完美的
数仓
,所以Hive性能调优是我们大数据从业者必须掌握的技能。本文将给大家讲解Hive性能调优的一些方法及技巧。
坨坨的大数据
·
2023-11-19 23:58
2011-2022年高职大数据竞赛-赛题内容
本系列共分五篇,内容分别为:第一部分赛题内容第二部分任务剖析第三部分赛题模拟实现-离线数据抽取第四部分赛题模拟实现-离线数据统计第五部分赛题模拟实现-数据采集与
实时计算
第六部分赛题模拟实现-数据可视化第一部分竞赛内容赛项以大数据技术与应用为核心内容和工作基础
xlw2003
·
2023-11-19 21:54
大数据
Spark
hadoop
flink
高职大数据竞赛
2011-2022年高职大数据竞赛-赛题任务剖析
本系列共分五篇,内容分别为:第一部分赛题内容第二部分任务剖析第三部分赛题模拟实现-离线数据抽取第四部分赛题模拟实现-离线数据统计第五部分赛题模拟实现-数据采集与
实时计算
第六部分赛题模拟实现-数据可视化(
xlw2003
·
2023-11-19 21:54
Spark
Flink
hadoop
spark
flume
kafka
flink
利用ETLCloud自动化流程实现业务系统数据快速同步至
数仓
企业需要先获取数据,将业务系统数据同步至
数仓
进行整合,然后再进行数据分析。为了更好地利用数据,提高工作效率,产出及获得最大利益。
ETLCloud数据集成社区
·
2023-11-19 19:09
自动化
运维
etl
阿里巴巴电商搜索推荐实时
数仓
演进之路
作者:张照亮(士恒)阿里巴巴搜索事业部高级技术专家1.业务背景阿里巴巴电商搜索推荐实时数据仓库承载了阿里巴巴集团淘宝、淘宝特价版、饿了么等多个电商业务的实时
数仓
场景,提供了包括实时大屏、实时报表、实时算法训练
阿里云Hologres
·
2023-11-19 18:38
spark性能调优 | 默认并行度
默认并行度200https://spark.apache.org/docs/2.4.5/sql-performance-tuning.html#other-configuration-options优化在
数仓
中
Knight_AL
·
2023-11-19 18:04
Spark优化
spark
大数据
分布式
数据仓库-
数仓
架构
1数据仓库建设方法论1.1项目背景数据仓库将建设成为融通全公司数据资产,提供便捷数据分析和数据服务,支持全公司数字化经营与创新。1.2数据仓库概述数据仓库是一个面向主题的、集成的、相对稳定的、反映有历史变化的数据集合,用于支持数字化运营、数字化管理等数据业务。具有以下特点:包含公司生产过程中产生的全量业务数据包含结构化与非结构化形式数据来自于多个数据源、业务操作系统保存一定的时间周期按照企业内业务
终回首
·
2023-11-19 14:50
数据仓库
大数据
数据仓库
架构
spark
大数据发展历程及技术选型
大数据发展历程第一阶段2000年-2010年
数仓
提供方企业级数据仓库(EDW)IOT(IBM、Oracle、Teradata)提供数据仓库建设从硬件、软件到实施的整体方案需要购买大(中、小)型机 配套商用的关系型数据库
平凡人笔记
·
2023-11-19 14:47
平凡人笔记
数据仓库之电商
数仓
-- 1、用户行为数据采集
目录一、数据仓库概念二、项目需求及架构设计2.1项目需求分析2.2项目框架2.2.1技术选型2.2.2系统数据流程设计2.2.3框架版本选型2.2.4服务器选型2.2.5集群规模2.2.6集群资源规划设计三、数据生成模块3.1目标数据3.1.1页面日志3.1.2事件日志3.1.3曝光日志3.1.4启动日志3.1.5错误日志3.2数据埋点3.2.1主流埋点方式3.2.2埋点数据上报时机3.2.3埋点
FunnyPrince_
·
2023-11-19 14:10
大数据
#
Hadoop
#
数据仓库
big
data
数据仓库
hadoop
zookeeper
flume
构建数据湖上低延迟数据 Pipeline 的实践
T摘要·云原生与数据湖是当今大数据领域最热的2个话题,本文着重从为什么传统
数仓
无法满足业务需求?为何需要建设数据湖?
DolphinScheduler社区
·
2023-11-19 14:39
大数据
分布式
java
kubernetes
hadoop
数仓
开发面试题之Hadoop相关
提纲MapReduce原理,map数、reduce数的参数说一下mapjoin与reducejoinhivesql怎么优spark和hive的区别数据倾斜几种解决方式数据如何清洗说一下udf、udtf、udaf,集成的类、接口,怎么写hive文件存储格式,对比内外表区别hive执行的job数是怎么确定的cube、groupingsets、grouping__idorderby、sortby、dis
话数Science
·
2023-11-19 13:39
面试
大数据
hadoop
大数据
奇瑞金融业务面一面
一、招聘岗位:
数仓
高级工程师岗位要求:1.数据架构设计与落地。2.模型设计,数据治理。
柳小葱的狂热粉
·
2023-11-19 12:07
spark
大数据
分布式
用Airflow调度
数仓
(CK)的ETL脚本
#安装前提:安装了python,我这里是python3下载按照官网:pip3installapache-airflow包太多,下载太慢改为清华的镜像:pip3install-ihttps://pypi.tuna.tsinghua.edu.cn/simpleapache-airflow又有包找不到最后用豆瓣的镜像(注意要加trusted):pip3installapache-airflow-ihtt
一篮小土
·
2023-11-19 09:16
Airflow
本地
数仓
项目(四)—— 即席查询
1背景本文描述本地
数仓
项目即席查询相关内容,主要涉及即席查询工具包括Presto、Druid、Kylin。
不以物喜2020
·
2023-11-19 08:09
大数据数仓
Druid
presto
impala
kylin
即席查询
canal小试牛刀第一篇:canal-server+kafka根据mysql binlog同步数据
数仓
搭建必备利器。
凯丨
·
2023-11-19 07:43
Canal
Kafka
kafka
mysql
canal
大数据
基于canal+kafka+flink的实时增量同步功能1:mysqlTokafka代码实现
使用到的技术有canal同步中间件,kafka消息队列,大数据
实时计算
流引擎flink以及并发编程等技术。
Hey 锡瑞
·
2023-11-19 07:02
kafka
【硬刚ClickHouse】ClickHouse 高级(二)优化(2)建表优化
1数据类型1.1时间字段的类型建表时能用数值型或日期时间型表示的字段就不要用字符串,全String类型在以Hive为中心的
数仓
建设中常见,但ClickHouse环境不应受此影响。
王知无(import_bigdata)
·
2023-11-19 06:28
hive
big
data
ClickHouse-优化(建表、配置)
1.数据类型1.1时间字段的类型建表时能用数值型或日期时间型表示的字段就不要用字符串,全String类型在以Hive为中心的
数仓
建设中常见,但ClickHouse环境不应受此影响。
嘣嘣嚓
·
2023-11-19 05:55
hive
big
data
数据仓库
hadoop
大数据
ClickHouse-建表优化
建表优化数据类型时间字段的类型建表时能用数值型或日期时间型表示的字段就不要用字符串,全String类型在以Hive为中心的
数仓
建设中常见,但ClickHouse环境不应受此影响。
魔笛Love
·
2023-11-19 05:20
hive
hadoop
big
data
ClickHouse建表优化
1.数据类型1.1时间字段的类型建表时能用数值型或日期时间型表示的字段就不要用字符串,全String类型在以Hive为中心的
数仓
建设中常见,但ClickHouse环境不应受此影响。
shangjg3
·
2023-11-19 05:42
ClickHouse
clickhouse
大数据
数据仓库
sql
PieCloudDB Database 再次升级!社区版全新版本发布
拓数派正式发布大模型数据计算系统「πDataCS」,基于云原生技术重构数据存储和计算,重塑
数仓
、向量和机器学习等数据计算引擎,实现“一份数据存储,多引擎数据计算”。
OpenPie|拓数派
·
2023-11-18 21:27
数据库
云原生
大数据
领先一步,效率翻倍:PieCloudDB Database 预聚集特性让查询速度飞起来!
为此,拓数派推出了首款数据计算引擎PieCloudDBDatabase,作为一款全新的云原生虚拟
数仓
,旨在提供更高效、更灵活的数据处理解决方案。
OpenPie|拓数派
·
2023-11-18 21:56
数据库
云原生
「校园 Pie」 系列活动正式启航,首站走进南方科技大学!
在「校园Pie」系列活动中,PieCloudDB社区将携拓数派技术专家,社区大咖走进国内各大高校,分享行业动态与前沿技术,产业界的案例与应用分享,云原生数据库技术的应用与实践、云原生虚拟
数仓
PieCloudDB
OpenPie|拓数派
·
2023-11-18 21:52
科技
云原生
数据库
阿里云云原生一体化
数仓
- 数据安全能力解读
MaxCompute产品简介MaxCompute是一款多功能、低成本、高性能、高可靠、易于使用的数据仓库和支持全部数据湖能力的大数据平台,支持超大规模、serverless和完善的多租户能力,内建企业级安全能力和管理功能,支持数据保护和安全共享,数据/生态开放,可以满足数据仓库/BI、数据湖非结构化数据处理和分析、湖仓一体联邦计算、机器学习等多业务场景需求。阿里云MaxCompute提供了全托管的
阿里云云栖号
·
2023-11-18 21:28
大数据
云计算
阿里云
SaprkStreaming广告日志分析实时
数仓
一、系统简介参考尚硅谷的spark教程中的需求,参考相关思路,详细化各种代码,以及中间很多逻辑的实现方案采用更加符合项目开发的方案,而不是练习,包括整体的流程也有很大的差别,主要是参考需求描述和部分代码功能实现。需求一:广告黑名单实现实时的动态黑名单机制:将每天对某个广告点击超过100次的用户拉黑。注:黑名单保存到MySQL中。1)读取Kafka数据之后,并对MySQL中存储的黑名单数据做校验;2
是阿威啊
·
2023-11-18 21:50
scala
spark
mysql
kafka
zookeeper
实时
数仓
入门训练营:Hologres性能调优实践
简介:《实时
数仓
入门训练营》由阿里云研究员王峰、阿里云资深技术专家金晓军、阿里云高级产品专家刘一鸣等
实时计算
Flink版和Hologres的多名技术/产品一线专家齐上阵,合力搭建此次训练营的课程体系,精心打磨课程内容
阿里云云栖号
·
2023-11-17 14:11
云栖号技术分享
Hologres
存储
Hologres揭秘:深度解析高效率分布式查询引擎
Hologres(中文名交互式分析)是阿里云自研的一站式实时
数仓
,这个云原生系统融合了实时服务
阿里云云栖号
·
2023-11-17 14:11
云栖号技术分享
实时数仓
Hologres
云原生
Hologres揭秘:高性能原生加速MaxCompute核心原理
Hologres(中文名交互式分析)是阿里云自研的一站式实时
数仓
,这个云原生系统融合了实时服务和分析大数据的场景,全面兼容PostgreSQL协议并与大数据生态无缝打通,能用同一套数据架构同时支持实时写入实时查询以及实时离线联邦分析
阿里云云栖号
·
2023-11-17 14:11
云栖号技术分享
Hologres
MaxCompute
首次揭秘云原生Hologres存储引擎
概要:刚刚结束的2020天猫双11中,MaxCompute交互式分析(Hologres)+
实时计算
Flink搭建的云原生实时
数仓
首次在核心数据场景落地,为大数据平台创下一项新纪录。
阿里云技术
·
2023-11-17 14:09
数据库
大数据
上一页
10
11
12
13
14
15
16
17
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他