数仓命名规范第16页

AWS云服务器EC2实例实现ByConity快速部署

ByConity是字节跳动面向现代数据栈的一款开源数仓

炒香菇的书呆子·2023-11-20 15:48

【知识】可实操使用的数仓建设规范指南

大数据封面.png目录：一、数据模型架构原则数仓分层原则主题域划分原则数据模型设计原则二、数仓公共开发规范层次调用规范数据类型规范数据冗余规范NULL字段处理规范指标口径规范数据表处理规范表的生命周期管理三

笔名辉哥·2023-11-20 14:27

【离线数仓-2-数据采集】

离线数仓-2-数据采集离线数仓-2-数据采集1.用户行为日志数据模拟1.用户行为日志的介绍2.埋点有哪些3.用户行为日志内容4.用户行为日志格式5.用户行为日志数据采集1.节点之间配置免密登录2.linux

Apache Minor Trend·2023-11-20 13:00

docker-compose 使用maxwell实时获取数据

背景空闲使用docker搭建大数据集群，并实现离线、实时数仓。走到了maxwell这边发现点问题，记录下。

初上路的小码农·2023-11-20 13:59

12-海豚调度器DolphinScheduler

Azkaban能做任务调度，任务编排A-->B还可以做定时任务，还能预警（发邮件，发钉钉，打电话）数仓项目因为是分层的，分层的数据之间，是有先后顺序的。

YuPangZa·2023-11-20 12:55

数仓DWS层之旁路缓存优化

优化原因：外部数据源的查询常常是流式计算的性能瓶颈。以本程序为例，每次查询都要连接Hbase，数据传输需要做序列化、反序列化，还有网络传输，严重影响时效性。可以通过旁路缓存对查询进行优化。旁路缓存模式是一种非常常见的按需分配缓存模式。所有请求优先访问缓存，若缓存命中，直接获得数据返回给请求者。如果未命中则查询数据库，获取结果后，将其返回并写入缓存以备后续请求使用。（1）旁路缓存策略应注意两点a）缓

大数据阿嘉·2023-11-20 10:44

DCM相关：EB tresos 配置RID并经过RTE层

2.配置RoutineInformation：①.Name（注意命名规范）②.ReferencetoSecurityLevels（客户需求）③.ReferencetoDiagnosticSessions

逸埃·2023-11-20 10:33

Java学习——day 02

主要内容局部变量、实例变量、常量命名规范switch语句中的穿透现象带标签的continue（类似于C++中的goto）笔记详解局部变量、实例变量、常量Java的代码都是写在class中的，所以会有局部变量和实例变量的却别

振礼硕晨·2023-11-20 05:01

大数据研发工程师面试

4.数仓是怎么设计的?5.linux查看进程的命令是什么，如何查看具体某一行的内容（查看第n至m行）?6.从浏览器输入网址到返回页面，中间发生了什么?7.具体说一下三次握手四次挥手?

ChlinRei·2023-11-20 01:43

Js04天---函数

注意:函数声明后会被自动放到script标签的最上方函数名的命名规则：函数名命名规范和变量命名基本一致

y_1c4b·2023-11-20 00:00

Hive参数与性能企业级调优（建议收藏）

但是如果我们只局限于会使用Hive，而不考虑性能问题，就难搭建出一个完美的数仓，所以Hive性能调优是我们大数据从业者必须掌握的技能。本文将给大家讲解Hive性能调优的一些方法及技巧。

坨坨的大数据·2023-11-19 23:58

数据库命名规范

一.命名规范1.可用字符数据库、表、字段等所有名称的可用字符范围为：A-Z，a-z，0-9和_下划线，除此外不允许使用其它字符作为名称。数据库及表名均不允许出现数字，字段名除非特殊情况不允许出现数字。

WangLane·2023-11-19 23:25

如何编写高质量和可维护的C++代码？

以下是一些重要的建议：一致的命名规范：选择明确、一致的命名风格，例如驼峰命名法或下划线命名法，并在整个代码库中保持一致。

悦目春风·2023-11-19 21:36

利用ETLCloud自动化流程实现业务系统数据快速同步至数仓

企业需要先获取数据，将业务系统数据同步至数仓进行整合，然后再进行数据分析。为了更好地利用数据，提高工作效率，产出及获得最大利益。

ETLCloud数据集成社区·2023-11-19 19:09

阿里巴巴电商搜索推荐实时数仓演进之路

作者：张照亮（士恒）阿里巴巴搜索事业部高级技术专家1.业务背景阿里巴巴电商搜索推荐实时数据仓库承载了阿里巴巴集团淘宝、淘宝特价版、饿了么等多个电商业务的实时数仓场景，提供了包括实时大屏、实时报表、实时算法训练

阿里云Hologres·2023-11-19 18:38

spark性能调优 | 默认并行度

默认并行度200https://spark.apache.org/docs/2.4.5/sql-performance-tuning.html#other-configuration-options优化在数仓中

Knight_AL·2023-11-19 18:04

CodingStyle（持续更新ing...）

待积累到一定程度，会拆分本文档到各个子模块书写样式的几点考虑命名规范--可阅读性高不写重复的样式--DRY（don'trepeatyourself）可维护性高--不要有“这个css重写一遍比修改老文件快

oNexiaoyao·2023-11-19 16:29

数据仓库-数仓架构

1数据仓库建设方法论1.1项目背景数据仓库将建设成为融通全公司数据资产，提供便捷数据分析和数据服务，支持全公司数字化经营与创新。1.2数据仓库概述数据仓库是一个面向主题的、集成的、相对稳定的、反映有历史变化的数据集合，用于支持数字化运营、数字化管理等数据业务。具有以下特点：包含公司生产过程中产生的全量业务数据包含结构化与非结构化形式数据来自于多个数据源、业务操作系统保存一定的时间周期按照企业内业务

终回首·2023-11-19 14:50

大数据发展历程及技术选型

大数据发展历程第一阶段2000年-2010年数仓提供方企业级数据仓库（EDW）IOT(IBM、Oracle、Teradata)提供数据仓库建设从硬件、软件到实施的整体方案需要购买大（中、小）型机配套商用的关系型数据库

平凡人笔记·2023-11-19 14:47

数据仓库之电商数仓-- 1、用户行为数据采集

目录一、数据仓库概念二、项目需求及架构设计2.1项目需求分析2.2项目框架2.2.1技术选型2.2.2系统数据流程设计2.2.3框架版本选型2.2.4服务器选型2.2.5集群规模2.2.6集群资源规划设计三、数据生成模块3.1目标数据3.1.1页面日志3.1.2事件日志3.1.3曝光日志3.1.4启动日志3.1.5错误日志3.2数据埋点3.2.1主流埋点方式3.2.2埋点数据上报时机3.2.3埋点

FunnyPrince_·2023-11-19 14:10

构建数据湖上低延迟数据 Pipeline 的实践

T摘要·云原生与数据湖是当今大数据领域最热的2个话题，本文着重从为什么传统数仓无法满足业务需求?为何需要建设数据湖？

DolphinScheduler社区·2023-11-19 14:39

数仓开发面试题之Hadoop相关

提纲MapReduce原理，map数、reduce数的参数说一下mapjoin与reducejoinhivesql怎么优spark和hive的区别数据倾斜几种解决方式数据如何清洗说一下udf、udtf、udaf，集成的类、接口，怎么写hive文件存储格式，对比内外表区别hive执行的job数是怎么确定的cube、groupingsets、grouping__idorderby、sortby、dis

话数Science·2023-11-19 13:39

奇瑞金融业务面一面

一、招聘岗位：数仓高级工程师岗位要求：1.数据架构设计与落地。2.模型设计，数据治理。

柳小葱的狂热粉·2023-11-19 12:07

用Airflow调度数仓（CK）的ETL脚本

#安装前提：安装了python，我这里是python3下载按照官网：pip3installapache-airflow包太多，下载太慢改为清华的镜像：pip3install-ihttps://pypi.tuna.tsinghua.edu.cn/simpleapache-airflow又有包找不到最后用豆瓣的镜像（注意要加trusted）：pip3installapache-airflow-ihtt

一篮小土·2023-11-19 09:16

本地数仓项目(四）—— 即席查询

不以物喜2020·2023-11-19 08:09

canal小试牛刀第一篇：canal-server+kafka根据mysql binlog同步数据

数仓搭建必备利器。

凯丨·2023-11-19 07:43

C++类与对象(1)—初步认识

目录一、面向过程和面向对象二、类1、定义2、类的两种定义方式3、访问限定符4、命名规范化5、类的实例化6、计算类对象的大小7、存储方式三、this指针1、定义2、存储位置3、辨析四、封装好处一、面向过程和面向对象

Han同学·2023-11-19 07:31

【硬刚ClickHouse】ClickHouse 高级（二）优化(2)建表优化

1数据类型1.1时间字段的类型建表时能用数值型或日期时间型表示的字段就不要用字符串，全String类型在以Hive为中心的数仓建设中常见，但ClickHouse环境不应受此影响。

王知无(import_bigdata)·2023-11-19 06:28

ClickHouse-优化（建表、配置）

1.数据类型1.1时间字段的类型建表时能用数值型或日期时间型表示的字段就不要用字符串，全String类型在以Hive为中心的数仓建设中常见，但ClickHouse环境不应受此影响。

嘣嘣嚓·2023-11-19 05:55

ClickHouse-建表优化

建表优化数据类型时间字段的类型建表时能用数值型或日期时间型表示的字段就不要用字符串,全String类型在以Hive为中心的数仓建设中常见,但ClickHouse环境不应受此影响。

魔笛Love·2023-11-19 05:20

ClickHouse建表优化

1.数据类型1.1时间字段的类型建表时能用数值型或日期时间型表示的字段就不要用字符串，全String类型在以Hive为中心的数仓建设中常见，但ClickHouse环境不应受此影响。

shangjg3·2023-11-19 05:42

基于pytest-bdd的项目目录结构和命名规范

pytest-bdd的文件的命名规范pytest-bdd是基于pytest之上，所以需要遵循pytest的命名规则才能进行测试，具体有：测试文件名必须以*test.py或者test*.py命名测试函数必须以

oscar999·2023-11-19 03:19

vue运行内部代码语法报错

errorComponentname"login"shouldalwaysbemulti-wordvue/multi-word-comp二、报错原因在执行项目的时候，内部会对我们的代码语法进行检查，对于我们命名不规范的组件会直接报错三、解决方法1、更该组件名称，让它符合JS命名规范

神仙怕右手·2023-11-19 01:47

PieCloudDB Database 再次升级！社区版全新版本发布

拓数派正式发布大模型数据计算系统「πDataCS」，基于云原生技术重构数据存储和计算，重塑数仓、向量和机器学习等数据计算引擎，实现“一份数据存储，多引擎数据计算”。

OpenPie｜拓数派·2023-11-18 21:27

领先一步，效率翻倍：PieCloudDB Database 预聚集特性让查询速度飞起来！

为此，拓数派推出了首款数据计算引擎PieCloudDBDatabase，作为一款全新的云原生虚拟数仓，旨在提供更高效、更灵活的数据处理解决方案。

OpenPie｜拓数派·2023-11-18 21:56

「校园 Pie」系列活动正式启航，首站走进南方科技大学！

在「校园Pie」系列活动中，PieCloudDB社区将携拓数派技术专家，社区大咖走进国内各大高校，分享行业动态与前沿技术，产业界的案例与应用分享，云原生数据库技术的应用与实践、云原生虚拟数仓PieCloudDB

OpenPie｜拓数派·2023-11-18 21:52

阿里云云原生一体化数仓 - 数据安全能力解读

MaxCompute产品简介MaxCompute是一款多功能、低成本、高性能、高可靠、易于使用的数据仓库和支持全部数据湖能力的大数据平台，支持超大规模、serverless和完善的多租户能力，内建企业级安全能力和管理功能，支持数据保护和安全共享，数据/生态开放，可以满足数据仓库/BI、数据湖非结构化数据处理和分析、湖仓一体联邦计算、机器学习等多业务场景需求。阿里云MaxCompute提供了全托管的

阿里云云栖号·2023-11-18 21:28

SaprkStreaming广告日志分析实时数仓

一、系统简介参考尚硅谷的spark教程中的需求，参考相关思路，详细化各种代码，以及中间很多逻辑的实现方案采用更加符合项目开发的方案，而不是练习，包括整体的流程也有很大的差别，主要是参考需求描述和部分代码功能实现。需求一：广告黑名单实现实时的动态黑名单机制：将每天对某个广告点击超过100次的用户拉黑。注：黑名单保存到MySQL中。1）读取Kafka数据之后，并对MySQL中存储的黑名单数据做校验；2

是阿威啊·2023-11-18 21:50

实时数仓入门训练营：Hologres性能调优实践

简介：《实时数仓入门训练营》由阿里云研究员王峰、阿里云资深技术专家金晓军、阿里云高级产品专家刘一鸣等实时计算Flink版和Hologres的多名技术/产品一线专家齐上阵，合力搭建此次训练营的课程体系，精心打磨课程内容

阿里云云栖号·2023-11-17 14:11

Hologres揭秘:深度解析高效率分布式查询引擎

Hologres（中文名交互式分析）是阿里云自研的一站式实时数仓，这个云原生系统融合了实时服务

阿里云云栖号·2023-11-17 14:11

Hologres揭秘：高性能原生加速MaxCompute核心原理

Hologres（中文名交互式分析）是阿里云自研的一站式实时数仓，这个云原生系统融合了实时服务和分析大数据的场景，全面兼容PostgreSQL协议并与大数据生态无缝打通，能用同一套数据架构同时支持实时写入实时查询以及实时离线联邦分析

阿里云云栖号·2023-11-17 14:11

首次揭秘云原生Hologres存储引擎

概要：刚刚结束的2020天猫双11中，MaxCompute交互式分析（Hologres）+实时计算Flink搭建的云原生实时数仓首次在核心数据场景落地，为大数据平台创下一项新纪录。

阿里云技术·2023-11-17 14:09

Hologres 揭秘：深度解析高效率分布式查询引擎

Hologres（中文名交互式分析）是阿里云自研的一站式实时数仓，这个云原生系统融合了实时服务和分析大数据的场景，全面兼容PostgreSQL协议并与大数据生态无缝打通，能用同一套数据架构同时支持实时写入实时查询以及实时离线联邦分析

阿里云技术·2023-11-17 14:09

正确设计Hologres实时数仓，性能提升10倍+

本文将会讲述阿里巴巴零售通数据平台如何优化Hologres实时数仓，达到性能提升10倍+的效果，完美支撑双11营销活动、实时数据大屏等核心场景。

aliyunhologres·2023-11-17 14:29

Hologres揭秘：深度解析高效率分布式查询引擎

Hologres（中文名交互式分析）是阿里云自研的一站式实时数仓，这个云原生系统融合了实时服务

阿里开发者·2023-11-17 14:28

hologres基础知识一文全

hologres基础知识一文全1功能特性1.1多场景查询分析1.2原生实时数仓1.3企业级运维能力1.4生态与可扩展性2hologres架构2.1传统分布式系统2.2hologres基础架构2.2.1计算层

Direction_Wind·2023-11-17 14:57

Python大数据之linux学习总结——day08_hive04

hive04hive查询语法结构:类sql基本查询知识点:数据准备:数仓分层思想:课堂练习:类sql多表查询知识点:数据准备:练习:hive其他join操作知识点:示例:hive其他排序操作[练习]知识点

笨小孩124·2023-11-17 09:37

python基础之模块

创建自己的模块时，要注意：1.模块名要遵循Python变量命名规范，不要使用中文、特殊字符。

不会就跑路的小白·2023-11-17 08:07

二百零三、Flume——Flume实时采集数据频率为1s的高频率Kafka数据直接写入ODS层表的HDFS文件路径下

一、目的在离线数仓中，需要用Flume去采集Kafka中的数据，然后写入HDFS中。由于每种数据类型的频率、数据大小、数据规模不同，因此每种数据的采集需要不同的Flume配置文件。

天地风雷水火山泽·2023-11-17 07:22

Android 开发规范（完结版）

摘要1前言2AS规范3命名规范4代码样式规范5资源文件规范6版本统一规范7第三方库规范8注释规范9测试规范10其他的一些规范1前言为了有利于项目维护、增强代码可读性、提升CodeReview效率以及规范团队安卓开发

沐恩_·2023-11-17 06:22

推荐频道

数仓命名规范

AWS云服务器EC2实例实现ByConity快速部署

【知识】可实操使用的数仓建设规范指南

【离线数仓-2-数据采集】

docker-compose 使用maxwell实时获取数据

12-海豚调度器DolphinScheduler

数仓DWS层之旁路缓存优化

DCM相关：EB tresos 配置RID并经过RTE层

Java学习——day 02

大数据研发工程师面试

Js04天---函数

Hive参数与性能企业级调优（建议收藏）

数据库命名规范

如何编写高质量和可维护的C++代码？

利用ETLCloud自动化流程实现业务系统数据快速同步至数仓

阿里巴巴电商搜索推荐实时数仓演进之路

spark性能调优 | 默认并行度

CodingStyle（持续更新ing...）

数据仓库-数仓架构

大数据发展历程及技术选型

数据仓库之电商数仓-- 1、用户行为数据采集

构建数据湖上低延迟数据 Pipeline 的实践

数仓开发面试题之Hadoop相关

奇瑞金融业务面一面

用Airflow调度数仓（CK）的ETL脚本

本地数仓项目(四）—— 即席查询

canal小试牛刀第一篇：canal-server+kafka根据mysql binlog同步数据

C++类与对象(1)—初步认识

【硬刚ClickHouse】ClickHouse 高级（二）优化(2)建表优化

ClickHouse-优化（建表、配置）

ClickHouse-建表优化

ClickHouse建表优化

基于pytest-bdd的项目目录结构和命名规范

vue运行内部代码语法报错

PieCloudDB Database 再次升级！社区版全新版本发布

领先一步，效率翻倍：PieCloudDB Database 预聚集特性让查询速度飞起来！

「校园 Pie」 系列活动正式启航，首站走进南方科技大学！

阿里云云原生一体化数仓 - 数据安全能力解读

SaprkStreaming广告日志分析实时数仓

实时数仓入门训练营：Hologres性能调优实践

Hologres揭秘:深度解析高效率分布式查询引擎

Hologres揭秘：高性能原生加速MaxCompute核心原理

首次揭秘云原生Hologres存储引擎

Hologres 揭秘：深度解析高效率分布式查询引擎

正确设计Hologres实时数仓，性能提升10倍+

Hologres揭秘：深度解析高效率分布式查询引擎

hologres基础知识一文全

Python大数据之linux学习总结——day08_hive04

python基础之模块

二百零三、Flume——Flume实时采集数据频率为1s的高频率Kafka数据直接写入ODS层表的HDFS文件路径下

Android 开发规范（完结版）

「校园 Pie」系列活动正式启航，首站走进南方科技大学！