数仓项目学习第11页

华为大数据开发者教程知识点提纲

SparkSql，spark，hive（，Flink）2.HadoopNamenode（metadata），client（备份block），datanode（blocks结构）core-site.xml3.Hive数仓软件

qq_1418269732·2023-12-16 06:08

6.大数据架构详解：从数据获取到深度学习 --- 交互式分析

6.1交互式分析的概念在数仓领域有个概念"即席查询"(AdhocQuery)，指的是用户在使用系统时，根据自己当时的需求定义查询。

enlyhua·2023-12-16 02:42

菜鸟项目练习：黑马点评项目总结

编写拦截器2.2查询商户模块2.2.1主页面查询商户类型2.2.3按距离查询商户2.3优惠券秒杀模块2.4博客模块2.4.1点赞2.5订阅模块2.6签到模块2.6.1签到功能2.6.2获取当月连续签到天数3.项目学习收获

想譚詩नरक·2023-12-15 13:48

可以睡到中午吗·2023-12-15 13:48

【数仓理论】

一、数仓建模方法论1.1ER模型（EntityRelationship、实体关系模型、范式模型）ER模型是BillInmon提出的一种建模方法，实体关系模型将复杂的数据抽象为两个概念----实体和关系该模型在范式理论上符合

想当运维的程序猿·2023-12-15 07:52

物流实时数仓：采集通道搭建

系列文章目录物流实时数仓：环境搭建文章目录系列文章目录前言一、环境准备1.前置环境2.hbase安装1.上传并解压2.配置环境变量3.拷贝jar包4.编写配置文件5.分发配置文件3.Redis安装1.安装需要的编译环境

超哥--·2023-12-15 06:34

物流实时数仓：数仓搭建（DIM）

系列文章目录物流实时数仓：采集通道搭建物流实时数仓：数仓搭建物流实时数仓：数仓搭建（DIM）文章目录系列文章目录前言一、文件编写1.pom.xml2.目录创建3.DimApp.java4.KafkaUtil.java5

超哥--·2023-12-15 06:34

06 数仓平台MaxWell

Maxwell简介Maxwell是由Zendesk公司开源，用Java编写的MySQL变更数据抓取软件，能实时监控MySQL数据库的CRUD操作将变更数据以json格式发送给Kafka等平台。Maxwell输出数据格式Maxwell原理Maxwell工作原理是实时读取MySQL数据库的二进制日志（Binlog），从而获取变更数据，再将变更数据以JSON格式发送给Kafka等流处理平台。Maxwel

kk_io·2023-12-15 06:02

07用户行为日志数据采集

用户行为数据由Flume从Kafka直接同步到HDFS，由于离线数仓采用Hive的分区表按天统计，所以目标路径要包含一层日期。具体数据流向如下图所示。

kk_io·2023-12-15 06:22

物流实时数仓：数仓搭建（DWD）一

系列文章目录物流实时数仓：采集通道搭建物流实时数仓：数仓搭建物流实时数仓：数仓搭建（DIM）物流实时数仓：数仓搭建（DWD）一文章目录系列文章目录前言一、文件编写1.目录创建2.bean文件1.DwdOrderDetailOriginBean2

超哥--·2023-12-15 06:22

你可能从未使用过的调试 Vue3 (开源项目) 源码的方式

2.看开源项目学习是怎样的步骤？看一个开源仓库，第一步一般是看README.md和contributing.md贡献指南文档。README.md中一般有提到贡献指南文

若川视野·2023-12-14 19:19

【分布式微服务专题】从单体到分布式（一、SpringCloud项目初步升级）

目录前言阅读对象阅读导航前置知识笔记正文一、单体服务介绍二、服务拆分*三、分布式微服务升级前的思考3.1关于SpringBoot/SpringCloud的思考【有点门槛】四、SpringCloud升级整合4.1新建父子项目学习总结感谢前言从本节课开始

验证码有毒·2023-12-14 17:39

Flink 项目系列

Flink项目系列1-项目介绍-墨天轮Flink实时电商实战项目:基于尚硅谷开源项目的Flink电商实战项目（全流程）大数据Flink电商数仓实战项目流程全解（一）_尚硅谷flinksql大数据项目实战

清风明月一壶酒·2023-12-14 16:22

快手数仓面试题附答案

题目1讲一下你门公司的大数据项目架构？2你在工作中都负责哪一部分3spark提交一个程序的整体执行流程4spark常用算子列几个，6到8个吧5transformation跟action算子的区别6map和flatmap算子的区别7自定义udf，udtf，udaf讲一下这几个函数的区别，编写的时候要继承什么类，实现什么方法8hive创建一个临时表有哪些方法9讲一下三范式，三范式解决了什么问题，有什么

话数Science·2023-12-06 21:59

跟着GPT学习shell脚本，理论与实践相结合的学习计划。（二）

第9周：项目实战-实现一个完整的Shell脚本项目学习目标应用所学的Shell脚本知识来实现一个实际项目。从规划到实现，经历完整的项目开发流程。

Thomas_Lbw·2023-12-06 13:03

视频访问量实时统计项目学习

（一）效果图先来两个效果图看看图１图2（二）日志产生图１显示的效果表示的是对于某个视频网站的访问的视频类别，做的模拟统计示意效果图，比如爱奇艺视频，对于爱奇艺视频中的每个类别的视频的访问流量：https://list.iqiyi.com/www/2/-24------------11-1-1-iqiyi--.html对应的是爱奇艺视频中的电视剧中的古装剧https://list.iqiyi.com

雪泪寒飞起来·2023-12-06 11:12

Databend 开源周报第 122 期

Databend是一款现代云数仓。专为弹性和高效设计，为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务：https://app.databend.cn。

Databend·2023-12-06 06:35

【黑马甄选离线数仓day08_会员主题域开发】

1.会员主题域需求说明1.1各类会员数量统计说明：公司为了对不同会员进行不同的营销策略，对各类会员的数量都非常敏感，比如注册会员、消费会员、复购会员、活跃会员、沉睡会员。不仅需要看新增数量还要看累积数量。指标：新增注册会员数、累计注册会员数、新增消费会员数、累计消费会员数、新增复购会员数、累计复购会员数、活跃会员数、沉睡会员数、会员消费金额维度：时间粒度：时间维度（天、周、月）涉及库：sale、m

LKL1026·2023-12-05 21:31

【黑马甄选离线数仓day09_会员主题域开发_DWD和DWM层】

leftjoin的结果集unionall增量数据4.把最新的拉链数据优先保存到DWD对应的临时表中5.使用insert+select方式把临时表中数据灌入DWD拉链表中拉链表实现流程:DWD层开发DWD层:数仓明细层

LKL1026·2023-12-05 21:31

【黑马甄选离线数仓day06_核销主题域开发】

1.核销主题_DWD和DWM层1.0ODS层操作数据存储层:==OperateDataStore==核心理念:几乎和源数据保持一致,粒度相同注意事项:==同步方式(全量同步,全量覆盖,增量仅新增,增量新增和更新)+内部表+分区表(部分)+指定字符分隔符+orc+zlib==第二天的时候已经完成了从mysql以及sqlserver抽取数据到ods层的过程1.1DWD层数据仓库细节层:==DataWa

LKL1026·2023-12-05 21:00

【黑马甄选离线数仓day07_常见优化手段及核销主题域开发】

1.常见优化手段1.1分桶表基本介绍分桶表:分文件的,在创建表的时候,指定分桶字段,并设置分多少个桶,在添加数据的时候,hive会根据设置分桶字段,将数据划分到N个桶(文件)中,默认情况采用HASH分桶方案,分多少个桶,取决于建表的时候,设置分桶数量,分了多少个桶最终翻译的MR也就会运行多少个reduce程序(HIVE的分桶本质上就是MR的分区操作)如何构建一个分桶表呢?createtable表名

LKL1026·2023-12-05 21:26

黑马一站制造数仓实战1

1.项目目标一站制造企业中项目开发的落地：代码开发代码开发：SQL【DSL+SQL】SparkCoreSparkSQL数仓的一些实际应用：分层体系、建模实现2.内容目标项目业务介绍：背景、需求项目技术架构

ZhaoXiangmoStu·2023-12-05 15:20

【计算机毕业设计】Vue3.0小兔鲜儿电商项目+项目学习笔记

Vue3.0小兔鲜儿电商项目基于vue3.0的组合API方式与选项API的方式开发的一个综合品类的电商前台系统。实现了一套完整的电商业务流程，从首页，类目，搜索，品牌，商品详情，购物车，结算，支付，个人中心，订单管理，收货地址管理，评价中心，和其他个人信息管理业务。import{createApp}from'vue'importAppfrom'./App.vue'importrouterfrom'

JAVA编码选手·2023-12-05 02:17

vue3小兔鲜商城项目学习笔记+资料分享02

最近正在学习vue3小兔鲜下面是学习笔记建议大家先去看我第一篇小兔鲜的文章，强烈建议，非常建议，十分建议，从头开始看更完整。布局模块路由设计**目标：**能够理解小兔鲜项目中的路由设计内容：一级路由有登录Login和布局容器Layout[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-v3gF56aX-1668072603824)(media/image-2021122

小前端端·2023-12-05 02:46

vue3小兔鲜商城项目学习笔记+资料分享06

建议大家先去看我第一篇小兔鲜的文章，强烈建议，非常建议，十分建议，从头开始看更完整。最近正在学习vue3小兔鲜下面是学习笔记购物车模块购物车功能分析[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eB0x8EDy-1668073110525)(media/01-16459814763577.png)]思路流程购物车的各种操作都会有两种状态的区分，登录和未登录所有操作都

小前端端·2023-12-05 02:46

大数据转型方案：首推数据湖！

数仓技术应对关系型结构化数据游刃有余，但对于多元异构数据，却爱莫能助。最近行业大佬都在聊怎么部署数据湖，这波操作未来走向如何？数据湖技术能够实现全量数据的单一存储，通常存储原始格式的对象块或者文件。

zhisheng_blog·2023-12-05 02:12

大数据开发：Hive on Spark设计原则及架构

在Spark越来越受到主流市场青睐的大背景下，Hive作为Hadoop生态当中的数仓组件工具，在于Spark生态的配合当中，开始有了HiveonSpark的思路，那么具体是怎么实现的呢？

成都加米谷大数据·2023-12-05 01:44

video downloadhelper需要合作应用_互联网+微课助力项目学习在小学信息技术课堂中的应用...

https://www.zhihu.com/video/1234636933697421312案例名称：互联网+微课助力项目学习在小学信息技术课堂中的应用作者：黄青青单位：东莞市麻涌镇古梅第一小学一、发现问题

weixin_39747975·2023-12-04 22:53

大数据的技术栈-逐步完善

c.MapReducesql引擎d.Impalasql引擎e.工具概观2.数据仓库知识a.Hive数据库1)HiveSql2)数据库结构b.Doris数据库3.混合处理框架SPARKa.Sparkb.集群架构4.数仓模型知识

刘文钊1·2023-12-04 20:12

leptjson 01学习笔记

项目学习Github地址：json-tutorial两种开发模式一般我们会采用自动的测试方式，例如单元测试（unittesting）。

Rubint0x·2023-12-04 17:09

03 数仓平台 Kafka

kafka概述定义Kafka是一个开源的分布式事件流平台（EventStreamingPlantform），主要用于大数据实时领域。本质上是一个分布式的基于发布/订阅模式的消息队列（MessageQueue）。消息队列在大数据场景中主要采用Kafka作为消息队列。传统消息队列主要应用场景包括：缓存/削峰、解耦和异步通信。消息队列的模式包含了2种，点对点订阅模式和发布/订阅模式。Kafka采用了发布

kk_io·2023-12-04 04:17

hql面试题之上海某资深数仓开发工程师面试题-求不连续月份的月平均值

1.题目A,B两组产品的月平均值，月平均值是当月的前三个月值的一个平均值，注意月份是不连续的，如果当月的前面的月份不存在，则为0。如A组2023-04的月平均值为2023年1月的数据加2023-02月的数据的平均值，因为没有其他月份则需要再加一个0，再求平均值。要求：求出每个月的月平均值。‘A’,‘2023-01’,3030‘A’,‘2023-02’,5464‘A’,‘2023-04’,5467‘

江南正晓时·2023-12-03 12:56

02数仓平台Zookeeper

概述ZooKeeper是一种分布式协调服务，用于管理大型主机集。在分布式环境中协调和管理服务是一个复杂的过程。ZooKeeper通过其简单的架构和API解决了这个问题。ZooKeeper允许开发人员专注于核心应用程序逻辑，而不必担心应用程序的分布式性质。Zookeeper工作机制Zookeeper从设计角度来理解，就是一个观察者模式设计的分布式服务管理框架，它负责存储和管理核心数据，接受观察者的注

kk_io·2023-12-03 09:52

AliExpress基于Flink的广告实时数仓建设

摘要：实时数仓以提供低延时数据指标为目的供业务实时决策，本文主要介绍基于Flink的广告实时数仓建设，主要包括以下内容：1.建设背景2.技术架构3.数仓架构4.实时OLAP5.实时保障6.未来规划建设背景广告是目前互联网流量变现的一种

王知无(import_bigdata)·2023-12-02 19:01

亚马逊云科技re:Invent Peter DeSantis演讲，数据规模拓展无极限引领Serverless构建之路

Amazon全新发布RedshiftServerless：Al模型预测多维度数仓工作负载并自动调度和优化，高达10倍性价比提升。Amazon全新发布ElastiCacheServ

Zaker科技·2023-12-02 13:32

【Spark数仓项目】需求八：MySQL的DataX全量导入和增量导入Hive

【Spark数仓项目】需求八：MySQL的DataX全量导入和增量导入Hive文章目录一、mysql全量导入hive[分区表]需求介绍：二、mysql增量导入hive1.增量导入的第一种实现方法2.另一种方法是时间字段

程序终结者·2023-12-02 10:22

2023.11.29 -hmzx电商平台建设项目 -核销主题阶段总结

目录1.准备源数据2.准备数仓工具进行源数据同步到ods层,本项目使用Datax3.使用Datax完成数据同步前建表时的方案选择3.1同步方式区别:3.2存储格式和压缩区别:4.在hive中创建表,共31

白白的wj·2023-12-02 09:53

用 CloudCanal 快速验证阿里云 EMR for StarRocks 和 Doris

背景StarRocks和Doris是近两年来相当流行的、国产的、开源的实时数仓，不仅数据检索、分析能力出众，而且数据准备实时性好、准确度高、使用丝滑，可如同在线数据库般使用。

ClouGence·2023-12-02 08:47

【项目学习】brpc

目录1.bvar2.bthreadFAQ3.常见线程模型问题4.同步访问和异步访问同步访问异步访问组合channel5.channel和mutex6.自适应限流算法7.雪崩8.FlatMap-权衡空间的快速哈希表结构.9.work_stealing10.负载均衡算法一致性hash11.timersometips小菜learning这些内容全部摘自https://github.com/apache/

o小菜·2023-12-02 07:56

直播电商数据仓库

直播电商数据仓库一.数仓及其维度什么是数仓数据仓库，简称数仓,（DataWarehouse）。

李昊哲小课·2023-12-01 21:31

尚硅谷大数据项目《在线教育之实时数仓》笔记008

视频地址：尚硅谷大数据项目《在线教育之实时数仓》_哔哩哔哩_bilibili目录第10章数仓开发之DWS层P066P067P068P069P070P071P072P073P074P075P076P077P078P079P080P081P082

upward337·2023-12-01 16:14

1w字详解 ClickHouse漏斗模型实践方案（收藏）

作者：互联网大数据团队-WuYonggang日常工作中做为数仓开发工程师、数据分析师经常碰到漏斗分析模型，本文详细介绍漏斗模型的概念及基本原理，并阐述了其在平台内部的具体实现。

浪尖聊大数据-浪尖·2023-11-30 21:57

springboot自定义校验注解的实现

自定义校验注解的实现通过谷粒商城项目学习了自定义校验器的实现一、编写自定义校验注解二、自定义注解的校验器三、关联自定义的校验器和自定义的校验注解总结通过谷粒商城项目学习了自定义校验器的实现近日在学习雷神的谷粒商城项目

xiaoxust·2023-11-30 17:57

Mysql 表结构到 hive 表结构的转换（DDL自动生成）

最近在做mysql入hive数仓的工作，由于业务表数量较大，单独写hiveDDL太过耗时，就找到了如下方法。

雾岛与鲸·2023-11-30 16:56

大数据学习-离线数仓项目实战笔记（上）

1.前置1.1.软件版本产品版本Hadoop2.9.2Hive2.3.7Flume1.9DataX3.0Airflow1.10Atlas1.2.0Griffin0.4.0Impalaimpala-2.3.0-cdh5.5.0MySQL5.71.2.软件安装分布情况服务器linux121linux122linux123Hadoop√namenode√√seconderynamenode,resour

ys4tnaf·2023-11-30 15:24

01数仓平台 Hadoop介绍与安装

Hadoop概述Hadoop是数仓平台的核心组件。在Hadoop1.x时代，Hadoop中的MapReduce同时处理业务逻辑运算和资源调度，耦合性较大。在Hadoop2.x时代，增加了Yarn。

kk_io·2023-11-30 13:38

数据仓库数据管理模型

数据仓库分为贴源层、数据仓库层、数据服务层，有人叫做数仓数据模型，或者叫"数据管理模型”。

zhulangfly·2023-11-30 13:52

vue3小兔鲜商城项目学习笔记+资料分享05

建议大家先去看我第一篇小兔鲜的文章，强烈建议，非常建议，十分建议，从头开始看更完整。最近正在学习vue3小兔鲜，下面是学习笔记登录模块路由与组件目标：登录组件在书写一级路由的时候已经准备，添加路由链接跳转到登录页即可。添加跳转链接：src/components/app-topnav.vue请先登录结构布局-CV[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ismlX

小前端端·2023-11-30 11:26

深算院YashanDB整体亮相高交会开幕式

开幕式上，深算院重磅推介基于全自研内核的“1+3+3”YashanDB产品体系，即1个自主内核、共享集群数据库、实时数仓、空间数据库3大产品，以及迁移平台、运维平台、开发平台3大工具，由此形成具备完整能力的自主创新产品与企业级解决方案

YashanDB·2023-11-30 06:15

AntDB“超融合+流式实时数仓”——颠覆50年未变的数据库内核

流式处理引擎，颠覆50年未变的数据库内核流式处理的概念2001年9月11日，美国世贸大楼被袭击，美国国防部第一次将“主动预警”纳入国防的宏观战略规划。而IBM作为当时全球最大的IT公司，承担了大量基础支撑软件研发的任务。其中2009年正式发布的IBMInfoSphereStreams，就是全球最早真正意义上的商业化流数据处理引擎之一。典型的流处理框架，如ApacheStorm、SparkStrea

亚信安慧AntDB数据库·2023-11-30 03:01

推荐频道

数仓项目学习