E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓(
HIve
数仓
新零售项目DWB层的构建
HIve
数仓
新零售项目注:大家觉得博客好的话,别忘了点赞收藏呀,本人每周都会更新关于人工智能和大数据相关的内容,内容多为原创,PythonJavaScalaSQL代码,CVNLP推荐系统等,SparkFlinkKafkaHbaseHiveFlume
陈万君Allen
·
2022-11-21 18:54
Hive数仓实战项目
hive
零售
大数据
峰会实录 | 镜舟科技CEO孙文现:基于StarRocks打造企业级极速统一数据分析产品
在我至今的职业生涯里,创立过两家公司,一个做IoTPaaS,另一个做OLAP
数仓
。两个都是比较难啃的骨头,解决的都是企业数字化转型最后一公里的难题。大家都知道物流的最后一公里是什么。
StarRocks_labs
·
2022-11-21 09:08
科技
数据分析
大数据
数据库
2022最全大数据学习路线(建议收藏)
前言:一、个人介绍二、大数据介绍正文:一、大数据工作岗位二、大数据工程师技能要求三、大数据系统学习路径四、推荐持续学习资源(书籍、教程)五、大数据项目实战(离线计算、实时计算、离线
数仓
、实时
数仓
、ELK
大数据研习社
·
2022-11-20 04:46
大数据工程师
Hadoop
Spark
Flink
ELK
Clickhouse
java到大数据学习路线
五层模型理解每层含义)数据结构(重点看数组、栈、队列、链表、树)算法(重点看各种排序算法、查找算法、去重算法,最优解算法,多去LeetCode刷算法题)操作系统(重点看进程、线程、IO、调度、内存管理)数据仓库分为离线
数仓
和实时
数仓
xuli_joe
·
2022-11-20 04:44
大数据
spark
hadoop
开发语言
后端
大数据路线
一、概念部分1.1大数据、
数仓
、数据湖、中台的概念区别
数仓
数据湖使用场景批处理,BI,数据可视化机器学习、预测分析、数据分析Schema写入型读取型数据源类型OLTP为主的结构化数据loT,日志,各个端等结构非结构均可性价比需要快速查询
辉常努腻
·
2022-11-20 04:37
大数据
大数据
实时
数仓
架构那些事儿
最近几个月对
数仓
架构做了一次升级,很累但很有意义。早就想借这次
数仓
架构的升级,梳理下最近几年做
数仓
架构的一些事情,只是没想到今天才下定决心开启梳理历程。
登峰大数据
·
2022-11-19 11:14
架构
大数据
实时数仓
架构师
数据仓库
虚拟机配置环境详细步骤
第1章VMware1.1VMware安装一台电脑本身是可以装多个操作系统的,但是做不到多个操作系统切换自如,所以我们需要一款软件帮助我们达到这个目的,不然
数仓
项目搭建不起来。
钰涵雨辰
·
2022-11-19 04:49
大数据的部署
linux
运维
服务器
【电商
数仓
】日志采集架构设计原理、系统表结构解析、
数仓
分层相关概念、范式理论详解
文章目录一日志采集架构设计原理1为什么使用Flume将数据生产进kafka2为什么还需要一个消费的Flume3深入细节4业务日志采集二电商系统表1后台管理系统2电商业务表三
数仓
分层1分为哪几层2为什么要分层
OneTenTwo76
·
2022-11-16 07:01
电商数仓
kafka
大数据
分布式
电商离线
数仓
项目-生产Flume数据采集的配置(配置文件详解)
我们经常一提到Flume,就要想到Flume的三个部件,Source,Channel,Sink.这三个部件构成了Flume数据传输的通道.在我们这个项目当中,收集Flume布置在两台节点上,一台Flume收集事件类型日志数据,一台Flume收集启动类型日志数据.其中,Flume的Source采用的是TailDirSource(Flume1.6版本当中,没有该Source,下一个版本中才有,也就是F
梦里Coding
·
2022-11-16 07:31
Flume
flume
kafka
(09)
数仓
-采集日志flume(写入kafka)
(1)flume(2)flume安装资源分配(3)flume组件选型(1)TaildirSource相比ExecSource、SpoolingDirectorySource的优势TailDirSource:断点续传、多目录。Flume1.6以前需要自己自定义Source记录每次读取文件位置,实现断点续传。ExecSource可以实时搜集数据,但是在Flume不运行或者Shell命令出错的情况下,数
大数据开发工程师-宋权
·
2022-11-16 07:01
离线数仓
大数据
数仓
采集项目【04
数仓
采集模块之zookeeper,kafka,flume安装及kafka source sink channel的几个小案例】
文章目录1Zookeeper安装(1)集群规划(2)安装流程(3)修改配置文件(4)zookeeper群起/关脚本2kafka集群安装(1)集群规划(2)安装流程(3)kafka群起/关脚本(4)kafka常用命令(5)kafka项目经验(a)producer压力测试(b)Consumer压力测试(c)kafka机器数量计算(d)kafka分区数量计算3flume安装(1)集群规划(2)安装流程(
OneTenTwo76
·
2022-11-16 07:01
数仓采集项目
kafka
zookeeper
flume
31 大数据项目之电商
数仓
(用户行为数据采集)
文章目录第1章大数据项目之电商
数仓
(用户行为数据采集)第2章项目需求2.1项目需求分析2.2项目框架2.2.1技术选型2.2.2系统架构图设计2.2.3系统数据流程设计2.2.4框架版本选型2.2.5服务器选型
普通网友
·
2022-11-16 07:31
大数据
大数据电商
数仓
项目
本文仅供参考学习:电商
数仓
项目总结_a1786742005的博客-CSDN博客_
数仓
项目总结一、项目整体架构二、数据说明2.1用户行为数据1、启动日志数据是一个单json数据2、事件日志数据组成:时间戳
GoAI
·
2022-11-16 07:30
#
Hive
#
大数据项目
数据仓库
数据库
大数据
hive
电子商务
电商
数仓
3.0 数据采集模块之采集日志Flume安装
资料文档查看地址:http://flume.apache.org/FlumeUserGuide.htmlFlume官网地址:http://flume.apache.org/下载地址:http://archive.apache.org/dist/flume/参考博客:https://blog.csdn.net/qq_40180229/article/details/104523248链接:https
SmallScorpion
·
2022-11-16 07:30
WareHouse3.0
flume
linux
hadoop
zookeeper
apache
电商
数仓
3.0 数据采集模块之消费Kafka数据Flume安装
资料文档查看地址:http://flume.apache.org/FlumeUserGuide.htmlFlume官网地址:http://flume.apache.org/下载地址:http://archive.apache.org/dist/flume/参考博客:https://blog.csdn.net/qq_40180229/article/details/104523248链接:https
SmallScorpion
·
2022-11-16 07:30
WareHouse3.0
flume
hadoop
hdfs
大数据
zookeeper
电商
数仓
flume
1、flume安装解压apache-flume-1.9.0-bin.tar.gz到/opt/module/目录下tar-zxf/opt/software/apache-flume-1.9.0-bin.tar.gz-C/opt/module/修改apache-flume-1.9.0-bin的名称为flumemv/opt/module/apache-flume-1.9.0-bin/opt/module
周虽旧邦其命维新
·
2022-11-16 07:00
大数据
flume
大数据实战项目之电商
数仓
(一)
大数据实战项目之电商
数仓
(一)项目介绍数据仓库概念数据仓库是为企业所有决策制定过程,提供所有系统数据支持的战略集合。通过对数据仓库中数据的分析,可以帮助企业改进业务流程,控制成本,提高产品质量等。
放学-别走
·
2022-11-16 07:59
大数据实战项目
hdfs
hadoop
大数据
mapreduce
hive
大数据项目之电商
数仓
、业务数据通道、Maxwell简介、Maxwell原理、MySQL主从复制读写分离、Maxwell部署
文章目录7.业务数据采集模块7.1采集通道7.1.1业务数据通道7.2采集工具7.2.1Maxwell简介7.2.1.1Maxwell概述7.2.1.2Maxwell输出数据格式7.2.2Maxwell原理7.2.2.1MySQL二进制日志7.2.2.2MySQL主从复制7.2.2.2.1主从复制的应用场景如下7.2.2.2.2主从复制的工作原理如下7.2.2.3Maxwell原理7.2.3Max
Redamancy_06
·
2022-11-16 07:29
#
电商数仓
mysql
大数据
数据库
数据仓库
大数据项目之电商
数仓
、Maxwell使用、 Maxwell启停脚本、增量数据同步、历史数据全量同步、采集通道Maxwell配置、通道测试
文章目录7.业务数据采集模块7.2采集工具7.2.4Maxwell使用7.2.4.1启动Kafka集群7.2.4.2Maxwell启停7.2.4.2.1启动Maxwell7.2.4.2.2停止Maxwell7.2.4.2.3Maxwell启停脚本7.2.4.2.3.1创建并编辑Maxwell启停脚本7.2.4.2.3.2脚本内容如下7.2.4.3增量数据同步7.2.4.3.1启动Kafka消费者7
Redamancy_06
·
2022-11-16 07:29
#
电商数仓
大数据
kafka
java
数据仓库
zookeeper
大数据项目之电商
数仓
、业务数据介绍、业务数据模拟、生成业务数据、业务数据建模
文章目录6.业务数据介绍6.5业务数据模拟6.5.1连接MySQL6.5.2建表语句6.5.3生成业务数据6.5.3.1在hadoop102的/opt/module/目录下创建db_log文件夹6.5.3.2把gmall2020-mock-db-2021-11-14.jar和application.properties上传到hadoop102的/opt/module/db_log路径上6.5.3.
Redamancy_06
·
2022-11-16 07:59
#
电商数仓
大数据
mysql
数据库
数据仓库
服务器
大数据项目之电商
数仓
、日志采集Flume配置概述、日志采集Flume配置实操
文章目录4.用户行为数据采集模块4.3日志采集Flume4.3.2日志采集Flume配置概述4.3.2.1TailDirSource4.3.2.2KafkaChannel4.3.3日志采集Flume配置实操4.3.3.1创建Flume配置文件4.3.3.2配置文件内容如下4.3.3.3编写Flume拦截器4.3.3.3.1创建Maven工程flume-interceptor4.3.3.3.2创建包
Redamancy_06
·
2022-11-16 07:58
#
电商数仓
大数据
flume
kafka
数据仓库
大数据项目之电商
数仓
、日志采集Flume、source、channel、 sink、Kafka的三个架构
文章目录4.用户行为数据采集模块4.3日志采集Flume4.3.1Kafka的三个架构4.3.1.1source4.3.1.2channel4.3.1.3sink4.3.1.4kafkasource4.3.1.5kafkasink4.3.1.6kafkachannel4.3.1.6.1第一个结构4.3.1.6.2第二个结构4.3.1.6.3第三个结构4.用户行为数据采集模块4.3日志采集Flume
Redamancy_06
·
2022-11-16 07:28
#
电商数仓
kafka
大数据
flume
Flink实时
数仓
数据采集流程和技术架构
一、系统架构前端埋点可以获取更多的信息,不仅可以获取用户点击浏览行为数据,还能获得用户定位位置信息等,滑动转跳一、日志数据采集SpringBoot-->Nginx-->(flume)-->Kafka-->flink可以不用flume,直接怼到kafka消息队列,flikk消费二、业务数据库数据采集MYsql/Oracle-->Maxwell/canal-->kafka-->flink都在说实时数据
四月天03
·
2022-11-15 10:42
Flink
flink
kafka
漫谈
数仓
OLAP技术哪家强?
【提醒:公众号推送规则变了,如果您想及时收到推送,麻烦右下角点个在看,或者把本号置顶】正文开始数据应用,是真正体现
数仓
价值的部分,包括且又不局限于数据可视化、BI、OLAP、即席查询,实时大屏,用户画像
傅一平
·
2022-11-15 10:08
数据仓库
数据库
可视化
大数据
编程语言
OLAP 市场现状和技术演进
据IDC统计和预测,2024年全球
数仓
的市场规模将达到297亿美元,2019-2024年的年复合增长率将达到12%,其中云上的
数仓
市场规
feidodoxcx
·
2022-11-15 09:26
大数据
hive
hadoop
数仓
指标一致性以及核对方法
点击上方蓝色字体,选择“设为星标”回复”面试“获取更多惊喜
数仓
数据质量衡量标准我们对
数仓
数据指标质量衡量标准通常有四个维度:正确性、完整性、时效性、一致性。
王知无(import_bigdata)
·
2022-11-12 05:57
大数据
数据分析
编程语言
人工智能
数据仓库
Apache Doris 在橙联的应用实践:
数仓
架构全面革新,千万数据计算时间从 2 小时变成 3 分钟
随着公司业务的发展和数据的不断增长,早期基于MySQL的传统
数仓
架构已经无法应对公司数据的快速增长。业务的需求和运营的决策对于数据时效性的要求越来越高,对
数仓
准实时能力的需求越发强烈。
SelectDB技术团队
·
2022-11-10 10:51
大数据
数据分析
数据挖掘
数据库架构
数据库
人群圈选效率提升 30 倍,云积互动基于 Apache Doris 构建统一
数仓
的实践
ApacheDoris在部分业务中使用,并在使用过程中逐渐发掘出ApacheDoris更多强大之处以及优势,最终决定在2022年全面应用ApacheDoris,基于ApacheDoris来构建云积互动企业级实时离线统一
数仓
SelectDB技术团队
·
2022-11-10 10:51
apache
大数据
人工智能
重构实时离线一体化
数仓
,Apache Doris 在思必驰的应用实践
作者:赵伟,思必驰大数据高级研发,10年大数据开发和设计经验,负责大数据平台基础技术和OLAP分析技术开发。社区贡献:Doris-spark-connector的实时读写和优化。业务背景思必驰是国内专业的对话式人工智能平台公司,拥有全链路的智能语音语言技术,致力于成为全链路智能语音及语言交互的平台型企业,自主研发了新一代人机交互平台DUI和人工智能芯片TH1520,为车联网、IoT及政务、金融等众
SelectDB技术团队
·
2022-11-10 10:50
大数据
hadoop
hive
数据库
数据分析
《大型综合项目-基于大数据平台的数据仓库》学习笔记(13):业务数据报表篇
学完本课程,你将很容易就拿到大数据
数仓
建设或用户画像建设等岗位的OFFER本课程项目涵盖数据采集与预处理、数据仓库体系建设、用户画像系统建设、数据治理(元数据管理、数据质量管理)、任务调度系统、数据服务层建设
江湖人称涛哥
·
2022-11-10 08:54
大数据综合实战项目
大数据项目
spark项目
hive项目
数据仓库
用户画像项目
5.1.1 电商离线
数仓
(
数仓
需求分析、日志采集、表数据加载、json数据处理、 Datax 数据导出、Tez高仿日启动测试)
电商离线
数仓
文章目录电商离线
数仓
一、电商离线
数仓
设计第1节需求分析电商业务简介第2节数据埋点第3节数据指标体系第4节总体架构设计4.1、技术方案选型框架选型**软件选型**服务器选型集群规模规划4.2、
weixin_47134119
·
2022-11-10 07:43
数据仓库
[hive]维度模型分类:星型模型,雪花模型,星座模型|范式|纬度建模|
数仓
分层
数仓
(十八)
数仓
建模以及分层总结(ODS、DIM、DWD、DWS、DWT、ADS层)-墨天轮一、维度模型分类:星型模型,雪花模型,星座模型1、星型模型星型模型中只有一张事实表,以及0张或多张维度表,事实与纬度表通过主键外键相关联
胖胖学编程
·
2022-11-09 18:57
数仓
hive
hadoop
数据仓库
大数据【Java开发转大数据学习路线分解】(不断细化ing)
技术点:将基础的
数仓
搭建沉淀成自己的实践方法论提高大数据实时处理平台的稳定性和高效性提升自己分析定位及解决问题的能力既懂得平台开发又懂得算法原理和应用注重风控系统,监控大数据平台安全前后端高吞吐交互处理以及服务的自动发现和多租户的权限处理深入源码层理解技术栈
シ風
·
2022-11-08 21:26
:::
::
:
内容说明
:
::
:::
大数据
4.1 数据仓库基础与Apache Hive入门
数据仓库主要特征面向主题性(Subject-Oriented)集成性(Integrated)非易失性、非异变性(Non-Volatile)时变性(Time-Variant)4、数据仓库主流开发语言--SQLSQL语言介绍
数仓
与
周纠纠
·
2022-11-08 10:40
#
大数据Hadoop入门
数据仓库
hive
apache
37手游基于云平台的大数据建设实践
本文整理自37手游大数据平台资深开发工程师史飞翔在实时
数仓
Workshop·广州站的演讲。
Apache Flink
·
2022-11-03 10:44
Flink
大数据
实时计算
大数据
编程语言
数据库
人工智能
flink
活动回顾 | 8月7日Apache Flink Meetup
简介:8.7线上Meetup视频和PPT分享来啦~另外,下一期实时
数仓
Meetup议题征集中!
阿里云开发者
·
2022-11-03 10:41
SQL
监控
安全
Apache
数据库
流计算
开发者
Clickhouse—数据字典
Clickhouse数据字典Clickhouse数据字典在Clickhouse中有很多经典应用,它提供的功能有点类似Map-Join,可以参考
数仓
工具—Hive语法之mapjoin、reducejoin
不二人生
·
2022-11-02 11:58
#
Clickhouse
clickhouse
hive
hadoop
Spark+Flink+Iceberg打造湖仓一体架构实践探索
数据湖-大数据生态杀青数据仓库的痛点只能存储结构化数据,无法采集存储非结构化数据无法存储原始数据,所有的数据须经过ETL清洗过程离线
数仓
的数据表牵一发而动全身,数据调整工程量大实时
数仓
存储空间有限,无法采集和存储海量实时数据回溯效率低下
架构师老狼
·
2022-11-01 13:14
flink
spark
iceberg
spark
flink
湖仓一体
iceberg
三天,撸完Flink+Hudi+Iceberg数据湖落地系统,爽!
数仓
技术应对关系型结构化数据游刃有余,但对于多元异构数据,却爱莫能助。最近行业大佬都在聊怎么部署数据湖,这波操作未来走向如何?数据湖技术能够实现全量数据的单一存储,通常存储原始格式的对象块或者文件。
Java团长在csdn
·
2022-11-01 13:43
大数据
人工智能
编程语言
java
数据分析
基于Delta Lake构建数据湖仓体系
全文将围绕以下四个部分展开:DeltaLake的基本概念和发展历程,以及2.0版本的关键特性DeltaLake的内核解析以及关键技术围绕DeltaLake湖格式的生态建设DeltaLake在
数仓
领域的经典案例
阿里云大数据AI技术
·
2022-11-01 13:43
java
运维
大数据
Flink + Hudi,建设仓湖一体化解决方案
数仓
技术应对关系型结构化数据游刃有余,但对于多元异构数据,却爱莫能助。最近行业大佬都在聊怎么部署数据湖,这波操作未来走向如何?数据湖技术能够实现全量数据的单一存储,通常存储原始格式的对象块或者文件。
浪尖聊大数据-浪尖
·
2022-11-01 13:42
大数据
人工智能
编程语言
java
数据分析
实时数据湖 Flink Hudi 实践探索
目前,Flink+Hudi的方案推广大概已经有了一年半的时间,在国内流行度也已比较高,主流的公司也会尝试去迭代他们的
数仓
方案。
阿里云大数据AI技术
·
2022-11-01 13:41
大数据
云计算
flink
人群圈选效率提升 30 倍,云积互动基于 Apache Doris 构建统一
数仓
的实践
ApacheDoris在部分业务中使用,并在使用过程中逐渐发掘出ApacheDoris更多强大之处以及优势,最终决定在2022年全面应用ApacheDoris,基于ApacheDoris来构建云积互动企业级实时离线统一
数仓
·
2022-10-30 23:21
大数据-玩转数据-阿里Dataphin全接触
说明:本文重因个人偏好,重点偏向于
数仓
规划、数据引入、编码研发一、什么是DataphinDataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出,一站式提供数据采、建、管、用全生命周期的大数据能力
人猿宇宙
·
2022-10-27 11:57
大数据-玩转数据-阿里系
大数据
python
大数据hive性能调优详解系列之hive架构层面调优_
数仓
工程师必备hive调优方案
大数据技术框架中,hive组件作为
数仓
工程师必不可缺少的计算框架组件。本篇文章是hive性能调优详解系列之第三篇hive语法层面调优。
老姜的数据江湖
·
2022-10-18 10:05
大数据数仓
hive
大数据
数据仓库
37手游云平台基于Flink+Hologres大数据建设实践
本文整理自37手游大数据平台资深开发工程师史飞翔在实时
数仓
Workshop·广州站的演讲。
·
2022-10-17 17:20
flink大数据
ODPS SQL优化总结
本文结合作者多年的
数仓
开发经验,结合ODPS平台分享数据仓库中的SQL优化经验。背景数据仓库,是一个面向主题、集成的、随时间变化的、信息本身相对稳定的数据集合。
阿里巴巴淘系技术团队官网博客
·
2022-10-17 10:14
大数据
编程语言
hadoop
数据库
python
数据质量检查工具
应用场景常用场景是将数据引接到
数仓
,对数据质量进行检查。主要功能(1)数据质量检查规则提供质量规则:空值检查、重复值检查、值域检查、规范检查、波动检查、离群值检查、完整性检查、逻辑检查、自定义检查等。
reco171
·
2022-10-16 00:55
37手游基于云平台的大数据建设实践
本文整理自37手游大数据平台资深开发工程师史飞翔在实时
数仓
Workshop·广州站的演讲。
·
2022-10-13 18:40
flink大数据实时计算
基于 Impala 的高性能
数仓
实践之物化视图服务
接上篇,前两篇分别讲了执行引擎和虚拟
数仓
,它们是让一个SQL又快又好地执行的关键。
·
2022-10-13 18:39
大数据
上一页
41
42
43
44
45
46
47
48
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他