E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓(
AWS Glue Pyspark+Athena基础学习汇总
Pyspark基础学习汇总篇一、AWS架构①AWSGlue:工作平台,包括脚本的编写以及管理脚本的运行状态以及调度等(主要:数据库配置、ETL和数据转换脚本编写、调度)②AmazonS3数据湖(
数仓
):
每日小新
·
2023-09-10 15:50
每日小新-笔记篇
aws
学习
云计算
数仓
学习之DWD学习
登录不是原子行为,而登录成功是,而支付也不是原子,也分成功失败。什么是原子型?一条线注意一下密码,mysql的密码是MD5加密,而MD5的长度为固定的321.怎么构建事务表?1.确定表名2.确定一行数据所表示的含义3.确定列定义4.确定度量值,就是可以统计的值,2.加购DWD表设置1.什么是加购?放入购物车或者增加数量2.表的思考1.对应物品购物车用户商品购物车ID用户ID商品ID商品数量2.度量
叫我莫言鸭
·
2023-09-09 11:28
大数据
数仓项目学习
学习
android
『Newsletter 丨第二期』PieCloudDB Database 新增控制台、LDAP 支持、虚拟
数仓
日志等多项功能
PieCloudDBDatabase最新动态云上云版「控制台」功能上线PieCloudDB云上云版「控制台」功能全新上线,控制台集成了组织、
数仓
、用户、费用、权限等多方位管理功能,支持在一个组织下创建和管理多个
数仓
OpenPie|拓数派
·
2023-09-09 05:08
数据库
服务器
大数据
DTCC 2023丨云原生环境下,需要什么样的 ETL 方案?
2023年8月16日~18日,第14届中国数据库技术大会(DTCC2023)于北京隆重召开,拓数派受邀参与本次大会,PieCloudDB技术专家邱培峰在大会做了《云原生虚拟
数仓
PieCloudDBETL
OpenPie|拓数派
·
2023-09-09 05:06
PieCloudDB
Database
拓数派
云原生
etl
数据仓库
数仓
总结
数仓
总结数据开发的本质是理解业务,设计合适的
数仓
结构,数据模型问题往往是一环扣一环的,需要有足够的技术深度,将知识由点连接成面,而不是停留在相互孤立的知识点上。
Miracle_Data
·
2023-09-09 00:12
DTCC 2023 丨云原生环境下,需要什么样的 ETL 方案?
2023年8月16日~18日,第14届中国数据库技术大会(DTCC2023)于北京隆重召开,拓数派受邀参与本次大会,PieCloudDB技术专家邱培峰在大会做了《云原生虚拟
数仓
PieCloudDBETL
·
2023-09-08 16:00
云原生数据库etl
尚硅谷大数据项目《在线教育之离线
数仓
》笔记007
视频地址:尚硅谷大数据项目《在线教育之离线
数仓
》_哔哩哔哩_bilibili目录第12章报表数据导出P11201、创建数据表02、修改datax的jar包03、ads_traffic_stats_by_source.json
upward337
·
2023-09-08 15:27
#
大数据数仓
大数据
离线数仓
ds
hadoop
hive
kafka
zookeeper
祝贺!Databend Cloud 入驻 AWS 云市场
关于DatabendCloudDatabendCloud是基于开源云原生
数仓
项目Databend打造的一款易用、低成本、高性能的新一代大数据分析平台,提供一站式SaaS服务,免运维、开箱即用。
Databend
·
2023-09-08 13:38
aws
云计算
从“13天”到“0天”延时,揭秘幸福里离线SLA保障最佳实践
随着幸福里业务发展,为了满足业务对于数据使用、指标观测等需求,团队快速落地了
数仓
建设。但由于早期“先建后治”,导致现阶段数据治理难题频发。其中,异常突出的是离线
数仓
SLA延迟大,高达13天。
·
2023-09-08 11:08
大数据数据安全数据分析数据中台
数仓
|Hive性能调优指北
在企业中使用Hive构建离线
数仓
是一种十分普遍的方案。尽管Hive的使用场景是通过批处理的方式处理大数据,通常对处理时间不敏感。
大数据技术与数仓
·
2023-09-08 06:40
线上问诊:可视化展示
系列文章目录线上问诊:业务数据采集线上问诊:
数仓
数据同步线上问诊:
数仓
开发(一)线上问诊:
数仓
开发(二)线上问诊:
数仓
开发(三)线上问诊:可视化展示文章目录系列文章目录前言一、全流程调度1.生产新数据2
超哥--
·
2023-09-08 05:39
线上问诊
数据仓库
简单明了,介绍数据仓库
顾名思义,存放数据的仓库,它集合了各个业务系统的数据,以金融业为例,
数仓
包含了贷款业务、CRM、存款业务等数据。用于企业做数据分析、出报告、做决策;在有些公司也作为各业务系统的数据来源。
派可数据BI可视化
·
2023-09-08 02:44
商业智能
数据仓库
数字化转型
数据仓库
数据分析
商业智能BI
大数据
信息可视化
零售
时序数据库插入性能评测:MatrixDB是InfluxDB的78倍,TDEngine的38倍
TDengine不能确保数据不错不重不丢MatrixDB在各种规模数据写入时,内存消耗小而且平稳;InfluxDB占用内存较多;TDengine占用内存最多MatrixDB支持冷热分级存背景在物联网和实时
数仓
场景中
YMatrix 官方技术社区
·
2023-09-07 20:25
big
data
tdengine
数据库
时序数据库
数据仓库
CCKS2023:基于企业
数仓
和大语言模型构建面向场景的智能应用
8月24日-27日,第十七届全国知识图谱与语义计算大会(CCKS2023)在沈阳召开。大会以“知识图谱赋能通用AI”为主题,探讨知识图谱对通用AI技术的支撑能力,探索知识图谱在跨平台、跨领域等AI任务中的作用和应用途径。作为国内知识图谱、语义技术、自然语言理解与知识获取等领域的核心学术会议,每年的CCKS都会邀请相关技术领域顶尖专家学者参会,探讨AI前沿技术。今年以来,大语言模型掀起的新一轮AI浪
·
2023-09-07 18:56
数据库llm人工智能
酷克数据推出AI开发工具箱HashML 加速企业级AI应用落地投产
近日,业界领先的国产企业级云
数仓
厂商酷克数据发布了下一代In-Database高级分析和数据科学工具箱HashML,在业内率先实现为企业提供随
数仓
部署一步到位、开箱即用的AI能力。
·
2023-09-07 15:41
机器学习人工智能数据库
BI分析工具 Apache Superset 安装部署
superset能够对接常用的大数据分析工具,如Hive、Kylin、Durid等,支持自定义仪表盘,可作为
数仓
的可视化工具。2Supers
BoomLee
·
2023-09-07 07:52
Bigdata
BI
BI
superset
DataX(MySQL同步数据到Doris)
1.场景这里演示介绍的使用Doris的Datax扩展DorisWriter实现从Mysql数据定时抽取数据导入到Doris
数仓
表里2.编译DorisWriter这个的扩展的编译可以不在doris的docker
jerry-89
·
2023-09-07 06:03
DorisDB
数据库
使用 OAT 工具替换 OceanBase 云平台节点
作者:张瑞远上海某公司DBA,曾经从事银行、证券
数仓
设计、开发、优化类工作,现主要从事电信级IT系统及数据库工作。有三年以上OceanBase工作经验。
·
2023-09-06 14:34
oceanbase
使用 ANTMAN 工具替换 OceanBase 云平台节点
作者:张瑞远上海某公司DBA,曾经从事银行、证券
数仓
设计、开发、优化类工作,现主要从事电信级IT系统及数据库工作。有三年以上OceanBase工作经验。
·
2023-09-06 14:34
mysqloceanbase
数仓
数据建模中的概念总结(数据域、主题域、总线矩阵、指标...)
概念归纳业务分类:业务板块是某一大类业务的指标和维度的集合,如电商,文娱。数据域:面向业务分析,将业务过程或者维度进行抽象的集合,如交易域,日志域。将零散的需求分类,后续一一展开,这个过程叫数据域划分。数据域需要抽象提炼、并且长期维护和更新的,但不轻易变动。在划分数据域时,既能涵盖当前所有的业务需求,又能在新业务进入时无影响地被包含进已有的数据域或者扩展新的数据域。事实表为了更好地进行分析,往往会
锵锵锵锵~蒋
·
2023-09-06 01:57
数据研发
数据仓库
数仓
中的维度、度量、指标、事实、属性几个概念如何区分?有何异同?
文章目录维度VS属性维度横比纵比定性维度、定量维度维度VS度量度量VS指标维度VS指标维度VS属性维度是说明数据,是业务中对象的描述性属性或特征,用于对业务过程进行分析归类。属性是刻画某个实体对象维度的数据形态。通过事物发展的数量、质量两大方面,从横比、纵比角度进行全方位的比较,我们才能够全面的了解事物发展的好坏。维度横比纵比如用户数环比上月增长10%、同比去年同期增长20%,这就是时间上的对比,
锵锵锵锵~蒋
·
2023-09-06 01:57
数据研发
数据仓库
维度
指标
线上问诊:
数仓
开发(二)
系列文章目录线上问诊:业务数据采集线上问诊:
数仓
数据同步线上问诊:
数仓
开发(一)线上问诊:
数仓
开发(二)文章目录系列文章目录前言一、DWS1.最近1日汇总表1.交易域医院患者性别年龄段粒度问诊最近1日汇总表
超哥--
·
2023-09-05 21:06
线上问诊
数据仓库
线上问诊:
数仓
开发(三)
系列文章目录线上问诊:业务数据采集线上问诊:
数仓
数据同步线上问诊:
数仓
开发(一)线上问诊:
数仓
开发(二)线上问诊:
数仓
开发(三)文章目录系列文章目录前言一、ADS1.交易主题1.交易综合统计2.各医院交易统计
超哥--
·
2023-09-05 21:04
线上问诊
数据仓库
离线
数仓
同步数据_用户行为表数据同步
离线
数仓
同步数据_用户行为表数据同步2.1.4日志消费Flume测试[gpb@hadoop104~]$cd/opt/module/flume/[gpb@hadoop104flume]$cdjob/[gpb
program chef
·
2023-09-05 21:16
#
数据仓库
大数据
数据仓库
腾讯音乐基于 Apache Doris + 大模型构建全新智能数据服务平台
在内容
数仓
搭建的过程中,我们的工作始终围绕降本增效为主要目的进行优化与迭代,希望在数据服务方面不断提升产品工具的开发与分析效率,同时在
数仓
架构方面能够有效减少架构成本与资源开销。
·
2023-09-05 17:37
数据仓库的流程
需求量非常大,如果每个需求都采用独立c代码开发方式,重复计算会很多.提高性能的方法:1.减少数据量2.减少重复计算例如RDDcache可以减少重复计算,但是不安全,都在缓存中,persist都放内存中,但是慢而
数仓
是通过表来保存数据
叫我莫言鸭
·
2023-09-05 14:48
hive
大数据
mysql
数据仓库
数据库
CCKS2023:基于企业
数仓
和大语言模型构建面向场景的智能应用
8月24日-27日,第十七届全国知识图谱与语义计算大会(CCKS2023)在沈阳召开。大会以“知识图谱赋能通用AI”为主题,探讨知识图谱对通用AI技术的支撑能力,探索知识图谱在跨平台、跨领域等AI任务中的作用和应用途径。作为国内知识图谱、语义技术、自然语言理解与知识获取等领域的核心学术会议,每年的CCKS都会邀请相关技术领域顶尖专家学者参会,探讨AI前沿技术。今年以来,大语言模型掀起的新一轮AI浪
·
2023-09-05 11:30
数据库llm人工智能
CCKS2023:基于企业
数仓
和大语言模型构建面向场景的智能应用
8月24日-27日,第十七届全国知识图谱与语义计算大会(CCKS2023)在沈阳召开。大会以“知识图谱赋能通用AI”为主题,探讨知识图谱对通用AI技术的支撑能力,探索知识图谱在跨平台、跨领域等AI任务中的作用和应用途径。作为国内知识图谱、语义技术、自然语言理解与知识获取等领域的核心学术会议,每年的CCKS都会邀请相关技术领域顶尖专家学者参会,探讨AI前沿技术。今年以来,大语言模型掀起的新一轮AI浪
HashData酷克数据
·
2023-09-05 10:14
语言模型
人工智能
大数据
阿里云大数据实战记录7:如何处理生产环境表单的重复数据
目录一、前言二、删除重复数据2.1调度任务中新增去重逻辑2.2查询窗口中一次性去重2.3手动处理局部重复数据2.4数据备份问题三、总结一、前言今天发现
数仓
有一个表单,表里的数据出现了重复,每一列的数据都一模一样
Xin学数据
·
2023-09-05 09:33
阿里云大数据
阿里云
大数据
数仓
开发:更新变动数据
数仓
一、数据更新检查二、更新目标表三、更新中间表在
数仓
建设过程中,经常会遇到上游数据变动,进而更新下游目标表的情况,这个时候只需要根据主键update/insert即可,但也会遇到某些特殊情况,比如说下游
我爱夜来香A
·
2023-09-04 23:00
数据库开发
sql
oracle
数据库
基于 Kafka、Flink 构建实时数据湖的最佳实践
数仓
技术应对关系型结构化数据游刃有余,但对于多元异构数据,却爱莫能助。最近行业大佬都在聊怎么部署数据湖,这波操作未来走向如何?数据湖技术能够实现全量数据的单一存储,通常存储原始格式的对象块或者文件。
浪尖聊大数据-浪尖
·
2023-09-04 22:15
大数据
人工智能
编程语言
java
数据分析
数仓
分层理论和应用
2.
数仓
:ODS经过按照主题建立各种数据模型,细分如下:1)数据明细层:DWD(DataWarehouseDetail),按照业务处理方式将各个专业数据进行集中,保证数据完整性和质量。
意林飞笑
·
2023-09-04 02:22
大数据
【
数仓
基础(一)】基础概念:数据仓库【用于决策的数据集合】的概念、建立数据仓库的原因与好处
文章目录一.数据仓库的概念1.面向主题2.集成3.随时间变化4.非易失粒度二.建立数据仓库的原因三.使用数据仓库的好处一.数据仓库的概念数据仓库的主要作用:数据仓库概念主要是解决多重数据复制带来的高成本问题。在没有数据仓库的时代,需要大量的冗余数据来支撑多个决策支持环境。尽管每个环境服务于不同的用户,但这些环境经常需要大量相同的数据。数据仓库的概念:数据仓库描述为一个面向主题的、集成的、随时间变化
roman_日积跬步-终至千里
·
2023-09-04 00:11
数据仓库
数据仓库
行业测试数据
例如在
数仓
开发中,会遇到需要在已构建的
数仓
模型(各种表)中,导入一些测试数据,方便逻辑开发完之前进行开发和测试。亦或是自己有一些SQL逻辑需要测试,需要批量造一
袋鼠云金融交付团队
·
2023-09-03 19:33
superset部署安装及使用介绍
Superset应用场景由于Superset能够对接常用的大数据分析工具,如Hive、Kylin、Druid等,且支持自定义仪表盘,故可作为
数仓
的可视化工具。Superset安装及使
王亭_666
·
2023-09-03 11:13
运维
大数据
superset
superset
bi
数据展示
数据可视化
python
酷克数据与华为合作更进一步 携手推出云
数仓
联合解决方案
酷克数据作为国内云原生数据仓库的代表企业,也是华为重要的生态合作伙伴,受邀参与本次论坛,并展示了云
数仓
领域最新前沿技术以及联合华为打造的云
数仓
联合解决方案。
HashData酷克数据
·
2023-09-03 08:45
华为
数据库
大数据
使用 Hue 玩转 Amazon EMR(SparkSQL, Phoenix) 和 Amazon Redshift
现状ApacheHue是一个基于Web的交互式SQL助手,通过它可以帮助大数据从业人员(
数仓
工程师,数据分析师等)与数据仓库进行SQL交互。在AmazonEMR集群启动时,通过勾选Hue进行安装。
·
2023-09-02 23:50
amazon-emr
使用 Hue 玩转 Amazon EMR(SparkSQL, Phoenix) 和 Amazon Redshift
现状ApacheHue是一个基于Web的交互式SQL助手,通过它可以帮助大数据从业人员(
数仓
工程师,数据分析师等)与数据仓库进行SQL交互。在AmazonEMR集群启动时,通过勾选Hue进行安装。
亚马逊云开发者
·
2023-09-02 23:52
Amazon
EMR
酷克数据与华为合作更进一步 携手推出云
数仓
联合解决方案
酷克数据作为国内云原生数据仓库的代表企业,也是华为重要的生态合作伙伴,受邀参与本次论坛,并展示了云
数仓
领域最新前沿技术以及联合华为打造的云
数仓
联合解决方案。
·
2023-09-02 18:43
数据库postgresql
漫谈大数据 - 数据湖认知篇
目录数据湖定义WikipediaAWS微软定义概括数据湖基本特征数据方面保真灵活可管理可追溯计算方面计算引擎存储引擎数据湖基本架构数据湖架构图数据湖建设的基本过程
数仓
建设过程数据摸底模型抽象数据
昊昊该干饭了
·
2023-09-01 22:20
大数据
大数据
数据仓库
尚硅谷线上问诊离线
数仓
项目
项目共分四大部分:
数仓
建模原理介绍、
数仓
模型搭建、DolphinScheduler全流程调度、SuperSet可视化大屏展示,以线上问诊采集项目为前置基础,使用线上问诊采集项目的基础架构,将数据导入
数仓
中
尚硅谷铁粉
·
2023-09-01 18:46
大数据
数据仓库
big
data
大数据线上问诊实时
数仓
项目
尚硅谷线上问诊实时
数仓
项目延续了离线
数仓
的业务逻辑,以线上问诊开处方为基础业务逻辑,真实表现了线上问诊数据的实时分析统计。
尚硅谷铁粉
·
2023-09-01 18:46
big
data
大数据
数据仓库
线上问诊:
数仓
开发(一)
系列文章目录线上问诊:业务数据采集线上问诊:
数仓
数据同步线上问诊:
数仓
开发(一)文章目录系列文章目录前言一、Hiveonyarn二、
数仓
开发1.ODS开发2.DIM开发3.DWD开发总结前言上次我们已经将
超哥--
·
2023-09-01 18:12
线上问诊
数据仓库
说说Omega架构
分析&回答Omega架构我们暂且称之为混合
数仓
。什么是ECS设计模式在谈我们的解法的时候,必须要先提ECS的设计模式。简单的说,Entity、Component、System分别代表了三类模型。
学一次
·
2023-09-01 17:43
大数据
架构
数据仓库
数据库
新一代云原生实时
数仓
SelectDB 登顶 ClickBench 榜单!
近期,在ClickHouse发起的分析型数据库性能测试排行榜ClickBench中,新一代云原生
数仓
SelectDB强势登顶,性能表现超越一众国内外产品,多项指标排行前列,并在业界最为通用的c6a.4xlarge
张家锋
·
2023-09-01 17:35
【大数据】数据湖:下一代大数据的发展趋势
下一代大数据的发展趋势1.数据湖技术产生的背景1.1离线大数据平台(第一代)1.2Lambda架构1.3Lambda架构的痛点1.4Kappa架构1.5Kappa架构的痛点1.6大数据架构痛点总结1.7实时
数仓
建设需求
G皮T
·
2023-09-01 16:24
大数据
大数据
数据湖
Iceberg
Lambda架构
Kappa架构
说说Kappa架构
分析&回答对于实时
数仓
而言,Lmabda架构有很明显的不足,首先同时维护两套系统,资源占用率高,其次这两套系统的数据处理逻辑相同,代码重复开发。
学一次
·
2023-09-01 06:56
大数据
架构
大数据
java
实时
数仓
构建新思路,NineData数据复制技术详解
8月30日,由NineData和SelectDB共同举办的主题为“实时数据驱动,引领企业智能化数据管理”的线上联合发布会,圆满成功举办!双方聚焦于实时数据仓库技术和数据开发能力,展示如何通过强大的生态开发兼容性,对接丰富的大数据生态产品,助力企业快速开展数据分析业务,共同探索实时数据驱动的未来企业智能化数据管理解决方案。本文根据玖章算术技术副总裁陈长城(天羽)在NineDataXSelectDB联
·
2023-08-31 16:55
『Newsletter 丨第二期』PieCloudDB Database 新增控制台、LDAP 支持、虚拟
数仓
日志等多项功能
PieCloudDBDatabase最新动态云上云版「控制台」功能上线PieCloudDB云上云版「控制台」功能全新上线,控制台集成了组织、
数仓
、用户、费用、权限等多方位管理功能,支持在一个组织下创建和管理多个
数仓
·
2023-08-31 14:51
云原生数据库
Apache Doris (一) :Doris 介绍及使用场景
目录1.ApacheDoris介绍2.ApacheDoris使用场景2.1报表分析2.2即席查询(Ad-hocQuery)2.3统一
数仓
构建2.4数据湖联邦查询进入正文之前,欢迎订阅专题、对博文点赞、评论
IT贫道
·
2023-08-31 13:24
Apache
Doris
apache
大数据
java
上一页
14
15
16
17
18
19
20
21
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他