E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓模型设计
深算院YashanDB整体亮相高交会开幕式
开幕式上,深算院重磅推介基于全自研内核的“1+3+3”YashanDB产品体系,即1个自主内核、共享集群数据库、实时
数仓
、空间数据库3大产品,以及迁移平台、运维平台、开发平台3大工具,由此形成具备完整能力的自主创新产品与企业级解决方案
YashanDB
·
2023-11-30 06:15
数据库
database
大数据
AntDB“超融合+流式实时
数仓
”——颠覆50年未变的数据库内核
流式处理引擎,颠覆50年未变的数据库内核流式处理的概念2001年9月11日,美国世贸大楼被袭击,美国国防部第一次将“主动预警”纳入国防的宏观战略规划。而IBM作为当时全球最大的IT公司,承担了大量基础支撑软件研发的任务。其中2009年正式发布的IBMInfoSphereStreams,就是全球最早真正意义上的商业化流数据处理引擎之一。典型的流处理框架,如ApacheStorm、SparkStrea
亚信安慧AntDB数据库
·
2023-11-30 03:01
数据库
antdb数据库
antdb
AntDB“超融合+流式实时
数仓
”——快速实现企业全链路实时化
AntDB-S流式数据库可以被应用于实时
数仓
、实时报表、实时告警、异步交易等业务场景,用户可以通过直接使用简单SQL创建复杂的流式数据处理业务逻辑,轻松替代ApacheS
亚信安慧AntDB数据库
·
2023-11-30 03:01
大数据
antdb数据库
antdb
数据库
AntDB“超融合+流式实时
数仓
”——打造分布式数据库新纪元
(一)前言据统计,在信息化时代的今天,人们一天所接触到的信息量,是古人一辈子所能接收到的信息量的总和。当今社会中除了信息量“多”以外,人们对信息处理的“效率”和“速度”的要求也越来越高。譬如,对于很多企业决策者来说,在当前的经济形势下需要尽一切可能降本增效。过去每周看看经营报表的习惯,现在慢慢转变为利用实时可视化的方式来随时分析企业当前的经营状况。数据库作为信息的核心载体,在过去的半个世纪中,基本
亚信安慧AntDB数据库
·
2023-11-30 03:57
数据库
antdb数据库
antdb
分布式
数据中台:数据
模型设计
如果把指标⽐喻成⼀棵树上的果实,那模型就是这棵⼤树的躯⼲,想让果实结得好,必须让树⼲变得粗壮。真实场景举例:⼤多数公司的分析师会结合业务做⼀些数据分析(需要⽤到⼤量的数据),通过报表的⽅式服务于业务部⻔的运营。但是在数据中台构建之前,分析师经常发现⾃⼰没有可以复⽤的数据,不得不使⽤原始数据进⾏清洗、加⼯、计算指标。由于他们⼤多是⾮技术专业出⾝,写的SQL质量⽐较差,甚⾄⻅过5层以上的嵌套。这种SQ
小晨说数据
·
2023-11-30 00:31
数据库
数据仓库
阿里云数据中台核心引擎
核心引擎MaxCompute阿里离线数据计算平台(离线
数仓
)原名ODPS,阿里巴巴自主研发的海量数据处理平台MaxCompute处理存储在TableStore的数据(不负责收集数据到TableStore
hsabrina
·
2023-11-30 00:30
工程架构
big
data
大数据
如何进行指标质量治理——指标系统(提质篇)
作者介绍@小风数据中台产品负责人;UBDC全域大数据峰会“灯塔人物”;擅长埋点模型、指标治理,
数仓
架构等;“数据人创作者联盟”成员。01指标质量治理概述指标质量治理主要分为两个部分:提质与增效。
一个数据人的自留地
·
2023-11-29 08:26
Databend 开源周报第 121 期
Databend是一款现代云
数仓
。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn。
Databend
·
2023-11-29 06:21
开源
数据库
细说数据仓库上篇
在谈
数仓
之前,先来看下面几个问题:
数仓
为什么要分层?
派可数据
·
2023-11-28 18:53
数据仓库
数据要素
商业智能
spark
大数据
分布式
商业智能BI
数据仓库
数据仓库建模下篇
在实际业务中,给了我们一堆数据,我们怎么拿这些数据进行
数仓
建设呢,
数仓
工具箱作者根据自身多年的实际业务经验,给我们总结了如下四步。
派可数据
·
2023-11-28 18:10
商业智能
数据要素
数据仓库
数据仓库
大数据
信息可视化
数据库
大数据开发:实时
数仓
架构层次设计
在大数据实时计算处理领域,数据仓库提供重要的支持,从传统的离线
数仓
到实时
数仓
,大数据带动了相应的市场需求,而从架构层次来说,实时
数仓
也有新的值得挖掘的技术点。
成都加米谷大数据
·
2023-11-28 16:52
ODPS SQL优化总结
本文结合作者多年的
数仓
开发经验,结合ODPS平台分享数据仓库中的SQL优化经验。背景数据仓库,是一个面向主题、集成的、随时间变化的、信息本身相对稳定的数据集合。
小二上酒8
·
2023-11-28 14:09
odps
sql
hive
java
开发语言
【NLP】调研|医疗领域预训练语言
模型设计
方法
本文基于调研的14篇医疗预训练语言模型的论文,总结了目前设计医疗领域预训练语言模型的方法,这些方法主要可以分为三类:1)基于医疗领域数据进行继续预训练;2)基于医疗领域数据从头进行预训练;3)基于医疗领域设计的自监督任务进行预训练。1继续预训练BioBERT通过BERT初始化权重,基于生物医学领域语料库进行继续预训练;BlueBERT通过BERT初始化权重,基于PubMed摘要和MIMIC-III
风度78
·
2023-11-28 10:36
人工智能
机器学习
深度学习
python
知识图谱
多个 ConvNeXt 模型并行?详解RevCol(ICLR 2023)
自动驾驶之心”公众号ADAS巨卷干货,即可获取点击进入→自动驾驶之心【全栈算法】技术交流群本文只做学术分享,如有侵权,联系删文导读将解耦学习(disentangledfeaturelearning)的思想引入
模型设计
中
自动驾驶之心
·
2023-11-28 01:14
详解
数仓
中的数据分层:ODS、DWD、DWM、DWS、ADS
何为
数仓
DWDatawarehouse(可简写为DW或者DWH)数据仓库,是在数据库已经大量存在的情况下,它是一整套包括了etl、调度、建模在内的完整的理论体系。
禅与计算机程序设计艺术
·
2023-11-28 00:17
一起读论文--属性级情感分析数据集及
模型设计
http://bbit.vip/service/main.php?version=1&type=article&id=76
~泊舟~
·
2023-11-27 13:56
一起读论文
属性级情感分析数据集及
模型设计
文章转自(有图):http://bbit.vip/service/main.php?version=1&type=article&id=97属性级情感分析(Aspect-basedsentimentanalysis:ABSA)通过分析对于某一实体的某一属性的描述,得出评论者对于该属性的情感倾向。例如句子:Thedecorisnotspecialatallbuttheiramazingfoodmak
~泊舟~
·
2023-11-27 13:56
计算机视觉
自然语言处理
数据挖掘
机器学习
数仓
分层能减少重复计算,为啥能减少?如何减少?这篇文章包懂!
很多时候,看一些数据领域的文章,说到为什么做数据仓库、数据仓库要分层,我们经常会看到一些结论:因为有ABCD…等等理由,比如降低开发成本、减少重复计算等等好处然后,多数人就记住了ABCD。但是,每每被问起来,为什么,有什么案例,你是怎么理解的,就被问住,傻眼了。概念套概念,没意思,不如返璞归真,从生活案例重新理解起~01从统计班级人数开始本文将用生活化案例,结合粒度的概念,帮你理解常说的减少重复计
数据产品小lee
·
2023-11-27 12:42
大数据
数据仓库
数据建模
产品经理
C10K问题:高并发
模型设计
C10K问题随着互联网的蓬勃发展,一个非常重要的问题摆在计算机工业界面前。这个问题就是如何使用最低的成本满足高性能和高并发的需求。这个问题在过去可能不是一个严重的问题,但是在2000年前后,互联网用户的人数井喷,如果说之前单机服务的用户数量还保持在一个比较低的水平,比如说只有上百个用户,那么在互联网逐渐普及的情况下,服务于成千上万个用户就将是非常普遍的情形,在这种情形下,如果还按照之前单机的玩法,
taj3991
·
2023-11-27 01:13
【数据中台】开源项目(2)-Dbus数据总线
1背景企业中大量业务数据保存在各个业务系统数据库中,过去通常的同步数据的方法有很多种,比如:各个数据使用方在业务低峰期各种抽取所需数据(缺点是存在重复抽取而且数据不一致)由统一的
数仓
平台通过sqoop到各个系统中抽取数据
码农丁丁
·
2023-11-27 00:44
后端技术
#
大数据
开源
数据中台
ClickHouse替换MySQL作为
数仓
APP层
一、ClickHouse是什么?二、业务问题三、ClickHouse实践四、遇到的坑五、总结一、ClickHouse是什么?ClickHouse:是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)我们首先理清一些基础概念OLTP:是传统的关系型数据库,主要操作增删改查,强调事务一致性,比如银行系统、电商系统OLAP:是仓库型数据库,主要是读取数据,做复杂数据分析,侧重技术决策支持,提供
hzp666
·
2023-11-26 19:42
MySQL
PRD
数据库
mysql
ClickHouse
数据库
StarRocks与ClickHouse
2、开源
数仓
解决方案接下来
Yuan_CSDF
·
2023-11-26 19:11
数据库
OLAP
大数据
主流数据库/
数仓
核心要点对比
ClickHouse:官网讲OLAP系统的特点,更像是讲自己的特点,比如关联查询只会有一个大表,写入都是批量等。Global关键字难于被普通用户理解,join的不足(只有broadcastjoin,没有repartitionjoin),分布式表定义的繁琐。需要ZK存储一些元信息,没有master,各节点对等。对delete和upate支持很弱,无事务支持。可插拔存储引擎。稀疏索引。关于为什么快,官
吸积盘
·
2023-11-26 19:40
数据库
数据仓库
技术分享 | ClickHouse & StarRocks 使用经验分享
一.大纲本篇分享下个人在实时
数仓
方向的一些使用经验,主要包含了ClickHouse和StarRocks这两款目前比较流行的实时
数仓
,文章仅代表个人拙见,有问题欢迎指出,Thanks♪(・ω・)ノ关于实时
数仓
爱可生开源社区
·
2023-11-26 19:08
技术分享
实时数仓
ClickHouse
StarRock
传统
数仓
和clickhouse对比
背景传统
数仓
一般都是Hive+SparkSql作为代表,不过也包括Kylin等,而clickhouse是实时OLAP的代表,我们简单看下他们的对比传统
数仓
和clickhouse对比Hive+SparkSQL
lixia0417mul2
·
2023-11-26 19:06
clickhouse
clickhouse
数仓
中数据清洗的方法
在数据采集的过程中,需要从不同渠道获取数据并汇集在
数仓
中,采集的原始数据首先需要进行解析,然后对不准确、不完整、不合理、格式、字符等不规范数据进行过滤清洗,清洗过的数据才能更加符合需求,从而使后续的数据分析应用更为准确
小小哭包
·
2023-11-26 18:10
大数据
数据仓库
数据清洗
Linux 平台总线platform与设备树
cdev)第四章Linux平台总线platform与设备树第五章Linux设备树中pinctrl与gpio(licheenanopi)文章目录系列文章目录前言一、平台总线1.1平台总线简介1.2以平台总线
模型设计
的驱动
请叫我7plus
·
2023-11-26 13:00
Linux设备驱动
linux
运维
服务器
面试中遇到的设计题
2.红包系统怎么设计1.
模型设计
红包池表,红包账户表,红包池表2.怎么支持高并发?高
langsiming
·
2023-11-26 10:27
面试
职场和发展
漫谈实时
数仓
架构
|0x00从实时
数仓
的历史谈起实时
数仓
的历史,有三个显著的分水岭。
晓阳的数据小站
·
2023-11-26 08:39
千亿
数仓
项目--离线部分杂记
一、电商行业的相关介绍电商行业介绍电商行业技术特点技术新技术范围广分布式高并发、集群、负载均衡、高可用海量数据业务复杂系统安全电商业务系统简介网站采用商家入驻的模式,商家入驻平台提交申请,由平台进行资质审核;审核通过后,商家拥有独立的管理后台录入商品信息,商品经过平台审核后即可发布。大多电商平台由三部分组成:网站前台运营商后台商家管理后台网站前台网站前台通常由这几部分构成:网站首页商家首页商品详细
sanerbaby
·
2023-11-26 07:51
大数据
数据仓库
离线--千亿级
数仓
项目-黑马
大数据
数仓
项目简介业务流程本次
数仓
业务流程主要分为两类,一类是用户下单、提交订单、支付、退款这一条线,另一类是我们收集用户的页面行为数据:用户搜索商品、添加购物车、提交订单、支付订单的日志数据,分析电商网站常见的
紫金小飞侠
·
2023-11-26 05:13
#
大数据项目
【黑马甄选离线
数仓
day05_核销主题域开发】
1.指标分类通过沟通调研,把需求进行分析、抽象和总结,整理成指标列表。指标有原子指标、派生指标、衍生指标三种类型。原子指标基于某一业务过程的度量值,是业务定义中不可再拆解的指标,原子指标的核心功能就是对指标的聚合逻辑进行了定义。可以得出结论,原子指标包含三要素,分别是业务过程、度量值和聚合逻辑。例如订单总额就是一个典型的原子指标,其中的业务过程为用户下单、度量值为订单金额,聚合逻辑为sum()求和
LKL1026
·
2023-11-26 05:11
黑马甄选离线数仓项目
大数据
大数据---离线
数仓
实战项目(一)
离线
数仓
实战---网站流量日志分析系统一、网站流量日志分析背景1.1、网站分析的意义1.2、如何进行网站分析1.2.1、网站流量质量分析(流量分析)1.2.2、网站流量多维度细分(流量分析)1.2.3、
静_步
·
2023-11-26 05:41
#
1.2
大数据_项目
大数据
数据仓库
【黑马甄选离线
数仓
day04_维度域开发】
1.维度主题表数据导出1.1PostgreSQL介绍PostgreSQL是一个功能强大的开源对象关系数据库系统,它使用和扩展了SQL语言,并结合了许多安全存储和扩展最复杂数据工作负载的功能。官方网址:PostgreSQL:Theworld'smostadvancedopensourcedatabase中文文档:http://www.postgres.cn/docs/14/index.htmlPos
LKL1026
·
2023-11-26 05:08
黑马甄选离线数仓项目
数据仓库
大数据
笔记
【C#项目】图书馆管理系统-WinForm+MySQL
文章目录前言一、业务梳理与需求分析1.功能描述2.实现步骤3.功能逻辑图二、数据库设计1.实体-关系(E-R图)概念
模型设计
2.数据表设计三、WinForm界面交互设计1、界面交互逻辑2、项目树3、主界面
JosieBook
·
2023-11-26 04:51
#
WinForm案例
python
开发语言
自动化测试 PO设计模型
POM(PageObjectModel)即是页面对象
模型设计
模式在开发中比不少见,我们都知道后端开发有MTV/MVC等设计模式、那么我们的PO设计模式也可以当做为自动化测试开发的一种开发模式,顾名思义Page
无颜i
·
2023-11-26 00:47
python
测试工具
设计模式
Day68 Kafka 快速实战 核心原理
Storm/Spark流式处理引擎web/nginx,访问日志消息服务开放统一接口给consumerhadoop,hbase等.装载到hadoop,
数仓
etl做离线分析和数据挖掘.ScreenShot2022
小周爱吃瓜
·
2023-11-25 21:31
基于 Flink SQL 和 Paimon 构建流式湖仓新方案
传统
数仓
包括Hive、Hadoop正在往湖、Lakehouse架构上演进,L
阿里云大数据AI技术
·
2023-11-25 15:52
flink
sql
大数据
Flink CEP 在抖音电商的实践
本文整理自抖音电商实时
数仓
研发工程师张健,在FlinkForwardAsia实时风控专场的分享。本篇内容主要从FlinkCEP简介、业务场景与挑战、解决方案实践和未来展望四个方面展开介绍。
字节跳动云原生计算
·
2023-11-25 15:00
flink
同程数科基于 Apache Doris 构建统一实时
数仓
,查询提速数十倍!
为帮助业务人员提升数据开发的效率与质量,同程数科历经三代架构演进,最终引入ApacheDoris搭建统一实时
数仓
,在后续的实际应用中,将实时
数仓
平台化,进一步构建了一站式数据平台Ark,为业务人
SelectDB技术团队
·
2023-11-25 13:29
最佳实践
大数据
数据仓库
数据分析
doris
mysql
hive
数据库架构
物流实时
数仓
:
数仓
搭建(ODS)
系列文章目录物流实时
数仓
:采集通道搭建物流实时
数仓
:
数仓
搭建文章目录系列文章目录前言一、IDEA环境准备1.pom.xml2.目录创建二、代码编写1.log4j.properties2.CreateEnvUtil.java3
超哥--
·
2023-11-25 09:53
物流实时数仓
flink
大数据
【黑马甄选离线
数仓
day03_
数仓
设计和维度域开发】
1.
数仓
基本概念1-什么是数据仓库呢?存储数据的仓库,主要用于存储过去历史发生过的数据,面向主题,对数据进行统计分析的操作,从而能够对未来提供决策支持2-数据仓库最大的特点是什么呢?
LKL1026
·
2023-11-24 16:37
数据仓库
大数据
笔记
【黑马甄选离线
数仓
day02_数据采集】
1.
数仓
工具使用-DataX1.1DataX介绍DataX是阿里推出的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP
LKL1026
·
2023-11-24 16:02
数据仓库
大数据
笔记
Elasticsearch知识
逻辑设计和物理设计逻辑设计物理设计Elasticsearch原理倒排索引文档的分析过程保存文档搜索文档写数据的底层原理数据刷新(fresh)事务日志的写入ES在大数据量下的性能优化文件系统缓存优化数据预热文档(Document)
模型设计
分页性能优化
hay_lee
·
2023-11-24 16:44
elasticsearch
大数据
搜索引擎
数仓
成本下降近一半,StarRocks 存算分离助力云览科技业务出海
成都云览科技有限公司倾力打造了凤凰浏览器,专注于为海外用户提供服务,公司致力于构建一个全球性的数字内容连接入口,为用户带来更为优质、高效、个性化的浏览体验。作为数据驱动的高科技公司,从数据中挖掘价值一直是公司核心任务,公司以前选用了众多组件来提升内部大数据分析效率,如Trino作为即席查询的工具、用ClickHouse和StarRocks来加速报表业务查询,但经过长期实践,最终决定将所有内部数据分
StarRocks_labs
·
2023-11-24 12:31
后端
1、
数仓
模型概述
数仓
领域中的模型指的是数据模型,要和商业分析中的模型不同数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用的角度合理的存储数据2、问:模型和表的区别?
广阔天地大有可为
·
2023-11-24 12:57
数据仓库建设与企业案例
spark
大数据
分布式
大数据基础中台-数据仓库建设
一、数据模型架构原则
数仓
分层原则优秀可靠的
数仓
体系,往往需要清晰的数据分层结构,即要保证数据层的稳定又要屏蔽对下游的影响,并且要避免链路过长。那么问题来了,一直在讲
数仓
要分层,那
数仓
分几层最好?
SmartBrain
·
2023-11-24 12:22
大数据平台架构设计
数据仓库
big
data
hadoop
3、如何从0到1去建设数据仓库
1、
数仓
实施过程1.1数据调研数据调研包括:业务调研、需求调研业务调研需要调研企业内有哪些业务线、业务线的业务是否还有相同点和差异点各个业务线有哪些业务模块,每个模型下有哪些业务流程,每个流程下产生的数据是怎样存储的业务调研完后的产出
广阔天地大有可为
·
2023-11-24 12:50
数据仓库建设与企业案例
数据仓库
Flink SQL 1.11新功能详解:Hive
数仓
实时化 & Flink SQL + CDC 实践
问题导读1.Flink1.11有哪些新功能?2.如何使用flink-cdc-connectors捕获MySQL和Postgres的数据变更?3.怎样利用FlinkSQL做多流join后实时同步到Elasticsearch中?1Flink1.8~1.11社区发展趋势回顾自2019年初阿里巴巴宣布向Flink社区贡献Blink源码并在同年4月发布Flink1.8版本后,Flink在社区的活跃程度犹如坐
000X000
·
2023-11-24 06:18
Flink1.11
实时数仓
实时计算
Flink
SQL
1.11
数据中台建设方法论
1、
数仓
的概念和了解--业务的痛点产生的痛点:数据资产比较模糊、数据的质量比较低、重复建设、代码的耦合性比较强。2、数据仓库中的常见的模型:1、心型模型:中间是一张事实表,周围都是维度表。
新手小农
·
2023-11-24 02:08
数据仓库
大数据
上一页
7
8
9
10
11
12
13
14
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他