E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓数据质量
国产开源优秀新一代MPP数据库StarRocks入门之旅-
数仓
新利器(上)
概述背景ApacheDoris官方地址https://doris.apache.org/ApacheDorisGitHub源码地址https://github.com/apache/incubator-dorisApacheDoris是一个现代化的MPP分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。ApacheDoris的分布式架构非常简洁,易于运维,并且可以支持1
IT小神
·
2024-01-15 13:45
大数据
数据库
分布式
数据库
大数据
分布式
数仓
选型必列入考虑的OLAP列式数据库ClickHouse(中)
实战案例使用背景ELK作为老一代日志分析技术栈非常成熟,可以说是最为流行的大数据日志和搜索解决方案;主要设计组件及架构如下:而新一代日志监控选型如ClickHouse、StarRocks特别是近年来对ELK地位发起较大的挑战,不乏有许多的大公司如携程,快手已开始把自己的日志解决方案从ES迁移到了Clickhouse,将日志从ES迁移到ClickHouse可以节省更多的服务器资源,总体运维成本更低,
IT小神
·
2024-01-15 13:45
数据仓库
数据库
运维
数据库
elasticsearch
国产开源优秀新一代MPP数据库StarRocks入门之旅-
数仓
新利器(中)
概述背景ApacheDoris官方地址ApacheDorisApacheDorisGitHub源码地址GitHub-apache/incubator-doris:ApacheDoris(Incubating)isanMPP-basedinteractiveSQLdatawarehousingforreportingandanalysis.ApacheDoris是一个现代化的MPP分析型数据库产品。
Firstlucky77
·
2024-01-15 13:42
java
mysql
linux
大数据开发之Hive(基本概念、安装、数据类型、DDL数据定义、DML数据操作)
但是面对海量的数据和负责的业务逻辑,开发人员要编写MR对数据进行统计分析难度极大,所以就产生了Hive这个
数仓
工具。Hive可以帮助开发人员将SQL语句转化为MapReduce在yarn上跑。
Key-Key
·
2024-01-15 12:04
大数据
hive
hadoop
大数据开发之Hive(详细版,最后有实战训练)
但是面对海量的数据和负责的业务逻辑,开发人员要编写MR对数据进行统计分析难度极大,所以就产生了Hive这个
数仓
工具。Hive可以帮助开发人员将SQL语句转化为MapReduce在yarn上跑。
Key-Key
·
2024-01-15 12:29
hive
hadoop
大数据
千亿参数大模型再突破,
数据质量
为何是关键?
“模型诚可贵,算力价格高。”--百模大战的硝烟尚未散去,算力紧缺的呼声似犹在耳。如今,哪怕强如OpenAI也会处于算力紧缺的状态。这也衍生出产业界共同的挑战:即当算力资源愈发宝贵时,如何在同等算力当量的情况下,更高效地训练模型,进而获得更好的模型精度和更好的智能涌现效果。目前看,在“预训练+微调”成为大模型发展新范式的趋势下,数据层面的创新正变得愈发关键。事实上,OpenAICEOSamAltma
大数据在线
·
2024-01-15 12:59
AI
人工智能
大模型
源2.0
大语言模型
源2.0大模型
项目实战-知行教育大数据分析平台-01
目录一、业务流程二、项目架构流程三、clouderamanager(CM)基本介绍四、项目环境搭建五、维度分析六、
数仓
建模1、维度建模2、什么是事实表与维度表3、事实表与维度表的分类4、维度建模的三种模型
吆喝的翅膀
·
2024-01-15 04:22
python+大数据学习
数据仓库
教育电商
hive
hadoop
cloudera
数据治理工程师 CDGA-数据治理
(B)A提升企业管理数据资产能力B提升企业
数据质量
,充分发挥数据价值C定义、批准、沟通和实施数据管理的原则、政策、程
jiedaodezhuti
·
2024-01-15 02:59
大数据
大数据
clickhouse常规的优化方法
一、建表优化1.1日期字段避免使用String存储建表时能用数值型或日期时间型表示的字段就不要用字符串,全String类型在以Hive为中心的
数仓
建设中常见,但ClickHouse环境不应受此影响。
运维仙人
·
2024-01-15 01:08
大数据
clickhouse
大数据
统一OLAP查询平台之语义层
产品和应用讨论分析指标,并拉上
数仓
和业务一起确认指标。
数仓
理解指标,并开始数据加工。首先,从ODS层开
XianMing的博客
·
2024-01-14 11:27
olap
数据仓库
语义分析
数据仓库(1)-总览
整体大纲如下,分为8个部分,包括认识
数仓
,
数仓
模型建设,元数据管理,指标体系,
数据质量
,数据安全,数据治理,实时技术。
XianMing的博客
·
2024-01-14 11:27
数据仓库
数据仓库
数据仓库(2)-认识
数仓
1、数据仓库是什么数据仓库,由数据仓库之父比尔·恩门(BillInmon)于1990年提出,主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,做有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(DataMining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有
XianMing的博客
·
2024-01-14 10:53
数据仓库
数据仓库
spark
大数据
长龙航空HTAP实践:统一技术栈,高效构建在线服务与轻量实时
数仓
浙江长龙航空有限公司(以下简称“长龙航空”)是浙江省唯一的本土总部型客货综合公共运输航空公司,拥有国内国际、客运货运全牌照航空运输资质,属于中大型航空公司,居民营航空公司前列,自2011年成立至今,累计开通国内外客货运航线近600条,覆盖全国并通达日韩、港澳、东南亚、中亚等“一带一路”沿线国家和地区的170余个城市。在现代航空业运营中,高效的数据管理和可靠的数据库系统是成功运营的关键要素之一。长龙
OceanBase数据库官方博客
·
2024-01-14 07:30
oceanbase
数据库
数仓
搭建——DWD层
1DWD层(用户行为日志)1.1日志解析思路页面埋点日志启动日志思路1.2get_json_object函数使用数据[{"name":"大郎","sex":"男","age":"25"},{"name":"西门庆","sex":"男","age":"47"}]取出第一个json对象hive(gmall)>selectget_json_object('[{"name":"大郎","sex":"男",
丝丝呀
·
2024-01-14 06:10
java
json
开发语言
数据仓库-离线
数仓
(基于物流
数仓
)
1、数据仓库概述1.1、数据仓库概念数据仓库是一个为数据分析而设计的企业级数据管理系统。数据仓库可集中、整合多个信息源的大量数据,借助数据仓库的分析能力,企业可从数据中获得宝贵的信息进而改进决策。同时,随着时间的推移,数据仓库中积累的大量历史数据对于数据科学家和业务分析师也是十分宝贵的。1.2、数据仓库核心架构2、数据仓库建模概述2.1、数据仓库建模的意义如果把数据看作图书馆里的书,我们希望看到它
小鱼干换酒钱
·
2024-01-14 06:39
#
物流数仓
数据仓库
hive
数仓
学习笔记(5)——
数仓
搭建(DWD层)
目录一、
数仓
搭建——DWD层1、DWD层(用户行为日志)1.1日志解析思路1.2get_json_object函数使用1.3启动日志表1.4页面日志表1.5动作日志表1.6曝光日志表1.7错误日志表1.8DWD
默萧756
·
2024-01-14 06:35
学习
大数据
数仓
数仓
笔记(五)-DWD层,DWS层
数仓
搭建DWD层1)对用户行为数据解析2)对业务数据采用维度模型重新建模6.1DWD层(用户行为日志)1)日志结构回顾(1)页面埋点日志(2)启动日志2)日志解析思路6.1.2get_json_object
芝士雪豹.
·
2024-01-14 06:33
java
开发语言
hive
大数据
离线
数仓
(十三) --------- DWD 层搭建
目录前言一、DWD层(用户行为日志)1.日志解析思路2.get_json_object函数使用3.启动日志表4.页面日志表5.动作日志表6.曝光日志表7.错误日志表8.DWD层用户行为数据加载脚本二、DWD层(业务数据)1.评价事实表(事务型事实表)2.订单明细事实表(事务型事实表)3.退单事实表(事务型事实表)4.加购事实表(周期型快照事实表,每日快照)5.收藏事实表(周期型快照事实表,每日快照
在森林中麋了鹿
·
2024-01-14 06:02
大数据项目
java
json
数据库
企业级大数据项目【4】
数仓
-业务域ODS-DWD-ADS开发篇
1概要说明业务域的数据来自业务系统的数据库通过sqoop(或datax)抽取到
数仓
的ods层在ods层对有需要的表进行增量合并,字段选择,反范式话,形成dwd明细层表在明细层基础上,进行各类主题的数据统计
江湖人称涛哥
·
2024-01-14 06:32
物流实时
数仓
ODS层——Mysql到Kafka
目录1.采集流程2.项目架构3.resources目录下的log4j.properties文件4.依赖5.ODS层——OdsApp6.环境入口类——CreateEnvUtil7.kafka工具类——KafkaUtil8.启动集群项目这一层要从Mysql读取数据,分为事实数据和维度数据,将不同类型的数据进行不同的ETL处理,发送到kakfa中。代码1.采集流程2.项目架构3.resources目录下
雷神乐乐
·
2024-01-14 06:01
#
实时数仓项目
大数据
数据仓库
flink
kafka
物流实时
数仓
DWD层——1.准备工作
目录1.创建主程序——DwdOrderRelevantApp类2.创建DWD层的事实表——来源于订单表和订单明细表(1)创建订单表实体类(2)创建订单明细表实体类(3)创建交易域:下单事务事实表实体类,并整合(1)与(2),采用下单时间(4)创建交易域:支付成功事务事实表实体类,并整合(1)与(2),采用支付时间和支付状态(5)创建物流域:揽收(接单)事务事实表实体类,并整合(1)与(2),采用揽
雷神乐乐
·
2024-01-14 06:57
#
实时数仓项目
大数据
flink
java
数据仓库
交通物流
【AI】AI和医疗大数据(2/3)
非结构化处理的重要性和方法5.1采集技术5.2处理技术5.3存储技术5.4关于Mapreduce四、医疗大数据理论和技术医疗大数据的理论和技术主要包括以下几个方面:数据整合管理技术:这包括多源医疗大数据的语义关联技术、医疗
数据质量
修复技术以及基于数据管控的医疗大数据共享利用技术等
giszz
·
2024-01-14 05:39
人工智能
学习笔记
人工智能
大数据
Hive命令行运行SQL将数据保存到本地如何去除日志信息
1.场景分析先有需求需要查询hive
数仓
数据并将结果保存到本地,但是在操作过程中总会有日志信息和表头信息一起保存到本地,不符合业务需要,那如何才能解决该问题呢?
tuoluzhe8521
·
2024-01-14 05:01
Hive相关
hive
sql
hadoop
美团点评实时
数仓
平台演进与实践
1.摘要数据仓库的建设是“数据智能”必不可少的一环,也是大规模数据应用中必然面临的挑战,而Flink实时
数仓
在数据链路中扮演着极为重要的角色。
笔名辉哥
·
2024-01-14 02:50
数仓
建模—埋点设计与管理
数据仓库系列文章(部分已出,持续更新)
数仓
架构发展史
数仓
建模方法论
数仓
建模分层理论
数仓
建模—宽表的设计
数仓
建模—指标体系数据仓库之拉链表
数仓
—数据集成
数仓
—数据集市
数仓
—商业智能系统
数仓
—埋点设计与管理
数仓
大数据技术派
·
2024-01-14 01:22
hiveSQL任务执行时间过长
从业务或者其他方面优化4、从接口层取数前期的
数仓
设计不合理或者临时性
amberwest
·
2024-01-13 22:16
big
data
数据仓库
hive
数据洞察力,驱动企业财务变革
从海量数据中提取有意义的见解也并不是一件易事,尤其是当
数据质量
和来源并不理想的时候,反而会导致更糟糕的决策。因此,数据作为企业资产需要财务部门利用技术工具和资源积极管理、充分利用。
intcube
·
2024-01-13 18:11
大数据
人工智能
全面预算管理
财务预算管理
财务变更
数据仓库Apache Hive
为了分析数据而来数据分析的平台2、数据仓库的特性3、数据仓库和数据库的区别OLTP系统OLAP系统注意:这里要解决一个核心的误区:
数仓
绝不是大型数据库。
江枫渔火R
·
2024-01-13 09:29
数据仓库
apache
hive
大数据
2022-02-01大数据学习日志——Hadoop离线阶段——数据仓库、Apache Hive
学习目标理解
数仓
概念、起源由来理解
数仓
(OLAP)与数据库(OLTP)区别掌握
数仓
分层架构思想掌握ApacheHive功能与架构组件理解ApacheHive远程模式部署安装内容大纲#数据仓库基础核心知识
王络不稳定
·
2024-01-13 09:28
数据仓库
big
data
hive
数据仓库 & Apache Hive
一、数据分析1、数据仓库数据仓库(英语:DataWarehouse,简称
数仓
、DW),是一个用于存储、分析、报告的数据系统。
杀神lwz
·
2024-01-13 09:52
大数据
数据分析
数据仓库
apache
hive
数仓
建设指南
数仓
建设指南数据模型架构规范数据层次的划分ODS:OperationalDataStore,操作数据层,在结构上其与源系统的增量或者全量数据基本保持一致。
左美美  ̄
·
2024-01-13 06:04
java
大数据
数据仓库
第27章 大数据系统测试
目录一、主要内容二、大数据概述1、大数据的定义2、大数据的特点三、大数据的测试策略1、大数据面临的挑战2、大
数据质量
检测的测试策略3、大数据测试流程4、大数据测试工具一、主要内容1、大数据概述2、大数据测试策略二
是李黏黏鸭
·
2024-01-12 21:15
软件测试基础知识
软件评测
大数据系统测试
大数据的定义
大数据的特点
大数据的测试策略
大数据测试工具
大数据开发工程师需要具备哪些技能?
在回答这个问题之前,需要充分了解一下当前大数据的几个就业方向,可以参考下主流互联网行业的部门架构、职责和JD,大数据开发工程师,总体来说有这么几类,不同的公司叫法不一样:1、
数仓
开发工程师2、算法挖掘工程师
郑小柒是西索啊
·
2024-01-12 21:58
大数据
Databend 开源周报第 127 期
Databend是一款现代云
数仓
。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn。
Databend
·
2024-01-12 20:45
数据库
开源
ai人工智能的数据服务_AI如何帮助提高企业
数据质量
ai人工智能的数据服务Hardlyanyonerelyingondatacansaytheirdataisperfect.Thereisalwaysthatdifferencebetweenthedatasetyouhaveandthedatasetyouwishyouhad.ThisdifferenceiswhatDataQualityisallabout.几乎没有人依赖数据可以说他们的数据是完
weixin_26630173
·
2024-01-12 18:06
人工智能
python
大数据
java
数据分析
数据加工:从原始数据到有价值的信息
一、数据加工的重要性(一)提高
数据质量
原始数据往往存在着噪声、缺失值、异常值等问题,如果不经过处理,这些问题可能
正儿八经的数字经
·
2024-01-12 16:21
数字经济
人工智能
大数据
数据交付变革:研发到产运自助化的转型之路
作者|Chris导读本文讲述为了提升产运侧数据观察、分析、决策的效率,支持业务的快速迭代,移动生态数据研发部对
数仓
建模与BI工具完成升级,采用宽表建模与TDA平台相结合的方案,一站式自助解决数据应用需求
百度Geek说
·
2024-01-12 16:14
信息可视化
数据分析
数据挖掘
数仓建模
BI工具
学习分析质控软件时搜索用到的网站
英文说明https://multiqc.info/https://multiqc.info/docs/https://www.regular-expressions.info/quickstart.html
数据质量
什么叫做好
小梦游仙境
·
2024-01-12 15:45
GBASE南大通用 GBase 8a 产品构建
数仓
系统架构
lGBASE南大通用GBase8a产品构建
数仓
应用的系统架构:架构技术实现特点适用场景独立数据仓库(集市)系统架构一套GBase8a物理集群适用于数据规模较小的业务场景适用于各业务之间数据互访较频繁的业务场景适用于单一独立的业务场景企业级
数仓
系统架构多套
GBASE数据库
·
2024-01-12 12:04
数据库
GBASE南大通用
GBASE
【DolphinScheduler】datax读取hive分区表时,空分区、分区无数据任务报错问题解决
问题背景:最近在使用海豚调度DolphinScheduler的Datax组件时,遇到这么一个问题:之前给客户使用海豚做的离线
数仓
的分层搭建,一直都运行好好的,过了个元旦,这几天突然在
数仓
做任务时报错,具体报错信息如下
Alex_81D
·
2024-01-12 08:49
部署项目相关
大数据基础
数据治理
hive
hadoop
数据仓库
【大数据面试】常见
数仓
建模面试题附答案
数仓
架构为什么要分层?事实表的类型?维度建模步骤?维度建模的三种模式?
数仓
架构进化?数据仓库如何保证
数据质量
?开发流程/你们是怎么测试的?维度建模过程?维度建模的三种模式?事实表都有哪几种?
话数Science
·
2024-01-12 07:28
面试
大数据
大数据
Hive解析json数组
在使用Hive搭建数据仓库,处理数据时,同传统
数仓
的结构化数据不同,我们经常会遇到一些非结构化的数据,json格式的字符串就是常见的一种类型。
风筝flying
·
2024-01-12 03:47
使用Python进行数据清洗,以及一些常见的数据清洗技巧和最佳实践
数据清洗的重要性在于:
数据质量
:脏数据(包括缺失值、异常值和重复值)可能导致分析结果不准确或模型性能下降。数据一致性:不同数据源的数据格式和命名规范可能不同,需要进行标准化和一致性处理。
m0_57781768
·
2024-01-11 23:31
python
开发语言
【Databend】数据类型
文章目录数据类型列表转换数据类型数据类型扩展整数类型布尔类型浮点数类型字符串类型日期时间类型其它数据类型总结数据类型列表Databend作为一款开源、弹性、低成本,基于对象存储也可以做实时分析的新式
数仓
有请小发菜
·
2024-01-11 17:08
Databend
数据库
mysql
python
rust
研究与试验发展(R&D)投入统计规范(试行)
研究与试验发展(R&D)投入统计规范(试行)第一章总则第一条为规范研究与试验发展(以下简称R&D)投入统计数据的生产与使用,准确反映我国R&D的投入水平,进一步提升相关统计
数据质量
,根据《中华人民共和国统计法
萌主_大大
·
2024-01-11 15:01
Apache Flink 和 Paimon 在自如数据集成场景中的使用
业务背景自如目前线上有基于Hive的离线
数仓
和基于Flink、Kafka的实时
数仓
,随着业务发展,我们也在探索引入湖仓一体的架构更好的支持业务,我们对比了Iceberg、Hudi、Paimon后,最终选择
Apache Flink
·
2024-01-11 13:09
apache
flink
大数据
亚信安慧AntDB团队引领数据库创新浪潮
该数据库经过多次迭代,形成了完整的“超融合流式实时
数仓
”体系,为通信运营商和各行业提供卓越的服务
亚信安慧AntDB数据库
·
2024-01-11 12:48
数据库
人工智能
大数据
antdb
antdb数据库
基于Hologres+Flink的曹操出行实时
数仓
建设作者:林震|曹操出行实时计算负责人
作者:林震|曹操出行实时计算负责人曹操出行业务背景介绍曹操出行创立于2015年5月21日,是吉利控股集团布局“新能源汽车共享生态”的战略性投资业务,以“科技重塑绿色共享出行”为使命,将全球领先的互联网、车联网、自动驾驶技术以及新能源科技,创新应用于共享出行领域,以“用心服务国民出行”为品牌主张,致力于打造服务口碑最好的出行品牌。作为一家互联网出行平台,主要提供了网约车、顺风车、专车等一些出行服务。
阿里云大数据AI技术
·
2024-01-11 09:40
flink
大数据
基于Flume、Kafka和Storm实现企业大数据平台的实时数据采集
很多企业投入大量的人力、物力和财力建设企业大数据平台,平台建设工作涵盖数据采集、数据处理、数据存储、数据服务、数据展示以及
数据质量
管理各个环节。
皮皮杂谈
·
2024-01-11 07:26
离线
数仓
构建案例一
数据采集日志数据(文件)到Kafka自己写个程序模拟一些用户的行为数据,这些数据存在一个文件夹中。接着使用flume监控采集这些文件,然后发送给kafka中待消费。1、flume采集配置文件监控文件将数据发给kafka的flume配置文件:#定义组件a1.sources=r1a1.channels=c1#配置sourcea1.sources.r1.type=TAILDIRa1.sources.r1
躺着听Jay
·
2024-01-10 22:06
大数据
big
data
大数据
上一页
2
3
4
5
6
7
8
9
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他