E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓数据质量
【Python百宝箱】数据清洗艺术:Python库助力打磨完美数据
通过学习这些库,数据科学家们能够更高效地提升
数据质量
,为深入分析和建模打下坚实基础。【Python百宝箱】从混沌到有序:sortedcontainers库的数据魔法改变你的编程体验欢迎订阅
friklogff
·
2024-01-07 10:56
开发语言
python
数据分析
创建强大的网页表单验证器:使用JavaScript
在当今的数字世界中,用户输入的
数据质量
至关重要。一个强大的表单验证器能够确保用户提供的信息准确无误,提高应用程序的效率和安全性。
刻刻帝的海角
·
2024-01-07 08:27
javascript
开发语言
ecmascript
简单上手FineBI
简介安装下载下载的是V6.0.11版本设置管理员账号账号admin密码123456新建分析主题添加数据选择本地数据上传选择示例数据上传打开效果如下,点击“确定”,这样就将示例数据上传到分析主题中分析数据——编辑数据如果
数据质量
好
王小小鸭
·
2024-01-07 08:57
数据分析
finebi
数仓
工具—Hive内部表和外部表(5)
内部表和外部表未被external修饰的是内部表(managedtable),被external修饰的为外部表(externaltable);因为默认情况下我们不加external关键字修饰,所以默认情况下是内部表区别:内部表数据由Hive自身管理,外部表数据由HDFS管理;内部表数据存储的位置是hive.metastore.warehouse.dir(默认:/user/hive/warehous
不二人生
·
2024-01-07 07:42
#
Hive
大数据
hive
面试
数据仓库
数仓
工具—Hive进阶之StorageHandler(23)
另外,Hive作为
数仓
的核心组件,借助Stora
不二人生
·
2024-01-07 07:39
#
Hive
hive
hadoop
数据仓库
实时
数仓
模型
为了计算一些实时指标,就在原来离线
数仓
的基础上增加了一个实时计算的链路,并对数据源做流式改造(即把数据发送到消息队列),实时计算去订阅消息队列,直接完成指标增量的计算,推送到下游的数据服务中去,由数据服务层完成离线
jero_lei
·
2024-01-06 23:48
Doris 的概述及使用场景
基于此,ApacheDoris能够较好的满足报表分析、即席查询、统一
数仓
构建、数据湖联邦查询加速等使用场景,用户可以在此之上构建用户行为分析、AB实验平台、日志检索分析、用户
一座野山
·
2024-01-06 16:16
bigdata
Doris
big
data
数据库开发
hbase
sql
database
湖仓架构的演进
1.数据仓库架构的历史演进起初,业界数据处理首选方式是
数仓
架构。通常数据处理的流程是把一些业务数据库,通过ETL的方式加载到DataWarehouse中,再在前端接入一些报表或者BI的工具去展示。
土豆马铃薯
·
2024-01-06 16:09
数据湖
架构
大数据
Databend使用入门
Databend官网:专注于打造全球最强云
数仓
,弹性、简单、低成本,支持mysql、clickhouse有线连接协议(白话就是可以直接用它们的客户端连接Databend服务)。
_hys
·
2024-01-06 14:48
数据库
docker
java
linux
利用 Addax 异构迁移数据到 Databend
这也有了异构数据库的数据同步需求,今天重点给大家介绍两个利器:异构数据迁移:Addax结合云原生
数仓
Databend实现异构数据库数据合
Databend
·
2024-01-06 14:17
数据库
大数据
java
Migrate your data into databend with DataX
这也有了异构数据库的数据同步需求,今天重点给大家介绍两个利器:异构数据迁移:DataX结合云原生
数仓
Databend实现异构数据库数据合并及分析。
Databend
·
2024-01-06 14:17
数据库
如何解决大型语言模型的「幻觉」问题
1.事实错误和虚构例子分析2.数据解释错误例子分析3.缺乏充分证据的断言例子分析原因分析1.数据偏见数据来源问题
数据质量
的重要性2.算法局限算法理解的限制算法的改进需求3.上下文限制上下文理解的困难上下文理解的提升策略解决方案
跑起来总会有风
·
2024-01-06 11:23
未来科技与编程视角
语言模型
人工智能
自然语言处理
机器学习的三个方面
相当于给人工智能模型学习什么样的知识第一、什么专业的知识;第二、知识是否有体系,也就是说样本之间是否存在某种关联、差异等,这个涉及到样本选择等问题;第三、知识的质量如何,如果是垃圾,得到的模型也很差,这个涉及到
数据质量
评估
HenrySmale
·
2024-01-06 09:38
机器学习
机器学习
人工智能
PostGIS学习教程十八:维数扩展的9交集模型
PostGIS学习教程十八:维数扩展的9交集模型文章目录PostGIS学习教程十八:维数扩展的9交集模型一、什么是维数扩展的9交集模型二、查找具有特定关系的几何图形三、
数据质量
测试四、本文涉及的函数五、
潘小磊
·
2024-01-06 05:05
postgis
学习
postgresql
空间计算
数据库
全球海洋数据 (GLODAP) v2.2023(海洋碳数据产品)
数据质量
控制过程涉及删除温度缺失的条目。此外,每次巡航都包含数字对象标识符(DOI),增强
此星光明
·
2024-01-05 18:32
GEE数据集专栏
人工智能
javascript
算法
2022年第十三届中国数据库技术大会(DTCC2022)-核心PPT资料下载
一、峰会简介本届大会以“数据智能价值创新”为主题,设置2大主会场,20+技术专场,邀请超百位行业专家,重点围绕时序数据库、图数据技术、实时
数仓
技术与应用实践、云原生数据库、大数据平台与数据安全等内容展开分享和探讨
百家峰会
·
2024-01-05 14:25
大数据
数据库
DTCC
数据库
DTCC
大数据
【Python机器学习系列】建立逻辑回归模型预测心脏疾病(完整实现过程)
一、问题对于表格数据,一套完整的机器学习建模流程如下:针对不同的数据集,有些步骤不适用即不需要做,其中橘红色框为必要步骤,由于
数据质量
较高,本文有些步骤跳过了,跳过的步骤将单独出文章总结!
数据杂坛
·
2024-01-05 12:22
机器学习
机器学习
python
逻辑回归
【Python机器学习系列】建立支持向量机模型预测心脏疾病(完整实现过程)
一、问题对于表格数据,一套完整的机器学习建模流程如下:针对不同的数据集,有些步骤不适用即不需要做,其中橘红色框为必要步骤,由于
数据质量
较高,本文有些步骤跳过了,跳过的步骤将单独出文章总结!
数据杂坛
·
2024-01-05 12:47
机器学习
机器学习
支持向量机
python
【临床预测模型】----选择合适的研究数据
【临床预测模型】----选择合适的研究数据选择数据通常面临许多问题:①②③④⑤⑥⑦⑧⑨⑩1、现成数据和研究数据1)现有数据:①优势:时间、精力、人力成本较低②劣势:A.选择偏倚不可控;B.
数据质量
(数据完整性
莫默子momo
·
2024-01-05 11:51
预测模型
医学统计学
机器学习
python requests elasticsearch auth reindex alias 通过requests用户名密码验证实现es异步重建并指定别名
在使用elasticsearch7.x的过程中,发现elasticsearch默认的副本数和分片数都为1,随着数据量不断增多,一个分片导致写入索引的效率越来越低,之后决定对业务层和
数仓
的索引进行重建#-
Cocktail_py
·
2024-01-05 08:02
Elasticsearch
elasticsearch
Flink实时电商
数仓
之旁路缓存
撤回流的处理撤回流是指流式处理过程中,两表join过程中的数据是一条一条跑过来的,即原本可以join到一起的数据在刚开始可能并没有join上。撤回流的格式:解决方案定时器:使用定时器定时10s(数据最大的时间差值),定时器触发时将状态中的数据发送过来如果重复计算这些数据,如何保持结果正确即可;通过每次度量值修改为当次度量值-上次度量值即可异步IO减少等待的时间,充分利用已有的资源使用异步IO时,必
十七✧ᐦ̤
·
2024-01-05 07:47
flink
缓存
大数据
【华为数据之道学习笔记】10-1数据被列为生产要素:制度层面的肯定
基于对华为公司数字化转型的解读,我们建立了数据综合治理体系,发布了信息架构,构建了数据湖、数据底座,打造了数据感知、安全合规能力,提升了
数据质量
。
码农丁丁
·
2024-01-05 06:38
#
数据中台
华为数据之道
读书笔记
数据中台
Databend 开源周报第 125 期
Databend是一款现代云
数仓
。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn。
Databend
·
2024-01-05 05:25
数据库
Databend 开源周报第 126 期
Databend是一款现代云
数仓
。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn。
Databend
·
2024-01-05 05:25
数据库
开源
数据库工程师—面试
2.
数仓
每层做了什么事说的层次感不清晰,3.写过最复杂的SQL,如路径分析,流失,回流用户
劝学-大数据
·
2024-01-05 00:59
大数据面试题
面试
职场和发展
大数据
物流实时
数仓
:
数仓
搭建(DWD)二
系列文章目录物流实时
数仓
:采集通道搭建物流实时
数仓
:
数仓
搭建物流实时
数仓
:
数仓
搭建(DIM)物流实时
数仓
:
数仓
搭建(DWD)一物流实时
数仓
:
数仓
搭建(DWD)二文章目录系列文章目录前言一、代码编写1.文件创建
超哥--
·
2024-01-04 22:27
物流实时数仓
java
数据库
服务器
物流实时
数仓
:
数仓
搭建(DWS)一
系列文章目录物流实时
数仓
:采集通道搭建物流实时
数仓
:
数仓
搭建物流实时
数仓
:
数仓
搭建(DIM)物流实时
数仓
:
数仓
搭建(DWD)一物流实时
数仓
:
数仓
搭建(DWD)二物流实时
数仓
:
数仓
搭建(DWS)一文章目录系列文章目录前言一
超哥--
·
2024-01-04 22:56
物流实时数仓
数据库
flink
大数据
java
微信基于StarRocks的湖仓一体实践
作者:StarRocksActiveContributer、微信OLAP内核研发工程师微信作为国内活跃用户最多的社交软件,其数据平台建设经历了从Hadoop到ClickHouse亚秒级实时
数仓
的阶段,但仍旧面临着数据体验割裂
StarRocks_labs
·
2024-01-04 20:38
后端
数据湖和传统
数仓
区别及湖仓一体
1.数据仓库早期系统采用关系型数据库来存放管理数据,但是随着大数据技术的兴起,人们对于多方面数据进行分析的需求愈加强烈,这就要求建立一个能够面向分析、集成保存大量历史数据的新型管理机制,这一机制就是数据仓库。数据仓库通常存储来自不同源的数据,集成源数据以提供统一的视图。这些资源可以包括事务系统、应用程序日志文件、关系数据库等等。数据仓库特性:面向主题:与传统数据库面向应用进行数据组织的特点相对应,
土豆马铃薯
·
2024-01-04 20:04
数据湖
大数据
spark
分布式
流式湖仓增强,Hologres + Flink构建企业级实时
数仓
2023年12月,由阿里云主办的实时计算闭门会在北京举行,阿里云实时
数仓
Hologres研发负责人姜伟华现场分享Hologres+Flink构建的企业级实时
数仓
,实现全链路的数据实时计算、实时写入、实时更新
阿里云大数据AI技术
·
2024-01-04 16:07
flink
大数据
数仓
工作中的常见问题及解决方案
数据仓库系列文章
数仓
架构发展史
数仓
建模方法论
数仓
建模分层理论
数仓
建模—宽表的设计
数仓
建模—指标体系数据仓库之拉链表
数仓
—数据集成
数仓
—数据集市
数仓
—商业智能系统
数仓
—埋点设计与管理
数仓
—IDMapping
大数据技术派
·
2024-01-04 16:34
spark
大数据
分布式
地理空间分析2——优化地理空间分析的关键一步:深入探讨数据清洗和预处理
写在开头在进行地理空间分析时,
数据质量
是确保准确性和可靠性的关键因素。数据清洗和预处理是确保地理空间数据集合适用于分析的基本步骤。
theskylife
·
2024-01-04 12:21
数据分析
python
数据挖掘
数据分析
地理空间分析
数据治理之
数据质量
管理系列3:电子病历分级质控工具的价值
讨论需求的时候,总绕不过对于需求价值的讨论。有人说,电子病历评级,主要是通过项目实施计算出需要上报的数据,通过写SQL语句得出每项的数值,再用excel计算就行了,大部分实施团队都是这么干的。非要在不知道医院数据库类型、库表结构的前提下,设计一套通用化的工具,反而把简单的事情复杂化了。不过,从另一个角度来看,工具型不是就是用来解决相对固定流程的标准化问题吗?短期来看,做一套工具不如直接实施来的简单
大数据小白
·
2024-01-04 11:00
实时
数仓
投放主备链路Diff测试工具落地实践
一、背景目前实时
数仓
提供的投放实时指标优先级别越来越重要,特别下游为规则引擎提供的
数仓
数据,直接对投放运营的广告投放产生直接影响,数据延迟或者异常均可能产生直接或者间接的资产损失;从投放管理平台的链路全景图投放全景图来看
得物技术
·
2024-01-04 08:02
得物技术
数据库
书生-浦路大模型全链路开源体系
该数据集对模型的知识内容、逻辑推理和泛化能力的提升有显著效果精细化处理万卷经过语言筛选、文本提取、格式标准化、数据过滤和清洗(基于规则和模型)、多尺度去重和
数据质量
评估等精细数
-恰饭第一名-
·
2024-01-04 04:35
语言模型
机器学习
人工智能
某人寿保险公司基础架构云化与小机
数仓
下移实践
随着数据中心IT基础架构的不断演进,云计算、大数据、移动互联的需求日益高涨,快速敏捷、易于维护以及扩展性,逐渐成为金融机构在升级数据中心时重点考虑的方面。某人寿保险公司(以下简称“客户”)过往采用传统三层架构,即IBMPower/x86+FCSAN+集中式存储的组合,在使用多年后面临设备老旧、灵活性与性能无法及时满足业务变化等问题。另外,传统架构也存在使用专用硬件及网络、存储控制器集中、架构及运维
志凌海纳SmartX
·
2024-01-04 03:09
超融合
云计算
数据库架构
机器学习-4:机器学习的建模流程
很大程度上
数据质量
的高低决定了模型的稳定性或效果,所以收集数据这一步非常关键。数据预处
Doawen
·
2024-01-04 01:43
Doris
数仓
使用规范(经验版)
第一部分:字符集规范【强制】数据库字符集指定utf-8,并且只支持utf-8。命令规范【建议】库名统一使用小写方式,中间用下划线(_)分割,长度62字节内【建议】表名称大小写敏感,统一使用小写方式,中间用下划线(_)分割,长度64字节内第二部分:建表规范【强制】确保每个tablet大小为1-3G之间。举例:假设表内单分区数据量在100G,按天分区,bucket数量100个。【强烈建议】不要使用Au
hf200012
·
2024-01-03 19:30
数据库
java
前端
Doris
大数据
电商
数仓
可视化1--数据导入
1、数据来源介绍以及数据文件下载1、业务数据业务数据往往产生于事务型过程处理,所以一般存储在关系型数据库中,如mysql、oracle业务数据源:用户基本信息、商品分类信息、商品信息、店铺信息、订单数据、订单支付信息、活动信息、物流信息等2、埋点数据埋点日志相对业务数据是用于数据分析、挖掘需求,一般以日志形式存储于日志文件中,随后通过采集落地分布式存储介质中如hdfs、hbase用户行为日志:用户
bigdata从入门到放弃
·
2024-01-03 18:53
数据仓库
linux
hadoop
大数据
java
数据仓库
我的大数据之路:2023年度总结
2023年度最值得骄傲的事从0到1搭建了离线
数仓
体系,针对Hadoop生态组件的原理和特性有了深入的理解。
话数Science
·
2024-01-03 18:07
大数据
面试
大数据
面试
spark
【大数据】Doris
数仓
使用规范原则
第一部分:字符集规范【强制】数据库字符集指定utf-8,并且只支持utf-8。命令规范【建议】库名统一使用小写方式,中间用下划线(_)分割,长度62字节内【建议】表名称大小写敏感,统一使用小写方式,中间用下划线(_)分割,长度64字节内第二部分:建表规范【强制】确保每个tablet大小为1-3G之间。举例:假设表内单分区数据量在100G,按天分区,bucket数量100个。【强烈建议】不要使用Au
奔向理想的星辰大海
·
2024-01-03 16:48
大数据
云原生
技术研发
大数据
数据库
数据预处理方法
数据预处理是为了保证
数据质量
。数据预处理包括:数据清理,数据集成,数据转换,数据归约(最大限度精简数据量)。比如:缺失数据处理是去掉,还是填充默认值或最近的值。
XueminXu
·
2024-01-03 16:25
大数据
数据预处理
正则化
归一化
标准化
比例法
数睿通2.0数据血缘、标准、质量功能更新发布
文章目录引言数据血缘数据标准
数据质量
结语引言这段时间工作繁忙,琐事较多,加上二阳的冲击,导致数睿通2.0的更新进度缓慢,深表歉意,还望大家可以理解。
小螺旋丸
·
2024-01-03 10:51
大数据
数据中台
数睿通2.0:高效的数据处理,主数据与数据表功能全面升级
引言八天很短,七天很长,数睿通2.0数据中台也随之迎来了新一轮的版本迭代,本次更新主要包括:主数据模型(可视化建模)主数据派发(支持派发主数据到下游数据表,rabbitMq,kafka,接口)数据表(
数仓
分层表信息展示
小螺旋丸
·
2024-01-03 10:51
大数据
数据库
大数据
数据中台
Flink实时电商
数仓
(十)
common模块回顾appBaseApp:作为其他子模块中使用Flink-StreamAPI的父类,实现了StreamAPI中的通用逻辑,在其他子模块中只需编写关于数据处理的核心逻辑。BaseSQLApp:作为其他子模块中使用Flink-SQLAPI的父类。在里面设置了使用SQLAPI的环境、并行度、检查点等固定逻辑。bean:存放其他子模块中使用到的javaBean对象,因为如果一直使用json
十七✧ᐦ̤
·
2024-01-03 09:50
flink
大数据
数据治理之
数据质量
管理
文章目录一、
数据质量
概述什么是
数据质量
数据质量
差的危害
数据质量
维度(数据六大评价标准)什么是
数据质量
测量
数据质量
测量必须要有目的
数据质量
测量必须可重复
数据质量
测量必须可解释什么是
数据质量
管理二、数据问题根因分析什么是根因分析为什么要进行根因分析产生数据问题的阶段规划设计阶段数据创建阶段数据使用阶段数据老化阶段数据消亡阶段产生问题的原因业务原因技术原因管理原因根因分析的方法根因分析的工具鱼骨图
4935同学
·
2024-01-03 08:40
数据治理
大数据
数据仓库
数据分析
数据治理之主数据管理
文章目录一、主数据管理概述什么是主数据什么是主数据管理主数据管理的意义打破孤岛,提升
数据质量
统一认知,提升业务效率集中管控,提升管理效能数据驱动,提升决策水平二、主数据管理方法摸家底建体系接数据数据接入数据清洗主数据清洗规范主数据清洗操作数据分发抓运营三
4935同学
·
2024-01-03 08:39
数据治理
数据仓库
大数据
Hive自定义函数支持国密SM4解密
当前项目背景需要使用到国密SM4对加密后的数据进行解密,Hive是不支持的,尝试了华为DWS
数仓
,华为只支持在DWS中的SM4加密解密,不支持外部加密数据DWS解密新建Maven工程只需要将引用的第三方依赖打到
4935同学
·
2024-01-03 08:03
Hive
Java
hive
hadoop
数据仓库
计算机毕业设计吊打导师hadoop+spark+hive知识图谱医生推荐系统 医生数据分析可视化大屏 医生爬虫 医疗可视化 医生大数据 机器学习 大数据毕业设计
mapreduce对mysql中的医生数据进行数据分析,使用高德地图解析地理位置,并将结果转入.csv文件同时上传到hdfs文件系统;3.使用hive建库建表,导入.csv数据集;4.一半指标使用离线
数仓
计算机毕业设计大神
·
2024-01-03 07:53
数据仓库命名规范详解
一、
数仓
中为什么要在数据开发过程中强调遵守
数仓
开发命名规范呢?
孤城暮雨@
·
2024-01-03 04:17
数据仓库
hive
hadoop
数据库
sql
database
数据库架构
上一页
6
7
8
9
10
11
12
13
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他