大数据兵工厂

万字详解数据质量那些事儿

大家好，我是老兵。

在数据仓库建设的过程当中，大家是否会有这样的疑问:

1）数仓分层模型是否需要严格遵守
2）照本宣科建设的数仓貌似不好用
3）如何评判一个数仓建设的质量好坏
4）我的数据仓库还能做怎样的升级

我们该如何解决这些问题？其实一般抛出此类话题，说明数仓建设已经发展到一定规模，这个时候需要考虑数仓质量问题。

毫无疑问，要想保持数仓的稳定、高效，数仓质量建设是势在必行的一步。否则再好的业务数据分析也会捉襟见肘，数据运维将变得十分痛苦。

本文将重点阐述，如何构建可实施落地的数仓建设质量体系之路。

1 数仓建设的核心要求

数仓建设普遍是纵向分层建设，横向主题域划分，如下图所示

ODS层: 贴源层。旨在集团、子公司、互联网及三方外部数据输入层，基本保持源表原貌(存在敏感数据加密)。
DW层: 数仓层。可细分为dwd和dws子层。DWD层为数据明细层,DWS层为数据汇总层。
DIM层。维度层，保存一些企业常用的维度表，如: 日期维、地区维、商品维、用户维等。
DM层: 数据集市层(主题层)。面向应用主题汇总DW层数据(如: 渠道、产品、会员等主题)。
APP层: 面向具体应用的结果集，包含但不限于：集团共享库、子公司的分析私库、输出接口库等

数仓开发的同学相信对此不会感到陌生，上述数仓分层几乎已经成为行业标准。当然它在一定程度上规范了数据建设的标准，但也仅仅只是个前奏，并不能全面反映数仓建设的核心要求。

数据仓库的核心在于数据模型的可复用性且需要的计算资源是可量化的，可控的。

2 怎么判定好的数据模型设计

好的数据模型设计往往兼顾数据的分区存储，数据的复用性以及计算资源的分配最大化。

而在数据开发时我们经常是从数仓分层的角度出发，仅仅关注数仓分层间的开发，往往没有从这些方面考虑。

那么不合理的数仓模型设计、不规范操作可能会带来什么影响呢？

下面我将通过一个实际工作中遇到的例子来分析。

2.1 场景复现

不规范操作： 直接从DWD层，甚至是ODS层暴力跑SQL

这类操作是我在一次数仓运行缓慢问题排查中发现的。

业务层直接依赖DWD层和ODS层，导致ODS层的任务越来越多。在计算资源不变的情况下，例行化任务跑的越来越慢，甚至拖延了日常核心报表的产出时间。

再来看看具体数据，下面是部分大型例行化任务对应的资源消耗情况。

从图中可以明显感受到这几个大任务已经把凌晨时间段的资源占用完了，导致平台资源一直处于十分紧张的状态。

通过日志统计发现，ODS: DWD: DWS: ADS的读取任务分别是35:44:7:14，直接读取ODS层任务占着四层任务总和的35.3%。

2.2 问题分析

通过对比资源消耗和日志统计，我们总结出了两个问题：

大部分任务都是从原始数据直接加工，DWS等聚合模型复用性很差，导致DWD、DWS、ADS层数据建设缺失严重。
查询越底层的表，就会导致查询扫描的数据量越大，查询时间越长，消耗资源越大。像是滚雪球一般，查询时间疯狂增长。

随后对ADS应用层引用最大依赖层进行分解，发现高达54.3%的表直接引用了ODS层表，说明有部分ODS层表被进行暴力跨层深加工且没有走可复用的数据模型。

2.3 问题处理

在发现问题后，我重新对数仓的层级表进行改造。主要从拆解表的层级依赖和数据量两方面出发，重构后的DWD、DWS、ADS层如下:

自此，数仓的复用性得到了很大的提高，凌晨计算资源也得到了很大的缓解。

通过对这个实际生产应用问题的分析，我们得出最理想的数仓模型设计应该具备的基本因素。

（1）数据模型可复用
（2）整体资源消耗合理可控

这两个基本要素，也是数据质量建设解决的核心问题。

数仓质量的建设是数仓体系必备环节。否则一个业务还没有起来就已经被高昂的数据成本所压垮，最终走入望数兴叹的尴尬境地。

3 数仓质量度量体系及升级思路

数据仓库想做到高效、稳定、易用，一个完善可靠的质量度量体系必不可少。

业界评估数据质量的标准不尽相同，本文从以下可信度、复用度、规范度、资源度、稳定度、完善度六个维度考核数仓建设质量以及对应的升级思路。

3.1 可信度

数据可信是数仓的立身之本。连数据的可信度都不高的数仓很显然得不到业务团队的青睐。

要做到数据可信首先要确保以下几点：

1）准确性

准确性是指数据记录的信息是否存在异常或错误。数据记录的异常或错误可能会存在数据链路的各个环节。

最为常见的数据准确性错误如：埋点上报异常，乱码，数据计算规则错误。常见的准确性指标有：缺失值占比、错误值占比、异常值占比、抽样偏差、数据噪声。

在计算这些指标的时候通常需要数据团队与其他团队一起合作，对数据进行校验。

例如数仓数据的准确性往往在数据埋点上传的时候就会受到挑战。

升级思路

建设公司级标准的埋点SDK

即便公司级已有一套标准的SDK，由不同的业务性技术人员接入时也会因理解问题或内部沟通问题导致埋点数据上报误差。
建设后台埋点上报测试平台

此时经常需要数据开发人员利用对埋点进行测试以及规范，确保源头准确性，并相应的调整取数规则。
对比第三方平台

当然，我们也可以利用第三方平台的数据对一些指标数据进行对比，如果很多公司很早之前就接入过类似友盟，有赞这样的平台。对于一些核心数据可以拿第三方平台数据进行参考。

2）数据唯一性

唯一性指的是数据库的数据不存在重复的情形。

数仓当中一般没有主键唯一约束的概念。我们通过数据同步工具将数据库中的数据导入到数仓当中很难避免数据重复。

升级思路

数据清洗侧加入数据唯一性规则：

例如同一笔订单因为宕机等原因被重复消费，这种数据不符合数据唯一性。为了避免这类情况会很多做法，比如：kafka幂等、flink的checkpoint、下游数据库主键唯一去重等。
建设数据质量监控体系：

对数据内容的的质量进行一系列检测，并计算出若干量化指标，最后产出数据质量报告供该数据的订阅者查阅。如下图：

合理的数据质量监控体系使表的关注者能及时收到相关的告警信息，发现和解决数据问题。而不是等业务人员找到技术人员反应问题，彼时已经相对被动。

3）数据一致性

一致性是指数据是否遵循了统一的规范，主要体现在数据记录的规范和数据是否符合逻辑。

一致性并不意味着数值上的绝对相同，而是数据收集、处理的方法和标准的一致。常见的一致性指标有：采集方法一致、转化步骤一致、取值逻辑一致。

例如计算DAU时业务线以设备ID进行计算而不是用户ID。

3.2 复用度

复用度即下层表被上层表的平均引用次数。对应一个数据表而言，其复用度应该是它的下游表个数，也就是有多少张表是由该表直接参与计算产生的。

而对每一层的所有表，取它们复用度的平均值，就是该层的平均复用度。

例如DWD层的复用度一般应该在2-3左右，如果小于2，往往说明DWD层的数据模型设计的不够好，复用性比较差。

升级思路

建设发散性结构数仓模型:

如下图，我们可以看到，一个比较差的模型设计，自上而下是一条线。而理想的模型设计，它应该是交织的发散性结构。

3.3 规范度

规范度描述数据遵循预定的语法规则的程度，是否符合其定义，比如表是否被归属到确定的分层以及主题域中，同时表明是否反映了该表的分层信息和业务主题域信息。

如果数据仓库中只有较少比例的表有分层信息，那这个数据仓库建模肯定是不合格的。

同样的，如果表没有被归属到确定的主题域，用户在使用数据的时候也很难找到这张表，这样的数据数仓建模不规范。

除了表以外，数据表中的字段命名是否规范、具有直接血缘继承关系的字段命名是否一致也属于规范度衡量的范畴。

3.4 资源度

资源度主要取决于对表的成本量化。表的成本就是简单的由其自身的计算成本和存储成本相加。

而在计算其下游表的成本的时候，就要叠加上游表的成本进去。同样的，在一个表有多个下游表的情况下，其成本应该分摊到其所有下游表的成本中。

这里可以总结出数仓中表的成本公式，在老兵之前的文章也有讲到过，如下图：

表的成本：

其中为表的入度，为表的出度，(=1,2,...,)为表的所有上游表，为表的存储成本，为表的直接任务计算成本。

当我们发现数据表的成本极高，就需要关注计算任务是否有可以优化的地方或者继续存在的必要。

比如常见的资源优化的手段：

升级计算引擎（比如有Hive切换到Spark）
数据分区本地预计算
列存储&文件压缩

3.5 稳定度

稳定度可以用两个标准来衡量：

及时性
容错性

及时性是指数据从产生到可以查看的时间间隔，也叫数据的延时时长。

比如一份数据是以T+1进行更新的，结果到了第二天甚至第三天才能统计完，这样的任务显然不符合数据及时性。

在和数据打交道的时候经常会出现一下场景：

场景一：当数据分析人员发现数据明显异常，就会要求数据开发进行排查。数据开发花费大量的时间定位问题的根源
场景二：数据开发定位到数据一次是因为外部源数据异常，导致下游的计算都出现问题。但是修复数据过程需要人工介入且低效。

如果数仓应付不了以上这些场景，说明它的容错性是很低的。

归结起来这样的数据仓库存在两个问题：问题根源定位慢以及修复数据成本高

升级思路

参考老兵上一篇文章（腾讯分析师第三弹：数据治理那些事儿）
引入第三方工具

小团队如果无法做到如（1）一样比较完善的系统，推荐引入DataX（数据同步框架）和DolphinScheduler（海豚调度框架）。

结合自身的业务与这两个框架结合也可以比较好的保证数仓建设的稳定度。

3.6 完善度

完善度是指DW中各层数据模型建设的完善程度，DW包括DWD明细层和DWS/DWM等汇总层。

对于DWD明细层的完善度，我们用汇总层对ODS层的跨层引用率来衡量。

如上图，绿色箭头的我们认为是规范的跨层引用，黄色次之，而红色部分则不建议这样做。

按照数仓建模规范，跨层应用是应该被避免的现象，如果DWS/DWM等汇总层的计算必须跳过DWD层直接应用ODS层数据，那就说明DWD层的数据模型不够完善，还未覆盖所有的明细查询场景。

在数仓模型建设过程中，我们应该追求0%的跨层应用率。

ODS层应该完全由DWD层屏蔽，实现原始数据与上层数据的隔离。
DWS/DWM等汇总层的完善度，我们则需要通过汇总层对业务查询的支持率来衡量，即有多少业务查询需求是有汇总层直接支持的。

与跨层引用率不同，我们对这里的支持率只是要求越高越好，但是面对复杂多变的业务查询需求，这里的支持率很难做到100%。

4 写在最后

还记得前辈说过的话：升级数据仓库，重点在数据质量场景，对此我深以为然。如何更好的建设数据仓库，维护一套标准的数据质量体系，是数仓人需要关注的一个重点。

希望本文能给数仓开发的小伙伴带来启发，帮助大家建设一个高质量、稳定高效的数仓。

》》》更多好文，欢迎关注我的gzh: 大数据兵工厂

Redis性能测试：工具、参数与实战示例 Seal^_^ 数据库专栏 #数据库--Redis redis 数据库 Redis性能测试
Redis性能测试：工具、参数与实战示例1.Redis性能测试概述2.redis-benchmark基础使用2.1基本语法2.2简单示例3.性能测试参数详解4.实战测试示例4.1基础测试4.2指定命令测试4.3带随机key的测试4.4大数据测试4.5管道测试5.性能测试流程图6.测试结果分析与优化建议6.1结果解读6.2优化建议7.高级测试场景7.1持久化影响测试7.2集群测试7.3长时间稳定性测
计算机系毕业生的前途在哪（一个牛人对计算机系的阐述）蚊子嵌入式嵌入式操作系统 wince linux 手机游戏 j2me
值得未毕业的、刚毕业的、或想转行的朋友们揣摩参考。一、关于企业计算方向企业计算(EnterpriseComputing)是稍时髦较好听的名词，主要是指企业信息系统如：ERP软件(企业资源规划)、CRM软件(客户关系管理)、SCM软件(供应链管理，即物流软件)，银行证券软件财务软件电子商务/政务(包括各种网站)，数据仓库，数据挖掘，商务智能等企业信息管理系统。企业计算领域对人才的需求显然永远是数量最
2025年各细分产业链企业数据(汽车、数字经济、食品、制造业) 经管数据库汽车智能手机数据分析
本数据包含2025年及之前的所有上中下游企业信息，67个细分产业。汽车专区、数字经济专区、数字创意专区、未来产业专区、高端装备专区、新能源专区、食品农业专区、传统制造业专区等71个文件。汽车专区：充电桩制造动力电池汽车材料制造汽车制造汽车制造设备汽车座椅制造驱动电机制造燃料电池汽车制造燃料电池系统制造新能源汽车制造智能驾驶智能视觉数字经济专区：5g边缘计算大数据类服务器光通信集成电路区块链人工智能
大学生学软件必看欧巴Godwin 日志嵌入式嵌入式操作系统 wince linux 手机游戏 j2me
一、关于企业计算方向企业计算(EnterpriseComputing)是稍时髦较好听的名词，主要是指企业信息系统,如ERP软件（企业资源规划）、CRM软件（客户关系管理）、SCM软件（供应链管理，即物流软件）,银行证券软件,财务软件,电子商务/政务（包括各种网站），数据仓库，数据挖掘，商务智能等企业信息管理系统.企业计算领域对人才的需求显然永远是数量最大的,因为这是计算机应用最多的领域.搞这方面的
通过数据库评估存储设备IO性能-Oracle11gIO校准功能介绍 diuluoshuai2303 数据库运维操作系统
通过数据库评估存储设备IO性能---------Oracle11gIO校准功能介绍前言I/O子系统是ORACLE数据库的一个重要组成部分，因为I/O操作是贯穿数据库管理全过程，它操作的对象包括日志、表、索引、数据字典、以及一些排序、undo操作等等，每个数据库读取或者写入磁盘上的数据，都会产生磁盘IO，可以这么说一个正常业务的数据库系统，80%的性能消耗都与IO有关，相对于网络、CPU、内存等其他
达梦数据库运维-DM8到ORACLE11g创建DBLINK
DM8到ORACLE11g创建DBLINK一、安装Oracle11g客户端安装配置1)解压安装客户端进入/dm/创建oracle客户端目录mkdir-p/dm8/oracleclient/chowndmdba.dinstall-R/dm8/oracleclient/cd/dm8/oracleclient/tar-xvfdbclt11204_x64_RHEL7U4_x64.tar.gz2)将orac
【实操】信息安全工程师系列-第22关网站安全需求分析与安全保护工程披荆斩棘的GG 安全
【实操】信息安全工程师系列-第22关网站安全需求分析与安全保护工程********永远不要信任用户输入。—安全编程格言一、网站安全基础概念与威胁分（一）核心定义**网站安全目标：**保障机密性（数据不泄露）、完整性（数据不被篡改）、可用性（服务不中断）和可控性（管理可控制）。**技术架构：**基于B/S架构，涉及网络通信、操作系统、数据库、Web服务器（如Apache、IIS）、Web应用及相关协
缓存三兄弟和布隆过滤器想躺平的咸鱼干 redis 缓存哈希算法算法 java intellij-idea
缓存三兄弟缓存穿透：大量的请求查询数据库中不存在的数据，缓存直接从机数据库，导致数据库压力过大甚至宕机解决方案：布隆过滤器：在缓存层前加入布隆过滤器，预存合法数据的Key，请求到达时先通过布隆过滤器查看是否存在，查看是否拦截。缓存空对象：对数据库中不存在的数据，缓存一个短期的空值。需要结合异步线程定期清理无效空值，避免长期占用内存。缓存空对象缓存空对象：是一种解决缓存穿透问题的策略，当查询某个不存
C#语法基础总结（超级全面）（二） inwith C#语法基础 c#开发语言
文章目录c#语法基本元素关键字操作符（operator）类型转换标识符（Identifier）语句try语句迭代语句（循环语句）索引器文本（字面值）五大数据类型引用类型：值类型：变量、对象与内存装箱和拆箱类类的实例化类的三大成员（属性、方法、事件）属性（property）方法（函数）方法参数值参数引用参数输出参数数组参数具名参数可选参数扩展方法（this参数）方法的重载构造器（constructo
QT 交叉编译环境下，嵌入式设备显示字体大小和QT Creator 桌面显示不一致问题解决
第一步：发送fc-list命令，查找嵌入式环境下支持的字库第二步为每个控件指定字库文件，以label控件为例：intfontId=QFontDatabase::addApplicationFont("/usr/share/fonts/source-han-sans-cn/SourceHanSansCN-Normal.otf");if(fontId==-1){//qDebug()label->set
C#中的LINQ解析三千道应用题 C#学无止境 c#
本文仅作为参考大佬们文章的总结。LINQ（LanguageIntegratedQuery，语言集成查询）是C#中一项革命性的技术，它将查询功能直接集成到C#语言中，使开发者能够以声明式的方式查询各种数据源。LINQ提供了一种统一的语法来查询和操作不同类型的数据，包括内存中的集合、数据库、XML文档等，极大地简化了数据处理流程。一、LINQ概述与核心概念1.LINQ的定义与价值LINQ是.NETFr
Spring框架整合Redis哨兵模式的实战教程轩辕姐姐
本文还有配套的精品资源，点击获取简介：Spring框架作为Java企业级开发的重要组件，与Redis高性能键值数据库结合，特别是在其哨兵系统支持下，能实现Redis服务的高可用性。本文详细阐述了如何在Spring项目中整合Redis哨兵模式，包括依赖添加、配置哨兵系统、创建连接工厂、配置RedisTemplate以及异常处理等关键步骤。通过整合，可以确保应用数据存储和缓存的稳定性和连续性，适用于需
Day04_C语言网络编程20250716_sql语言大全 liujing10232929 C语言网络编程 c语言网络 sql
linux中sql语法大全：MYSQL数据库什么是数据库：关系型数据管理系统数据库的结构层次：数据库文件(后缀名.db)->表单->字段->存储的数据数据库里面针对数据的所有操作，都需要使用指令去实现MYSQL数据库特点：特别适合web的环境，和PHP结合非常好低版本的MYSQL依旧是开源软件，适合用来做二次开发先安装一下mysql安装前，检测是否安装了mysql:rpm–qa|grepmysql
分布式弹性故障处理框架——Polly(1)
1前言之服务雪崩在我们实施微服务之后，服务间的调用变得异常频繁，多个服务之前可能存在互相依赖的关系，当某个服务出现故障或者是因为服务间的网络出现故障，导致服务调用的失败，进而影响到某个业务服务处理失败，服务依赖的故障可能导致级联崩溃，如一个微服务不可用拖垮整个系统。【服务雪崩】服务雪崩通常遵循“从局部故障到全局崩溃”的递进路径，可拆解为以下步骤：初始故障某个基础服务（如数据库、缓存、第三方API）
DataLoader
在PyTorch中，DataLoader是torch.utils.data模块中的一个重要类，用于将数据集包装成可迭代对象，在训练和测试模型时提供了高效、便捷的数据加载和批处理功能。主要作用:批量处理数据：将数据集中的样本整理成一个个批次（batch），方便模型进行一次处理多个样本，加速训练过程。例如，设置batch_size=32，就会每次从数据集中取出32个样本组成一个批次。数据打乱：在训练过
OPC UA与PostgreSQL如何实现无缝连接？果壳里的世界 postgresql 数据库
随着工业4.0的推进，数据交换和集成在智能制造中扮演着越来越重要的角色。OPCUA能够实现设备与设备、设备与系统之间的高效数据交换。而PostgreSQL则是一种强大的开源关系型数据库管理系统，广泛应用于数据存储和管理。如何将OPCUA与PostgreSQL结合起来，为工业数据的存储和分析提供坚实的基础？本文将介绍如何通过OPCRouter的PostgreSQL插件，实现OPCUA与Postgre
react native 之自定义顶部导航栏，实现标题居中可控铁柱同学 React Native react native基础讲解 react-native 导航栏标题居中
本来一直用的都是RN自带的组件react-navigation，但是后面需求有变，需要顶部导航栏目的标题可以自己控制，同一页面的标题根据数据库查出来的内容变化。因此自定义了一个导航栏目，实现需求。关于RN自带的顶部导航栏以及底部导航栏目，请看我的另一篇博客，地址：http://blog.csdn.net/ljfphp/article/details/77940284一、背景1、根据需求，要求点击列
数据湖与数据仓库在云平台的融合架构：Delta Lake实战指南 AI云原生与云计算技术学院 AI云原生与云计算数据仓库架构 ai
数据湖与数据仓库在云平台的融合架构：DeltaLake实战指南关键词：数据湖,数据仓库,云平台,融合架构,DeltaLake,湖仓一体,数据治理摘要：本文深入探讨数据湖与数据仓库在云平台的融合架构，以DeltaLake为核心技术载体，解析湖仓融合的技术原理、实施路径及最佳实践。通过对比传统数据架构的痛点，阐述DeltaLake如何通过ACID事务、Schema管理、时间旅行等特性实现非结构化数据湖
文献笔记八十一：植物长链非编码RNA数据库PLncDB 2.0 小明的数据分析笔记本
论文链接https://academic.oup.com/nar/article/49/D1/D1489/5932847本地文件gkaa910.pdf
学生信息管理系统的VFP数据库设计与实现溪水边小屋
本文还有配套的精品资源，点击获取简介：《学生管理系统vfp数据库》是一个基于VisualFoxPro（VFP）的学生信息管理软件，旨在帮助教育机构记录、管理学生数据并提供分析功能。该系统包括数据库设计、用户界面设计、数据操作、事务处理、报表统计、安全性管理、程序架构及代码优化等核心功能。学生管理系统是VFP数据库开发的学习和实践平台，适用于初学者。1.VisualFoxPro数据库开发基础Visu
【Bluedroid】蓝牙启动之 btm_acl_device_down 流程源码解析 byte轻骑兵 Android C++Bluedriod Andriod
本文详细分析Android蓝牙协议栈在设备故障时的处理流程。当蓝牙设备发生硬件故障或系统异常时，协议栈通过btm_acl_device_down触发多层次的资源清理和状态重置，包括ACL连接终止、L2CAP通道释放、SCO连接清理、BLE拓扑更新、设备数据库重置等关键操作，确保系统安全恢复。一、概述1.1蓝牙核心控制块与故障处理框架蓝牙协议栈通过全局控制块tBTM_CB实现跨模块状态管理，其整合了
SQL 常用版本语法概览：标准演进与关键语法分析
一、引言SQL（StructuredQueryLanguage，结构化查询语言）是关系型数据库系统的核心语言，自1986年成为ANSI和ISO标准以来，经历了多次版本演进，不断增强语义表达能力以适应复杂的企业数据需求。随着数据库技术的不断发展，各大数据库厂商（如Oracle、SQLServer、PostgreSQL、MySQL等）在实现标准的基础上扩展了大量方言语法，使得掌握SQL的标准语法版本成
Redis面试精讲 Day 3：Redis持久化机制详解在未来等你 Redis面试专栏 Redis 面试题持久化 RDB AOF 数据库缓存
【Redis面试精讲Day3】Redis持久化机制详解文章标签Redis,面试题,持久化,RDB,AOF,数据库,缓存,后端开发,分布式系统文章简述本文是"Redis面试精讲"系列第3天内容，深入解析Redis持久化机制这一面试高频考点。文章从基础概念出发，详细剖析RDB和AOF两种持久化方式的实现原理、触发机制和优缺点对比，提供多语言客户端操作示例和性能测试数据。针对"如何选择持久化策略"、"A
桌面问题 —— 解决 Windows 桌面部分快捷方式图标变为空白的问题 ice.Ynov23 Windows Solutions windows
解决Windows桌面部分快捷方式图标变为空白的问题第一种文件没有消失的情况打开本地应用数据存储位置（C:\Users\用户名\AppData\Local）快捷打开方式：按下Windows+R键，在弹出的运行对话框中输入%localappdata%，回车确定。在打开的本地应用数据存储窗口中，找到并删除Iconcache.db文件。打开任务管理器，找到Windows资源管理器。右键单击Windows
主流数据库语言语法对比两圆相切数据库
以下是五大数据库（MySQL、PostgreSQL、Oracle、SQLServer、SQLite）核心语法对比，涵盖DDL、DML、查询、函数、事务等全场景，包含底层原理差异和实用示例。##一、数据一、类型深度对比分类MySQLPostgreSQLOracleSQLServerSQLite整数TINYINT,INT,BIGINTSMALLINT,INT,BIGINTNUMBER(10)TIN
php 二维数组按照指定的字段作为key Carver大脸猫后端笔记【PHP】php 开发语言
在PHP中，如果你有一个二维数组，并希望使用其中某个字段的值作为新数组的键（key），可以使用array_column()和array_combine()，或者使用foreach循环来实现。✅示例：使用array_column()和array_combine()假设你有如下二维数组：$data=[['id'=>1,'name'=>'Alice'],['id'=>2,'name'=>'Bob'],[
frida objection注入时frida.core.RPCException: ReferenceError: ‘ObjC‘ is not defined解决马戏团小丑 java android
最新的17.0.xx版本frida进行objection注入时会报错PSC:\Users\19583>objection-gcom.example.hellojniexploreC:\Users\19583\AppData\Local\Programs\Python\Python312\Lib\site-packages\objection\utils\update_checker.py:7:Us
Hadoop与云原生集成：弹性扩缩容与OSS存储分离架构深度解析
Hadoop与云原生集成的必要性Hadoop在大数据领域的基石地位作为大数据处理领域的奠基性技术，Hadoop自2006年诞生以来已形成包含HDFS、YARN、MapReduce三大核心组件的完整生态体系。根据CSDN技术社区的分析报告，全球超过75%的《财富》500强企业仍在使用Hadoop处理EB级数据，其分布式文件系统HDFS通过数据分片（默认128MB块大小）和三副本存储机制，成功解决了P
JFinal项目demo，实现多数据源，数据迁移，从一张表，将数据添加到另外的一张表苦荞_ java 开发语言
一、废话今天项目经理给了我一个任务，就是需要将一个数据库中字典表的数据，相对应的添加到另外一张表中，这里将有数据的字典表成为dict嘛，需要添加数据的表为test表，我写的demo中表名也是这样的。当然呢，最开始我也是手动写SQL语句添加数据，搞了一两个字典数据，就着不住了，实际项目中的字典表数据是非常多的。一个字典类型有的就上千条数据，我一想，像我楞个加，得加到什么时候去。先想到的就是在原项目中
sqlite加密问题：怎么样打开这个通过sha512加密的sqlite数据库文件？ bug菌¹ 全栈Bug调优(实战版)sqlite c++sqlite加密数据库文件
本文收录于《全栈Bug调优(实战版)》专栏，主要记录项目实战过程中所遇到的Bug或因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！全文目录：问题描述解决方案1.**理解SQLite的加密扩展**2.**确认加密实现方式**3.**根据SHA-512的加密逻辑调整代码**4.**解决方案步骤****方
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin

万字详解数据质量那些事儿

1 数仓建设的核心要求

2 怎么判定好的数据模型设计

2.1 场景复现

2.2 问题分析

2.3 问题处理

3 数仓质量度量体系及升级思路

4 写在最后

你可能感兴趣的:(大数据,数据仓库,big,data,数据库,大数据)