寒暄

数据质量概述及通用脚本

概述

数据质量表示着数据的健康性。

数据质量的高低代表了该数据满足数据消费者期望的程度，这种程度基于他们对数据的使用预期，也就是数据的准确程度是否达到他们的要求。

而数据质量管理就是负责这个的模块。

数据质量标准分类

数据完整性
不存在大量或关键字段缺失值，在ETL过程中保证数据完整不丢失。数据总数增长符合正常趋势。
数据一致性
数仓各层数据应与上一层数据一致，数仓指标与数据源保持一致。
数据唯一性
每一个事实应当只出现一次。

增量数据质量检验通用脚本（指定分区数据质量检验）

表格式：

create table table_increment(
    data_date string comment '数据时间分区dt',
    database_name string comment '库名',
    table_name string comment '表名',
    table_type string comment '表类型（全量/增量）',
    add_count bigint comment '当日新增数量的记录数',
    null_count bigint comment '表空值记录数',
    duplicate_count bigint  comment '表重复值记录数',
    total_count bigint comment '全表记录数'
)

脚本：

#!/bin/bash
# 校验数据的库名
database_name = $1
# 新增数据所在分区
do_date = $2
# 校验数据的表名
table_name = $3
# 需要校验空值的列名，以 ‘,’分割
null_column = $4

# 初始化SQL查询语句
null_where_sql_str=''
# 将空值校验字段切分为数组
array=(${null_column//,/})
# 遍历数组，拼接空值查询条件
for(( i=0;i< ${#array[@]};i++)) do
    if [$i -eq 0];then
        null_where_sql_str = "where ${array[i]} is null"
    else
        null_where_sql_str = "$null_where_sql_str or ${array[i]} is null"
    fi
done;

# 执行当日增量数据记录数量SQL查询语句
echo "----------检验当日增量记录数----------"
add_count_query_result = `hive -e "select count(*) from $database_name.$table_name where dt='$do_date'"`           
# 取出当日增量数据记录数量
add_count = ${add_count_query_result:3}    

# 执行当日全表数量记录数量SQL查询语句
echo "----------检验当日全量记录数----------"
total_count_query_result = `hive -e "select count(*) from $database_name.$table_name"`
# 取出当日全量数据记录数量
total_count = ${add_count_query_result:3}   

# 执行全表空值数量记录数量SQL查询语句
echo "----------检验全表空值记录数----------"
total_null_query_result = `hive -e "select count(*) from $database_name.$table_name $null_where_sql_str"`
# 取出全量空值数据记录数量
null_count = ${table_null_query_result:3}

# 执行全表重复值数量记录数量SQL查询语句
echo "----------检验全表重复值记录数----------"
table_duplicate_query_result = `hive -e "select sum(tmp.duplicate_count) a duplicate_sum from(select count(*) as duplicate_count from $database_name.$table_name group by $null_column having count(*)>1) as tmp"`
# 取出当日全量数据记录数量
duplicate_count = ${table_duplicate_query_result:3}

# 将所有数据校验结果插入到表中
echo "----------开始插入数据----------"
hive -e "insert into datacheck.table_increment values('$do_date','$database_name','$table_name','increment_table',$add_count,$null_count,$duplicate_count,$total_count)"

四个参数：

第一个参数是数据库名
第二个参数是分区名
第三个参数是表名
第四个参数是字段名，字段名以逗号分隔

全量数据质量检验通用脚本

表格式：

create table table_total_quantity(
    data_date string comment '数据时间分区dt',
    database_name string comment '库名',
    table_name string comment '表名',
    table_type string comment '表类型（全量/增量）',
    null_count bigint comment '表空值记录数',
    duplicate_count bigint  comment '表重复值记录数',
    total_count bigint comment '全表记录数'
)

脚本：

#!/bin/bash
# 校验数据的库名
database_name = $1
# 校验数据的表名
table_name = $2
# 需要校验空值的列名，以 ‘,’分割
null_column = $3

# 初始化SQL查询语句
null_where_sql_str=''
# 将空值校验字段切分为数组
array=(${null_column//,/})
# 遍历数组，拼接空值查询条件
for(( i=0;i< ${#array[@]};i++)) do
    if [$i -eq 0];then
        null_where_sql_str = "where ${array[i]} is null"
    else
        null_where_sql_str = "$null_where_sql_str or ${array[i]} is null"
    fi
done;

# 执行当日全表数量记录数量SQL查询语句
echo "----------检验当日全量记录数----------"
total_count_query_result = `hive -e "select count(*) from $database_name.$table_name"`
# 取出当日全量数据记录数量
total_count = ${add_count_query_result:3}   

# 执行全表空值数量记录数量SQL查询语句
echo "----------检验全表空值记录数----------"
total_null_query_result = `hive -e "select count(*) from $database_name.$table_name $null_where_sql_str"`
# 取出全量空值数据记录数量
null_count = ${table_null_query_result:3}

# 执行全表重复值数量记录数量SQL查询语句
echo "----------检验全表重复值记录数----------"
table_duplicate_query_result = `hive -e "select sum(tmp.duplicate_count) a duplicate_sum from(select count(*) as duplicate_count from $database_name.$table_name group by $null_column having count(*)>1) as tmp"`
# 取出当日全量数据记录数量
duplicate_count = ${table_duplicate_query_result:3}

# 将所有数据校验结果插入到表中
echo "----------开始插入数据----------"
hive -e "insert into datacheck.table_total_quantity values('$do_date','$database_name','$table_name','increment_table',$null_count,$duplicate_count,$total_count)"

四个参数：

第一个参数是数据库名
第二个参数是表名
第三个参数是字段名，字段名以逗号分隔

ODS层数据质量校验

首先把ODS层中的表分为需要增量检查的表与需要全量检查的表，然后调用相应的脚本。

增量检查

订单详情表(ods_order_detail)
用户表(ods_user_info)
支付流水表(ods_payment_info)
。。。

全量检查

订单表(ods_order_info)
SKU商品表(ods_sku_info)
商品一级分类表(ods_base_category1)
商品二级分类表(ods_base_category2)
商品三级分类表(ods_base_category3)
。。。

这样的话，我们可以写一个shell脚本，将质量检测脚本调用每个表的语句都写进去。

#!/bin/bash
# 增量检测

# 分区
data_date = $1


/usr/hdk/table_increment.sh mall $data_date ods_order_detail id,order_id,user_id,sku_id,sku_name,order_price,sku_num,create_time

/usr/hdk/table_increment.sh mall $data_date ods_user_info id,name,birthday,gender,email,user_level,create_time,operate_time

/usr/hdk/table_increment.sh mall $data_date ods_payment_info id,out_trado_no,order_id,user_id,alipay_trado_no,total-amount，subject，payment_type,payment_time

# 全量检测
/usr/hdk/table_total_quantity.sh mall ods_order_info  ..,..

...

然后就不用一个一个敲了，直接跑脚本就行。

DWD层数据质量校验

你可能感兴趣的:(---数据质量,数据质量)

爬虫之隧道代理：如何在爬虫中使用代理IP？ 2401_87251497 python 开发语言爬虫网络 tcp/ip 网络协议
在进行网络爬虫时，使用代理IP是一种常见的方式来绕过网站的反爬虫机制，提高爬取效率和数据质量。本文将详细介绍如何在爬虫中使用隧道代理，包括其原理、优势以及具体的实现方法。无论您是爬虫新手还是有经验的开发者，这篇文章都将为您提供实用的指导。什么是隧道代理？隧道代理是一种高级的代理技术，它通过创建一个加密的隧道，将数据从客户端传输到代理服务器，再由代理服务器转发到目标服务器。这样不仅可以隐藏客户端的真
如何让大模型更聪明？吗喽一只人工智能算法机器学习
随着人工智能技术的飞速发展，大模型在多个领域展现出了前所未有的能力，但它们仍然面临着理解力、泛化能力和适应性等方面的挑战。让大模型更聪明，从算法创新、数据质量与多样性、模型架构优化等角度出发，我们可以采取以下策略：一、算法创新优化损失函数：损失函数是优化算法的核心，直接影响模型的最终性能。在大模型中，需要设计更为精细的损失函数来捕捉数据中的复杂性和细微差别。例如，结合任务特性和数据特性，设计多任务
大规模语言模型的书籍分享，从零基础入门到精通非常详细收藏我这一篇就够了黑客-雨语言模型人工智能自然语言处理学习大模型学习大模型入门大模型教程
在当今人工智能领域，大规模语言模型成为了研究和应用的热点之一。它们以其大规模的参数和强大的性能表现，推动着机器学习和深度学习技术的发展。对于GPT系列大规模语言模型的发展历程，有两点令人印象深刻。第一点是可拓展的训练架构与学习范式:Transformer架构能够拓展到百亿、千亿甚至万亿参数规模，并且将预训练任务统一为预测下一个词这一通用学习范式;第二点是对于数据质量与数据规模的重视:不同于BERT
AJAX实时表单验证系统三年九班蓝同学
本文还有配套的精品资源，点击获取简介：在网页开发中，"ajax验证表单"是一项关键任务，确保数据符合格式和规则，提升数据质量和用户体验。本应用通过使用JavaScript和XMLHttpRequest对象实现后台验证，无需页面刷新。它包括前端验证、事件处理、Ajax调用、服务器端处理、响应处理、用户体验和安全性等关键步骤，以jQuery库简化开发流程，创建高效、安全的表单验证系统。1.表单验证的重
客户数据管理的最佳实践-构建客户统一视图 hanxiaolaa 数据治理大数据经验分享其他数据挖掘深度学习
文章摘自7月16日，华矩科技数据治理系列讲座，谭海华先生带来的分享：客户数据管理的最佳实践-构建客户统一视图，说明客户数据管理的流程与难点，以及数据质量与治理在构建客户统一视图的角色。今天我想跟各位分享的主题是客户信息管理，这个也是现在很多企业关注的一个话题，从大数据的发展，包括数据变现，很多都是在数字营销、ECIF、客户信息管理这些领域，尤其关注这些问题的是保险业。在我过往的工作里面也接触到不少
论数据治理的价值：解锁数字时代的核心竞争力 ShiTuanWang java 大数据人工智能数据提取数据挖掘数据治理
在数字化转型浪潮席卷全球的今天，数据已成为企业最宝贵的资产之一，其重要性不亚于传统的资本、人力和技术。然而，随着数据量的爆炸性增长和来源的多样化，如何有效管理、利用和保护这些数据，成为了摆在企业面前的重要课题。数据治理，作为一套系统化的管理框架，其价值日益凸显，成为企业解锁数字时代核心竞争力的关键。一、提升数据质量，奠定决策基石数据治理的首要价值在于提升数据质量。通过制定统一的数据标准、规范数据采
数据清洗：信息时代的黄金前奏 ShiTuanWang 数据挖掘数据分析人工智能数据治理数据清洗
数据清洗：信息时代的黄金前奏在当今这个数据驱动的时代，信息已成为社会发展的重要资源。企业、政府乃至个人，都依赖于数据分析来指导决策、优化流程、预测趋势。然而，在数据从产生到应用的整个链条中，一个至关重要的环节往往被忽视或低估，那就是数据清洗（DataCleaning）。数据清洗，作为数据预处理的核心步骤，其重要性不言而喻，它是确保数据质量、提升数据分析准确性与效率的关键所在。一、数据清洗的定义与意
数据治理框架下的数据提取审计：确保数据质量和安全性筛斗数据大数据人工智能数据库数据仓库数据治理数据安全
数据治理框架下的数据提取审计：确保数据质量和安全性一、引言在数字化时代，数据已成为企业最重要的资产之一。数据治理框架是确保数据资产得到有效管理和保护的关键机制。其中，数据提取审计作为数据治理的重要组成部分，对于确保数据质量和安全性具有重要意义。本文将探讨在数据治理框架下，如何通过数据提取审计来确保数据质量和安全性。二、数据治理框架概述数据治理框架是一套全面的、结构化的管理策略和方法，旨在确保数据在
chatgpt赋能python：Python拆分CSV：快速轻松地处理大规模数据 b45e1933f46 ChatGpt chatgpt 人工智能计算机
Python拆分CSV：快速轻松地处理大规模数据在数据处理过程中，CSV（逗号分隔值）是常见的文件格式，但我们往往需要对其进行拆分以便更好地进行数据分析和处理。Python是一种流行的编程语言，具有高效，易于学习，易于开发和广泛适用的特点。在本文中，我们将介绍如何使用Python来拆分CSV文件，以便对大规模数据进行快速轻松地处理。为什么需要拆分CSV？在大规模数据处理中，常见的问题是数据质量较差
大数据测试这不巧了大数据测试工具 hadoop
大数据测试主要测试的点涵盖了多个方面，以确保大数据系统能够正常运行并满足业务需求。以下是一些主要的大数据测试点：一、数据质量测试数据完整性：确保数据在传输、存储和处理过程中没有遗漏或损坏，包括检查数据是否按照预期的规则和逻辑进行处理，如数据的清洗、去重、合并、转换等操作。数据准确性：验证数据处理过程中的计算、聚合和转换是否正确。这通常涉及比较处理前后的数据，确保结果的准确性，例如通过对比标准结果或
华为数据之道-读书笔记7 baidu_38792549 数据治理
打造“清洁数据”的质量综合管理能力一、基于PDCA的数据质量管理框架1、什么是数据质量华为数据质量指“数据满足应用的可信程度”，有以下6个维度完整性：数据在创建、传递过程中无缺失和遗漏，包括实体完整、属性完整、记录完整和字段值完整四个方面。及时性：及时记录和传递相关数据，满足业务对信息获取的时间要求。数据交付要及时，抽取要及时，展现要及时；数据交付时间过长可能导致分析结论失去参考意义。准确性：真实
从数据资源到数据资产的路有多长？数字天下人工智能机器学习算法
字化时代，数据正在以超凡的速度渗透到每一个行业和业务职能领域，成为了与土地、劳动力、资本、技术并列的五大生产要素之一。“数据即资产”已被企业广泛认可。然而，企业的数据仍然存在着大量沉睡的数据、数据孤岛严重、数据质量堪忧、数据安全隐患等诸多问题，这些问题不解决，数据就只是数据，算不得数据资产。01从数据资源到数据资产数据的朴素定义按照维基百科给出的定义数据是指对客观事件进行记录并可以鉴别的符号，是关
CDGA|数据治理：确保数据质量与价值的综合性框架 vx15302782362 弘博创新 CDGA数据治理大数据数据治理 CDGA
在当今的数字化时代，数据已成为企业运营和决策的核心资源。为了确保数据的质量、安全性、合规性和可用性，数据治理成为了企业不可或缺的一部分。数据治理是一个综合性的框架，涵盖了多个方面，旨在最大限度地利用数据资产并降低数据相关的风险。一、数据战略与政策数据治理的首要任务是制定数据战略，确立数据治理的总体方向和长期规划。这包括明确数据治理的目标、方针和政策，确保整个组织在数据管理方面保持一致性。同时，还需
人工智能在政务行业的发展会面临哪些挑战？ alankuo 人工智能人工智能
人工智能在政务行业的发展面临以下挑战：1.数据方面：-数据共享难：政务数据往往涉及多个部门和层级，不同部门之间的数据标准、格式和管理方式可能存在差异，导致数据难以共享。例如，公安、民政、税务等部门的数据可能因为各自的业务系统独立，难以实现有效整合，影响人工智能对多源数据的综合分析和利用。-数据质量低：部分政务数据存在不完整、不准确、不一致等问题，这会降低人工智能分析结果的可靠性和有效性。比如，某些
医药医疗行业数字化转型数据架构设计方法论及典型案例数字化建设方案数字化转型数据治理主数据数据仓库大数据人工智能数据挖掘数据库架构
医药医疗行业数字化转型数据架构设计方法论及典型案例医药医疗行业数字化转型数据架构设计方法论及典型案例数字化转型背景与趋势医药行业现状及挑战数字化转型必要性发展趋势与前景展望数据架构设计方法论数据架构概述及重要性设计原则与策略制定实施步骤与关键技术典型案例分析：某大型药企数据架构实践项目背景与目标设定数据架构规划与设计过程实施效果及经验总结面临的挑战与解决方案数据质量管理问题及对策数据安全防护策略部
数据库系统概论：数据库完整性 ZachOn1y 数据库数据库 oracle 后端数据库系统 mysql
引言数据库是现代信息系统的心脏，数据的准确性和一致性对于业务流程至关重要。数据库完整性是确保数据质量的基石，它涵盖了数据的正确性、相容性和一致性，是数据安全与业务连续性的保障。数据库完整性是指数据的精确性、可靠性和逻辑一致性，它防止数据库中出现不符合语义的数据。其目的是保护数据免受意外或恶意破坏，确保数据在逻辑上的一致性、正确性和有效性。数据库完整性基本概念数据库的完整性（integrity）是指
5G SPS配置 cuisidong1997 5G 服务器运维
‌SPS配置‌是一种技术，用于管理和优化数据传输，特别是在无线通信领域。它涉及到为特定的数据传输需求确定最佳的参数配置，以满足不同的传输需求。SPS配置的参数包括时域资源分配、调制编码方式、频域资源分配、虚拟资源块到物理资源块的映射方式、传输功率控制命令以及传输信道到HARQ-ACK的定时间隔等。这些参数的配置旨在提高传输效率和数据质量，同时确保数据传输的可靠性和稳定性。在实施SPS配置时，关键在
如何有效管理机器学习与人工智能听忆. 人工智能机器学习
如何有效管理机器学习与人工智能1.模型开发阶段的风险管理a.数据质量与偏见管理b.模型透明性与可解释性c.偏见与公平性测试2.部署阶段的风险管理a.安全与隐私保护b.实时监控与反馈机制c.模型回滚与更新机制3.运营阶段的风险管理a.道德与合规性管理b.风险预测与预防c.人机协同与决策支持4.持续学习与改进a.持续学习与模型更新b.社区参与与开源合作总结边走、边悟迟早会好管理机器学习（ML）和人工智
如何提升大模型的智能水平？刷刷刷粉刷匠人工智能机器学习大数据其他
如何让大模型更聪明？随着人工智能技术的飞速发展，大模型在多个领域展现出了前所未有的能力，但它们仍然面临着理解力、泛化能力和适应性等方面的挑战。那么，如何让大模型变得更聪明呢？以下从算法创新、数据质量与多样性、模型架构优化等方向进行详细阐述。一、不断探索和开发新的算法，以提高模型的学习和推理能力算法创新是提升大模型智能的重要途径。通过自监督学习和无监督学习，模型可以在大规模未标注数据上进行高效训练，
数据治理平台有哪些特色 ShiTuanWang java 运维大数据数据提取数据治理
数据治理提取平台（通常简称为数据治理平台）的特色主要体现在其全面的数据管理能力、先进的技术支持、灵活性与可扩展性、以及对企业数据治理需求的深度契合上。以下是对这些特色的详细阐述：一、全面的数据管理能力数据质量管理：确保数据的准确性、完整性和一致性。平台提供数据质量检查工具，支持数据比对、重复相似检查等，帮助用户发现数据集中的问题，并生成数据质量报告，以便进行问题数据处理。数据安全与合规性：保护数据
CDGA|数据治理落地实践指南：构建高效、安全的数据管理体系 vx15302782362 CDGA数据治理弘博创新大数据人工智能 CDGA 数据治理
在数字化转型的大潮中，数据已成为企业最宝贵的资产之一，而数据治理作为确保数据质量、提升数据价值、保障数据安全的关键环节，其重要性日益凸显。然而，数据治理并非一蹴而就，它需要系统性的规划、精细化的管理和持续性的优化。本文将为您提供一份数据治理落地实践指南，帮助您构建高效、安全的数据管理体系。一、明确数据治理目标1.1确立愿景与使命首先，企业需明确数据治理的愿景和使命，即希望通过数据治理达到什么样的目
python之数据模型训练过程详解 m0_68949064 Python python 开发语言
一、模型训练详解当涉及使用Python进行深度学习和神经网络训练时，整个过程可以分为几个关键步骤。这里我会详细解释每个步骤的主要内容和如何实施。1.数据准备在深度学习中，数据准备是非常重要的一步。数据准备的主要目标是将原始数据整理成模型可以使用的格式，并确保数据质量和适用性。数据获取和加载：使用Python中的工具（如NumPy、Pandas）从文件、数据库或API中加载数据。数据清洗和预处理：处
基于TOGAF的4A企业架构规划方法论：基于TOGAF的四个核心架构：业务架构、数据架构、应用架构和技术架构，结合自身业务特点和实践经验，形成的一套企业架构规划方法。数字化建设方案数字化转型数据治理主数据数据仓库架构 java 微服务
基于TOGAF的4A企业架构规划方法论基于TOGAF的4A企业架构规划方法论基于TOGAF的企业架构概述TOGAF框架简介4A企业架构核心理念企业架构规划目标与原则业务架构规划业务流程梳理与优化业务能力分析与定位业务架构设计模式与实践数据架构规划数据治理策略与原则数据模型设计与优化数据质量管理与安全保障应用架构规划应用系统需求分析与评估应用架构设计模式与实践应用集成与接口管理技术架构规划技术栈选型
【机器学习】探索数据矿藏：Python中的AI大模型与数据挖掘创新实践 C_GUIQU 机器学习人工智能 python
前言：探索数据矿藏1.数据获取与预处理：AI大模型的燃料1.1数据获取：多样性与规模并重1.2数据清洗与处理：提升数据质量1.3特征工程：挖掘数据的深层次信息1.4自动化特征工程：AI与特征工程的结合2.模型训练与优化：构建智能的大脑2.1模型选择：大模型的基础构建2.2模型训练：从数据到智能的转化2.3⚙️模型优化：精益求精的智能化提升2.4模型解释与可视化：揭示黑盒的内部3实际应用案例：AI大
什么是湖仓一体修破立生湖仓数据仓库 big data 数据库大数据
数据湖回顾在之前的文章《什么是数据湖》中提到数据湖遇到的几个挑战：不支持事务，缺乏对数据质量和治理的约束，缺乏性能优化的手段。缺乏对数据质量和治理的约束，数据存在可靠性的问题元数据存储的扩展性差，随着数据湖的数据越来越多，查询性能变得越来越慢湖仓是如何解决这些挑战的如何解决数据湖面临的挑战？在数据湖的基础之上引入事务层，把数据湖和数据仓库的优点有机结合在一起，形成了一个可以同时支持数据分析、数据科
物联网边缘网关有哪些优势？-天拓四方北京天拓四方科技股份有限公司物联网其他边缘计算
随着物联网技术的快速发展，越来越多的设备接入网络，数据交互日益频繁，对数据处理和传输的要求也越来越高。在这样的背景下，物联网边缘网关应运而生，以其低延迟、减少带宽消耗、提高数据质量和安全性等优势，为物联网应用提供了强大的支持。物联网边缘网关的应用场景广泛，几乎涵盖了所有需要实时数据处理和传输的领域。在工业场景中，边缘计算网关可以实时处理海量传感器和设备的数据，实现对运行、制造过程的全环节实时监控、
数据挖掘中的【数据预处理】 ZFour_X 文本挖掘学习数据分析大数据
学习参考链接：[整理一份详细的数据预处理方法(https://zhuanlan.zhihu.com/p/51131210)数据预处理有两种不同的理解：1、数据挖掘中的预处理改善数据质量，有利于后期分析数据去重数据异常：价格为-1——>删除样本字段缺失：缺少品牌——>从型号中提取数据噪声：存在充电线、手机壳等非手机类商品——>删除单位不一致：评论数量1200、1.2万——>转换数据归约：同一型号不同
大语言模型可信性浅谈 MarkHD 语言模型人工智能自然语言处理
大语言模型可信性的研究摘要：随着人工智能技术的快速发展，大语言模型在自然语言处理领域的应用越来越广泛。然而，大语言模型的可信性一直是人们关注的焦点。本文将从多个维度探讨大语言模型的可信性问题，包括模型性能、数据质量、隐私保护等方面，并提出相应的解决方案。一、引言大语言模型是指能够处理大规模文本数据的深度学习模型，如BERT、GPT等。这些模型在自然语言处理任务中取得了显著的成果，包括文本分类、情感
大厂的数据质量中心系统设计后端
日常工作中，数据开发上线完一个任务后并不是就可以高枕无忧，时常因上游链路数据异常或者自身处理逻辑的BUG导致产出的数据结果不可信。而问题发现可经历较长周期（尤其离线场景），往往是业务方通过上层数据报表发现数据异常后push数据方去定位问题（对于一个较冷的报表，这个周期可能会更长）。由于数据加工链路较长，需借助数据血缘关系逐个任务排查，也会导致问题定位难度增大，严重影响开发效率。如数据问题未及时发现
构建高效可靠的数据血缘技术架构-文字解说 shinelord明架构大数据
摘要在日益快速增长的大数据领域，了解和管理数据的来源、流向以及变化成为了一项重要任务。数据血缘分析可以帮助企业更好地了解数据的历史记录和变化过程，提高数据质量和决策的准确性。构建高效可靠的数据血缘技术架构，有助于以下几点：提高数据质量：通过了解数据的来源、流向和变化过程，可以更好地监控和管理数据质量，减少数据错误和冗余，从而提高数据的准确性和可靠性。支持决策分析：数据血缘分析可以帮助企业更好地理解
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他