ListenerDMT

基于阿里云官网文档-大数据开发治理平台 DataWorks研读+数据质量扩展+相应的大数据组件知识扩展

网址：阿里DataWorkers网址：数据集成概述 - 大数据开发治理平台 DataWorks - 阿里云

一、DataWorks 工作流程

1、数据集成

（1）数据同步过程中几个必要的东西

2、数据开发

（1）写sql，但又不止写sql

（2）调度配置

3、运维工作

（1）大体如下

（2）周期任务实例DAG图（有向无环图）

（3）任务状态

（4）补数据

4、数据治理

（1）数据访问控制

（2）数据质量单独拿出来说

5、数据地图

二、数据质量（重要）

1、情景：

2、主要的数据质量校验规则

（1）主键重复检测

（2）表数据量检测

（3）某些重要计算列检测

三、思考整理

1、ELASTICSearch

（1）是什么？

（2）适用场景

（3）特点

2、kudu

（1）是什么？

（2）架构

3、impala

（1）是什么？

（2）优缺点

4、kylin

（1）是什么？

（2）特点

（3）应用场景

5、Presto

（1）是什么？

（2）优缺点

一、DataWorks 工作流程

1、数据集成

也就是数据的同步，包括抽数、导数

在离线数仓中也叫离线同步

（1）数据同步过程中几个必要的东西

1）数据源

包括从哪来到哪去，可以是数据库，也可以是别的，比如FTP、ES等

2）表

来源表目标表

3）字段映射关系

4）同步方式/同步逻辑

mysql -》hive

全删全查--先清空hive表的某些分区，再插入

直接插入

hive--》mysql

全删全查

直接插入

主键冲突 update

hive --》 mysql 一般称为回流

同步方法：1、直接对mysql业务库进行操作。优缺点：操作简单；但是风险较大

2、写到kafka，让java后端去消费

kafka，消息中间件 hive ->kafka ->mysql

中间多了一层，离线数仓称为生产者，java后端称为消费者

特点：较为安全，但是开发比较麻烦

3、api接口

产生统一的api接口，供java同事去调用，dataworkers有相应的功能，

api接口一般是一行数据，一个JSON

4、还是将数据写到mysql，但是是接口端的mysql

hive ---》 mysql（接口库） --》接口 --》mysql业务库

5）同步时间，多久同步一次

linux crontab

2、数据开发

（1）写sql，但又不止写sql

（2）调度配置

时间配置：什么时候运行？多久运行一次？

生效时间范围：比如 2022-4-9 ~ 2022-4-10

SLA：设置任务的超时时间，比如设置一小时，也可以设置具体的时间，时效性

依赖设置：哪些任务跑完了，我才可以跑

重跑设置：是否出错，自动重跑？重跑几次？是否可以手动重跑？

其它：代码提醒，比如写一个表 dwd_order_ ,可以提醒补全（主要依靠元数据）

血缘关系，一大段sql，平台可以将其中所有表的依赖解析出来

版本，谁编辑过，编辑了几次，为什么编辑，可以回滚？

代码搜索：

3、运维工作

（1）大体如下

（2）周期任务实例DAG图（有向无环图）

（3）任务状态

启动、停止、暂停（冻结）、解冻

（4）补数据

作用 1：例如hive加了个字段，那我可能要基于业务去重跑某个时间段的数据

2：做测试用，重跑某一天的某个分区的数据

3：调度任务失败后，重跑

4、数据治理

（1）数据访问控制

例如分析师想要看某个做好的ADS表，他申请，你审批

（2）数据质量单独拿出来说

5、数据地图

包含了表，字段，分区，数据量，上下游依赖等等信息（从元数据搞来）

二、数据质量（重要）

1、情景：

比如有些任务我们跑成功了，但是数据不对，下游分析师或者业务发现，告知我们。

例如，有一个app弹窗，里面放的是优惠券的链接，里面的数据是自己做的，原本按照业务要求只需要发一万张，但是却发了十万人，这就会造成资损。

2、主要的数据质量校验规则

（1）主键重复检测

having count(distinct id) > 1

（2）表数据量检测

数据量多也不行，少也不行，没有更不行

没有数据：是否为空？ count(1) 是否大于 0 ？

多也不行，少也不行：表数据量波动阈值，假如每天的数据量大约是1万条左右，我们设置阈值为50%，当突然有一天数据量达到 2万条，就会警告等。

N天平均值波动，方差波动，周期波动

（3）某些重要计算列检测

比如一个存放百分比的列，里面值都为小于1大于0的小数，我们可以置该列最大值为1，出现大于1 的报错

三、思考整理

1、ELASTICSearch

（1）是什么？

Elasticsearch，基于Lucene，隐藏复杂性，提供简单易用的RestfulAPI接口、JavaAPI接口（还有其他语言的API接口）。

Elasticsearch是一个实时分布式搜索和分析引擎。它用于全文搜索、结构化搜索、分析。

（2）适用场景

1）维基百科，类似百度百科，牙膏，牙膏的维基百科，全文检索，高亮，搜索推荐。

2）The Guardian（国外新闻网站），类似搜狐新闻，用户行为日志（点击，浏览，收藏，评论）+ 社交网络数据（对某某新闻的相关看法），数据分析，给到每篇新闻文章的作者，让他知道他的文章的公众反馈（好，坏，热门，垃圾，鄙视，崇拜）。

3）Stack Overflow（国外的程序异常讨论论坛），IT问题，程序的报错，提交上去，有人会跟你讨论和回答，全文检索，搜索相关问题和答案，程序报错了，就会将报错信息粘贴到里面去，搜索有没有对应的答案。

4）GitHub（开源代码管理），搜索上千亿行代码。

5）国内：站内搜索（电商，招聘，门户，等等），IT系统搜索（OA，CRM，ERP，等等），数据分析（ES热门的一个使用场景）。

（3）特点

1）可以作为一个大型分布式集群（数百台服务器）技术，处理PB级数据，服务大公司；也可以运行在单机上，服务小公司

2）Elasticsearch不是什么新技术，主要是将全文检索、数据分析以及分布式技术，合并在了一起，才形成了独一无二的ES；lucene（全文检索），商用的数据分析软件（也是有的），分布式数据库（mycat）

3）对用户而言，是开箱即用的，非常简单，作为中小型的应用，直接3分钟部署一下ES，就可以作为生产环境的系统来使用了，数据量不大，操作不是太复杂

4）数据库的功能面对很多领域是不够用的（事务，还有各种联机事务型的操作）；特殊的功能，比如全文检索，同义词处理，相关度排名，复杂数据分析，海量数据的近实时处理；Elasticsearch作为传统数据库的一个补充，提供了数据库所不能提供的很多功能

2、kudu

（1）是什么？

Kudu 是一个针对 Apache Hadoop 平台而开发的列式存储管理器。

（2）架构

Kudu也采用了Master-Slave形式的中心节点架构，管理节点被称作Kudu Master，数据节点被称作Tablet Server（可对比理解HBase中的RegionServer角色）。一个表的数据，被分割成1个或多个Tablet，Tablet被部署在Tablet Server来提供数据读写服务。

Kudu Master在Kudu集群中，发挥如下的一些作用：

1. 用来存放一些表的Schema信息，且负责处理建表等请求。

2. 跟踪管理集群中的所有的Tablet Server，并且在Tablet Server异常之后协调数据的重部署。

3. 存放Tablet到Tablet Server的部署信息。

Tablet与HBase中的Region大致相似，但存在如下一些明显的区别点：

Tablet包含两种分区策略，一种是基于Hash Partition方式，在这种分区方式下用户数据可较均匀的分布在各个Tablet中，但原来的数据排序特点已被打乱。另外一种是基于Range Partition方式，数据将按照用户数据指定的有序的Primary Key Columns的组合String的顺序进行分区。而HBase中仅仅提供了一种按用户数据RowKey的Range Partition方式。

3、impala

（1）是什么？

Cloudera公司推出，提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。

基于Hive，使用内存计算，兼顾数据仓库、具有实时、批处理、多并发等优点。

是CDH平台首选的PB级大数据实时查询分析引擎。

（2）优缺点

优点：

1.基于内存运算，不需要把中间结果写入磁盘，省掉了大量的I/O开销。

2.无需转换为Mapreduce，直接访问存储在HDFS，HBase中的数据进行作业调度，速度快。

3.使用了支持Data locality的I/O调度机制，尽可能地将数据和计算分配在

同一台机器上进行，减少了网络开销。

4.支持各种文件格式，如TEXTFILE 、SEQUENCEFILE 、RCFile、Parquet。

5.可以访问hive的metastore，对hive数据直接做数据分析。

缺点：

1.对内存的依赖大，且完全依赖于hive。

2.实践中，分区超过1万，性能严重下降。

3.只能读取文本文件，而不能直接读取自定义二进制文件。

4.每当新的记录/文件被添加到HDFS中的数据目录时，该表需要被刷新。

4、kylin

（1）是什么？

Apache Kylin 是一个开源的分布式存储引擎，最初由 eBay 开发贡献至开源社区。它提供 Hadoop 之上的 SQL 查询接口及多维分析（OLAP）能力以支持大规模数据，能够处理 TB 乃至 PB 级别的分析任务，能够在亚秒级查询巨大的 Hive 表，并支持高并发。

（2）特点

数据源和模型：主要支持Hive、Kafka
构建引擎：早期支持MapReduce计算引擎，新版本支持Spark、Flink计算引擎。除了全量构建外，基于时间的分区特性，支持增量构建。
存储引擎：构建好的Cube以Key-Value形式存储在HBase中，通过优化Rowkey加速查询。每一种维度的排列组合计算结果被保存为一个物化视图，叫做Cuboid.
优化算法:Cube本身是空间换时间，也会根据算法，剪枝优化掉一些多余的Cuboid，需求平衡。
访问接口：支持标准SQL接口，可以对接Zeppelin、Tableau等BI工具。SQL通过查询引擎，可以被路由到对应的Cuboid上。

（3）应用场景

特点：Kylin在亚秒级内返回海量数据的查询结果。
巨大的数据量，单个数据源表千亿行数据级别，且单个数据源达到百TB级别。
巨大的查询压力（查询的高并发）
查询的快速响应
下游较灵活的查询方式，需支持带有复杂条件的SQL查询。
Kylin的核心思想是预计算，将数据按照指定的维度和指标，预先计算出所有可能的查询结果，利用空间换时间来加速查询速度。

5、Presto

（1）是什么？

Presto是一款Facebook开源的MPP架构的OLAP查询引擎，可针对不同数据源执行大容量数据集的一款分布式SQL执行引擎。

比如说，你想对存储在不同数据源中的数据，如HDFS、Mysql、HBase等通过一个SQL做查询分析，那么只需要把每一个数据源当成是Presto的Connector，对应实现Presto SPI暴露出的Connector API就可以了。

（2）优缺点

优点：

基于内存运算，减少了硬盘IO，计算更快
能够连接多个数据源，跨数据源连表查，比如从Hive查询大量网站访问记录，然后从Mysql中匹配出设备信息。
缺点：

Presto能处理PB级别的海量数据分析，但Presto并不是把PB即数据都放在内存中计算。而是根据场景，如Count，AVG等聚合运算，是边堵数据边计算，再清理内存，再读数据再计算，这种内存耗的并不高。但是连表查，就可能产生大量的临时数据，因此速度会变慢。

java毕业设计-基于Javaweb的家常小菜烹饪学习管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿刘 vue spring boot 毕业设计 java 课程设计学习
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费开题报告、任务书、全bao定制+
java毕业设计源码案例-基于ssm+协同过滤的个性化小说推荐系统设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 项目帮 springboot java 计算机毕设 java 课程设计开发语言
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
碳中和碳交易骗局揭晓！第七届内部操盘群伍戈被骗黑幕曝光!血泪事迹令人惊心! 昌龙律法
如今大家生活好了，手里或多或少有点闲钱了。就开始想着怎么赚更多的钱！这也使得各种投资市场很火爆，无孔不入的骗子们又暗戳戳上线了，利用人们对赚钱的渴望，打着网络投资的旗号实施诈骗。随着“互联网+”的发展，万物皆可“数字经济”的“数字大数据”投资项目走入现实生活中。但是有不法分子就利用了这一“商机”，将数字投资变为新型找形式，并且利用洗脑话术，核心骗术仍然是高额返利，让人不知不觉掉进提前布局的“陷阱”
计算机专业大数据毕业设计-基于 Spark 的音乐数据分析项目(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥数据可视化计算机毕设 spark 大数据课程设计 spark
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
14 款命令行常用工具的替代品！杰哥的IT之旅
作者：JackTian文章首发于公众号：【杰哥的IT之旅】大家好，我是杰哥。在Linux操作系统下，ls(list)可以说是我们日常使用率较高的命令了，它主要用来显示目标列表，输出信息可以进行彩色加亮显示，以分区不同类型的文件。关于ls[^1]的语法、选项、实例、扩展知识，这里就不详细介绍了。一、lsdlsd[^2]是一个基于Rust语言编写的ls命令替代品，增加了颜色、图标、树视图、更多格式选项
智慧水库信息化系统建设产品需求文档V2.0 小赖同学啊 test Technology Precious 物联网
智慧水库信息化系统建设产品需求文档1.引言1.1文档目的本文档旨在明确智慧水库信息化系统的建设需求，为系统设计、开发和实施提供全面依据，确保系统功能满足水库管理业务需求，提升水库管理的智能化水平和决策效率。1.2背景介绍传统水库管理面临数据采集不及时、分析手段有限、决策依赖经验等问题，难以应对复杂多变的水文情势和日益增长的管理需求。随着物联网、大数据、人工智能等技术的发展，智慧水库建设成为必然趋势
9.20其二道左无人
做一家服务公司，为下面的公司提供一些事务性的管理、财务管理、风险管理的服务，粘住一个大圈子的HR，通过下面的公司做掉项目，为HR提供一个稳定的资源变现的渠道；做一家科技公司，提供线上的平台运营，大数据采集，以及基于这个基础上的卖货、信贷等服务做一家连锁企业，每一家门店都是独立的企业，提供招聘、引流以及终端服务所以外部通过众筹绑定大批量的HR，就会有稳定的订单，通过服务公司提供服务，通过终端门店保证
只靠可视化大屏，做不了数字化，数据总监总结3点，你做到了几个大数据的那些事
企业数字化是很多企业热衷的话题。本文的数字化指各行业头的头部企业的端到端数字化解决方案，常见部署于华为专有云、阿里私有云、亚马逊云，项目金额一般百万起步，上不封顶。很多企业投人、投钱数字化，都希望有个酷炫的数据大脑，政府、合作伙伴来参观时，用酷炫的数据大脑让来宾们啧啧称赞。热闹散去后，企业内部的各部门，天天围着数据挖宝，大数据快告诉我，下个月能卖多少，哪几个渠道卖得不好，哪条生产线有问题，哪些货压
hive底层原理 sql执行过程_Hive原理总结（完整版）
目录课程大纲(HIVE增强)31.Hive基本概念41.1Hive简介41.1.1什么是Hive41.1.2为什么使用Hive41.1.3Hive的特点41.2Hive架构51.2.1架构图51.2.2基本组成51.2.3各组件的基本功能51.3Hive与Hadoop的关系61.4Hive与传统数据库对比61.5Hive的数据存储62.Hive基本操作72.1DDL操作72.1.1创建表72.1.
hive的sql优化思路-明白底层运行逻辑 ycllycll hive sql hadoop
一、首先要明白底层map、shuffle、reduce的顺序之中服务器hdfs数据文件在内存与存储之中是怎么演变的，因为hive的性能瓶颈基本在内存，具体参考以下他人优秀文章：1.HiveSQL底层执行过程详细剖析2.HiveJOIN性能调优二是要明白hive对应的sql它底层的mapreduce的过程中sql字段的执行顺序，来理解map的key、value会填充什么值，才能深刻理解怎么一步一步的
Centos7下搭建Gitlab服务器行远大于想工具篇 gitlab centos 阿里云
Centos7下搭建Gitlab服务器1简介2安装配置依赖2.1安装启动ssh服务2.2配置防火墙2.3安装邮件服务3安装配置gitlab3.1配置yum源3.2yum安装3.3配置访问地址3.4重新配置应用3.5启动gitlab3.6防火墙开放端口4登录gitlab4.1阿里云配置安全规则4.2修改密码5卸载Gitlab6Gitlab忘记root密码7Gitlab汉化8参考文献1简介gitlab
Spring Boot整合阿里云OSS：企业级文件存储最佳实践
在云原生时代，文件存储已成为现代应用的刚需。阿里云对象存储OSS作为国内市场份额第一的云存储服务，为开发者提供了安全可靠、高扩展的存储解决方案。本文将深入探讨SpringBoot整合OSS的最佳实践。一、为什么选择阿里云OSS？阿里云OSS在以下场景中展现显著优势：海量数据存储：单Bucket支持EB级存储，轻松应对业务增长高并发访问：支持百万级QPS，满足电商大促等高并发场景成本优化：存储费用低
你多久没有认真读一本书了我是巴卡
我九岁博览群书，二十岁达到顶峰。我现在都是看社会人文类的书，例如《知音》《故事会》……往前推三百年，往后推三百年，总共六百年没有人超过我。——凤姐引用凤姐的话，没有嘲讽的意思。现在的人，包括我自己，除了刷手机，恐怕连杂志都很少读了，更别说认真读一本书了。1、大数据下，人越读越窄，越读越傻前段时间，埃航波音737MAX8出事，就在网上跟着读了几篇报道。随后的一段时间，基本打开APP都是关于波音和73
注意力才是我们最值钱的东西心守平凡_王慧超
4月10日晚，罗永浩携手国民神车哈弗品牌完成了第二场带货直播。此次直播共售出11357张2777元的优惠券，预估销售额15.65亿元，创造了汽车直播带货的新纪录。流量时代真的已经来临了，随着互联网的高速发展，越来越多的网络用户增加，我们不得不承认，我们已经进入了一个网络时代，进入了一个流量大数据时代。我们所有想获得的东西都可以通过网络获取，资料、信息、购物，网络正在改变人们的生活方式，正在成为人们
阿里云域名价格表：新注、续费、转入收费标准阿里云最新优惠和活动汇总
阿里云域名价格表包括域名注册、域名续费及域名转入价格，阿里云可注册的域名后缀有很多，如com、cn、net、top、cc等后缀，域名后缀不同价格也不同，以.com域名为例，首年域名注册价格是59元，每年续费要交69元，用户也可以选择一次注册或续费多年（最高10年），以下是阿里云域名的最新新注、续费、转入收费价格表，注：随着时间推移实际精准报价可能会有出入，实时的域名新注、续费、转入收费标准以下表中
六、深度剖析 Hadoop 分布式文件系统（HDFS）的数据存储机制与读写流程
深度剖析Hadoop分布式文件系统（HDFS）的数据存储机制与读写流程在当今大数据领域当中，Hadoop分布式文件系统（HDFS）作为极为关键的核心组件之一，为海量规模的数据的存储以及处理构筑起了坚实无比的根基。本文将会对HDFS的数据存储机制以及读写流程展开全面且深入的探究，通过将原理与实际的实例紧密结合的方式，助力广大读者更加全面地理解HDFS的工作原理以及其具体的应用场景。一、HDFS概述H
阿里云RDS MySQL物理备份文件恢复到自建数据库
官方文档RDSMySQL物理备份用XtraBackup恢复到自建数据库_云数据库RDS(RDS)-阿里云帮助中心通过Percona官方仓库来安装最新版本的xtrabackup：（如果没安装）#添加Percona仓库sudoyuminstallhttps://repo.percona.com/yum/percona-release-latest.noarch.rpmsudopercona-relea
Centos近乎无损迁移服务器之tar打包迁移-实记龙云-LY 迁移学习 centos linux ssh 服务器
Centos近乎无损迁移服务器之tar打包迁移-实记)前言：由于前段时间阿里云云翼学生计划调整，之前购买的学生机无法按照学生价续费，只能重新购买。本人购买的是轻量应用服务器，阿里云自带的CMS工具和自定义镜像无法使用，恰好网上又有tar打包的教程，觉得可信，便开始进行了迁移，但是踩了很多坑。网上说的tar打包都是基于相同服务器（包含配置）或者当前服务器备份还原使用的，对于跨服务器迁移会出现很多问题
基于 Qwen-Agent 与 MCP 实现阿里云 ECS 实例查询（含完整代码与实操）
✅关键词：Qwen-Agent、MCP、阿里云、运维、LLM、FunctionCalling在现代云运维场景中，我们不仅希望大语言模型（LLM）能回答文本问题，更希望它能直接调用云端API、查询资源，实现「智能运维」。本文将分享如何基于Qwen-Agent和MCP，快速实现一个“云资源助手”，能帮你查询阿里云ECS实例信息。什么是MCP？MCP(Model-ComputingPlatform)是阿
python连接数据库的方法,Python 连接数据库的多种方法 AI MIU python连接数据库的方法
JZGKCHINAPython是一种计算机程序设计语言，它是一种动态的、面向对象的脚本语言。它是一种跨平台的，可以运行在Windows，Mac和Linux/Unix系统上。在日常使用中需要对大量数据进行数据分析，那么就必然用到数据库，我们常用的数据库有SQLServer,MySQL,Oracle,DB2,SQLite，Hive，PostgreSQL,MongoDB还有其他常用的MicrosoftA
养老院管理系统基于SpringBoot的养老院管理系统系统设计与实现（源码+论文+部署讲解等）
博主介绍：✌全网粉丝60W+,csdn特邀作者、Java领域优质创作者、csdn/掘金/哔哩哔哩/知乎/道客/小红书等平台优质作者，计算机毕设实战导师，目前专注于大学生项目实战开发,讲解,毕业答疑辅导，欢迎高校老师/同行前辈交流合作✌技术栈范围：SpringBoot、Vue、SSM、Jsp、HLMT、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习、单片机
docker镜像加速源配置，目前可用镜像源列举(10月10日更新最新可用)
1.前提背景：这里列举一下目前暂且可用的镜像源，滑到最下方查看最新9月19日更新(9月18日测试阿里云的个人镜像服务可以正常使用，建议使用阿里云的个人镜像服务)9月24日测试阿里云个人镜像服务挂掉，互联网寒冬了属于10月8日正式上班后，扒了下外网的论坛，发现有个开发者自己搭建了个服务器，速度还不错，为爱发电的，如果感觉好的话可以去这个开发者的官网赞助一下，支持下这个开发者。（不是广告哈）10月10
大数据处理技术：分布式文件系统HDFS 茜茜西西CeCe hdfs hadoop 大数据 HDFS-JAVA接口文件头歌 Java
目录1实验名称：2实验目的3实验内容4实验原理5实验过程或源代码5.1HDFS的基本操作5.2HDFS-JAVA接口之读取文件5.3HDFS-JAVA接口之上传文件5.4HDFS-JAVA接口之删除文件6实验结果6.1HDFS的基本操作6.2HDFS-JAVA接口之读取文件6.3HDFS-JAVA接口之上传文件6.4HDFS-JAVA接口之删除文件1实验名称：分布式文件系统HDFS2实验目的1.理
云服务器哪家便宜，阿里云服务器与腾讯云服务器价格对比阿里云最新优惠和活动汇总
云服务器哪家便宜？对于想要购买云服务器的用户来说，大多都会优先选择阿里云或腾讯云的服务器，因为这两家都是目前国内名气最大的云服务商，自然也成为了用户购买云服务器的首选，因此，用户也总是喜欢拿阿里云服务器和腾讯云服务器的价格来做对比，今天给大家做个常用服务器配置的对比，看看云服务器哪家便宜。阿里云腾讯云.png一、代金券优惠力度对比首先我们看下阿里云和腾讯云各自的代金券优惠力度，因为不管购买哪家云服
Python库安装国内源奔跑的石头_ python python AI编程
关注公众号“码字读书会”，了解最新消息。Python国内源包括企业和高校机构打不得开源软件包资源。著名的有阿里云、华为云、清华。个人常用的有清华源临时使用命令如下：pipinstall-ittps://pypi.tuna.tsinghua.edu.cn/simple包名
Linux教程（4）----[hive数据仓库工具] .房东的猫 Linux教程（完善中~~）linux
Hive基本概念Hive简介什么是HiveHive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。为什么使用Hive直接使用hadoop所面临的问题人员学习成本太高
CentOS8换源
一、备份切换至源目录，备份源：cd/etc/yum.repos.d/#进入源目录ls#查看源文件mkdirbkup#创建备份目录mvCentOS-Linux-*bkup#将源文件移动至备份文件夹若是更换源并且原生源已经备份的情况下，使用rm-f*.repo删除原先文件。二、下载安装镜像源使用wget命令下载镜像源，本次使用的源为阿里云镜像：#下载并替换源wgethttps://mirrors.al
阿里云Centos镜像源和EPEL源 weixin_34399060 运维
Centos配置yum本地源aliyun的EPEL源1、本地yum源[root@openstack~]#mount/dev/sr0/mnt/[root@openstack~]#echo"/dev/sr0/mntiso9660defaults00">>/etc/fstab[root@openstack~]#rm-rf/etc/yum.repos.d/*[root@openstack~]#cat>/e
Ubuntu 修改镜像源为阿里云【详细步骤】甘蓝聊Java 【更新中...】项目中的那些事 ubuntu 阿里云 ubuntu源 apt源阿里云 ubuntu源
文章目录修改步骤第1步：安装vim软件第2步：备份源第3步：修改为阿里云镜像附录-其它版本配置ubuntu14.04LTS(trusty)(EOL)ubuntu16.04LTS(xenial)(EOL)ubuntu18.04LTS(bionic)ubuntu20.04LTS(focal)ubuntu22.04LTS(jammy)ubuntu23.04(lunar)ubuntu24.04(noble
Centos7配置阿里云镜像源的教程也纡阿里云云计算
1准备工作，如果不做准备工作后面可能会影响后续的安装。查看你的Centos版本，版本过低会导致安装失败，验证网络是否可以连接阿里云镜像，使用阿里云是需要网络的。pingmirrors.aliyun.com2手动配置删除原来或者之前的yun源rm-rf/etc/yum.repos.d/*
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs

基于阿里云官网文档-大数据开发治理平台 DataWorks研读+数据质量扩展+相应的大数据组件知识扩展

网址：阿里DataWorkers网址：数据集成概述 - 大数据开发治理平台 DataWorks - 阿里云

一、DataWorks 工作流程

1、数据集成

（1）数据同步过程中几个必要的东西

2、数据开发

（1）写sql，但又不止写sql

（2）调度配置

3、运维工作

（1）大体如下

（2）周期任务 实例DAG图（有向无环图）

（3）任务状态

（4）补数据

4、数据治理

（1）数据访问控制

（2）数据质量 单独拿出来说

5、数据地图

二、数据质量（重要）

1、情景：

2、主要的数据质量校验规则

（1）主键重复检测

（2）表数据量检测

（3）某些重要计算列检测

三、思考整理

1、ELASTICSearch

（1）是什么？

（2）适用场景

（3）特点

2、kudu

（1）是什么？

（2）架构

3、impala

（1）是什么？

（2）优缺点

4、kylin

（1）是什么？

（2）特点

（3）应用场景

5、Presto

（1）是什么？

（2）优缺点

你可能感兴趣的:(大数据扩展知识,阿里云,hive)

（2）周期任务实例DAG图（有向无环图）

（2）数据质量单独拿出来说