E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Sqoop列式存储
数仓4.0(数据仓库系统)--续集二
目录十:全流程调度10.1Azkaban部署10.2创建MySQL数据库和表10.3
Sqoop
导出脚本10.4全调度流程10.4.1数据准备10.4.2编写Azkaban工作流程配置文件10.4.3Azkaban
JiaXingNashishua
·
2022-08-13 18:09
数据库
sql
Sqoop
(一) ---------
Sqoop
介绍
目录一、
Sqoop
简介二、
Sqoop
原理三、
Sqoop
安装1.下载并解压2.修改配置文件3.拷贝JDBC驱动4.验证
Sqoop
5.测试
Sqoop
是否能够成功连接数据库一、
Sqoop
简介
Sqoop
是一款开源的工具
在森林中麋了鹿
·
2022-08-13 12:55
Sqoop
sqoop
hadoop
大数据
概念名词解释
基于查询:常用组件是
sqoop
、KAFKA,JDBCsource,思想是以ba
吃再多糖也不长胖
·
2022-08-10 13:36
面试题
数据库
kafka
Hive 优化--SQL执行顺序、Hive参数、数据倾斜 、小文件优化
优化整体思路如果资源充足就加资源加内存,调度链路优化,调整调度顺序,时效性要求高的模型先产出,数据接入模块,调优数据接入工具
sqoop
,datax模型设计质量不高,调整模型,提高质量和复用度,尽可能减少
四月天03
·
2022-08-10 13:03
Hive
hive
sql
big
data
微服务架构案例(03):数据库选型简介,业务数据规划设计
列式存储
Hbase、ClickHouse等。分布式存储Cassandra、Hbase、MongodDB等。键值存储Memcached、Redis、MemcacheDB等。图形
知了一笑
·
2022-08-08 23:44
【StoneDB join 算法分析】查询模块
1.背景介绍StoneDB采用基于知识网格技术和
列式存储
引擎。
·
2022-08-05 18:01
数据库mysql
数仓4.0总结
文章目录数仓4.0总结整体架构采集flume用法flume自定义拦截器flume配置文件
sqoop
用法碰到的问题hive无法使用load导入hdfs采集的数据vim本质是创建新文件hive仓库ODSDIMDWDDWSDWTADS
CODE20220318
·
2022-08-05 14:01
离线数仓
python
java
大数据
数仓4.0(二)------ 业务数据采集平台
目录一:电商业务简介1.1电商业务流程1.2电商常识二:业务数据采集模块2.1安装MySQL及配置2.2业务数据生成2.2.1连接Mysql以及建表2.2.2生成业务数据2.3安装
Sqoop
2.3.1安装
JiaXingNashishua
·
2022-08-05 14:29
数据库
数据仓库
hive
Flink:实时数据处理(1.Flink概述)
2.数据处理的演变2.1传统数据处理架构2.1.1事务处理2.1.2分析处理(Hive):MySQL->
Sqoop
->Hive2.2有状态的流式处理2.3流处理的演变2.3.1lambda架构
卖女孩的小火柴Jaffe
·
2022-08-02 09:03
bigdata
flink
sqoop
-使用文档
文档主页
Sqoop
用户指南(v1.4.7)
Sqoop
用户指南(v1.4.7)目录一、简介2.支持的版本3.
Sqoop
发布4.先决条件5.基本用法6.
Sqoop
工具6.1.使用命令别名6.2.控制Hadoop
果不其燃
·
2022-08-01 07:20
sqoop
Sqoop
的工作原理
原文地址:https://www.itheima.com/news/20220105/171543.html
Sqoop
是Apache旗下的一款开源工具,该项目开始于2009年,最早是作为Hadoop的一个第三方模块存在
不用打火机
·
2022-07-28 11:56
python
mapreduce
hadoop
big
data
sqoop
数据湖:数据库数据迁移工具
Sqoop
系列专题:数据湖系列文章
Sqoop
(SQL-to-Hadoop)是Apache旗下的一款开源工具,该项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发
YoungerChina
·
2022-07-28 11:50
数据湖
sqoop
数据湖
大数据
数据源管理 | OLAP查询引擎,ClickHouse集群化管理
一、列式库简介ClickHouse是俄罗斯的Yandex公司于2016年开源的
列式存储
数据库(DBMS),主要用于OLAP在线分析处理查询,能够使用SQL查询实时生成分析数据报告。
知了一笑
·
2022-07-27 22:37
SPARK Parquet嵌套类型的向量化支持以及列索引(column index)
背景本文基于Spark3.3.0
列式存储
Parquet文件越来越受到工业界的青睐,在delta以及Spark中应用广泛,具体的项目见:parquet-mr分析Parquet格式关于parquet的格式存储以及读取
鸿乃江边鸟
·
2022-07-20 22:22
大数据
spark
分布式
spark
大数据
分布式
没错,
列式存储
非常牛。但是,Ta还可以更高效
很多数据仓库产品都采用了
列式存储
。如果数据表的总列数很多而计算涉及的列很少,采用列存就只读取需要的列即可,能够减少硬盘访问量,提高性能。
不吃西红柿丶
·
2022-07-20 09:56
数据仓库
数据库
Hadoop生态圈介绍
mapReduce)分布式计算、(Yarn)资源调度与任务管理、Common2、Lucene:索引检索工具包3、Nutch:开源的搜索引擎4、HBase/Cassandra:基于google的BigTable开源的
列式存储
的非关系型数据库
月疯
·
2022-07-18 13:07
【hadoop】
hadoop
hdfs
big
data
大数据之Hive实践分享之存储和压缩问题的详解
在我实际查看以后,发现集群的文件存储格式为Parquet,一种
列式存储
引擎,类似的还有ORC。
xinxindsj
·
2022-07-12 09:24
互联网
人工智能
大数据
hive
大数据
大数据开发
大数据分析
大数据入门
详解:Hive的存储格式与对比
的存储格式与对比官网:https://cwiki.apache.org/confluence/display/Hive/FileFormats对于很多的东西,还是你要多多观看官网,更加权威,一:行式存储和
列式存储
在这之前先补充一个概念
墨卿风竹
·
2022-07-12 09:19
详解:Hive的存储格式与对比
Hive 文件格式详解
file_formatSEQUENCEFILE:生产中绝对不会用,k-v格式,比源文本格式占用磁盘更多TEXTFILE:生产中用的多,行式存储RCFILE:生产中用的少,行列混合存储,OCR是他得升级版ORC:生产中最常用,
列式存储
beautiful_huang
·
2022-07-12 09:16
Hadoop
Hive
hive
HIVE存储格式和压缩方式详解
HIVE存储格式和压缩方式文章目录HIVE存储格式和压缩方式一、介绍常用的压缩算法ZSTDLZOSNAPPYBZIP2二、HIVE可支持的压缩格式三、HIVE的存储格式行式存储:
列式存储
:HIVE支持的存储格式
牧码文
·
2022-07-12 09:45
hadoop
数据存储
hive
hive
hadoop
数据仓库
【学习笔记】大数据技术之
Sqoop
安装与使用
2.3
Sqoop
安装底层是mapreduce。
在学习的王哈哈
·
2022-07-07 15:53
大数据
大数据
2021-06-03 大数据技术之
Sqoop
第1章
Sqoop
简介
Sqoop
是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如:MySQL,Oracle
️小C
·
2022-07-07 15:52
大数据
sqoop
尚硅谷大数据技术之
Sqoop
一、
Sqoop
安装下载地址:http://mirrors.hust.edu.cn/apache/
sqoop
/1.4.6/测试
Sqoop
是否能够成功连接数据库bin/
sqoop
list-databases
风满楼i
·
2022-07-07 15:52
大数据
sqoop
大数据
大数据技术之
Sqoop
文章目录1.
Sqoop
简介2.
Sqoop
原理3.
Sqoop
安装3.1下载并解压3.2修改配置文件3.3拷贝JDBC驱动3.4验证
Sqoop
3.5测试
Sqoop
是否能够成功连接数据库4.
Sqoop
的简单实用案例
dwjf321
·
2022-07-07 15:21
大数据
sqoop
sqoop
大数据
【大数据】
Sqoop
简介
Sqoop
简介
Sqoop
(发音:skup)是SQL-to-Hadoop的缩写,是一款开源的工具,主要用来在Hadoop和关系数据之间交换数据,可以改进数据的数据的互操作性。
debimeng
·
2022-07-07 15:50
大数据
sqoop
sql-to-hadoop
大数据技术之
Sqoop
配置示例
大数据技术之
Sqoop
配置示例hdfstomysqlexport--connectjdbc:mysql://bigdatacloud:3306/test--usernameroot--password123
dgsdaga3026010
·
2022-07-07 15:50
大数据
数据库
大数据技术之
Sqoop
大数据技术之
Sqoop
一.
Sqoop
简介二.
Sqoop
安装三.
Sqoop
应用1.全量导入1.1MySQL导入HDFS1.2MySQL导入到Hive1.3MySQL导入到HBase2.增量导入2.1append
卡农c
·
2022-07-07 15:19
大数据
大数据
sqoop
hadoop
【大数据系列零二】大数据时代下的数据同步利器
Sqoop
一、
sqoop
概述环境要求:Hadoop,关系型数据库(如MySQL),
Sqoop
Scoop是什么?
Anlior
·
2022-07-07 15:19
大数据
sqoop
个推大数据降本提效实战分享-Q&A精选
个推透明存储实践
列式存储
(Column-orientedStorage)是大数据场景中面向分析型数据的主流存储方式。与行式存储相比,
列式存储
只提取部分数据列、同列同质数据,具有更优的编码及压缩方式。
·
2022-07-05 15:56
人工智能机器学习算法数据库
数仓建模—指标体系
万字长文来聊一聊中台数据仓库之拉链表
sqoop
用法之mysql与hive数据导入导出关注公众号:大数据技术派
·
2022-07-04 18:32
数据仓库
数仓建模—宽表的设计
万字长文来聊一聊中台数据仓库之拉链表
sqoop
用
·
2022-07-04 18:02
数据仓库
Ganglia
Sqoop
DataX Azkaban
Sqoop
何为
Sqoop
?
Sqoop
(SQL-t
HikZ.919
·
2022-07-04 12:55
sqoop
hadoop
hdfs
数仓理论- 02 数据仓库架构
3.1.2内容ETL,ODS,CDM(DWS,DWD),ADS3.1.3ETL:数据同步模块从业务数据库(即数据源)抽取数据extract交互转换:进行清洗一级标准化transform加载load使用的工具:
Sqoop
:Concerto
·
2022-07-04 12:18
数据仓库
架构
数据挖掘
大数据技术概述_第一章笔记
1.1.2大数据关键技术1.2代表性大数据技术1.2.1Hadoop1.2.1.1HDFS1.2.1.2MapReduce1.2.1.3YARN(重点)1.2.1.3hbase、hive、flume、
sqoop
27878678678
·
2022-07-03 21:00
#
spark
大数据
大数据:Flume和
Sqoop
文章目录Flume和
Sqoop
一、Flume的功能与应用1.功能2.应用二、Flume的基本组成三、Flume的开发规则:四、Flume开发测试五、常用Source1.Exec2.Taildir3.其他
Xiao Miao
·
2022-07-02 09:52
大数据
flume
sqoop
字节跳动数据平台技术揭秘:基于 ClickHouse 的复杂查询实现与优化
更多技术交流、求职机会、试用福利,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群ClickHouse作为目前业内主流的
列式存储
数据库(DBMS)之一,拥有着同类型DBMS难以企及的查询速度
·
2022-07-01 16:04
clickhouse
字节跳动数据平台技术揭秘:基于 ClickHouse 的复杂查询实现与优化
更多技术交流、求职机会、试用福利,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群ClickHouse作为目前业内主流的
列式存储
数据库(DBMS)之一,拥有着同类型DBMS难以企及的查询速度
字节跳动数据平台
·
2022-07-01 16:00
Sqoop
的简单使用
文章目录1.简介2.原理3.
Sqoop
简单使用1.导入数据1.RDBMS到HDFS2.RDBMS到Hive2.导出数据1.HIVE/HDFS到RDBMS3.脚本打包1.简介
Sqoop
是一款开源的工具,主要用于在
treesorshining
·
2022-07-01 08:39
sqoop
hive
hadoop
Flink简介
第一章初识Flink大数据开发总体架构大数据开发总体架构数据传输层:常用的数据传输工具有Flume、
Sqoop
、Kafka。
日落_3d9f
·
2022-06-29 18:14
社区动态 | Apache Doris 社区喜迎 4 位新晋 Committer 成员
Doris全面兼容标准的SQL语法,支持MySQL协议,拥有完备的分布式管理框架和MPP查询框架,并且提供
列式存储
、向量化执行、预聚合引擎、分级存储等众多高级特性。不仅能够轻松
ApacheDoris
·
2022-06-17 10:32
运维
分布式
数据库
java
大数据
Apache Doris 社区喜迎两位 PPMC 成员
Doris全面兼容标准的SQL语法,支持MySQL协议,拥有完备的分布式管理框架和MPP查询框架,并且提供
列式存储
、向量化执行、预聚合引擎、分级存储等众多高级特性。不仅能够轻松
ApacheDoris
·
2022-06-17 10:01
分布式
数据库
项目管理
大数据
java
Ambari成为Apache顶级项目
ApacheAmbari能够对ApacheHadoop集群进行供应、管理和监控,已支持HDFS,MapReduce,Hive,HCatalog,HBase,ZooKeeper,Oozie,Pig,
Sqoop
刘江总编
·
2022-06-13 10:51
Ambari
Apache
Hadoop
什么是HBase?终于有人讲明白了
一、初识HBaseHBase是一个面向
列式存储
的分布式数据库,其设计思想来源于Google的BigTable论文。HBase底层存储基于HDFS实现,集群的管理基于ZooKeeper实现。
Data跳动
·
2022-05-30 16:00
Clickhouse实时数仓建设
1.概述Clickhouse是一个开源的
列式存储
数据库,其主要场景用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告。
哥不是小萝莉
·
2022-05-29 21:00
大数据项目学习(一)
采集:Flume/Kafka/
Sqoop
存储:Mysql/Hasoop/Hbase计算:Hive/Tez查询:Presto/Druid/Kylin可视化:Superset任务调度:Azkaban全流程调度集群监控
爱爱爱爱五月天
·
2022-05-28 02:50
大数据
大数据平台技术栈
1采集层和传输层采集层
Sqoop
在hadoop和关系型数据库之间转换数据。FlumeFlume是一个分布式的高可用的数据收集、聚集和移动的工具。
超哥的杂货铺
·
2022-05-25 07:03
为什么
列式存储
会被广泛用在 OLAP 中?
不知是否有小伙伴们疑问,为什么
列式存储
会广泛地应用在OLAP领域,和行式存储相比,它的优势在哪里?今天我们一起来对比下这两种存储方式的差别。
Data跳动
·
2022-05-17 17:00
spark sql加载parquet格式和json格式数据
Parquet是一种
列式存储
格式,可以被多种查询引擎支持(Hive、Impala、Drill等),并且它是语言和平台无关的。2.Parquet文件下载后是否可以直接读取和修改呢?
zhousishuo
·
2022-05-17 17:47
spark-sql
json
parquet
导入数据
spark-sql
Spark SQL 操作 Parquet 类型文件
Parquet介绍ApacheParquet是Hadoop生态圈中一种新型
列式存储
格式,它可以兼容Hadoop生态圈中大多数计算框架(Hadoop、Spark等),被多种查询引擎支持(Hive、Impala
路飞DD
·
2022-05-17 16:52
SparkSQL
Scala
大数据
Hadoop
Spark
Spark
Parquet
SparkSQL
操作
Parquet
Spark
Spark
读取
Parquet
SQL
方式读取
Parquet
Spark SQL的Parquet那些事儿.docx
Parquet是一种
列式存储
格式,很多种处理引擎都支持这种存储格式,也是sparksql的默认存储格式。
浪尖聊大数据-浪尖
·
2022-05-17 16:37
上一页
17
18
19
20
21
22
23
24
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他