E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Parquet
Spark生态圈小贴士
一、SparkSql常识SparkSql提供了对于结构化和半结构化数据的快速操作,主要具备以下三种功能,(1)从多种结构化数据源(json、
parquet
和hive)中读取数据(2)支持Spark应用程序内部调用和外部工具通过标准连接器连接
采风JS
·
2022-02-10 05:38
ClickHouse 在 UBA 系统中的字典编码优化实践
背景虽然ClickHouse列存已经有比较好的存储压缩率,但面对海量数据时,磁盘空间的占用跟常用的
Parquet
格式相比仍然有不少差距。特
·
2022-02-09 16:25
Apache hudi 源码分析 - zorder 布局优化
举个简单的栗子:一张text表,包含id,name两个字段有两个数据文件a.
parquet
和b.parqueta.parq
·
2022-02-06 12:54
数据湖spark大数据
六.Spark SQL使用数据源
1、通用的Load/Save函数(*)什么是
parquet
文件?
Parquet
是列式存储格式的一种文件类型,列式存储有以下的核心:可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量。
临时_01e2
·
2022-02-06 01:55
Spark--Spark写入
Parquet
,暴露JDBC引擎,实现准实时SQL查询
有一个设想当有持续不断的结构化或非结构化大数据集以流(streaming)的方式进入分布式计算平台,能够保存在大规模分布式存储上,并且能够提供准实时SQL查询,这个系统多少人求之不得。今天,咱们就来介绍一下这个计算框架和过程。问题分解一下数据哪里来?假设,你已经有一个数据收集的引擎或工具(不在本博客讨论范围内,请出门左转Google右转百度),怎么都行,反正数据能以流的方式给出来,塞进Kafka类
撸码小丑
·
2022-02-05 11:44
Hive性能调优实战读书笔记
1、感受Hive调优多样性(1)SQL书写方式举的是multi-insert的例子(2)文件块大小输入文件划分与Map数量(3)数据格式SequenceFile二进制key/value结构平面分拣
Parquet
kaiker
·
2022-02-04 20:50
ORC、
Parquet
等列式存储的优点
ORC和
Parquet
都是高性能的存储方式,这两种存储格式总会带来存储和性能上的提升。
·
2021-12-28 11:23
大数据
day 45 hive 安装 基础知识
安装2、hive测试二、关于hive1、和传统数据库比较2、存储格式(部分)1TextFile2RCFile(RecordColumnar)3ORCFile(OptimizedRowColumnar)4
Parquet
5SequenceFile3
韭菜盒子123
·
2021-11-24 22:00
sql
bigdata_sparksql
sparksql:SparkSQL是Spark处理数据的一个模块专门用来处理结构化数据的模块,像json,
parquet
,avro,csv,普通表格数据等均可。
JIE_ling8
·
2021-11-13 22:04
总结
big
data
spark
大数据
Spark sql的简单使用
目录加载依赖sparksql简单入门Sparksql简单应用应用配置读取文件读取文本文件并展示数据show()将数据完全显示读取json文件读取jdbc文件读取压缩格式的文件将数据以压缩格式存储
parquet
啊帅和和。
·
2021-11-12 22:55
大数据专栏。
Spark专栏。
spark
sql
big
data
用 Python 定义 Schema 并生成
Parquet
文件详情
目录一、简单字段定义1、定义Schema并生成
Parquet
文件2、验证
Parquet
数据文件二、含嵌套字段定义1、验证
Parquet
数据文件Java和Python实现Avro转换成
Parquet
格式,
·
2021-09-25 10:40
Hive数据存储格式详细讲解(好文点赞收藏!)
SequenceFile3-RCFile4-ORCFile4.1-ORC相比较RCFile的优点4.2-ORC的基本结构4.3-ORC的数据类型4.4-ORC的ACID事务的支持4.5-ORC相关的Hive配置5-
Parquet
5.1
KG大数据
·
2021-09-17 09:41
hive和数据仓库(离线)
hive
hdfs
大数据
数据仓库
面试
pyspark操作hive分区表及.gz.
parquet
和part-00000文件压缩问题
目录pyspark操作hive表1>saveAsTable写入2>insertInto写入2.1>问题说明2.2>解决办法3>saveAsTextFile写入直接操作文件pyspark操作hive表pyspark操作hive表,hive分区表动态写入;最近发现spark动态写入hive分区,和saveAsTable存表方式相比,文件压缩比大约4:1。针对该问题整理了spark操作hive表的几种方
·
2021-08-25 13:52
Flink Streaming File Sink
案例从Kafka消费JSON数据,转换为UserInfo实体类数据流,最终以
Parquet
格式写入Hive表对应的HDFS路径。使用Flink1.
todd5167
·
2021-08-15 10:49
12.spark sql之读写数据
这些数据源包括
Parquet
、JSON、Hive表及关系型数据库等。 当只使用一部分字段时,SparkSQL可以智能地只扫描这些字段,而不会像hadoopFile方法一样简单粗暴地扫描全部数据。
java大数据编程
·
2021-06-26 22:44
测试ClickHouse中写入
Parquet
格式数据到Hive
createtablehdfsParquet(idInt16,nameString)engine=HDFS('hdfs://node1:8020/user/hive/warehouse/test.db/hdfsParquet/a.
Parquet
代码足迹
·
2021-06-22 21:51
Spark--SparkCore面试知识点总结
整理于【Spark面试2000题】Sparkcore面试篇03,梅峰谷大数据1.Spark使用
parquet
文件存储格式能带来哪些好处?
李小李的路
·
2021-06-21 17:07
动态分区到ORC表OOM问题
2.异常分析
Parquet
和ORC是列式批处理文件格式。这些格式要求在写入文件之前将批次的
朱佳宇
·
2021-06-20 17:34
快乐大数据第10课 SparkSQL
如:Text、JSON、
Parquet
、MySQL等2在Spark上实现SQL引擎?提供高伸缩性API:DataFrame和DataSetAPI?
快乐大数据
·
2021-06-15 08:46
Spark - SQL查询文件数据
有时候有没有这么一种情况,我拿到了一个sql,csv,
parquet
文件,一起来就想写sql,不想写那些乱七八糟的的东西,只是想快速实现我要的聚合查询数据。
kikiki2
·
2021-06-13 13:34
大数据常见格式和pyspark
1大数据数据格式1.1种类graphTDA[Bigdata]-->B[.csv]A-->C[.json]A-->D[
Parquet
]A-->E[Orc]A-->F[Avro]A-->G[Thrift]A
MichelleZm
·
2021-06-09 08:26
数据模型和数据存储格式
以列式数据存储格式
parquet
介绍两者区别。三个概念:存储格式,是数据的二进制组织表示形式,如
parquet
数据对象转换器,其任务是在外部对象模型和
Parquet
的内部数据类型之间进行映射。
谢谢侬侬侬
·
2021-06-09 04:48
SparkSQL数据源之通用加载/保存方法/JSON文件/
Parquet
文件/JDBC
SparkSQL的默认数据源为
Parquet
格式。数据源为
Parquet
文件时,SparkSQL可以方便的执行所有的操作。修改配置项spark.sql.sources.de
大数据小同学
·
2021-06-08 11:44
Hive文件存储格式
Hive支持的存储数据的格式主要有:TEXTFILE、SEQUENCEFILE、ORC、
PARQUET
。
香山上的麻雀
·
2021-05-19 12:04
一篇文章搞定一个大数据组件:kudu知识点全集
工作原理4.1Compaction4.2Tablet切分规则4.3kudu写过程:insert4.4kudu写过程:update4.5Kudu读过程1、kudu的定位HDFS:存储格式Textfile,
Parquet
明月十四桥
·
2021-05-14 18:27
大数据
后端
kudu
大数据
后端
Spark - SQL查询文件数据
有时候有没有这么一种情况,我拿到了一个sql,csv,
parquet
文件,一起来就想写sql,不想写那些乱七八糟的的东西,只是想快速实现我要的聚合查询数据。
kikiki2
·
2021-05-11 12:03
Apache Drill学习笔记一:环境搭建和简单试用
简介ApacheDrill是一个低延迟的分布式海量数据(涵盖结构化、半结构化以及嵌套数据)交互式查询引擎,使用ANSISQL兼容语法,支持本地文件、HDFS、HBase、MongoDB等后端存储,支持
Parquet
陌辞寒
·
2021-05-10 21:12
两集群数据拷贝
集群专门做数据清洗和数据展现A集群每天定时把数据同步过来B集群后,B集群负责后续清洗和供业务系统使用集群背景两套集群都配有各自的KDC服务器A集群没做namenodeHA,B集群是HA集群拷贝的数据为
parquet
阿甘骑士
·
2021-05-10 12:51
Spark SQL学习
正式成为生态系统的一员专门处理结构化数据的Spark重要组件提供了两种操作数据的方式SQL查询DataFrame和DataSetAPISparkSQL=Schema+RDD提供了非常丰富的数据源API如:Text、JSON、
Parquet
溯水心生
·
2021-05-05 21:48
Q:org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException
所以在调用write.
parquet
前,先使用repartition合并碎片分区。因为减少了分区数,下次再读取这份数据进行处理时,减少了启动task的开销。
点点渔火
·
2021-05-04 12:18
Spark - SQL查询文件数据
>有时候有没有这么一种情况,我拿到了一个sql,csv,
parquet
文件,一起来就想写sql,不想写那些乱七八糟的的东西,只是想快速实现我要的聚合查询数据。
kikiki4
·
2021-05-02 23:59
数据湖 Iceberg 在网易云音乐的实践
Iceberg详细设计ApacheIceberg是Netflix开源的全新的存储格式,我们已经有了
Parquet
、ORC、Arvo等非常优秀的存储格式以后,Netfix为什么还要设计出Iceberg呢?
NetEaseResearch
·
2021-04-30 15:29
大数据
数据湖
大数据
Iceberg
Hive
Spark - SQL查询文件数据
有时候有没有这么一种情况,我拿到了一个sql,csv,
parquet
文件,一起来就想写sql,不想写那些乱七八糟的的东西,只是想快速实现我要的聚合查询数据。
kikiki2
·
2021-04-30 12:27
Spark - SQL查询文件数据
>有时候有没有这么一种情况,我拿到了一个sql,csv,
parquet
文件,一起来就想写sql,不想写那些乱七八糟的的东西,只是想快速实现我要的聚合查询数据。
kikiki4
·
2021-04-25 08:51
22 一套数据,多种引擎续---两种数据格式(
Parquet
/ORCfile)浅析
kylin)-大数据和云计算技术(欢迎关注同名微信公众号)-ITeye技术网站http://jiezhu2007.iteye.com/blog/2153589//一套数据,多种引擎续---两种数据格式(
Parquet
葡萄喃喃呓语
·
2021-04-23 09:06
Spark - SQL查询文件数据
>有时候有没有这么一种情况,我拿到了一个sql,csv,
parquet
文件,一起来就想写sql,不想写那些乱七八糟的的东西,只是想快速实现我要的聚合查询数据。
kikiki4
·
2021-04-22 21:26
Flink集成数据湖之实时数据写入iceberg
此外由于列式存储格式如
parquet
或者orc在查询性能方面有着显著的提高,所以大家都会优先选择列式存储作为我们的存储格式。传统的这种架构看似不错,但是还是有很多没有解
大数据技术与应用实战
·
2021-04-14 20:14
你的
Parquet
该升级了:IOException: totalValueCount == 0问题定位之旅
本文分享自华为云社区《你的
Parquet
该升级了:IOException:totalValueCount==0问题定位之旅》,原文作者:wzhfy。
·
2021-04-06 18:00
你的
Parquet
该升级了:IOException: totalValueCount == 0问题定位之旅
本文分享自华为云社区《你的
Parquet
该升级了:IOException:totalValueCount==0问题定位之旅》,原文作者:wzhfy。
·
2021-04-06 18:59
python如何原生访问hdfs文件系统
对于HIVE,生成orc或者
parquet
文件格式放在hdfs文件系统上,对外通过SQL语句,就能实现离线分析,数据仓库的功能。
小木胆
·
2021-03-10 11:43
列式存储格式之
parquet
读写
网上许多写入
parquet
需要在本地安装haddop环境,下面介绍一种不需要安装haddop即可写入
parquet
文件的方式,以及通过两种方式来读取
parquet
文件。
每天搬砖小伙子
·
2021-01-01 18:11
java
hadoop
列式存储格式之
parquet
读写
网上许多写入
parquet
需要在本地安装haddop环境,下面介绍一种不需要安装haddop即可写入
parquet
文件的方式,以及通过两种方式来读取
parquet
文件。
每天搬砖小伙子
·
2021-01-01 18:57
java
hadoop
spark数据查询语句select_Spark-SQL之DataFrame操作大全
一、DataFrame对象的生成Spark-SQL可以以其他RDD对象、
parquet
文件、json文件、Hive表,以及通过JDBC连接到
weixin_39888082
·
2020-12-21 13:55
Kylin on
Parquet
介绍和快速上手
转载自ApacheKylin公众号(作者也是我):原文链接,该文章是2020年4月18号KylinonParquet介绍及快速上手线上meepup分享的总结文章。因为KylinonParquet目前还在不停地迭代发展,所以此处也对原文中的部分地方做一下更新。在构建部分讲到的CountDistinct,TopN,Percentile,这些度量目前已经都支持了,详情请见KYLIN-4462。补充了自动
淡蘫铯の迗悾
·
2020-12-15 13:38
kylin
spark
Kylin on
Parquet
介绍和快速上手
转载自ApacheKylin公众号(作者也是我):原文链接,该文章是2020年4月18号KylinonParquet介绍及快速上手线上meepup分享的总结文章。因为KylinonParquet目前还在不停地迭代发展,所以此处也对原文中的部分地方做一下更新。在构建部分讲到的CountDistinct,TopN,Percentile,这些度量目前已经都支持了,详情请见KYLIN-4462。补充了自动
淡蘫铯の迗悾
·
2020-12-15 13:11
kylin
spark
Hive文件存储格式详解
0.行式存储和列式存储Hive中常用的存储格式有TEXTFILE、SEQUENCEFILE、AVRO、RCFILE、ORCFILE、
PARQUET
等,其中TEXTFILE、SEQUENCEFILE和AVRO
LannisterWF
·
2020-11-28 22:08
Java mapreduce解析
parquet
日志
1.单输入格式指定输入格式ParquetInputFormat//指定输入格式job.setMapperClass(ParquetMap.class);job.setInputFormatClass(ParquetInputFormat.class);ParquetInputFormat.addInputPath(job,newPath(args[1]));ParquetInputFormat.s
杜杜501
·
2020-11-27 01:39
java
http
mapreduce
Hive 表之间数据处理,Int 类型字段部分字段出现 NULL情况
背景hive中有一张待处理的分区表,存储的方式是
parquet
,处理之后的目标表是一张非分区的外部表,并且分隔方式为“,”。
张德恒
·
2020-11-13 11:23
hive
Java mapreduce解析
parquet
日志
1.单输入格式指定输入格式ParquetInputFormat//指定输入格式job.setMapperClass(ParquetMap.class);job.setInputFormatClass(ParquetInputFormat.class);ParquetInputFormat.addInputPath(job,newPath(args[1]));ParquetInputFormat.s
杜杜501
·
2020-11-13 11:40
java
http
mapreduce
Spark
Parquet
详解
Spark-
Parquet
概述ApacheParquet属于Hadoop生态圈的一种新型列式存储格式,既然属于Hadoop生态圈,因此也兼容大多圈内计算框架(Hadoop、Spark),另外
Parquet
HoLoong
·
2020-09-29 16:00
上一页
4
5
6
7
8
9
10
11
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他