E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Parquet
Hive快速入门系列(13) | Hive的数据存储格式
目录1.列式存储和行式存储2.TextFile格式3.Orc格式4.
Parquet
格式5.主流文件存储格式对比实验5.1存储文件的压缩比测试5.2存储文件的查询速度测试Hive支持的存储数据的格式主要有
不温卜火
·
2020-06-21 04:11
Hadoop
#
Hive
Spark - SQL查询文件数据
>有时候有没有这么一种情况,我拿到了一个sql,csv,
parquet
文件,一起来就想写sql,不想写那些乱七八糟的的东西,只是想快速实现我要的聚合查询数据。
kikiki4
·
2020-06-21 03:12
2020-06-18
.自我介绍2.HBase1.compaction2.列族和HFile3.何时用hdfs何时用hbase4.meta表3.hive1.内部表外部表2.开窗函数3.udf函数4.计算指标5.格式,压缩格式
parquet
大数据修行
·
2020-06-18 15:53
【Flink实战系列】Flink使用StreamingFileSink写入HDFS(
parquet
格式snappy压缩)
这篇文章主要介绍一下Flink使用StreamingFileSink写入HDFS怎么用snappy压缩,之前的文章介绍过了写入
parquet
格式的数据,当时也有星球里面的朋友问这种写法怎么压缩,我只是简单的回复了说可以用
JasonLee-后厂村程序员
·
2020-06-13 13:49
Flink实战系列
flink
自己总结
由于元组一次无法传入85个字段,所以Log类中用了extendsProductETL需求实现在ETL2HDFS类中初始化环境的时候,指定序列化方式:serializer,默认压缩方式为snappy,默认保存格式为
parquet
漪恒_day
·
2020-05-31 11:00
Apache
Parquet
技术干货分享
Parquet
是一种面向分析的、通用的列式存储格式,兼容各种数据处理框架比如Spark、Hive、Impala等,同时支持Avro、Thrift、ProtocolBuffers等数据模型。
大数据技术架构
·
2020-05-27 12:08
填坑!线上Presto查询Hudi表异常排查
1.引入线上用户反馈使用Presto查询Hudi表出现错误,而将Hudi表的文件单独创建
parquet
类型表时查询无任何问题,关键报错信息如下40931f6e-3422-4ffd-a692-6c70f75c9380
leesf
·
2020-05-23 18:00
填坑!线上Presto查询Hudi表异常排查
1.引入线上用户反馈使用Presto查询Hudi表出现错误,而将Hudi表的文件单独创建
parquet
类型表时查询无任何问题,关键报错信息如下40931f6e-3422-4ffd-a692-6c70f75c9380
leesf
·
2020-05-23 18:00
不通过 Spark 获取 Delta Lake Snapshot
DeltaLake进行数据删除或更新操作时实际上只是对被删除数据文件做了一个remove标记,在进行vacuum前并不会进行物理删除,因此一些例如在web上获取元数据或进行部分数据展示的操作如果直接从表路径下获取
parquet
breeze_lsw
·
2020-04-26 16:21
Spark - SQL查询文件数据
>有时候有没有这么一种情况,我拿到了一个sql,csv,
parquet
文件,一起来就想写sql,不想写那些乱七八糟的的东西,只是想快速实现我要的聚合查询数据。
kikiki4
·
2020-04-13 12:41
Hive实践分享之存储和压缩的坑
在我实际查看以后,发现集群的文件存储格式为
Parquet
,一种列式存储引擎,类似的还有ORC。而文件的压缩形式为Snappy。
大数据首席数据师
·
2020-04-12 21:12
Spark - SQL查询文件数据
>有时候有没有这么一种情况,我拿到了一个sql,csv,
parquet
文件,一起来就想写sql,不想写那些乱七八糟的的东西,只是想快速实现我要的聚合查询数据。
kikiki4
·
2020-04-11 13:12
Spark从入门到精通21:Spark SQL:
Parquet
数据源自动分区推断
SparkSQL中的
Parquet
数据源,支持自动根据目录名推断出分区信息。例如,如果将人口数据存储在分区表中,并且使用性别和国家作为分区列。
勇于自信
·
2020-04-09 22:16
黑猴子的家:Hive 文件存储格式
Hive支持的存储数的格式主要有:TEXTFILE、SEQUENCEFILE、ORC、
PARQUET
1、列式存储和行式存储A-1【图A-1】左边为逻辑表,右边第一个为行式存储,第二个为列式存储。
黑猴子的家
·
2020-04-08 18:55
Spark - SQL查询文件数据
>有时候有没有这么一种情况,我拿到了一个sql,csv,
parquet
文件,一起来就想写sql,不想写那些乱七八糟的的东西,只是想快速实现我要的聚合查询数据。
kikiki5
·
2020-04-06 21:15
Spark - SQL查询文件数据
>有时候有没有这么一种情况,我拿到了一个sql,csv,
parquet
文件,一起来就想写sql,不想写那些乱七八糟的的东西,只是想快速实现我要的聚合查询数据。
kikiki4
·
2020-04-06 10:35
使用Hadoop机架位置提升Vertica性能
当Vertica数据库节点位于Hadoop数据节点(DataNode)上时,Vertica可以利用Hadoop机架配置对ORC和
Parquet
数据执行查询。
LeiLv
·
2020-04-06 00:34
spark sql 在mysql的应用实践
前言目前sparksql主要应用在structurestreaming、etl和machinelearning的场景上,它能对结构化的数据进行存储和操作,结构化的数据可以来自HIve、JSON、
Parquet
VIPSHOP_FCS
·
2020-04-04 20:59
Hive学习笔记七
编译源码二、Hadoop压缩配置1、MR支持的压缩编码2、压缩参数配置三、开启Map输出阶段压缩四、开启Reduce输出阶段压缩五、文件存储格式1、列式存储和行式存储2、TextFile格式3、Orc格式4、
Parquet
落花桂
·
2020-04-03 13:00
Spark - SQL查询文件数据
有时候有没有这么一种情况,我拿到了一个sql,csv,
parquet
文件,一起来就想写sql,不想写那些乱七八糟的的东西,只是想快速实现我要的聚合查询数据。
kikiki4
·
2020-03-31 04:54
Pyspark读取
parquet
数据过程解析
parquet
数据:列式存储结构,由Twitter和Cloudera合作开发,相比于行式存储,其特点是:可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量;压缩编码可以降低磁盘存储空间,使用更高效的压缩编码节约存储空间
落日峡谷
·
2020-03-27 11:22
spark从入门到放弃三十一:Spark Sql (4)数据源
Parquet
文章地址:http://www.haha174.top/article/details/253452项目源码:https://github.com/haha174/spark.git1.简介
parquet
意浅离殇
·
2020-03-25 23:34
Impala读取HBase外部表的一个坑
数据平台的数据流水线如下:数据流水线数据上报后首先写入到MQ里,通过一个消费者将数据存入HBase中,每天通过ImpalaJDBC接口增量将数据以
Parquet
格式写入HDFS中。
Caoyun
·
2020-03-25 20:00
1.Writing R data frames returned from SparkR:::map
本想的将这些数据作为
parquet
这样就可以避免collect的Action操作。
HOHOOO
·
2020-03-25 17:06
【Spark】Spark DataFrame schema转换方法
schema转换成:id:String,goods_name:Stringprice:Arraysql转换spark.sql("createtablespeedup_tmp_test_spark_schema_
parquet
12usingparquetasselectcast
PowerMe
·
2020-03-23 23:10
Spark - SQL查询文件数据
>有时候有没有这么一种情况,我拿到了一个sql,csv,
parquet
文件,一起来就想写sql,不想写那些乱七八糟的的东西,只是想快速实现我要的聚合查询数据。
kikiki4
·
2020-03-23 14:33
hive数据类型和文件格式
rowformatdelimitedfiledsterminatedby','linesterminatedby'\n'storedastextfile可以简单地视为csv格式二进制格式storedasavro...seqencefile...
parquet
xncode
·
2020-03-22 03:01
Parquet
实践和基本原理
生成一个
parquet
文件下载wget[https://github.com/apache/
parquet
-mr/archive/apache-
parquet
-1.10.0.tar.gz](https:
tracy_668
·
2020-03-21 22:05
Spark SQL(三)DataSource
使用SparkSQL的DataFrame接口,用户可以方便快速的从多种不同数据源(json/
parquet
/rdbms等),经过混合处理(比如jsonjoinparquet),再将处理结果以特定的格式(
Sx_Ren
·
2020-03-20 12:27
一文学会绕过Hive存储和压缩的坑
在我实际查看以后,发现集群的文件存储格式为
Parquet
,一种列式存储引擎,类似的还有ORC。而文件的压缩形式为Snappy。具体的操作形式如下:①创建Parq
大数据首席数据师
·
2020-03-16 09:19
X-Pack Spark归档POLARDB数据做分析
X-PackSpark为数据库提供分析引擎,旨在打造数据库闭环,借助X-PackSpark可以将POLARDB数据归档至列式存储
Parquet
文件,一条SQL完成复杂数据分析,并将分析结果回流到业务库提供查询
阿里云云栖号
·
2020-03-15 05:47
常见Hive调优策略
(textFile,ORCFile,
Parquet
)t
心_的方向
·
2020-03-11 01:09
impala在
parquet
文件格式上执行count(*)操作
parquet
是一个支持列式存储的文件格式,对于大数据量,多维来说,如果只查询某些具体维来说,有很好的效率。
胖imp
·
2020-03-10 03:04
hive查询报错:java.io.IOException:org.apache.
parquet
.io.ParquetDecodingException
hiveQueryException/前言本文解决如标题所述的一个hive查询异常,详细异常信息为:Failedwithexceptionjava.io.IOException:org.apache.
parquet
.io.ParquetDecodingException
董可伦
·
2020-03-04 05:47
Spark高级面试问题join丢失节点、
parquet
大小
Spark生成
parquet
格式一般建议每个
parquet
多大?田毅:这个我的建议是别弄太大,数据(压缩前)最好别超过128M,这个数
Albert陈凯
·
2020-03-03 21:21
大数据常用文件格式介绍
上的文章:https://blog.csdn.net/u013332124/article/details/86423952最近在做hdfs小文件合并的项目,涉及了一些文件格式的读写,比如avro、orc、
parquet
疯狂的哈丘
·
2020-02-29 08:13
利用 Spark DataSource API 实现Rest数据源
典型如
Parquet
,CarbonData,Postgrep(JDBC类的都OK)等实现。本文则介绍如何利用SparkDataSource对标准Rest接口实现读取引子先说下这个需求的来源。
祝威廉
·
2020-02-29 04:12
SPARK命令行读取
parquet
数据
/spark-shell2,执行以下操作读取
parquet
文件valsqlContext=neworg.apache.spark.sql.SQLContext(sc)valparquetFile=sqlContext.parquetFile
light2081
·
2020-02-28 03:21
Parquet
元数据合并
当文件使用
Parquet
格式时,如果多次生成的文件列不同,可以进行元数据的合并,不用再像关系型数据库那样多个表关联。
不圆的石头
·
2020-02-25 13:21
大数据文件格式梳理:
Parquet
、Avro、ORC
文件系统优化出的存储结构2、提供高效的压缩3、二进制存储格式4、文件可分割,具有很强的伸缩性和并行处理能力5、使用schema进行自我描述6、属于线上格式,可以在Hadoop节点之间传递数据二、不同点行式存储or列式存储:
Parquet
ryancao_b9b9
·
2020-02-25 00:05
浅谈几种常见的大数据文件格式
在本文中,我们会讨论在ApacheSpark中使用的这四种格式的特性--CSV,JSON,
Parquet
猿奶爸
·
2020-02-19 19:48
CarbonData实践(一)
前言CarbonData拥有不错的明细查询能力,比如简单的where条件过滤,性能大概是
Parquet
的20倍。
祝威廉
·
2020-02-14 18:51
Structured Streaming如何实现
Parquet
存储目录按时间分区
缘由StreamingPro现在支持以SQL脚本的形式写StructuredStreaming流式程序了:mlsql-stream。不过期间遇到个问题,我希望按天进行分区,但是这个分区比较特殊,就是是按接收时间来落地进行分区,而不是记录产生的时间。当然,我可以新增一个时间字段,然后使用partitionBy动态分区的方式解决这个问题,但是使用动态分区有一个麻烦的地方是,删除数据并不方便。流式程序会
祝威廉
·
2020-02-10 18:21
[译] Spark SQL Generic Load/Save Functions
[TOC]GenericLoad/SaveFunctions(通用加载/保存函数)最简单的情况,默认数据源(
parquet
,除非使用spark.sql.sources.default修改了配置)将会应用到所有操作
阿亚2011
·
2020-02-07 01:50
Spark与Apache
Parquet
七十年代时,有一长辈连练铁砂掌,功夫成了之后,可以掌断五砖,凌空碎砖,威风得不得了。时至八十年代,只能掌断三砖。到九十年代只能一砖一砖的断了。他说,一直以为功力退步了,后来才知道烧砖的配方改了。数据压缩前言前两篇将了spark的部署和一些简单的实例Spark初体验(步骤超详细)和Spark再体验之springboot整合spark。我相信前两篇会对刚入门的sparker来说会有一些启发。今天在使用
冬天只爱早晨
·
2020-02-06 05:02
SparkSQL学习笔记
sparkSQL特点:数据兼容,不仅兼容hive,还可以从rdd,
parquet
文件,json文件获取数据,支持从rd
伯安知心
·
2020-02-05 15:00
Spark SQL 简介
结构化数据可以来自外部源:Hive/Json/
parquet
,1.2开始支持JDBC等,也可以对已有RDD增加Schema的方式获得。
cuteximi_1995
·
2020-02-02 00:43
用户自定义source & sink
TableSink将表发送到外部存储系统,例如数据库,键值存储,消息队列或文件系统(在不同的编码中,例如CSV,
Parquet
或ORC)。
盗梦者_56f2
·
2020-02-01 20:18
Apache Hudi 0.5.1版本重磅发布
社区终于发布了0.5.1版本,这是ApacheHudi发布的第二个Apache版本,该版本中一些关键点如下版本升级将Spark版本从2.1.0升级到2.4.4将Avro版本从1.7.7升级到1.8.2将
Parquet
ApacheHudi
·
2020-02-01 00:00
spark学习笔记
1.3、SparkSQL通过SparkSQL,我们可以使用SQL或者Hive版本的SQL(HQL)来查询数据,支持多种数据源,比如Hive表、
Parquet
、JSON等。
seafreak
·
2020-01-31 02:36
上一页
11
12
13
14
15
16
17
18
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他