Parquet 第15页

Hive快速入门系列(13) | Hive的数据存储格式

目录1.列式存储和行式存储2.TextFile格式3.Orc格式4.Parquet格式5.主流文件存储格式对比实验5.1存储文件的压缩比测试5.2存储文件的查询速度测试Hive支持的存储数据的格式主要有

不温卜火·2020-06-21 04:11

Spark - SQL查询文件数据

>有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。

kikiki4·2020-06-21 03:12

2020-06-18

.自我介绍2.HBase1.compaction2.列族和HFile3.何时用hdfs何时用hbase4.meta表3.hive1.内部表外部表2.开窗函数3.udf函数4.计算指标5.格式，压缩格式parquet

大数据修行·2020-06-18 15:53

【Flink实战系列】Flink使用StreamingFileSink写入HDFS（parquet格式snappy压缩）

这篇文章主要介绍一下Flink使用StreamingFileSink写入HDFS怎么用snappy压缩，之前的文章介绍过了写入parquet格式的数据，当时也有星球里面的朋友问这种写法怎么压缩，我只是简单的回复了说可以用

JasonLee-后厂村程序员·2020-06-13 13:49

自己总结

由于元组一次无法传入85个字段，所以Log类中用了extendsProductETL需求实现在ETL2HDFS类中初始化环境的时候，指定序列化方式：serializer，默认压缩方式为snappy，默认保存格式为parquet

漪恒_day·2020-05-31 11:00

Apache Parquet 技术干货分享

Parquet是一种面向分析的、通用的列式存储格式，兼容各种数据处理框架比如Spark、Hive、Impala等，同时支持Avro、Thrift、ProtocolBuffers等数据模型。

大数据技术架构·2020-05-27 12:08

填坑！线上Presto查询Hudi表异常排查

1.引入线上用户反馈使用Presto查询Hudi表出现错误，而将Hudi表的文件单独创建parquet类型表时查询无任何问题，关键报错信息如下40931f6e-3422-4ffd-a692-6c70f75c9380

leesf·2020-05-23 18:00

填坑！线上Presto查询Hudi表异常排查

1.引入线上用户反馈使用Presto查询Hudi表出现错误，而将Hudi表的文件单独创建parquet类型表时查询无任何问题，关键报错信息如下40931f6e-3422-4ffd-a692-6c70f75c9380

leesf·2020-05-23 18:00

不通过 Spark 获取 Delta Lake Snapshot

DeltaLake进行数据删除或更新操作时实际上只是对被删除数据文件做了一个remove标记，在进行vacuum前并不会进行物理删除，因此一些例如在web上获取元数据或进行部分数据展示的操作如果直接从表路径下获取parquet

breeze_lsw·2020-04-26 16:21

Spark - SQL查询文件数据

>有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。

kikiki4·2020-04-13 12:41

Hive实践分享之存储和压缩的坑

在我实际查看以后，发现集群的文件存储格式为Parquet，一种列式存储引擎，类似的还有ORC。而文件的压缩形式为Snappy。

大数据首席数据师·2020-04-12 21:12

Spark - SQL查询文件数据

>有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。

kikiki4·2020-04-11 13:12

Spark从入门到精通21:Spark SQL：Parquet数据源自动分区推断

SparkSQL中的Parquet数据源，支持自动根据目录名推断出分区信息。例如，如果将人口数据存储在分区表中，并且使用性别和国家作为分区列。

勇于自信·2020-04-09 22:16

黑猴子的家：Hive 文件存储格式

Hive支持的存储数的格式主要有：TEXTFILE、SEQUENCEFILE、ORC、PARQUET1、列式存储和行式存储A-1【图A-1】左边为逻辑表，右边第一个为行式存储，第二个为列式存储。

黑猴子的家·2020-04-08 18:55

Spark - SQL查询文件数据

>有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。

kikiki5·2020-04-06 21:15

Spark - SQL查询文件数据

>有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。

kikiki4·2020-04-06 10:35

使用Hadoop机架位置提升Vertica性能

当Vertica数据库节点位于Hadoop数据节点(DataNode)上时，Vertica可以利用Hadoop机架配置对ORC和Parquet数据执行查询。

LeiLv·2020-04-06 00:34

spark sql 在mysql的应用实践

前言目前sparksql主要应用在structurestreaming、etl和machinelearning的场景上，它能对结构化的数据进行存储和操作，结构化的数据可以来自HIve、JSON、Parquet

VIPSHOP_FCS·2020-04-04 20:59

Hive学习笔记七

编译源码二、Hadoop压缩配置1、MR支持的压缩编码2、压缩参数配置三、开启Map输出阶段压缩四、开启Reduce输出阶段压缩五、文件存储格式1、列式存储和行式存储2、TextFile格式3、Orc格式4、Parquet

落花桂·2020-04-03 13:00

Spark - SQL查询文件数据

有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。

kikiki4·2020-03-31 04:54

Pyspark读取parquet数据过程解析

parquet数据：列式存储结构，由Twitter和Cloudera合作开发，相比于行式存储，其特点是：可以跳过不符合条件的数据，只读取需要的数据，降低IO数据量；压缩编码可以降低磁盘存储空间，使用更高效的压缩编码节约存储空间

落日峡谷·2020-03-27 11:22

spark从入门到放弃三十一:Spark Sql (4)数据源Parquet

文章地址：http://www.haha174.top/article/details/253452项目源码：https://github.com/haha174/spark.git1.简介parquet

意浅离殇·2020-03-25 23:34

Impala读取HBase外部表的一个坑

数据平台的数据流水线如下：数据流水线数据上报后首先写入到MQ里，通过一个消费者将数据存入HBase中，每天通过ImpalaJDBC接口增量将数据以Parquet格式写入HDFS中。

Caoyun·2020-03-25 20:00

1.Writing R data frames returned from SparkR:::map

本想的将这些数据作为parquet这样就可以避免collect的Action操作。

HOHOOO·2020-03-25 17:06

【Spark】Spark DataFrame schema转换方法

schema转换成:id:String,goods_name:Stringprice:Arraysql转换spark.sql("createtablespeedup_tmp_test_spark_schema_parquet12usingparquetasselectcast

PowerMe·2020-03-23 23:10

Spark - SQL查询文件数据

>有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。

kikiki4·2020-03-23 14:33

hive数据类型和文件格式

rowformatdelimitedfiledsterminatedby','linesterminatedby'\n'storedastextfile可以简单地视为csv格式二进制格式storedasavro...seqencefile...parquet

xncode·2020-03-22 03:01

Parquet 实践和基本原理

生成一个parquet文件下载wget[https://github.com/apache/parquet-mr/archive/apache-parquet-1.10.0.tar.gz](https:

tracy_668·2020-03-21 22:05

Spark SQL（三）DataSource

使用SparkSQL的DataFrame接口，用户可以方便快速的从多种不同数据源（json/parquet/rdbms等），经过混合处理（比如jsonjoinparquet）,再将处理结果以特定的格式（

Sx_Ren·2020-03-20 12:27

一文学会绕过Hive存储和压缩的坑

在我实际查看以后，发现集群的文件存储格式为Parquet，一种列式存储引擎，类似的还有ORC。而文件的压缩形式为Snappy。具体的操作形式如下：①创建Parq

大数据首席数据师·2020-03-16 09:19

X-Pack Spark归档POLARDB数据做分析

X-PackSpark为数据库提供分析引擎，旨在打造数据库闭环，借助X-PackSpark可以将POLARDB数据归档至列式存储Parquet文件，一条SQL完成复杂数据分析，并将分析结果回流到业务库提供查询

阿里云云栖号·2020-03-15 05:47

常见Hive调优策略

（textFile,ORCFile,Parquet）t

心_的方向·2020-03-11 01:09

impala在parquet文件格式上执行count(*)操作

parquet是一个支持列式存储的文件格式，对于大数据量，多维来说，如果只查询某些具体维来说，有很好的效率。

胖imp·2020-03-10 03:04

hive查询报错:java.io.IOException:org.apache.parquet.io.ParquetDecodingException

hiveQueryException/前言本文解决如标题所述的一个hive查询异常，详细异常信息为：Failedwithexceptionjava.io.IOException:org.apache.parquet.io.ParquetDecodingException

董可伦·2020-03-04 05:47

Spark高级面试问题join丢失节点、parquet大小

Spark生成parquet格式一般建议每个parquet多大？田毅：这个我的建议是别弄太大，数据(压缩前)最好别超过128M，这个数

Albert陈凯·2020-03-03 21:21

大数据常用文件格式介绍

上的文章：https://blog.csdn.net/u013332124/article/details/86423952最近在做hdfs小文件合并的项目，涉及了一些文件格式的读写，比如avro、orc、parquet

疯狂的哈丘·2020-02-29 08:13

利用 Spark DataSource API 实现Rest数据源

典型如Parquet,CarbonData,Postgrep(JDBC类的都OK)等实现。本文则介绍如何利用SparkDataSource对标准Rest接口实现读取引子先说下这个需求的来源。

祝威廉·2020-02-29 04:12

SPARK命令行读取parquet数据

/spark-shell2，执行以下操作读取parquet文件valsqlContext=neworg.apache.spark.sql.SQLContext(sc)valparquetFile=sqlContext.parquetFile

light2081·2020-02-28 03:21

Parquet元数据合并

当文件使用Parquet格式时，如果多次生成的文件列不同，可以进行元数据的合并，不用再像关系型数据库那样多个表关联。

不圆的石头·2020-02-25 13:21

大数据文件格式梳理：Parquet、Avro、ORC

文件系统优化出的存储结构2、提供高效的压缩3、二进制存储格式4、文件可分割，具有很强的伸缩性和并行处理能力5、使用schema进行自我描述6、属于线上格式，可以在Hadoop节点之间传递数据二、不同点行式存储or列式存储：Parquet

ryancao_b9b9·2020-02-25 00:05

浅谈几种常见的大数据文件格式

在本文中，我们会讨论在ApacheSpark中使用的这四种格式的特性--CSV，JSON，Parquet

猿奶爸·2020-02-19 19:48

CarbonData实践(一)

前言CarbonData拥有不错的明细查询能力，比如简单的where条件过滤，性能大概是Parquet的20倍。

祝威廉·2020-02-14 18:51

Structured Streaming如何实现Parquet存储目录按时间分区

缘由StreamingPro现在支持以SQL脚本的形式写StructuredStreaming流式程序了：mlsql-stream。不过期间遇到个问题，我希望按天进行分区，但是这个分区比较特殊，就是是按接收时间来落地进行分区，而不是记录产生的时间。当然，我可以新增一个时间字段，然后使用partitionBy动态分区的方式解决这个问题，但是使用动态分区有一个麻烦的地方是，删除数据并不方便。流式程序会

祝威廉·2020-02-10 18:21

[译] Spark SQL Generic Load/Save Functions

[TOC]GenericLoad/SaveFunctions(通用加载/保存函数)最简单的情况,默认数据源(parquet,除非使用spark.sql.sources.default修改了配置)将会应用到所有操作

阿亚2011·2020-02-07 01:50

Spark与Apache Parquet

七十年代时，有一长辈连练铁砂掌，功夫成了之后，可以掌断五砖，凌空碎砖，威风得不得了。时至八十年代，只能掌断三砖。到九十年代只能一砖一砖的断了。他说，一直以为功力退步了，后来才知道烧砖的配方改了。数据压缩前言前两篇将了spark的部署和一些简单的实例Spark初体验(步骤超详细)和Spark再体验之springboot整合spark。我相信前两篇会对刚入门的sparker来说会有一些启发。今天在使用

冬天只爱早晨·2020-02-06 05:02

SparkSQL学习笔记

sparkSQL特点：数据兼容，不仅兼容hive，还可以从rdd，parquet文件，json文件获取数据，支持从rd

伯安知心·2020-02-05 15:00

Spark SQL 简介

结构化数据可以来自外部源：Hive/Json/parquet，1.2开始支持JDBC等，也可以对已有RDD增加Schema的方式获得。

cuteximi_1995·2020-02-02 00:43

用户自定义source & sink

TableSink将表发送到外部存储系统，例如数据库，键值存储，消息队列或文件系统（在不同的编码中，例如CSV，Parquet或ORC）。

盗梦者_56f2·2020-02-01 20:18

Apache Hudi 0.5.1版本重磅发布

社区终于发布了0.5.1版本，这是ApacheHudi发布的第二个Apache版本，该版本中一些关键点如下版本升级将Spark版本从2.1.0升级到2.4.4将Avro版本从1.7.7升级到1.8.2将Parquet

ApacheHudi·2020-02-01 00:00

spark学习笔记

1.3、SparkSQL通过SparkSQL，我们可以使用SQL或者Hive版本的SQL（HQL）来查询数据，支持多种数据源，比如Hive表、Parquet、JSON等。

seafreak·2020-01-31 02:36

推荐频道

Parquet

Hive快速入门系列(13) | Hive的数据存储格式

Spark - SQL查询文件数据

2020-06-18

【Flink实战系列】Flink使用StreamingFileSink写入HDFS（parquet格式snappy压缩）

自己总结

Apache Parquet 技术干货分享

填坑！线上Presto查询Hudi表异常排查

填坑！线上Presto查询Hudi表异常排查

不通过 Spark 获取 Delta Lake Snapshot

Spark - SQL查询文件数据

Hive实践分享之存储和压缩的坑

Spark - SQL查询文件数据

Spark从入门到精通21:Spark SQL：Parquet数据源自动分区推断

黑猴子的家：Hive 文件存储格式

Spark - SQL查询文件数据

Spark - SQL查询文件数据

使用Hadoop机架位置提升Vertica性能

spark sql 在mysql的应用实践

Hive学习笔记七

Spark - SQL查询文件数据

Pyspark读取parquet数据过程解析

spark从入门到放弃三十一:Spark Sql (4)数据源Parquet

Impala读取HBase外部表的一个坑

1.Writing R data frames returned from SparkR:::map

【Spark】Spark DataFrame schema转换方法

Spark - SQL查询文件数据

hive数据类型和文件格式

Parquet 实践和基本原理

Spark SQL（三）DataSource

一文学会绕过Hive存储和压缩的坑

X-Pack Spark归档POLARDB数据做分析

常见Hive调优策略

impala在parquet文件格式上执行count(*)操作

hive查询报错:java.io.IOException:org.apache.parquet.io.ParquetDecodingException

Spark高级面试问题join丢失节点、parquet大小

大数据常用文件格式介绍

利用 Spark DataSource API 实现Rest数据源

SPARK命令行读取parquet数据

Parquet元数据合并

大数据文件格式梳理：Parquet、Avro、ORC

浅谈几种常见的大数据文件格式

CarbonData实践(一)

Structured Streaming如何实现Parquet存储目录按时间分区

[译] Spark SQL Generic Load/Save Functions

Spark与Apache Parquet

SparkSQL学习笔记

Spark SQL 简介

用户自定义source & sink

Apache Hudi 0.5.1版本重磅发布

spark学习笔记