Parquet 第2页

Spark - SQL查询文件数据

有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。

kikiki2·2023-12-06 11:16

hive文件存储格式orc和parquet详解

hive支持的文件类型：textfile、sequencefile（二进制序列化文件）、rcfile（行列式文件）、parquet、orcfile（优化的行列式文件）一、orc文件带有描述式的行列式存储文件

！@123·2023-12-06 07:32

Windows系统查看parquet文件

一、背景最近项目上数据导入redshift是从s3，并且s3上文件格式为parquet。

某可儿同学的博客·2023-12-06 06:27

pandas parquet文件读取pyarrow、feather文件保存与读取；requests 或wget下载图片文件

**pandas读取文件填写绝对路径，相对路径可能出错读不了安装fastparquet库，需要安装python-snappy,一直安装错误，所以使用了pyarrowpipinstallpyarrow参考：https://arrow.apache.org/docs/python/importglobimportpandasaspdimportpyarrow.parquetaspqaaaaa=glob

loong_XL·2023-12-06 06:27

【Python笔记】Parquet介绍及简单使用

1什么是parquet定义：Parquet是列式存储的一种文件类型官网描述：无论数据处理框架，数据模型或编程语言的选择如何，ApacheParquet都是Hadoop生态系统中任何项目可用的列式存储格式由来

阳光快乐普信男·2023-12-06 06:55

使用 pyarrow 将parquet转成spark能用的parquet

最近发现spark的一个坑（发现时spark最新为2.4.4版本），spark对parquet格式有特殊要求，不支持带“uint8”类型的parquethttps://github.com/apache

爱知菜·2023-12-06 06:55

用 Python 定义 Schema 并生成 Parquet 文件

原来用Java和Python实现过Avro转换成Parquet格式，所以Schema都是在Avro中定义的。

程序猿-小菜·2023-12-06 06:25

python读parquet文件 pandas读parquet文件

如何使用gzip压缩后的parquet文件今天我们来学习使用python读取parquet文件背景有一个parquet文件，而且还用gzip压缩了。那该如何读取呢？

只要开始永远不晚·2023-12-06 06:24

关于pandas&python读取parquet文件

引言仅作为参考，起因是工作中需要用到pandas读取parquet格式的文件，结果发现需要另外安装适配的包，一顿倒腾代价还不如在项目加一步处理，因此不再需要读取parquet文件的读取操作，所以该文章只作为以后再遇到本场景的一个

矮人三等·2023-12-06 06:53

python如何读取parquet文件中的每一行每一列内容

引言Parquet是一种列式存储格式，主要用于大规模数据处理。它具有高效的压缩比和快速的读取性能，因此在处理大型数据集时非常有用。

u013250861·2023-12-06 06:50

Spark - SQL查询文件数据

有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。

kikiki2·2023-12-06 01:07

Spark - SQL查询文件数据

有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。

kikiki2·2023-12-06 01:40

Spark-03: Spark SQL 基础编程

目录1.SparkSQL简介2.SparkSession3.SparkSQL数据的读写3.1读写TXT文件3.2读写CSV文件3.3读写JSON文件3.4读写Parquet文件3.5读写ORC文件3.6

m0_37559973·2023-12-05 18:17

读取pkl文件报错_pickle.UnpicklingError: A load persistent id instruction was encountered

报错的原因可能有好几种，我这里是因为文件格式不是pickle格式，而是parquet格式的。改成pd.read_parquet()即可

mtj66·2023-12-04 20:49

调优--学习笔记

相对于Parquet，Presto对ORC支持更好。Parquet和ORC一样都支持列式存储，但是Presto对ORC

祈愿lucky·2023-12-04 09:14

Hive中parquet压缩格式分区表的跨集群迁移记录

数据样例：分区表外部表.parquet压缩操作步骤STEP

程序终结者·2023-12-02 10:17

Doris 数据导入一：Broker Load 方式

其中Brokerload还支持parquet和orc数据格式。1）

shangjg3·2023-12-02 10:18

Spark---DataFrame存储、Spark UDF函数、UDAF函数

四、DataFrame存储+SparkUDF函数1、储存DataFrame1）、将DataFrame存储为parquet文件2）、将DataFrame存储到JDBC数据库3）、将DataFrame存储到

30岁老阿姨·2023-12-02 10:46

123.Impala查询缓慢问题与解决

123.1问题情况前提ImpalaDaemon已启用-convert_legacy_hive_parquet_utc_timestampsHive创建测试表，其中“statsdate”字段为TIMESTAMP

大勇任卷舒·2023-11-29 15:53

Spark_Spark高阶特性

wscgfilter导致断链Codegen向量化simdjsonOrcParquet支持批量读取spark本身对parquet支持比较好，因为parquet

高达一号·2023-11-29 07:03

SparkSQL与parquet，处理decimal类型数据时遇到的问题及注意事项

这里从表schema的处理角度而言，就必须注意Hive和Parquet兼容性，主要有两个区别：

雾岛与鲸·2023-11-28 11:03

Apache Iceberg核心原理分析文件存储及数据写入流程

第一部分：Iceberg文件存储格式ApacheIceberg作为一款新兴的数据湖解决方案在实现上高度抽象，在存储上能够对接当前主流的HDFS，S3文件系统并且支持多种文件存储格式，例如Parquet、

王知无(import_bigdata)·2023-11-27 19:25

Spark SQL输入输出

1、对于SparkSQL的输入需要使用sparkSession.read方法1)、通用模式sparkSession.read.format("json").load("path")支持类型：parquet

sinat_36710456·2023-11-26 09:37

spark中write算子和format算子详解

以下是一些常见的write算子的用途和示例：1.写入文件系统（例如，HDFS、S3等）：//将DataFrame写入Parquet格式的文件dataframe.w

后季暖·2023-11-24 11:02

[SparkSQL] 列转行lateral view explode函数和FlatMap算子两种方式实现炸裂

SparkSQL]列转行lateralviewexplode函数和FlatMap算子两种方式实现炸裂我用了两种方法实现列转行，说一下我平时使用SparkSQL的习惯，我通常1）是先读取HDFS中的文件，包括txt、parquet

林沐之森·2023-11-21 17:18

Apache Parquet设计解读

官网地址：https://parquet.apache.org/docs编码：https://www.waitingforcode.com/apache-parquet/encodings-apache-parquet

Caucher·2023-11-21 10:40

Hive的SQL执行效率优化

在Hive中文件存储格式有TextFile、SequenceFile、RCFile、ORC（实际工作中常用）、parquet五种类型，但是ORC是最常用的，对于这五种类型用下表可以清晰对之进行区分。

黑白键的约定·2023-11-20 21:53

36、Flink 的 Formats 之Parquet 和 Orc Format

Flink系列文章1、Flink部署、概念介绍、source、transformation、sink使用示例、四大基石介绍和示例等系列综合文章链接13、Flink的tableapi与sql的基本概念、通用api介绍及入门示例14、Flink的tableapi与sql之数据类型:内置数据类型以及它们的属性15、Flink的tableapi与sql之流式概念-详解的介绍了动态表、时间属性配置（如何处理

一瓢一瓢的饮 alanchan·2023-11-20 13:40

基于trino构建新的算子下推框架

背景下推发展过程trino或者presto早期的数据源主要是hive表（列存），所以计算引擎的下推发力点主要在于project和filter下推，由于parquet等列存主要基于zonemap索引（min

诺野·2023-11-19 23:58

使用Spark SQL读取阿里云OSS的数据

CREATETABLEmy_tableUSINGparquetOPTIONS(path'oss://my_bucket/my_data_dir/dt=20230904',--关联OSS路径header'true',--如果Parquet

yangxudong·2023-11-18 23:00

Spark（第五节） RDD、DataFrame、DataSet的介绍与比较，创建DataFrame和DataSet，三者之间互相转换，scala代码创建和使用DataFram

DataFrame读取文本文件创建DataFrame第一种方式：通过RDD配合caseclass进行转换DF第二种方式：通过sparkSession构建DataFrame读取json文件创建DataFrame读取parquet

hwq317622817·2023-11-18 21:43

JSON vs. CSV vs. YAML vs. XML vs. HDF5vs. XLS：数据格式之争

本文涵盖了JSON、CSV、Pickle、YAML、XML、HDF5、Parquet、A

friklogff·2023-11-17 01:33

Spark创建DataFrame

读取数据构造DataFrame主要有以下几种方式：从Json文件中读取通过SQLContext构造类对象构造DataFrame动态创建Schema构造当前的DataFrame结构从parquet文件中读取从

心的步伐·2023-11-15 09:16

SparkSQL 数据的加载和保存

这里的通用指的是使用相同的API，根据不同的参数读取和保存不同格式的数据，SparkSQL默认读取和保存的文件格式为parquet1.加载数据spark.read.load是加载数据的通用方法scala

落花雨时·2023-11-15 05:07

SparkSQL的文件加载和保存

一、文件加载1.spark.read.load是加载数据的通用方法，默认加载和保存的是parquet格式文件read可读格式2.spark.read.format("…")[.option("…")].

爱吃喵的虎·2023-11-15 05:35

spark读取数据并打印_Spark读取和保存数据

读写Parquet(DataFrame)SparkSQL可以支持Parquet、JSON、Hive等数据源，并且可以通过JDBC连接外部数据源。

凌子卿·2023-11-09 14:57

高效数据存储格式Parquet

目录Parquet是什么为什么使用ParquetParquet为什么快如何使用ParquetBestPracticeReferenceParquet是什么Parquet是一种为了对表格型数据实现高性能IO

S_o_l_o_n·2023-11-08 22:14

CarbonData，来自华为的中国力量

华为公司在2016年开源了类parquet的列存格式：CarbonData，并且贡献给了Apache社区。

weixin_34259159·2023-11-08 16:17

CarbonData部署和使用

ApacheCarbonData|GitHub|文档1概述CarbonData是一个开源的用于快速数据分析的新型BigData文件格式，这个项目是华为公司在2016年开源的类Parquet的列式存储，也仅仅用了不到一年的时间就成为了

Yore Yuen·2023-11-08 16:43

Hive面试题持续更新【2023-07-07】

七、Hive内部表和外部表的区别八、ORC、Parquet等列式存储的优点九、数据建模用的哪些模型？十、为什么要对数据仓库分层？十一、使用过Hive解析JSON串吗十二、sortb

程序终结者·2023-11-01 21:35

【大数据Hive】hive 表数据优化使用详解

目录一、前言二、hive常用数据存储格式2.1文件格式-TextFile2.1.1操作演示2.2文件格式-SequenceFile2.2.1操作演示2.3文件格式-Parquet2.3.1Parquet

逆风飞翔的小叔·2023-10-29 23:50

使用Flink Streaming Query 查询Hudi(出现包冲突以及Hive 3.1.3 编译Hudi 时间戳异常)

关于Hudi0.13.1StreamingQuery报错org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormatClassNotFoundExceptionKeywords

Such Devotion·2023-10-27 01:31

Flink写入HDFS（文本，parquet，parquet+snappy）

flink版本：1.10.0code://构建env环境valenv=StreamExecutionEnvironment.getExecutionEnvironmentenv.enableCheckpointing(1000*60)//1000*60s一个checkpointenv.getCheckpointConfig.setCheckpointingMode(CheckpointingMod

乖乖猪001·2023-10-26 12:43

【Flink 实战系列】Flink SQL 使用 filesystem connector 同步 Kafka 数据到 HDFS（parquet 格式 + snappy 压缩）

FlinkSQL同步Kafka数据到HDFS（parquet+snappy）在上一篇文章中，我们用datastreamAPI实现了从Kafka读取数据写到HDFS并且用snappy压缩，今天这篇文章我们来实现一个

JasonLee实时计算·2023-10-26 12:12

Spark之DataFrame操作大全

一、DataFrame对象的生成Spark-SQL可以以其他RDD对象、parquet文件、json文件、Hive表，以及通过JDBC连

果粒多·2023-10-24 07:23

SparkSql读取Snappy Parquet压缩文件报错：java.lang.UnsatisfiedLinkError: org.xerial.snappy.SnappyNative.unc...

版本信息Spark-sql：2.2.0.cloudera2Spark-core：2.2.0.cloudera2JDK：1.8Scala：2.11.11问题描述在通过SparkSqlAPI读取SnappyParquet文件时，SparkJobtask执行报错如下:19/12/1014:40:42WARNscheduler.TaskSetManager:Losttask0.0instage1.0(TI

Producer晨·2023-10-23 13:10

parquet存储linux文件,使用AWS Lambda读取存储在S3中的Parquet文件(Python 3)

我正在尝试使用AWSLambda在S3中加载,处理和编写Parquet文件.我的测试/部署过程是：似乎有两种可能的方法,它们都在本地工作到docker容器：>带有s3fs的fastparquet：不幸的是

weixin_39723102·2023-10-23 04:45

sparkSql外部数据源

1、读取json2、读取csv和tsv3、ObjectFile4、读取hdfs中的数据5、读取Parquet文件6、读取Hive和mysql读取json文件defmain(args:Array[String

Aluha_f289·2023-10-20 19:25

使用 ClickHouse 深入了解 Apache Parquet （二）

【squids.cn】全网zui低价RDS，免费的迁移工具DBMotion、数据库备份工具DBTwin、SQL开发工具等这篇文章是我们的Parquet和ClickHouse博客系列的第二部分。

沃趣数据库管理平台·2023-10-20 17:12

使用 ClickHouse 深入了解 Apache Parquet （一）

【squids.cn】全网zui低价RDS，免费的迁移工具DBMotion、数据库备份工具DBTwin、SQL开发工具等自2013年作为Hadoop的列存储发布以来，Parquet几乎已经成为一种无处不在的文件交换格式

沃趣数据库管理平台·2023-10-20 17:01

推荐频道

Parquet

Spark - SQL查询文件数据

hive文件存储格式orc和parquet详解

Windows系统查看parquet文件

pandas parquet文件读取pyarrow、feather文件保存与读取；requests 或wget下载图片文件

【Python笔记】Parquet介绍及简单使用

使用 pyarrow 将parquet转成spark能用的parquet

用 Python 定义 Schema 并生成 Parquet 文件

python读parquet文件 pandas读parquet文件

关于pandas&python读取parquet文件

python如何读取parquet文件中的每一行每一列内容

Spark - SQL查询文件数据

Spark - SQL查询文件数据

Spark-03: Spark SQL 基础编程

读取pkl文件报错_pickle.UnpicklingError: A load persistent id instruction was encountered

调优--学习笔记

Hive中parquet压缩格式分区表的跨集群迁移记录

Doris 数据导入一：Broker Load 方式

Spark---DataFrame存储、Spark UDF函数、UDAF函数

123.Impala查询缓慢问题与解决

Spark_Spark高阶特性

SparkSQL与parquet，处理decimal类型数据时遇到的问题及注意事项

Apache Iceberg核心原理分析文件存储及数据写入流程

Spark SQL输入输出

spark中write算子和format算子详解

[SparkSQL] 列转行lateral view explode函数和FlatMap算子两种方式实现炸裂

Apache Parquet设计解读

Hive的SQL执行效率优化

36、Flink 的 Formats 之Parquet 和 Orc Format

基于trino构建新的算子下推框架

使用Spark SQL读取阿里云OSS的数据

Spark（第五节） RDD、DataFrame、DataSet的介绍与比较，创建DataFrame和DataSet，三者之间互相转换，scala代码创建和使用DataFram

JSON vs. CSV vs. YAML vs. XML vs. HDF5vs. XLS：数据格式之争

Spark创建DataFrame

SparkSQL 数据的加载和保存

SparkSQL的文件加载和保存

spark读取数据并打印_Spark读取和保存数据

高效数据存储格式Parquet

CarbonData，来自华为的中国力量

CarbonData部署和使用

Hive面试题持续更新【2023-07-07】

【大数据Hive】hive 表数据优化使用详解

使用Flink Streaming Query 查询Hudi(出现包冲突以及Hive 3.1.3 编译Hudi 时间戳异常)

Flink写入HDFS（文本，parquet，parquet+snappy）

【Flink 实战系列】Flink SQL 使用 filesystem connector 同步 Kafka 数据到 HDFS（parquet 格式 + snappy 压缩）

Spark之DataFrame操作大全

SparkSql读取Snappy Parquet压缩文件报错：java.lang.UnsatisfiedLinkError: org.xerial.snappy.SnappyNative.unc...

parquet存储linux文件,使用AWS Lambda读取存储在S3中的Parquet文件(Python 3)

sparkSql外部数据源

使用 ClickHouse 深入了解 Apache Parquet （二）

使用 ClickHouse 深入了解 Apache Parquet （一）