parquet 第3页

Spark：基于PySpark的DataFrame、SQL、TableAPI操作

记录下文章目录官网文档环境测试说明DataFrame创建从列表构建DF从Row对象创建DF为DF设置数据类型-指定类型为DF设置数据类型-字符串设置数据类型为DF设置数据类型-（单个）字符串设置数据类型从Parquet

小明同学YYDS·2023-10-19 04:28

Python+Pickle/Parquet/HDF5...不同文件格式存储模式下的量化因子计算性能对比

为了应对这一挑战，一部分用户选择了分布式文件系统，并使用Pickle、Feather、Npz、Hdf5、以及Parquet等格式来存储数据，并结合Python进行量化金融计算。

DolphinDB智臾科技·2023-10-17 16:26

Python：利用Python读取txt、csv、xlsx、doc、json、parquet等各种数据文件类型的多种方法总结

Python：利用Python读取txt、csv、xlsx、doc、json、parquet等各种数据文件类型的多种方法总结目录利用Python读取各种数据文件类型的多种方法总结1、python读取txt

一个处女座的程序猿·2023-10-16 17:19

Spark - SQL查询文件数据

有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。

大猪大猪·2023-10-16 07:26

Spark SQL-数据源

SparkSQL的默认数据源为Parquet格式。数据源为Parquet文件时，SparkSQL可以方便的执行所有的操作。修改配置项spark.s

我是星星我会发光i·2023-10-16 06:33

carbondata测试报告

carbondata测试报告此文档是测试carbondata（1.4）与parquet(1.10)在sparksql搜索引擎上执行的对比情况硬件配置CPU：Intel(R)Xeon(R)CPUE5-2603v4

君子慎独焉·2023-10-15 03:27

Spark工作流程

Spark支持多种数据格式，如文本文件、CSV、JSON、Parquet

Young_IT·2023-10-13 14:46

大数据学习(5)-hive文件格式

承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博>主哦在Hive中，常见的文件存储格式包括TestFile、SequenceFile、RcFile、ORC、Parquet

viperrrrrrr·2023-10-13 07:47

大数据学习(7)-hive文件格式总结

Hive表数据的存储格式，可以选择textfile、orc、parquet、sequencefile等。TextFile文本文件是Hive默认使用的文件格式，文本文件

viperrrrrrr·2023-10-13 07:47

Spark-submit 提交报错 org.apache.spark.sql.execution.datasources.orc.OrcFileFormat could not be instant

selecte.empno,e.ename,e.job,e.mgr,e.commfromempejoindeptdone.deptno=d.deptno").filter("commisnotnull").write.parquet

路飞DD·2023-10-11 10:53

spark原理和实践

数据生成后，需要存储元数据信息，选择合适的存储格式，像Parquet、ORC是两种高性能的列式存储，Hudi数据存储的中间件，优化存储的读写，也可以存储到分布式文件存储系统HDFS，分布式消息系统kafka

头顶假发·2023-10-11 04:13

PySpark 线性回归

Spark支持多种数据源，包括文本文件、CSV文件、Parquet文件等等。我们可以使

ROBOT玲玉·2023-10-10 20:52

spark3使用hive zstd压缩格式总结

Hive支持基于ZSTD压缩的存储格式有常见的ORC，RCFile，TextFile，JsonFile，Parquet，Squence，CSV。

雾岛与鲸·2023-10-10 19:11

Spark - SQL查询文件数据

有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。

大猪大猪·2023-10-10 00:31

那些在CDH5中是bug，到了CDH6版本就修复了的问题

涉及到Hadoop、HDFS、YARN、HBASE、hive、hue、impala、kudu、oozie、solr、spark、kafka、parquet、zookeeper等组件。

ClouderaHadoop·2023-10-07 11:09

Spark SQL 外部数据源

-CSV-JSON-Parquet-ORC-JDBC/ODBCconnections-Plain-textfiles1.2读数据格式所有读取API遵循以下调用格式：// 格式DataFrameReader.format

shangjg3·2023-10-07 09:05

SparkSQL DataFrame、Dataset和RDD

它具有以下特点：+能够将SQL查询与Spark程序无缝混合，允许您使用SQL或DataFrameAPI对结构化数据进行查询；+支持多种开发语言；+支持多达上百种的外部数据源，包括Hive，Avro，Parquet

shangjg3·2023-10-07 08:22

StarRocks调优 - Broker Load导入

BrokerLoad是StarRocks离线导入方式，用于将存储在HDFS、S3、OSS等外部存储的数据导入到StarRocks，支持CSV、ORCFile、Parquet等文件格式，适用于几十GB到上百

Asware·2023-10-01 12:39

pyspark 检测任务输出目录是否空，避免读取报错

前言在跑调度任务时候，有时候子任务需要依赖前置任务的输出，但类似读取Parquet或者Orc文件时，如果不判断目录是否为空，在输出为空时会报错，所以需要check一下，此外Hadoop通常在写入数据时会在目录中生成一个名为

三劫散仙·2023-09-29 16:49

Spark sql 读文件的源码分析

最简单的demo语句，这样读文件：valdf=session.read.json("path/to/your/resources/data.json")或者session.read.parquet(file_path

Rover Ramble·2023-09-25 22:56

pg数据表同步到hive表数据压缩总结

为了解决pg的压力，尝试采用hive数据仓库存数，利用hive支持的parquet列式存储，同时支持lzo、none、uncompressed、brotil、snappy和gzip的压缩算法，更节省空间

zcc_0015·2023-09-23 00:28

R读写parquet文件

什么是parquet文件ApacheParquet是一个开源的，列存储的数据文件格式。https://parquet.apache.org/在R里面，我们可以通过arrow包来读写它。

santiagoru·2023-09-19 18:13

Doris进阶——数据导入

所有的导入方式都支持CSV格式，其中BrokerLoad中支持parquet和orc数据格式。

小眼睛的Ayuan·2023-09-18 08:08

Spark - SQL查询文件数据

有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。

大猪大猪·2023-09-17 19:17

6.1、Flink数据写入到文件

官网链接：官网2、FormatTypes-指定文件格式FileSink支持Row-encoded、Bulk-encoded两种格式写入文件系统Row-encoded：文本格式Bulk-encoded：Parquet

广阔天地大有可为·2023-09-14 07:08

[python学习笔记] - python下csv，feather，parquet，jay，pickle的读写性能及空间占用测试

pandas下读写文件性能测试测试目标类型，csv,parquet,feather,jay,pickle使用package：pandas,dash,datatablepandas使用单cpu读取，dash

飞翔的烤鸡翅·2023-09-12 09:36

Flink Table API& SQL编程指南(Source Connector【FileSystem、HBase、Kafka、JDBC、Hive】)

这些取决于Source和Sink的类型，他们支持很多种数据类型，例如：CSV、Parquet、ORC等。接下来

麦田里的守望者··2023-09-03 07:30

Amazon EMR Hudi 性能调优——Clustering

随着数据体量的日益增长，人们对Hudi的查询性能也提出更多要求，除了Parquet存储格式本来的性能优势之外，还希望Hudi能够提供更多的性能优化的技术途径，尤其当对Hudi表进行高并发的写入，产生了大量的小文件之后

·2023-09-02 23:52

安装ParquetViewer查看.parquet文件

github.com/mukunku/ParquetViewer/releases选择文件：ParquetViewer.exe下载安装即可参考：ParquetViewer—在Windows系统上可视化查看Parquet

饿了就干饭·2023-09-01 09:56

Flink教程-flink 1.11使用sql将流式数据写入文件系统

fileflink提供了一个filesystemconnector，可以使用DDL创建一个table，然后使用sql的方法将数据写入hdfs、local等文件系统，支持的写入格式包括json、csv、avro、parquet

大数据技术与应用实战·2023-08-30 03:50

starrocks湖到仓

.*")INTOTABLEfwwiptransactionFORMATAS"parquet"(sysid,lasttxnid

liurenfenglrf·2023-08-29 22:51

Apache Arrow - Parquet存储与使用

简介Parquet是一种高效的列式存储格式，广泛用于大数据系统中的数据仓库和数据管理工具中，旨在提高数据分析的性能和效率，能够更好地支持数据压缩和列式查询，同时兼顾读写速度和数据大小初衷为了让Hadoop

·2023-08-29 18:48

列式存储外部表创建

httpreferer’)COMMENT‘列式存储测试’PARTITIONEDBY(dtstringCOMMENT‘日期分区’)ROWFORMATSERDE‘org.apache.hadoop.hive.ql.io.parquet.serde.Pa

大地你王哥·2023-08-24 21:43

Hive修改Parquet类型表字段几种问题处理

hive中的表数据存储类型可以使用parquet，优势在于列式存储方便压缩，加快查询速度，在实际生产环境中，往往不会有字段命名或类型修改的数仓宽表才会使用。

大地你王哥·2023-08-24 21:43

Hive将csv数据导入parquet格式动态分区表

简介本篇文章介绍，如何将csv或txt文件，导入到parquet格式存储的hive动态分区表中。

pezynd·2023-08-24 04:44

流批一体计算引擎-8-[Flink]的Table API连接器

根据source和sink的类型，它们支持不同的格式，如CSV、Avro、Parquet或ORC。本页介绍如

皮皮冰燃·2023-08-22 22:31

【ParquetEncodingException: empty fields are illegal, the field should be ommited completely instead

通过spark程序向parquet格式的表写数据报错ParquetEncodingException:emptyfieldsareillegal,thefieldshouldbeommitedcompletelyinstead

不吃饭的猪·2023-08-22 09:26

Spark_day06

1.新建一个文件夹,并放入我们的winutils.exe文件.2.我们把这个路径写上去就好了.image.png3.目前的结构4.这是mode和我们的文件形式5.Parquet文件格式image.png5

c062197eecd2·2023-08-20 10:58

Hive 表之间数据处理，Int 类型字段部分字段出现 NULL情况

背景hive中有一张待处理的分区表，存储的方式是parquet，处理之后的目标表是一张非分区的外部表，并且分隔方式为“,”。

githubshareing·2023-08-20 08:06

常用的数据存储格式在大数据处理中

说明ORC（OptimizedRowColumnar）和Parquet是两种流行的列式存储文件格式，而LZO是一种用于压缩数据的算法。

卢延吉·2023-08-20 08:22

TPC-DS 测试是否支持 Glue Data Catalog？

在上一篇文章《在Hive/Spark上执行TPC-DS基准测试(PARQUET格式）》中，我们详细介绍了具体的操作方法，当时的集群使用的是HiveMetastore，所有操作均可成功执行。

　Laurence·2023-08-20 06:01

在Hive/Spark上执行TPC-DS基准测试 (PARQUET格式）

Hive/Spark上运行执行TPC-DS基准测试(ORC和TEXT格式）》中，我们介绍了如何使用hive-testbench在Hive/Spark上执行TPC-DS基准测试，同时也指出了该项目不支持parquet

　Laurence·2023-08-19 15:39

python读取hdfs上的parquet文件方式

在使用python做大数据和机器学习处理过程中，首先需要读取hdfs数据，对于常用格式数据一般比较容易读取，parquet略微特殊。

乐观的程序员·2023-08-18 14:06

Hive底层数据存储格式

本文将介绍Hive底层的三种主要数据存储格式：文本文件格式、Parquet格式和ORC格式。

笑看风云路·2023-08-18 11:26

Spark SQL | DataFrame的各种玩法

df2.2、rdd转df2.3、指定schema动态创建DataFrame2.4、通过读取文件创建2.4.1、json->df2.4.2、csv->df2.4.3、scala编写的csv->df2.4.4、parquet

#苦行僧·2023-08-18 00:22

java读取hudi parquet文件

java读取hudiparquet文件hudi版本说明：0.10.1importorg.apache.avro.Schema;importorg.apache.parquet.avro.AvroParquetReader

老鼠扛刀满街找猫@·2023-08-16 04:15

在Hive/Spark上运行执行TPC-DS基准测试 (ORC和TEXT格式）

不过，该项目仅支持生成ORC和TEXT格式的数据，如果需要Parquet格式，请参考此文《在Hive/Spark上执行TPC-DS基准测试(Parquet格式）》。备注：本文使用的Hive/Spar

　Laurence·2023-08-15 11:55

Amazon EMR Hudi 性能调优——Clustering

随着数据体量的日益增长，人们对Hudi的查询性能也提出更多要求，除了Parquet存储格式本来的性能优势之外，还希望Hudi能够提供更多的性能优化的技术途径，尤其当对Hudi表进行高并发的写入，产生了大量的小文件之后

亚马逊云开发者·2023-08-15 03:58

SparkSQL－从DataFrame说起

hbasefly.com/2017/02/16/sparksql-dataframe/写在文章之前本着更好地理解大数据生态圈的本意以及工作的需要，前段时间熟悉了SQL查询引擎SparkSQL、Hadoop文件格式Parquet

严国华·2023-08-12 18:52

大数据开发：Hive列式存储ORC、Parquet的优点

今天的大数据开发学习分享，我们就主要来讲讲，Hive列式存储ORC、Parquet的优点。

成都加米谷大数据·2023-08-10 10:12

推荐频道

parquet

Spark：基于PySpark的DataFrame、SQL、TableAPI操作

Python+Pickle/Parquet/HDF5...不同文件格式存储模式下的量化因子计算性能对比

Python：利用Python读取txt、csv、xlsx、doc、json、parquet等各种数据文件类型的多种方法总结

Spark - SQL查询文件数据

Spark SQL-数据源

carbondata测试报告

Spark工作流程

大数据学习(5)-hive文件格式

大数据学习(7)-hive文件格式总结

Spark-submit 提交 报错 org.apache.spark.sql.execution.datasources.orc.OrcFileFormat could not be instant

spark原理和实践

PySpark 线性回归

spark3使用hive zstd压缩格式总结

Spark - SQL查询文件数据

那些在CDH5中是bug，到了CDH6版本就修复了的问题

Spark SQL 外部数据源

SparkSQL DataFrame、Dataset和RDD

StarRocks调优 - Broker Load导入

pyspark 检测任务输出目录是否空，避免读取报错

Spark sql 读文件的源码分析

pg数据表同步到hive表数据压缩总结

R读写parquet文件

Doris进阶——数据导入

Spark - SQL查询文件数据

6.1、Flink数据写入到文件

[python学习笔记] - python下csv，feather，parquet，jay，pickle的读写性能及空间占用测试

Flink Table API& SQL编程指南(Source Connector【FileSystem、HBase、Kafka、JDBC、Hive】)

Amazon EMR Hudi 性能调优——Clustering

安装ParquetViewer查看.parquet文件

Flink教程-flink 1.11使用sql将流式数据写入文件系统

starrocks湖到仓

Apache Arrow - Parquet存储与使用

列式存储外部表创建

Hive修改Parquet类型表字段几种问题处理

Hive将csv数据导入parquet格式动态分区表

流批一体计算引擎-8-[Flink]的Table API连接器

【ParquetEncodingException: empty fields are illegal, the field should be ommited completely instead

Spark_day06

Hive 表之间数据处理，Int 类型字段部分字段出现 NULL情况

常用的数据存储格式在大数据处理中

TPC-DS 测试是否支持 Glue Data Catalog？

在Hive/Spark上执行TPC-DS基准测试 (PARQUET格式）

python读取hdfs上的parquet文件方式

Hive底层数据存储格式

Spark SQL | DataFrame的各种玩法

java读取hudi parquet文件

在Hive/Spark上运行执行TPC-DS基准测试 (ORC和TEXT格式）

Amazon EMR Hudi 性能调优——Clustering

SparkSQL－从DataFrame说起

大数据开发：Hive列式存储ORC、Parquet的优点

Spark-submit 提交报错 org.apache.spark.sql.execution.datasources.orc.OrcFileFormat could not be instant