Parquet 第5页

Python读写excel文件

如：txt、csv、excel、json、剪切板、数据库、html、hdf、parquet、pickled文件、sas、stata等等（1）read_excel方法读取excel文件，包括xlsx、xls

bigdata_pokison·2023-08-06 08:02

Parquet文件格式解析

介绍Parquet是目前比较流行的大数据文件列存储格式，主流的大数据计算框架都对其有良好的支持，包括spark,hive,impala等。

david'fantasy·2023-08-04 16:27

Parquet文件格式解析

介绍Parquet是目前比较流行的大数据文件列存储格式，主流的大数据计算框架都对其有良好的支持，包括spark,hive,impala等。

javastart·2023-08-04 16:57

Parquet 文件结构与优势

一个Parquet文件的内容有Header、DataBlock和Footer三个部分组成。

KK架构·2023-08-04 16:57

Parquet文件详解

1、parquet文件简介ApacheParquet是ApacheHadoop生态系统的一种免费的开源面向列的数据存储格式。

FlyWIHTSKY·2023-08-04 16:57

大数据_Hadoop_Parquet数据格式详解

之前有面试官问到了parquet的数据格式，下面对这种格式做一个详细的解读。

高达一号·2023-08-04 16:26

压缩方式，存储方式

公司常用orc存储方式和snappy压缩方式orc存储文件默认zlib压缩，而snappy的压缩效率比zlib高具体实际项目，hive表数据存储格式一般选择orc或parquet。

一个幸福的胖子·2023-08-04 06:08

Flink之FileSink将数据写入parquet文件

Flink之FileSink将数据写入parquet文件在使用FileSink将数据写入列式存储文件中时必须使用forBulkFormat,列式存储文件如ORCFile、ParquetFile,这里就以

飞天小老头·2023-08-03 23:53

Python[parquet文件转 json文件]

将Python中的Parquet文件转换为JSON文件引言Parquet是一种高效的列式存储格式，而JSON是一种常见的数据交换格式。

Pandas_007·2023-08-03 20:30

Spark - SQL查询文件数据

有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。

kikiki2·2023-08-02 17:58

Spark SQL快速入门

特点：SparkSQL支持读取和写入多种格式的数据源，包括Parquet、JSON、CSV、JDBC等。

CodeRanger·2023-07-31 00:54

Spark编程-SparkSQL

支持使用SQL语言直接对DataFrame进行查询,提供了丰富的内置函数和表达式，可以用于数据的转换、过滤和聚合等操作,支持多种数据源，包括Hive、Avro、Parquet、ORC、JSON和JDBC

Matrix70·2023-07-29 04:16

用sqoop导出hive parquet 分区表到mysql

用sqoop导出hiveparquet分区表到mysql确保你已经安装并配置好了Sqoop工具，并且可以连接到Hadoop集群和MySQL数据库。创建一个MySQL表来存储导出的数据。请确保MySQL表的结构与HiveParquet分区表的结构匹配。使用Sqoop的export命令来执行导出操作。以下是一个示例命令：sqoopexport\--connectjdbc:mysql:///\--use

墨卿风竹·2023-07-28 20:32

Hive_Hive 中常见的数据格式与性能分析

blog.csdn.net/zyzzxycj/article/details/79267635Hive中有如下的数据文件格式，textfile,sequencefile,avro,rcfile,orcfile,parquet

高达一号·2023-07-28 08:14

Hadoop_HDFS_常见的文件组织格式与压缩格式

参考资料1.HDFS中的常用压缩算法及区别_大数据_王知无_InfoQ写作社区2.orc格式和parquet格式对比-阿里云开发者社区3.Hadoop压缩格式gzip/snappy/lzo/bzip2比较与总结

高达一号·2023-07-28 07:37

spark3使用zstd压缩

confspark.sql.files.maxPartitionBytes=2147483648--confspark.sql.files.openCostInBytes=2147483648写出的文件使用zstd压缩，spark3才开始支持–confspark.sql.parquet.compression.codec

荣晓·2023-07-27 08:57

成功解决Impala中修改parquet表的字段类型问题

前言最近有个小伙伴在开发中遇到了Impala中修改Parquet表的字段类型问题，于是开启了问题解决之路。

笑看风云路·2023-07-26 13:34

hive之文件格式与压缩

Hive表数据的存储格式，可以选择textfile、orc、parquet、sequencefile等。

小唐同学爱学习·2023-07-24 22:34

【flink】ColumnarRowData

列式存储在调试flink读取parquet文件时，读出来的数据是ColumnarRowData，由于parquet是列式存储的文件格式，所以需要用一种列式存储的表示方式，ColumnarRowData就是用来表示列式存储的一行数据

矛始·2023-07-24 16:45

spark读取parquet文件优化

对于Parquet文件，因为是按列存储，在读取数据时，可按列剪枝。而划分Split时并未考虑列剪枝。

codeBugCoder·2023-07-22 22:29

spark 任务优化

加入随机因素，打散热点key3.使用mapjoin解决小表关联大表造成的数据倾斜问题文件大量的小文件会影响Hadoop集群管理或者Spark在处理数据时的稳定性：处理方法向量化读取spark.sql.parquet.enableVectorizedReader

涂荼·2023-07-22 14:43

spark优化（二）--参数调优

调优，业务层面等2.代码规范2.1能使用dataframe或者dataset，优先使用（sparksql有catalyst和钨丝）2.2shuffle算子之前先尝试各种过滤，能推到文件源最好（orc和parquet

一只咸鱼va·2023-07-22 14:13

【2019-05-29】Parquet

Parquet的原子类型Parquet的逻辑类型Parquet文件的内部结构Parquet文件由一个文件头（header），一个或多个紧随其后的文件块（block），以及一个用于结尾的文件尾（footer

BigBigFlower·2023-07-21 05:10

加速LakeHouse ACID Upsert的新写时复制方案

在本文中我们将讨论如何构建行级二级索引以及在ApacheParquet中引入的创新，以加快Parquet

系统免驱动·2023-07-19 11:10

Hive 复习重点

文章目录特点SQL查询转换成MR作业的过程内部表&外部表&分区表&分桶表内部表外部表分区表分桶表`DQL`语法性能优化`SQL`语句优化数据格式化`ORC,Parquet`列式存储小文件过多优化并行执行优化

Oasen·2023-07-17 06:15

Spark-SQL连接JDBC的方式及代码写法

目录一、数据加载与保存通用方式：加载数据：保存数据：二、Parquet加载数据：保存数据：三、JSON四、CSV五、MySQL一、数据加载与保存通用方式：SparkSQL提供了通用的保存数据和数据加载的方式

羙橘·2023-07-16 23:13

Databricks 入门之sql（一）基础查询

CreatetableDROPTABLEIFEXISTSPeople10M;CREATETABLEPeople10MUSINGparquetOPTIONS(path"/mnt/training/dataframes/people-10m.parquet

zzm8421·2023-07-16 05:26

Hudi表类型和查询类型

读优化查询（ReadOptimizedQueries）仅查询Parquet格式的基础文件中的数据，为MOR表特有。

一见·2023-07-15 16:14

Spark读取parquet文件的切分逻辑

据源读取对应的物理执行节点为FileSourceScanExec,对于非bucket的扫描调用createNonBucketedReadRDD方法定义如下privatedefcreateNonBucketedReadRDD(readFile:(PartitionedFile)=>Iterator[InternalRow],selectedPartitions:Seq[PartitionDirect

荣晓·2023-07-14 22:36

并行计算框架Polars、Dask的数据处理性能对比

测试内容这两个脚本主要功能包括:从两个parquet文件中提取数据，对于小型数据集，变量path1将为“yellow_tripdata/yellow_tripdata_2014-01”，对于

deephub·2023-07-14 19:29

Spark SQL（十）：Hive On Spark

SparkSQL是Spark自己研发出来的针对各种数据源，包括Hive、JSON、Parquet、J

雪飘千里·2023-07-14 08:42

Spark SQL

编程详解3.1创建DataFrame在SparkSQL中SparkSession是创建DataFrames和执行SQL的入口创建DataFrames有三种方式：从一个已存在的RDD进行转换从JSON/Parquet

All996·2023-07-13 22:43

Spark - SQL查询文件数据

>有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。

kikiki4·2023-07-13 16:36

Spark（三）-- SparkSQL扩展（数据读写） -- 读写 Parquet、Json 格式文件(二)

7.3读写Parquet格式文件目标理解Spark读写Parquet文件的语法理解Spark读写Parquet文件的时候对于分区的处理什么时候会用到Parquet?

HelloWorld闯天涯·2023-06-21 19:27

4.3Spark SQL数据源-Parquet文件

一、Parquet概述ApacheParquet是Hadoop生态系统中任何项目都可以使用的列式存储格式，不受数据处理框架、数据模型和编程语言的影响。

杏仁豆腐乳·2023-06-21 19:27

Spark SQL数据源：Parquet文件

文章目录一、Parquet简介二、读取和写入Parquet的方法（一）利用parquet()方法读取parquet文件1、数据准备2、读取parquet文件3、显示数据帧内容（二）利用parquet()

梁辰兴·2023-06-21 19:26

火山引擎 Iceberg 数据湖的应用与实践

WhyIcebergIceberg是一种适用于HDFS或者对象存储的表格式，把底层的Parquet、ORC

字节跳动云原生计算·2023-06-20 22:04

基于PySpark的10亿级数据集LAION-5B元数据快速处理实践（全文分享）

OpenDataLab两位工程师在浦数AITalk做了非常实用的LAION-5B下载经验分享，我们整理了其演讲内容、Parquet文件、图片下载工具，希望能对大家下载同类数据集提供帮助和参考。

OpenDataLab·2023-06-19 21:48

【Hudi】Filnk Sink 端链路源码解读（Insert、Update、Upsert）

Hoodie的所有操作都是基于文件的读写，整个文件组织可以分为两类：数据文件：parquet（列存）和arvo（行存）格式，COW（CopyOnWrite）表的话每次写的时候做合并，只存在parquet

·2023-06-19 20:48

SQL优化之谓词下推

在文件格式使用Parquet或Orcfile时，甚至可能整块跳过不相关的文件。

five小点心·2023-06-19 17:30

【大数据存储】ORC和Parquet区别

https://blog.csdn.net/qq_15111861/article/details/103025418ORC官网https://orc.apache.org/Parquet官网https

JH_Zhai·2023-06-19 14:39

【Trino实战】Trino下ORC与Parquet查询性能分析

Trino下ORC与Parquet查询性能分析环境OS：CentOS6.5JDK：1.8内存：256G磁盘：HDDCPU：Dual8-coreIntel®Xeon®CPU(32Hyper-Threads

顧棟·2023-06-19 12:16

Hive存储格式

纯文本文件存储textfile:纯文本文件存储格式，不压缩，也是hive的默认存储格式，磁盘开销大，数据解析开销大复制代码第二类：二进制文件存储-sequencefile:会压缩，不能使用load方式加载数据-parquet

千锋IT教育·2023-06-17 00:16

Spark - SQL查询文件数据

>有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。

kikiki4·2023-06-15 18:44

Spark SQL数据源 - 基本操作

文章目录一、案例演示读取Parquet文件二、在SparkShell中演示课堂练习1、将4.1节的student.txt文件转换成student.parquet课堂练习2、读取student.parquet

X_Serendipity·2023-06-15 15:31

ORC与Parquet压缩分析

ORC与Parquet压缩分析@date：2023年6月14日文章目录ORC与Parquet压缩分析压测环境数据schema数据实验压缩结果文件使用建议附录编译hadoop-lzo编译前提编译程中出现的错误结果文件

顧棟·2023-06-15 04:34

Arrow parquet Read

arrow/cpp/src/parquet/arrow/reader.ccRowGroupRecordBatchReaderclassRowGroupRecordBatchReader:public::

zhixingheyi_tian·2023-06-14 22:47

datax读取Parquet格式文件总列数

pom引用org.apache.parquetparquet-avro1.12.0org.apache.parquetparquet-hadoop1.12.0org.apache.hadoophadoop-common2.7.1importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.a

今朝花落悲颜色·2023-06-14 11:20

Hive学习笔记3

Hive学习笔记3压缩和存储Hadoop压缩配置MR支持的压缩编码压缩参数配置开启Map输出阶段压缩（MR引擎）开启Reduce输出阶段压缩文件存储格式列式存储和行式存储TextFile格式Orc格式Parquet

sheygshsi·2023-06-14 04:45

Spark SQL数据源的基本操作(更新ing)

文章目录一、基本操作二、默认数据源（一）默认数据源Parquet（二）案例演示读取Parquet文件1、在SparkShell中演示练习1、将`student.txt`文件转换成`student.parquet

梁辰兴·2023-06-14 02:10

推荐频道

Parquet

Python读写excel文件

Parquet文件格式解析

Parquet文件格式解析

Parquet 文件结构与优势

Parquet文件详解

大数据_Hadoop_Parquet数据格式详解

压缩方式，存储方式

Flink之FileSink将数据写入parquet文件

Python[parquet文件 转 json文件]

Spark - SQL查询文件数据

Spark SQL快速入门

Spark编程-SparkSQL

用sqoop导出hive parquet 分区表到mysql

Hive_Hive 中常见的数据格式 与性能分析

Hadoop_HDFS_常见的文件组织格式与压缩格式

spark3使用zstd压缩

成功解决Impala中修改parquet表的字段类型问题

hive之文件格式与压缩

【flink】ColumnarRowData

spark读取parquet文件优化

spark 任务优化

spark优化（二）--参数调优

【2019-05-29】Parquet

加速LakeHouse ACID Upsert的新写时复制方案

Hive 复习重点

Spark-SQL连接JDBC的方式及代码写法

Databricks 入门之sql（一）基础查询

Hudi表类型和查询类型

Spark读取parquet文件的切分逻辑

并行计算框架Polars、Dask的数据处理性能对比

Spark SQL（十）：Hive On Spark

Spark SQL

Spark - SQL查询文件数据

Spark（三）-- SparkSQL扩展（数据读写） -- 读写 Parquet、Json 格式文件(二)

4.3Spark SQL数据源-Parquet文件

Spark SQL数据源：Parquet文件

火山引擎 Iceberg 数据湖的应用与实践

基于PySpark的10亿级数据集LAION-5B元数据快速处理实践（全文分享）

【Hudi】Filnk Sink 端链路源码解读（Insert、Update、Upsert）

SQL优化之谓词下推

【大数据存储】ORC和Parquet区别

【Trino实战】Trino下ORC与Parquet查询性能分析

Hive存储格式

Spark - SQL查询文件数据

Spark SQL数据源 - 基本操作

ORC与Parquet压缩分析

Arrow parquet Read

datax读取Parquet格式文件总列数

Hive学习笔记3

Spark SQL数据源的基本操作(更新ing)

Python[parquet文件转 json文件]

Hive_Hive 中常见的数据格式与性能分析