E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Parquet
Spark:基于PySpark的DataFrame、SQL、TableAPI操作
记录下文章目录官网文档环境测试说明DataFrame创建从列表构建DF从Row对象创建DF为DF设置数据类型-指定类型为DF设置数据类型-字符串设置数据类型为DF设置数据类型-(单个)字符串设置数据类型从
Parquet
小明同学YYDS
·
2023-10-19 04:28
大数据
spark
PySpark
SparkSQL
SparkTableAPI
SparkDataFrame
Python+Pickle/
Parquet
/HDF5...不同文件格式存储模式下的量化因子计算性能对比
为了应对这一挑战,一部分用户选择了分布式文件系统,并使用Pickle、Feather、Npz、Hdf5、以及
Parquet
等格式来存储数据,并结合Python进行量化金融计算。
DolphinDB智臾科技
·
2023-10-17 16:26
python
python量化
量化金融
因子分析
数据分析
高频数据
Level
2
Python:利用Python读取txt、csv、xlsx、doc、json、
parquet
等各种数据文件类型的多种方法总结
Python:利用Python读取txt、csv、xlsx、doc、json、
parquet
等各种数据文件类型的多种方法总结目录利用Python读取各种数据文件类型的多种方法总结1、python读取txt
一个处女座的程序猿
·
2023-10-16 17:19
Python编程(初级+进阶)
python
数据库
Spark - SQL查询文件数据
有时候有没有这么一种情况,我拿到了一个sql,csv,
parquet
文件,一起来就想写sql,不想写那些乱七八糟的的东西,只是想快速实现我要的聚合查询数据。
大猪大猪
·
2023-10-16 07:26
Spark SQL-数据源
SparkSQL的默认数据源为
Parquet
格式。数据源为
Parquet
文件时,SparkSQL可以方便的执行所有的操作。修改配置项spark.s
我是星星我会发光i
·
2023-10-16 06:33
Spark
Spark
SQL-数据源
carbondata测试报告
carbondata测试报告此文档是测试carbondata(1.4)与
parquet
(1.10)在sparksql搜索引擎上执行的对比情况硬件配置CPU:Intel(R)Xeon(R)CPUE5-2603v4
君子慎独焉
·
2023-10-15 03:27
Spark工作流程
Spark支持多种数据格式,如文本文件、CSV、JSON、
Parquet
Young_IT
·
2023-10-13 14:46
大数据开发
spark
大数据
数据仓库
大数据学习(5)-hive文件格式
承认自己的无知,乃是开启智慧的大门如果觉得博主的文章还不错的话,请点赞+收藏⭐️+留言支持一下博>主哦在Hive中,常见的文件存储格式包括TestFile、SequenceFile、RcFile、ORC、
Parquet
viperrrrrrr
·
2023-10-13 07:47
大数据
学习
hive
大数据学习(7)-hive文件格式总结
Hive表数据的存储格式,可以选择textfile、orc、
parquet
、sequencefile等。TextFile文本文件是Hive默认使用的文件格式,文本文件
viperrrrrrr
·
2023-10-13 07:47
大数据
学习
hive
Spark-submit 提交 报错 org.apache.spark.sql.execution.datasources.orc.OrcFileFormat could not be instant
selecte.empno,e.ename,e.job,e.mgr,e.commfromempejoindeptdone.deptno=d.deptno").filter("commisnotnull").write.
parquet
路飞DD
·
2023-10-11 10:53
大数据
Spark
SparkSQL
Hadoop
Hive
Spark
spark·-submit
提交报错
Spark
版本冲突
spark原理和实践
数据生成后,需要存储元数据信息,选择合适的存储格式,像
Parquet
、ORC是两种高性能的列式存储,Hudi数据存储的中间件,优化存储的读写,也可以存储到分布式文件存储系统HDFS,分布式消息系统kafka
头顶假发
·
2023-10-11 04:13
Java
程序员
编程
大数据
hadoop
分布式
PySpark 线性回归
Spark支持多种数据源,包括文本文件、CSV文件、
Parquet
文件等等。我们可以使
ROBOT玲玉
·
2023-10-10 20:52
机器学习
算法
spark-ml
spark3使用hive zstd压缩格式总结
Hive支持基于ZSTD压缩的存储格式有常见的ORC,RCFile,TextFile,JsonFile,
Parquet
,Squence,CSV。
雾岛与鲸
·
2023-10-10 19:11
spark
数据仓库
大数据
hive
Spark - SQL查询文件数据
有时候有没有这么一种情况,我拿到了一个sql,csv,
parquet
文件,一起来就想写sql,不想写那些乱七八糟的的东西,只是想快速实现我要的聚合查询数据。
大猪大猪
·
2023-10-10 00:31
那些在CDH5中是bug,到了CDH6版本就修复了的问题
涉及到Hadoop、HDFS、YARN、HBASE、hive、hue、impala、kudu、oozie、solr、spark、kafka、
parquet
、zookeeper等组件。
ClouderaHadoop
·
2023-10-07 11:09
Cloudera
impala
hdfs
大数据
hadoop
spark
Spark SQL 外部数据源
-CSV-JSON-
Parquet
-ORC-JDBC/ODBCconnections-Plain-textfiles1.2读数据格式所有读取API遵循以下调用格式:// 格式DataFrameReader.format
shangjg3
·
2023-10-07 09:05
计算引擎
Spark
spark
sql
大数据
SparkSQL DataFrame、Dataset和RDD
它具有以下特点:+能够将SQL查询与Spark程序无缝混合,允许您使用SQL或DataFrameAPI对结构化数据进行查询;+支持多种开发语言;+支持多达上百种的外部数据源,包括Hive,Avro,
Parquet
shangjg3
·
2023-10-07 08:22
计算引擎
Spark
spark
大数据
big
data
StarRocks调优 - Broker Load导入
BrokerLoad是StarRocks离线导入方式,用于将存储在HDFS、S3、OSS等外部存储的数据导入到StarRocks,支持CSV、ORCFile、
Parquet
等文件格式,适用于几十GB到上百
Asware
·
2023-10-01 12:39
数据仓库
数据仓库
pyspark 检测任务输出目录是否空,避免读取报错
前言在跑调度任务时候,有时候子任务需要依赖前置任务的输出,但类似读取
Parquet
或者Orc文件时,如果不判断目录是否为空,在输出为空时会报错,所以需要check一下,此外Hadoop通常在写入数据时会在目录中生成一个名为
三劫散仙
·
2023-09-29 16:49
Hadoop
Java
python
python
java
hadoop
hdfs
Spark sql 读文件的源码分析
最简单的demo语句,这样读文件:valdf=session.read.json("path/to/your/resources/data.json")或者session.read.
parquet
(file_path
Rover Ramble
·
2023-09-25 22:56
Spark
spark
pg数据表同步到hive表数据压缩总结
为了解决pg的压力,尝试采用hive数据仓库存数,利用hive支持的
parquet
列式存储,同时支持lzo、none、uncompressed、brotil、snappy和gzip的压缩算法,更节省空间
zcc_0015
·
2023-09-23 00:28
hive
hadoop
数据仓库
R读写
parquet
文件
什么是
parquet
文件ApacheParquet是一个开源的,列存储的数据文件格式。https://
parquet
.apache.org/在R里面,我们可以通过arrow包来读写它。
santiagoru
·
2023-09-19 18:13
R数据读写
数据分析
Doris进阶——数据导入
所有的导入方式都支持CSV格式,其中BrokerLoad中支持
parquet
和orc数据格式。
小眼睛的Ayuan
·
2023-09-18 08:08
Doris
笔记
大数据
big
data
数据库
database
sql
Spark - SQL查询文件数据
有时候有没有这么一种情况,我拿到了一个sql,csv,
parquet
文件,一起来就想写sql,不想写那些乱七八糟的的东西,只是想快速实现我要的聚合查询数据。
大猪大猪
·
2023-09-17 19:17
6.1、Flink数据写入到文件
官网链接:官网2、FormatTypes-指定文件格式FileSink支持Row-encoded、Bulk-encoded两种格式写入文件系统Row-encoded:文本格式Bulk-encoded:
Parquet
广阔天地大有可为
·
2023-09-14 07:08
#
Flink
API
使用技巧
flink
大数据
[python学习笔记] - python下csv,feather,
parquet
,jay,pickle的读写性能及空间占用测试
pandas下读写文件性能测试测试目标类型,csv,
parquet
,feather,jay,pickle使用package:pandas,dash,datatablepandas使用单cpu读取,dash
飞翔的烤鸡翅
·
2023-09-12 09:36
Python
性能分析
学习笔记
学习
Flink Table API& SQL编程指南(Source Connector【FileSystem、HBase、Kafka、JDBC、Hive】)
这些取决于Source和Sink的类型,他们支持很多种数据类型,例如:CSV、
Parquet
、ORC等。接下来
麦田里的守望者·
·
2023-09-03 07:30
Flink实时计算
Table
API
Flink
SQL
Amazon EMR Hudi 性能调优——Clustering
随着数据体量的日益增长,人们对Hudi的查询性能也提出更多要求,除了
Parquet
存储格式本来的性能优势之外,还希望Hudi能够提供更多的性能优化的技术途径,尤其当对Hudi表进行高并发的写入,产生了大量的小文件之后
·
2023-09-02 23:52
amazon-emr
安装ParquetViewer查看.
parquet
文件
github.com/mukunku/ParquetViewer/releases选择文件:ParquetViewer.exe下载安装即可参考:ParquetViewer—在Windows系统上可视化查看
Parquet
饿了就干饭
·
2023-09-01 09:56
软件安装
查看数据集
Flink教程-flink 1.11使用sql将流式数据写入文件系统
fileflink提供了一个filesystemconnector,可以使用DDL创建一个table,然后使用sql的方法将数据写入hdfs、local等文件系统,支持的写入格式包括json、csv、avro、
parquet
大数据技术与应用实战
·
2023-08-30 03:50
flink
flink
sql
教程
hdfs
1.11
starrocks湖到仓
.*")INTOTABLEfwwiptransactionFORMATAS"
parquet
"(sysid,lasttxnid
liurenfenglrf
·
2023-08-29 22:51
starrocks
数据库
Apache Arrow -
Parquet
存储与使用
简介
Parquet
是一种高效的列式存储格式,广泛用于大数据系统中的数据仓库和数据管理工具中,旨在提高数据分析的性能和效率,能够更好地支持数据压缩和列式查询,同时兼顾读写速度和数据大小初衷为了让Hadoop
·
2023-08-29 18:48
列式存储外部表创建
httpreferer’)COMMENT‘列式存储测试’PARTITIONEDBY(dtstringCOMMENT‘日期分区’)ROWFORMATSERDE‘org.apache.hadoop.hive.ql.io.
parquet
.serde.Pa
大地你王哥
·
2023-08-24 21:43
hive
hive
hadoop
big
data
Hive修改
Parquet
类型表字段几种问题处理
hive中的表数据存储类型可以使用
parquet
,优势在于列式存储方便压缩,加快查询速度,在实际生产环境中,往往不会有字段命名或类型修改的数仓宽表才会使用。
大地你王哥
·
2023-08-24 21:43
hive
hive
hadoop
大数据
Hive将csv数据导入
parquet
格式动态分区表
简介本篇文章介绍,如何将csv或txt文件,导入到
parquet
格式存储的hive动态分区表中。
pezynd
·
2023-08-24 04:44
大数据杂谈
hive
sql
hdfs
大数据
数据仓库
流批一体计算引擎-8-[Flink]的Table API连接器
根据source和sink的类型,它们支持不同的格式,如CSV、Avro、
Parquet
或ORC。本页介绍如
皮皮冰燃
·
2023-08-22 22:31
Flink
flink
【ParquetEncodingException: empty fields are illegal, the field should be ommited completely instead
通过spark程序向
parquet
格式的表写数据报错ParquetEncodingException:emptyfieldsareillegal,thefieldshouldbeommitedcompletelyinstead
不吃饭的猪
·
2023-08-22 09:26
hive
hive
Spark_day06
1.新建一个文件夹,并放入我们的winutils.exe文件.2.我们把这个路径写上去就好了.image.png3.目前的结构4.这是mode和我们的文件形式5.
Parquet
文件格式image.png5
c062197eecd2
·
2023-08-20 10:58
Hive 表之间数据处理,Int 类型字段部分字段出现 NULL情况
背景hive中有一张待处理的分区表,存储的方式是
parquet
,处理之后的目标表是一张非分区的外部表,并且分隔方式为“,”。
githubshareing
·
2023-08-20 08:06
常用的数据存储格式在大数据处理中
说明ORC(OptimizedRowColumnar)和
Parquet
是两种流行的列式存储文件格式,而LZO是一种用于压缩数据的算法。
卢延吉
·
2023-08-20 08:22
数据
(Data)
Hadoop
data
TPC-DS 测试是否支持 Glue Data Catalog?
在上一篇文章《在Hive/Spark上执行TPC-DS基准测试(
PARQUET
格式)》中,我们详细介绍了具体的操作方法,当时的集群使用的是HiveMetastore,所有操作均可成功执行。
Laurence
·
2023-08-20 06:01
付费专栏
tpc-ds
glue
catalog
hive
spark
在Hive/Spark上执行TPC-DS基准测试 (
PARQUET
格式)
Hive/Spark上运行执行TPC-DS基准测试(ORC和TEXT格式)》中,我们介绍了如何使用hive-testbench在Hive/Spark上执行TPC-DS基准测试,同时也指出了该项目不支持
parquet
Laurence
·
2023-08-19 15:39
付费专栏
hive
spark
TPC-DS
benchmark
测试
python读取hdfs上的
parquet
文件方式
在使用python做大数据和机器学习处理过程中,首先需要读取hdfs数据,对于常用格式数据一般比较容易读取,
parquet
略微特殊。
乐观的程序员
·
2023-08-18 14:06
Hive底层数据存储格式
本文将介绍Hive底层的三种主要数据存储格式:文本文件格式、
Parquet
格式和ORC格式。
笑看风云路
·
2023-08-18 11:26
hive
hive
hadoop
数据仓库
存储格式
Spark SQL | DataFrame的各种玩法
df2.2、rdd转df2.3、指定schema动态创建DataFrame2.4、通过读取文件创建2.4.1、json->df2.4.2、csv->df2.4.3、scala编写的csv->df2.4.4、
parquet
#苦行僧
·
2023-08-18 00:22
#
Spark
spark
大数据
dataframe
sql
python
java读取hudi
parquet
文件
java读取hudiparquet文件hudi版本说明:0.10.1importorg.apache.avro.Schema;importorg.apache.
parquet
.avro.AvroParquetReader
老鼠扛刀满街找猫@
·
2023-08-16 04:15
java
python
开发语言
在Hive/Spark上运行执行TPC-DS基准测试 (ORC和TEXT格式)
不过,该项目仅支持生成ORC和TEXT格式的数据,如果需要
Parquet
格式,请参考此文《在Hive/Spark上执行TPC-DS基准测试(
Parquet
格式)》。备注:本文使用的Hive/Spar
Laurence
·
2023-08-15 11:55
付费专栏
hive
spark
tpc-ds
orc
csv
Amazon EMR Hudi 性能调优——Clustering
随着数据体量的日益增长,人们对Hudi的查询性能也提出更多要求,除了
Parquet
存储格式本来的性能优势之外,还希望Hudi能够提供更多的性能优化的技术途径,尤其当对Hudi表进行高并发的写入,产生了大量的小文件之后
亚马逊云开发者
·
2023-08-15 03:58
Amazon
EMR
SparkSQL-从DataFrame说起
hbasefly.com/2017/02/16/sparksql-dataframe/写在文章之前本着更好地理解大数据生态圈的本意以及工作的需要,前段时间熟悉了SQL查询引擎SparkSQL、Hadoop文件格式
Parquet
严国华
·
2023-08-12 18:52
大数据开发:Hive列式存储ORC、
Parquet
的优点
今天的大数据开发学习分享,我们就主要来讲讲,Hive列式存储ORC、
Parquet
的优点。
成都加米谷大数据
·
2023-08-10 10:12
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他