parquet 第15页

Spark从入门到精通21:Spark SQL：Parquet数据源自动分区推断

SparkSQL中的Parquet数据源，支持自动根据目录名推断出分区信息。例如，如果将人口数据存储在分区表中，并且使用性别和国家作为分区列。

勇于自信·2020-04-09 22:16

黑猴子的家：Hive 文件存储格式

Hive支持的存储数的格式主要有：TEXTFILE、SEQUENCEFILE、ORC、PARQUET1、列式存储和行式存储A-1【图A-1】左边为逻辑表，右边第一个为行式存储，第二个为列式存储。

黑猴子的家·2020-04-08 18:55

Spark - SQL查询文件数据

>有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。

kikiki5·2020-04-06 21:15

Spark - SQL查询文件数据

>有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。

kikiki4·2020-04-06 10:35

使用Hadoop机架位置提升Vertica性能

当Vertica数据库节点位于Hadoop数据节点(DataNode)上时，Vertica可以利用Hadoop机架配置对ORC和Parquet数据执行查询。

LeiLv·2020-04-06 00:34

spark sql 在mysql的应用实践

前言目前sparksql主要应用在structurestreaming、etl和machinelearning的场景上，它能对结构化的数据进行存储和操作，结构化的数据可以来自HIve、JSON、Parquet

VIPSHOP_FCS·2020-04-04 20:59

Hive学习笔记七

编译源码二、Hadoop压缩配置1、MR支持的压缩编码2、压缩参数配置三、开启Map输出阶段压缩四、开启Reduce输出阶段压缩五、文件存储格式1、列式存储和行式存储2、TextFile格式3、Orc格式4、Parquet

落花桂·2020-04-03 13:00

Spark - SQL查询文件数据

有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。

kikiki4·2020-03-31 04:54

Pyspark读取parquet数据过程解析

parquet数据：列式存储结构，由Twitter和Cloudera合作开发，相比于行式存储，其特点是：可以跳过不符合条件的数据，只读取需要的数据，降低IO数据量；压缩编码可以降低磁盘存储空间，使用更高效的压缩编码节约存储空间

落日峡谷·2020-03-27 11:22

spark从入门到放弃三十一:Spark Sql (4)数据源Parquet

文章地址：http://www.haha174.top/article/details/253452项目源码：https://github.com/haha174/spark.git1.简介parquet

意浅离殇·2020-03-25 23:34

Impala读取HBase外部表的一个坑

数据平台的数据流水线如下：数据流水线数据上报后首先写入到MQ里，通过一个消费者将数据存入HBase中，每天通过ImpalaJDBC接口增量将数据以Parquet格式写入HDFS中。

Caoyun·2020-03-25 20:00

1.Writing R data frames returned from SparkR:::map

本想的将这些数据作为parquet这样就可以避免collect的Action操作。

HOHOOO·2020-03-25 17:06

【Spark】Spark DataFrame schema转换方法

schema转换成:id:String,goods_name:Stringprice:Arraysql转换spark.sql("createtablespeedup_tmp_test_spark_schema_parquet12usingparquetasselectcast

PowerMe·2020-03-23 23:10

Spark - SQL查询文件数据

>有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。

kikiki4·2020-03-23 14:33

hive数据类型和文件格式

rowformatdelimitedfiledsterminatedby','linesterminatedby'\n'storedastextfile可以简单地视为csv格式二进制格式storedasavro...seqencefile...parquet

xncode·2020-03-22 03:01

Parquet 实践和基本原理

生成一个parquet文件下载wget[https://github.com/apache/parquet-mr/archive/apache-parquet-1.10.0.tar.gz](https:

tracy_668·2020-03-21 22:05

Spark SQL（三）DataSource

使用SparkSQL的DataFrame接口，用户可以方便快速的从多种不同数据源（json/parquet/rdbms等），经过混合处理（比如jsonjoinparquet）,再将处理结果以特定的格式（

Sx_Ren·2020-03-20 12:27

一文学会绕过Hive存储和压缩的坑

在我实际查看以后，发现集群的文件存储格式为Parquet，一种列式存储引擎，类似的还有ORC。而文件的压缩形式为Snappy。具体的操作形式如下：①创建Parq

大数据首席数据师·2020-03-16 09:19

X-Pack Spark归档POLARDB数据做分析

X-PackSpark为数据库提供分析引擎，旨在打造数据库闭环，借助X-PackSpark可以将POLARDB数据归档至列式存储Parquet文件，一条SQL完成复杂数据分析，并将分析结果回流到业务库提供查询

阿里云云栖号·2020-03-15 05:47

常见Hive调优策略

（textFile,ORCFile,Parquet）t

心_的方向·2020-03-11 01:09

impala在parquet文件格式上执行count(*)操作

parquet是一个支持列式存储的文件格式，对于大数据量，多维来说，如果只查询某些具体维来说，有很好的效率。

胖imp·2020-03-10 03:04

hive查询报错:java.io.IOException:org.apache.parquet.io.ParquetDecodingException

hiveQueryException/前言本文解决如标题所述的一个hive查询异常，详细异常信息为：Failedwithexceptionjava.io.IOException:org.apache.parquet.io.ParquetDecodingException

董可伦·2020-03-04 05:47

Spark高级面试问题join丢失节点、parquet大小

Spark生成parquet格式一般建议每个parquet多大？田毅：这个我的建议是别弄太大，数据(压缩前)最好别超过128M，这个数

Albert陈凯·2020-03-03 21:21

大数据常用文件格式介绍

上的文章：https://blog.csdn.net/u013332124/article/details/86423952最近在做hdfs小文件合并的项目，涉及了一些文件格式的读写，比如avro、orc、parquet

疯狂的哈丘·2020-02-29 08:13

利用 Spark DataSource API 实现Rest数据源

典型如Parquet,CarbonData,Postgrep(JDBC类的都OK)等实现。本文则介绍如何利用SparkDataSource对标准Rest接口实现读取引子先说下这个需求的来源。

祝威廉·2020-02-29 04:12

SPARK命令行读取parquet数据

/spark-shell2，执行以下操作读取parquet文件valsqlContext=neworg.apache.spark.sql.SQLContext(sc)valparquetFile=sqlContext.parquetFile

light2081·2020-02-28 03:21

Parquet元数据合并

当文件使用Parquet格式时，如果多次生成的文件列不同，可以进行元数据的合并，不用再像关系型数据库那样多个表关联。

不圆的石头·2020-02-25 13:21

大数据文件格式梳理：Parquet、Avro、ORC

文件系统优化出的存储结构2、提供高效的压缩3、二进制存储格式4、文件可分割，具有很强的伸缩性和并行处理能力5、使用schema进行自我描述6、属于线上格式，可以在Hadoop节点之间传递数据二、不同点行式存储or列式存储：Parquet

ryancao_b9b9·2020-02-25 00:05

浅谈几种常见的大数据文件格式

在本文中，我们会讨论在ApacheSpark中使用的这四种格式的特性--CSV，JSON，Parquet

猿奶爸·2020-02-19 19:48

CarbonData实践(一)

前言CarbonData拥有不错的明细查询能力，比如简单的where条件过滤，性能大概是Parquet的20倍。

祝威廉·2020-02-14 18:51

Structured Streaming如何实现Parquet存储目录按时间分区

缘由StreamingPro现在支持以SQL脚本的形式写StructuredStreaming流式程序了：mlsql-stream。不过期间遇到个问题，我希望按天进行分区，但是这个分区比较特殊，就是是按接收时间来落地进行分区，而不是记录产生的时间。当然，我可以新增一个时间字段，然后使用partitionBy动态分区的方式解决这个问题，但是使用动态分区有一个麻烦的地方是，删除数据并不方便。流式程序会

祝威廉·2020-02-10 18:21

[译] Spark SQL Generic Load/Save Functions

[TOC]GenericLoad/SaveFunctions(通用加载/保存函数)最简单的情况,默认数据源(parquet,除非使用spark.sql.sources.default修改了配置)将会应用到所有操作

阿亚2011·2020-02-07 01:50

Spark与Apache Parquet

七十年代时，有一长辈连练铁砂掌，功夫成了之后，可以掌断五砖，凌空碎砖，威风得不得了。时至八十年代，只能掌断三砖。到九十年代只能一砖一砖的断了。他说，一直以为功力退步了，后来才知道烧砖的配方改了。数据压缩前言前两篇将了spark的部署和一些简单的实例Spark初体验(步骤超详细)和Spark再体验之springboot整合spark。我相信前两篇会对刚入门的sparker来说会有一些启发。今天在使用

冬天只爱早晨·2020-02-06 05:02

SparkSQL学习笔记

sparkSQL特点：数据兼容，不仅兼容hive，还可以从rdd，parquet文件，json文件获取数据，支持从rd

伯安知心·2020-02-05 15:00

Spark SQL 简介

结构化数据可以来自外部源：Hive/Json/parquet，1.2开始支持JDBC等，也可以对已有RDD增加Schema的方式获得。

cuteximi_1995·2020-02-02 00:43

用户自定义source & sink

TableSink将表发送到外部存储系统，例如数据库，键值存储，消息队列或文件系统（在不同的编码中，例如CSV，Parquet或ORC）。

盗梦者_56f2·2020-02-01 20:18

Apache Hudi 0.5.1版本重磅发布

社区终于发布了0.5.1版本，这是ApacheHudi发布的第二个Apache版本，该版本中一些关键点如下版本升级将Spark版本从2.1.0升级到2.4.4将Avro版本从1.7.7升级到1.8.2将Parquet

ApacheHudi·2020-02-01 00:00

spark学习笔记

1.3、SparkSQL通过SparkSQL，我们可以使用SQL或者Hive版本的SQL（HQL）来查询数据，支持多种数据源，比如Hive表、Parquet、JSON等。

seafreak·2020-01-31 02:36

单表千亿电信大数据场景，使用Spark+CarbonData替换Impala案例

【背景介绍】国内某移动局点使用Impala组件处理电信业务详单，每天处理约100TB左右详单，详单表记录每天大于百亿级别，在使用impala过程中存在以下问题:详单采用Parquet格式存储，数据表使用时间

mtxcat·2020-01-09 15:00

StreamingPro 支持多输入，多输出配置

前言最近正好有个需求，就是从不同的数据库以及表里拉出数据，经过一定的处理放到ES里供查询，最好还能放个到parquet里，这样可以支持更复杂的SQL。

祝威廉·2020-01-07 11:33

Spark - SQL查询文件数据

有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。

大猪大猪·2020-01-06 16:36

[翻译] Dremel made simple with Parquet

原文：DremelmadesimplewithParquet|TwitterEngineeringBlogGoogle对于传说中3秒查询1PB数据的Dremel，有一篇论文：Dremel:InteractiveAnalysisofWeb-ScaleDatasets.这篇论文基本上在描述Dremel的数据存储格式.用容易理解但不准确的的话概括上面那篇论文，就是怎么把一些嵌套的Protobuff结构（

Jabari·2020-01-04 14:49

hive/impala使用列式存储追加一列数据的可行性

我们知道parquet文件格式是不能进行update操作的。但是是否可以对其进行添加一列数据呢？

胖imp·2020-01-01 16:11

网易视频云：新一代列式存储格式Parquet的最佳实践

网易视频云：新一代列式存储格式Parquet的最佳实践网易视频云是网易打造的一款基于云计算的分布式多媒体处理集群和专业音视频技术，提供稳定流畅、低时延、高并发的视频直播、录制、存储、转码及点播等音视频的

meng_philip123·2019-12-29 23:44

【2018-04-11】【2.1.1 源码解读】spark sql之DataFrameReader，DataSource，Dataset

SparkSession程序入口类Builder：SparkSession的一个内部类，用于添加配置，创建SparkSession对象DataFrameReader：各数据源读入器，csv,json,jdbc,parquet

jackLee·2019-12-29 11:19

Parquet与ORC：高性能列式存储格式

http://blog.csdn.net/yu616568/article/details/51868447背景随着大数据时代的到来，越来越多的数据流向了Hadoop生态圈，同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要，在hadoop生态圈的快速发展过程中，涌现了一批开源的数据分析引擎，例如Hive、SparkSQL、Impala、Presto等，同时

blablablala·2019-12-29 05:57

parquet

7113235.html进入spark-shell需要能访问spark的Linux账号,如果没有获取到sc,spark等变量,可以先切换账号:sudosu-sparkvaldf=spark.read.parquet

焉知非鱼·2019-12-27 13:18

Spark - SQL查询文件数据

>有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。

kikiki4·2019-12-27 02:54

hadoop平台存储文件格式的概念及对比

orc格式和parquet格式哪个好？该怎么去选择这些格式，这些格式的文件都有什么优缺点？Hbase和ElasticSearch为什么也是文件存储格式的一种？kudu又是什么？事实上，

八幡大老师·2019-12-25 01:10

【SparkSQL】选择 Parquet作为DF默认类型外部数据源的原因

选择ParquetforSparkSQL的5大原因下面详细介绍SparkSQL使用parquet作为默认输入输出数据源的原因。

lemon胡·2019-12-24 22:00

推荐频道

parquet

Spark从入门到精通21:Spark SQL：Parquet数据源自动分区推断

黑猴子的家：Hive 文件存储格式

Spark - SQL查询文件数据

Spark - SQL查询文件数据

使用Hadoop机架位置提升Vertica性能

spark sql 在mysql的应用实践

Hive学习笔记七

Spark - SQL查询文件数据

Pyspark读取parquet数据过程解析

spark从入门到放弃三十一:Spark Sql (4)数据源Parquet

Impala读取HBase外部表的一个坑

1.Writing R data frames returned from SparkR:::map

【Spark】Spark DataFrame schema转换方法

Spark - SQL查询文件数据

hive数据类型和文件格式

Parquet 实践和基本原理

Spark SQL（三）DataSource

一文学会绕过Hive存储和压缩的坑

X-Pack Spark归档POLARDB数据做分析

常见Hive调优策略

impala在parquet文件格式上执行count(*)操作

hive查询报错:java.io.IOException:org.apache.parquet.io.ParquetDecodingException

Spark高级面试问题join丢失节点、parquet大小

大数据常用文件格式介绍

利用 Spark DataSource API 实现Rest数据源

SPARK命令行读取parquet数据

Parquet元数据合并

大数据文件格式梳理：Parquet、Avro、ORC

浅谈几种常见的大数据文件格式

CarbonData实践(一)

Structured Streaming如何实现Parquet存储目录按时间分区

[译] Spark SQL Generic Load/Save Functions

Spark与Apache Parquet

SparkSQL学习笔记

Spark SQL 简介

用户自定义source & sink

Apache Hudi 0.5.1版本重磅发布

spark学习笔记

单表千亿电信大数据场景，使用Spark+CarbonData替换Impala案例

StreamingPro 支持多输入，多输出配置

Spark - SQL查询文件数据

[翻译] Dremel made simple with Parquet

hive/impala使用列式存储追加一列数据的可行性

网易视频云：新一代列式存储格式Parquet的最佳实践

【2018-04-11】【2.1.1 源码解读】spark sql之DataFrameReader，DataSource，Dataset

Parquet与ORC：高性能列式存储格式

parquet

Spark - SQL查询文件数据

hadoop平台存储文件格式的概念及对比

【SparkSQL】 选择 Parquet作为DF默认类型外部数据源的原因

【SparkSQL】选择 Parquet作为DF默认类型外部数据源的原因