parquet 第19页

Parquet性能测试之项目实践中应用测试

因为从事大数据方面的工作，经常在操作过程中数据存储占空间过大，读取速率过慢等问题，我开始对parquet格式存储进行了研究，下面是自己的一些见解（使用的表都是项目中的，大家理解为宽表即可）：一、SparkSql

Rawirm·2018-02-11 09:02

(译) pyspark.sql.DataFrame模块

分布式的列式分组数据集(1.3版本新增)一个DataFrame对象相当于SparkSQL中的一个关系型数据表,可以通过SQLContext中的多个函数生成,如下例:people=sqlContext.read.parquet

cjhnbls·2018-02-07 01:33

(译) pyspark.sql.SparkSession模块

和DataFrame编写Spark程序的入口SparkSession的功能包括：创建DataFrame以关系型数据库中表的形式生成DataFrame，之后便可以执行SQL语句，适合小数据量的操作读取.parquet

cjhnbls·2018-02-04 18:31

修复hive表存储格式为PARQUET的分区表中类型定义为int到float的过程

chengjianxiaoxue·2018-01-29 14:00

Hive建立外部表表external table

`string,`column3`string)PARTITIONEDBY(`proc_date`string)ROWFORMATSERDE'org.apache.hadoop.hive.ql.io.parquet.serde.Parqu

zx_love·2018-01-22 14:13

Hive – partition table query failed when stored as parquet

HiveisdevelopedbyFacebooktoanalyzeandextractusefulinformationfromtheirhugedatabutnowitisverypopularinotherorganizationstoosuchasNetflixandFINRA.Use-case:Nowadaysmostofusareusingdifferentwaystooptimize

ZhaoYingChao88·2018-01-08 19:54

spark SQL （四）数据源 Data Source----Parquet 文件的读取与加载

SparkSQL支持阅读和编写自动保留原始数据模式的Parquet文件。在编写Parquet文件时，出于兼容性原因，所有列都会自动转换为空。

junzhou134·2017-12-30 12:00

Spark External Data Source API

对用户来说：方便快速从不同的数据源（json、parquet、rdbms），经过混合处理（jsonjoinparquet），再将处理结果以特定的格式（json、parquet）写

zghgchao·2017-12-23 21:29

spark 批量读取HDFS（hive分区）parquet文件

情况说明：数据以parquet文件形式保存在HDFS上，数据中的某一列包含了日期（例如：2017-12-12）属性，根据日期对数据分区存储，如下图所示：项目需求：在项目中想要读取某一个月的数据，肿么办？

~shallot~·2017-12-18 16:19

大数据学习笔记（十）-Hive中的Storage format

1.Storageformat行存储：SEQUENCEFILE、TEXTFILE列存储：ORC、PARQUET、AVRO行列混合存储：RCFILE、2.行存储VS列存储行式存储：①一行数据一定在一个block

狂暴棕熊·2017-12-13 21:03

SparkSQL的数据源

1.数据源SparkSQL的数据源：结构化的文件（json，parquet），或者是Hive的表，或者是外部的数据库（mysql），也或者是已经存在的RDD。

CatherineHuangTT·2017-11-22 11:16

Spark SQL

SparkSQL提供了以下三大功能：1.SparkSQL可以从各种结构化数据源（例如JSON、Hive、Parquet等）中读取数据。

zhexiao27·2017-11-02 15:53

thrift、序列化与parquet读取

parquet是一种常见的列式存储格式，普通的parquet文件可以用java中的ParquetReader来读取，在存储格式较为简单时，可以通过Group.get×××可以获得相应列的数据，获得相应json

小么额菇·2017-10-27 10:37

Spark Parquet使用

SparkSQL下的Parquet使用最佳实践和代码实战分类：spark-sql（1）一、SparkSQL下的Parquet使用最佳实践1）过去整个业界对大数据的分析的技术栈的Pipeline一般分为以下两种方式

ZhaoYingChao88·2017-10-18 15:26

读写parquet格式文件的几种方式

转：http://blog.csdn.net/woloqun/article/details/76068147摘要本文将介绍常用parquet文件读写的几种方式1.用spark的hadoopFileapi

卡奥斯道·2017-09-25 18:49

parquet压缩格式参数设置以及简单操作

Parquet文件会在gzip中自动压缩，因为Spark变量spark.sql.parquet.compression.codec已在默认情况下设置为gzip。

卡奥斯道·2017-09-25 18:24

java 读写Parquet格式的数据的示例代码

本文介绍了java读写Parquet格式的数据，分享给大家，具体如下：importjava.io.BufferedReader;importjava.io.File;importjava.io.FileReader

Nucky_yang·2017-09-22 14:07

Hive parquet 表查询报错

把数据存成parquet格式后，建立对应的表，但是查询的时候会报下面的错误：HiveRuntimeErrorwhileprocessingrow[Errorgettingrowdatawithexceptionjava.lang.UnsupportedOperationException

昵称诚诚·2017-09-12 16:05

Parquet与ORC性能测试报告

一、环境说明Hadoop集群：使用测试hadoop集群，节点：hadoop230hadoop231hadoop232hadoop233这几台机器配置一样，具体参数可参考如下：CPU数量：2个CPU线程数：32个内存：128GB磁盘：48TB使用测试机群上的同一个队列，使用整个集群的资源，所有的查询都是无并发的。Hive使用官方的hive1.2.1版本，使用hiveserver2的方式启动，使用本机

leoIsCoding·2017-08-22 17:45

Kudo介绍 + Spark\Python\Scala开发Kudu应用程序

a1043498776/article/details/72681890Kudu的背景Hadoop中有很多组件，为了实现复杂的功能通常都是使用混合架构，Hbase：实现快速插入和修改，对大量的小规模查询也很迅速HDFS/Parquet

Raini.闭雨哲·2017-08-22 11:24

java写parquet文件

打开ParquetWriter发现大部分构造方法都是过时的（@Deprecated），经过仔细的百度，和读源码，才发现原来创建ParquetWriter对象采用内部类Builder来build();实例：（Apacheparquet1.9.0）ExampleParquetWriter.Builderbuilder=ExampleParquetWriter.builder(file).withWri

米特侠·2017-08-02 18:26

利用 sparksession读取Parquet，Json格式文件

Spark支持的一些常见的格式：文本文件：无任何的格式json文件：半结构化parquet：一种流行的列式存储格式sequencefile：一种(k－v)的Hadoop文件格式.importorg.apache.spark.SparkConfimportorg.apache.spark.sql.SparkSessionobjectOpsWihtJson_and_parquet

holomain·2017-07-09 16:22

Dremel made simple with Parquet

J_Wednesday,11September2013[](https://blog.twitter.com/engineering/en_us/a/2013/dremel-made-simple-with-parquet.html

wlu·2017-06-19 15:24

Spark SQL来读取现有Hive中的数据

SparkSQL主要目的是使得用户可以在Spark上使用SQL，其数据源既可以是RDD，也可以是外部的数据源（比如Parquet、Hive、Json等）。

Soyoger·2017-05-25 09:32

HBase最佳实践-用好你的操作系统

作者：范欣欣终于又切回HBase模式了，之前一段时间因为工作的原因了解接触了一段时间大数据生态的很多其他组件（诸如Parquet、Carbondata、Hive、SparkSQL、TPC-DS/TPC-H

·2017-05-25 00:00

Spark Kudu 结合

://github.com/LinMingQiangKudu的背景Hadoop中有很多组件，为了实现复杂的功能通常都是使用混合架构，Hbase：实现快速插入和修改，对大量的小规模查询也很迅速HDFS/Parquet

LonelysWorld·2017-05-24 17:05

Spark 中关于Parquet的应用与性能初步测试

Spark中关于Parquet的应用Parquet简介Parquet是面向分析型业务的列式存储格式，由Twitter和Cloudera合作开发，2015年5月从Apache的孵化器里毕业成为Apache

去买大白兔·2017-05-21 14:35

Spark写入Parquet，暴露JDBC引擎，实现准实时SQL查询

有一个设想当有持续不断的结构化或非结构化大数据集以流（streaming）的方式进入分布式计算平台，能够保存在大规模分布式存储上，并且能够提供准实时SQL查询，这个系统多少人求之不得。今天，咱们就来介绍一下这个计算框架和过程。问题分解一下数据哪里来？假设，你已经有一个数据收集的引擎或工具（不在本博客讨论范围内，请出门左转Google右转百度），怎么都行，反正数据能以流的方式给出来，塞进Kafka类

mergerly·2017-05-04 21:57

spark SQL实例（load和save操作）

load操作：主要用于加载数据，创建出DataFramesave操作：主要用于将DataFrame中的数据保存到文件中代码示例(默认为parquet数据源类型)packagewujiadong_sparkSQLimportorg.apache.spark.sql.SQLContextimportorg.apache.spark

BBlue-Sky·2017-04-23 11:54

Spark2.1中用结构化流处理复杂的数据格式(译)

在第一章节系列结构化流的博客文章中，我们展示了怎样用简单的方式用结构化流实现端到端的流式ETL程序，将json日志数据转换成Parquet格式表。

幽兰深谷·2017-03-26 22:39

Hive Partition 操作

txdatestring,txhourstring)rowformatdelimitedfieldsterminatedby'\t'linesterminatedby'\n'storedasparquet//parquet

秉寒CHO·2017-02-25 19:10

Dataframe保存模式

示例代码：valdataframe=sqlContext.read.parquet("读取路径")dataframe.write.mode("overwrite").parquet("写入路径")overwrite

wk022·2017-02-09 17:27

Spark SQL 与 Spark SQL on Hive 区别

SparkSQLDataSourcespark2.0.2通用的数据载入功能最简单的形式，默认的数据源格式是parquet，当然默认的格式可以通过spark.sql.sources.default进行配置

AlferWei·2017-02-05 00:30

Spark SQL 与 Spark SQL on Hive 区别

SparkSQLDataSourcespark2.0.2通用的数据载入功能最简单的形式，默认的数据源格式是parquet，当然默认的格式可以通过spark.sql.sources.default进行配置

AlferWei·2017-02-05 00:30

text、RC、Parquet、ORC

数据格式：text、RC、Parquet、ORC相同大小的原始数据集，转换成相应的格式之后的文件大小：Text>RC>Parquet>ORCText/CSVcsv文件不支持块压缩，所以在Hadoop中使用压缩的

蜗牛爱上星星·2017-02-02 10:46

spark 学习笔记

Spark学习笔记DataSource->Kafka->SparkStreaming->Parquet->SparkSQL(SparkSQL可以结合ML、GraphX等)->Parquet->其它各种DataMining

哎哟喂喽·2017-01-15 10:51

spark 学习笔记

Spark学习笔记DataSource->Kafka->SparkStreaming->Parquet->SparkSQL(SparkSQL可以结合ML、GraphX等)->Parquet->其它各种DataMining

哎哟喂喽·2017-01-15 10:51

Hive文件存储格式 :Parquet sparksql ,impala的杀手锏

hive表的源文件存储格式有几类：1、TEXTFILE默认格式，建表时不指定默认为这个格式，存储方式：行存储导入数据时会直接把数据文件拷贝到hdfs上不进行处理。源文件可以直接通过hadoopfs-cat查看磁盘开销大数据解析开销大,压缩的text文件hive无法进行合并和拆分2、SEQUENCEFILE一种HadoopAPI提供的二进制文件，使用方便、可分割、可压缩等特点。SEQUENCEFIL

mtj66·2017-01-01 22:40

Spark-SQL和Hive on Spark, SqlContext和HiveContext

HiveonSpark:是除了DataBricks之外的其他几个公司搞的，想让Hive跑在Spark上;SparkSQL:Shark的后继产品,解除了不少Hive的依赖，且让SQL更加抽象通用化,支持json,parquet

美伊小公主的奶爸·2016-12-22 15:53

RC ORC Parquet 格式比较和性能测试

RCORCParquet格式比较和性能测试作者：刘旭晖Raymond转载请注明出处Email：colorantat163.comBLOG：http://blog.csdn.net/colorant/为什么要比较这三者为什么要比较，起因是为了提高Hadoop集群的存储和计算效率，尤其是离线Hive作业的效率，为什么比较的是这三者，是因为三者是目前Hive离线作业中正在大规模使用或可能大规模使用的三种

彩色蚂蚁·2016-12-16 21:37

RC ORC Parquet 格式比较和性能测试

RCORCParquet格式比较和性能测试作者：刘旭晖Raymond转载请注明出处Email：colorantat163.comBLOG：http://blog.csdn.net/colorant/为什么要比较这三者为什么要比较，起因是为了提高Hadoop集群的存储和计算效率，尤其是离线Hive作业的效率，为什么比较的是这三者，是因为三者是目前Hive离线作业中正在大规模使用或可能大规模使用的三种

colorant·2016-12-16 21:00

sparksql各种数据源

sparksql各种数据源的测试：大致的有json文件parquet文件，和常用的文件，jdbc等还有hbase的数据源（还没有贴出，可能要等几天贴出来了）代码：一般过程：第一步创建：利用SparkSeesion

小牛学堂2019·2016-12-15 22:18

数据存储text转parquet及引发的OOM问题

1.数据转parquet的后效果table1为textfile格式存储的表，分区20161122转换之前大小约400M,分别以parquet无压缩，parquetsnappy压缩和parquetgzip

dashabiooo·2016-12-04 21:56

数据存储text转parquet及引发的OOM问题

x10232·2016-12-04 21:00

网站流量日志复杂分析（二）

要求：字段解释：创建表：DROPTABLEIFEXISTSyhd_log_parquet;CREATETABLEyhd_log_parquet(idstring,urlstring,refererstring

H_Hao·2016-12-04 10:56

Ignite+CDH5.8安装配置

应用场景是，通过Spark/Java等工具处理Parquet文件，但是直接通过JavaAPI处理Parquet文件的性能较差，主要原因在于不能实现并行化处理。

DataResearcher·2016-11-29 21:38

Java API读取CDH-Hadoop Parquet文件

由于工作需要，基于目前公司集群存在较多的服务器且存在大量的内存，因此考虑直接将数据Load进内存进行数据处理，测试是否能够加快处理速度；鉴于以上目的，版主尝试使用Parquet的JavaAPI读入Parquet

DataResearcher·2016-11-25 12:36

列存储格式Parquet浅析

Parquet调研报告1.概述1.1简介ApacheParquet是Hadoop生态圈中一种新型列式存储格式，它可以兼容Hadoop生态圈中大多数计算框架(Hadoop、Spark等)，被多种查询引擎支持

Jeffbond·2016-11-24 13:07

基于spark2.0整合spark-sql + mysql + parquet + HDFS

一、概述spark2.0做出的改变大家可以参考官网以及其他资料，这里不再赘述由于spark1.x的sqlContext在spark2.0中被整合到sparkSession，故而利用spark-shell客户端操作会有些许不同，具体如下文所述二、spark额外配置1.正常配置不再赘述，这里如果需要读取MySQL数据，则需要在当前用户下的环境变量里额外加上JDBC的驱动jar包例如我的是：mysql-

CaramelCapucchino·2016-11-22 12:11

解压parquet格式文件到text

方法一：sparkpython实现importsysfrompysparkimportSparkConf,SparkContextfrompyspark.sqlimportSQLContextinputpath=sys.argv[1]outputpath=sys.argv[2]sc=SparkContext(appName="TransformPqtoCsv")sqlContext=SQLCont

dashabiooo·2016-11-15 13:22

推荐频道

parquet

Parquet性能测试之项目实践中应用测试

(译) pyspark.sql.DataFrame模块

(译) pyspark.sql.SparkSession模块

修复hive表存储格式为PARQUET的分区表中类型定义为int到float的过程

Hive建立外部表表external table

Hive – partition table query failed when stored as parquet

spark SQL （四）数据源 Data Source----Parquet 文件的读取与加载

Spark External Data Source API

spark 批量读取HDFS（hive分区）parquet文件

大数据学习笔记（十）-Hive中的Storage format

SparkSQL的数据源

Spark SQL

thrift、序列化与parquet读取

Spark Parquet使用

读写parquet格式文件的几种方式

parquet压缩格式参数设置以及简单操作

java 读写Parquet格式的数据的示例代码

Hive parquet 表查询报错

Parquet与ORC性能测试报告

Kudo介绍 + Spark\Python\Scala开发Kudu应用程序

java写parquet文件

利用 sparksession读取Parquet，Json格式文件

Dremel made simple with Parquet

Spark SQL来读取现有Hive中的数据

HBase最佳实践-用好你的操作系统

Spark Kudu 结合

Spark 中关于Parquet的应用与性能初步测试

Spark写入Parquet，暴露JDBC引擎，实现准实时SQL查询

spark SQL实例（load和save操作）

Spark2.1中用结构化流处理复杂的数据格式(译)

Hive Partition 操作

Dataframe保存模式

Spark SQL 与 Spark SQL on Hive 区别

Spark SQL 与 Spark SQL on Hive 区别

text、RC、Parquet、ORC

spark 学习笔记

spark 学习笔记

Hive文件存储格式 :Parquet sparksql ,impala的杀手锏

Spark-SQL和Hive on Spark, SqlContext和HiveContext

RC ORC Parquet 格式比较和性能测试

RC ORC Parquet 格式比较和性能测试

sparksql各种数据源

数据存储text转parquet及引发的OOM问题

数据存储text转parquet及引发的OOM问题

网站流量日志复杂分析（二）

Ignite+CDH5.8安装配置

Java API读取CDH-Hadoop Parquet文件

列存储格式Parquet浅析

基于spark2.0整合spark-sql + mysql + parquet + HDFS

解压parquet格式文件到text