parquet 第21页

Parquet数据存储格式

Parquet是面向分析型业务的列式存储格式，由Twitter和Cloudera合作开发，2015年5月从Apache的孵化器里毕业成为Apache顶级项目，最新的版本是1.8.0。

Dreammmming Time·2015-12-10 14:10

Parquet数据存储格式

Parquet是面向分析型业务的列式存储格式，由Twitter和Cloudera合作开发，2015年5月从Apache的孵化器里毕业成为Apache顶级项目，最新的版本是1.8.0。

u014445499·2015-12-10 14:00

Parquet表在spark与Impala间兼容性测试

一、背景目前市面上的大数据技术非常多，但苦了我们做方案的，到底哪家强呢？一方面也要去尊重客观事实，一方面要去满足客户期望，而当两者出现冲突的情况下，选择上就有点左右为难。针对sqlonhadoop类的组件，hive/Impala/spark-sql/presto，接触过一点，也做过部分的验证，结论暂时与客户所期望的有点出入，因此目前有点小纠结。之所以说是部分验证，因为这里头涉及到的方面还是非常之多

fishhunter·2015-12-10 13:56

Parquet_2. 在 Impala/Hive 中使用 Parquet 格式存储数据

在之前我们已经介绍过在Hive中使用Avro，Parquet格式来存储数据。今天我们将介绍一下如何在Impala中使用Parquet格式。

Mike_H·2015-12-03 03:31

Parquet_2. 在 Impala/Hive 中使用 Parquet 格式存储数据

在之前我们已经介绍过在Hive中使用Avro，Parquet格式来存储数据。今天我们将介绍一下如何在Impala中使用Parquet格式。

Mike_H·2015-12-03 03:31

Parquet_1. 使用谓词下推和映射来优化 Job

文章中涉及的Github源码：https://github.com/Hanmourang/hiped2/blob/master/src/main/java/hip/ch3/parquet/AvroProjectionParquetMapReduce.java

Mike_H·2015-12-03 02:22

Parquet_1. 使用谓词下推和映射来优化 Job

文章中涉及的Github源码：https://github.com/Hanmourang/hiped2/blob/master/src/main/java/hip/ch3/parquet/AvroProjectionParquetMapReduce.java

Mike_H·2015-12-03 02:22

Hive 数据倾斜 (Data Skew) 总结

转载本篇文章主要是为了介绍接下来的HiveJoin优化和Parquet谓词下推功能。

Mike_H·2015-12-02 14:07

Hive 数据倾斜 (Data Skew) 总结

转载本篇文章主要是为了介绍接下来的HiveJoin优化和Parquet谓词下推功能。

Mike_H·2015-12-02 14:07

SparkSQL学习笔记(二)DataSource

Load/Save方法：最简单的格式，默认为parquet(列式存储格式，自身包含表结构和表数据)，可以在spark.sql.sources.default里配置。

南有乔木不可休·2015-11-24 13:50

用Apache Spark进行大数据处理

通过SparkSQL，可以针对不同格式的数据执行ETL操作（如JSON，Parquet，数据库）然后完成特定的查询操作。在这一文章系列的第二篇中，我们将讨论SparkS

see_you_again·2015-11-23 09:00

大数据仓库－kudu

按照cloudera的想法，kudu的出现是为了解决，hbase,parquet不能兼顾分析和更新的需求，所以需要一个新的存储引擎可以同时支持高吞吐的分析应用以及少量更新的应用。

jiezhu2007·2015-11-21 16:00

大数据仓库－kudu

按照cloudera的想法，kudu的出现是为了解决，hbase,parquet不能兼顾分析和更新的需求，所以需要一个新的存储引擎可以同时支持高吞吐的分析应用以及少量更新的应用。

jiezhu2007·2015-11-21 16:00

大数据仓库－kudu

按照cloudera的想法，kudu的出现是为了解决，hbase,parquet不能兼顾分析和更新的需求，所以需要一个新的存储引擎可以同时支持高吞吐的分析应用以及少量更新的应用。

jiezhu2007·2015-11-21 16:00

大数据仓库－kudu

按照cloudera的想法，kudu的出现是为了解决，hbase,parquet不能兼顾分析和更新的需求，所以需要一个新的存储引擎可以同时支持高吞吐的分析应用以及少量更新的应用。

jiezhu2007·2015-11-21 08:00

spark1.2.0版本SparkSQL使用parquet类型注意事项

在Spark1.2.0版本中是用parquet存储类型时注意事项： sql语句： select * from order_created_dynamic_partition_parquet;

·2015-11-12 23:51

Spark SQL

它可以从原有的RDD创建，也可以是Parquet文件，最重要的是它可以支持用HiveQL从hive里面读取数据。下面是一些案例，可以在Spark sh

·2015-11-11 19:24

sparkSQL学习

SchemaRDD的创建可以来自于已存在的RDD或Parquet文件，或JSON数据集

wangqiaowqo·2015-11-09 15:00

SparkSQL（二）

SparkSQL可以处理多种类型的数据，本文就简单的以Parquet、Json、RelationDatabase为主线介绍下SparkSQL的处理过程。

u010376788·2015-11-04 20:00

spark sql中将数据保存成parquet,json格式

val df = sqlContext.load("/opt/modules/spark1.3.1/examples/src/main/resources/people.json","json") df.select("name","age").save("/opt/test/namesAndAges.js

·2015-10-31 11:05

ORCFILE,ParquetFile,CubeFile使用场景区别

OLAP分析场景 ORC File Parquet File Cube File Full scan one dimension Fast

·2015-10-31 11:03

列式存储 Parquet

本文涉及的Parquet的一些基本原理，可以参考网页：http://www.infoq.com/cn/articles/in-depth-analysis-of-parquet-column-storage-format

jhonephone·2015-10-16 11:00

Spark SQL之External DataSource外部数据源

白乔·2015-10-02 11:47

Spark SQL之External DataSource外部数据源

bluejoe2000·2015-10-02 11:00

深入分析Parquet列式存储格式

深入分析Parquet列式存储格式Parquet是面向分析型业务的列式存储格式，由Twitter和Cloudera合作开发，2015年5月从Apache的孵化器里毕业成为Apache顶级项目，最新的版本是

XZC.Log·2015-09-09 15:00

深入分析Parquet列式存储格式

Parquet是面向分析型业务的列式存储格式，由Twitter和Cloudera合作开发，2015年5月从Apache的孵化器里毕业成为Apache顶级项目，最新的版本是1.8.0。

梁堰波·2015-08-07 00:00

drill1.0配置hive storage plugin及测试

storage plugin及测试 drill,hive 截止到目前本博客发布前，apache drill最新发布版本是1.0.0，对与此版本的数据源支持和文件格式的支持： avro parquet

duguyiren3476·2015-08-06 20:00

探究 Parquet 生成方式(impala,hive都可以查询)MR程序访问(三)

skyim·2015-07-16 17:00

探究 Parquet 生成方式(impala,hive都可以查询)分区(二)

1.可以先参考第一篇文章http://my.oschina.net/skyim/blog/4791592.分区的好处(例如按年月日生成表)3.可以参考第一篇文章(先建表)区别在于PARTITIONEDBY(yearINT,monthINT,dayINT)createexternaltableparquet_example1( basketidbigint, productidbigint, qua

skyim·2015-07-16 12:00

探究 Parquet 生成方式(impala,hive都可以查询)(一)

1.Parquet的优点我就不说拉（列存储和良好的压缩）,列存储可以参考如下链接2.主要是项目中用到的存储3.第一步,首先在hive中创建一张表,操作表语句如下createexternaltableparquet_example

skyim·2015-07-16 10:00

Parquet 支持数据嵌套的列式数据存储格式

Parquet是Twitter内部的列式存储，目前开源并将代码托管在 parquet-format上 Parquet是一种供Hadoop使用的列式存储格

cloud-coder·2015-06-17 10:00

用Apache Spark进行大数据处理——第二部分：Spark SQL

通过SparkSQL，可以针对不同格式的数据执行ETL操作（如JSON，Parquet，数据库）然后完成特定的查询操作。在这一文章系列

Srini Penchikala·2015-06-12 00:00

用Apache Spark进行大数据处理——第二部分：Spark SQL

通过SparkSQL，可以针对不同格式的数据执行ETL操作（如JSON，Parquet，数据库）然后完成特定的查询操作。在这一文章系列

Srini Penchikala·2015-06-12 00:00

Spark之 Data storage 模块

大纲数据压缩：霍夫曼，parquet数据读取：数据解压缩：bitbyte操作数据传输ObjectAssemble/FMS ---Dremel论文

yunlong34574·2015-06-05 14:00

分布式SQL数据库引擎基于Hadoop HDFS

GPFXExternalTables接口，使用SQL透明访问Hadoop上各类数据-HDFS,HBase,Hive,Parquet等等，还支持SQL透明访问NFS,HTTP其他格式的数据（可自定义）HAWQ

李航421·2015-05-28 09:00

分布式SQL数据库引擎基于Hadoop HDFS-王伟珣

GPFXExternalTables接口，使用SQL透明访问Hadoop上各类数据-HDFS,HBase,Hive,Parquet等等，还支持SQL透明访问NFS,HTTP其他格式的数据（可自定义）HAWQ

李航421·2015-05-14 13:00

Spark parquet merge metadata问题

在sparksql1.2.x当中存在一个问题：当我们尝试在一个查询中访问多个parquet文件时，如果这些parquet文件中的字段名和类型是完全一致的、只是字段的顺序不一样，例如一个文件中是namestring

bhq2010·2015-05-05 13:00

Spark中配置Parquet参数

Parquet的参数，例如blocksize、压缩格式等，需要sparkcontex对象上调用hadoopConfiguration.set()来设置。

bhq2010·2015-05-04 10:00

【Spark九十二】Spark SQL操作Parquet格式的数据

1.关于SparkSQL操作Parquet因为Parquet文件中包含了Schema信息，也就是说，Parquet文件是Schema自解释的，因此SparkSQL操作Parquet时，不需要指定Schema

bit1129·2015-04-14 18:00

【Spark九十二】Spark SQL操作Parquet格式的数据

1.关于SparkSQL操作Parquet因为Parquet文件中包含了Schema信息，也就是说，Parquet文件是Schema自解释的，因此SparkSQL操作Parquet时，不需要指定Schema

bit1129·2015-04-14 18:00

【Spark九十二】Spark SQL操作Parquet格式的数据

1.关于SparkSQL操作Parquet因为Parquet文件中包含了Schema信息，也就是说，Parquet文件是Schema自解释的，因此SparkSQL操作Parquet时，不需要指定Schema

bit1129·2015-04-14 18:00

【Hive十四】Hive读写Parquet格式的数据

1.原始数据hive>select*fromword;OK1MSN10QQ100Gtalk1000Skype2.创建保存为parquet格式的数据表hive>CREATETABLEparquet_table

axxbc123·2015-04-14 18:51

【Hive十三】Hive读写Parquet格式的数据

1.原始数据hive>select*fromword; OK 1MSN 10QQ 100Gtalk 1000Skype 2.创建avro格式的数据表 hive>CREATETABLEparquet_table(ageINT,nameSTRING)STOREDASPARQUET; 3.数据表的描述 hive>describeparquet_table; hive>describe

bit1129·2015-04-14 18:00

【Hive十三】Hive读写Parquet格式的数据

1.原始数据hive>select*fromword; OK 1MSN 10QQ 100Gtalk 1000Skype 2.创建avro格式的数据表 hive>CREATETABLEparquet_table(ageINT,nameSTRING)STOREDASPARQUET; 3.数据表的描述 hive>describeparquet_table; hive>describe

bit1129·2015-04-14 18:00

【Hive十三】Hive读写Parquet格式的数据

1.原始数据hive>select*fromword; OK 1MSN 10QQ 100Gtalk 1000Skype 2.创建avro格式的数据表 hive>CREATETABLEparquet_table(ageINT,nameSTRING)STOREDASPARQUET; 3.数据表的描述 hive>describeparquet_table; hive>describe

bit1129·2015-04-14 18:00

从NSM到Parquet：存储结构的衍化

[-]数据摆放结构水平的行存储结构垂直的列存储结构混合型的存储结构Parquet参考资料为了优化MapReduce及MR之前的各种工具的性能，在Hadoop内建的数据存储格式外，又涌现了一批各种各样的存

myrainblues·2015-03-31 14:00

Dremel made simple with Parquet

http://lastorder.me/tag/parquet.htmlhttps://blog.twitter.com/2013/dremel-made-simple-with-parquet对于优化

bluejoe2000·2015-03-10 09:00

从NSM到Parquet：存储结构的衍化

如优化Hive性能的RCFile，以及配合Impala实现出GoogleDremel功能(类似甚至是功能的超集)的Parquet等。今天就来一起学习一下HDFS中数据存储的进

bluejoe2000·2015-03-10 09:00

Hive Parquet配置

parquet的配置主要包括：parquet.compressionparquet.block.sizeparquet.page.size等，详见：https://github.com/Parquet/

solari_bian·2015-01-30 22:55

Hive Parquet配置

parquet的配置主要包括：parquet.compressionparquet.block.sizeparquet.page.size等，详见：https://github.com/Parquet/

bhq2010·2015-01-30 22:00

推荐频道

parquet

Parquet数据存储格式

Parquet数据存储格式

Parquet表在spark与Impala间兼容性测试

Parquet_2. 在 Impala/Hive 中使用 Parquet 格式存储数据

Parquet_2. 在 Impala/Hive 中使用 Parquet 格式存储数据

Parquet_1. 使用谓词下推和映射来优化 Job

Parquet_1. 使用谓词下推和映射来优化 Job

Hive 数据倾斜 (Data Skew) 总结

Hive 数据倾斜 (Data Skew) 总结

SparkSQL学习笔记(二)DataSource

用Apache Spark进行大数据处理

大数据仓库－kudu

大数据仓库－kudu

大数据仓库－kudu

大数据仓库－kudu

spark1.2.0版本SparkSQL使用parquet类型注意事项

Spark SQL

sparkSQL学习

SparkSQL（二）

spark sql中将数据保存成parquet,json格式

ORCFILE,ParquetFile,CubeFile使用场景区别

列式存储 Parquet

Spark SQL之External DataSource外部数据源

Spark SQL之External DataSource外部数据源

深入分析Parquet列式存储格式

深入分析Parquet列式存储格式

drill1.0配置hive storage plugin及测试

探究 Parquet 生成方式(impala,hive都可以查询)MR程序访问(三)

探究 Parquet 生成方式(impala,hive都可以查询)分区(二)

探究 Parquet 生成方式(impala,hive都可以查询)(一)

Parquet 支持数据嵌套的列式数据存储格式

用Apache Spark进行大数据处理——第二部分：Spark SQL

用Apache Spark进行大数据处理——第二部分：Spark SQL

Spark之 Data storage 模块

分布式SQL数据库引擎基于Hadoop HDFS

分布式SQL数据库引擎基于Hadoop HDFS-王伟珣

Spark parquet merge metadata问题

Spark中配置Parquet参数

【Spark九十二】Spark SQL操作Parquet格式的数据

【Spark九十二】Spark SQL操作Parquet格式的数据

【Spark九十二】Spark SQL操作Parquet格式的数据

【Hive十四】Hive读写Parquet格式的数据

【Hive十三】Hive读写Parquet格式的数据

【Hive十三】Hive读写Parquet格式的数据

【Hive十三】Hive读写Parquet格式的数据

从NSM到Parquet：存储结构的衍化

Dremel made simple with Parquet

从NSM到Parquet：存储结构的衍化

Hive Parquet配置

Hive Parquet配置