E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
parquet
Parquet
数据存储格式
Parquet
是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目,最新的版本是1.8.0。
Dreammmming Time
·
2015-12-10 14:10
数据存储
数据存储
parquet
Parquet
数据存储格式
Parquet
是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目,最新的版本是1.8.0。
u014445499
·
2015-12-10 14:00
数据存储
Parquet
Parquet
表在spark与Impala间兼容性测试
一、背景目前市面上的大数据技术非常多,但苦了我们做方案的,到底哪家强呢?一方面也要去尊重客观事实,一方面要去满足客户期望,而当两者出现冲突的情况下,选择上就有点左右为难。针对sqlonhadoop类的组件,hive/Impala/spark-sql/presto,接触过一点,也做过部分的验证,结论暂时与客户所期望的有点出入,因此目前有点小纠结。之所以说是部分验证,因为这里头涉及到的方面还是非常之多
fishhunter
·
2015-12-10 13:56
impala
Parquet
_2. 在 Impala/Hive 中使用
Parquet
格式存储数据
在之前我们已经介绍过在Hive中使用Avro,
Parquet
格式来存储数据。今天我们将介绍一下如何在Impala中使用
Parquet
格式。
Mike_H
·
2015-12-03 03:31
Hive
Parquet
Impala
Parquet
_2. 在 Impala/Hive 中使用
Parquet
格式存储数据
在之前我们已经介绍过在Hive中使用Avro,
Parquet
格式来存储数据。今天我们将介绍一下如何在Impala中使用
Parquet
格式。
Mike_H
·
2015-12-03 03:31
Hive
Parquet
Impala
Parquet
_1. 使用谓词下推和映射来优化 Job
文章中涉及的Github源码:https://github.com/Hanmourang/hiped2/blob/master/src/main/java/hip/ch3/
parquet
/AvroProjectionParquetMapReduce.java
Mike_H
·
2015-12-03 02:22
Hive
Pig
Parquet
Parquet
_1. 使用谓词下推和映射来优化 Job
文章中涉及的Github源码:https://github.com/Hanmourang/hiped2/blob/master/src/main/java/hip/ch3/
parquet
/AvroProjectionParquetMapReduce.java
Mike_H
·
2015-12-03 02:22
Hive
Pig
Parquet
Hive 数据倾斜 (Data Skew) 总结
转载本篇文章主要是为了介绍接下来的HiveJoin优化和
Parquet
谓词下推功能。
Mike_H
·
2015-12-02 14:07
Hive
Parquet
Hadoop
优化
Hive 数据倾斜 (Data Skew) 总结
转载本篇文章主要是为了介绍接下来的HiveJoin优化和
Parquet
谓词下推功能。
Mike_H
·
2015-12-02 14:07
Hive
Parquet
Hadoop
优化
SparkSQL学习笔记(二)DataSource
Load/Save方法:最简单的格式,默认为
parquet
(列式存储格式,自身包含表结构和表数据),可以在spark.sql.sources.default里配置。
南有乔木不可休
·
2015-11-24 13:50
spark
用Apache Spark进行大数据处理
通过SparkSQL,可以针对不同格式的数据执行ETL操作(如JSON,
Parquet
,数据库)然后完成特定的查询操作。在这一文章系列的第二篇中,我们将讨论SparkS
see_you_again
·
2015-11-23 09:00
Spark大数据处理
大数据仓库-kudu
按照cloudera的想法,kudu的出现是为了解决,hbase,
parquet
不能兼顾分析和更新的需求,所以需要一个新的存储引擎可以同时支持高吞吐的分析应用以及少量更新的应用。
jiezhu2007
·
2015-11-21 16:00
kudu
hadoop
大数据仓库-kudu
按照cloudera的想法,kudu的出现是为了解决,hbase,
parquet
不能兼顾分析和更新的需求,所以需要一个新的存储引擎可以同时支持高吞吐的分析应用以及少量更新的应用。
jiezhu2007
·
2015-11-21 16:00
hadoop
kudu
大数据仓库-kudu
按照cloudera的想法,kudu的出现是为了解决,hbase,
parquet
不能兼顾分析和更新的需求,所以需要一个新的存储引擎可以同时支持高吞吐的分析应用以及少量更新的应用。
jiezhu2007
·
2015-11-21 16:00
kudu
hadoop
大数据仓库-kudu
按照cloudera的想法,kudu的出现是为了解决,hbase,
parquet
不能兼顾分析和更新的需求,所以需要一个新的存储引擎可以同时支持高吞吐的分析应用以及少量更新的应用。
jiezhu2007
·
2015-11-21 08:00
大数据
仓库
kudu
spark1.2.0版本SparkSQL使用
parquet
类型注意事项
在Spark1.2.0版本中是用
parquet
存储类型时注意事项: sql语句: select * from order_created_dynamic_partition_
parquet
;
·
2015-11-12 23:51
spark
Spark SQL
它可以从原有的RDD创建,也可以是
Parquet
文件,最重要的是它可以支持用HiveQL从hive里面读取数据。 下面是一些案例,可以在Spark sh
·
2015-11-11 19:24
spark
sparkSQL学习
SchemaRDD的创建可以来自于已存在的RDD或
Parquet
文件,或JSON数据集
wangqiaowqo
·
2015-11-09 15:00
SparkSQL(二)
SparkSQL可以处理多种类型的数据,本文就简单的以
Parquet
、Json、RelationDatabase为主线介绍下SparkSQL的处理过程。
u010376788
·
2015-11-04 20:00
spark
sparksql
spark sql中将数据保存成
parquet
,json格式
val df = sqlContext.load("/opt/modules/spark1.3.1/examples/src/main/resources/people.json","json") df.select("name","age").save("/opt/test/namesAndAges.js
·
2015-10-31 11:05
spark
ORCFILE,ParquetFile,CubeFile使用场景区别
OLAP分析场景 ORC File
Parquet
File Cube File Full scan one dimension Fast
·
2015-10-31 11:03
File
列式存储
Parquet
本文涉及的
Parquet
的一些基本原理,可以参考网页:http://www.infoq.com/cn/articles/in-depth-analysis-of-
parquet
-column-storage-format
jhonephone
·
2015-10-16 11:00
Spark SQL之External DataSource外部数据源
这使得SparkSQL支持了更多的类型数据源,如json,
parquet
,avro,csv格式。
白乔
·
2015-10-02 11:47
大数据技术与系统
Spark SQL之External DataSource外部数据源
这使得SparkSQL支持了更多的类型数据源,如json,
parquet
,avro,csv格
bluejoe2000
·
2015-10-02 11:00
深入分析
Parquet
列式存储格式
深入分析
Parquet
列式存储格式
Parquet
是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目,最新的版本是
XZC.Log
·
2015-09-09 15:00
深入分析
Parquet
列式存储格式
Parquet
是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目,最新的版本是1.8.0。
梁堰波
·
2015-08-07 00:00
drill1.0配置hive storage plugin及测试
storage plugin及测试 drill,hive 截止到目前本博客发布前,apache drill最新发布版本是1.0.0,对与此版本的数据源支持和文件格式的支持: avro
parquet
duguyiren3476
·
2015-08-06 20:00
hive
snappy
sequenceFile
drill
探究
Parquet
生成方式(impala,hive都可以查询)MR程序访问(三)
1.我们已经生成相关的
Parquet
文件拉,现在我们是否可以用MR程序来读取呢,那是当然可以的拉2.废话不多说,直接上代码拉,MapReduce主函数,为了方便处理,只有Map程序,无ReducepublicclassBasketParquetWriterAppextendsConfiguredimplementsTool
skyim
·
2015-07-16 17:00
hive
impala
Parquet
探究
Parquet
生成方式(impala,hive都可以查询)分区(二)
1.可以先参考第一篇文章http://my.oschina.net/skyim/blog/4791592.分区的好处(例如按年月日生成表)3.可以参考第一篇文章(先建表)区别在于PARTITIONEDBY(yearINT,monthINT,dayINT)createexternaltableparquet_example1( basketidbigint, productidbigint, qua
skyim
·
2015-07-16 12:00
hive
impala
Parquet
探究
Parquet
生成方式(impala,hive都可以查询)(一)
1.
Parquet
的优点我就不说拉(列存储和良好的压缩),列存储可以参考如下链接2.主要是项目中用到的存储3.第一步,首先在hive中创建一张表,操作表语句如下createexternaltableparquet_example
skyim
·
2015-07-16 10:00
hive
impala
Parquet
Parquet
支持数据嵌套的列式数据存储格式
Parquet
是Twitter内部的列式存储,目前开源并将代码托管在
parquet
-format上
Parquet
是一种供Hadoop使用的列式存储格
cloud-coder
·
2015-06-17 10:00
Data
storage
nested
Parquet
列式存储
columnar
用Apache Spark进行大数据处理——第二部分:Spark SQL
通过SparkSQL,可以针对不同格式的数据执行ETL操作(如JSON,
Parquet
,数据库)然后完成特定的查询操作。在这一文章系列
Srini Penchikala
·
2015-06-12 00:00
用Apache Spark进行大数据处理——第二部分:Spark SQL
通过SparkSQL,可以针对不同格式的数据执行ETL操作(如JSON,
Parquet
,数据库)然后完成特定的查询操作。在这一文章系列
Srini Penchikala
·
2015-06-12 00:00
Spark之 Data storage 模块
大纲数据压缩:霍夫曼,
parquet
数据读取:数据解压缩:bitbyte操作数据传输ObjectAssemble/FMS ---Dremel论文
yunlong34574
·
2015-06-05 14:00
分布式SQL数据库引擎基于Hadoop HDFS
GPFXExternalTables接口,使用SQL透明访问Hadoop上各类数据-HDFS,HBase,Hive,
Parquet
等等,还支持SQL透明访问NFS,HTTP其他格式的数据(可自定义)HAWQ
李航421
·
2015-05-28 09:00
sql
数据库
hadoop
分布式
hdfs
引擎
分布式SQL数据库引擎基于Hadoop HDFS-王伟珣
GPFXExternalTables接口,使用SQL透明访问Hadoop上各类数据-HDFS,HBase,Hive,
Parquet
等等,还支持SQL透明访问NFS,HTTP其他格式的数据(可自定义)HAWQ
李航421
·
2015-05-14 13:00
hadoop
分布式
引擎
SQL数据库
HDFS王伟珣
Spark
parquet
merge metadata问题
在sparksql1.2.x当中存在一个问题:当我们尝试在一个查询中访问多个
parquet
文件时,如果这些
parquet
文件中的字段名和类型是完全一致的、只是字段的顺序不一样,例如一个文件中是namestring
bhq2010
·
2015-05-05 13:00
sql
spark
异常
metadata
Parquet
Spark中配置
Parquet
参数
Parquet
的参数,例如blocksize、压缩格式等,需要sparkcontex对象上调用hadoopConfiguration.set()来设置。
bhq2010
·
2015-05-04 10:00
hadoop
spark
Parquet
【Spark九十二】Spark SQL操作
Parquet
格式的数据
1.关于SparkSQL操作
Parquet
因为
Parquet
文件中包含了Schema信息,也就是说,
Parquet
文件是Schema自解释的,因此SparkSQL操作
Parquet
时,不需要指定Schema
bit1129
·
2015-04-14 18:00
spark
【Spark九十二】Spark SQL操作
Parquet
格式的数据
1.关于SparkSQL操作
Parquet
因为
Parquet
文件中包含了Schema信息,也就是说,
Parquet
文件是Schema自解释的,因此SparkSQL操作
Parquet
时,不需要指定Schema
bit1129
·
2015-04-14 18:00
spark
【Spark九十二】Spark SQL操作
Parquet
格式的数据
1.关于SparkSQL操作
Parquet
因为
Parquet
文件中包含了Schema信息,也就是说,
Parquet
文件是Schema自解释的,因此SparkSQL操作
Parquet
时,不需要指定Schema
bit1129
·
2015-04-14 18:00
spark
【Hive十四】Hive读写
Parquet
格式的数据
1.原始数据hive>select*fromword;OK1MSN10QQ100Gtalk1000Skype2.创建保存为
parquet
格式的数据表hive>CREATETABLEparquet_table
axxbc123
·
2015-04-14 18:51
Hive
Parquet
【Hive十三】Hive读写
Parquet
格式的数据
1.原始数据hive>select*fromword; OK 1MSN 10QQ 100Gtalk 1000Skype 2.创建avro格式的数据表 hive>CREATETABLEparquet_table(ageINT,nameSTRING)STOREDASPARQUET; 3.数据表的描述 hive>describeparquet_table; hive>describe
bit1129
·
2015-04-14 18:00
hive
【Hive十三】Hive读写
Parquet
格式的数据
1.原始数据hive>select*fromword; OK 1MSN 10QQ 100Gtalk 1000Skype 2.创建avro格式的数据表 hive>CREATETABLEparquet_table(ageINT,nameSTRING)STOREDASPARQUET; 3.数据表的描述 hive>describeparquet_table; hive>describe
bit1129
·
2015-04-14 18:00
hive
【Hive十三】Hive读写
Parquet
格式的数据
1.原始数据hive>select*fromword; OK 1MSN 10QQ 100Gtalk 1000Skype 2.创建avro格式的数据表 hive>CREATETABLEparquet_table(ageINT,nameSTRING)STOREDASPARQUET; 3.数据表的描述 hive>describeparquet_table; hive>describe
bit1129
·
2015-04-14 18:00
hive
从NSM到
Parquet
:存储结构的衍化
[-]数据摆放结构水平的行存储结构垂直的列存储结构混合型的存储结构
Parquet
参考资料为了优化MapReduce及MR之前的各种工具的性能,在Hadoop内建的数据存储格式外,又涌现了一批各种各样的存
myrainblues
·
2015-03-31 14:00
Dremel made simple with
Parquet
http://lastorder.me/tag/
parquet
.htmlhttps://blog.twitter.com/2013/dremel-made-simple-with-
parquet
对于优化
bluejoe2000
·
2015-03-10 09:00
从NSM到
Parquet
:存储结构的衍化
如优化Hive性能的RCFile,以及配合Impala实现出GoogleDremel功能(类似甚至是功能的超集)的
Parquet
等。今天就来一起学习一下HDFS中数据存储的进
bluejoe2000
·
2015-03-10 09:00
Hive
Parquet
配置
parquet
的配置主要包括:
parquet
.compressionparquet.block.sizeparquet.page.size等,详见:https://github.com/
Parquet
/
solari_bian
·
2015-01-30 22:55
Web/数据/云计算
Hive
Parquet
配置
parquet
的配置主要包括:
parquet
.compressionparquet.block.sizeparquet.page.size等,详见:https://github.com/
Parquet
/
bhq2010
·
2015-01-30 22:00
上一页
15
16
17
18
19
20
21
22
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他