E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sequencefile
Hadoop Outline Part 4 (I/O-
SequenceFile
/MapFile)
1.提供二进制key-value结构,来存储流数据,便于map-red操作 2.可以把小文件压缩到
SequenceFile
,这样可以提高性能,减少存储空间。
woodo
·
2014-09-01 23:00
sequence
MapFile
kmeans job eclipse
从92行开始,脚本完成了一系列操作:提取语料库中的文本保存到指定目录,把指定目录的文件转换为
sequencefile
,一气呵成!
LANWENBING
·
2014-08-22 14:00
hadoop
Mahout
kmeans
基于Hadoop
Sequencefile
的小文件解决方案
小文件是指文件size小于HDFS上block大小的文件。这样的文件会给Hadoop的扩展性和性能带来严重问题。首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果有1000 0000个小文件,每个文件占用一个block,则namenode大约需要2G空间。如果存储1亿个文件,则namenode需要20G空间。这样namenode内存容量严重
jiumoji
·
2014-08-21 11:00
hive 压缩策略
Hive使用的是Hadoop的文件系统和文件格式,比如TEXTFILE,
SEQUENCEFILE
等。
乡里伢崽
·
2014-08-15 15:00
hive
hive学习 hive中的表
storedas存储格式(testfile/
sequencefile
/rcfile)hive中的表分为内部表和外部表,内部表认为是数据完整的,删除表时也会删除表的数据,而外部表不会删除表的数据,只会删除表的元数据
hao707822882
·
2014-08-13 14:00
hive
hive rcfile存储格式
Hive的三种文件格式:TEXTFILE、
SEQUENCEFILE
、RCFILE中,TEXTFILE和
SEQUENCEFILE
的存储格式都是基于行存储的,RCFILE是基于行列混合的思想,先按行把数据划分成
年华似水
·
2014-08-05 16:32
hive相关
hive rcfile存储格式
Hive的三种文件格式:TEXTFILE、
SEQUENCEFILE
、RCFILE中,TEXTFILE和
SEQUENCEFILE
的存储格式都是基于行存储的,RCFILE是基于行列混合的思想,先按行把数据划分成
czw698
·
2014-08-05 16:00
TextFile SequencFile性能对比
首先所有的输入格式都继承FileInputFormat,对于TextFile和
SequenceFile
有对应的TextInputFormat和SequenceFileInputFormat。
r7raul
·
2014-08-04 15:37
hadoop
hive
sequenceFile
textFile
TextFile SequencFile性能对比
首先所有的输入格式都继承FileInputFormat,对于TextFile和
SequenceFile
有对应的TextInputFormat和SequenceFileInputFormat。
r7raul
·
2014-08-04 15:37
hadoop
hive
TextFile
SequenceFileRecordReader中的文件位移同步函数
IOException { Path path = split.getPath(); FileSystem fs = path.getFileSystem(conf); this.in = new
SequenceFile
.Reader
cloudeagle_bupt
·
2014-07-30 22:00
sequence
SequenceFileRecordReader中的文件位移同步函数
IOException { Path path = split.getPath(); FileSystem fs = path.getFileSystem(conf); this.in = new
SequenceFile
.Reader
cloudeagle_bupt
·
2014-07-30 22:00
sequence
hadoop
SequenceFile
介绍 大数据 存储
SequenceFile
是一个由二进制序列化过的key/value的字节流组成的文本存储文件。
r7raul
·
2014-07-30 17:08
hadoop
sequenceFile
hadoop
SequenceFile
介绍 大数据 存储
SequenceFile
是一个由二进制序列化过的key/value的字节流组成的文本存储文件。
r7raul
·
2014-07-30 17:08
hadoop
SequenceFile
Hive学习笔记之--Hive 高级编程<转>
第一部分:产生背景产生背景为了满足客户个性化的需求,Hive被设计成一个很开放的系统,很多内容都支持用户定制,包括:•文件格式:TextFile,
SequenceFile
•内存中的数据格式:JavaInteger
yongjian_luo
·
2014-07-18 13:00
[Mahout] 为什么mahout需要
sequencefile
?
《Apache Mahout Cook》 第二章的标题是: Using Sequence Files – When and Why ? 看了半天也没看懂需要sequence file的原因。其实是因为我对hadoop不了解。 sequence file 是hadoop底下特有的一种key/value文件格式,而不是mahout自己特有的。而mahout
RangerWolf
·
2014-07-17 23:00
sequence
hive不同格式存储的性能测试
Hive的三种文件格式:TEXTFILE、
SEQUENCEFILE
、RCFILE中,TEXTFILE和
SEQUENCEFILE
的存储格式都是基于行存储的,RCFILE是基于行列混合的思想,先按行把数据划分成
乡里伢崽
·
2014-07-08 14:00
hive
Hive之partition
create EXTERNAL TABLE IF NOT EXISTS p( id STRING COMMENT 'id' ) partitioned by (seq int) STORED AS
SEQUENCEFILE
小网客
·
2014-06-25 17:00
partition
Hive之partition
create EXTERNAL TABLE IF NOT EXISTS p( id STRING COMMENT 'id' ) partitioned by (seq int) STORED AS
SEQUENCEFILE
小网客
·
2014-06-25 17:00
partition
Mahout: CVB
org.apache.hadoop.io.Text cannot be cast to org.apache.hadoop.io.IntWritable Solution: the new LDA requires
SequenceFile
ylzhj02
·
2014-06-19 18:00
Mahout
SequenceFile
读写操作
importorg.apache.hadoop.conf.Configuration; importorg.apache.hadoop.fs.Path; importorg.apache.hadoop.io.IOUtils; importorg.apache.hadoop.io.
SequenceFile
xiao_jun_0820
·
2014-05-30 20:00
hive文件压缩存储格式
hive文件存储格式包括以下几类:1.TEXTFILE2.
SEQUENCEFILE
3.RCFILE4.自定义格式 其中TEXTFILE为默认格式,建表时不指定,默认为这个格式,导入数据时会直接把数据文件拷贝到
雨一直下
·
2014-05-26 11:00
压缩
hive
存储
文件
hive文件压缩存储格式
hive文件存储格式包括以下几类: 1.TEXTFILE 2.
SEQUENCEFILE
3.RCFILE 4.自定义格式 其中TEXTFILE为默认格式
雨一直下
·
2014-05-26 11:00
压缩
hive
存储
文件
Mahout文本向量化
由于Mahout向量化算法要处理的文件是HadoopSequenceFile,需要将普通的文本文件转成
SequenceFile
格式,然后在向量化。
yueyedeai
·
2014-05-22 10:00
Mahout
Hive文件格式(RCFILE)
hive文件存储格式包括以下几类:1、TEXTFILE2、
SEQUENCEFILE
3、RCFILE4、ORCFILE(0.11以后出现)其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到
寂寞烟
·
2014-04-28 14:46
hive
记录Hadoop native libraries无法load的问题
今天遇到一个错误,在本地往Hadoop写文件的时候报了一个错误:
SequenceFile
doesn't work with GzipCodec without native-hadoop
san_yun
·
2014-04-10 19:00
hadoop
Hive导入
sequencefile
错误
总结原因:1.上传格式和建表格式不匹配自己上传的为txt文本,而创建表指定的fileformat是
sequencefile
。
u014388509
·
2014-04-09 18:00
hive
sequenceFile
sqoop 1.4.4 使用3
这次使用 压缩,因为压不压相差10倍呢,但是不使用
sequencefile
,因为打算在hive 中使用 RCFIle来存数据, --compress --compression-codec
tobyqiu
·
2014-04-03 08:00
sqoop
Hive文件格式
hive文件存储格式包括以下几类: 1、TEXTFILE 2、
SEQUENCEFILE
3、RCFILE 4、ORCFILE(0.11以后出现) 其中TEXTFILE为默认格式,建表时不指定默认为这个格式
·
2014-03-20 14:00
hive
hadoop汇总
1.
SequenceFile
用于合并大量小文件,CombineFileInputFormat把多个文件打包到一个split,来处理大量小文件。
xdark
·
2014-03-19 14:39
用户
HBase导出CSV格式数据的方法
在测试前,先创建了一张名为test的hbase表,它内容非常简单,就只有一行数据:HBaseexport工具导出的数据的格式是
sequencefile
。
samhacker
·
2014-03-16 11:00
hadoop
pig
hbase
yarn
csv
HDFS: Using HDFS API to append to a
SequenceFile
//fsandconfaresetupforHDFS,notasaLocalFileSystemseqWriter=
SequenceFile
.createWriter(fs,conf,newPath(hdfsPath
net19880504
·
2014-02-27 17:00
hadoop
LzoIndexer对TextFile格式文件的lzo压缩建立index索引
对于lzo压缩,常用的有LzoCodec和lzopCodec,可以对
sequenceFile
和TextFile进行压缩,但是有一点,对TextFile压缩后,mapred对压缩后的文件默认是不能够进行split
xiewenbo
·
2014-02-21 10:00
Hadoop之
SequenceFile
详解
SequenceFile
文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(FlatFile)。
shenxiaoming77
·
2014-02-17 22:00
Hadoop-
SequenceFile
code
写的例子: package mytest.mapreduce; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.
san_yun
·
2014-02-11 13:00
sequence
Hive学习笔记之--Hive 高级编程
第一部分:产生背景产生背景为了满足客户个性化的需求,Hive被设计成一个很开放的系统,很多内容都支持用户定制,包括:•文件格式:TextFile,
SequenceFile
•内存中的数据格式:JavaInteger
常飞梦
·
2014-02-07 14:56
Hive
Hive学习笔记之--Hive 高级编程
第一部分:产生背景产生背景为了满足客户个性化的需求,Hive被设计成一个很开放的系统,很多内容都支持用户定制,包括:•文件格式:TextFile,
SequenceFile
•内存中的数据格式:JavaInteger
lichangzai
·
2014-02-07 14:00
Impala 表使用
SequenceFile
文件格式(翻译)
Impala表使用
SequenceFile
文件格式ClouderaImpala支持使用
SequenceFile
数据文件。
weiqingbin
·
2014-01-20 15:00
hive的几种文件格式
hive文件存储格式1.textfiletextfile为默认格式存储方式:行存储磁盘开销大数据解析开销大压缩的text文件hive无法进行合并和拆分2.
sequencefile
二进制文件,以的形式序列化到文件中存储方式
oO寒枫Oo
·
2014-01-20 14:51
hive
hive的几种文件格式
hive文件存储格式1.textfiletextfile为默认格式存储方式:行存储磁盘开销大数据解析开销大压缩的text文件hive无法进行合并和拆分2.
sequencefile
二进制文件,以的形式序列化到文件中存储方式
lxpbs8851
·
2014-01-20 14:00
(6)Hive 高级编程——深入浅出学Hive
forum/blogPost/list/6220.html第一部分:产生背景产生背景•为了满足客户个性化的需求,Hive被设计成一个很开放的系统,很多内容都支持用户定制,包括:•文件格式:TextFile,
SequenceFile
jiangxuchen
·
2014-01-16 17:28
Hive
(6)Hive 高级编程——深入浅出学Hive
blogPost/list/6220.html第一部分:产生背景 产生背景 •为了满足客户个性化的需求,Hive被设计成一个很开放的系统,很多内容都支持用户定制,包括: •文件格式:TextFile,
SequenceFile
jiangxuchen
·
2014-01-16 17:00
Hive 高级编程??深入浅出学Hive
hive优化Hive体系结构Hive的原理 配套视频课程 第一部分:产生背景产生背景为了满足客户个性化的需求,Hive被设计成一个很开放的系统,很多内容都支持用户定制,包括:文件格式:TextFile,
SequenceFile
heuydjhg
·
2014-01-16 12:45
java
深入学习《Programing Hive》:数据压缩
Hive使用的是Hadoop的文件系统和文件格式,比如TEXTFILE,
SEQUENCEFILE
等。 在Hive中对中间数据或最终数据数据做压缩,是提高数据吞吐量和性能的一种手段。
skywhsq1987
·
2014-01-08 17:00
hive
深入学习《Programing Hive》:数据压缩
Hive使用的是Hadoop的文件系统和文件格式,比如TEXTFILE,
SEQUENCEFILE
等。 在Hive中对中间数据或最终数据数据做压缩,是提高数据吞吐量和性能的一种手段。
skywhsq1987
·
2014-01-08 09:00
hive
学习
programing
使用apache pig 处理chukwa收集的数据
公司使用chukwa收集每个服务器数据的,数据收集到的hdfs以后被写成
sequencefile
,想用pig处理这些数据,pig本身不支持这种数据结构的,查看chukwa源码发现,本身有带有
olive
·
2014-01-07 00:00
pig
chukwa
MapReduce的inputformat为CombineFileInputFormat的相关实验
上面文章分别介绍了面对大量小文件时,可以通过
SequenceFile
的方法来减少启动map的数量。其实,还可以通过使用CombineFileInputFormat来减少map的数量。
samhacker
·
2014-01-05 16:00
MapReduce的input为
SequenceFile
的相关实验
书接上文:解决小文件多的另外一个办法是使用
SequenceFile
。
samhacker
·
2014-01-05 11:00
hadoop深入学习之
SequenceFile
1.Hadoop’s
SequenceFile
SequenceFile
是 Hadoop 的一个重要数据文件类型,它提供key-value的存储,但与传统key-value存储(比如hash表,btree
san_yun
·
2013-12-24 21:00
sequence
基于HIVE文件格式的map reduce代码编写
我们的数据绝大多数都是在HIVE上,对HIVE的
SEQUENCEFILE
和RCFILE的存储格式都有利用,为了满足HIVE的数据开放,hiveclient的方式就比较单一,直接访问HIVE生成的HDFS
evo_steven
·
2013-12-23 16:11
hadoop
mapreduce
hive
基于HIVE文件格式的map reduce代码编写
我们的数据绝大多数都是在HIVE上,对HIVE的
SEQUENCEFILE
和RCFILE的存储格式都有利用,为了满足HIVE的数据开放,hiveclient的方式就比较单一,直接访问HIVE生成的HDFS
evo_steven
·
2013-12-23 16:00
上一页
3
4
5
6
7
8
9
10
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他