E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
textFile
carbondata 编译部署
简介carbondata是华为开源的一种数据格式(如
textfile
,parquet,ORC……),号称实现大数据即席查询秒级响应。支持hadoop列式存储,文件格式,支持索引、压缩以及解编码等。
pholien
·
2019-12-14 12:52
rdd实现wordcount
方法将rdd中每一个元素按空格分割并铺平,再通过map方法组成元组,最后通过reduceByKey进行词频统计,需要注意的是flatMap方法是先执行map方法在执行flat方法,代码如下:rdd=sc.
textFile
藤风
·
2019-12-14 07:00
数仓--Hive-面试之Hive支持的文件格式和压缩格式及各自特点
Hive中的文件格式1-
TEXTFILE
文本格式,Hive的默认格式,数据不压缩,磁盘开销大、数据解析开销大。
李小李的路
·
2019-12-13 20:59
Hive调优之数据篇
文件格式Hive支持
TEXTFILE
,SEQUENCEFILE,AVRO,RCFILE,ORC和PARQUET等6种文件格式。
长较瘦
·
2019-12-12 14:53
Spark 基础 —— 创建 DataFrame 的三种方式
_valpeopleRDD=spark.sparkContext.
textFile
("README.md")valschemaString="nameage"valfields=schemaString.split
Lemo_wd
·
2019-12-07 15:00
checkpoint
scala>sc.
textFile
("hdfs://hadoop21:9000/wc/").flatMap(_.split("")).map((_,1)).reduceByKey(_+_)res10:org.apache.spark.rdd.RDD
lehuai
·
2019-12-07 14:12
scala隐式转换实现reduceByKey
先看下spark实现wordcount的方式vallines=sc.
textFile
(...)valwords=lines.flatMap(_.split("")).map((_,1)).reduceByKey
浪阳
·
2019-12-03 21:27
==Spark系列(九)DAGScheduler工作原理
www.cnblogs.com/jianyuan/p/Spark%E7%B3%BB%E5%88%97%E4%B9%8BDAGScheduler%E5%B7%A5%E4%BD%9C%E5%8E%9F%E7%90%86.html1、
textFile
葡萄喃喃呓语
·
2019-12-01 12:55
Hive的体系结构详细讲解
Hadoop系统中常用的文件存储格式有支持文本的
TextFile
和支持二进制的SequenceFile等,它们都属于行存储方式。Faceb
好程序员特训营
·
2019-11-30 22:29
上线hive表为什么要设置为
textfile
格式
准备从今天开始写技术博客~在平时的工作中有碰到做SOA开发的同事要求给到的结果表格式为
textfile
。前些时间公司里是不允许正式表设为
textfile
格式的。
Amyfeelily
·
2019-11-29 03:02
Spark RDD编程基础
一、数据读写(1)从文件系统加载数据创建RDD①本地文件:sc.
textFile
("file:///data/spark/buyer_favorite")②HDFS文件:sc.
textFile
("hdfs
雨季丶
·
2019-11-27 17:44
大数据技术
spark
RDD
精通awk系列(6):awk命令结构和awk语法结构
回到:Linux系列文章Shell系列文章Awk系列文章awk命令行结构和语法结构awk命令行结构awk[--]program-
textfile
...(1)awk-fprogram-file[--]file
骏马金龙
·
2019-11-23 15:00
textView类似
textFile
的提示语
所谓placeholder就比如用户看到一个输入框,然后输入框里面一般会有几个浅灰色的文字,提示用户这个地方是用来写什么内容的,当用户开始输入的时候,这几个文字就自然而然地消失了。好了,闲话不多说,正式开始:本人通过Main.Storyboard拖textView的控件的:首先,你要创建一个自定义类,Main.Storyboard的控制器遵守自定义类名在ViewDidload方法遵守TextVie
游子_IT
·
2019-11-03 04:41
IQKeyboardManager键盘管理的使用
IQKeyboardManager比较强大的对
textFile
、textView的键盘管理。
我卜配彡
·
2019-11-03 00:22
Start Developing iOS Apps (Swift)->将UI连接到代码(一)
处理用户在
textfile
raingu24
·
2019-10-30 21:31
Hive的数据存储格式
Hive支持的存储格式有:TextFileSequenceFileRCFileAvroFilesORCFilesParquet注:Hive默认的格式为
TextFile
,可以通过sethive.default.fileformat
BabyFish13
·
2019-10-10 17:59
Hadoop
#
Hive
Hive的数据存储格式
Hive支持的存储格式有:TextFileSequenceFileRCFileAvroFilesORCFilesParquet注:Hive默认的格式为
TextFile
,可以通过sethive.default.fileformat
BabyFish13
·
2019-10-10 17:59
Hadoop
#
Hive
spark 内核源码剖析八:DAGScheduler和TaskScheduler
Job触发流程:#wordcount程序vallines=sc.
textFile
()valwords=lines.flatMap(line=>line.split(""))valpairs=words.map
雪飘千里
·
2019-10-08 11:42
spark基础--rdd的生成
通过.
textFile
可以通过文件读取项目路径和hdfs文件路径*makeRDD和parallelize第二个参数为处理的并行度数量不给定时,默认值为通过conf.getInt("spark.default.parallelis
xiao酒窝
·
2019-09-21 22:15
rdd
spark
Spark
Hive文件存储格式
hive文件存储格式包括以下几类:1、
TEXTFILE
2、SEQUENCEFILE3、RCFILE4、ORCFILE(0.11以后出现)-支持有限5、Parquet-主要是用在ClouderaImpala
BabyFish13
·
2019-08-18 16:43
Hadoop
#
Hive
#
Hdfs
Hive表建立分区外部表并且添加每天的增量数据为分区
1、将文件(
textFile
)上传到hd
ZhuangYQ丶
·
2019-08-08 15:16
大数据学习
Hive学习
Spark
SparkSQL中SQL风格和DSL风格的使用
准备工作读取文件并转换为DataFrame或DataSetvallineRDD=sc.
textFile
("hdfs://node-01:9000/person.txt").map(_.split("")
MannerXu
·
2019-08-07 22:13
Spark
Hive文件格式-
textfile
,sequencefile,rcfile,orcfile, Parquet
目录概述hive文件存储格式包括以下几类一、
TEXTFILE
二、SEQUENCEFILE三、RCFile文件格式概述历史RCFile使用基于行存储的优点和缺点基于列存储的优点和缺点源码分析1.Writer2
静静七分醉
·
2019-08-04 16:43
Hive
Sqoop
间进行数据传递的工具,传递是双向的,import和export是相对于Hadoop来说的sqoophelp如下:展示数据库可用的库;import:1):从关系数据库导入到HDFS中;默认存储就是as-
textfile
乔一波一
·
2019-07-31 15:29
pyspark 运行WordCount出现错误 已解决
textFile
=sc.
textFile
("data/test.txt")stringRDD=
textFile
.flatMap(lambdaline:line.split(""))countsRDD=stringRDD.map
qclonle
·
2019-07-23 20:57
Spark | RDD编码
创建valrdd=sc.parallelize(Array(1,2,3,4),4)rdd.count()rdd.foreach(print)rdd.foreach(println)valrdd=sc.
textFile
icebreakeros
·
2019-07-06 14:08
hive的存储格式
TextFile
、RCFile、ORC
hived的存储格式
TextFile
、RCFile、ORC说明:所谓的存储格式就是hive的数据在hdfs上存放的具体方式;通过下面的文件我们看出hive的存储格式是一共有六种,每一种都是由自己的规则。
lds_include
·
2019-07-01 10:57
大数据
Hive
Linux指令总结
命令:catcat-ntextfile1>
textfile
2把
textfile
1的文档内容加上行号后输入
textfile
2这个文档里cat-btextfile1
textfile
2>>
textfile
3把
猿球崛起3
·
2019-06-28 10:40
linux
linux
好程序员大数据教程分享
TextFile
分区问题
.partitions.length,在spark-shell中没有指定分区的个数获取的是默认分区数,除了这个外parallelize方法可以使用,指定几个分区就会有几个分区出现valrdd1=sc.
textFile
好程序员IT
·
2019-06-27 16:26
大数据培训
好程序员
TextFile
Spark中Cache与Persist的巅峰对决
Cache的产生背景我们先做一个简单的测试读取一个本地文件做一次collect操作:valrdd=sc.
textFile
("file:///home/hadoop/data/input.txt")valrdd
Stitch_x
·
2019-06-24 08:47
spark
spark
spark 常见的转化操作和行动操作
一、基本RDD1、转化操作(1)map()、flatMap()、filter()scala>valline=sc.
textFile
("/Users/Desktop/log.txt")line:org.apache.spark.rdd.RDD
洪福齐天007
·
2019-06-23 20:50
Spark
Spark Core:数据输入输出
文件对象文件输入输出保存对象文件查看对象文件hadoop输入输出从hadoop读取保存到hadoopMySQL的输入输出从MySQL读取数据查看MySQL中数据文本文件输入输出读取文本文件scala>sc.
textFile
drl_blogs
·
2019-06-19 16:20
#
Spark
Spark每日半小时(20)——文件压缩
我们已经提过,Spark原生的输入方式(
textFile
和sequenceFile)可以自动处理一些类型的压缩。在读取压缩后的数据时,一些压缩编解码器可以推测压缩类型。
DK_ing
·
2019-06-19 15:25
#
大数据——Spark每日半小时
#
Spark每日半小时
Spark每日半小时(20)——文件压缩
我们已经提过,Spark原生的输入方式(
textFile
和sequenceFile)可以自动处理一些类型的压缩。在读取压缩后的数据时,一些压缩编解码器可以推测压缩类型。
DK_ing
·
2019-06-19 15:25
#
大数据——Spark每日半小时
#
Spark每日半小时
Spark每日半小时(17)——文本文件
1、读取文本文件只需要使用文件路径作为参数调用SparkContext中的
textFile
()函数,就可以读取一个文本文件,如下例。如果要控制分区数的话,可以指定minPartitions。
DK_ing
·
2019-06-16 19:04
#
大数据——Spark每日半小时
#
Spark每日半小时
Spark每日半小时(17)——文本文件
1、读取文本文件只需要使用文件路径作为参数调用SparkContext中的
textFile
()函数,就可以读取一个文本文件,如下例。如果要控制分区数的话,可以指定minPartitions。
DK_ing
·
2019-06-16 19:04
#
大数据——Spark每日半小时
#
Spark每日半小时
spark快速大数据分析之学习记录(三)
/bin/pyspark#运行spark运行截图:3.运行python语句shell命令:>>>lines=sc.
textFile
("README.md")>>>l
KYkankankan
·
2019-06-16 18:23
Spark
详解如何使用Spark和Scala分析Apache访问日志
/bin/spark-shellscala>valtextFile=sc.
textFile
("README.md")//创建一个指向README.md
解道JDON
·
2019-06-12 09:11
大话Spark(6)-源码之SparkContext原理剖析
我们的每一个spark个程序都需要先创建SparkContext,接着调用SparkContext的方法,比如说sc.
textFile
(filepath),程序最后也会调用sc.stop()来退出。
anjujie7320
·
2019-06-11 23:00
大数据
scala
Hive存储格式跟压缩对比(各种技术都在这里)
存储:1
TextFile
2SequenceFile3RCFile4OrcFile5Parquet6Avro6种性能测试
textfile
默认格式;存储方式为行存储;磁盘开销大数据解析开销大;但使用这种方式
Hellooorld
·
2019-06-01 13:39
bigdata
HIVE中常见文件存储格式比较
--
textfile
文件格式CREATETABLE`test_
textfile
`(`id`STRING,…,`desc`STRING)ROWFORMATDELIMITEDFIELDSTERMINATEDBY
henrrywan
·
2019-05-31 16:21
Hive
Spark每日半小时(3)——Spark数据抽象RDD
JavaRDDlines=sc.
textFile
("README.md");创建出来后,RDD支持
DK_ing
·
2019-05-30 22:15
#
大数据——Spark每日半小时
#
Spark每日半小时
Spark每日半小时(3)——Spark数据抽象RDD
JavaRDDlines=sc.
textFile
("README.md");创建出来后,RDD支持
DK_ing
·
2019-05-30 22:15
#
大数据——Spark每日半小时
#
Spark每日半小时
bert-as-service的使用
谷歌训练的bert使用的是tensorflow,若想使用GPU加速,需要安装相应的驱动和软件,并使用tensorflow-gpu代替常规tensorflowpython包,需要的软件及安装步骤见附件;
textfile
温柔以待0617
·
2019-05-23 18:01
向量编码
sparkcore进行wordcount词频统计
准备一份数据/home/admin/data/helloworld.txthelloworldhellohelloworldwelcomescala>valwc=sc.
textFile
("file://
大数据修行
·
2019-05-20 16:13
将本地文件导入到Hive表中(支持
TEXTFILE
、ORC 等存储格式)
1、hive表格式为
TEXTFILE
由于
TEXTFILE
格式没有对数据进行压缩,因此直接load即可。
HappyRocking
·
2019-05-13 18:49
大数据/hive
行式存储 与 列式存储
网图自己理解如图table表分别以行、列存储以行存储时(
TextFile
),所有的数据都在一块优点:select*fromtable时效率很快,但实际应用中一般不会select*缺点:当selecta,
喵星人ZC
·
2019-04-20 00:16
Hive中的数据类型以及存储格式
文章目录一、数据类型1、基本数据类型2、复杂数据类型二、存储格式1、
textfile
2、SequenceFile3、RCFile4、ORCFile5、Parquet三、数据格式一、数据类型1、基本数据类型
TheRa1nMan
·
2019-04-19 20:15
Hive
Hive文件格式之
textfile
,sequencefile和rcfile的使用与区别详解
hive在创建表时默认存储格式是
textfile
,或者显示自定义的storedastextfile。
itcats_cn
·
2019-04-10 13:00
大数据
大数据里的存储格式
hive里的存储格式hive里默认存储是textfilehive(default)>sethive.default.fileformat;hive.default.fileformat=
TextFile
夜古诚
·
2019-04-06 16:38
hadoop
上一页
9
10
11
12
13
14
15
16
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他