E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
textFile
Spark基础:(四)Spark 数据读取与保存
valinput=sc.
textFile
("...")也可以将多个完整的文本文件读取为一个pairRDD,其中键为文件名,值是文件内容。
雪泪寒飞起来
·
2018-08-04 21:48
Spark
Spark基础:(二)Spark RDD编程
用户可以通过两种方式创建RDD:(1)读取外部数据集====》sc.
textFile
(inputfile)(2)驱动器程序中对一个集合进行并行化===》sc.parallelize(List(“pandas
雪泪寒飞起来
·
2018-08-03 22:00
Spark
Spark基础:(一)初识Spark
PySparkShell进入我们的Spark目录中然后输入bin/pyspark(2):Scala中的Shellbin/spark-shell利用spark进行行数的统计例如:Scala版本的vallines=sc.
textFile
雪泪寒飞起来
·
2018-08-03 21:57
Spark
Hadoop生态圈之Spark
入门使用1、spark-shell进入spark模式,scala2、简单示例//载入本地txt文件varxmfile=sc.
textFile
("file://Users/liuxunming/Desktop
xun-ming
·
2018-07-31 08:09
Big
Data
Hadoop学习笔记
Spark实现分组取 top N 示例 —— Scala版
主要步骤:加载集合生成RDD(
textFile
)对RDD进行转换,将要排序的属性进行分离,生成新的RDD(map)对键进行分组,并在分组内基于第二步分离出的属性进行排序,并取排序结果的topN(groupByKey
* star *
·
2018-07-29 20:15
spark
C#高级篇-File 文件操作相关
:找当前程序的文件路径//绝对路径:加上文件完整的路径名FileInfofileInfo=newFileInfo(@"F:\unityproject\Csharp高级篇\文件操作\bin\Debug\
TextFile
1
祝你万事顺利
·
2018-07-29 17:11
spark常用算子-transformation
action:触发action时才会真正的执行action操作动作transformation常用算子类型如下:1.
textFile
(path:String):RDD[String]读取hd
无问昨天与明天
·
2018-07-25 00:19
Spark源码分析笔记(一)环境准备
已有环境hdfs+spark+yarn一.环境准备JDK+Scala+Spark二.WordCount单词计数进入spark-shellvallines=sc.
textFile
("..
gbsmd
·
2018-07-17 22:04
大数据
c#文件操作(读写)
使用FileInfo对文件进行操作//相对路径:就是找当前程序所在的路径FileInfofileInfo=newFileInfo("
TextFile
1.txt");//绝对路径:加上文件完整的路径名FileInfofileInfo2
qq_41056203
·
2018-07-11 16:21
CSharp
Spark Core 和 Spark SQL 实现分组取Top N(基于scala)
的数据测试数据格式:如上图,字段含义为,班级,学生姓名,分数下面我们通过一个Demo来实现各班级分数前三的学生姓名以及分数1、通过Sparkcore实现://读取测试数据保存为rddvalrddtext=sc.
textFile
wftt
·
2018-07-05 17:02
Spark从入门到转行
C++文件的输入/输出操作
文件的分类:与C语言一样,C++语言根据文件内容的数据格式,将文件分为两类:文本文件(
textfile
)与二进制文件(binaryfile)文本文件由字符序列组成,字符由字符编码
李娅彬lyb
·
2018-06-06 18:27
Impala表使用Parquet文件格式 2017年05月23日
准备了一个427144792行的
textfile
格式表t_item:[impale-host:21000]>selectcount(1)fromt_item;Query:selectcount(1)fromt_item
lin502
·
2018-06-06 10:28
大数据
Hive存储格式
textfile
转orcfile,并导出数据到另一hive集群
1.在源hive数据库,创建一张orcfile格式的临时表CREATETABLE`user_tmp`(`id`bigint,`created`string,`modified`string)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'STOREDASorcfile;2.在目标hive数据库,创建一张orcfile格式的正式表CREATETABLE`user`(`
Lyle-liang
·
2018-05-30 14:45
hive
Hadoop
spark初探踩坑集锦
以下是几个小问题:distFile=sc.
textFile
("hdfs://user/spark/test/201201.csv")distFile.map(lambdas:len(s)).reduce
viking714
·
2018-05-29 10:14
saprk
初探踩坑
集锦
spark rdd---checkpoint机制
先说cache.valrdd1=sc.
textFile
("hdfs://master:9000/wordcount/input")valrdd2=rdd1.flatMap(_.split("")).map
zzd0007
·
2018-05-27 17:52
spark
Sqoop导入Oracle所有表,没有报错,但失败
bin/sqoop-import-all-tables--connectjdbc:oracle:thin:@node1:1521:ORA--usernameTEST--passwordtest--as-
textfile
程裕强
·
2018-05-24 16:14
Hadoop基础教程
Sqoop导入mysql所有表到HDFS
#bin/sqoop-import-all-tables--connectjdbc:mysql://node1:3306/esdb--usernameroot--password123456--as-
textfile
程裕强
·
2018-05-24 15:29
Hadoop基础教程
hive中如何将rcfile,
textfile
,sequencefile,以及自定义存储格式的数据相互转换
hive中常见的文件存储格式也就3种,
textfile
,sequencefile,rcfile.实际开发中,很多公司都会采用自定义的存储格式来实现数据的特定存储。
牛大财有大才
·
2018-05-20 10:38
Hive编程和数据仓库
Spark-Scala常用函数
一、读取1、
textFile
()读取外部数据源2、map()遍历每条数据处理3、mapvalues(_+10)传入一个函数,类似于map方法,不过这里只是对元组中的value进行计算4、keysvaluesvalrdd1
DoveYoung8
·
2018-05-18 10:46
spark
Spark-Scala常用函数
一、读取1、
textFile
()读取外部数据源2、map()遍历每条数据处理3、mapvalues(_+10)传入一个函数,类似于map方法,不过这里只是对元组中的value进行计算4、keysvaluesvalrdd1
DoveYoung8
·
2018-05-18 10:46
spark
textfile
,sequencefile和rcfile的使用与区别详解
hive在创建表时默认存储格式是
textfile
,或者显示自定义的storedastextfile.很多人知道hive常用的存储格式有三种,
textfile
,sequencefile,rcfile.但是却说不清楚这三种格式的干什么用的
牛大财有大才
·
2018-05-14 00:23
Hive编程和数据仓库
Spark之本地模式与集群模式
如图:1.1.1加载本地数据sc.
textFile
("file:///home/hadoop/words.txt").flatMap(_.split(",")).
张行之
·
2018-05-07 22:36
大数据
Spark笔记整理(六):Spark高级排序与TopN问题揭密
如下:scala>valretRDD=sc.
textFile
("hdfs://ns1/hello").flatMap(_.split("")).map((_,1)).reduceByKey(_+_)scala
xpleaf
·
2018-04-28 11:50
大数据
Spark
Spark
Hive的几种常见压缩格式(ORC,Parquet,Sequencefile,RCfile,Avro)的读写查询性能测试
原始日志格式为
textfile
文件(标准JSON)。测试平台:公司Ambari测试平台,物理内存100G。测试方法:将
textfile
文件通过
人唯优
·
2018-04-26 12:13
数据仓库
《数据算法Hadoop/Spark》读书笔记1--二次排序
本章知识方法返回类型/描述
textFile
–>JavaRDD-JavaRDDorg.apache.spark.api.java.JavaSparkContext.t
王小禾
·
2018-04-16 16:28
spark
Spark编程进阶
共享变量:累加器和广播变量累加器:对数据进行聚合广播变量:高效分发较大的对象#在python中累加空行file=sc.
textFile
(inputFile)#创建Accumulator[Int]并初始化
Cincinnati_De
·
2018-04-11 17:51
个人日记
pyspark里面RDD的操作
并行集合(ParallelizedCollections):来自于分布式化的数据对象,比如用户自己键入的数据2.文件系统数据集:HadoopDatasets或文本文件,比如通过SparkContext.
textFile
Se_cure
·
2018-04-10 17:34
大数据
Hive文件存储格式查询性能的比较
总共支持以下几种文件存储格式:TextFileSequenceFileRCFileAvroFilesORCFilesParquetCustomINPUTFORMATandOUTPUTFORMAT这里,我们主要比较
TextFile
不清不慎
·
2018-04-09 21:37
Hive
大数据
Hive中数据压缩(企业优化)
hadoop下的lib1、实际就是对mapreduce过程中数据进行压缩2、hadoop支持的压缩格式3、在mapreduce中设置压缩4、在hive中设置压缩5、数据文件格式数据存储*按行存储数据:
TEXTFILE
Yukaola
·
2018-04-06 14:29
大数据开发
10、MySQL 8.0参考手册 4.5.5 mysqlimport - 数据导入程序
像这样调用mysqlimport:shell>mysqlimport[options]db_nametextfile1[
textfile
2...]对于在命令行上命名
dandan520520
·
2018-03-22 17:19
mysql8.0
Spark系列(二)Spark的数据读入
Spark读取文本文件--
textFile
()deftextFile(path:String,minPartitions:Int=defaultMinPartition
qq_27717921
·
2018-03-11 21:59
Spark
java.lang.NoClassDefFoundError: scala/Product$class
Unit={valconf=newSparkConf().setMaster("local").setAppName("wc")valsc=newSparkContext(conf)valtext=sc.
textFile
SunnyMore
·
2018-03-03 11:51
Hive文件格式(表STORE AS 的四种类型)
hive文件存储格式包括以下几类:1、
TEXTFILE
2、SEQUENCEFILE3、RCFILE4、ORCFILE(0.11以后出现)其中
TEXTFILE
为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到
星月的雨
·
2018-02-27 09:28
HIVE
Eclipse设置编码格式
下面我们将介绍一下使用Eclipse开发工具进行开发时,设置编码格式(以UTF-8格式为例)的步骤:1、设置工作空间编码格式在Window--》Preferences--》General--》Workspace下,面板
Textfile
☆初☆尘♂111111
·
2018-02-25 09:32
开发环境
scala筛掉空行可能遇到的问题
input.txt的内容:需求:计算其中各个级别的日志消息条数,即INFO、WARN、ERROR的条数,其中空白的地方为空行,不统计valinput=sc.
textFile
("file:///home/
ForeverLearn_notstop
·
2018-02-11 23:30
Scala
spark
greenplum使用PXF访问外部数据
下面介绍PXF访问Hive数据的方法一)PXF访问Hive数据PXFHive连接器支持多种hive的数据格式,包括
TextFile
,
kkx1988
·
2018-01-26 14:44
greenplum
hive表的存储格式 : ORC格式的使用
hive表的源文件存储格式有几类:1、
TEXTFILE
默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理。
生命不息丶折腾不止
·
2018-01-03 16:55
hive
BigData进阶--细说RDD,DataFrame,Dataset的区别
valconf=newSparkConf().setMaster("local").setAppName("testRead")valsc=newSparkContext(conf)valreadFile=sc.
textFile
杨士超
·
2017-12-26 18:10
♣【大数据】
Spark一些常用的数据处理方法-1.RDD计算
1.1读取文件至RDDvarrdd=sc.
textFile
("文件路径")varrddfromhdfs=sc.
textFile
("hdfs://hadoop-master-001:9000/hdfs文件路径
不羁之心
·
2017-12-21 15:59
Scala
Spark
大数据学习笔记(十)-Hive中的Storage format
1.Storageformat行存储:SEQUENCEFILE、
TEXTFILE
列存储:ORC、PARQUET、AVRO行列混合存储:RCFILE、2.行存储VS列存储行式存储:①一行数据一定在一个block
狂暴棕熊
·
2017-12-13 21:03
大数据
spark算子运算
运行sc.
textFile
(“hdfs://centos701:9000/wc”).flatMap(.split(”“)).map((,1)).reduceByKey(+).sortBy(_._2,false
lc900730
·
2017-12-10 13:04
spark
Spark算子[04]:map,flatMap,mapToPair,flatMapToPair
spark.txthadoophivesparkflumehdfssparkzookeeperstormflumehueflumehdfssparkhivehdfssparkmapscala版本:scala>vallines=sc.
textFile
生命不息丶折腾不止
·
2017-12-07 17:49
spark
spark 数据文件读写
本地文件系统的数据读写valtextFile=sc.
textFile
("file:///path")分布式文件系统HDFS的数据读写读取hdfs文件的语法执行上面语句后,就可以看到HDFS文件系统中(不是本地文件系统
起个什么呢称呢
·
2017-12-07 06:15
spark(3)-wordcount原理解析
1.WordCountExamples详解1.1WordCount流程示意图JavaRDDtextFile=sc.
textFile
("hdfs://...")
王小禾
·
2017-12-05 14:07
spark
WordCount的实例
scala>sc.
textFile
("hdfs://hadoop1:9000/sparktest/hello.txt").flatMap(line=>line.split("\t")).collectres8
CatherineHuangTT
·
2017-11-24 09:18
Spark学习随笔
java.io.IOException: No FileSystem for scheme: file spark hadoop
newSparkConf().setAppName("wordCount").setMaster("local")valsc=newSparkContext(conf)//读取我们的输入数据valinput=sc.
textFile
张月鹏
·
2017-11-23 16:12
spark
【十八掌●武功篇】第十掌:Hive之高级知识
十八掌●武功篇】第十掌:Hive之原理与优化【十八掌●武功篇】第十掌:Hive之高级知识【十八掌●武功篇】第十掌:Hive之安装过程实践一、Hive文件格式1、常见文件格式Hive中的文件格式常见的有:
textfile
鸣宇淳
·
2017-11-17 08:50
大数据技术
大数据技术
Spark - DAGScheduler
scala>sc.
textFile
("README.md").filter(_
空即是色即是色即是空
·
2017-11-13 19:25
Spark中加载本地(或者hdfs)文件以及 spark使用SparkContext实例的
textFile
读取多个文件夹(嵌套)下的多个数据文件
Spark中加载本地(或者hdfs)文件以及spark使用SparkContext实例的
textFile
读取多个文件夹(嵌套)下的多个数据文件在正常调用过程中,难免需要对多个文件夹下的多个文件进行读取,
Data_IT_Farmer
·
2017-11-08 16:55
Hadoop
Spark
Python
spark加载外部资源方式
首选说明spark加载文件:1、采用Source.fromFile(LocalPath)方式加载,可加载本地文件,这里本地文件指的是非集群方式2、加载hdfs,sc.
textfile
()3、采用sc.
textFile
lvdan86546853
·
2017-11-02 18:37
spark
上一页
11
12
13
14
15
16
17
18
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他