E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
textFile
Hive文件存储格式(
TEXTFILE
、ORC、PARQUET三者的对比)
综述:HIve的文件存储格式有四种:
TEXTFILE
、SEQUENCEFILE、ORC、PARQUET,前面两种是行式存储,后面两种是列式存储;所谓的存储格式就是在Hive建表的时候指定的将表中的数据按照什么样子的存储方式
夜古诚
·
2019-04-06 16:18
Hive
hadoop
Spark-RDD持久化
(1)persist算子使用方法:varrdd=sc.
textFile
("test")rdd=rdd.persist(StorageLevel.MEMORY_ONLY)valcount=rdd.count
张明洋_4b13
·
2019-03-10 11:38
pyspark常用指令
rel[‘srcIP’]=x[14]rel[‘desIP’]=x[16]rel[‘signature’]=x[111]rel[‘eventClass’]=x[151]returnrellines=sc.
textFile
纸房子
·
2019-02-27 17:50
大数据
hive3.0.0 新建orc表以便支持 delete 问题 及sql语句调优
说明:之前查了资料得到hive3.0及以上版本是支持ACID的,但是在实际操作中并没有实现delete功能,为了节省时间之间将原来存储格式为
textfile
格式的内部表修改为存储格式为orcfile的orc
卢子墨
·
2019-02-22 11:30
hive
orc
hive表调优
Hive
大数据学习笔记之Spark-RDD编程
RDD创建创建RDD主要有两种方法:读取外部数据集JavaRDDlines=sc.
textFile
("yourfilepath")在驱动程序中对一个集合进行并行化JavaRDDlines=sc.parralelize
断桥bian
·
2019-02-11 15:54
大数据
大数据学习笔记之Spark-RDD编程
RDD创建创建RDD主要有两种方法:读取外部数据集JavaRDDlines=sc.
textFile
("yourfilepath")在驱动程序中对一个集合进行并行化JavaRDDlines=sc.parralelize
断桥bian
·
2019-02-11 15:54
大数据
数据科学
spark
Hadoop
大数据
至少4种方式使用spark算子实现wordcout
1.使用reduceBykey需求:读取一个存放word的文件读取这个文件使用reduceByKey算子进行wordcount演示1.valwordrdd=sc.
textFile
("file:/opt/
pkingdog
·
2019-01-22 20:01
Hive调优
Hive存储格式选择和Hive相关优化:压缩参考Hive支持的存储数的格式主要有:
TEXTFILE
、SEQUENCEFILE、ORC、PARQUET。
cpongo333
·
2019-01-18 00:24
spark数据类型
RDD创建RDD读取文件sc.
textFile
并行化sc.parallelize其他方式RDD操作TransfermationunionintersectiondistinctgroupByKeyreduceByKeysortByKeyjoinleftOuterJoinrightOuterJoinaggregateActionreducecountfirsttaketakeSampletakeOr
007在学机器学习
·
2019-01-17 17:19
spark
Spark读取本地文件问题
(强烈推荐,比格更高更专业)不过多是将文件发到hdfs,明明记得可以读取本地文件,后来在林子雨老师厦门大学大数据实验室博客上找到解决办法:本地文件数据读写
textFile
=sc.
textFile
("file
liuhehe123
·
2019-01-14 18:00
python操作数据
python
spark
大数据
Spark学习笔记
frompysparkimportSparkConf,SparkContext上传本地文件到hdfshadoopfs-copyFromLocal/data/data.txt/spark/加载文件数据lines=sc.
textFile
alpha18
·
2019-01-12 15:53
Spark:用CombineTextInputFormat缓解小文件过多导致Task数目过多的问题
http://www.cnblogs.com/yurunmiao/p/5195754.html原始读法:lines=sc.
textFile
("hdfs:///dir/")这样一个block会形成一个partition
xuejianbest
·
2019-01-07 13:05
大数据/spark
spark调优之开发调优
(1)避免重复的RDD案例:valrdd1=sc.
textFile
("hdfs://zzy/hello.txt")rdd1.map(...)valrdd2=sc.
textFile
("hdfs://zzy
原生zzy
·
2019-01-04 10:18
spark开发调优
spark
spark03--
textFile
分区算法,常用算子使用,启动,任务提交流程, 基站案例
文章目录一
textFile
分区算法二常用算子使用2.1mapmapPartitions2.2mapPartitionsWithIndex2.3aggregate2.4aggregateByKey2.5combineByKey2.6countByKey
forever428
·
2019-01-03 20:10
spark
数据存储text转parquet及引发的OOM问题
1.数据转parquet的后效果table1为
textfile
格式存储的表,分区20161122转换之前大小约400M,分别以parquet无压缩,parquetsnappy压缩和parquetgzip
javastart
·
2019-01-03 17:50
大数据
hive
Impala 简单使用指南
MapReduce程序,直接访问HDFS,Hbase中的数据进行作业调度,速度快3.使用了支持datalocality的IO调度机制:尽可能将数据和计算分配在同一台机器上,减少网络开销4.支持各种文件格式,如
TEXTFILE
123.56.119.133:8090
·
2018-12-26 19:33
BigData
Impala
hadoop
hive
java
Sqoop 同步数据到mysql, Can't parse input data: '\N'
Sqoop同步数据到mysqlSqoop从hdfs同步数据到mysql是我们常常遇到的事情同步分为分区表同步和非分区表同步需要注意以下几点1.hive中的表必须是
textfile
,不能是有parquet
IloveMing0305
·
2018-12-26 17:32
ERROR
sqoop
Spark编程基础3RDD编程、Spark SQL
第5章RDD编程5.1RDD编程基础5.1.1RDD创建1.从文件系统中加载数据创建RDDSpark采用
textFile
()方法来从文件系统中加载数据创建RDD该方法把文件的URI作为参数,这个URI可以是
A记录学习路线
·
2018-12-23 16:23
大数据
spark1.6源码-----任务提交与执行之RDD的构建
本文以sparkWordCount为例来解析valinput=sc.
textFile
("C:\\Users\\pc\\PycharmProjects\\PyNews\\word*",1).flatMap
qq_33872191
·
2018-12-22 22:51
spark
org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://localhost~~
报错在Spark中运行sc.
textFile
()等函数后报以下错误:org.apache.hadoop.mapred.InvalidInputException:Inputpathdoesnotexist
小夏陌
·
2018-12-06 15:44
Spark常见错误
Hive文件存储格式(
TEXTFILE
、ORC、PARQUET三者的存储格式的压缩对比和查询速度对比)
综述:HIve的文件存储格式有四种:
TEXTFILE
、SEQUENCEFILE、ORC、PARQUET,前面两种是行式存储,后面两种是列式存储;所谓的存储格式就是在Hive建表的时候指定的将表中的数据按照什么样子的存储方式
isea_you
·
2018-12-06 11:06
bigData
Hive
Hive
Hive(五):常见存储格式的性能测试、比较
测试文件:https://blog.csdn.net/huonan_123/article/details/84784811大小:18.1M测试方法以下是测试
textFile
存储的Demo,其它存储的测试方法参照既可以
huo_火力全开
·
2018-12-04 18:39
Hive
HDFS
spark 2.4 操作
sc.
textfile
()一读取本地文件系统目录要加file:读取hdfs的要加hdfs:二遇到Exceptioninthread"main"java.lang.IllegalAccessError:triedtoaccessmethodcom.google.common.base.Stopwatch
Helen_Cat
·
2018-11-28 15:57
Spark wordcount
valfile=sc.
textFile
(“D:/BigDataTools/helloworld.txt”)//内置对象sc,去加载一个文件//懒加载,不会立即去加载file这个文件,所以这一步文件名写错了也不会报错
A记录学习路线
·
2018-11-28 11:48
大数据
SparkSQL访问MySql源
org.apache.sparkspark-sql_2.112.3.0mysqlmysql-connector-java5.1.22创建SparkSession/***SparkSession*支持数据源:
textFile
黑暗行动
·
2018-11-18 23:17
大数据
(四)DataFrame的常用函数
5.1.27.jarscala>caseclassStudent(id:String,name:String,phone:String,email:String)scala>valstudents=sc.
textFile
白面葫芦娃92
·
2018-11-12 16:09
Spark Streaming(八):容错和事务
每个RDD都会记住确定好的计算操作的血缘关系,(vallines=sc.
textFile
(hdfsfile);valwords=lines.flatMap();valpairs=words.map();
张凯_9908
·
2018-11-07 15:28
Spark Hive 导入数据到 HBase
导读:如何使用MapReduce将
textfile
、rcfile格式的Hive表数据导入到HBase,上一篇博客中已经做了介绍MapReduceHive导入数据到HBase,MR这种方式有两个缺点,一是当数据量特别大的时候
HG_Harvey
·
2018-11-06 15:50
Spark
Apache Flink 各类关键数据格式读取/SQL支持
基于SQL归并时SparkStreaming支持的输入/输出数据如下:数据类型Flink支持情况Kafka需要定义schemaHDFS(parquet/csv/
textfile
)读取parquet需要使用
rongyongfeikai2
·
2018-11-02 16:22
BIGDATA
hive 项目实战(2)
因为这里创建的表要使用orc的压缩方式,而不使用默认的
textfile
的方式,orc的压缩方式要想向表中导入数据需要使用子查询的方式导入,即把从另一张表中查询到的数据插入orc压缩格式的表汇中,所以这里需要四张表
mmalan
·
2018-11-01 18:33
大数据学习
spark1.6使用:读取本地外部数据,把RDD转化成DataFrame,保存为parquet格式,读取csv格式
src/spark-1.6.1-bin-hadoop2.6/libext/com.mysql.jdbc.Driver.jar1.读取spark目录下面的logs日志作为测试:valalllog=sc.
textFile
lbship
·
2018-11-01 15:22
Hadoop
spark
Hive文件格式
文章目录1.概述1.1行存储列存储2.
TEXTFILE
3.SEQUENCEFILE3.RCFILE4.ORCFILE5.Parquet8.区别8.1空间对比,磁盘空间占用大小比较8.2查询语句运行时间大小比较
九师兄-梁川川
·
2018-10-18 19:34
大数据-hive
spark 2.3.1 入门教程
可以从HadoopInputFormats(例如HDFS文件)或通过转换其他数据集来创建数据集scala>valtextFile=spark.read.
textFile
("README.md")text
Echo_y_q
·
2018-10-17 17:24
spark
Spark RDD练习
单词统计读取文件valrdd=sc.
textFile
("file:///root/customer.csv")//读取本地文件valrdd=sc.
textFile
("hdfs:///temp/root/
hipeer
·
2018-10-08 20:32
Spark系列2 - Spark RDD编程
一、RDD编程基础1RDD创建从文件系统创建RDDtextFilevalpart=sc.
textFile
("file:///root/software/spark-2.2.0-bin-hadoop2.6
guoxiaojie_415
·
2018-09-28 18:48
大数据
Hive进阶(2)—— 存储格式
存储格式基本概念官网:https://cwiki.apache.org/confluence/display/Hive/FileFormats官网介绍:Hivesupportsseveralfileformats:*
TextFile
疯狂呼呼呼
·
2018-09-27 22:28
Hive
Spark算子:transformation之map、flatMap和distinct
//HDFS上的txt文件hadoopfs-cat/tmp/1.txthelloworldhellosparkhellohive//读取HDFS文件到RDDscala>vardata=sc.
textFile
cleargy
·
2018-09-20 12:17
spark
scala
# 数据分析最佳实践 - 数据梳理、处理、提交集群
0x01数据梳理&处理方式:筛选和过滤valtextFile=sc.
textFile
("hdfs://xxxxxxxxx.net/xxx/xxx/xxx")varlinesWithSpark=
textFile
.filter
Sevsea
·
2018-09-10 12:19
24-SparkSQL04
Coding,cooking3linatravel,dance2caseclassLikes(name:String,likes:String)vallikes=spark.sparkContext.
textFile
CrUelAnGElPG
·
2018-09-10 02:10
24-SparkSQL04
Coding,cooking3linatravel,dance2caseclassLikes(name:String,likes:String)vallikes=spark.sparkContext.
textFile
CrUelAnGElPG
·
2018-09-10 02:10
spark RDD创建方式:parallelize,makeRDD,
textFile
parallelize调用SparkContext的parallelize(),将一个存在的集合,变成一个RDD,这种方式试用于学习spark和做一些spark的测试scala版本?1defparallelize[T](seq:Seq[T],numSlices:Int=defaultParallelism)(implicitarg0:ClassTag[T]):RDD[T]-第一个参数一是一个Seq
hellozhxy
·
2018-08-31 09:10
spark
Python运维自动化之nginx配置文件对比操作示例
/usr/bin/envpython#importdifflibimportsystry:
textfile
1=sys.argv[1]
textfile
2=sys.argv[2]exceptexception
努力一方
·
2018-08-29 08:00
Spark的常见问题解析
1.输入这句话可以成功:①scala>vallines=sc.
textFile
("file:///home/hyxy/README.md")但是输入:②scala>lines.count 为什么会报错抛异常呢
Aime_Perfect
·
2018-08-27 22:11
Spark
基于Spark-ALS的协同过滤算法推荐系统
path="hdfs://localhost:9000/user/fantastic_liar/"rawUserData=sc.
textFile
(path+"data/u.data")rawUserData.count
Fantastic_Liar
·
2018-08-25 13:05
数据科学
大数据学习之路30-hive的DDL语法,文件存储格式
1.hive的存储文件格式hive支持很多种文件格式:SEQUENCEFILE|
TEXTFILE
|PARQUETFILE|RCFILE万一有不支持的,我们只要在lib中加一个能解析这种文件的jar包就可以了
爱米酱
·
2018-08-20 19:28
大数据
如何跳过Spark中CSV文件的标题?
valrdd=sc.
textFile
("file1,file2,file3")现在,我们如何跳过此rdd的标题行?
酱g
·
2018-08-17 17:36
spark
spark怎么创建RDD,一个创建RDD的方式有哪些它们的区别是什么!!(Unit2)
spark的编程接口包括1.分区信息,数据集的最小分片(1)Patitions()用法:scala>valpart=sc.
textFile
("/user/README.md",6)part:org.apache.spark.rdd.RDD
忘川风华录
·
2018-08-14 15:39
spark
MySQL导入格式化数据
shell脚本、python都可以,今天来介绍两个更便捷的命令,mysqlimport和loaddatamysqlimport使用方法mysqlimport[options]db_nametextfile1[
textfile
2
JouyPub
·
2018-08-09 00:00
mysql
Spark RDD编程案例
有些是中英文的,所以filter需要一个||//获取弹幕中带感叹号的,无论大小写varlines=sc.
textFile
("file:///root/Desktop/barrage.json")varlines_after
nsu_zk
·
2018-08-06 19:44
Spark
机器学习:协同过滤算法实战
setMaster("local").setAppName("CollaborativeFilter")//设置环境变量valsc=newSparkContext(conf)//实例化环境valdata=sc.
textFile
SmartBrain
·
2018-08-05 19:51
机器学习实战
上一页
10
11
12
13
14
15
16
17
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他