E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
textFile
Hive 文件格式详解
hive中的file_formatSEQUENCEFILE:生产中绝对不会用,k-v格式,比源文本格式占用磁盘更多
TEXTFILE
:生产中用的多,行式存储RCFILE:生产中用的少,行列混合存储,OCR
beautiful_huang
·
2022-07-12 09:16
Hadoop
Hive
hive
Spark RDD的分区规则详解
3.2数据分配到哪个分区规则一.RDD中数据来源2个地方:本地集合或外部数据源sc.parallelize(本地集合,分区数)sc.makeRDD(本地集合,分区数)底层是parallelizesc.
textFile
卡农c
·
2022-07-07 15:51
大数据
spark
手写 Spark-WordCount
SparkConf=newSparkConf().setMaster("local[*]").setAppName("WordCount")varsc=newSparkContext(conf)sc.
textFile
星空下的那个人影
·
2022-06-20 01:25
大数据面试
spark
spark
键值对RDD
pairRDD直接创建pairRDD=sc.parallelize([(2,5),(8,9),(4,5)])pairRDD.collect()[(2,5),(8,9),(4,5)]从文件中加载rdd=sc.
textFile
Panda4u
·
2022-06-12 09:08
hadoop
spark
大数据
hive从入门到放弃(六)——常用文件存储格式
hive存储格式有很多,但常用的一般是
TextFile
、ORC、Parquet格式,在我们单位最多的也是这三种hive默认的文件存储格式是
TextFile
。
大数据的奇妙冒险
·
2022-05-19 19:00
大数据基础:SparkWordCount
welecometohereahotdayhot本地读取文件#读取本地文本文件lines=sc.
textFile
("data.txt")#通过flatMap操作把所有数据转行成rdd,把数据压成一列result
Hanzerial
·
2022-04-05 07:47
大数据基础
大数据
spark
Spark原理笔记
核数读取外部文件:Math.min(2,分配给运行环境的最大CPU核数)2如何分区1数据读取以行的形式读取2每行数据读取以偏移量为单位,偏移量不会重复读取3读取多个文件时候,计算分区以文件为单位分区读取外部文件
textFile
我爱肉肉
·
2022-03-25 07:24
spark
big
data
大数据
hive从入门到放弃(三)——DML数据操作
没看过的可以点击跳转阅读:hive从入门到放弃(一)——初识hivehive从入门到放弃(二)——DDL数据定义数据写入数据导入部分默认数据文件格式为
textfile
,每一列由‘,’进行分割,以换行分行
Max_Lyu
·
2022-03-20 13:00
【无标题】
例如只有一个executor-cores,那并行计算的任务就只有一个分区是能够并行计算的最大的并行度1.分区个数生成规则1.
textFile
文件数据源1.分区相关参数定义valrdd=sc.
textFile
pete1223
·
2022-02-28 11:18
spark
hadoop
big
data
实用 | RDD依赖关系
(1)读取一个HDFS文件并将其中内容映射成一个个元组scala>valwordAndOne=sc.
textFile
孙行者Monkey
·
2022-02-28 10:19
Spark
大数据学习
大数据
Spark
(4)spark RDD 算子练习
*///TODO需求:统计出每一个省份广告被点击数量排行的Top3valagentRdd=sc.
textFile
("Input/sparkCore/agent.log")a
有何不可~
·
2022-02-28 10:49
Spark
spark
scala
大数据
spark数据分区划分和任务执行相关内容
例如只有一个executor-cores,那并行计算的任务就只有一个2.分区是能够并行计算的最大的并行度##1.分区个数生成规则###1.
textFile
文件数据源1.分区相关参数定义valrdd=sc.
textFile
pete1223
·
2022-02-28 10:51
spark相关
spark
(6)RDD依赖关系
valreduceRdd=sc.
textFile
("datas/word.txt").flatMap(_.spl
有何不可~
·
2022-02-28 10:48
Spark
scala
big
data
spark
3RDD创建
SparkContextconf=SparkConf().setMaster("local").setAppName("Myapp")sc=SparkContext(conf=conf)#1从文件中加载lines=sc.
textFile
barriers
·
2022-02-20 01:43
写给小白的pySpark入门
方法a:从文件中加载,来创建键值对RDDpyspark--queue队列名[进入spark]lines=sc.
textFile
("hadoop地址/word.txt")[加载文件到rdd中]
Macroholica
·
2022-02-16 22:35
黑猴子的家:Hive 的数据组织
2、Hive数据存储Hive中所有的数据都存储在HDFS中,没有专门的数据存储格式,因为Hive是读模式(SchemaOnRead),可支持
TextFile
,SequenceFile,RCFile或者自定义格式等
黑猴子的家
·
2022-02-15 01:06
黑猴子的家:Hive 主流文件存储格式对比实验
从存储文件的压缩比和查询速度两个角度对比1、存储文件的压缩比测试1)测试数据https://github.com/liufengji/Compression_Format_Data.git2)
TextFile
黑猴子的家
·
2022-02-09 09:30
Hive ORC
ORC是RCfile的优化版本关于Hive的文件格式
TEXTFILE
默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理。
analanxingde
·
2022-02-09 02:46
Hive ORC
ORC是RCfile的优化版本1.关于hive的文件格式
TEXTFILE
默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理。
林海畅游
·
2022-02-05 15:31
linux本地路径和hdfs路径使用场景
那些不用分布式完成的功能,用本地路径即可,比如gdal.Open("/home/dell/swq/data/20150619stack100.dat")那些用分布式打开的功能,用hdfs路径,比如rdd=sc.
textFile
VickyShen
·
2022-02-05 15:56
查看文件属性 FileInfo
debug下没有文件,则可以生成证明是有此文件的现在我们用第二种方式:绝对路径//相对路径就是:找程序所在的当前路径,就是debug在的路径//FileInfofileIn=newFileInfo("
TextFile
1
青木川_
·
2022-02-05 04:49
spark笔记:常见的RDD操作(python)
参考图灵程序设计丛书,Spark快速大数据分析一书1.从外部读取数据创建RDDlines=sc.
textFile
("/path/to/README.md")2.转化操作和行动操作转化操作:返回一个新的RDD
Liping7
·
2022-02-04 22:13
RDD_数据源与数据位置
1.parallelize2/makeRDD3.
textFile
4.saveAsTextFilemakeRDD底层使用的就是parallelize,从内存中生成数据defmakeRDD[T:ClassTag
OoZzzy
·
2021-11-27 12:47
Spark
java
spring
cloud
架构
day 45 hive 安装 基础知识
文章目录一、hive1、hive安装2、hive测试二、关于hive1、和传统数据库比较2、存储格式(部分)1
TextFile
2RCFile(RecordColumnar)3ORCFile(OptimizedRowColumnar
韭菜盒子123
·
2021-11-24 22:00
sql
CUDA 编程——Vector Addition
1准备工作1)安装xshell2)远程连接服务器,打开jupyter服务3)网页进入对应的jupyter服务2Launcher介绍3查看GPU设备信息1)点击
TextFile
2)在其中输入对应的代码因为
A-Egoist
·
2021-11-18 20:37
并行计算
cuda
Spark编程基础(Scala版)——RDD编程
1、RDD编程基础1.1RDD创建Spark采用
textFile
()方法来从文件系统中加载数据创建RDDvallines=sc.
textFile
("file:///usr/local/spark/mycode
kaiker
·
2021-10-04 15:55
Hive数据存储格式详细讲解(好文点赞收藏!)
目录0-前言1-
TextFile
2-SequenceFile3-RCFile4-ORCFile4.1-ORC相比较RCFile的优点4.2-ORC的基本结构4.3-ORC的数据类型4.4-ORC的ACID
KG大数据
·
2021-09-17 09:41
hive和数据仓库(离线)
hive
hdfs
大数据
数据仓库
面试
spark的几个示例
统计《红楼梦》和《西游记》里面高频字:scala>spark.read.
textFile
("/Users/bluejoe/testdata/xiyou.txt").map(_.replaceAll("[
中科院_白乔
·
2021-06-26 22:15
Vue组件开发系列之
TextFile
输入框组件
github.com/AntJavascript/widgetUI/tree/master/TextFieldFireShotCapture14-nvx-http___localhost_8080_demo#_
TextFile
.png
vue爱好者
·
2021-06-21 08:20
动态分区到ORC表OOM问题
解决动态分区
textfile
文件到ORC文件OOM问题1.问题描述在搭建数据仓库的过程中,在搬历史数据的过程中,先将Orace中的数据sqoop到
textFile
格式的HIVE表中,然后运行"Insert
朱佳宇
·
2021-06-20 17:34
Spark 源码分析(三): SparkContext 初始化之 TaskScheduler 创建与启动
valconf=newSparkConf().setAppName("WordCount").setMaster("local")valsc=newSparkContext(conf)vallines=sc.
textFile
stone_zhu
·
2021-06-19 18:17
Hadoop_常用存储与压缩格式
Hadoop_常用存储与压缩格式HDFS文件格式文件格式版本
TEXTFILE
默认格式RCFILEhive0.6.0和以后的版本ORChive0.11.0和以后的版本PARQUEThive0.13.0和以后的版本
熊_看不见
·
2021-06-19 08:01
RDD几个常用的键值对
键值对的创建方式:1.从文件加载:valline=sc.
textFile
("path")2.通过并行数据集合(数组)创建RDDvallist=list("a","b","c")valrdd=sc.paralelize
起个什么呢称呢
·
2021-06-14 06:28
Spark 编程基础
比如,从本地文件加载数据集,或者从HDFS文件系统从文件系统中加载数据创建RDD从本地加载:scala>vallines=sc.
textFile
("file:///usr/local/spark/mycode
博弈史密斯
·
2021-06-13 14:58
解决scala.collection.mutable.Map写入的问题
String]()no2ID+=(1->"something")而在以下代码中,Map不能添加元素valno2ID=scala.collection.mutable.Map[Int,String]()sc.
textFile
·
2021-06-10 19:24
2RDD编程
sc.
textFile
用于从文件中读取,sc.parallelize用于python对象生成rdd1.1通过文件系统加载产生Spark的SparkContext通过
textFile
()读取数据生成内存中的
barriers
·
2021-06-09 04:45
2021-06-08
输入pyspark进入编程界面使用lines储存读取data.txt文件里的内容lines=sc.
textFile
(‘file:///usr/local/sp
weixin_51055753
·
2021-06-08 23:38
spark
Spark核心技术与应用第三章
Spark核心技术与应用第三章3.1使用Sparkshell编写程序3.1.1启动SparkShelll3.1.2加载text文件sc.
textFile
("file://")sc.
textFile
("d
小小少年Boy
·
2021-06-07 02:56
spark私房笔记
0java环境准备jdk1.8rpm-ivhjdk-8u92-linux-x64.rpmcat>/etc/profile.d/java.sh>>lines=sc.
textFile
("README.md"
博陵韩少
·
2021-06-04 05:14
2021-05-18-Hive-19(Excel导入orc格式hive表)
文件不支持导入到orc压缩格式的hive表中,需要借助中间表来完成操作步骤将Excel文件更改为csv文件,改变编码格式为UTF-8上传至hadoop,获取地址和文件名建一张orc的中间表mid_,中间表为
TEXTFILE
隐约喜欢萌萌哒
·
2021-06-04 00:15
解决zeppelin spark 读取文件 报hadoop连接错误
想直接读取本地文件,比如valraw=sc.
textFile
("//Users/muller/Desktop/people.json")对不起,是要报错的,如果本地没有安装hadoop的话,报连接被拒绝
Helen_Cat
·
2021-05-21 04:50
Hive文件存储格式
Hive支持的存储数据的格式主要有:
TEXTFILE
、SEQUENCEFILE、ORC、PARQUET。
香山上的麻雀
·
2021-05-19 12:04
一篇文章搞定一个大数据组件:kudu知识点全集
DiskRowSets4、kudu工作原理4.1Compaction4.2Tablet切分规则4.3kudu写过程:insert4.4kudu写过程:update4.5Kudu读过程1、kudu的定位HDFS:存储格式
Textfile
明月十四桥
·
2021-05-14 18:27
大数据
后端
kudu
大数据
后端
spark sql 与hive打通
非常省事,也不用关心hive表数据是哪种文件格式了,RCFILE,SequenceFile,
TextFile
等全部兼容Ho
hikaty
·
2021-05-13 00:53
hive中UDF和UDAF使用说明
Hive是一个很开放的系统,很多内容都支持用户定制,包括:a)文件格式:
TextFile
,SequenceFileb)内存中的数据格式:JavaInteger/String,H
葡萄喃喃呓语
·
2021-05-11 03:14
二进制文件跟普通文本文件的区别
任何文件都可以划分为二进制文件(binaryfile)跟文本文件(
textfile
),两种文件表面上看起来显示,但是两种文件编码数据的方式却有差异。
风恋绝尘
·
2021-05-09 17:33
Spark-RDD持久化
(1)persist算子使用方法:varrdd=sc.
textFile
("test")rdd=rdd.persist(StorageLevel.MEMORY_ONLY)valcount=rdd.count
CoderJed
·
2021-05-05 14:51
读笔 汇编语言-基于Linux环境(第5章-汇编的权利:汇编语言的创建过程)
二进制文件vs.文本文件机器上文件可以分为:文本文件(
textfile
)和二进制文件(binar
QihuaZhou
·
2021-05-01 18:46
08_spark_core_数据读存_text文件
08_spark_core_数据读存_text文件文件类数据读取与保存总结:文件类数据读取与保存1)创建包名:com.atguigu.readAndSave1)基本语法(1)数据读取:
textFile
(
旧城里的阳光
·
2021-02-25 13:29
大数据
spark3.0
spark_core
大数据
spark
spark中读取json_【spark】文件读写和JSON数据解析
1.读文件通过sc.
textFile
(“file://")方法来读取文件到rdd中。
咏恒灬貂蝉
·
2021-02-11 10:40
spark中读取json
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他