textFile 第5页

Hive 文件格式详解

hive中的file_formatSEQUENCEFILE：生产中绝对不会用，k-v格式，比源文本格式占用磁盘更多TEXTFILE：生产中用的多，行式存储RCFILE：生产中用的少，行列混合存储，OCR

beautiful_huang·2022-07-12 09:16

Spark RDD的分区规则详解

3.2数据分配到哪个分区规则一.RDD中数据来源2个地方：本地集合或外部数据源sc.parallelize(本地集合，分区数)sc.makeRDD(本地集合，分区数)底层是parallelizesc.textFile

卡农c·2022-07-07 15:51

手写 Spark-WordCount

SparkConf=newSparkConf().setMaster("local[*]").setAppName("WordCount")varsc=newSparkContext(conf)sc.textFile

星空下的那个人影·2022-06-20 01:25

键值对RDD

pairRDD直接创建pairRDD=sc.parallelize([(2,5),(8,9),(4,5)])pairRDD.collect()[(2,5),(8,9),(4,5)]从文件中加载rdd=sc.textFile

Panda4u·2022-06-12 09:08

hive从入门到放弃(六)——常用文件存储格式

hive存储格式有很多，但常用的一般是TextFile、ORC、Parquet格式，在我们单位最多的也是这三种hive默认的文件存储格式是TextFile。

大数据的奇妙冒险·2022-05-19 19:00

大数据基础：SparkWordCount

welecometohereahotdayhot本地读取文件#读取本地文本文件lines=sc.textFile("data.txt")#通过flatMap操作把所有数据转行成rdd，把数据压成一列result

Hanzerial·2022-04-05 07:47

Spark原理笔记

核数读取外部文件：Math.min(2,分配给运行环境的最大CPU核数)2如何分区1数据读取以行的形式读取2每行数据读取以偏移量为单位，偏移量不会重复读取3读取多个文件时候，计算分区以文件为单位分区读取外部文件textFile

我爱肉肉·2022-03-25 07:24

hive从入门到放弃(三)——DML数据操作

没看过的可以点击跳转阅读：hive从入门到放弃(一)——初识hivehive从入门到放弃(二)——DDL数据定义数据写入数据导入部分默认数据文件格式为textfile，每一列由‘，’进行分割，以换行分行

Max_Lyu·2022-03-20 13:00

【无标题】

例如只有一个executor-cores,那并行计算的任务就只有一个分区是能够并行计算的最大的并行度1.分区个数生成规则1.textFile文件数据源1.分区相关参数定义valrdd=sc.textFile

pete1223·2022-02-28 11:18

实用 | RDD依赖关系

（1）读取一个HDFS文件并将其中内容映射成一个个元组scala>valwordAndOne=sc.textFile

孙行者Monkey·2022-02-28 10:19

（4）spark RDD 算子练习

*///TODO需求：统计出每一个省份广告被点击数量排行的Top3valagentRdd=sc.textFile("Input/sparkCore/agent.log")a

有何不可~·2022-02-28 10:49

spark数据分区划分和任务执行相关内容

例如只有一个executor-cores,那并行计算的任务就只有一个2.分区是能够并行计算的最大的并行度##1.分区个数生成规则###1.textFile文件数据源1.分区相关参数定义valrdd=sc.textFile

pete1223·2022-02-28 10:51

（6）RDD依赖关系

valreduceRdd=sc.textFile("datas/word.txt").flatMap(_.spl

有何不可~·2022-02-28 10:48

3RDD创建

SparkContextconf=SparkConf().setMaster("local").setAppName("Myapp")sc=SparkContext(conf=conf)#1从文件中加载lines=sc.textFile

barriers·2022-02-20 01:43

写给小白的pySpark入门

方法a：从文件中加载，来创建键值对RDDpyspark--queue队列名[进入spark]lines=sc.textFile("hadoop地址/word.txt")[加载文件到rdd中]

Macroholica·2022-02-16 22:35

黑猴子的家：Hive 的数据组织

2、Hive数据存储Hive中所有的数据都存储在HDFS中，没有专门的数据存储格式，因为Hive是读模式（SchemaOnRead），可支持TextFile，SequenceFile，RCFile或者自定义格式等

黑猴子的家·2022-02-15 01:06

黑猴子的家：Hive 主流文件存储格式对比实验

从存储文件的压缩比和查询速度两个角度对比1、存储文件的压缩比测试1）测试数据https://github.com/liufengji/Compression_Format_Data.git2）TextFile

黑猴子的家·2022-02-09 09:30

Hive ORC

ORC是RCfile的优化版本关于Hive的文件格式TEXTFILE默认格式，建表时不指定默认为这个格式，导入数据时会直接把数据文件拷贝到hdfs上不进行处理。

analanxingde·2022-02-09 02:46

Hive ORC

ORC是RCfile的优化版本1.关于hive的文件格式TEXTFILE默认格式，建表时不指定默认为这个格式，导入数据时会直接把数据文件拷贝到hdfs上不进行处理。

林海畅游·2022-02-05 15:31

linux本地路径和hdfs路径使用场景

那些不用分布式完成的功能，用本地路径即可，比如gdal.Open("/home/dell/swq/data/20150619stack100.dat")那些用分布式打开的功能，用hdfs路径，比如rdd=sc.textFile

VickyShen·2022-02-05 15:56

查看文件属性 FileInfo

debug下没有文件，则可以生成证明是有此文件的现在我们用第二种方式：绝对路径//相对路径就是：找程序所在的当前路径，就是debug在的路径//FileInfofileIn=newFileInfo("TextFile1

青木川_·2022-02-05 04:49

spark笔记：常见的RDD操作(python)

参考图灵程序设计丛书，Spark快速大数据分析一书1.从外部读取数据创建RDDlines=sc.textFile("/path/to/README.md")2.转化操作和行动操作转化操作：返回一个新的RDD

Liping7·2022-02-04 22:13

RDD_数据源与数据位置

1.parallelize2/makeRDD3.textFile4.saveAsTextFilemakeRDD底层使用的就是parallelize,从内存中生成数据defmakeRDD[T:ClassTag

OoZzzy·2021-11-27 12:47

day 45 hive 安装基础知识

文章目录一、hive1、hive安装2、hive测试二、关于hive1、和传统数据库比较2、存储格式（部分）1TextFile2RCFile(RecordColumnar)3ORCFile(OptimizedRowColumnar

韭菜盒子123·2021-11-24 22:00

CUDA 编程——Vector Addition

1准备工作1）安装xshell2）远程连接服务器，打开jupyter服务3）网页进入对应的jupyter服务2Launcher介绍3查看GPU设备信息1）点击TextFile2）在其中输入对应的代码因为

A-Egoist·2021-11-18 20:37

Spark编程基础（Scala版）——RDD编程

1、RDD编程基础1.1RDD创建Spark采用textFile()方法来从文件系统中加载数据创建RDDvallines=sc.textFile("file:///usr/local/spark/mycode

kaiker·2021-10-04 15:55

Hive数据存储格式详细讲解（好文点赞收藏！）

目录0-前言1-TextFile2-SequenceFile3-RCFile4-ORCFile4.1-ORC相比较RCFile的优点4.2-ORC的基本结构4.3-ORC的数据类型4.4-ORC的ACID

KG大数据·2021-09-17 09:41

spark的几个示例

统计《红楼梦》和《西游记》里面高频字：scala>spark.read.textFile("/Users/bluejoe/testdata/xiyou.txt").map(_.replaceAll("[

中科院_白乔·2021-06-26 22:15

Vue组件开发系列之TextFile输入框组件

github.com/AntJavascript/widgetUI/tree/master/TextFieldFireShotCapture14-nvx-http___localhost_8080_demo#_TextFile.png

vue爱好者·2021-06-21 08:20

动态分区到ORC表OOM问题

解决动态分区textfile文件到ORC文件OOM问题1.问题描述在搭建数据仓库的过程中，在搬历史数据的过程中，先将Orace中的数据sqoop到textFile格式的HIVE表中，然后运行"Insert

朱佳宇·2021-06-20 17:34

Spark 源码分析（三）: SparkContext 初始化之 TaskScheduler 创建与启动

valconf=newSparkConf().setAppName("WordCount").setMaster("local")valsc=newSparkContext(conf)vallines=sc.textFile

stone_zhu·2021-06-19 18:17

Hadoop_常用存储与压缩格式

Hadoop_常用存储与压缩格式HDFS文件格式文件格式版本TEXTFILE默认格式RCFILEhive0.6.0和以后的版本ORChive0.11.0和以后的版本PARQUEThive0.13.0和以后的版本

熊_看不见·2021-06-19 08:01

RDD几个常用的键值对

键值对的创建方式：1.从文件加载：valline=sc.textFile("path")2.通过并行数据集合（数组）创建RDDvallist=list("a","b","c")valrdd=sc.paralelize

起个什么呢称呢·2021-06-14 06:28

Spark 编程基础

比如，从本地文件加载数据集，或者从HDFS文件系统从文件系统中加载数据创建RDD从本地加载：scala>vallines=sc.textFile("file:///usr/local/spark/mycode

博弈史密斯·2021-06-13 14:58

解决scala.collection.mutable.Map写入的问题

String]()no2ID+=(1->"something")而在以下代码中，Map不能添加元素valno2ID=scala.collection.mutable.Map[Int,String]()sc.textFile

·2021-06-10 19:24

2RDD编程

sc.textFile用于从文件中读取，sc.parallelize用于python对象生成rdd1.1通过文件系统加载产生Spark的SparkContext通过textFile()读取数据生成内存中的

barriers·2021-06-09 04:45

2021-06-08

输入pyspark进入编程界面使用lines储存读取data.txt文件里的内容lines=sc.textFile(‘file:///usr/local/sp

weixin_51055753·2021-06-08 23:38

Spark核心技术与应用第三章

Spark核心技术与应用第三章3.1使用Sparkshell编写程序3.1.1启动SparkShelll3.1.2加载text文件sc.textFile("file://")sc.textFile("d

小小少年Boy·2021-06-07 02:56

spark私房笔记

0java环境准备jdk1.8rpm-ivhjdk-8u92-linux-x64.rpmcat>/etc/profile.d/java.sh>>lines=sc.textFile("README.md"

博陵韩少·2021-06-04 05:14

2021-05-18-Hive-19(Excel导入orc格式hive表)

文件不支持导入到orc压缩格式的hive表中,需要借助中间表来完成操作步骤将Excel文件更改为csv文件,改变编码格式为UTF-8上传至hadoop,获取地址和文件名建一张orc的中间表mid_,中间表为TEXTFILE

隐约喜欢萌萌哒·2021-06-04 00:15

解决zeppelin spark 读取文件报hadoop连接错误

想直接读取本地文件，比如valraw=sc.textFile("//Users/muller/Desktop/people.json")对不起，是要报错的，如果本地没有安装hadoop的话，报连接被拒绝

Helen_Cat·2021-05-21 04:50

Hive文件存储格式

Hive支持的存储数据的格式主要有：TEXTFILE、SEQUENCEFILE、ORC、PARQUET。

香山上的麻雀·2021-05-19 12:04

一篇文章搞定一个大数据组件：kudu知识点全集

DiskRowSets4、kudu工作原理4.1Compaction4.2Tablet切分规则4.3kudu写过程：insert4.4kudu写过程：update4.5Kudu读过程1、kudu的定位HDFS:存储格式Textfile

明月十四桥·2021-05-14 18:27

spark sql 与hive打通

非常省事，也不用关心hive表数据是哪种文件格式了，RCFILE，SequenceFile,TextFile等全部兼容Ho

hikaty·2021-05-13 00:53

hive中UDF和UDAF使用说明

Hive是一个很开放的系统，很多内容都支持用户定制，包括：a）文件格式：TextFile，SequenceFileb）内存中的数据格式：JavaInteger/String,H

葡萄喃喃呓语·2021-05-11 03:14

二进制文件跟普通文本文件的区别

任何文件都可以划分为二进制文件(binaryfile)跟文本文件(textfile)，两种文件表面上看起来显示，但是两种文件编码数据的方式却有差异。

风恋绝尘·2021-05-09 17:33

Spark-RDD持久化

(1)persist算子使用方法：varrdd=sc.textFile("test")rdd=rdd.persist(StorageLevel.MEMORY_ONLY)valcount=rdd.count

CoderJed·2021-05-05 14:51

读笔汇编语言-基于Linux环境(第5章-汇编的权利:汇编语言的创建过程)

二进制文件vs.文本文件机器上文件可以分为：文本文件(textfile)和二进制文件(binar

QihuaZhou·2021-05-01 18:46

08_spark_core_数据读存_text文件

08_spark_core_数据读存_text文件文件类数据读取与保存总结：文件类数据读取与保存1）创建包名：com.atguigu.readAndSave1）基本语法（1）数据读取：textFile(

旧城里的阳光·2021-02-25 13:29

spark中读取json_【spark】文件读写和JSON数据解析

1.读文件通过sc.textFile(“file://")方法来读取文件到rdd中。

咏恒灬貂蝉·2021-02-11 10:40

推荐频道

textFile

Hive 文件格式详解

Spark RDD的分区规则详解

手写 Spark-WordCount

键值对RDD

hive从入门到放弃(六)——常用文件存储格式

大数据基础：SparkWordCount

Spark原理笔记

hive从入门到放弃(三)——DML数据操作

【无标题】

实用 | RDD依赖关系

（4）spark RDD 算子练习

spark数据分区划分和任务执行相关内容

（6）RDD依赖关系

3RDD创建

写给小白的pySpark入门

黑猴子的家：Hive 的数据组织

黑猴子的家：Hive 主流文件存储格式对比实验

Hive ORC

Hive ORC

linux本地路径和hdfs路径使用场景

查看文件属性 FileInfo

spark笔记：常见的RDD操作(python)

RDD_数据源与数据位置

day 45 hive 安装 基础知识

CUDA 编程——Vector Addition

Spark编程基础（Scala版）——RDD编程

Hive数据存储格式详细讲解（好文点赞收藏！）

spark的几个示例

Vue组件开发系列之TextFile输入框组件

动态分区到ORC表OOM问题

Spark 源码分析（三）: SparkContext 初始化之 TaskScheduler 创建与启动

Hadoop_常用存储与压缩格式

RDD几个常用的键值对

Spark 编程基础

解决scala.collection.mutable.Map写入的问题

2RDD编程

2021-06-08

Spark核心技术与应用第三章

spark私房笔记

2021-05-18-Hive-19(Excel导入orc格式hive表)

解决zeppelin spark 读取文件 报hadoop连接错误

Hive文件存储格式

一篇文章搞定一个大数据组件：kudu知识点全集

spark sql 与hive打通

hive中UDF和UDAF使用说明

二进制文件跟普通文本文件的区别

Spark-RDD持久化

读笔 汇编语言-基于Linux环境(第5章-汇编的权利:汇编语言的创建过程)

08_spark_core_数据读存_text文件

spark中读取json_【spark】文件读写和JSON数据解析

day 45 hive 安装基础知识

解决zeppelin spark 读取文件报hadoop连接错误

读笔汇编语言-基于Linux环境(第5章-汇编的权利:汇编语言的创建过程)