textFile 第13页

carbondata 编译部署

简介carbondata是华为开源的一种数据格式（如textfile，parquet，ORC……），号称实现大数据即席查询秒级响应。支持hadoop列式存储，文件格式,支持索引、压缩以及解编码等。

pholien·2019-12-14 12:52

rdd实现wordcount

方法将rdd中每一个元素按空格分割并铺平，再通过map方法组成元组，最后通过reduceByKey进行词频统计，需要注意的是flatMap方法是先执行map方法在执行flat方法，代码如下：rdd=sc.textFile

藤风·2019-12-14 07:00

数仓--Hive-面试之Hive支持的文件格式和压缩格式及各自特点

Hive中的文件格式1-TEXTFILE文本格式，Hive的默认格式，数据不压缩，磁盘开销大、数据解析开销大。

李小李的路·2019-12-13 20:59

Hive调优之数据篇

文件格式Hive支持TEXTFILE,SEQUENCEFILE,AVRO,RCFILE,ORC和PARQUET等6种文件格式。

长较瘦·2019-12-12 14:53

Spark 基础 —— 创建 DataFrame 的三种方式

_valpeopleRDD=spark.sparkContext.textFile("README.md")valschemaString="nameage"valfields=schemaString.split

Lemo_wd·2019-12-07 15:00

checkpoint

scala>sc.textFile("hdfs://hadoop21:9000/wc/").flatMap(_.split("")).map((_,1)).reduceByKey(_+_)res10:org.apache.spark.rdd.RDD

lehuai·2019-12-07 14:12

scala隐式转换实现reduceByKey

先看下spark实现wordcount的方式vallines=sc.textFile(...)valwords=lines.flatMap(_.split("")).map((_,1)).reduceByKey

浪阳·2019-12-03 21:27

==Spark系列(九)DAGScheduler工作原理

www.cnblogs.com/jianyuan/p/Spark%E7%B3%BB%E5%88%97%E4%B9%8BDAGScheduler%E5%B7%A5%E4%BD%9C%E5%8E%9F%E7%90%86.html1、textFile

葡萄喃喃呓语·2019-12-01 12:55

Hive的体系结构详细讲解

Hadoop系统中常用的文件存储格式有支持文本的TextFile和支持二进制的SequenceFile等，它们都属于行存储方式。Faceb

好程序员特训营·2019-11-30 22:29

上线hive表为什么要设置为textfile格式

准备从今天开始写技术博客~在平时的工作中有碰到做SOA开发的同事要求给到的结果表格式为textfile。前些时间公司里是不允许正式表设为textfile格式的。

Amyfeelily·2019-11-29 03:02

Spark RDD编程基础

一、数据读写(1)从文件系统加载数据创建RDD①本地文件：sc.textFile("file:///data/spark/buyer_favorite")②HDFS文件：sc.textFile("hdfs

雨季丶·2019-11-27 17:44

精通awk系列(6)：awk命令结构和awk语法结构

回到：Linux系列文章Shell系列文章Awk系列文章awk命令行结构和语法结构awk命令行结构awk[--]program-textfile...(1)awk-fprogram-file[--]file

骏马金龙·2019-11-23 15:00

textView类似textFile的提示语

所谓placeholder就比如用户看到一个输入框，然后输入框里面一般会有几个浅灰色的文字，提示用户这个地方是用来写什么内容的，当用户开始输入的时候，这几个文字就自然而然地消失了。好了，闲话不多说，正式开始：本人通过Main.Storyboard拖textView的控件的：首先，你要创建一个自定义类，Main.Storyboard的控制器遵守自定义类名在ViewDidload方法遵守TextVie

游子_IT·2019-11-03 04:41

IQKeyboardManager键盘管理的使用

IQKeyboardManager比较强大的对textFile、textView的键盘管理。

我卜配彡·2019-11-03 00:22

Start Developing iOS Apps (Swift)->将UI连接到代码（一）

处理用户在textfile

raingu24·2019-10-30 21:31

Hive的数据存储格式

Hive支持的存储格式有：TextFileSequenceFileRCFileAvroFilesORCFilesParquet注：Hive默认的格式为TextFile，可以通过sethive.default.fileformat

BabyFish13·2019-10-10 17:59

Hive的数据存储格式

Hive支持的存储格式有：TextFileSequenceFileRCFileAvroFilesORCFilesParquet注：Hive默认的格式为TextFile，可以通过sethive.default.fileformat

BabyFish13·2019-10-10 17:59

spark 内核源码剖析八：DAGScheduler和TaskScheduler

Job触发流程：#wordcount程序vallines=sc.textFile()valwords=lines.flatMap(line=>line.split(""))valpairs=words.map

雪飘千里·2019-10-08 11:42

spark基础--rdd的生成

通过.textFile可以通过文件读取项目路径和hdfs文件路径*makeRDD和parallelize第二个参数为处理的并行度数量不给定时，默认值为通过conf.getInt("spark.default.parallelis

xiao酒窝·2019-09-21 22:15

Hive文件存储格式

hive文件存储格式包括以下几类：1、TEXTFILE2、SEQUENCEFILE3、RCFILE4、ORCFILE(0.11以后出现)-支持有限5、Parquet-主要是用在ClouderaImpala

BabyFish13·2019-08-18 16:43

Hive表建立分区外部表并且添加每天的增量数据为分区

1、将文件（textFile）上传到hd

ZhuangYQ丶·2019-08-08 15:16

SparkSQL中SQL风格和DSL风格的使用

准备工作读取文件并转换为DataFrame或DataSetvallineRDD=sc.textFile("hdfs://node-01:9000/person.txt").map(_.split("")

MannerXu·2019-08-07 22:13

Hive文件格式-textfile，sequencefile，rcfile，orcfile， Parquet

目录概述hive文件存储格式包括以下几类一、TEXTFILE二、SEQUENCEFILE三、RCFile文件格式概述历史RCFile使用基于行存储的优点和缺点基于列存储的优点和缺点源码分析1.Writer2

静静七分醉·2019-08-04 16:43

Sqoop

间进行数据传递的工具,传递是双向的,import和export是相对于Hadoop来说的sqoophelp如下:展示数据库可用的库;import:1):从关系数据库导入到HDFS中;默认存储就是as-textfile

乔一波一·2019-07-31 15:29

pyspark 运行WordCount出现错误已解决

textFile=sc.textFile("data/test.txt")stringRDD=textFile.flatMap(lambdaline:line.split(""))countsRDD=stringRDD.map

qclonle·2019-07-23 20:57

Spark | RDD编码

创建valrdd=sc.parallelize(Array(1,2,3,4),4)rdd.count()rdd.foreach(print)rdd.foreach(println)valrdd=sc.textFile

icebreakeros·2019-07-06 14:08

hive的存储格式TextFile、RCFile、ORC

hived的存储格式TextFile、RCFile、ORC说明：所谓的存储格式就是hive的数据在hdfs上存放的具体方式；通过下面的文件我们看出hive的存储格式是一共有六种，每一种都是由自己的规则。

lds_include·2019-07-01 10:57

Linux指令总结

命令：catcat-ntextfile1>textfile2把textfile1的文档内容加上行号后输入textfile2这个文档里cat-btextfile1textfile2>>textfile3把

猿球崛起3·2019-06-28 10:40

好程序员大数据教程分享TextFile分区问题

.partitions.length,在spark-shell中没有指定分区的个数获取的是默认分区数,除了这个外parallelize方法可以使用,指定几个分区就会有几个分区出现valrdd1=sc.textFile

好程序员IT·2019-06-27 16:26

Spark中Cache与Persist的巅峰对决

Cache的产生背景我们先做一个简单的测试读取一个本地文件做一次collect操作：valrdd=sc.textFile("file:///home/hadoop/data/input.txt")valrdd

Stitch_x·2019-06-24 08:47

spark 常见的转化操作和行动操作

一、基本RDD1、转化操作（1）map（）、flatMap()、filter()scala>valline=sc.textFile("/Users/Desktop/log.txt")line:org.apache.spark.rdd.RDD

洪福齐天007·2019-06-23 20:50

Spark Core:数据输入输出

文件对象文件输入输出保存对象文件查看对象文件hadoop输入输出从hadoop读取保存到hadoopMySQL的输入输出从MySQL读取数据查看MySQL中数据文本文件输入输出读取文本文件scala>sc.textFile

drl_blogs·2019-06-19 16:20

Spark每日半小时（20）——文件压缩

我们已经提过，Spark原生的输入方式（textFile和sequenceFile）可以自动处理一些类型的压缩。在读取压缩后的数据时，一些压缩编解码器可以推测压缩类型。

DK_ing·2019-06-19 15:25

Spark每日半小时（20）——文件压缩

我们已经提过，Spark原生的输入方式（textFile和sequenceFile）可以自动处理一些类型的压缩。在读取压缩后的数据时，一些压缩编解码器可以推测压缩类型。

DK_ing·2019-06-19 15:25

Spark每日半小时（17）——文本文件

1、读取文本文件只需要使用文件路径作为参数调用SparkContext中的textFile()函数，就可以读取一个文本文件，如下例。如果要控制分区数的话，可以指定minPartitions。

DK_ing·2019-06-16 19:04

Spark每日半小时（17）——文本文件

1、读取文本文件只需要使用文件路径作为参数调用SparkContext中的textFile()函数，就可以读取一个文本文件，如下例。如果要控制分区数的话，可以指定minPartitions。

DK_ing·2019-06-16 19:04

spark快速大数据分析之学习记录（三）

/bin/pyspark#运行spark运行截图：3.运行python语句shell命令：>>>lines=sc.textFile("README.md")>>>l

KYkankankan·2019-06-16 18:23

详解如何使用Spark和Scala分析Apache访问日志

/bin/spark-shellscala>valtextFile=sc.textFile("README.md")//创建一个指向README.md

解道JDON·2019-06-12 09:11

大话Spark(6)-源码之SparkContext原理剖析

我们的每一个spark个程序都需要先创建SparkContext，接着调用SparkContext的方法，比如说sc.textFile(filepath)，程序最后也会调用sc.stop（）来退出。

anjujie7320·2019-06-11 23:00

Hive存储格式跟压缩对比(各种技术都在这里)

存储:1TextFile2SequenceFile3RCFile4OrcFile5Parquet6Avro6种性能测试textfile默认格式；存储方式为行存储；磁盘开销大数据解析开销大；但使用这种方式

Hellooorld·2019-06-01 13:39

HIVE中常见文件存储格式比较

--textfile文件格式CREATETABLE`test_textfile`(`id`STRING,…,`desc`STRING)ROWFORMATDELIMITEDFIELDSTERMINATEDBY

henrrywan·2019-05-31 16:21

Spark每日半小时（3）——Spark数据抽象RDD

JavaRDDlines=sc.textFile("README.md");创建出来后，RDD支持

DK_ing·2019-05-30 22:15

Spark每日半小时（3）——Spark数据抽象RDD

JavaRDDlines=sc.textFile("README.md");创建出来后，RDD支持

DK_ing·2019-05-30 22:15

bert-as-service的使用

谷歌训练的bert使用的是tensorflow，若想使用GPU加速，需要安装相应的驱动和软件，并使用tensorflow-gpu代替常规tensorflowpython包，需要的软件及安装步骤见附件;textfile

温柔以待0617·2019-05-23 18:01

sparkcore进行wordcount词频统计

准备一份数据/home/admin/data/helloworld.txthelloworldhellohelloworldwelcomescala>valwc=sc.textFile("file://

大数据修行·2019-05-20 16:13

将本地文件导入到Hive表中（支持 TEXTFILE 、ORC 等存储格式）

1、hive表格式为TEXTFILE由于TEXTFILE格式没有对数据进行压缩，因此直接load即可。

HappyRocking·2019-05-13 18:49

行式存储与列式存储

网图自己理解如图table表分别以行、列存储以行存储时(TextFile)，所有的数据都在一块优点：select*fromtable时效率很快,但实际应用中一般不会select*缺点:当selecta,

喵星人ZC·2019-04-20 00:16

Hive中的数据类型以及存储格式

文章目录一、数据类型1、基本数据类型2、复杂数据类型二、存储格式1、textfile2、SequenceFile3、RCFile4、ORCFile5、Parquet三、数据格式一、数据类型1、基本数据类型

TheRa1nMan·2019-04-19 20:15

Hive文件格式之textfile,sequencefile和rcfile的使用与区别详解

hive在创建表时默认存储格式是textfile,或者显示自定义的storedastextfile。

itcats_cn·2019-04-10 13:00

大数据里的存储格式

hive里的存储格式hive里默认存储是textfilehive(default)>sethive.default.fileformat;hive.default.fileformat=TextFile

夜古诚·2019-04-06 16:38

推荐频道

textFile

carbondata 编译部署

rdd实现wordcount

数仓--Hive-面试之Hive支持的文件格式和压缩格式及各自特点

Hive调优之数据篇

Spark 基础 —— 创建 DataFrame 的三种方式

checkpoint

scala隐式转换实现reduceByKey

==Spark系列(九)DAGScheduler工作原理

Hive的体系结构详细讲解

上线hive表为什么要设置为textfile格式

Spark RDD编程基础

精通awk系列(6)：awk命令结构和awk语法结构

textView类似textFile的提示语

IQKeyboardManager键盘管理的使用

Start Developing iOS Apps (Swift)->将UI连接到代码（一）

Hive的数据存储格式

Hive的数据存储格式

spark 内核源码剖析八：DAGScheduler和TaskScheduler

spark基础--rdd的生成

Hive文件存储格式

Hive表建立分区外部表并且添加每天的增量数据为分区

SparkSQL中SQL风格和DSL风格的使用

Hive文件格式-textfile，sequencefile，rcfile，orcfile， Parquet

Sqoop

pyspark 运行WordCount出现错误 已解决

Spark | RDD编码

hive的存储格式TextFile、RCFile、ORC

Linux指令总结

好程序员大数据教程分享TextFile分区问题

Spark中Cache与Persist的巅峰对决

spark 常见的转化操作和行动操作

Spark Core:数据输入输出

Spark每日半小时（20）——文件压缩

Spark每日半小时（20）——文件压缩

Spark每日半小时（17）——文本文件

Spark每日半小时（17）——文本文件

spark快速大数据分析之学习记录（三）

详解如何使用Spark和Scala分析Apache访问日志

大话Spark(6)-源码之SparkContext原理剖析

Hive存储格式跟压缩对比(各种技术都在这里)

HIVE中常见文件存储格式比较

Spark每日半小时（3）——Spark数据抽象RDD

Spark每日半小时（3）——Spark数据抽象RDD

bert-as-service的使用

sparkcore进行wordcount词频统计

将本地文件导入到Hive表中（支持 TEXTFILE 、ORC 等存储格式）

行式存储 与 列式存储

Hive中的数据类型以及存储格式

Hive文件格式之textfile,sequencefile和rcfile的使用与区别详解

大数据里的存储格式

pyspark 运行WordCount出现错误已解决

行式存储与列式存储