textFile 第14页

行式存储与列式存储

网图自己理解如图table表分别以行、列存储以行存储时(TextFile)，所有的数据都在一块优点：select*fromtable时效率很快,但实际应用中一般不会select*缺点:当selecta,

喵星人ZC·2019-04-20 00:16

Hive中的数据类型以及存储格式

文章目录一、数据类型1、基本数据类型2、复杂数据类型二、存储格式1、textfile2、SequenceFile3、RCFile4、ORCFile5、Parquet三、数据格式一、数据类型1、基本数据类型

TheRa1nMan·2019-04-19 20:15

Hive文件格式之textfile,sequencefile和rcfile的使用与区别详解

hive在创建表时默认存储格式是textfile,或者显示自定义的storedastextfile。

itcats_cn·2019-04-10 13:00

大数据里的存储格式

hive里的存储格式hive里默认存储是textfilehive(default)>sethive.default.fileformat;hive.default.fileformat=TextFile

夜古诚·2019-04-06 16:38

Hive文件存储格式（TEXTFILE 、ORC、PARQUET三者的对比）

综述：HIve的文件存储格式有四种：TEXTFILE、SEQUENCEFILE、ORC、PARQUET，前面两种是行式存储，后面两种是列式存储；所谓的存储格式就是在Hive建表的时候指定的将表中的数据按照什么样子的存储方式

夜古诚·2019-04-06 16:18

Spark-RDD持久化

(1)persist算子使用方法：varrdd=sc.textFile("test")rdd=rdd.persist(StorageLevel.MEMORY_ONLY)valcount=rdd.count

张明洋_4b13·2019-03-10 11:38

pyspark常用指令

rel[‘srcIP’]=x[14]rel[‘desIP’]=x[16]rel[‘signature’]=x[111]rel[‘eventClass’]=x[151]returnrellines=sc.textFile

纸房子·2019-02-27 17:50

hive3.0.0 新建orc表以便支持 delete 问题及sql语句调优

说明：之前查了资料得到hive3.0及以上版本是支持ACID的，但是在实际操作中并没有实现delete功能，为了节省时间之间将原来存储格式为textfile格式的内部表修改为存储格式为orcfile的orc

卢子墨·2019-02-22 11:30

大数据学习笔记之Spark-RDD编程

RDD创建创建RDD主要有两种方法：读取外部数据集JavaRDDlines=sc.textFile("yourfilepath")在驱动程序中对一个集合进行并行化JavaRDDlines=sc.parralelize

断桥bian·2019-02-11 15:54

大数据学习笔记之Spark-RDD编程

RDD创建创建RDD主要有两种方法：读取外部数据集JavaRDDlines=sc.textFile("yourfilepath")在驱动程序中对一个集合进行并行化JavaRDDlines=sc.parralelize

断桥bian·2019-02-11 15:54

至少4种方式使用spark算子实现wordcout

1.使用reduceBykey需求:读取一个存放word的文件读取这个文件使用reduceByKey算子进行wordcount演示1.valwordrdd=sc.textFile("file:/opt/

pkingdog·2019-01-22 20:01

Hive调优

cpongo333·2019-01-18 00:24

spark数据类型

RDD创建RDD读取文件sc.textFile并行化sc.parallelize其他方式RDD操作TransfermationunionintersectiondistinctgroupByKeyreduceByKeysortByKeyjoinleftOuterJoinrightOuterJoinaggregateActionreducecountfirsttaketakeSampletakeOr

007在学机器学习·2019-01-17 17:19

Spark读取本地文件问题

liuhehe123·2019-01-14 18:00

Spark学习笔记

frompysparkimportSparkConf,SparkContext上传本地文件到hdfshadoopfs-copyFromLocal/data/data.txt/spark/加载文件数据lines=sc.textFile

alpha18·2019-01-12 15:53

Spark：用CombineTextInputFormat缓解小文件过多导致Task数目过多的问题

http://www.cnblogs.com/yurunmiao/p/5195754.html原始读法：lines=sc.textFile("hdfs:///dir/")这样一个block会形成一个partition

xuejianbest·2019-01-07 13:05

spark调优之开发调优

（1）避免重复的RDD案例：valrdd1=sc.textFile("hdfs://zzy/hello.txt")rdd1.map(...)valrdd2=sc.textFile("hdfs://zzy

原生zzy·2019-01-04 10:18

spark03--textFile分区算法,常用算子使用,启动,任务提交流程, 基站案例

文章目录一textFile分区算法二常用算子使用2.1mapmapPartitions2.2mapPartitionsWithIndex2.3aggregate2.4aggregateByKey2.5combineByKey2.6countByKey

forever428·2019-01-03 20:10

数据存储text转parquet及引发的OOM问题

1.数据转parquet的后效果table1为textfile格式存储的表，分区20161122转换之前大小约400M,分别以parquet无压缩，parquetsnappy压缩和parquetgzip

javastart·2019-01-03 17:50

Impala 简单使用指南

MapReduce程序，直接访问HDFS,Hbase中的数据进行作业调度，速度快3.使用了支持datalocality的IO调度机制：尽可能将数据和计算分配在同一台机器上，减少网络开销4.支持各种文件格式，如TEXTFILE

123.56.119.133:8090·2018-12-26 19:33

Sqoop 同步数据到mysql， Can't parse input data: '\N'

Sqoop同步数据到mysqlSqoop从hdfs同步数据到mysql是我们常常遇到的事情同步分为分区表同步和非分区表同步需要注意以下几点1.hive中的表必须是textfile，不能是有parquet

IloveMing0305·2018-12-26 17:32

Spark编程基础3RDD编程、Spark SQL

第5章RDD编程5.1RDD编程基础5.1.1RDD创建1.从文件系统中加载数据创建RDDSpark采用textFile()方法来从文件系统中加载数据创建RDD该方法把文件的URI作为参数，这个URI可以是

A记录学习路线·2018-12-23 16:23

spark1.6源码-----任务提交与执行之RDD的构建

本文以sparkWordCount为例来解析valinput=sc.textFile("C:\\Users\\pc\\PycharmProjects\\PyNews\\word*",1).flatMap

qq_33872191·2018-12-22 22:51

org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://localhost~~

报错在Spark中运行sc.textFile()等函数后报以下错误：org.apache.hadoop.mapred.InvalidInputException:Inputpathdoesnotexist

小夏陌·2018-12-06 15:44

Hive文件存储格式（TEXTFILE 、ORC、PARQUET三者的存储格式的压缩对比和查询速度对比）

综述：HIve的文件存储格式有四种：TEXTFILE、SEQUENCEFILE、ORC、PARQUET，前面两种是行式存储，后面两种是列式存储；所谓的存储格式就是在Hive建表的时候指定的将表中的数据按照什么样子的存储方式

isea_you·2018-12-06 11:06

Hive(五):常见存储格式的性能测试、比较

测试文件:https://blog.csdn.net/huonan_123/article/details/84784811大小:18.1M测试方法以下是测试textFile存储的Demo,其它存储的测试方法参照既可以

huo_火力全开·2018-12-04 18:39

spark 2.4 操作

sc.textfile()一读取本地文件系统目录要加file：读取hdfs的要加hdfs：二遇到Exceptioninthread"main"java.lang.IllegalAccessError:triedtoaccessmethodcom.google.common.base.Stopwatch

Helen_Cat·2018-11-28 15:57

Spark wordcount

valfile=sc.textFile(“D:/BigDataTools/helloworld.txt”)//内置对象sc，去加载一个文件//懒加载，不会立即去加载file这个文件，所以这一步文件名写错了也不会报错

A记录学习路线·2018-11-28 11:48

SparkSQL访问MySql源

org.apache.sparkspark-sql_2.112.3.0mysqlmysql-connector-java5.1.22创建SparkSession/***SparkSession*支持数据源：textFile

黑暗行动·2018-11-18 23:17

（四）DataFrame的常用函数

5.1.27.jarscala>caseclassStudent(id:String,name:String,phone:String,email:String)scala>valstudents=sc.textFile

白面葫芦娃92·2018-11-12 16:09

Spark Streaming（八）：容错和事务

每个RDD都会记住确定好的计算操作的血缘关系，（vallines=sc.textFile(hdfsfile);valwords=lines.flatMap();valpairs=words.map();

张凯_9908·2018-11-07 15:28

Spark Hive 导入数据到 HBase

导读：如何使用MapReduce将textfile、rcfile格式的Hive表数据导入到HBase，上一篇博客中已经做了介绍MapReduceHive导入数据到HBase，MR这种方式有两个缺点，一是当数据量特别大的时候

HG_Harvey·2018-11-06 15:50

Apache Flink 各类关键数据格式读取/SQL支持

基于SQL归并时SparkStreaming支持的输入/输出数据如下：数据类型Flink支持情况Kafka需要定义schemaHDFS(parquet/csv/textfile)读取parquet需要使用

rongyongfeikai2·2018-11-02 16:22

hive 项目实战(2)

因为这里创建的表要使用orc的压缩方式，而不使用默认的textfile的方式，orc的压缩方式要想向表中导入数据需要使用子查询的方式导入，即把从另一张表中查询到的数据插入orc压缩格式的表汇中，所以这里需要四张表

mmalan·2018-11-01 18:33

spark1.6使用：读取本地外部数据，把RDD转化成DataFrame，保存为parquet格式,读取csv格式

src/spark-1.6.1-bin-hadoop2.6/libext/com.mysql.jdbc.Driver.jar1.读取spark目录下面的logs日志作为测试：valalllog=sc.textFile

lbship·2018-11-01 15:22

Hive文件格式

文章目录1.概述1.1行存储列存储2.TEXTFILE3.SEQUENCEFILE3.RCFILE4.ORCFILE5.Parquet8.区别8.1空间对比，磁盘空间占用大小比较8.2查询语句运行时间大小比较

九师兄-梁川川·2018-10-18 19:34

spark 2.3.1 入门教程

可以从HadoopInputFormats（例如HDFS文件）或通过转换其他数据集来创建数据集scala>valtextFile=spark.read.textFile("README.md")text

Echo_y_q·2018-10-17 17:24

Spark RDD练习

单词统计读取文件valrdd=sc.textFile("file:///root/customer.csv")//读取本地文件valrdd=sc.textFile("hdfs:///temp/root/

hipeer·2018-10-08 20:32

Spark系列2 - Spark RDD编程

一、RDD编程基础1RDD创建从文件系统创建RDDtextFilevalpart=sc.textFile("file:///root/software/spark-2.2.0-bin-hadoop2.6

guoxiaojie_415·2018-09-28 18:48

Hive进阶（2）—— 存储格式

存储格式基本概念官网：https://cwiki.apache.org/confluence/display/Hive/FileFormats官网介绍：Hivesupportsseveralfileformats:*TextFile

疯狂呼呼呼·2018-09-27 22:28

Spark算子：transformation之map、flatMap和distinct

//HDFS上的txt文件hadoopfs-cat/tmp/1.txthelloworldhellosparkhellohive//读取HDFS文件到RDDscala>vardata=sc.textFile

cleargy·2018-09-20 12:17

# 数据分析最佳实践 - 数据梳理、处理、提交集群

0x01数据梳理&处理方式:筛选和过滤valtextFile=sc.textFile("hdfs://xxxxxxxxx.net/xxx/xxx/xxx")varlinesWithSpark=textFile.filter

Sevsea·2018-09-10 12:19

24-SparkSQL04

Coding,cooking3linatravel,dance2caseclassLikes(name:String,likes:String)vallikes=spark.sparkContext.textFile

CrUelAnGElPG·2018-09-10 02:10

24-SparkSQL04

Coding,cooking3linatravel,dance2caseclassLikes(name:String,likes:String)vallikes=spark.sparkContext.textFile

CrUelAnGElPG·2018-09-10 02:10

spark RDD创建方式：parallelize，makeRDD，textFile

parallelize调用SparkContext的parallelize()，将一个存在的集合，变成一个RDD，这种方式试用于学习spark和做一些spark的测试scala版本?1defparallelize[T](seq:Seq[T],numSlices:Int=defaultParallelism)(implicitarg0:ClassTag[T]):RDD[T]-第一个参数一是一个Seq

hellozhxy·2018-08-31 09:10

Python运维自动化之nginx配置文件对比操作示例

/usr/bin/envpython#importdifflibimportsystry:textfile1=sys.argv[1]textfile2=sys.argv[2]exceptexception

努力一方·2018-08-29 08:00

Spark的常见问题解析

1.输入这句话可以成功：①scala>vallines=sc.textFile("file:///home/hyxy/README.md")但是输入：②scala>lines.count 为什么会报错抛异常呢

Aime_Perfect·2018-08-27 22:11

基于Spark-ALS的协同过滤算法推荐系统

path="hdfs://localhost:9000/user/fantastic_liar/"rawUserData=sc.textFile(path+"data/u.data")rawUserData.count

Fantastic_Liar·2018-08-25 13:05

大数据学习之路30-hive的DDL语法，文件存储格式

1.hive的存储文件格式hive支持很多种文件格式：SEQUENCEFILE|TEXTFILE|PARQUETFILE|RCFILE万一有不支持的，我们只要在lib中加一个能解析这种文件的jar包就可以了

爱米酱·2018-08-20 19:28

如何跳过Spark中CSV文件的标题？

valrdd=sc.textFile("file1,file2,file3")现在，我们如何跳过此rdd的标题行？

酱g·2018-08-17 17:36

推荐频道

textFile

行式存储 与 列式存储

Hive中的数据类型以及存储格式

Hive文件格式之textfile,sequencefile和rcfile的使用与区别详解

大数据里的存储格式

Hive文件存储格式（TEXTFILE 、ORC、PARQUET三者的对比）

Spark-RDD持久化

pyspark常用指令

hive3.0.0 新建orc表以便支持 delete 问题 及sql语句调优

大数据学习笔记之Spark-RDD编程

大数据学习笔记之Spark-RDD编程

至少4种方式使用spark算子实现wordcout

Hive调优

spark数据类型

Spark读取本地文件问题

Spark学习笔记

Spark：用CombineTextInputFormat缓解小文件过多导致Task数目过多的问题

spark调优之开发调优

spark03--textFile分区算法,常用算子使用,启动,任务提交流程, 基站案例

数据存储text转parquet及引发的OOM问题

Impala 简单使用指南

Sqoop 同步数据到mysql， Can't parse input data: '\N'

Spark编程基础3RDD编程、Spark SQL

spark1.6源码-----任务提交与执行之RDD的构建

org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://localhost~~

Hive文件存储格式（TEXTFILE 、ORC、PARQUET三者的存储格式的压缩对比和查询速度对比）

Hive(五):常见存储格式的性能测试、比较

spark 2.4 操作

Spark wordcount

SparkSQL访问MySql源

（四）DataFrame的常用函数

Spark Streaming（八）：容错和事务

Spark Hive 导入数据到 HBase

Apache Flink 各类关键数据格式读取/SQL支持

hive 项目实战(2)

spark1.6使用：读取本地外部数据，把RDD转化成DataFrame，保存为parquet格式,读取csv格式

Hive文件格式

spark 2.3.1 入门教程

Spark RDD练习

Spark系列2 - Spark RDD编程

Hive进阶（2）—— 存储格式

Spark算子：transformation之map、flatMap和distinct

# 数据分析最佳实践 - 数据梳理、处理、提交集群

24-SparkSQL04

24-SparkSQL04

spark RDD创建方式：parallelize，makeRDD，textFile

Python运维自动化之nginx配置文件对比操作示例

Spark的常见问题解析

基于Spark-ALS的协同过滤算法推荐系统

大数据学习之路30-hive的DDL语法，文件存储格式

如何跳过Spark中CSV文件的标题？

行式存储与列式存储

hive3.0.0 新建orc表以便支持 delete 问题及sql语句调优