E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
textFile
Delphi保存字符串到文本文件
proceduremSaveToFile(constFileName:string;sts:string);varMyTextFile:
TextFile
;//定义变量MyTextFile为文本文件类型begin
龙门吹雪
·
2024-09-11 17:58
Hive的存储格式
文章目录Hive的存储格式1.存储格式简介2.行存储与列存储行式存储列式存储混合的PAX存储结构TextFileSequenceFileHive的存储格式1.存储格式简介Hive支持的存储数的格式主要有:
TEXTFILE
百流
·
2024-09-03 12:16
hadoop学习日记
hive
hadoop
数据仓库
12.Spark Core-Spark-RDD持久化
(1)persist算子使用方法:varrdd=sc.
textFile
("test")rdd=rdd.persist(StorageLevel.MEMORY_ONLY)valcount=rdd.count
__元昊__
·
2024-08-25 23:43
hive load data未正确读取到日期
1.源数据CSV文件日期字段值:2.hiveDDL语句:CREATEEXTERNALTABLE`test.
textfile
_table1`(`id`intCOMMENT'????'
dogplays
·
2024-02-20 08:48
hive
hadoop
数据仓库
(10)Hive的相关概念——文件格式和数据压缩
目录一、文件格式1.1列式存储和行式存储1.1.1行存储的特点1.1.2列存储的特点1.2
TextFile
1.3SequenceFile1.4Parquet1.5ORC二、数据压缩2.1数据压缩-概述2.1.1
爱吃辣条byte
·
2024-02-19 13:21
#
Hive
hive
数据仓库
大数据 - Spark系列《三》- 加载各种数据源创建RDD
》-从Hadoop到Spark:大数据计算引擎的演进-CSDN博客大数据-Spark系列《二》-关于Spark在Idea中的一些常用配置-CSDN博客目录3.1加载文件(本地)1.加载本地文件路径使用
textFile
王哪跑nn
·
2024-02-05 09:28
spark
大数据
spark
分布式
Spark-RDD持久化
(1)persist算子使用方法:varrdd=sc.
textFile
("test")rdd=rdd.persist(StorageLevel.MEMORY_ONLY)valcount=rdd.count
printf200
·
2024-01-27 08:02
angular HttpClient
1.简单的获取JSON数据//assets/config.json{"heroesUrl":"api/heroes","
textfile
":"assets/
textfile
.txt"}//app/config
榴莲不好吃
·
2024-01-26 13:30
angular
HttpClient
pyspark学习_wordcount
SparkContextconf=SparkConf().setAppName("RddwordCount").setMaster("local[*]")sc=SparkContext(conf=conf)lines=sc.
textFile
heiqizero
·
2024-01-26 02:09
spark
spark
python
pyspark学习_RDD转为DataFrame
people.txtTom12Jack13Janny14frompyspark.sqlimportSparkSession,Rowspark=SparkSession.builder.getOrCreate()lines=spark.sparkContext.
textFile
heiqizero
·
2024-01-26 02:09
spark
spark
python
pyspark学习-RDD转换和动作
parallelize方法:创建RDD,参数为list,返回RDDsc.parallelize(param:list)#demosc.parallelize(['tom','jack','black'])#2.
textFile
heiqizero
·
2024-01-26 02:39
spark
spark
python
请手动写出wordcount的spark代码实现
valconf=newSparkConf().setMaster("local[6]").setAppName("wordCount")valsc=newSparkContext(conf)sc.
textFile
scott_alpha
·
2024-01-24 23:28
Spark RDD分区数和分区器
一、分区数如何决定1、数据源RDD数据源RDD的分区数由数据源的读取器决定,比如sc.
textFile
产生的rdd,分区数由TextInputFormat.getInputSplits()方法决定,具体源码追踪及解析如下
maplea2012
·
2024-01-23 15:40
spark
大数据
hadoop
Spark---RDD持久化
vallines=context.
textFile
("D:\\learnSoftWare\\IdeaProject\\Spark_Demo\\
肥大毛
·
2024-01-13 07:40
scala
spark
大数据
spark
ajax
大数据
Spark基础二
一.Spark入门案例总结1.读取文件:
textFile
(path):读取外部数据源,支持本地文件系统和hdfs文件系统.2.将结果数据输出文件上:saveAsTextFile(path):将数据输出到外部存储系统
MSJ3917
·
2024-01-08 07:52
spark
大数据
分布式
25、Spark核心编程之RDD持久化详解
不使用RDD持久化的问题首先看一段代码JavaRDDlinesRDD=javaSparkContext.
textFile
("hdfs://hadoop-100:9000/testdate/1.txt")
ZFH__ZJ
·
2024-01-07 23:21
SparkSQL、RDD和DataFrame基本操作
1三者比较易操作程度SparkSQL>DataFrame>RDD2创建RDD、DataFrame和SparkSQL2.1创建RDDrawUserData=sc.
textFile
("file:/home/
路人乙yh
·
2024-01-04 23:39
spark(三):spark的数据读取和保存
一、spark支持的文件格式1、文本文件,每行一条记录使用sc.
textFile
来读取一个文件,使用saveAsTextFile方法将RDD保存为一个文件2、JSON格式文件,大多是每行一条记录这里需要注意是每一行是一个
_NeutronStar
·
2024-01-01 04:12
ls、cat、 mv、 touch 命令行的使用方法以及 explainshell.com 介绍
例如:cat-ntextfile1>
textfile
2是把
textfile
1的文档内容加上行号后输入text
慢跑伴昭君
·
2023-12-27 21:21
【Hive_04】分区分桶表以及文件格式
)创建分区表(2)分区表读写数据(3)分区表基本操作1.2二级分区1.3动态分区2、分桶表2.1分桶表的基本语法2.2分桶排序表3、文件格式与压缩3.1Hadoop压缩概述3.2Hive文件格式(1)
TextFile
温欣2030
·
2023-12-24 16:41
hive
hadoop
数据仓库
Hive 存储与压缩
文章目录存储格式行存储与列存储存储格式解析
TextFile
格式ORC格式Parquet格式存储效率对比
TextFile
格式ORC格式(推荐)Parquet格式对比压缩ORC——ZLIB压缩ORC——SNAPPY
月亮给我抄代码
·
2023-12-23 22:28
Hive
杂谈
hive
hadoop
大数据
讲道理,Hive文件存储与压缩还是挺重要的
压缩和存储1、文件存储格式Hive支持的存储数的格式主要有:
TEXTFILE
、SEQUENCEFILE、ORC、PARQUET。
看朱成碧_
·
2023-12-23 22:27
Hive
mysql
hive
大数据
分布式存储
【004hive基础】hive的文件存储格式与压缩
文章目录一.hive的行式存储与列式存储二.存储格式1.
TEXTFILE
2.ORC格式3.PARQUET格式ing三.Hive压缩格式1.mr支持的压缩格式:2.hive配置压缩的方式:2.1.开启map
roman_日积跬步-终至千里
·
2023-12-23 22:56
hive
hive
大数据
hadoop
Hive文件格式与压缩
Hive文件格式与压缩Hive支持的存储数据格式主要有:文本格式(
TEXTFILE
)、二进制序列化文件(SEQUENCEFILE)、行列式文件(RCFile)、优化的行列式文件(ORC)、PARQUET
会撸代码的懒羊羊
·
2023-12-23 22:56
Educoder
hive
hadoop
linux
数据库
big
data
Hive 文件存储格式与数据压缩结合
1压缩比和查询速度对比1)
TextFile
(1)创建表,存储数据格式为TEXTFILEcreatetablelog_text(track_timestring,urlstring,session_idstring
北山璎珞
·
2023-12-23 22:56
数据仓库
hive
文件存储格式
数据压缩结合
hive数据存储与压缩
存储文件压缩比总结:ORC>Parquet>
textFile
存储文件的查询速度总结:(selectcount(*))ORC>
TextFile
>Parquet存储方式和压缩总结:在实际的项目开发当中,hive
Anla Likes Sunshine
·
2023-12-23 22:55
hive
Spark-RDD持久化
(1)persist算子使用方法:varrdd=sc.
textFile
("test")rdd=rdd.persist(StorageLevel.MEMORY_ONLY)valcount=rdd.count
数据萌新
·
2023-12-21 11:06
RDD编程
五)一个综合实例二、键值对RDD(一)键值对RDD的创建(二)常用键值对转换操作(三)一个综合实例三、数据读写(一)文件数据读写(二)读写HBase数据一、RDD编程基础(一)RDD创建Spark采用
textFile
Francek Chen
·
2023-12-19 10:19
Spark编程基础
RDD
spark
分布式
hbase
hive 常见存储格式和应用场景
1.存储格式
textfile
、sequencefile、orc、parquetsequencefile很少使用(不介绍了),常见的主要就是orc和parquet建表声明语句是:storedastextfile
Logan_addoil
·
2023-12-16 07:13
大数据学习之旅
hive
hadoop
数据仓库
Spark常见算子汇总
创建RDD在Spark中创建RDD的方式分为三种:从外部存储创建RDD从集合中创建RDD从其他RDD创建
textfile
调用SparkContext.
textFile
()方法,从外部存储中读取数据来创建
话数Science
·
2023-12-06 21:05
大数据
面试
Spark
spark
大数据
机器学习---pySpark案例
#pv8.sc.
textFile
("./pvuv").map(lambdaline:(line.split("\t")[4],1))
30岁老阿姨
·
2023-12-06 17:53
机器学习
前端
服务器
javascript
hive文件存储格式orc和parquet详解
hive支持的文件类型:
textfile
、sequencefile(二进制序列化文件)、rcfile(行列式文件)、parquet、orcfile(优化的行列式文件)一、orc文件带有描述式的行列式存储文件
!@123
·
2023-12-06 07:32
大数据
hive
数据仓库
spark读取GBK文件的方法
spark读取GBK文件乱码spark的
textFile
方法默认写死了读UTF-8格式的文件,读其他格式的文件则会显示乱码。
NikolasNull
·
2023-12-03 02:31
spark - java 编程实现Word count
org.apache.sparkspark-core_2.122.4.0如果使用java8版本还需要加入com.thoughtworks.paranamerparanamer2.8否则读取文件时候出现异常JavaRDDrdd1=sc.
textFile
良人与我
·
2023-12-02 11:37
Hive参数详解
如果CombineHiveInputFormat有问题,则使用HiveInputFormathive.default.fileformat默认值
TextFile
可选项:
TextFile
,Sequence
Chin_qf
·
2023-12-01 10:12
Spark---SparkCore(三)
local").setAppName("brocast")valsc=newSparkContext(conf)valbroadCast=sc.broadcast(list)vallineRDD=sc.
textFile
30岁老阿姨
·
2023-11-29 07:08
Spark
java
javascript
服务器
数据算法 Hadoop/Spark大数据处理---第十章
本章实现方式基于传统spark来实现基于传统Scala来实现本章实现方式的思路-spark:1.先创建JavaSparkContext,
textFile
读入文件。
_Kantin
·
2023-11-28 08:05
Spark读取外部数据的原理解读
收录于话题#spark2#大数据17#大数据常用技术15为了简化理解,该文尝试使用SparkContext.
textFile
()为入口进行分析。
跃ge
·
2023-11-24 16:33
spark
spark(一)----算子
1.算子:RDD的方法就叫算子RDD:spark中分区的集合
textFile
(“文件路径”)parallilize(数组/元组/map等一系列集合)2.spark中算子分类:(1)Transformations
计算机界的小学生
·
2023-11-23 12:41
spark
spark
big
data
大数据
spark简单数据查询与常见算子
Algorithm,50Tom,DataStructure,60Jim,DataBase,90Jim,Algorithm,60Jim,DataStructure,80该系总共有多少学生;vallines=sc.
textFile
背帆
·
2023-11-21 17:53
大数据
spark
大数据
scala
sql
Hive的SQL执行效率优化
在Hive中文件存储格式有
TextFile
、SequenceFile、RCFile、ORC(实际工作中常用)、parquet五种类型,但是ORC是最常用的,对于这五种类型用下表可以清晰对之进行区分。
黑白键的约定
·
2023-11-20 21:53
大数据
hive
MapJoin
SQL优化
2023.11.17 -hivesql调优,数据压缩,数据存储
目录1.hive命令和参数配置2.hive数据压缩3.hive数据存储0.原文件大小18.1MB1.
textfile
行存储格式,压缩后size:18MB2.行存储格式:squencefile,压缩后大小
白白的wj
·
2023-11-20 16:33
hive
hadoop
数据仓库
sql
大数据
数据库
database
Spark数据倾斜解决思路
1.避免数据源倾斜-HDFSSpark通过
textFile
(path,minPartitions)方法读取文件时,使用TextInputFormat。
小小大数据
·
2023-11-19 17:13
Spark
spark
大数据
kafka
sparkSql数据的加载与保存
spark.read.csvformatjdbcjsonloadoptionoptionsorcparquetschematabletexttextFile注意:加载数据的相关参数需写到上述方法中,如:
textFile
大梁、
·
2023-11-15 05:08
spark
sparkSql
SparkSQL的文件加载和保存
spark.read.format("…")[.option("…")].load("…")format("…"):指定加载的数据类型,包括"csv"、"jdbc"、"json"、"orc"、"parquet"和"
textFile
爱吃喵的虎
·
2023-11-15 05:35
大数据
spark
spark
mysql
spark调优-开发调优
shuffle操作(combine)(6)使用高性能的算子(7)使用广播变量(8)使用spark自带的Kryo序列化(9)数据结构的调优:字符串、对象、集合类型(1)避免重复的RDD案例:valrdd1=sc.
textFile
qichangjian
·
2023-11-14 06:12
大数据学习
spark使用_关于文件读取和保存
读取文件#读取文件csv|txt|其他文本文件sc.
textFile
(文件名)sc.wholeTextFile(文件名)#存文件sc.savaAsText(文件名)json文件读取读取json的方法,集成
武念
·
2023-11-09 14:58
大数据系列
spark
java
intellij-idea
spark读取其他服务器文件,spark(三):spark的数据读取和保存
一、spark支持的文件格式1、文本文件,每行一条记录使用sc.
textFile
来读取一个文件,使用saveAsTextFile方法将RDD保存为一个文件2、JSON格式文件,大多是每行一条记录这里需要注意是每一行是一个
冯一之
·
2023-11-09 14:57
spark读取其他服务器文件
SparkCore和SparkSql读取与保存hdfs文件的方法
setMaster(“spark://IP地址:7077”)//这里你可以写local,我这样写是可以看做是在用spark-on-yarnvalsc=newSparkContext(conf);valdata=sc.
textFile
尘世壹俗人
·
2023-11-09 14:24
大数据Spark技术
spark
大数据
大数据面经持续更新
1.hive数据格式之间的区别
textfile
:默认存储格式,行存储,每一行是一条记录,每行以换行符进行结尾(\n),数据不做压缩,磁盘开销大,数据解析开销大。
date-date
·
2023-11-09 03:05
mapreduce
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他