E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
parquet
hive修改字段名后数据丢失
1.内部表
Parquet
测试CREATETABLE`test.user_active_all_
parquet
_inner`(`imp_date`dateCOMMENT'活跃日期',`user_id`stringCOMMENT
灵佑666
·
2020-09-13 19:27
Hive
spark-sql读取不到
parquet
格式的hive表
当向Hivemetastore中读写
Parquet
表时,SparkSQL将使用SparkSQL自带的ParquetSerDe(SerDe:Serialize/Deserilize的简称,目的是用于序列化和反序列化
x950913
·
2020-09-13 10:10
spark
sparkSQL之数据源读取
parquet
、json、csv案例
1、读取
parquet
数据源importorg.apache.spark.sql.SQLContextimportorg.apache.spark.
xuehuagongzi000
·
2020-09-13 07:40
spark
DF保存到mysql中或者保存成.csv .json
parquet
文件
DataFrame保存到mysqlimportjava.util.Propertiesimportcn.doit.sparksql.day01.utils.SparkUtilsimportorg.apache.spark.sql.{DataFrame,SaveMode,SparkSession}/***@description:DataFrame保存到mysql**/objectDFSaveMys
大大盒子
·
2020-09-13 06:55
spark
spark
【pyspark】一 spark dataframe 读写
parquet
、json、csv等文件
pyspark读写文件环境:zeppelin中的notebook提交的代码,python2.7,spark2.3.1pyspark读jsondataframe=spark.read.format("json").load("/tmp/testhdfsfile")#路径是hdfs上的注意json文件中,一条记录是一条json,不能换行,格式如下:{"row":"1","field1":"value1
百物易用是苏生
·
2020-09-13 06:48
spark
python
spark从json-jdbc-
parquet
-RDD-cvs中读取文件
spark:json代码:1.SparkSession对象2.spark.read.json写地址并返回内容3.内容.创建视图或者表名4.spark.sql写sql语句并且展示ex:defmain(args:Array[String]):Unit={valspark=SparkSession.builder().master(“local”).appName(“DDFJson”).getOrCre
mine_9999
·
2020-09-13 05:53
十二.SparkSQL中json数据文件转换成
parquet
文件
第一步首先在本地创建一个json文件,名字叫json_schema_infer.json,文件中数据的格式如下:{"name":"liguohui","gender":"M","height":160}{"name":"zhangsan","gender":"F","height":175,"age":26}{"name":"wangwu","gender":"M","height":180.3}
飞翔的小宇宙
·
2020-09-13 05:51
Spark
SQL
pyspark文件读写示例-(CSV/JSON/
Parquet
-单个或多个)
#创建或获取会话importpysparkfrompyspark.sqlimportSparkSessionspark=SparkSession.builder.appName('PythonSparkSQLexample').getOrCreate()读取单个文件CSVcsv_path='/home/ghost/workdata/patients.csv'df_patient=spark.rea
詩和遠方
·
2020-09-13 04:50
Python
ETL/BI/大数据
Spark 操作jdbc csv json
parquet
格式文件
1.jdbc文件以及保存到各种格式packagecn.edu360.day7importjava.util.Propertiesimportorg.apache.spark.sql.{DataFrame,Dataset,Row,SparkSession}/***Createdbylson2018/10/1.*/objectJdbcDataSource{defmain(args:Array[Stri
想做架构师
·
2020-09-13 04:04
Spark
spark spark-shell java.lang.NoClassDefFoundError:
parquet
/hadoop/ParquetOutputCommitter
spark版本:报错:Pleaseinsteaduse:-./spark-submitwith--driver-class-pathtoaugmentthedriverclasspath-spark.executor.extraClassPathtoaugmenttheexecutorclasspath18/03/0111:36:50WARNspark.SparkConf:Setting'spar
wdd668
·
2020-09-12 20:31
spark
java.lang.NoClassDefFoundError:
parquet
/hadoop/ParquetOutputCommitter
CDH5.7.0Spark-Shell启动错误java.lang.NoClassDefFoundError:
parquet
/hadoop/ParquetOutputCommitteratorg.apache.spark.sql.SQLConf
Jeremy-D
·
2020-09-12 20:36
大数据
部署问题
理解Spark中SparkSQL模块DataSource使用
1.GenericLoad/SaveFunctions在最简单的形式中,默认数据源(
parquet
除非另外由s
杨鑫newlfe
·
2020-09-12 09:43
Scala
大数据挖掘与大数据应用案例
Hive存储格式对比
ApacheHive支持ApacheHadoop中使用的几种熟悉的文件格式,如TextFile,RCFile,SequenceFile,AVRO,ORC和
Parquet
格式。
ronaldo_liu2018
·
2020-09-11 03:17
hive
sql
hdfs
Spark学习笔记
交流学习加群460570824DataSource->Kafka->SparkStreaming->
Parquet
->SparkSQL(SparkSQL可以结合ML、GraphX等)->
Parquet
-
专业大数据
·
2020-09-11 00:36
大数据
大数据
spark
关于
Parquet
ApacheParquet是有效存储嵌套数据的列式存储格式Hive中的ORC(OptimizedRecordColumnar)也是列式存储
Parquet
1与语言无关的定义文件格式的
Parquet
规范2不同语言的规范实现
ThisIsNobody
·
2020-09-10 20:44
Parquet
java 读写
Parquet
格式的数据
Parquet
example
importjava.io.BufferedReader;importjava.io.File;importjava.io.FileReader;importjava.io.IOException;importjava.util.Random;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;imp
weixin_34130389
·
2020-09-10 19:25
Parquet
文件格式介绍和读写流程
1.
Parquet
文件格式介绍
Parquet
是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目,那么这里就总结下
qiangzi_lg
·
2020-09-10 15:04
大数据
mapreduce读取
parquet
文件
1.添加
parquet
1.8.1maven依赖1.8.1JDateTime依赖3.3.8org.apache.parquetparquet-hadoop${
parquet
.version}org.joddjodd
csdnmrliu
·
2020-09-10 13:49
hadoop
parquet
网易视频云:新一代列式存储格式
Parquet
现在,网易视频云的技术专家给大家分享一则技术文:新一代列式存储格式
Parquet
。ApacheParquet是Hadoop生态圈中一种新
vcloud163
·
2020-08-26 14:02
SparkSQL操作外部数据源
parquet
数据hive表数据mysql表数据hive与mysql结合1.处理
parquet
数据启动spark-shell:spark-shell--masterlocal[2]--jars~/software
sparkle123
·
2020-08-25 11:19
Spark 学习(九) SparkSQL 函数自定义和数据源
一,简介二,SparkSQL的函数自定义2.1函数定义2.2函数注册2.3示例三,spark的数据源读取3.1JSON3.2JDBC3.3
ParQuet
3.4CSV正文一,简介很多时候sql中的内置函数无法满足我们的日常开发需求
Angela㐅cc
·
2020-08-24 17:11
自定义SparkSql语法的一般步骤
Hive中
parquet
格式表的数据文件可能会包含大量碎片文件(每次执行insert时都会产生独立的
parquet
文件),碎文件过多会影响hdfs读写效率,对表中的文件合并的一般步骤是通过对rdd做repartition
RacingHeart
·
2020-08-24 16:46
Hive存储优化之Cluster By +
Parquet
场景:在业务场景中,会经常有join或者groupby操作,这样会使数据打散,使
Parquet
无法达到最大的压缩比,使用ClusterBy使相同的key聚合排序,达到
Parquet
最大的压缩比基础知识:
木给哇啦丶
·
2020-08-24 14:54
hive
数据仓库
Hive:Execution Error, return code 2 和Error while compiling statement: FAILED三个问题
returncode2ExecutionError,returncode2fromorg.apache.hadoop.hive.ql.exec.mr.MapRedTask这个是因为查询数据量太大,如果建表时存储格式为
Parquet
IceelfLuo
·
2020-08-24 12:02
其它
Hive ORC和
Parquet
目前在开源实现中,最有名的列式存储引擎莫过于
Parquet
和ORC,并且他们都是Apache的顶级项目,在数据存储引擎方面发挥着重要的作用。
love others as self
·
2020-08-24 02:36
hive
加载hdfs的
parquet
文件到hive的分区表注意事项
加载hdfs的
parquet
文件到hive的分区表注意事项加载hdfs的
parquet
文件到hive的分区表中时,数据加载不进去问题场景描述1、使用spark将文件以
parquet
格式写入到HDFS中的指定路径下
xingchengdahai_999
·
2020-08-23 03:54
SparkSQL数据源之通用加载/保存方法/JSON文件/
Parquet
文件/JDBC
SparkSQL的默认数据源为
Parquet
格式。数据源为
Parquet
文件时,SparkSQL可以方便的执行所有的操作。修改配置项spark.sql.sources.de
大数据小同学
·
2020-08-23 03:49
#
SparkSql
数据库
mysql
hive
大数据
java
Pyspark 读取本地csv文件,插入
parquet
格式的hive表中
由于报表的需求,要将csv文件插入到
parquet
格式中的表中。在其中遇到了很多坑,在此记下来,希望能帮助到遇到同样问题的人。1、初始化配置创建SparkSession。
小晓酱手记
·
2020-08-23 02:39
PySpark
Hive
Spark之Spark Session、Dataframe、Dataset
2014.4Spark1.0)能够直接访问现存的Hive数据提供JDBC/ODBC接口供第三方工具借助Spark进行数据处理提供了更高层级的接口方便地处理数据支持多种操作方式:SQL、API编程支持多种外部数据源:
Parquet
天ヾ道℡酬勤
·
2020-08-23 00:06
spark
spark
Spark - SQL查询文件数据
>有时候有没有这么一种情况,我拿到了一个sql,csv,
parquet
文件,一起来就想写sql,不想写那些乱七八糟的的东西,只是想快速实现我要的聚合查询数据。
kikiki4
·
2020-08-23 00:25
SparkSQL 通过加载csv文件创建dataframe的常用方式总结
背景DataFrame可以从结构化文件(csv、json、
parquet
)、Hive表以及外部数据库构建得到,本文主要整理通过加载csv文件来创建Dataframe的方法使用的数据集——用户行为日志user_log.csv
AtongWood
·
2020-08-23 00:45
Spark
sparkSQL1.1入门之十:总结
SchemaRDDRuleTreeLogicPlanParserAnalyzerOptimizerSparkPlan运行架构:sqlContext运行架构hiveContext运行架构基本操作原生RDD的操作
parquet
mmicky20110730
·
2020-08-22 21:37
spark1.1.0
spark学习路线
sparkSQL1.1入门之六:sparkSQL之基础应用
SchemaRDD可以通过RDD、
Parquet
文件、JSON文件、或者通过使用hiveql查询hive数据来建立。
mmicky20110730
·
2020-08-22 21:06
spark1.1.0
spark学习路线
spark 批量读取HDFS(hive分区)
parquet
文件
情况说明:数据以
parquet
文件形式保存在HDFS上,数据中的某一列包含了日期(例如:2017-12-12)属性,根据日期对数据分区存储,如下图所示:项目需求:在项目中想要读取某一个月的数据,肿么办?
风儿吹花儿美
·
2020-08-22 20:03
spark
java.io.IOException: org.apache.
parquet
.io.ParquetDecodingException: Can not read value at 0 in bloc
java.io.IOException:org.apache.
parquet
.io.ParquetDecodingException:Cannotreadvalueat0inblock-1infilehdfs
没有合适的昵称
·
2020-08-22 19:53
疑难杂症
spark 读取 hdfs 数据分区规则
下文以读取
parquet
文件/parquethivetable为例:hivemetastore和
parquet
转化的方式通过spark.sql.hive.convertMetastoreParquet控制
哥伦布112
·
2020-08-22 18:54
spark
spark读取HDFS多个文件配置
情况说明:数据以
parquet
文件形式保存在HDFS上,数据中的某一列包含了日期(例如:2017-12-12)属性,根据日期对数据分区存储,如下图所示:项目需求:在项目中想要读取某一个月的数据,肿么办?
挖矿的小强
·
2020-08-22 18:18
spark
hdfs
Spark2 ON CDH5.15.1
刚开始从Spark官网下,基于hadoop2.6.0-cdh5.15.1版本更改pom文件的依赖,改到后面发现是个巨坑,
parquet
版本不兼容,后面隐性的一大堆Jackson依赖不兼容。
clive0x
·
2020-08-22 18:16
HBase最佳实践-用好你的操作系统
终于又切回HBase模式了,之前一段时间因为工作的原因了解接触了一段时间大数据生态的很多其他组件(诸如
Parquet
、Carbondata、Hive、SparkSQL、TPC-DS/TPC-H等),虽然只是走马观花
dianzhouyu2189
·
2020-08-22 16:22
Spark - SQL查询文件数据
>有时候有没有这么一种情况,我拿到了一个sql,csv,
parquet
文件,一起来就想写sql,不想写那些乱七八糟的的东西,只是想快速实现我要的聚合查询数据。
kikiki4
·
2020-08-21 15:41
Spark - SQL查询文件数据
>有时候有没有这么一种情况,我拿到了一个sql,csv,
parquet
文件,一起来就想写sql,不想写那些乱七八糟的的东西,只是想快速实现我要的聚合查询数据。
kikiki4
·
2020-08-21 14:21
Spark - SQL查询文件数据
>有时候有没有这么一种情况,我拿到了一个sql,csv,
parquet
文件,一起来就想写sql,不想写那些乱七八糟的的东西,只是想快速实现我要的聚合查询数据。
kikiki4
·
2020-08-21 12:11
Hive SQL之数据类型和存储格式
目录一、数据类型1、基本数据类型2、复杂类型二、存储格式(1)textfile(2)SequenceFile(3)RCFile(4)ORCFile(5)
Parquet
三、数据格式正文回到顶部一、数据类型
IT小白虫
·
2020-08-21 06:52
hive之旅
hive
大数据
数据格式
Hive 或 Impala 的数据类型与 对应底层的
Parquet
schema的数据类型不兼容
背景:修改了hive表的某些字段的数据类型,如从String->Double,此时,该表所对应的底层文件格式为
Parquet
,修改之后,更新Impala索引,然后查询修改数据类型的字段,会出现与Parquetschema
harli
·
2020-08-20 23:27
Hive
Impala
Parquet
parquet
表对于hive与imapla表字段修改
以
parquet
为存储类型的表,在hive里修改表字段类型,会造成impala中对于该表无法进行查询.强制加入cascade也是无效操作只有在impala中修改字段类型才可有效操作对于已在hive中修改的操作
_张不帅
·
2020-08-20 20:54
impala
Hive不同存储格式下的压缩算法对比
Hive不同存储格式下的压缩算法对比压缩算法Text格式
Parquet
格式ORC格式不压缩119.2G54.1G20.0GSnappy压缩30.2G23.6G13.6GGzip压缩18.8G14.1G不支持
听见下雨的声音hb
·
2020-08-20 18:44
hive
spark
hive详解之hive数据存储
hive详解之hive数据存储hive数据存储格式HIve的文件存储格式有四种:TEXTFILE、SEQUENCEFILE、ORC、
PARQUET
,前面两种是行式存储,后面两种是列式存储;所谓的存储格式就是在
花花.zhang
·
2020-08-20 17:39
hive
Spark - SQL查询文件数据
>有时候有没有这么一种情况,我拿到了一个sql,csv,
parquet
文件,一起来就想写sql,不想写那些乱七八糟的的东西,只是想快速实现我要的聚合查询数据。
kikiki4
·
2020-08-20 17:20
impala 0
其中hdfs是用hive来管理,文件格式是
parquet
格式(列式存储)。通过impala去查询
parquet
格式文件和kudu表,做一个unionall的聚合。因此在这里我用到了impala。
metooman
·
2020-08-20 17:15
大数据
Spark-SQL之DataFrame操作大全
一、DataFrame对象的生成Spark-SQL可以以其他RDD对象、
parquet
文件、json文件、hive表,以及通过JDB
SunnyMore
·
2020-08-20 14:35
上一页
6
7
8
9
10
11
12
13
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他