parquet 第10页

hive修改字段名后数据丢失

1.内部表Parquet测试CREATETABLE`test.user_active_all_parquet_inner`(`imp_date`dateCOMMENT'活跃日期',`user_id`stringCOMMENT

灵佑666·2020-09-13 19:27

spark-sql读取不到parquet格式的hive表

当向Hivemetastore中读写Parquet表时，SparkSQL将使用SparkSQL自带的ParquetSerDe（SerDe：Serialize/Deserilize的简称,目的是用于序列化和反序列化

x950913·2020-09-13 10:10

sparkSQL之数据源读取parquet、json、csv案例

1、读取parquet数据源importorg.apache.spark.sql.SQLContextimportorg.apache.spark.

xuehuagongzi000·2020-09-13 07:40

DF保存到mysql中或者保存成.csv .json parquet文件

DataFrame保存到mysqlimportjava.util.Propertiesimportcn.doit.sparksql.day01.utils.SparkUtilsimportorg.apache.spark.sql.{DataFrame,SaveMode,SparkSession}/***@description:DataFrame保存到mysql**/objectDFSaveMys

大大盒子·2020-09-13 06:55

【pyspark】一 spark dataframe 读写parquet、json、csv等文件

pyspark读写文件环境：zeppelin中的notebook提交的代码，python2.7,spark2.3.1pyspark读jsondataframe=spark.read.format("json").load("/tmp/testhdfsfile")#路径是hdfs上的注意json文件中，一条记录是一条json，不能换行，格式如下：{"row":"1","field1":"value1

百物易用是苏生·2020-09-13 06:48

spark从json-jdbc-parquet-RDD-cvs中读取文件

spark：json代码：1.SparkSession对象2.spark.read.json写地址并返回内容3.内容.创建视图或者表名4.spark.sql写sql语句并且展示ex:defmain(args:Array[String]):Unit={valspark=SparkSession.builder().master(“local”).appName(“DDFJson”).getOrCre

mine_9999·2020-09-13 05:53

十二.SparkSQL中json数据文件转换成parquet文件

第一步首先在本地创建一个json文件,名字叫json_schema_infer.json,文件中数据的格式如下:{"name":"liguohui","gender":"M","height":160}{"name":"zhangsan","gender":"F","height":175,"age":26}{"name":"wangwu","gender":"M","height":180.3}

飞翔的小宇宙·2020-09-13 05:51

pyspark文件读写示例-（CSV/JSON/Parquet-单个或多个）

#创建或获取会话importpysparkfrompyspark.sqlimportSparkSessionspark=SparkSession.builder.appName('PythonSparkSQLexample').getOrCreate()读取单个文件CSVcsv_path='/home/ghost/workdata/patients.csv'df_patient=spark.rea

詩和遠方·2020-09-13 04:50

Spark 操作jdbc csv json parquet格式文件

1.jdbc文件以及保存到各种格式packagecn.edu360.day7importjava.util.Propertiesimportorg.apache.spark.sql.{DataFrame,Dataset,Row,SparkSession}/***Createdbylson2018/10/1.*/objectJdbcDataSource{defmain(args:Array[Stri

想做架构师·2020-09-13 04:04

spark spark-shell java.lang.NoClassDefFoundError: parquet/hadoop/ParquetOutputCommitter

spark版本：报错：Pleaseinsteaduse:-./spark-submitwith--driver-class-pathtoaugmentthedriverclasspath-spark.executor.extraClassPathtoaugmenttheexecutorclasspath18/03/0111:36:50WARNspark.SparkConf:Setting'spar

wdd668·2020-09-12 20:31

java.lang.NoClassDefFoundError: parquet/hadoop/ParquetOutputCommitter

CDH5.7.0Spark-Shell启动错误java.lang.NoClassDefFoundError:parquet/hadoop/ParquetOutputCommitteratorg.apache.spark.sql.SQLConf

Jeremy-D·2020-09-12 20:36

理解Spark中SparkSQL模块DataSource使用

1.GenericLoad/SaveFunctions在最简单的形式中，默认数据源（parquet除非另外由s

杨鑫newlfe·2020-09-12 09:43

Hive存储格式对比

ApacheHive支持ApacheHadoop中使用的几种熟悉的文件格式，如TextFile，RCFile，SequenceFile，AVRO，ORC和Parquet格式。

ronaldo_liu2018·2020-09-11 03:17

Spark学习笔记

交流学习加群460570824DataSource->Kafka->SparkStreaming->Parquet->SparkSQL(SparkSQL可以结合ML、GraphX等)->Parquet-

专业大数据·2020-09-11 00:36

关于Parquet

ApacheParquet是有效存储嵌套数据的列式存储格式Hive中的ORC(OptimizedRecordColumnar)也是列式存储Parquet1与语言无关的定义文件格式的Parquet规范2不同语言的规范实现

ThisIsNobody·2020-09-10 20:44

java 读写Parquet格式的数据 Parquet example

importjava.io.BufferedReader;importjava.io.File;importjava.io.FileReader;importjava.io.IOException;importjava.util.Random;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;imp

weixin_34130389·2020-09-10 19:25

Parquet文件格式介绍和读写流程

1.Parquet文件格式介绍Parquet是面向分析型业务的列式存储格式，由Twitter和Cloudera合作开发，2015年5月从Apache的孵化器里毕业成为Apache顶级项目，那么这里就总结下

qiangzi_lg·2020-09-10 15:04

mapreduce读取parquet文件

1.添加parquet1.8.1maven依赖1.8.1JDateTime依赖3.3.8org.apache.parquetparquet-hadoop${parquet.version}org.joddjodd

csdnmrliu·2020-09-10 13:49

网易视频云：新一代列式存储格式Parquet

现在，网易视频云的技术专家给大家分享一则技术文：新一代列式存储格式Parquet。ApacheParquet是Hadoop生态圈中一种新

vcloud163·2020-08-26 14:02

SparkSQL操作外部数据源

parquet数据hive表数据mysql表数据hive与mysql结合1.处理parquet数据启动spark-shell:spark-shell--masterlocal[2]--jars~/software

sparkle123·2020-08-25 11:19

Spark 学习（九） SparkSQL 函数自定义和数据源

一，简介二，SparkSQL的函数自定义2.1函数定义2.2函数注册2.3示例三，spark的数据源读取3.1JSON3.2JDBC3.3ParQuet3.4CSV正文一，简介很多时候sql中的内置函数无法满足我们的日常开发需求

Angela㐅cc·2020-08-24 17:11

自定义SparkSql语法的一般步骤

Hive中parquet格式表的数据文件可能会包含大量碎片文件(每次执行insert时都会产生独立的parquet文件)，碎文件过多会影响hdfs读写效率，对表中的文件合并的一般步骤是通过对rdd做repartition

RacingHeart·2020-08-24 16:46

Hive存储优化之Cluster By + Parquet

场景：在业务场景中，会经常有join或者groupby操作，这样会使数据打散，使Parquet无法达到最大的压缩比，使用ClusterBy使相同的key聚合排序，达到Parquet最大的压缩比基础知识：

木给哇啦丶·2020-08-24 14:54

Hive：Execution Error, return code 2 和Error while compiling statement: FAILED三个问题

returncode2ExecutionError,returncode2fromorg.apache.hadoop.hive.ql.exec.mr.MapRedTask这个是因为查询数据量太大，如果建表时存储格式为Parquet

IceelfLuo·2020-08-24 12:02

Hive ORC和Parquet

目前在开源实现中，最有名的列式存储引擎莫过于Parquet和ORC，并且他们都是Apache的顶级项目，在数据存储引擎方面发挥着重要的作用。

love others as self·2020-08-24 02:36

加载hdfs的parquet文件到hive的分区表注意事项

加载hdfs的parquet文件到hive的分区表注意事项加载hdfs的parquet文件到hive的分区表中时，数据加载不进去问题场景描述1、使用spark将文件以parquet格式写入到HDFS中的指定路径下

xingchengdahai_999·2020-08-23 03:54

SparkSQL数据源之通用加载/保存方法/JSON文件/Parquet文件/JDBC

SparkSQL的默认数据源为Parquet格式。数据源为Parquet文件时，SparkSQL可以方便的执行所有的操作。修改配置项spark.sql.sources.de

大数据小同学·2020-08-23 03:49

Pyspark 读取本地csv文件，插入parquet格式的hive表中

由于报表的需求，要将csv文件插入到parquet格式中的表中。在其中遇到了很多坑，在此记下来，希望能帮助到遇到同样问题的人。1、初始化配置创建SparkSession。

小晓酱手记·2020-08-23 02:39

Spark之Spark Session、Dataframe、Dataset

2014.4Spark1.0)能够直接访问现存的Hive数据提供JDBC/ODBC接口供第三方工具借助Spark进行数据处理提供了更高层级的接口方便地处理数据支持多种操作方式：SQL、API编程支持多种外部数据源：Parquet

天ヾ道℡酬勤·2020-08-23 00:06

Spark - SQL查询文件数据

>有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。

kikiki4·2020-08-23 00:25

SparkSQL 通过加载csv文件创建dataframe的常用方式总结

背景DataFrame可以从结构化文件（csv、json、parquet）、Hive表以及外部数据库构建得到，本文主要整理通过加载csv文件来创建Dataframe的方法使用的数据集——用户行为日志user_log.csv

AtongWood·2020-08-23 00:45

sparkSQL1.1入门之十：总结

SchemaRDDRuleTreeLogicPlanParserAnalyzerOptimizerSparkPlan运行架构：sqlContext运行架构hiveContext运行架构基本操作原生RDD的操作parquet

mmicky20110730·2020-08-22 21:37

sparkSQL1.1入门之六：sparkSQL之基础应用

SchemaRDD可以通过RDD、Parquet文件、JSON文件、或者通过使用hiveql查询hive数据来建立。

mmicky20110730·2020-08-22 21:06

spark 批量读取HDFS（hive分区）parquet文件

情况说明：数据以parquet文件形式保存在HDFS上，数据中的某一列包含了日期（例如：2017-12-12）属性，根据日期对数据分区存储，如下图所示：项目需求：在项目中想要读取某一个月的数据，肿么办？

风儿吹花儿美·2020-08-22 20:03

java.io.IOException: org.apache.parquet.io.ParquetDecodingException: Can not read value at 0 in bloc

java.io.IOException:org.apache.parquet.io.ParquetDecodingException:Cannotreadvalueat0inblock-1infilehdfs

没有合适的昵称·2020-08-22 19:53

spark 读取 hdfs 数据分区规则

下文以读取parquet文件/parquethivetable为例：hivemetastore和parquet转化的方式通过spark.sql.hive.convertMetastoreParquet控制

哥伦布112·2020-08-22 18:54

spark读取HDFS多个文件配置

情况说明：数据以parquet文件形式保存在HDFS上，数据中的某一列包含了日期（例如：2017-12-12）属性，根据日期对数据分区存储，如下图所示：项目需求：在项目中想要读取某一个月的数据，肿么办？

挖矿的小强·2020-08-22 18:18

Spark2 ON CDH5.15.1

刚开始从Spark官网下，基于hadoop2.6.0-cdh5.15.1版本更改pom文件的依赖，改到后面发现是个巨坑，parquet版本不兼容，后面隐性的一大堆Jackson依赖不兼容。

clive0x·2020-08-22 18:16

HBase最佳实践-用好你的操作系统

终于又切回HBase模式了，之前一段时间因为工作的原因了解接触了一段时间大数据生态的很多其他组件（诸如Parquet、Carbondata、Hive、SparkSQL、TPC-DS/TPC-H等），虽然只是走马观花

dianzhouyu2189·2020-08-22 16:22

Spark - SQL查询文件数据

>有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。

kikiki4·2020-08-21 15:41

Spark - SQL查询文件数据

>有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。

kikiki4·2020-08-21 14:21

Spark - SQL查询文件数据

>有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。

kikiki4·2020-08-21 12:11

Hive SQL之数据类型和存储格式

目录一、数据类型1、基本数据类型2、复杂类型二、存储格式（1）textfile（2）SequenceFile（3）RCFile（4）ORCFile（5）Parquet三、数据格式正文回到顶部一、数据类型

IT小白虫·2020-08-21 06:52

Hive 或 Impala 的数据类型与对应底层的 Parquet schema的数据类型不兼容

背景：修改了hive表的某些字段的数据类型，如从String->Double，此时，该表所对应的底层文件格式为Parquet，修改之后，更新Impala索引，然后查询修改数据类型的字段，会出现与Parquetschema

harli·2020-08-20 23:27

parquet表对于hive与imapla表字段修改

以parquet为存储类型的表,在hive里修改表字段类型,会造成impala中对于该表无法进行查询.强制加入cascade也是无效操作只有在impala中修改字段类型才可有效操作对于已在hive中修改的操作

_张不帅·2020-08-20 20:54

Hive不同存储格式下的压缩算法对比

Hive不同存储格式下的压缩算法对比压缩算法Text格式Parquet格式ORC格式不压缩119.2G54.1G20.0GSnappy压缩30.2G23.6G13.6GGzip压缩18.8G14.1G不支持

听见下雨的声音hb·2020-08-20 18:44

hive详解之hive数据存储

hive详解之hive数据存储hive数据存储格式HIve的文件存储格式有四种：TEXTFILE、SEQUENCEFILE、ORC、PARQUET，前面两种是行式存储，后面两种是列式存储；所谓的存储格式就是在

花花.zhang·2020-08-20 17:39

Spark - SQL查询文件数据

>有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的的东西，只是想快速实现我要的聚合查询数据。

kikiki4·2020-08-20 17:20

impala 0

其中hdfs是用hive来管理，文件格式是parquet格式（列式存储）。通过impala去查询parquet格式文件和kudu表，做一个unionall的聚合。因此在这里我用到了impala。

metooman·2020-08-20 17:15

Spark-SQL之DataFrame操作大全

一、DataFrame对象的生成Spark-SQL可以以其他RDD对象、parquet文件、json文件、hive表，以及通过JDB

SunnyMore·2020-08-20 14:35

推荐频道

parquet

hive修改字段名后数据丢失

spark-sql读取不到parquet格式的hive表

sparkSQL之数据源读取parquet、json、csv案例

DF保存到mysql中或者保存成.csv .json parquet文件

【pyspark】一 spark dataframe 读写parquet、json、csv等文件

spark从json-jdbc-parquet-RDD-cvs中读取文件

十二.SparkSQL中json数据文件转换成parquet文件

pyspark文件读写示例-（CSV/JSON/Parquet-单个或多个）

Spark 操作jdbc csv json parquet格式文件

spark spark-shell java.lang.NoClassDefFoundError: parquet/hadoop/ParquetOutputCommitter

java.lang.NoClassDefFoundError: parquet/hadoop/ParquetOutputCommitter

理解Spark中SparkSQL模块DataSource使用

Hive存储格式对比

Spark学习笔记

关于Parquet

java 读写Parquet格式的数据 Parquet example

Parquet文件格式介绍和读写流程

mapreduce读取parquet文件

网易视频云：新一代列式存储格式Parquet

SparkSQL操作外部数据源

Spark 学习（九） SparkSQL 函数自定义和数据源

自定义SparkSql语法的一般步骤

Hive存储优化之Cluster By + Parquet

Hive：Execution Error, return code 2 和Error while compiling statement: FAILED三个问题

Hive ORC和Parquet

加载hdfs的parquet文件到hive的分区表注意事项

SparkSQL数据源之通用加载/保存方法/JSON文件/Parquet文件/JDBC

Pyspark 读取本地csv文件，插入parquet格式的hive表中

Spark之Spark Session、Dataframe、Dataset

Spark - SQL查询文件数据

SparkSQL 通过加载csv文件创建dataframe的常用方式总结

sparkSQL1.1入门之十：总结

sparkSQL1.1入门之六：sparkSQL之基础应用

spark 批量读取HDFS（hive分区）parquet文件

java.io.IOException: org.apache.parquet.io.ParquetDecodingException: Can not read value at 0 in bloc

spark 读取 hdfs 数据分区规则

spark读取HDFS多个文件配置

Spark2 ON CDH5.15.1

HBase最佳实践-用好你的操作系统

Spark - SQL查询文件数据

Spark - SQL查询文件数据

Spark - SQL查询文件数据

Hive SQL之数据类型和存储格式

Hive 或 Impala 的数据类型与 对应底层的 Parquet schema的数据类型不兼容

parquet表对于hive与imapla表字段修改

Hive不同存储格式下的压缩算法对比

hive详解之hive数据存储

Spark - SQL查询文件数据

impala 0

Spark-SQL之DataFrame操作大全

Hive 或 Impala 的数据类型与对应底层的 Parquet schema的数据类型不兼容