E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
parquet存储格式
排序对
parquet
文件大小的影响
背景公司hive数仓全面迁移到iceberg后,发现存储空间比hive要大,并且文件格式都是
parquet
分析iceberg存储空间比hive表大,最主要的原因是因为压缩算法不一样,然后也发现iceberg
shengjk1
·
2023-04-15 12:39
工作之行
parquet
数仓
排序
数据仓库
iceberg
Hive表的
存储格式
Hive表的
存储格式
文件格式-概述Hive的文件格式-TextFileTextFile是Hive中默认的文件格式存储形式为按行存储工作中最常见的数据文件格式就是TextFile,几乎所有的原始数据生成都是
冰可乐~
·
2023-04-15 01:38
HIve
hive
hadoop
big
data
数据结构原理:Hash表的时间复杂度为什么是O(1)
比如我们创建一个长度为10,数据类型为整型的数组,在内存中的地址是从1000开始,那么它在内存中的
存储格式
如下。0.png这个位置的数据241进行快速读写访问,时间复杂度为O(1)。
随手点灯
·
2023-04-14 14:33
spark 根据
parquet
文件结构创建外部表 ( scala代码 )
zeppelin运行%livy2.sparkimportorg.apache.hadoop.hive.ql.io.
parquet
.MapredParquetInputFormatimportorg.apache.hadoop.io
迷茫_小青年
·
2023-04-14 12:54
Apache ORC深度探索(上篇)
我们今天来看一看这个在Hadoop生态系统中具有举足轻重地位的
存储格式
-ApacheORC一、ApacheORC简介ApacheORC(optimizedRCFile)存储源自于RC这种
存储格式
,是一种列式存储引擎
阿福Chris
·
2023-04-14 07:06
大数据
apache
hadoop
大数据
orc
大数据hive篇--常用操作
文章目录hive常用操作一、建表1.自定义分隔符2JSON分隔符3正则分隔符将查询的结果导入新表表的类别外部表内部表分区表导入数据使用分区表声明
存储格式
二常用函数开窗函数开窗函数常用的函数炸裂函数列转行
在路上的小苑
·
2023-04-13 18:14
hive
protobuf序列化
编译message文件应用protobufMessage基本用法Message嵌套使用protubufprotobuf序列化protobuf是一种比json和xml等序列化工具更加轻量和高效的结构化数据
存储格式
小瑞的学习笔记
·
2023-04-13 12:13
linux
linux
c++
网络
c语言
服务器
【ONNX】yolov5 onnx修改
ProtoBuf简介ProtoBuf是一种轻便高效的结构化数据
存储格式
,可用于结构数据的序列化。可用作通讯协议、数据存储
Dovake
·
2023-04-13 09:25
深度学习
pytorch
人工智能
Python—11.1、Ini文件解析
配置写入在程序设计中,配置文件是重要的组成部分,提供了通过外部配置控制程序运行逻辑的入口;1、ini文件.ini文件是InitializationFile的缩写,即初始化文件,是windows的系统配置文件所采用的
存储格式
蓝魔Y
·
2023-04-13 07:08
Python编程
python
Ini配置解析
kafka-存储原理-机制、结构及底层原理
具体消息的
存储格式
又是什么呢?怎么样能够快速检索到指定的消息?消息不可能无限制存储,那么清理规则又是什么呢?
邋遢-大王
·
2023-04-12 21:18
Kafka
java
scala
linux
kafka
redis总结-数据类型及基本操作
redis数据类型及基本操作2.数据类型2.1数据存储类型介绍2.1.1业务数据的特殊性2.1.2Redis数据类型(5种常用)2.2string数据类型2.2.1Redis数据
存储格式
2.2.2string
糖果店的幽灵
·
2023-04-12 16:34
#
redis
redis
数据库
缓存
Mysql Json格式
文章分类,特殊文章又有特殊字段等等需要好几张表保存的数据,每次查询或筛选要查好几张表,如果都放在一张表如果有一对多的列又不好处理,这也是MoungoDB在这方面广泛应用的一部分原因,mysql的json
存储格式
不学会Ⅳ
·
2023-04-12 10:11
mysql
mysql
nosql
mongodb
性能优化
某金融大数据平台数据同步方案
Greenplum数据导入方案Case2:tsale_staticshares表导数导数说明:
存储格式
:
parquet
压缩:snappy并行度:3Impala查询单表统计时间:4.28s空间开销:约1G
大勇若怯任卷舒
·
2023-04-12 04:57
Spark SQL 数据的加载和保存
目录通用的加载和保存方式1.1加载数据1.2保存数据1.3
Parquet
1.加载数据2.保存数据1.4JSON1.导入隐式转换2.加载JSON文件3.创建临时表4.数据查询1.5CSV通用的加载和保存方式
难以言喻wyy
·
2023-04-12 03:07
spark
sql
scala
Redis进阶
为什么要持久化防止数据的意外丢失,确保数据安全性持久化过程保存什么将当前数据状态进行保存,快照形式,存储数据结果,
存储格式
简单,关注点在数据将数据的操作过程进行保存,日志形式,存储操作过程,
存储格式
复杂
我乃cv大师
·
2023-04-11 21:27
redis
数据库
缓存
ctfshow web入门 反序列化 263
处理器名称
存储格式
php键名+竖线+经过serialize()函数序列化处理的值php_binary键名的长度对应的ASCII字符+键名+经过serialize()函数序
练习两年半的篮球选..哦不对安全选手
·
2023-04-11 19:23
ctfshow
前端
php
开发语言
经验分享
winhex解析FAT32
存储格式
理解MBR--Apple的学习笔记
前言:Buildroot自制文件系统sd卡启动成功--Apple的学习笔记中卡我时间最长的就是sd卡无法启动。最后的原因是我没有通过cfdisk设置它可启动。而根本原因就是我对sd卡或者说存储卡及fat等文件格式等缺少相关知识。所以我要知其所以然。来一个系统性的学习进阶。哪里跌倒就从哪里爬起来我用cfdisk设置了可启动,那么我如何通过工具分析sd相关bit被我设置过了呢?于是网上先搜索了可启动标
applecai
·
2023-04-11 12:26
java sql 写入万条数据_Flink教程-flink 1.11 使用sql将流式数据写入文件系统
滚动策略分区提交完整示例flink提供了一个filesystemconnector,可以使用DDL创建一个table,然后使用sql的方法写入数据,支持的写入格式包括json、csv、avro、
parquet
weixin_39624461
·
2023-04-11 09:09
java
sql
写入万条数据
java
sql结果写入csv文件
提供写入的数据少于指定的数据
数据湖之Hudi
Hudi设计文件存储和管理,数据模型有2种:COW和MOR基本使用:hudi底层的数据可以存储到hdfshudi的数据文件是
parquet
列式存储hudi可以使用spark/flink来消费kafka消息队列的数据
Ayanha
·
2023-04-11 01:38
Hadoop
大数据
hadoop
SparkSQL学习——SparkSQL配置与文件的读取与保存
目录一、添加依赖二、配置log4j三、spark提交jar包四、读取文件(一)加载数据(二)保存数据1.
Parquet
2.json3.CSV4.MySql5.hiveonspark6.IDEA的Spark
雷神乐乐
·
2023-04-11 01:54
Spark学习
spark
大数据
scala
SparkSQL、DSL、sparkSQL与rdd相互转换
目录一、导入环境依赖二、WordCount三、读取各种格式的文件1、csv:文本格式2、json格式3、jdbc连接数据库4、
parquet
压缩文件四、DSL一、导入环境依赖org.apache.sparkspark-sql
宇文心亘
·
2023-04-10 01:49
spark
dataframe转化为array_疯狂Spark之DataFrame创建方式详解二(十)
创建DataFrame的几种方式1、读取
parquet
文件创建DataFrame注意:可以将DataFrame存储成
parquet
文件。
weixin_39691968
·
2023-04-09 02:35
sparksql
SparkMLib 数据类型 - Data sources
文章目录图数据源spark2.4.8介绍怎样在ML中使用数据源来加载数据.除此之外一些常用的数据源像
Parquet
,CSV,JSON和JDBC,提供了一些专用的数据源.图数据源图数据源被用来加载目录中图文件
大怀特
·
2023-04-09 02:01
AI
bigdata
spark
scala
ml
机器学习
Spark学习(六):Spark SQL二
目录4.数据的read、write和savemode4.1数据的读取4.2数据的写出4.3数据保存的模式5.SparkSQL数据源5.1数据源之json5.2数据源之
parquet
5.3数据源之csv5.4
jiezou12138
·
2023-04-09 02:56
Spark
大规模知识图谱数据流设计
这样就决定着数据流设计如下图:分别介绍其中的功能模块:(1)图数据库采用图数据库来存储知识图谱的数据,图数据库天然地满足节点–>关系–>节点这种
存储格式
。
yayun_kg
·
2023-04-08 10:03
知识图谱
知识图谱数据流设计
SparkSQL之数据加载保存
目录1通用加载保存2
Parquet
3JSON4CSV5MySQL6Hive6.1内置Hive6.2外部Hive6.3运行SparkSQLCLI6.4运行Sparkbeeline6.5代码操作Hive1通用加载保存
一抹鱼肚白
·
2023-04-08 05:52
大数据
大数据
Spark SQL 数据加载和保存
文章目录一、Spark数据的加载和保存(一)通用的加载和保存方式1、加载数据2、保存数据(二)
Parquet
1、加载数据2、保存数据(三)JSON1、导入隐式转换2、加载JSON文件3、创建临时表4、数据查询
Chen Mon
·
2023-04-08 01:05
spark
sql
big
data
SparkSQL 数据源的加载与保存
1.通用的加载/保存功能数据源由它们的完全限定名称(即org.apache.spark.sql.
parquet
)指定,但对于内置源,可以使用它们的短名称(json、
parquet
、jdbc、orc、l
JOEL-T99
·
2023-04-08 01:04
BigData
spark
scala
sparksql
【SparkSQL】数据的加载和保存、项目实战
文章目录一数据的加载和保存1通用的加载和保存方式(1)加载数据(2)保存数据2
Parquet
3JSON4CSV5MySQL(1)导入依赖(2)读取数据(3)写入数据6Hive(1)内嵌的HIVE(2)外部的
OneTenTwo76
·
2023-04-08 01:34
Spark
scala
spark
大数据
SparkSQL之加载与保存数据
mysql和写入myslq4.Spark连接hive数据库前言sparkSQL可以加载与保存各种类型的数据一、使用步骤1.加载数据spark.read.load是sparkSQL默认加载数据的方式,默认是加载
parquet
liguanghai12
·
2023-04-08 01:34
Spark
大数据
SparkSQL
spark
大数据
scala
SparkSQL--数据源
Parquet
的加载和保存
Java版本DataFramedf=sqlContext.read().load("users.
parquet
");
weixin_30325487
·
2023-04-08 01:04
java
大数据
json
数据的加载和保存
这里的通用指的是使用相同的API,根据不同的参数读取和保存不同格式的数据,SparkSQL默认读取和保存的文件格式为
parquet
1)加载数据spark.read.load是加载数据的通用方法scala
翁老师的教学团队
·
2023-04-08 01:03
spark
SparkSQL-通用加载和保存
把DataFrame注册为临时表之后,就可以对该DataFrame执行SQL查询SparkSQL的默认数据源为
Parquet
格式。
在下蔡江琪
·
2023-04-08 01:03
SparkSQL
SparkSql之数据的读取和保存
目录0引言1加载数据2保存数据3
Parquet
4JSON4CSV5MySQL6Hive0引言SparkSQL提供了通用的保存数据和数据加载的方式。
莫叫石榴姐
·
2023-04-08 01:33
spark
spark
SparkSQL 数据的读取和保存
这里的通用指的是使用相同的API,根据不同的参数读取和保存不同格式的数据,SparkSQL默认读取和保存的文件格式为
parquet
。
梦痕长情
·
2023-04-08 01:33
spark
SparkSQL-数据的加载和保存
这里的通用指的是使用相同的API,根据不同的参数读取和保存不同格式的数据,SparkSQL默认读取和保存的文件格式为
parquet
加载数据spark.r
open_test01
·
2023-04-08 01:32
Spark
大数据
spark
分布式
Spark SQL是什么?
可用于从各种结构化数据源,例如JSON(半结构化)文件、CSV文件、ORC文件(ORC文件格式是一种Hive的文件
存储格式
,可以提高Hive表的
Shockang
·
2023-04-08 01:50
大数据技术体系
大数据
Spark
SQL
大数据开发:Spark SQL数据读取
SparkSQL数据读取1、
parquet
1)读取
Parquet
文件
parquet
文件自带schema,读取后是DataFrame格式。valusersDF=spark.read.loa
成都加米谷大数据
·
2023-04-08 01:25
前端性能优化方案
如果项目中没有配置图片压缩,需要自己手动处理的,推荐png图片缩网站tinypng合理选择图片
存储格式
下面介绍几种常用的图片格式:jpg,不支持透明,采用有损压缩方式处理图像这种压缩方式的图片并不会真实记录各像素点的数据
郭霁元
·
2023-04-07 14:50
linux 下 kettle(pdi)将 mysql 数据导入 hive
parquet
表中
背景linux下使用kettle(pentahodataintegration)将mysql数据,通过ParquetOutput导入CDH6.2集群hive的
parquet
表中。
cooooper
·
2023-04-07 14:27
spark---数据的加载和保存
Spark—数据的加载和保存文章目录Spark---数据的加载和保存通用的加载和保存方式加载数据保存数据如果文件已经存在则抛出异常如果文件已经存在则追加如果文件已经存在则覆盖如果文件已经存在则忽略
Parquet
快跑呀长颈鹿
·
2023-04-07 11:09
Spark
spark
大数据
java
Spark RDD cache persist checkpoint用法及区别
中如下;具体选用哪种,基本优缺点和内存/磁盘的一样;根据情况选择frompysparkimportStorageLevelStorageLevel.DISK_ONLY#存储方式:磁盘;存储份数:1份;
存储格式
rgc_520_zyl
·
2023-04-07 05:44
PySpark
PySpark
cache
persist
checkpoint
数据分析中常见的存储方式
点击上方“大话coding”,选择“星标”公众号重磅干货,第一时间送达大家好,我是小轩这两天整理了在数据分析中常见的5种
存储格式
内容比较多,只是简要整理,仅供大家学习和选择后面会对使用到的数据存储方式进行详细介绍目录
OnlyCoding…
·
2023-04-07 04:40
python
java
大数据
机器学习
人工智能
【好文分享】MySQL JSON 数据类型解说
优化了
存储格式
。无需读取整个文档就能快速访问某个元素的值。在JSON类型引入之前,如果我们想要获取JSON文档中的某个元素,必须首先读取整个JSON文档,然后在客户端将其
Mr song song
·
2023-04-06 22:52
json
mysql
数据库
【云计算与大数据技术】文件
存储格式
行式、列式、GFS、HDFS的讲解(图文解释 超详细)
一、分布式文件系统文件系统最后都需要以一定的格式存储数据文件,常见的文件存储布局有行式存储、列式存储以及混合式存储三种,不同的类别各有其优缺点和适用的场景,在目前的大数据分析系统中,列式存储和混合式存储方案因其特殊优点被广泛采用1:行式存储在传统关系型数据库中,行式存储被主流关系型数据库广泛采用,HDFS文件系统也采用行式存储,在行式存储中,每条记录的各个字段连续的存储在一起,而对于文件中的各个记
showswoller
·
2023-04-06 19:23
云计算与大数据技术
大数据
云计算
hdfs
系统架构
存储格式
Python --- 二维数据的格式化和处理
笔记主要由来于慕课网Python语言程序设计二维数据的表示一二维数据的Python表示CSV数据
存储格式
二维数据的读入处理(未进行实际操作!!!!)
A_x_A
·
2023-04-06 18:39
从Clickhouse 到 Snowflake: 云原生
简单、易维护:集群管理、统一共享分布式调度服务高可用、可扩展:支持500万以上的Table低成本:存储成本至少降低了50%兼容开源,复用超高性能:兼容协议、语法、数据库
存储格式
Clickhouse是一款性能十分强悍的
简说Linux
·
2023-04-06 16:34
Golang云原生
云原生
clickhouse
java
golang云原生
go语言
从 Clickhouse 到 Snowflake: 云原生
简单、易维护:集群管理、统一共享分布式调度服务高可用、可扩展:支持500万以上的Table低成本:存储成本至少降低了50%兼容开源,复用超高性能:兼容协议、语法、数据库
存储格式
Clickhouse是一款性能十分强悍的
小晨说数据
·
2023-04-06 15:10
分布式
大数据
编程语言
hadoop
数据库
# 在线教育项目——数仓实战(三)之访问咨询主题看板(全量流程)
文章目录1.需求分析2.业务数据准备3.建模分析4.建模操作4.1数据
存储格式
和压缩方案4.2全量和增量4.3Hive分区4.4建模操作5.Hive的基础优化(目前无需更改)5.1HDFS的副本数量5.2yarn
爱吃薄荷糖的喵喵
·
2023-04-06 12:10
Hadoop
数仓
数据库
大数据
hadoop
hive
Spark - SQL查询文件数据
有时候有没有这么一种情况,我拿到了一个sql,csv,
parquet
文件,一起来就想写sql,不想写那些乱七八糟的的东西,只是想快速实现我要的聚合查询数据。
kikiki4
·
2023-04-06 06:43
上一页
13
14
15
16
17
18
19
20
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他