E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
carbondata
关于
CarbonData
+Spark SQL的一些应用实践和调优经验分享
\\在这样的现状下,
CarbonData
诞生了,作为首个由中国贡献给Apache社区的顶级开源项目,
CarbonData
提供了一种新的融合数据存储方案,以一份数据同
weixin_34075551
·
2024-01-17 15:31
大数据
人工智能
后端
CarbonData
集成 Presto(Trino)(1)- 介绍 & 环境篇
个人介绍有幸在开源之夏选上课题基于
CarbonData
之Presto优化课题,这个课题主要是针对Presto使用
CarbonData
查询上做更多的一些优化。
ConradJam
·
2024-01-03 11:09
大数据
JAVA
本教程旨在为正在构建,部署和使用
CarbonData
的最终用户和开发人员提供故障排除。
本教程旨在为正在构建,部署和使用
CarbonData
的最终用户和开发人员提供故障排除。
不吃饭的猪
·
2023-11-08 16:20
大数据
华为大数据战略_华为大数据开源战略部部长陈亮 - Apache
CarbonData
,实现大数据即席查询秒级响应...
LeaderApacheCarbonDataPMC&CommitterEmail:
[email protected]
多年大数据和BI项目开发和实践经验,对大数据开源技术(Hadoop,Spark,
CarbonData
weixin_39954674
·
2023-11-08 16:47
华为大数据战略
CarbonData
,来自华为的中国力量
华为公司在2016年开源了类parquet的列存格式:
CarbonData
,并且贡献给了Apache社区。
weixin_34259159
·
2023-11-08 16:17
大数据
华为的
Carbondata
华为独立开发并开源的
Carbondata
通过Apache基金会的投票,成为ApacheIncubator(孵化器)项目!
空中飞鸟lanse
·
2023-11-08 16:16
Apache开源项目
大数据
CarbonData
华为开源项目
CarbonData
是一个为了更快的交互查询而生的新的Hadoop原生文件格式,用于大数据的快速分析和多维度查询hadoop本地数据存储设计。
tangkuo9
·
2023-11-08 16:46
BigData
CarbonData
华为开源项目
CarbonData
部署和使用
ApacheCarbonData|GitHub|文档1概述
CarbonData
是一个开源的用于快速数据分析的新型BigData文件格式,这个项目是华为公司在2016年开源的类Parquet的列式存储,也仅仅用了不到一年的时间就成为了
Yore Yuen
·
2023-11-08 16:43
大数据
Apache
CarbonData
列式存储
安装
Spark
SQL
增删改查
WeX5、
CarbonData
等荣获2016年度开源项目大奖
12月4日,开源中国源创会年终盛典在北京落幕,起步科技旗下的WeX5移动开发工具等一批开源项目荣获“2016年度码云最受欢迎十大开源项目”奖项!本次颁发的“2016年度码云最受欢迎十大开源项目”,是根据过去一年的用户访问、交流分享和项目本身的更新频度等诸多角度,对收录于开源中国3万多款开源软件进行统计,从而得出前10名最受欢迎的开源软件。这种立足于用户大数据的评价机制,忠实地反映出各款开源软件的市
历史上的今天
·
2023-11-08 16:42
开源
WeX5
CarbonData
起步软件
华为
深度访谈:华为开源数据格式
CarbonData
项目,实现大数据即席查询秒级响应
华为宣布开源了
CarbonData
项目,该项目于6月3日通过Apache社区投票,成功进入Apache孵化器。
CarbonData
是一种低时延查询、存储和计算分离的轻量化文件存储格式。
chouya3495
·
2023-11-08 16:42
数据库
大数据
华为开源
carbondata
中的使用问题处理
carbondata
中的使用问题处理Q:什么是不良记录?A:由于数据类型不兼容而无法加载到
CarbonData
中的记录或为空或具有不兼容格式的记录被归类为不良记录。
不吃饭的猪
·
2023-11-08 16:41
开源
大数据
2019-12-15
目前
carbondata
中文文档只更新到1.4.0,而英文文档已经更新到1.6,所以中间有一些默认值的变化,导致踩了一些坑。
StayBlank
·
2023-10-30 08:05
carbondata
中查询hive java.net.SocketTimeoutException: Read timed out 问题解
问题解决方案:步骤一:在jdbcurl后面追加参数,设定各种超时时间参数设置为5000秒,因为hive任务可能会执行比较久,所以超时时间设置长一点在hivejdbc中直接添加就行,咋
carbondata
不吃饭的猪
·
2023-10-15 08:55
hive
java
hadoop
carbondata
优化小姐
一,
carbondata
高效原因
carbondata
文件是hdfs的列式存储格式查询速度是sparkSQL的10倍,通过多种索引技术和多次pushdown优化,对TB级别数据快速响应高效的压缩,使用轻量级和和重量级压缩组合的方式
不吃饭的猪
·
2023-10-15 08:54
大数据
carbondata
测试报告
carbondata
测试报告此文档是测试
carbondata
(1.4)与parquet(1.10)在sparksql搜索引擎上执行的对比情况硬件配置CPU:Intel(R)Xeon(R)CPUE5-2603v4
君子慎独焉
·
2023-10-15 03:27
carbondata
表中出现beeline连接问题
carbondata
表中出现beeline连接问题简析:【借助问题分析】这个和起的的beeline问题有不同,主要这是链接
carbondata
的不是连接hive的Q1:[hdfs@ps-device-id-ydsc
不吃饭的猪
·
2023-09-20 22:07
hadoop
java
大数据
hive
SparkSQL-从DataFrame说起
2017/02/16/sparksql-dataframe/写在文章之前本着更好地理解大数据生态圈的本意以及工作的需要,前段时间熟悉了SQL查询引擎SparkSQL、Hadoop文件格式Parquet/
CarbonData
严国华
·
2023-08-12 18:52
Spark、Flink、
CarbonData
技术实践最佳案例解析
CarbonData
是一种高性能大数据存储方案,已在20+企业生产环境上部署应用,其中最大的单一集群数据规模达到几万亿。
weixin_34198797
·
2023-04-18 07:44
大数据
人工智能
json
Carbondata
1.3.1+Spark2.1.0+Hadoop2.7.3集成问题记录(持续更新)
按照目前所验证的结果是,spark2.1.0版本和
carbondata
1.3.1版本是可以正常使用的。
Jonathan丶Wei
·
2023-03-09 11:09
Hive读取
CarbonData
文件问题调试
1.参考文档https://github.com/apache/
carbondata
/blob/master/docs/hive-guide.md2.问题呈现select*fromtest_carbon
君子慎独焉
·
2023-02-01 00:52
Linux version 4.19.90-2003.4.0.0036.oe1.aarch64安装
carbonData
先决条件thriftmavenjava文章目录先决条件一、安装java、maven二、thrift安装三、获取
CarbonData
四、编译方式五、spark集成未完,待更新一、安装java、mavenjava
5imple
·
2022-12-24 03:08
Apache
CarbonData
linux
maven
java
apache
盘点2021年Apache年报中出现的国产项目
盘点2021年Apache年报中出现的国产项目:ShardingSphere,IoTDB,
CarbonData
,Eagle,Kylin,Apisix,DolphinSchedulerANDEcharts1
ruc_czk
·
2022-11-19 18:41
Apache
apache
大数据
项目架构
iot
github
CarbonData
Hadoop伪分布式集群搭建
此篇文章基于上一篇
carbondata
构建过程。1、可为
carbondata
用户增加管理员权限,避免一些对新手来说比较棘手的权限问题以root账号登录,并输入visudo命令,增加如下图标红所示行。
文竹小二
·
2022-02-20 23:03
CarbonData
OSS Bucket管理
第三步:创建目录/carbon/session/data/store,后续用于验证carbonsession集成oss/carbon/sdk/data,后续用于验证carbonsdk集成oss第四步:
carbondata
文竹小二
·
2022-02-09 11:58
CarbonData
构建过程
1、准备类Unix环境(Linux,MacOSX)笔者在阿里云上申请了一台ECS,系统为CentOS7.664位。2、准备git环境yum-yinstallgit3、OracleJava7or81)下载tar并解压在window中下载jdk-8u202-linux-x64.tar.gz(下载地址为https://www.oracle.com/technetwork/java/javase/down
文竹小二
·
2022-02-08 14:14
CarbonData
集成OSS - 基础环境搭建
第一步:构建
CarbonData
见
CarbonData
构建过程第二步:搭建伪分布式集群见CarbonDatahadoop伪分布式集群搭建第三步:OSSbucket管理见CarbonDataossbucket
文竹小二
·
2022-02-05 16:28
基于
CarbonData
的电信时空大数据探索
本文分享自华为云社区《基于
CarbonData
的电信时空大数据探索》,作者:张军、龚云骏。
华为云开发者社区
·
2021-11-25 10:00
看
CarbonData
如何用四招助力Apache Spark
摘要:
CarbonData
在ApacheSpark和存储系统之间起到中介服务的作用,为Spark提供的4个重要功能。
·
2021-07-27 19:40
spark on yarn模式安装和配置
carbondata
本节将介绍如何在SparkonYARN模式的集群上安装和配置
CarbonData
。
JasonLee'blog
·
2020-09-15 03:10
carbondata
carbondata1.5.1
spark
on
yarn
Spark Committer、
CarbonData
PMC等七位资深大咖齐聚CCTC,Spark议题正式发布
5月18-19日,北京•朝阳门悠唐皇冠假日酒店,CSDN主办的中国云计算技术大会将围绕最热门、最前沿的云计算技术与行业实践重磅登场。本次大会上,超过50位Spark、Docker、Mesos、TensorFlow、Serverless方面的专家将汇聚一堂,和超过2000名开发者共襄盛举。在19日的Spark技术峰会上,来自Databricks、阿里巴巴、华为、苏宁、新浪微博、七牛、宜人贷等七位专家
csdn郭芮
·
2020-09-11 01:04
关于
CarbonData
+Spark SQL的一些应用实践和调优
在这样的现状下,
CarbonData
诞生了,作为首个由中国贡献给Apache社区的顶级开源项目,
CarbonData
提供了一种新的融合数据存储方案,以一份数据同时支
fengyuruhui123
·
2020-09-11 01:45
spark
CarbonData
源码阅读(3) - core代码结构概览
CarbonData
因为特性比ORC多,加之目前还不成熟,所以代码读起来不如ORC容易。由于赶项目进度,打算先在ORC基础上做系统实现,之后再考虑往
CarbonData
迁移。
solari_bian
·
2020-08-26 12:42
数据库
CarbonData
源码阅读(2)-Hadoop InputFormat
72972278这个里面沿着CarbondataPlugin–>CarbondataConnectory–>CarbondataConnector–>CarbondataMetadata(以及org.apache.
carbondata
.presto
solari_bian
·
2020-08-26 12:42
数据库
Web/数据/云计算
HBase最佳实践-用好你的操作系统
终于又切回HBase模式了,之前一段时间因为工作的原因了解接触了一段时间大数据生态的很多其他组件(诸如Parquet、
Carbondata
、Hive、SparkSQL、TPC-DS/TPC-H等),虽然只是走马观花
dianzhouyu2189
·
2020-08-22 16:22
Structured Streaming篇1:Structured Streaming将json数据写入
carbondata
StructuredStreaming篇1:StructuredStreaming将json数据写入
carbondata
废话不多说,直接上干货packagexytestimportcom.iflytek.utils.Utilsimportorg.apache.
carbondata
.core.util.path.CarbonTablePathimportorg.apache.
carbondata
.s
叮咚菜鸟许某人
·
2020-08-18 10:36
笔记
carbondata
2.0.1初体验
一、更方便的部署配置模式本地环境:spark版本2.4.5scala2.11.8carbon版本:2.4.3-bin-hadoop2.7hadoop版本:2.7hive版本:2.4.3只需要增加一个conf即可,不再需要配置carbon的storepathspark-shell--confspark.sql.extensions=org.apache.spark.sql.CarbonExtensi
唐予之_
·
2020-08-14 17:44
-----Spark
Carbondata
存储结构
数据文件结构如下:image.pngimage.png索引文件结构相对比效简单,没有直接画出,可以直接查看原码(AbstractFactDataWriter#writeIndexFile)相对Parquet结构而言,多了一个IndexFile,不过看了一下源码,IndexFile只能对Block级别的列进行索引,即统计一个Block中每一列的最值,并通过Btree组织在一起。总结:相对于Parqu
ni_d58f
·
2020-08-05 10:11
华为云FusionInsight MRS融合大数据平台进阶之路
【摘要】FusionInsight8.0MRS新版本由华为研发团队精心打磨,是产品演进的重要转折点,通过对
CarbonData
、HetuEngine及众多社区组件的升级和加强,实现了融合分析的一站式所见即所得大数据平台
过往记忆
·
2020-07-28 15:45
spark2.3.2+Yarn+
Carbondata
Thrift Server 配置
carbondata
1.5
Carbondata
简介ApacheCarbondata是一种新的融合存储解决方案,利用先进的列式存储,索引,压缩和编码技术提高查询效率。
nszkadrgg
·
2020-07-28 04:00
Spark
Spark、Flink、
CarbonData
技术实践最佳案例解析
CarbonData
是一种高性能大数据存储方案,已在20+企业生产环境上部署应用,其中最大的单一集群数据规模达到几万亿。
cpongo4'"\?;@
·
2020-07-27 20:45
HDP2.6.5更换spark版本为2.4.5 与
carbondata
2.0.1集成
文章目录一更换spark版本第一种方式第二种方式问题启动spark任务不成功spark集成
carbondata
从官网下载
carbondata
构建先决条件构建命令在YARN群集上的Spark上安装和配置
CarbonData
jzy3711
·
2020-07-14 13:15
HDP
carbondata
AMBARI
使用keepalived 做Carbon Thrift Server HA
先决条件启动keepalived安装编辑check_carbon.shkeepalived.conf配置主节点backup节点测试CarbonThriftServer先决条件大数据集群环境spark2.4.5
carbondata
2.0.1
jzy3711
·
2020-07-14 13:15
大数据
carbondata
spark
利用 Spark DataSource API 实现Rest数据源
典型如Parquet,
CarbonData
,Postgrep(JDBC类的都OK)等实现。本文则介绍如何利用SparkDataSource对标准Rest接口实现读取引子先说下这个需求的来源。
祝威廉
·
2020-07-09 13:06
CarbonData
编译、安装和集成Spark 2.2
carbandata官网地址一、编译1、获取源码gitclonehttps://github.com/apache/
carbondata
.git编译需要安装maven和jdk1.7或者1.82、编译mvn-DskipTests-Pspark
wuzhilon88
·
2020-07-06 08:47
spark
1.6.0
core
源码分析
cloudera cdh编译
carbondata
carbondata
编译,官方的git文档上只说明了如何使用原生spark编译,我们使用的是cdh版,所以编译命令是:mvn-DskipTests-Pspark-1.6-Dspark.version=1.6.0
fz1989
·
2020-07-04 16:18
CarbonData
:大数据融合数仓新一代引擎
【摘要】
CarbonData
将存储和计算逻辑分离,通过索引技术让存储和计算物理上更接近,提升CPU和IO效率,实现超高性能的大数据分析。
华为云
·
2020-07-04 00:31
技术交流
Apache
CarbonData
学习资料汇总
introductionApacheCarbonDataisanindexedcolumnardatastoresolutionforfastanalyticsonbigdataplatform,e.g.ApacheHadoop,ApacheSpark,etc.1.1官网:http://
carbondata
.apache.org1.2Git
KeepLearningBigData
·
2020-07-01 18:46
CarbonData
Flink+Druid构建实时OLAP的探索
方案实时入库SQL支持度Spark+
CarbonData
支持SparkSQL语法丰富Kylin不支持支持joinFlink+Druid支持0.15以前
banmeng3487
·
2020-07-01 18:13
倒计时1天|CCTC 2017最新全部讲师和议程公布
50+位Spark、
CarbonData
、HBase、Docker、Mesos、Kubernetes、Rancher、
腾讯开发者
·
2020-06-21 02:30
Apache
CarbonData
2.0 开发实用系列之一:与Spark SQL集成使用
【摘要】在SparkSQL中使用
CarbonData
【准备
CarbonData
】在浏览器地址栏输入以下链接,点击"download"按钮下载已经准备好的CarbonDatajar包链接:https://
华为云
·
2020-06-20 20:05
技术交流
mysql
大数据
数据库
SQL
apache
上一页
1
2
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他