carbondata

对应chd5.14的spark_carbonData使用文档(基于CDH 的spark-yarn模式)

一、部署(基于CDH的spark-yarn模式)下载源码编译(目前官网已经提供编译好的jar包了)【https://dist.apache.org/repos/dist/release/carbondata

颜语一声·2025-02-22 22:22

关于CarbonData+Spark SQL的一些应用实践和调优经验分享

\\在这样的现状下，CarbonData诞生了，作为首个由中国贡献给Apache社区的顶级开源项目，CarbonData提供了一种新的融合数据存储方案，以一份数据同

weixin_34075551·2024-01-17 15:31

CarbonData集成 Presto（Trino）（1）- 介绍 & 环境篇

个人介绍有幸在开源之夏选上课题基于CarbonData之Presto优化课题，这个课题主要是针对Presto使用CarbonData查询上做更多的一些优化。

ConradJam·2024-01-03 11:09

本教程旨在为正在构建，部署和使用CarbonData的最终用户和开发人员提供故障排除。

本教程旨在为正在构建，部署和使用CarbonData的最终用户和开发人员提供故障排除。

不吃饭的猪·2023-11-08 16:20

华为大数据战略_华为大数据开源战略部部长陈亮 - Apache CarbonData，实现大数据即席查询秒级响应...

LeaderApacheCarbonDataPMC&CommitterEmail:[email protected]多年大数据和BI项目开发和实践经验，对大数据开源技术(Hadoop,Spark,CarbonData

weixin_39954674·2023-11-08 16:47

CarbonData，来自华为的中国力量

华为公司在2016年开源了类parquet的列存格式：CarbonData，并且贡献给了Apache社区。

weixin_34259159·2023-11-08 16:17

华为的Carbondata

华为独立开发并开源的Carbondata通过Apache基金会的投票，成为ApacheIncubator（孵化器）项目！

空中飞鸟lanse·2023-11-08 16:16

CarbonData 华为开源项目

CarbonData是一个为了更快的交互查询而生的新的Hadoop原生文件格式，用于大数据的快速分析和多维度查询hadoop本地数据存储设计。

tangkuo9·2023-11-08 16:46

CarbonData部署和使用

ApacheCarbonData|GitHub|文档1概述CarbonData是一个开源的用于快速数据分析的新型BigData文件格式，这个项目是华为公司在2016年开源的类Parquet的列式存储，也仅仅用了不到一年的时间就成为了

Yore Yuen·2023-11-08 16:43

WeX5、CarbonData 等荣获2016年度开源项目大奖

12月4日，开源中国源创会年终盛典在北京落幕，起步科技旗下的WeX5移动开发工具等一批开源项目荣获“2016年度码云最受欢迎十大开源项目”奖项！本次颁发的“2016年度码云最受欢迎十大开源项目”，是根据过去一年的用户访问、交流分享和项目本身的更新频度等诸多角度，对收录于开源中国3万多款开源软件进行统计，从而得出前10名最受欢迎的开源软件。这种立足于用户大数据的评价机制，忠实地反映出各款开源软件的市

历史上的今天·2023-11-08 16:42

深度访谈：华为开源数据格式CarbonData项目，实现大数据即席查询秒级响应

华为宣布开源了CarbonData项目，该项目于6月3日通过Apache社区投票，成功进入Apache孵化器。CarbonData是一种低时延查询、存储和计算分离的轻量化文件存储格式。

chouya3495·2023-11-08 16:42

华为开源carbondata中的使用问题处理

carbondata中的使用问题处理Q：什么是不良记录？A：由于数据类型不兼容而无法加载到CarbonData中的记录或为空或具有不兼容格式的记录被归类为不良记录。

不吃饭的猪·2023-11-08 16:41

2019-12-15

目前carbondata中文文档只更新到1.4.0，而英文文档已经更新到1.6，所以中间有一些默认值的变化，导致踩了一些坑。

StayBlank·2023-10-30 08:05

carbondata中查询hive java.net.SocketTimeoutException: Read timed out 问题解

问题解决方案：步骤一：在jdbcurl后面追加参数，设定各种超时时间参数设置为5000秒，因为hive任务可能会执行比较久，所以超时时间设置长一点在hivejdbc中直接添加就行，咋carbondata

不吃饭的猪·2023-10-15 08:55

carbondata优化小姐

一，carbondata高效原因carbondata文件是hdfs的列式存储格式查询速度是sparkSQL的10倍，通过多种索引技术和多次pushdown优化，对TB级别数据快速响应高效的压缩，使用轻量级和和重量级压缩组合的方式

不吃饭的猪·2023-10-15 08:54

carbondata测试报告

carbondata测试报告此文档是测试carbondata（1.4）与parquet(1.10)在sparksql搜索引擎上执行的对比情况硬件配置CPU：Intel(R)Xeon(R)CPUE5-2603v4

君子慎独焉·2023-10-15 03:27

carbondata表中出现beeline连接问题

carbondata表中出现beeline连接问题简析：【借助问题分析】这个和起的的beeline问题有不同，主要这是链接carbondata的不是连接hive的Q1:[hdfs@ps-device-id-ydsc

不吃饭的猪·2023-09-20 22:07

SparkSQL－从DataFrame说起

2017/02/16/sparksql-dataframe/写在文章之前本着更好地理解大数据生态圈的本意以及工作的需要，前段时间熟悉了SQL查询引擎SparkSQL、Hadoop文件格式Parquet/CarbonData

严国华·2023-08-12 18:52

Spark、Flink、CarbonData技术实践最佳案例解析

CarbonData是一种高性能大数据存储方案，已在20+企业生产环境上部署应用，其中最大的单一集群数据规模达到几万亿。

weixin_34198797·2023-04-18 07:44

Carbondata1.3.1+Spark2.1.0+Hadoop2.7.3集成问题记录（持续更新）

按照目前所验证的结果是，spark2.1.0版本和carbondata1.3.1版本是可以正常使用的。

Jonathan丶Wei·2023-03-09 11:09

Hive读取CarbonData文件问题调试

1.参考文档https://github.com/apache/carbondata/blob/master/docs/hive-guide.md2.问题呈现select*fromtest_carbon

君子慎独焉·2023-02-01 00:52

Linux version 4.19.90-2003.4.0.0036.oe1.aarch64安装carbonData

先决条件thriftmavenjava文章目录先决条件一、安装java、maven二、thrift安装三、获取CarbonData四、编译方式五、spark集成未完，待更新一、安装java、mavenjava

5imple·2022-12-24 03:08

盘点2021年Apache年报中出现的国产项目

盘点2021年Apache年报中出现的国产项目：ShardingSphere,IoTDB,CarbonData,Eagle,Kylin,Apisix,DolphinSchedulerANDEcharts1

ruc_czk·2022-11-19 18:41

CarbonData Hadoop伪分布式集群搭建

此篇文章基于上一篇carbondata构建过程。1、可为carbondata用户增加管理员权限，避免一些对新手来说比较棘手的权限问题以root账号登录，并输入visudo命令，增加如下图标红所示行。

文竹小二·2022-02-20 23:03

CarbonData OSS Bucket管理

第三步：创建目录/carbon/session/data/store，后续用于验证carbonsession集成oss/carbon/sdk/data，后续用于验证carbonsdk集成oss第四步：carbondata

文竹小二·2022-02-09 11:58

CarbonData 构建过程

1、准备类Unix环境(Linux,MacOSX)笔者在阿里云上申请了一台ECS，系统为CentOS7.664位。2、准备git环境yum-yinstallgit3、OracleJava7or81）下载tar并解压在window中下载jdk-8u202-linux-x64.tar.gz（下载地址为https://www.oracle.com/technetwork/java/javase/down

文竹小二·2022-02-08 14:14

CarbonData集成OSS - 基础环境搭建

第一步：构建CarbonData见CarbonData构建过程第二步：搭建伪分布式集群见CarbonDatahadoop伪分布式集群搭建第三步：OSSbucket管理见CarbonDataossbucket

文竹小二·2022-02-05 16:28

基于CarbonData的电信时空大数据探索

本文分享自华为云社区《基于CarbonData的电信时空大数据探索》，作者：张军、龚云骏。

华为云开发者社区·2021-11-25 10:00

看CarbonData如何用四招助力Apache Spark

摘要：CarbonData在ApacheSpark和存储系统之间起到中介服务的作用，为Spark提供的4个重要功能。

·2021-07-27 19:40

spark on yarn模式安装和配置carbondata

本节将介绍如何在SparkonYARN模式的集群上安装和配置CarbonData。

JasonLee'blog·2020-09-15 03:10

Spark Committer、CarbonData PMC等七位资深大咖齐聚CCTC，Spark议题正式发布

5月18-19日，北京•朝阳门悠唐皇冠假日酒店，CSDN主办的中国云计算技术大会将围绕最热门、最前沿的云计算技术与行业实践重磅登场。本次大会上，超过50位Spark、Docker、Mesos、TensorFlow、Serverless方面的专家将汇聚一堂，和超过2000名开发者共襄盛举。在19日的Spark技术峰会上，来自Databricks、阿里巴巴、华为、苏宁、新浪微博、七牛、宜人贷等七位专家

csdn郭芮·2020-09-11 01:04

关于CarbonData+Spark SQL的一些应用实践和调优

在这样的现状下，CarbonData诞生了，作为首个由中国贡献给Apache社区的顶级开源项目，CarbonData提供了一种新的融合数据存储方案，以一份数据同时支

fengyuruhui123·2020-09-11 01:45

CarbonData源码阅读(3) - core代码结构概览

CarbonData因为特性比ORC多，加之目前还不成熟，所以代码读起来不如ORC容易。由于赶项目进度，打算先在ORC基础上做系统实现，之后再考虑往CarbonData迁移。

solari_bian·2020-08-26 12:42

CarbonData源码阅读(2)-Hadoop InputFormat

72972278这个里面沿着CarbondataPlugin–>CarbondataConnectory–>CarbondataConnector–>CarbondataMetadata(以及org.apache.carbondata.presto

solari_bian·2020-08-26 12:42

HBase最佳实践-用好你的操作系统

终于又切回HBase模式了，之前一段时间因为工作的原因了解接触了一段时间大数据生态的很多其他组件（诸如Parquet、Carbondata、Hive、SparkSQL、TPC-DS/TPC-H等），虽然只是走马观花

dianzhouyu2189·2020-08-22 16:22

Structured Streaming篇1：Structured Streaming将json数据写入carbondata

StructuredStreaming篇1：StructuredStreaming将json数据写入carbondata废话不多说，直接上干货packagexytestimportcom.iflytek.utils.Utilsimportorg.apache.carbondata.core.util.path.CarbonTablePathimportorg.apache.carbondata.s

叮咚菜鸟许某人·2020-08-18 10:36

carbondata2.0.1初体验

一、更方便的部署配置模式本地环境：spark版本2.4.5scala2.11.8carbon版本：2.4.3-bin-hadoop2.7hadoop版本：2.7hive版本：2.4.3只需要增加一个conf即可，不再需要配置carbon的storepathspark-shell--confspark.sql.extensions=org.apache.spark.sql.CarbonExtensi

唐予之_·2020-08-14 17:44

Carbondata 存储结构

数据文件结构如下：image.pngimage.png索引文件结构相对比效简单，没有直接画出,可以直接查看原码(AbstractFactDataWriter#writeIndexFile)相对Parquet结构而言，多了一个IndexFile,不过看了一下源码，IndexFile只能对Block级别的列进行索引，即统计一个Block中每一列的最值，并通过Btree组织在一起。总结:相对于Parqu

ni_d58f·2020-08-05 10:11

华为云FusionInsight MRS融合大数据平台进阶之路

【摘要】FusionInsight8.0MRS新版本由华为研发团队精心打磨，是产品演进的重要转折点，通过对CarbonData、HetuEngine及众多社区组件的升级和加强，实现了融合分析的一站式所见即所得大数据平台

过往记忆·2020-07-28 15:45

spark2.3.2+Yarn+Carbondata Thrift Server 配置carbondata1.5

Carbondata简介ApacheCarbondata是一种新的融合存储解决方案，利用先进的列式存储，索引，压缩和编码技术提高查询效率。

nszkadrgg·2020-07-28 04:00

Spark、Flink、CarbonData技术实践最佳案例解析

CarbonData是一种高性能大数据存储方案，已在20+企业生产环境上部署应用，其中最大的单一集群数据规模达到几万亿。

cpongo4'"\?;@·2020-07-27 20:45

HDP2.6.5更换spark版本为2.4.5 与carbondata2.0.1集成

文章目录一更换spark版本第一种方式第二种方式问题启动spark任务不成功spark集成carbondata从官网下载carbondata构建先决条件构建命令在YARN群集上的Spark上安装和配置CarbonData

jzy3711·2020-07-14 13:15

使用keepalived 做Carbon Thrift Server HA

先决条件启动keepalived安装编辑check_carbon.shkeepalived.conf配置主节点backup节点测试CarbonThriftServer先决条件大数据集群环境spark2.4.5carbondata2.0.1

jzy3711·2020-07-14 13:15

利用 Spark DataSource API 实现Rest数据源

典型如Parquet,CarbonData,Postgrep(JDBC类的都OK)等实现。本文则介绍如何利用SparkDataSource对标准Rest接口实现读取引子先说下这个需求的来源。

祝威廉·2020-07-09 13:06

CarbonData编译、安装和集成Spark 2.2

carbandata官网地址一、编译1、获取源码gitclonehttps://github.com/apache/carbondata.git编译需要安装maven和jdk1.7或者1.82、编译mvn-DskipTests-Pspark

wuzhilon88·2020-07-06 08:47

cloudera cdh编译carbondata

carbondata编译，官方的git文档上只说明了如何使用原生spark编译，我们使用的是cdh版，所以编译命令是：mvn-DskipTests-Pspark-1.6-Dspark.version=1.6.0

fz1989·2020-07-04 16:18

CarbonData：大数据融合数仓新一代引擎

【摘要】CarbonData将存储和计算逻辑分离，通过索引技术让存储和计算物理上更接近，提升CPU和IO效率，实现超高性能的大数据分析。

华为云·2020-07-04 00:31

Apache CarbonData学习资料汇总

introductionApacheCarbonDataisanindexedcolumnardatastoresolutionforfastanalyticsonbigdataplatform,e.g.ApacheHadoop,ApacheSpark,etc.1.1官网：http://carbondata.apache.org1.2Git

KeepLearningBigData·2020-07-01 18:46

Flink+Druid构建实时OLAP的探索

方案实时入库SQL支持度Spark+CarbonData支持SparkSQL语法丰富Kylin不支持支持joinFlink+Druid支持0.15以前

banmeng3487·2020-07-01 18:13

倒计时1天｜CCTC 2017最新全部讲师和议程公布

50+位Spark、CarbonData、HBase、Docker、Mesos、Kubernetes、Rancher、

腾讯开发者·2020-06-21 02:30

推荐频道

carbondata

对应chd5.14的spark_carbonData使用文档(基于CDH 的spark-yarn模式)

关于CarbonData+Spark SQL的一些应用实践和调优经验分享

CarbonData集成 Presto（Trino）（1）- 介绍 & 环境篇

本教程旨在为正在构建，部署和使用CarbonData的最终用户和开发人员提供故障排除。

华为大数据战略_华为大数据开源战略部部长陈亮 - Apache CarbonData，实现大数据即席查询秒级响应...

CarbonData，来自华为的中国力量

华为的Carbondata

CarbonData 华为开源项目

CarbonData部署和使用

WeX5、CarbonData 等荣获2016年度开源项目大奖

深度访谈：华为开源数据格式CarbonData项目，实现大数据即席查询秒级响应

华为开源carbondata中的使用问题处理

2019-12-15

carbondata中查询hive java.net.SocketTimeoutException: Read timed out 问题解

carbondata优化小姐

carbondata测试报告

carbondata表中出现beeline连接问题

SparkSQL－从DataFrame说起

Spark、Flink、CarbonData技术实践最佳案例解析

Carbondata1.3.1+Spark2.1.0+Hadoop2.7.3集成问题记录（持续更新）

Hive读取CarbonData文件问题调试

Linux version 4.19.90-2003.4.0.0036.oe1.aarch64安装carbonData

盘点2021年Apache年报中出现的国产项目

CarbonData Hadoop伪分布式集群搭建

CarbonData OSS Bucket管理

CarbonData 构建过程

CarbonData集成OSS - 基础环境搭建

基于CarbonData的电信时空大数据探索

看CarbonData如何用四招助力Apache Spark

spark on yarn模式安装和配置carbondata

Spark Committer、CarbonData PMC等七位资深大咖齐聚CCTC，Spark议题正式发布

关于CarbonData+Spark SQL的一些应用实践和调优

CarbonData源码阅读(3) - core代码结构概览

CarbonData源码阅读(2)-Hadoop InputFormat

HBase最佳实践-用好你的操作系统

Structured Streaming篇1：Structured Streaming将json数据写入carbondata

carbondata2.0.1初体验

Carbondata 存储结构

华为云FusionInsight MRS融合大数据平台进阶之路

spark2.3.2+Yarn+Carbondata Thrift Server 配置carbondata1.5

Spark、Flink、CarbonData技术实践最佳案例解析

HDP2.6.5更换spark版本为2.4.5 与carbondata2.0.1集成

使用keepalived 做Carbon Thrift Server HA

利用 Spark DataSource API 实现Rest数据源

CarbonData编译、安装和集成Spark 2.2

cloudera cdh编译carbondata

CarbonData：大数据融合数仓新一代引擎

Apache CarbonData学习资料汇总

Flink+Druid构建实时OLAP的探索

倒计时1天｜CCTC 2017最新全部讲师和议程公布