大数据计算

数据中台建设方案-基于大数据平台(下)

数据中台建设方案-基于大数据平台(下)1数据中台建设方案1.1总体建设方案1.2大数据集成平台1.3大数据计算平台1.3.1数据计算层建设计算层技术含量最高，最为活跃，发展也最为迅速。

FRDATA1550333·2024-09-11 03:49

Flink生态与未来

本文为《Flink大数据项目实战》学习笔记，想通过视频系统学习Flink这个最火爆的大数据计算框架的同学，推荐学习课程：Flink大数据项目实战：http://t.cn/EJtKhaz核心组件栈Flink

weixin_30394333·2024-09-06 02:00

双十一云起实验室体验专场，七大场景，体验有礼

\大数据计算场景《基于EMR离线数据分析》E-MapReduce（简称“EMR”）是

阿里云天池·2024-08-31 01:30

大数据计算-SQL优化手段(CBO)-以Flink为例

文章目录背景理论知识示例结果展示结果解释背景大数据计算中，SQL生成的执行计划第一轮会经过固定规则的优化，第二轮会根据原计划，生成多条结合成本的的执行计划，根据cost进行排序，选出最优的执行计划。

wending-Y·2024-08-27 17:12

大数据存储

龙哥vw·2024-08-22 02:32

linux安装单机版spark3.5.0

一、spark介绍是一种通用的大数据计算框架，正如传统大数据技术Hadoop的MapReduce、Hive引擎，以及Storm流式实时计算引擎等.Spark主要用于大数据的计算二、spark下载spark3.5.0

爱上雪茄·2024-03-17 18:57

国内有实力的三防加固平板厂家｜亿道三防onerugged

无论是多任务处理还是大数据计算，这些平板电脑都能保持流畅和高效的运行。此外

emdoorrugged·2024-02-27 22:35

大数据计算技术秘史（上篇）

在之前的文章《2024年，一个大数据从业者决定……》《存储技术背后的那些事儿》中，我们粗略地回顾了大数据领域的存储技术。在解决了「数据怎么存」之后，下一步就是解决「数据怎么用」的问题。其实在大数据技术兴起之前，对于用户来讲并没有存储和计算的区分，都是用一套数据库或数据仓库的产品来解决问题。而在数据量爆炸性增长后，情况就变得不一样了。单机系统无法存储如此之多的数据，先是过渡到了分库分表这类伪分布式技

·2024-02-22 20:33

大数据 - Spark系列《六》- RDD详解

Spark系列文章：大数据-Spark系列《一》-从Hadoop到Spark：大数据计算引擎的演进-CSDN博客大数据-Spark系列《二》-关于Spark在Idea中的一些常用配置-CSDN博客大数据

王哪跑nn·2024-02-20 10:55

大数据 - Spark系列《七》- 分区器详解

Spark系列文章：大数据-Spark系列《一》-从Hadoop到Spark：大数据计算引擎的演进-CSDN博客大数据-Spark系列《二》-关于Spark在Idea中的一些常用配置-CSDN博客大数据

王哪跑nn·2024-02-20 10:55

以内存为核心的开源分布式存储系统

Tachyon为不同的大数据计算框架（如ApacheSpark，HadoopMapReduce,ApacheFlink等）提供可靠的内存级的数据共享服务。

这次靠你了·2024-02-20 05:26

[Flink04] Flink部署实践

但Flink是大数据计算框架，不是资源调度框架，这并不是它的强项；所以还是应该让专业的框架做专业的事，和其他资源调度框架集成更靠谱。FlinkonYarn模式，把资源管理交给Ya

YoungerChina·2024-02-19 20:49

【读书笔记】《大数据技术体系详解：原理，架构与实践》06.大数据计算引擎篇

批处理引擎MapReduceMapReduce是一个经典的分布式批处理计算引擎，被广泛应用于搜索引擎索引构建、大规模数据处理等场景中，具有易于编程、良好的扩展性与容错性以及高吞吐率等特点。它主要由两部分组成：编程模型和运行时环境。其中，编程模型为用户提供了非常易用的编程接口，用户只需像编写串行程序一样实现几个简单的函数即可实现一个分布式程序，而其他比较复杂的工作，如节点间的通信、节点失效、数据切分

粥一样温柔·2024-02-14 15:01

刷抖音

长时间盯着手机屏幕看，根据大数据计算所得为用户自动推荐的海量内容无边无际，不断有新的消息提醒，像是在诱导催促你快点打开看一看。

萌喵儿·2024-02-11 22:08

大数据 - Spark系列《五》- Spark常用算子

Spark系列文章：大数据-Spark系列《一》-从Hadoop到Spark：大数据计算引擎的演进-CSDN博客大数据-Spark系列《二》-关于Spark在Idea中的一些常用配置-CSDN博客大数据

王哪跑nn·2024-02-09 05:25

国内唯一连续入选Gartner，Quick BI是如何做到的？

阿里云QuickBI凭借灵活的公共云部署，私有化独立部署能力、无缝对接各类云上数据库和自建数据库、可视化搭建分析、高效数据处理能力与强大数据计算能力，使得在2022年持续入选GartnerABI魔力象限报告

阿里云技术·2024-02-08 19:23

深入理解Spark的前世今生

Spark，是一种通用的大数据计算框架，正如传统大数据技术Hadoop的MapReduce、Hive引擎，以及Storm流式实时计算引擎等。

闲云野鹤~~~·2024-02-08 14:01

涤生大数据实战：基于Flink+ODPS历史累计计算项目分析与优化（上）

涤生大数据实战：基于Flink+ODPS历史累计计算项目分析与优化（一）1.前置知识ODPS（OpenDataPlatformandService）是阿里云自研的一体化大数据计算平台和数据仓库产品，在集团内部离线作为离线数据处理和存储的产品

涤生大数据·2024-02-08 08:55

Spark Chapter 8 Spark SQL

【参考以慕课网日志分析为例进入大数据Sparksql】0导读SQL：MySQL，Oracle，DB2，SQLServer在大数据平台上实现大数据计算：Hive/SparkSQL/SparkCore直接使用

深海suke·2024-02-07 01:34

大数据平台_大数据应用场景有哪些

大数据时代的出现，简单的讲是海量数据同完美计算能力结合的结果，确切的说是移动互联网、物联网产生了海量的数据，大数据计算技术完美地解决了海量数据的收集、存储、计算、分析的问题。

思迈特Smartbi·2024-02-05 16:06

大数据 - Spark系列《三》- 加载各种数据源创建RDD

Spark系列文章：大数据-Spark系列《一》-从Hadoop到Spark：大数据计算引擎的演进-CSDN博客大数据-Spark系列《二》-关于Spark在Idea中的一些常用配置-CSDN博客目录3.1

王哪跑nn·2024-02-05 09:28

大数据 - Spark系列《四》- Spark分布式运行原理

Spark系列文章：大数据-Spark系列《一》-从Hadoop到Spark：大数据计算引擎的演进-CSDN博客大数据-Spark系列《二》-关于Spark在Idea中的一些常用配置-CSDN博客大数据

王哪跑nn·2024-02-05 08:54

子雨大数据之Spark入门教程---Spark入门：RDD的设计与运行原理1.3

Spark的核心是建立在统一的抽象RDD之上，使得Spark的各个组件可以无缝进行集成，在同一个应用程序中完成大数据计算任务。

千寻～·2024-02-04 06:38

大数据 - Spark系列《二》- 关于Spark在Idea中的一些常用配置

上一篇：大数据-Spark系列《一》-从Hadoop到Spark：大数据计算引擎的演进-CSDN博客目录1.Idea中配置LiveTemplates来快速生成代码片段2.Idea中配置文件模板自定义初始代码

王哪跑nn·2024-02-01 07:53

大数据 - Spark系列《一》- 从Hadoop到Spark：大数据计算引擎的演进

目录1.1Hadoop回顾1.2spark简介1.3Spark特性1.通用性2.简洁灵活3.多语言1.4SparkCore编程体验1.4.1spark开发工程搭建1.开发语言选择：2.依赖管理工具：1.4.2Spark编程流程1.获取sparkcontext对象2.加载数据3.处理转换数据4.输出结果,释放资源1.4.3简单代码实现-wordCount在大数据领域，Hadoop一直是一个重要的框架

王哪跑nn·2024-02-01 07:43

window环境下安装spark

spark是大数据计算引擎，拥有SparkSQL、SparkStreaming、MLlib和GraphX四个模块。

FTDdata·2024-01-31 17:06

Scala核心编程第一章—Scala语言概述

一、Scala语言解释1.什么是Scala语言Spark—新一代内存级大数据计算框架，是大数据的重要内容。Spark就是使用Scala编写的。因此为了更好的学习Spark,需要掌握Scala这门语言。

我是星星我会发光i·2024-01-31 15:47

大数据----12.MapReduce计算框架

1.MapReduce基本编程模型和框架1.1MapReduce抽象模型大数据计算的核心思想是：分而治之。如下图所示。把大量的数据划分开来，分配给各个子任务来完成。再将结果合并到一起输出。

学无止境的大象·2024-01-31 06:49

【阿里巴巴】阿里妈妈联盟-Java研发工程师-杭州

杭州｜正式｜硕士｜研发-后端职位｜1年工作经验职位描述参与广告内容生产和分发工作，深入了解和优化电商广告业务；负责大数据计算、搜索推荐系统和业务应用系统设计；参与大型业务项目的设计和实施，推动业务快速迭代发展

探小虎·2024-01-28 12:20

day01-项目介绍以及实现登录功能

课程介绍《探花交友》功能介绍项目介绍工程搭建短信验证码实现用户登录功能1、功能介绍探花交友是一个陌生人的在线交友平台，在该平台中可以搜索附近的人，查看好友动态，平台还会通过大数据计算进行智能推荐，通过智能推荐可以找到更加匹配的好友

程序媛9688·2024-01-26 09:19

Spark性能优化指南数据倾斜——高级篇

特殊声明-文章来自公众号号：李雪蕤架构师调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。

吃胖点儿·2024-01-24 17:15

Spark 编程模型 RDD

SparkRDD基于Spark的大数据计算平台，建立在统一的抽象RDD之上，是一种具有容错性的基于内存的数据集抽象计算方法。

Alex90·2024-01-23 23:44

大数据计算引擎之Flink简介

原文地址：大数据计算引擎之Flink简介Flink简介1.1Flink的初步认识ApacheFlink是为分布式、高性能、随时可用以即准确的流处理应用程序打造的开源处理框架ApacheFlink是一个框架和分布式处理引擎

开发实习生·2024-01-22 19:58

史上最全深度解析Flink内存管理--大数据技术

目前，大数据计算引擎主要使用Java或基于JVM的编程语言实现的，例如ApacheHadoop，ApacheSpark，ApacheDrill，ApacheFlink等。

大数据学习僧·2024-01-22 08:50

flink结合Yarn进行部署

但我们知道，Flink是大数据计算框架，不是资源调度框架，这并不是它的强项；所以还是应该让专业的框架做专业的事，和其他资源调度框架集成更靠谱。

201001070·2024-01-22 08:17

解密背后的大数据计算平台架构

本文整理自2019阿里云峰会·上海开发者大会开源大数据专场中小红书实时推荐团队负责人郭一先生现场分享。小红书作为生活分享类社区，目前有8500万用户，年同比增长为300%，大约每天有30亿条笔记在发现首页进行展示。推荐是小红书非常核心且重要的场景之一，本文主要分享在推荐业务场景中小红书的实时计算应用。实时计算在推荐业务中的场景线上推荐流程小红书线上推荐的流程主要可以分为三步。第一步，从小红书用户每

yoku酱·2024-01-19 09:27

5 一文看完flink的内存管理

其中对齐填充是没用的，纯粹是为了让对象的大小到达8的倍数2）FullGC非常影响性能，对大数据量的计算来说，fullGC可能会持续很久(秒级甚至分钟级)3）OOM导致JVM崩溃，因为是大数据计算，很有可能会分配出大的对象

LQC_gogogo·2024-01-18 15:11

2024年腾讯云轻量服务器和CVM云服务器性能如何？

轻量应用服务器适合中小企业或个人开发者搭建企业官网、博客论坛、微信小程序或开发测试环境，云服务器CVM适合更复杂如高并发网站、大数据计算、机器学习等复杂应用场景。

暴富程序员·2024-01-18 13:11

技术选型｜开源大数据OLAP引擎最佳实践

来源：阿里巴巴大数据计算全文共3547个字，建议10分钟阅读本篇内容将通过六个部分来介绍开源大数据OLAP引擎最佳实践。

浪尖聊大数据-浪尖·2024-01-18 08:14

大数据平台计算层需要考虑的多种场景和对应的实现框架参考

大数据计算层是从大量的原始数据中抽取有价值的信息，即数据转换成信息的过程。

皮皮杂谈·2024-01-15 04:19

大数据技术原理与应用期末复习知识点全总结（林子雨版

人类社会数据产生方式的3个阶段（三）大数据的3个发展阶段（四）大数据4V概念（五）数据存储单位之间的换算关系（六）大数据对科学研究的影响（七）大数据对思维方式的影响（八）大数据技术的不同层面及其功能（九）大数据计算模式及其代表产品

天玑y·2024-01-13 14:35

大数据 Hive - 实现SQL执行

文章目录MapReduce实现SQL的原理Hive的架构Hive如何实现join操作小结MapReduce的出现大大简化了大数据编程的难度，使得大数据计算不再是高不可攀的技术圣殿，普通工程师也能使用MapReduce

善守的大龙猫·2024-01-12 07:37

大数据 MapReduce如何让数据完成一次旅行？

专栏上一期我们聊到MapReduce编程模型将大数据计算过程切分为Map和Reduce两个阶段，先复习一下，在Map阶段为每个数据块分配一个Map计算任务，然后将所有map输出的Key进行合并，相同的Key

善守的大龙猫·2024-01-10 00:31

阿里云大数据ACA及ACP复习题（81~100)

（B）A:大数据计算服务MaxComputeB:QuickBI数据可视化分析平台C:实时计算Flink版D:云原生数据仓库（分析型数据库）AnalyticDB**解析**：阿里云实时计算Flink版（AlibabaCloudRealtimeComputeforApacheFlink

周周的奇妙编程·2024-01-09 08:20

大数据 Yarn - 资源调度框架

但是Yarn并不是随Hadoop的推出一开始就有的，Yarn作为分布式集群的资源调度框架，它的出现伴随着Hadoop的发展，使Hadoop从一个单一的大数据计算引擎，成为一个集存储、计算、资源管理为一体的完整大数据平台

善守的大龙猫·2024-01-08 10:48

Teradata数据库和Informatica ETL逻辑及视图、用户定义函数和存储过程迁移到AWS的Hive数据仓库基本流程

首先，我们需要注册AWS帐号，并启用EC2（ElasticCloudComputing，高性能云计算）、EMR（ElasticMap-Reduce，高性能大数据计算）、Redshift/Snowflake

weixin_30777913·2024-01-07 10:12

Apache Paimon:Streaming Lakehouse is Coming

本文整理自阿里云智能开源表存储负责人，FounderofPaimon，FlinkPMC成员李劲松（花名：之信）、同程旅行大数据专家，ApacheHudi&PaimonContributor吴祥平、汽车之家大数据计算平台负责人邸星星

Apache Flink·2024-01-06 08:15

StreamPark + PiflowX 打造新一代大数据计算处理平台

什么是PiflowXPiFlow是一个基于分布式计算框架Spark开发的大数据流水线系统。该系统将数据的采集、清洗、计算、存储等各个环节封装成组件，以所见即所得方式进行流水线配置。简单易用，功能强大。它具有如下特性：简单易用：可视化配置流水线，实时监控流水线运行状态，查看日志；功能强大：提供100+的数据处理组件，包括Hadoop、Spark、MLlib、Hive、Solr、Redis、MemCa

暗影八度·2024-01-06 05:47

用于查询性能预测的计划结构深度神经网络模型--大数据计算基础大作业

用于查询性能预测的计划结构深度神经网络模型论文阅读和复现24.【X=1.1】在关系数据库查询优化领域，对查询时间的估计准确性直接决定了查询优化结果，进而影响到数据库整体的查询效率。但由于数据库自身的复杂性，查询时间受到数据分布、数据库负载、索引结构、数据库配置等多方面的影响，难以进行准确预测。近年来，随着AI算法的兴起，有研究者尝试使用AI模型对查询的时间进行预测并取得了一定成果。请阅读论文Pla

旅僧·2024-01-05 23:29

大数据 HDFS-存储的王者

如果我们将大数据计算比作烹饪，那么数据就是食材，而Hadoop分布式文件系统HDFS就是烧菜

善守的大龙猫·2024-01-05 21:48

推荐频道

大数据计算

数据中台建设方案-基于大数据平台(下)

Flink生态与未来

双十一云起实验室体验专场，七大场景，体验有礼

大数据计算-SQL优化手段(CBO)-以Flink为例

大数据存储

linux安装单机版spark3.5.0

国内有实力的三防加固平板厂家｜亿道三防onerugged

大数据计算技术秘史（上篇）

大数据 - Spark系列《六》- RDD详解

大数据 - Spark系列《七》- 分区器详解

以内存为核心的开源分布式存储系统

[Flink04] Flink部署实践

【读书笔记】《大数据技术体系详解：原理，架构与实践》06.大数据计算引擎篇

刷抖音

大数据 - Spark系列《五》- Spark常用算子

国内唯一连续入选Gartner，Quick BI是如何做到的？

深入理解Spark的前世今生

涤生大数据实战：基于Flink+ODPS历史累计计算项目分析与优化（上）

Spark Chapter 8 Spark SQL

大数据平台_大数据应用场景有哪些

大数据 - Spark系列《三》- 加载各种数据源创建RDD

大数据 - Spark系列《四》- Spark分布式运行原理

子雨大数据之Spark入门教程---Spark入门：RDD的设计与运行原理1.3

大数据 - Spark系列《二》- 关于Spark在Idea中的一些常用配置

大数据 - Spark系列《一》- 从Hadoop到Spark：大数据计算引擎的演进

window环境下安装spark

Scala核心编程 第一章—Scala语言概述

大数据----12.MapReduce计算框架

【阿里巴巴】阿里妈妈联盟-Java研发工程师-杭州

day01-项目介绍以及实现登录功能

Spark性能优化指南数据倾斜——高级篇

Spark 编程模型 RDD

大数据计算引擎之Flink简介

史上最全深度解析Flink内存管理--大数据技术

flink结合Yarn进行部署

解密背后的大数据计算平台架构

5 一文看完flink的内存管理

2024年腾讯云轻量服务器和CVM云服务器性能如何？

技术选型｜开源大数据OLAP引擎最佳实践

大数据平台计算层需要考虑的多种场景和对应的实现框架参考

大数据技术原理与应用 期末复习 知识点全总结（林子雨版

大数据 Hive - 实现SQL执行

大数据 MapReduce如何让数据完成一次旅行？

阿里云大数据ACA及ACP复习题（81~100)

大数据 Yarn - 资源调度框架

Teradata数据库和Informatica ETL逻辑及视图、用户定义函数和存储过程迁移到AWS的Hive数据仓库基本流程

Apache Paimon:Streaming Lakehouse is Coming

StreamPark + PiflowX 打造新一代大数据计算处理平台

用于查询性能预测的计划结构深度神经网络模型--大数据计算基础大作业

大数据 HDFS-存储的王者

Scala核心编程第一章—Scala语言概述

大数据技术原理与应用期末复习知识点全总结（林子雨版