大数据计算第6页

spark生态及各个功能

Spark大数据计算平台包含许多子模块，构成了整个Spark的生态系统，其中Spark为核心。伯克利将整个Spark的生态系统称为伯克利数据分析栈（BDAS），其结构如图1-1所示。

墨卿风竹·2023-03-29 18:33

大数据实时计算引擎 Flink

尚硅谷铁粉·2023-03-29 15:01

你必须要掌握的大数据计算技术，都在这了

导读：分布式的并行计算框架，从数据处理时效角度可以分为离线的批处理框架和实时的流处理框架。当前最流行的批处理框架是Spark，流处理框架是Flink。01离线批处理这里所说的批处理指的是大数据离线分布式批处理技术，专用于应对那些一次计算需要输入大量历史数据，并且对实时性要求不高的场景。目前常用的开源批处理组件有MapReduce和Spark，两者都是基于MapReduce计算模型的。1.MapRe

hzbooks·2023-03-29 15:34

Spark性能优化：开发调优篇（转）

《Spark性能优化：开发调优篇》《Spark性能优化：资源调优篇》《Spark性能优化：数据倾斜调优》《Spark性能优化：shuffle调优》在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一

愤怒的谜团·2023-03-29 02:41

性能一路“狂飙”，阿里云ECS上新啦

在性能上，大数据计算、

CSDN资讯·2023-03-28 10:04

Scala 一文搞定

ApacheSpark是专为大规模数据快速实时处理的计算引擎/内存级大数据计算框架。ApacheSpark是由Scala语言编写。

在奋斗的大道·2023-03-27 17:47

统一观测丨使用 Prometheus 监控 E-MapReduce，我们该关注哪些指标？

E-MapReduce（简称“EMR”）是云原生开源大数据平台，向客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎

阿里云云栖号·2023-03-23 21:58

报表工具群雄争霸，谁才是你的菜

无数的厂商起起伏伏，历经18年的风雨，大浪淘沙，很多报表工具已经不存在了，现就目前在市场主流的产品做一下介绍：润乾报表，是中国式报表的开拓者，十年前的时候，润乾报表可谓是如日中天，辉煌已成为历史，润乾已经转向大数据计算领域

戎码半生·2023-03-20 10:16

Flink on Yarn模式部署

但我们知道，Flink是大数据计算框架，不是资源调度框架，这并不是它的强项；所以还是应该让专业的框架做专业的事，和其他资源调度框架集成更靠谱。

陈小哥cw·2023-03-19 11:20

从0到1搭建大数据平台之计算存储系统

大数据计算平台目前主要都是围绕着hadoop生态发展的，运用HDFS作为数据存储，计算框架分为批处理、流处理。

数据社·2023-03-18 20:47

腾讯云轻量服务器和云服务器区别

轻量应用服务器适合中小企业或个人开发者搭建企业官网、博客论坛、微信小程序或开发测试环境，云服务器CVM适合更复杂如高并发网站、大数据计算、机器学习等复杂应用场景。

唐僧洗头用飘柔·2023-03-16 19:53

重磅开源！阿里首款自研科学计算引擎 Mars 来了

Mars突破了现有大数据计算引擎的关系代数为主的计算模型，将分布式技术引入科学计算/数值计算领域，极大地扩展了科学计算的计算规模和效率。目前已应用于阿里巴巴及其云上客户的业务和生产场景。

小李李哥老李·2023-03-16 06:10

2、大数据技术架构：核心原理与应用实践（上）

1.了解了大数据的前世今生谷歌的三篇论文，开启了大数据时代，俗称三架马车，三架马车分别是HDFS存储、MapReduce大数据计算、Yarn资源调度。如图1所示为大数据系统全栈技术组件图。

朗如行玉山_5b30·2023-03-14 11:42

Spark简介：Spark数据处理核心架构

作为大数据领域主流运用的大数据计算框架之一，Spark这几年的发展态势也越来越好了。

加米谷大数据张老师·2023-02-26 07:18

Spark ---------- 大数据框架，spark简介及架构图示

Spark是什么Spark，是一种通用的大数据计算框架，正如传统大数据技术Hadoop的MapReduce、Hive引擎，以及Storm流式实时计算引擎等。

isOllie·2023-02-26 07:47

个推技术 | ETL工程师必看！超实用的任务优化与断点执行方案

作为一家数据智能公司，个推在大数据计算领域沉淀了丰富的经验。本篇文章将对大数据离线计算过程中出现的任务缓慢和任务中断这两大痛点问题提出解决思路，期望读者能够有所收获。一

个推技术·2023-02-26 06:05

5分钟入门物联网大数据计算——实践类

5分钟入门物联网大数据计算网站链接：https://developer.aliyun.com/...https://www.aliyun.com/page-s...物联网平台产品介绍详情：https:/

·2023-02-24 18:58

大数据技术原理与应用介绍

两大核心技术：分布式存储和分布式处理大数据计算模式批处理计算流计算图计算查询分析计算大数据具有数据量大、数据类型繁多、处理速度快、价值密度低等特点。

CODER8R·2023-02-24 03:04

一文了解 SaCa DataViz 企业版和标准版的区别

企业版专属功能一：高性能大数据计算引擎在标准版里，SaCaDataViz采用直连数据库的方式，这种方式实时性比较好，但是面对海量数据时，受制于数据库本身的性能影响，如果单表超过几千万到上亿条记录的规

ivyran·2023-02-18 18:29

做SQL性能优化真是让人干瞪眼

很多大数据计算都是用SQL实现的，跑得慢时就要去优化SQL，但常常碰到让人干瞪眼的情况。

捡田螺的小男孩·2023-02-16 21:25

做 SQL 性能优化真是让人干瞪眼

很多大数据计算都是用SQL实现的，跑得慢时就要去优化SQL，但常常碰到让人干瞪眼的情况。

橙子_·2023-02-16 20:33

怎样快速掌握大数据开发并拿到BAT高薪offer

01大数据发展前景及薪资状况随着5G的到来移动互联网、物联网得到高速发展，同时也产生了海量的数据，大数据计算技术完美地解决了海量数据的收集、存储、计算、分析等问题。

金乐笑·2023-02-06 22:35

《从0开始学大数据》之流式计算的代表

这些数据通常通过HDFS存储在磁盘上，使用MapReduce或者Spark这样的批处理大数据计算框架进行计算，一般完成一次计算需要花费几分钟到几小时的时间。

我叫CJJ·2023-02-04 17:21

从0开始学大数据(十三）

互联网企业大数据平台上运行的绝大多数大数据计算都是关于数据分析的，各种统计、关联分析、汇总报告，都需要大数据平台来完成。下面给你讲一个我曾经遇到过的真实案例。老板跟技术部说，我们要加强监控。

ziqiiii·2023-02-04 17:50

从0开始学大数据总结笔记：2、大数据生态体系主要产品原理与架构

HDFS的DataNode进程，负责HDFS的数据存储；同时也运行着Yarn的NodeManager，负责计算资源的调度管理；而MapReduce、Spark、Storm、Flink这些批处理或者流处理大数据计算引擎则通过

qililong88·2023-02-04 17:49

《从0开始学大数据》之构建一个大数据平台

而互联网产品处理用户请求，需要毫秒级的响应，也就是说，要在1秒内完成计算，因此大数据计算必然不能实现这样的响应要求。

我叫CJJ·2023-02-04 17:18

Superset 安装使用及问题的排查处理

该工具主要特点是可自助分析、自定义仪表盘、分析结果可视化（导出）、用户/角色权限控制，还集成了一个SQL编辑器，可以进行SQL编辑查询等，原来是用于支持Druid的可视化分析，后面发展为支持很多种关系数据库及大数据计算框架

颠沛流漓·2023-02-04 09:59

计算机基础（一）

“道生一，一生二，二生三，三生万物“--《道德经》1.走进0与1的世界本质上说，计算机就是晶体管、电路板组装起来的电子设备，无论是图形图像的旋绕、网络远程共享，还是大数据计算，归根结底都是0与1的信号处理

武汉大D哥·2023-02-03 13:36

Hadoop学习笔记

数据量大，计算量大，单个机器无法完成可将数据分布在多个机器上由多个机器共同完成计算大数据计算需要各个机器相互协调工作，大数据算法有共同点，可将其做成框架，Hadoop就是这样的框架MapReduce，Google

柴柴总·2023-02-01 06:03

技术架构

AppUI、微信小程序UI、摄像头视觉识别人机界面、语音交互人机界面2.逻辑层：面向对象技术/组件技术/SOA服务中间件/微服务中间件技术、人工智能NLP/机器学习3.数据层：SQL数据库/NOSQL数据库、大数据计算平台

spring_m·2023-01-31 08:32

HDFS简介

如果我们将大数据计算比作烹饪，那么数据就是食材，而Hadoop分布式文件系统HDFS就是烧菜的那口大锅。厨师来来往往，食材进进出出，各种菜肴层出不穷，而不变的则是那口大锅。

f192469fc2d5·2023-01-29 23:06

读论文：大数据计算环境下的隐私保护技术研究进展

标题:大数据计算环境下的隐私保护技术研究进展作者:钱文君，沈晴霓，吴鹏飞，董春涛，吴中海文章目录==Abstract====Introduction====综述==一、大数据计算环境现状及隐私问题1.1

a44267113·2023-01-29 09:34

《魔鬼数学》第十章“大数据与精准预测”领读

然而大数据计算也是有意义的：戴帽子的猫

73a650e031d3·2023-01-27 19:45

大数据计算引擎 —— Flink

一、Flink简介 ApacheFlink是一个用于对无边界和有边界数据流进行有状态计算的框架和分布式处理引擎。Flink被设计为运行在所有常见的集群环境中，并且以内存速度和任意规模执行运算。无边界的数据集无边界定义了开始但没有定义结束。它们不会在生成时终止提供数据，必须持续地处理无边界流，即必须在拉取到事件后立即处理它。无法等待所有输入数据到达后处理，因为输入是无边界的，并且在任务时间点都不会

小胡_鸭·2023-01-27 15:03

你知道SaCa DataViz 企业版和标准版的区别吗？

企业版专属功能一：高性能大数据计算引擎在标准版里，SaCaDataViz采用直连数据库的方式，这种方式实时性比较好，但是面对海量数据时，受制于数据库本身的性能影响，如果单表超过几千万到上亿条记录的规模时

Actic·2023-01-27 14:54

flink keyby指定key方式详解

这种操作在各种大数据计算引擎中都非常常见，比如最早的mapreduce，从map阶段到reduce阶段，就是通过shuffle操作将具有相同key的数据分配到同一个reduce端进行处理。

bitcarmanlee·2023-01-27 11:43

DataX从入门到使用

datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz支持的数据源DataX目前已经有了比较全面的插件体系，主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入

哇咔咔王先生·2023-01-26 06:58

大数据-Spark的介绍：前世今生

Spark，是一种通用的大数据计算框架，正如传统大数据技术Hadoop的MapReduce、Hive引擎，以及Storm流式实时计算引擎等。

Iamarookie999·2023-01-24 20:56

国内唯一连续入选Gartner，Quick BI是如何做到的？

简介：阿里云QuickBI凭借灵活的公共云部署，私有化独立部署能力、无缝对接各类云上数据库和自建数据库、可视化搭建分析、高效数据处理能力与强大数据计算能力，使得在2022年持续入选GartnerABI魔力象限报告

阿里云云栖号·2023-01-21 17:46

Spark 解决数据倾斜的几种常用方法

数据倾斜是大数据计算中一个最棘手的问题，出现数据倾斜后，Spark作业的性能会比期望值差很多。数据倾斜的调优，就是利用各种技术方案解决不同类型的数据倾斜问题，保证Spark作业的性能。

weixin_34187862·2023-01-19 07:28

Spark性能优化指南——高级篇

数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。

rolin-刘瑞·2023-01-17 08:19

揭秘阿里云EB级大数据计算引擎MaxCompute

日前，全球权威咨询与服务机构Forrester发布了《TheForresterWaveTM:CloudDataWarehouse,Q42018》报告。这是ForresterWave首次发布关于云数仓解决方案（CloudDataWarehouse，简称CDW）的测评。报告对云数仓的当前产品功能、产品路线和发展策略、市场表现等几个方面进行全面的评估，在产品能力排行榜中，阿里云力压微软排行第7。Forr

阿里云云栖号·2023-01-14 16:44

Apache Doris Join 实现与调优实践｜未来源码

·2023-01-05 15:08

大数据计算基础——算法部分（上）

壹、外存计算模型（I/O模型）一、一些知识点在I/O模型中，主要涉及CPU、内存和外存三部分。内存与外存的数据交换以大小为B的块为单位，在模型中通常认为内存的容量M>，且外存容量近乎无限。I/O模型上的算法目标——最小化数据传输量，即内存与外存的块交换量。因为CPU访问外存需先将数据写入内存，慢于访问内存的速度。如块大小为B，待传输的数据量为N，则扫描数据的代价为O(N/B)，而不是O(N)。一方

m0_59989429·2023-01-03 17:32

Spark数据倾斜的调优

一、数据倾斜调优1.调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。

LJF的博客·2023-01-02 11:19

Spark数据倾斜调优

一调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。

000X000·2023-01-02 11:19

spark数据倾斜优化

数据倾斜是大数据计算中一个最棘手的问题,一旦出现数据倾斜的情况，会十分的影响任务的性能。可能会影响整个任务的进度，甚至可能出现任务OOM异常退出。

Garth.·2023-01-02 11:19

Spark性能优化【三】- 数据倾斜调优

一】-开发调优Spark性能优化【二】-资源调优Spark性能优化【三】-数据倾斜调优Spark性能优化【四】-shuffle调优Spark性能优化【五】-错误问题集锦调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题

Rnan-prince·2023-01-02 11:18

关于Spark数据倾斜调优看这一篇就够了

调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。

一个数据小开发·2023-01-02 11:47

原创代码思路分享计算机毕业设计Python+Spark+LSTM中药推荐系统中药大数据可视化中药数据分析中药可视化系统中药知识图谱

开发技术前端：vue.js、echarts后端：springboot、vue.js数据库：mysql大数据计算框架：spark、hadoop算法(机器学习、人工智能)：推荐算法(协同过滤算法，基于用户、

haochengxu2022·2023-01-01 07:59

推荐频道

大数据计算