大数据计算第12页

Hadoop与Spark技术入门

1Hadoop系统概述1.1Hadoop简介Hadoop最初起源于搜索引擎子项目Nutch，是Apache基金会的开源大数据计算平台，其核心组件设计包含有分布式文件系统HDFS及分布式计算框架MapReduce

tmac1027·2020-08-19 04:07

Flink项目中Window那些事

说明：本文为《Flink大数据项目实战》学习笔记，想通过视频系统学习Flink这个最火爆的大数据计算框架的同学，推荐学习CSDN官网课程：Flink大数据项目实战：http://t.cn/ExrHPl9

大数据研习社·2020-08-18 20:27

Flink#了解Flink 新一代大数据处理引擎 Apache Flink

大数据计算引擎的发展这几年大数据的飞速发展，出现了很多热门的开源社区，其中著名的有Hadoop、Storm，以及后来的Spark，他们都有着各自专注的应用场景。

hiekay·2020-08-18 12:04

Spark调优高级篇：数据倾斜调优

有兴趣可以仔细研读：https://tech.meituan.com/spark-tuning-pro.htmlSpark调优：高级篇之数据倾斜调优数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题

stevekangpei·2020-08-18 11:36

Hive数据倾斜

数据倾斜是进行大数据计算时最经常遇到的问题之一。当我们在执行HiveQL或者运行MapReduce作业时候，如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题。

cbh_sbj·2020-08-18 11:57

数据倾斜

1.数据倾斜是进行大数据计算时，最常遇到的问题之一，当我们在执HiveQL或者运行ＭＲ作业时，如果遇到一直卡在map100%,reduce99%,最后的1%花了几个小时都没有跑完，这种情况一般就是遇到了数据倾斜的问题

哪有天生的学霸，一切都是厚积薄发·2020-08-18 11:02

Spark性能优化：数据倾斜调优

1.数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能

张章章Sam·2020-08-18 11:31

技术新人的大数据之路

你可以骂自己英语不好，但是你确实要看的，不推荐你看中文版，会让你误解很多概念和词汇，还是要从英文的开始看起：http://pan.baidu.com/s/1o6G8PGAMapReduce可谓是总结了大数据计算的核心

晓阳的数据小站·2020-08-18 11:01

如何开发SparkSQL项目？

前言Spark是企业中用的比较多的大数据计算框架，它主要由SparkCore、SparkSQL、SparkStreaming这三个模块组成，实时计算主要使用SparkStreaming，离线部分的数据处理则主要使用

曲健磊·2020-08-18 10:55

Spark调优高级篇：数据倾斜调优

有兴趣可以仔细研读：https://tech.meituan.com/spark-tuning-pro.htmlSpark调优：高级篇之数据倾斜调优数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题

远陌·2020-08-18 10:39

运营商大数据能做什么？

大数据的主要作用是帮助企业通过数据的广泛采集，和信息的收集，通过大数据计算，帮助企业做一些决策类或者一些营销导向或者底层服务等。大数据分为很多种！运营商大数据便是其中的一种。

wx13596030557·2020-08-18 09:20

360数据处理平台的演进与优化读后感

在当今的大数据时代，大数据计算引擎已经从原先最早的Hadoop生态系统演变到了第三代甚至是第四代计算引擎，比如Spark以及Flink等；存储引擎也是呈现多样化的发展，如支持MPP的关系型存储、分布式存储

dianbuba8944·2020-08-17 22:28

大数据环境搭建之Hadoop集群搭建

作者：Neshoir Hadoop是目前市面上比较主流的开源分布式存储及分布式大数据计算框架，其具有高可靠，高可用，可扩展性强等特点，其设计允许简单的编程模型跨计算机集群处理大规模数据集，框架本身不依赖于硬件的可用性

supermapsupport·2020-08-16 20:57

广告点击流量实时统计

广告被点击以后，实际上，我们就是要针对这种用户行为（广告点击行为），实时数据，进行实时的大数据计算和统计。每次点击一个广告以后，通常来说，网站/app中都

chbxw·2020-08-16 16:00

超英文邮件50%！Flink 中文邮件列表必须有姓名

作为备受瞩目的新一代开源大数据计算引擎，Flink已成为Apache基金会和GitHub最为活跃的顶级项目之一。

Ververica·2020-08-16 16:33

大数据系统-Spark生态系统

目前，Spark已经发展成为包含众多子项目的大数据计算平台。BDAS是伯克利大学提出的基于Spark的数据分析栈（BDAS）。

gao8658·2020-08-15 07:09

设计一个分布式RPC框架

我从事的是大数据开发相关的工作，主要负责的是大数据计算这块的内容。

weixin_33995481·2020-08-14 20:06

Datax的配置及使用

(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能DataX目前已经有了比较全面的插件体系，主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入

舍得斋·2020-08-14 20:16

HaLoop：大集群上高效的迭代数据处理（上）

摘要：超大规模数据挖掘和数据分析需求的日益增长，引领着工业和学术界设计大数据计算平台新模式。MapReduce和Dryad是两种流行的平台，数据流在这两种平台上采用操作符的有向非循环图形式。

水裕月·2020-08-14 16:22

MaxCompute基础与MaxCompute SQL优化

总论：大数据计算服务(MaxCompute，原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。

weixin_34066347·2020-08-14 12:14

MaxComputeSQL-列转行和行转列

阅读原文请点击摘要：1.假设我们在MaxCompute中有两张表，其中一张表是存用户基本信息，另一张表是存用户的地址信息等，表数据假设如下：user_basic_info:idname1a2b3c大数据计算服务

qq_35267530·2020-08-14 11:03

数据倾斜是多么痛？spark作业调优秘籍

spark作业调优秘籍不鸡道叫啥2016/11/09有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。

javastart·2020-08-14 10:16

大数据调度脚本--日期处理

场景说明针对大数据开发初学者，给初学者看的；学习收获：掌握DML语句开发出来之后，如何写调度程序知识储备要求：有一定的sql基础，尤其是query语句，了解shell脚本本文讲解面向平台是大数据计算平台

u:boom·2020-08-14 03:04

看DLI服务4核心如何提升云服务自动化运维

DLI是支持多模引擎的Serverless大数据计算服务，免运维也是其作为Serverless云服务面向客户时的一个重要的特性。那么对于服务本身我们是如何实现整个服务的运维呢？

华为云·2020-08-14 00:34

将 Python 程序打包为跨平台应用

在本场Chat中，会讲到如下内容：宏观介绍大数据计算平台使用步骤讲解本篇中用到的Python库的使用（数据挖掘库

蔚1·2020-08-13 20:57

看DLI服务4核心如何提升云服务自动化运维

DLI是支持多模引擎的Serverless大数据计算服务，免运维也是其作为Serverless云服务面向客户时的一个重要的特性。那么对于服务本身我们是如何实现整个服务的运维呢？

华为云开发者社区·2020-08-12 17:15

看DLI服务4核心如何提升云服务自动化运维

DLI是支持多模引擎的Serverless大数据计算服务，免运维也是其作为Serverless云服务面向客户时的一个重要的特性。那么对于服务本身我们是如何实现整个服务的运维呢？

华为云开发者社区·2020-08-12 10:00

大数据技术之Flink电商用户行为分析系统（用户画像）

Spark作为一个微批处理的大数据计算框架，主要作用就是类似M

IronmanJay·2020-08-12 10:15

超英文邮件50%！Flink 中文邮件列表必须有姓名

作为备受瞩目的新一代开源大数据计算引擎，Flink已成为Apache基金会和GitHub最为活跃的顶级项目之一。

ApacheFlink·2020-08-11 18:24

Spark入门系列（一） | 30分钟理解Spark的基本原理

一、Spark优势特点作为大数据计算框架MapReduce的继任者，Spark具备以

AI科技大本营·2020-08-11 16:58

Calcite RBO rule 解析和自定义

什么是查询优化器查询优化器是传统数据库的核心模块，也是大数据计算引擎的核心模块，开源大数据引擎如Impala、Presto、Drill、HAWQ、Spark、Hive等都有自己的查询优化器。

GuoSmileSmile·2020-08-11 12:50

Spark数据倾斜无法解决？来看这份完美的解决方案

数据倾斜是在大数据计算中常见的问题，用最通俗易懂的话来说,数据倾斜无非就是大量的相同key被partition分配到一个分区里,造成了’一个人累死,其他人闲死’的情况,这种情况是我们不能接受的,这也违背了并行计算的初衷

黑马程序员广州中心·2020-08-11 02:12

两阶段聚合（局部聚合+全局聚合）解决groupby产生数据倾斜的简单案例

1概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。

爆发的~小宇宙·2020-08-11 01:23

初识Spark

Spark是一种大数据计算框架，期望使用一种技术栈就完美解决大数据领域的各种计算任务，A

liweihope·2020-08-10 17:11

大数据计算引擎

2004年谷歌的MapReduce论文给出了一个可行的大数据计算模型，给大数据并行处理带来了巨大的革命性影响。

互联网工匠·2020-08-10 14:01

spark大数据架构初学入门基础详解

Spark是什么a)是一种通用的大数据计算框架b)SparkCore离线计算SparkSQL交互式查询SparkStreaming实时流式计算SparkMLlib机器学习SparkGraphX图计算c)

星月情缘02·2020-08-10 04:28

学习笔记 | Scala函数式编程

目前大数据计算引擎Spark就是用Scala编写的，在Sp

lgfeng218·2020-08-09 22:01

大数据期末总复习知识点总结

选择20个，填空10个，判断10个，简答6个，程序补全2个第一章概述大数据概念；4v大数据的影响，对思维方式的影响p11大数据关键技术，四个阶段大数据计算模式大数据与云计算物联网的关系第二章Hadoophadoop

计忆芳华·2020-08-08 11:49

Spark性能优化指南——高级篇

数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数

小顽童王·2020-08-06 10:11

Spark性能优化指南——基础篇

本文转发自美团点评技术团队，原文链接https://tech.meituan.com/spark-tuning-basic.html前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一

小顽童王·2020-08-06 10:39

DataX的使用

图1-1DataX的应用数据库范围DataX目前已经有了比较全面的插件体系，主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入，具体详情Dat

S无影者·2020-08-05 19:17

【大数据干货】数据进入阿里云数加-大数据计算服务MaxCompute（原ODPS）的N种方式...

免费开通大数据服务：https://www.aliyun.com/product/odps想用阿里云大数据计算服务（MaxCompute），对于大多数人首先碰到的问题就是数据如何迁移到MaxCompute

weixin_34409703·2020-08-04 20:31

阿里云odps介绍

https://help.aliyun.com/product/27797.htmlmaxCompute(大数据计算服务，原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。

weixin_33739541·2020-08-04 20:48

阿里云大数据计算服务MaxCompute（远ODPS）

阿里云大数据计算服务MaxCompute（原ODPS）概要使用场景海量数据，实时性要求不高，不具备数据库的特征，如事务、主键约束、索引等保留字sql语句的关键字分区表创建表的时候创建分区列，提高sql效率类型转换显式转换和隐式转换显式转换

nkym61·2020-08-04 16:04

从0到1搭建大数据平台之计算存储系统

大数据计算平台目前主要都是围绕着hadoop生态发展的，运用HDFS作为数据存储，计算框架分为批处理、流处理。

WindyQin·2020-08-04 13:00

MaxCompute（原ODPS）开发入门指南——数据上云篇

阅读全文MaxCompute（原ODPS）开发入门指南——数据上云篇写在最前面>>>进入了解更多>>>阿里云数加·MaxCompute大数据计算服务.根据《MaxCompute（原ODPS）开发入门指南

chuhan3075·2020-08-04 13:05

Tachyon内存文件系统

从软件栈的层次来看，Tachyon是位于现有大数据计算框架和大数据存储系统之间的独立的一层。它利用底层文件系统作为备份，对于上层应用来说，Tachyon就是一个分布式文件系统。

快乐的霖霖·2020-08-04 13:14

阿里云大数据平台的实操：ODPS的SQL语句

大数据计算服务（MaxCompute，原名ODPS）是一种快速、完全托管的TB/PB级数据仓库解决方案。

民谣书生·2020-08-04 12:52

Tachyon---基于内存的分布式存储系统

Tachyon为不同的大数据计算框架（如ApacheSpark，HadoopMapReduce,ApacheFlink等）提供可靠的内存级的数据共享服务。

行者小朱·2020-08-04 11:38

Tachyon--以内存为核心的开源分布式存储系统

Tachyon为不同的大数据计算框架（如ApacheSpark，HadoopMapReduce,ApacheFlink等）提供可靠的内存级的数据共享服务。

腾讯开发者·2020-08-04 11:53

推荐频道

大数据计算

Hadoop与Spark技术入门

Flink项目中Window那些事

Flink#了解Flink 新一代大数据处理引擎 Apache Flink

Spark调优高级篇：数据倾斜调优

Hive数据倾斜

数据倾斜

Spark性能优化：数据倾斜调优

技术新人的大数据之路

如何开发SparkSQL项目？

Spark调优高级篇：数据倾斜调优

运营商大数据能做什么？

360数据处理平台的演进与优化读后感

大数据环境搭建之Hadoop集群搭建

广告点击流量实时统计

超英文邮件50%！Flink 中文邮件列表必须有姓名

大数据系统-Spark生态系统

设计一个分布式RPC框架

Datax的配置及使用

HaLoop：大集群上高效的迭代数据处理（上）

MaxCompute基础与MaxCompute SQL优化

MaxComputeSQL-列转行和行转列

数据倾斜是多么痛？spark作业调优秘籍

大数据调度脚本--日期处理

看DLI服务4核心如何提升云服务自动化运维

将 Python 程序打包为跨平台应用

看DLI服务4核心如何提升云服务自动化运维

看DLI服务4核心如何提升云服务自动化运维

大数据技术之Flink电商用户行为分析系统（用户画像）

超英文邮件50%！Flink 中文邮件列表必须有姓名

Spark入门系列（一） | 30分钟理解Spark的基本原理

Calcite RBO rule 解析和自定义

Spark数据倾斜无法解决？来看这份完美的解决方案

两阶段聚合（局部聚合+全局聚合）解决groupby产生数据倾斜的简单案例

初识Spark

大数据计算引擎

spark大数据架构初学入门基础详解

学习笔记 | Scala函数式编程

大数据期末总复习知识点总结

Spark性能优化指南——高级篇

Spark性能优化指南——基础篇

DataX的使用

【大数据干货】数据进入阿里云数加-大数据计算服务MaxCompute（原ODPS）的N种方式...

阿里云odps介绍

阿里云大数据计算服务MaxCompute（远ODPS）

从0到1搭建大数据平台之计算存储系统

MaxCompute（原ODPS）开发入门指南——数据上云篇

Tachyon内存文件系统

阿里云大数据平台的实操：ODPS的SQL语句

Tachyon---基于内存的分布式存储系统

Tachyon--以内存为核心的开源分布式存储系统