E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
大数据计算
Hadoop与Spark技术入门
1Hadoop系统概述1.1Hadoop简介Hadoop最初起源于搜索引擎子项目Nutch,是Apache基金会的开源
大数据计算
平台,其核心组件设计包含有分布式文件系统HDFS及分布式计算框架MapReduce
tmac1027
·
2020-08-19 04:07
大数据
Flink项目中Window那些事
说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的
大数据计算
框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl9
大数据研习社
·
2020-08-18 20:27
Hadoop
Storm
Spark
数据分析
Python
开发工具
Flink#了解Flink 新一代大数据处理引擎 Apache Flink
大数据计算
引擎的发展这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有Hadoop、Storm,以及后来的Spark,他们都有着各自专注的应用场景。
hiekay
·
2020-08-18 12:04
Flink
Flink#了解Flink
新一代大数据处理引擎
Apache
Fli
apache
Flink
flink
了解Flink
flink入门
Spark调优高级篇:数据倾斜调优
有兴趣可以仔细研读:https://tech.meituan.com/spark-tuning-pro.htmlSpark调优:高级篇之数据倾斜调优数据倾斜调优调优概述有的时候,我们可能会遇到
大数据计算
中一个最棘手的问题
stevekangpei
·
2020-08-18 11:36
spark学习
Hive数据倾斜
数据倾斜是进行
大数据计算
时最经常遇到的问题之一。当我们在执行HiveQL或者运行MapReduce作业时候,如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题。
cbh_sbj
·
2020-08-18 11:57
Hive
数据倾斜
1.数据倾斜是进行
大数据计算
时,最常遇到的问题之一,当我们在执HiveQL或者运行MR作业时,如果遇到一直卡在map100%,reduce99%,最后的1%花了几个小时都没有跑完,这种情况一般就是遇到了数据倾斜的问题
哪有天生的学霸,一切都是厚积薄发
·
2020-08-18 11:02
数据倾斜
Spark性能优化:数据倾斜调优
1.数据倾斜调优调优概述有的时候,我们可能会遇到
大数据计算
中一个最棘手的问题——数据倾斜,此时Spark作业的性能
张章章Sam
·
2020-08-18 11:31
技术新人的大数据之路
你可以骂自己英语不好,但是你确实要看的,不推荐你看中文版,会让你误解很多概念和词汇,还是要从英文的开始看起:http://pan.baidu.com/s/1o6G8PGAMapReduce可谓是总结了
大数据计算
的核心
晓阳的数据小站
·
2020-08-18 11:01
数据心情
如何开发SparkSQL项目?
前言Spark是企业中用的比较多的
大数据计算
框架,它主要由SparkCore、SparkSQL、SparkStreaming这三个模块组成,实时计算主要使用SparkStreaming,离线部分的数据处理则主要使用
曲健磊
·
2020-08-18 10:55
【Spark】
Spark调优高级篇:数据倾斜调优
有兴趣可以仔细研读:https://tech.meituan.com/spark-tuning-pro.htmlSpark调优:高级篇之数据倾斜调优数据倾斜调优调优概述有的时候,我们可能会遇到
大数据计算
中一个最棘手的问题
远陌
·
2020-08-18 10:39
运营商大数据能做什么?
大数据的主要作用是帮助企业通过数据的广泛采集,和信息的收集,通过
大数据计算
,帮助企业做一些决策类或者一些营销导向或者底层服务等。大数据分为很多种!运营商大数据便是其中的一种。
wx13596030557
·
2020-08-18 09:20
大数据
运营商大数据
数据分析
360数据处理平台的演进与优化读后感
在当今的大数据时代,
大数据计算
引擎已经从原先最早的Hadoop生态系统演变到了第三代甚至是第四代计算引擎,比如Spark以及Flink等;存储引擎也是呈现多样化的发展,如支持MPP的关系型存储、分布式存储
dianbuba8944
·
2020-08-17 22:28
大数据环境搭建之Hadoop集群搭建
作者:Neshoir Hadoop是目前市面上比较主流的开源分布式存储及分布式
大数据计算
框架,其具有高可靠,高可用,可扩展性强等特点,其设计允许简单的编程模型跨计算机集群处理大规模数据集,框架本身不依赖于硬件的可用性
supermapsupport
·
2020-08-16 20:57
大数据
广告点击流量实时统计
广告被点击以后,实际上,我们就是要针对这种用户行为(广告点击行为),实时数据,进行实时的
大数据计算
和统计。每次点击一个广告以后,通常来说,网站/app中都
chbxw
·
2020-08-16 16:00
#
项目
#
spark
超英文邮件50%!Flink 中文邮件列表必须有姓名
作为备受瞩目的新一代开源
大数据计算
引擎,Flink已成为Apache基金会和GitHub最为活跃的顶级项目之一。
Ververica
·
2020-08-16 16:33
大数据
人工智能
编程语言
java
项目管理
大数据系统-Spark生态系统
目前,Spark已经发展成为包含众多子项目的
大数据计算
平台。BDAS是伯克利大学提出的基于Spark的数据分析栈(BDAS)。
gao8658
·
2020-08-15 07:09
基础架构
设计一个分布式RPC框架
我从事的是大数据开发相关的工作,主要负责的是
大数据计算
这块的内容。
weixin_33995481
·
2020-08-14 20:06
Datax的配置及使用
(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能DataX目前已经有了比较全面的插件体系,主流的RDBMS数据库、NOSQL、
大数据计算
系统都已经接入
舍得斋
·
2020-08-14 20:16
otter
数据库
HaLoop:大集群上高效的迭代数据处理(上)
摘要:超大规模数据挖掘和数据分析需求的日益增长,引领着工业和学术界设计
大数据计算
平台新模式。MapReduce和Dryad是两种流行的平台,数据流在这两种平台上采用操作符的有向非循环图形式。
水裕月
·
2020-08-14 16:22
大数据
mapreduce
大数据
hadoop
迭代
数据
MaxCompute基础与MaxCompute SQL优化
总论:
大数据计算
服务(MaxCompute,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。
weixin_34066347
·
2020-08-14 12:14
MaxComputeSQL-列转行和行转列
阅读原文请点击摘要:1.假设我们在MaxCompute中有两张表,其中一张表是存用户基本信息,另一张表是存用户的地址信息等,表数据假设如下:user_basic_info:idname1a2b3c
大数据计算
服务
qq_35267530
·
2020-08-14 11:03
数据倾斜是多么痛?spark作业调优秘籍
spark作业调优秘籍不鸡道叫啥2016/11/09有的时候,我们可能会遇到
大数据计算
中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。
javastart
·
2020-08-14 10:16
spark
大数据调度脚本--日期处理
场景说明针对大数据开发初学者,给初学者看的;学习收获:掌握DML语句开发出来之后,如何写调度程序知识储备要求:有一定的sql基础,尤其是query语句,了解shell脚本本文讲解面向平台是
大数据计算
平台
u:boom
·
2020-08-14 03:04
shell
看DLI服务4核心如何提升云服务自动化运维
DLI是支持多模引擎的Serverless
大数据计算
服务,免运维也是其作为Serverless云服务面向客户时的一个重要的特性。那么对于服务本身我们是如何实现整个服务的运维呢?
华为云
·
2020-08-14 00:34
技术交流
DLI
Serverless
监控告警
运维
云服务自动化运维
将 Python 程序打包为跨平台应用
在本场Chat中,会讲到如下内容:宏观介绍
大数据计算
平台使用步骤讲解本篇中用到的Python库的使用(数据挖掘库
蔚1
·
2020-08-13 20:57
看DLI服务4核心如何提升云服务自动化运维
DLI是支持多模引擎的Serverless
大数据计算
服务,免运维也是其作为Serverless云服务面向客户时的一个重要的特性。那么对于服务本身我们是如何实现整个服务的运维呢?
华为云开发者社区
·
2020-08-12 17:15
dlib
serverless
运维自动化
华为云
微服务
看DLI服务4核心如何提升云服务自动化运维
DLI是支持多模引擎的Serverless
大数据计算
服务,免运维也是其作为Serverless云服务面向客户时的一个重要的特性。那么对于服务本身我们是如何实现整个服务的运维呢?
华为云开发者社区
·
2020-08-12 10:00
大数据技术之Flink电商用户行为分析系统(用户画像)
Spark作为一个微批处理的
大数据计算
框架,主要作用就是类似M
IronmanJay
·
2020-08-12 10:15
Flink
用户画像
大数据
hadoop
flink
spark
电子商务
超英文邮件50%!Flink 中文邮件列表必须有姓名
作为备受瞩目的新一代开源
大数据计算
引擎,Flink已成为Apache基金会和GitHub最为活跃的顶级项目之一。
ApacheFlink
·
2020-08-11 18:24
flink
Spark入门系列(一) | 30分钟理解Spark的基本原理
一、Spark优势特点作为
大数据计算
框架MapReduce的继任者,Spark具备以
AI科技大本营
·
2020-08-11 16:58
Calcite RBO rule 解析和自定义
什么是查询优化器查询优化器是传统数据库的核心模块,也是
大数据计算
引擎的核心模块,开源大数据引擎如Impala、Presto、Drill、HAWQ、Spark、Hive等都有自己的查询优化器。
GuoSmileSmile
·
2020-08-11 12:50
Spark数据倾斜无法解决?来看这份完美的解决方案
数据倾斜是在
大数据计算
中常见的问题,用最通俗易懂的话来说,数据倾斜无非就是大量的相同key被partition分配到一个分区里,造成了’一个人累死,其他人闲死’的情况,这种情况是我们不能接受的,这也违背了并行计算的初衷
黑马程序员广州中心
·
2020-08-11 02:12
大数据
两阶段聚合(局部聚合+全局聚合)解决groupby产生数据倾斜的简单案例
1概述有的时候,我们可能会遇到
大数据计算
中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。
爆发的~小宇宙
·
2020-08-11 01:23
Spark
初识Spark
Spark是一种
大数据计算
框架,期望使用一种技术栈就完美解决大数据领域的各种计算任务,A
liweihope
·
2020-08-10 17:11
Spark
大数据计算
引擎
2004年谷歌的MapReduce论文给出了一个可行的
大数据计算
模型,给大数据并行处理带来了巨大的革命性影响。
互联网工匠
·
2020-08-10 14:01
大数据
程序员
spark大数据架构初学入门基础详解
Spark是什么a)是一种通用的
大数据计算
框架b)SparkCore离线计算SparkSQL交互式查询SparkStreaming实时流式计算SparkMLlib机器学习SparkGraphX图计算c)
星月情缘02
·
2020-08-10 04:28
Spark
学习笔记 | Scala函数式编程
目前
大数据计算
引擎Spark就是用Scala编写的,在Sp
lgfeng218
·
2020-08-09 22:01
大数据期末总复习知识点总结
选择20个,填空10个,判断10个,简答6个,程序补全2个第一章概述大数据概念;4v大数据的影响,对思维方式的影响p11大数据关键技术,四个阶段
大数据计算
模式大数据与云计算物联网的关系第二章Hadoophadoop
计忆芳华
·
2020-08-08 11:49
大数据学习
Spark性能优化指南——高级篇
数据倾斜调优调优概述有的时候,我们可能会遇到
大数据计算
中一个最棘手的问题——数
小顽童王
·
2020-08-06 10:11
spark
apache
spark
性能
Spark性能优化指南——基础篇
本文转发自美团点评技术团队,原文链接https://tech.meituan.com/spark-tuning-basic.html前言在
大数据计算
领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一
小顽童王
·
2020-08-06 10:39
spark
apache
技术
spark
性能优化
DataX的使用
图1-1DataX的应用数据库范围DataX目前已经有了比较全面的插件体系,主流的RDBMS数据库、NOSQL、
大数据计算
系统都已经接入,具体详情Dat
S无影者
·
2020-08-05 19:17
数据库
【大数据干货】数据进入阿里云数加-
大数据计算
服务MaxCompute(原ODPS)的N种方式...
免费开通大数据服务:https://www.aliyun.com/product/odps想用阿里云
大数据计算
服务(MaxCompute),对于大多数人首先碰到的问题就是数据如何迁移到MaxCompute
weixin_34409703
·
2020-08-04 20:31
阿里云odps介绍
https://help.aliyun.com/product/27797.htmlmaxCompute(
大数据计算
服务,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。
weixin_33739541
·
2020-08-04 20:48
阿里云
大数据计算
服务MaxCompute(远ODPS)
阿里云
大数据计算
服务MaxCompute(原ODPS)概要使用场景海量数据,实时性要求不高,不具备数据库的特征,如事务、主键约束、索引等保留字sql语句的关键字分区表创建表的时候创建分区列,提高sql效率类型转换显式转换和隐式转换显式转换
nkym61
·
2020-08-04 16:04
从0到1搭建大数据平台之计算存储系统
大数据计算
平台目前主要都是围绕着hadoop生态发展的,运用HDFS作为数据存储,计算框架分为批处理、流处理。
WindyQin
·
2020-08-04 13:00
MaxCompute(原ODPS)开发入门指南——数据上云篇
阅读全文MaxCompute(原ODPS)开发入门指南——数据上云篇写在最前面>>>进入了解更多>>>阿里云数加·MaxCompute
大数据计算
服务.根据《MaxCompute(原ODPS)开发入门指南
chuhan3075
·
2020-08-04 13:05
Tachyon内存文件系统
从软件栈的层次来看,Tachyon是位于现有
大数据计算
框架和大数据存储系统之间的独立的一层。它利用底层文件系统作为备份,对于上层应用来说,Tachyon就是一个分布式文件系统。
快乐的霖霖
·
2020-08-04 13:14
分布式与大数据系统
分布式文件系统
阿里云大数据平台的实操:ODPS的SQL语句
大数据计算
服务(MaxCompute,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。
民谣书生
·
2020-08-04 12:52
ODPS
Tachyon---基于内存的分布式存储系统
Tachyon为不同的
大数据计算
框架(如ApacheSpark,HadoopMapReduce,ApacheFlink等)提供可靠的内存级的数据共享服务。
行者小朱
·
2020-08-04 11:38
BigData
Framework
Tachyon--以内存为核心的开源分布式存储系统
Tachyon为不同的
大数据计算
框架(如ApacheSpark,HadoopMapReduce,ApacheFlink等)提供可靠的内存级的数据共享服务。
腾讯开发者
·
2020-08-04 11:53
上一页
8
9
10
11
12
13
14
15
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他