***大数据框架*** 第7页

2分钟读懂大数据框架Hadoop和Spark的异同

解决问题的层面不一样首先，Hadoop和ApacheSpark两者都是大数据框架，但是各自存在的目的不尽相同。

天地会珠海分舵·2020-07-11 07:07

Spark权威指南(中文版)----第22章事件时间和有状态处理

扫码关注公众号:登峰大数据，阅读中文Spark权威指南(完整版)，系统学习Spark大数据框架！如果您觉得作者翻译的内容有帮助，请分享给更多人。

大数据辅导员·2020-07-09 15:31

Spark权威指南(中文版)----第26章分类

扫码关注公众号:登峰大数据，阅读中文Spark权威指南(完整版)，系统学习Spark大数据框架！如果您觉得作者翻译的内容有帮助，请分享给更多人。

大数据辅导员·2020-07-09 15:31

Spark权威指南(中文版)----第21章 Structured Streaming基础

扫码关注公众号:登峰大数据，阅读中文Spark权威指南(完整版)，系统学习Spark大数据框架！如果您觉得作者翻译的内容有帮助，请分享给更多人。

大数据辅导员·2020-07-09 15:31

Spark权威指南(中文版)----第25章预处理和特征工程

扫码关注公众号:登峰大数据，阅读中文Spark权威指南(完整版)，系统学习Spark大数据框架！如果您觉得作者翻译的内容有帮助，请分享给更多人。

大数据辅导员·2020-07-09 15:31

Spark权威指南(中文版)----第23章生产环境中的结构化流

扫码关注公众号:登峰大数据，阅读中文Spark权威指南(完整版)，系统学习Spark大数据框架！如果您觉得作者翻译的内容有帮助，请分享给更多人。

大数据辅导员·2020-07-09 15:31

Hadoop整体框架

大数据框架目录大数据框架一、Hodoop四大组件：HDFS/MapReduce/YARN/Common二、Zookeeper三、Hive四、Spark五、ETL六、ngnix七、Redis八、Oracle

爱吃串串的瘦子·2020-07-08 20:45

大数据之Ambari2.7+HDP3.0（一）

公司目前在开展大数据业务，在大数据框架选型方面一直在Ambari+HDP和CM+CDH之中徘徊。我就尝试动手搭建了两套环境来试试效果。接下来我会记录搭建HDP和CDH环境的详细步骤。。

LearnBigData·2020-07-07 16:27

Kafka Streams与其他流处理平台的差异在哪里？

光是在Apache基金会孵化的项目，关于流处理的大数据框架就有十几个之多，比如早期的ApacheSamza、ApacheStorm，以及这两年火爆的Spark以及Flink等。

wx5e9fc52a5db79·2020-07-06 20:59

玩转人工智能（3）常用的大数据框架简单介绍

讲大数据框架前，简单的介绍下大数据的文化。信息时代人类社会的进步得益于分享和开源。

Moscar_M·2020-07-06 10:06

大数据压力测试工具HiBench

压力测试工具选型：HiBenchHiBench测试工具说明：HiBench是一套基准测试套件，用于帮助我们评估不同的大数据框架性能指标（包括处理速度、吞吐等）的负载指标，可以评估Hadoop、Spark

liygcoding·2020-07-06 07:38

大数据框架图谱（总览）

前言加入大数据开发加起来也差不多快1年多的时间了。最近的时间比较空余，正好把所有的大数据开源框架都总结一下。Hadoop&Hive&Pig&HBaseKafka关注的社区:[1].Kafka官方[2].orchome社区关注博客:[1].Github-jasongj[2].CSDN-朱小厮[3].Github-刘正阳好文推荐:[1].kafka学习笔记：知识点整理[2].Kafka源码分析1:基础

在风中的意志·2020-07-05 15:54

kafka真实环境部署规划

kafka真实环境部署规划1.操作系统选型因为kafka服务端代码是Scala语言开发的，因此属于JVM系的大数据框架，目前部署最多的3类操作系统主要由Linux，OSX和Windows,但是部署在Linux

发热安啃·2020-07-05 01:23

大数据学习知识框架

转载自：https://blog.csdn.net/qq_38314823/article/details/80628981-学习大数据需要的基础1、javaSE、EE（SSM）90%的大数据框架都是Java

哈哈怕哈·2020-07-04 23:11

云函数 SCF 与对象存储实现 WordCount 算法

本文将尝试通过MapReduce模型实现一个简单的WordCount算法，区别于传统使用Hadoop等大数据框架，本文使用云函数SCF与对象存储COS来实现。

Serverless·2020-07-04 03:54

用Apache Spark进行大数据处理

from:http://www.infoq.com/cn/articles/apache-spark-sqlSparkSQL，作为ApacheSpark大数据框架的一部分，主要用于结构化数据处理和对Spark

iteye_13851·2020-07-02 04:30

Hadoop生态系统：用于处理大数据的Hadoop工具

这个Hadoop生态系统博客将使您熟悉Hadoop认证所需的行业广泛使用的大数据框架。Hadoop生态系统既不是编程语言也不是服务，它是解决大数据问题的平台或框架。您可以将其视为一个套件，其中包含许

daqiang012·2020-07-01 21:07

菜鸟的Hadoop快速入门

大数据包括了以Hadoop和Spark为代表的基础大数据框架，还包括实时数据处理，离线数据处理，数据分析，数据挖掘和用机器算法进行预测分析等技术。

数澜科技D·2020-07-01 09:52

Hadoop大数据生态圈中的组件角色与关系

各种大数据框架近几年发展得如火如荼，比如Hadoop,MapReduce,Hive,Hbase,Storm,Spark,Flink,Kylin等。

BabyFish13·2020-07-01 08:18

深入浅出：10行Flink WordCount程序背后的万字深度解析，读懂Flink原理和架构

要想熟练掌握一个大数据框架，仅仅是学习一些网络上的样例程序是远远不够的，我们必须系统地了解它背后的设计和运行原理。本文将以WordCount的案例为主线，主要介绍Flink的设计和运行原理。

皮皮鲁同学·2020-07-01 04:16

Hadoop 生态之 MapReduce 及 Hive 简介

虽然两者都被称为大数据框架，但实际层级不同。Hadoop是一

杏仁技术站·2020-06-30 05:26

大数据之路：非科班、零基础、转行大数据开发

、笔者背景1、本科阶段专业自动化，主要学习C语言、嵌入式、硬件等，拿过电设、飞思卡尔等国奖，没刷过算法、对软件几乎零基础2、研究生阶段硕士985，控制专业，研一开始，从零基础学习了Java基础、算法、大数据框架等

TALKDATA·2020-06-30 04:46

大数据及大数据框架

信息产业（IT）发展至今，计算要的主要工作之一就是处理各种类型和各种来源的数据。大数据（BigData)是一种规模庞大的数据集合，一般单台计算机的能力范围无法对数据集进行获取、存储、管理和分析。因此大数据又和云计算和分布式集群密不可分。大数据是互联网发展至今一个时代的产物。所以并没有什么神密和复杂之处。IBM曾提出大数据的5大特性（5V特性），即Volume（大量）、Velocity（高速）、Va

仁鱼·2020-06-30 04:32

利用web管理spark任务

由于是scala写的，所以这个框架对于和大数据框架结合来说个人觉得最非常适合。

张鱼猫·2020-06-29 18:14

大数据框架重要知识点梳理

以后的博客会按照以下顺序进行解释，如果对大数据有兴趣，并且自学不知道如何学习的，可以关注一下，哪里有问题也可以评论提出，我哪里理解错了，也希望大神指出1、java相关的知识点1、多线程2、io流3、反射4、JVM-----需要重点关注2、hadoop2.1HDFS1、hdfs读写原理2、hdfs角色和作用2.2mapreduce1、mapreduce原理图shuffle原理2、需要使用java语言

এ゛孙先生_。·2020-06-29 12:34

大数据框架中的数据倾斜总结

hive中的数据倾斜数据倾斜就是由于数据分布不均匀，数据大量集中到一点上，造成数据热点。大多数情况下，分为一下三种情况：1.map端执行比较快，reduce执行很慢，因为partition造成的数据倾斜。2.某些reduce很快，某些reduce很慢，也是因为partition造成的数据倾斜。3.某些map执行很快，某些map执行很慢，这是因为数据本身的分布的不合理性造成的。造成上面reduce和

xuxu96·2020-06-29 07:06

学习笔记——大数据——待了解的问题

以下为摘抄：现如今，为了应对大数据的这几个特点，开源的大数据框架越来越多，越来越强，先列举一些常见的：文件存储：N、Mesos日志收集：Flume、Scribe、Logstash、Kibana消息系统：

weixin_42583286·2020-06-29 05:07

大数据框架下的金融风险管理浅谈

在整个金融市场上，出现了一个有趣的现象。金融市场的核心是风险和定价，无论是债券、期货、大众商品、股票市场等均归纳于信用风险和市场风险。过去大多以财务数据为主，面对新经济行业的时候，大量的资产数据和财务数据的权重显得不是那么高的时候，我们如何用新的方法去对我们的企业风险形成一个有效的评估，这就是要一直致力于解决的问题。对于企业信用来说，当你的财务数据所占权重不是那么高的时候，从资产评估的角度来说，企

AI专家·2020-06-29 03:04

spark入门框架+python

hdfs以及yarn1sparkconf2sparkcontext3RDD（核心）4transformation（核心）5action（核心）当然也可以指定运行py程序简介：不可否认，spark是一种大数据框架

weixin_42001089·2020-06-29 03:45

数据库——关系型数据库和非关系型数据库调研

系统集成组数据库调研对比文档关系型数据库和非关系型数据库组内使用数据库为关系型数据库oracle，现在市场上出现了更为流行的关系型数据库诸如Mysql/MariaDB、PostgreSql、PPAS（增强型PostgreSql），以及当前在大数据框架中比较流行的非关系型数据库诸如

jeremiahyuan·2020-06-28 22:14

Java程序员转行大数据开发怎么样？难吗？

大数据框架的编写支持很多开发语言，目前流行的大数据Hadoop框架，很多部分都是用开源的Java语言编写。

weixin_34259232·2020-06-28 15:24

阿里云 EMR最佳实践和容灾

阿里云EMR（ElasticMapReduce）是一项Web服务，简化了大数据处理，提供的大数据框架可以让您轻松、高速、经济、安全、稳定地处理大数据，满足如日志分析、数据仓库、商业智能、机器学习、科学模拟等业务需求

weixin_34186950·2020-06-28 13:33

大话大数据（一）

现如今，正式为了应对大数据的这几个特点，开源的大数据框架越来越多，越来越强，先列举一些常见的：文件存

weixin_33991727·2020-06-28 09:32

简述大数据实时处理框架

此篇文章简述利用大数据框架，实时处理数据的流程与相关框架的介绍，主要包括：数据实时处理的概念和意义数据实时处理能做什么数据实时处理架构简介数据实时处理代码演示数据实时处理的概念和意义什么是数据实时处理呢

weixin_33681778·2020-06-28 03:50

行业研究-三类大数据公司

国外：Cloudera：大数据基础平台用户：主要为金融行业的公司需求：主打大数据工具和服务、机器学习和基于Hadoop开源大数据框架下

夜之北斗星·2020-06-27 10:39

2019年最新Hadoop大数据开发学习路线图

大数据框架Hadoop发展到今天家族产品已经非常丰富，能够满足不同场景的大数据处理需求。作为目前主流的大数据处理技术，市场上很多公司的大数据业

乐姐·2020-06-26 14:49

常见大数据框架

文件存储：HadoopHDFS、Tachyon、KFS离线计算：HadoopMapReduce、Spark流式、实时计算：Storm、SparkStreaming、S4、HeronK-V、NOSQL数据库：HBase、Redis、MongoDB资源管理：YARN、Mesos日志收集：Flume、Scribe、Logstash、Kibana消息系统：Kafka、StormMQ、ZeroMQ、Rabb

小学生ing·2020-06-26 11:37

大数据框架基础Hive数据类型

本章介绍Hive不同的数据类型，用于创建表。Hive所有数据类型分为四种类型，给出如下：列类型文字Null值复杂类型列类型列类型被用作Hive的列数据类型。它们如下：整型整型数据可以指定使用整型数据类型，INT。当数据范围超过INT的范围，需要使用BIGINT，如果数据范围比INT小，使用SMALLINT。TINYINT比SMALLINT小。下表描述了各种INT数据类型：类型后缀示例TINYINT

拾荒的程序员老头·2020-06-26 07:44

大数据java基础吗？

具体学习内容，可以参看如下文章：入门大数据必读这个可以看到做大数据的话java是必需品，因为基本所有的大数据框架都是jvm开发，或者精确一点都是java或者scala。

大数据星球-浪尖·2020-06-26 05:58

大数据框架学习：从 Hadoop 到 Spark

Hadoop1.Hadoop是什么Hadoop软件库是一个利用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理的框架。特点：部署成本低、扩展方便、编程模型简单。Hadoop实现了在行业标准的服务器上进行可靠、可缩放的分布式计算，让你能够以较低的预算跟踪数PB以上的数据，而不必需要超级计算机和其他昂贵的专门硬件。Hadoop还能够从单台服务器扩展到数千台计算机，检测和处理应用程序层上的故障

一生只做it人·2020-06-25 23:06

java操作Hadoop的核心类库MapReduce

最近国网这边要求使用大数据框架写项目，无奈之前对于Hadoop这些一无所知，只能先学习一下开发时主要用到的一些技术点，后续有空再继续补充原理知识MapReduce主要是采用分而治之的思想，上图的理解主要如下

孤皇无上·2020-06-25 21:31

常用大数据框架对比

最近看到一篇写大数据框架的文章，写的非常好，也根据自己的经验做一些总结吧。大数据框架的选型对刚接触分布式运算的人来说确实有点迷茫，希望这篇文章可以对大家有所帮助。

PandaWzg·2020-06-25 19:24

Spark分布式机器学习源码分析：特征提取与转换

Spark是一个极为优秀的大数据框架，在大数据批处理上基本无人能敌，流处理上也有一席之地，机器学习则是当前正火热AI人工智能的驱动引擎，在大数据场景下如何发挥AI技术成为优秀的大数据挖掘工程师必备技能。

大数据之眸·2020-06-25 12:30

Spark分布式机器学习源码分析：模型评估指标

Spark是一个极为优秀的大数据框架，在大数据批处理上基本无人能敌，流处理上也有一席之地，机器学习则是当前正火热AI人工智能的驱动引擎，在大数据场景下如何发挥AI技术成为优秀的大数据挖掘工程师必备技能。

大数据之眸·2020-06-25 12:30

Spark分布式机器学习源码分析：奇异值分解（SVD）与主成分分析（PCA）

原理Spark是一个极为优秀的大数据框架，在大数据批处理上基本无人能敌，流处理上也有一席之地，机器学习则是当前正火热AI人工智能的驱动引擎，在大数据场景下如何发挥AI技术成为优秀的大数据挖掘工程师必备技能

大数据之眸·2020-06-25 12:30

Spark MLlib分布式机器学习源码分析：隐式狄利克雷分布（LDA）

原理Spark是一个极为优秀的大数据框架，在大数据批处理上基本无人能敌，流处理上也有一席之地，机器学习则是当前正火热AI人工智能的驱动引擎，在大数据场景下如何发挥AI技术成为优秀的大数据挖掘工程师必备技能

大数据之眸·2020-06-25 12:30

Spark分布式机器学习源码分析：频繁模式挖掘

Spark是一个极为优秀的大数据框架，在大数据批处理上基本无人能敌，流处理上也有一席之地，机器学习则是当前正火热AI人工智能的驱动引擎，在大数据场景下如何发挥AI技术成为优秀的大数据挖掘工程师必备技能。

大数据之眸·2020-06-25 12:30

Spark MLlib分布式机器学习源码分析：协同过滤

Spark是一个极为优秀的大数据框架，在大数据批处理上基本无人能敌，流处理上也有一席之地，机器学习则是当前正火热AI人工智能的驱动引擎，在大数据场景下如何发挥AI技术成为优秀的大数据挖掘工程师必备技能。

大数据之眸·2020-06-25 12:29

Spark MLlib分布式机器学习源码分析：决策树算法

Spark是一个极为优秀的大数据框架，在大数据批处理上基本无人能敌，流处理上也有一席之地，机器学习则是当前正火热AI人工智能的驱动引擎，在大数据场景下如何发挥AI技术成为优秀的大数据挖掘工程师必备技能。

大数据之眸·2020-06-25 12:29

Spark MLlib分布式机器学习源码分析：线性模型

Spark是一个极为优秀的大数据框架，在大数据批处理上基本无人能敌，流处理上也有一席之地，机器学习则是当前正火热AI人工智能的驱动引擎，在大数据场景下如何发挥AI技术成为优秀的大数据挖掘工程师必备技能。

大数据之眸·2020-06-25 12:29

推荐频道

***大数据框架***

2分钟读懂大数据框架Hadoop和Spark的异同

Spark权威指南(中文版)----第22章 事件时间和有状态处理

Spark权威指南(中文版)----第26章 分类

Spark权威指南(中文版)----第21章 Structured Streaming基础

Spark权威指南(中文版)----第25章 预处理和特征工程

Spark权威指南(中文版)----第23章 生产环境中的结构化流

Hadoop整体框架

大数据之Ambari2.7+HDP3.0（一）

Kafka Streams与其他流处理平台的差异在哪里？

玩转人工智能（3）常用的大数据框架简单介绍

大数据压力测试工具HiBench

大数据框架图谱（总览）

kafka真实环境部署规划

大数据学习知识框架

云函数 SCF 与对象存储实现 WordCount 算法

用Apache Spark进行大数据处理

Hadoop生态系统：用于处理大数据的Hadoop工具

菜鸟的Hadoop快速入门

Hadoop大数据生态圈中的组件角色与关系

深入浅出：10行Flink WordCount程序背后的万字深度解析，读懂Flink原理和架构

Hadoop 生态之 MapReduce 及 Hive 简介

大数据之路：非科班、零基础、转行大数据开发

大数据及大数据框架

利用web管理spark任务

大数据框架重要知识点梳理

大数据框架中的数据倾斜总结

学习笔记——大数据——待了解的问题

大数据框架下的金融风险管理浅谈

spark入门框架+python

数据库——关系型数据库和非关系型数据库调研

Java程序员转行大数据开发怎么样？难吗？

阿里云 EMR最佳实践和容灾

大话大数据（一）

简述大数据实时处理框架

行业研究-三类大数据公司

2019年最新Hadoop大数据开发学习路线图

常见大数据框架

大数据框架基础Hive数据类型

大数据java基础吗？

大数据框架学习：从 Hadoop 到 Spark

java操作Hadoop的核心类库MapReduce

常用大数据框架对比

Spark分布式机器学习源码分析：特征提取与转换

Spark分布式机器学习源码分析：模型评估指标

Spark分布式机器学习源码分析：奇异值分解（SVD）与主成分分析（PCA）

Spark MLlib分布式机器学习源码分析：隐式狄利克雷分布（LDA）

Spark分布式机器学习源码分析：频繁模式挖掘

Spark MLlib分布式机器学习源码分析：协同过滤

Spark MLlib分布式机器学习源码分析：决策树算法

Spark MLlib分布式机器学习源码分析：线性模型

大数据框架

Spark权威指南(中文版)----第22章事件时间和有状态处理

Spark权威指南(中文版)----第26章分类

Spark权威指南(中文版)----第25章预处理和特征工程

Spark权威指南(中文版)----第23章生产环境中的结构化流