***大数据框架*** 第8页

Spark MLlib分布式机器学习源码分析：基本统计

Spark是一个极为优秀的大数据框架，在大数据批处理上基本无人能敌，流处理上也有一席之地，机器学习则是当前正火热AI人工智能的驱动引擎，在大数据场景下如何发挥AI技术成为优秀的大数据挖掘工程师必备技能。

大数据之眸·2020-06-25 12:29

Spark MLlib分布式机器学习源码分析：矩阵向量

Spark是一个极为优秀的大数据框架，在大数据批处理上基本无人能敌，流处理上也有一席之地，机器学习则是当前正火热AI人工智能的驱动引擎，在大数据场景下如何发挥AI技术成为优秀的大数据挖掘工程师必备技能。

大数据之眸·2020-06-25 12:28

大数据框架搭建集群安装配置步骤大全

一《zookeeper集群安装配置》安装步骤：提示：要关闭虚拟机的防火墙，执行：serviceiptablesstop1.准备虚拟机，安装并配置jdk，1.6以上2.上传zookeeper的安装包3.4.7版本3.解压安装tar-xvf…………4.配置zookeeper。5.配置集群模式①切换到zookeeper安装目录的conf目录，其中有一个zoo_sample.cfg的配置文件，这个一个配置

任错错·2020-06-25 10:33

Hadoop实战（一），单词计数（wordcount）

目的通过特定HadoopDemo实战，了解、学习、掌握大数据框架日常使用及尝试挑战大数据研发过程中遇到的挑战等。场景描述运用MapReduce进行简单的单词计数统计。

kngines·2020-06-25 01:24

有关大数据框架的一些杂乱bug

1、数据分片用scala分片每行数据时，遇到最后几个字段为空值，需要用到split函数中的参数arg1split(arg0:String,arg1:Int)1、当arg1>0时，它限制arg0最多成功匹配arg1.length()-1次，也就是说字符串最多被分成arg1个子串。此时split会保留分割出的空字符串（当两个arg0连续匹配或者arg0在头尾匹配，会产生空字符串）。比如：scala>"

challengedream·2020-06-25 01:55

Kylin 的架构和原理

1.Kylin的设计思想1.1与其他开源大数据框架设计思想的对比解决大数据不断增长中高速查询的能力。怎么保证随着数据量的增长，怎么保证在未来的数据查询性能不受影响。

平生在翠微·2020-06-24 10:31

kylin单机版搭建OLAP

最近想尝试大数据框架，所以选择了kylin当然druid框架也是很不错，不过他有自己特定的语言，不支持SQL，这样对后期改造项目不方便，另外是kylin团队是国内维护，中文文档全，所以就选它来试试手首生下载

大树168·2020-06-24 05:20

flume大数据框架数据采集系统

flume是cloudera开源的数据采集系统，现在是apache基金会下的子项目，他是hadoop生态系统的日志采集系统，用途广泛，可以将日志、网络数据、kafka消息收集并存储在大数据hdfs系统之上。现在的flume其实已经不是最初的flume了，他其实是flume-ng，就是flume二代，我们下载最新的apache-flume解压之后，发现bin目录有flume-ng可执行程序，并没有f

luffy5459·2020-06-23 07:19

大数据框架基础MapReduce实例分析：单词计数

单词计数是最简单也是最能体现MapReduce思想的程序之一，可以称为MapReduce版“HelloWorld”。单词计数的主要功能是统计一系列文本文件中每个单词出现的次数。本节通过单词计数实例来阐述采用MapReduce解决实际问题的基本思路和具体实现过程。设计思路首先，检查单词计数是否可以使用MapReduce进行处理。因为在单词计数程序任务中，不同单词的出现次数之间不存在相关性，相互独立，

QYUooYUQ·2020-06-23 05:21

大数据框架对比：Hadoop、Storm、Samza、Spark和Flink

简介大数据是收集、整理、处理大容量数据集，并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限，但这种计算类型的普遍性、规模，以及价值在最近几年才经历了大规模扩展。在之前的文章中，我们曾经介绍过有关大数据系统的常规概念、处理过程，以及各种专门术语，本文将介绍大数据系统一个最基本的组件：处理框架。处理框架负责对系统中的数据进行计算，例如处理从非易失

机器学习和人工智能·2020-06-23 04:35

Ansible：自动化运维必须技术之一

我们发现分布式是一个发展的趋势，无论是大型网站的负载均衡架构还是大数据框架部署，以及云存储计算系统搭建都离不开多台服务器的连续部署和环境搭建。

dddxxy·2020-06-23 03:49

Spark权威指南(中文版)----第15章 Spark如何在集群环境运行

扫码关注公众号:登峰大数据，阅读中文Spark权威指南(完整版)，系统学习Spark大数据框架！如果您觉得作者翻译的内容有帮助，请分享给更多人。

大数据辅导员·2020-06-23 03:57

Spark权威指南(中文版)----第14章分布式共享变量

扫码关注公众号:登峰大数据，阅读中文Spark权威指南(完整版)，系统学习Spark大数据框架！如果您觉得作者翻译的内容有帮助，请分享给更多人。

大数据辅导员·2020-06-23 03:57

非科班转行大数据开发--最详细的学习路线

第一阶段：Java部分Java基础、JVM、并发、数据库、缓存、设计模式、计算机网络、操作系统、Linux第二阶段：大数据框架MapReduce、YARN、HDFS、HBase、Hive、Zookeeper

李旭me·2020-06-23 03:31

全面解析大数据框架Hadoop主要模块

hadoopCommon:：包括Hadoop常用的工具类，由原来的Hadoopcore部分更名而来。主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FileSystem等。它们为在通用硬件上搭建云计算环境提供基本的服务，并为运行在该平台上的软件开发提供了所需的API。来源：大数据资讯平台HadoopDistributedFileSystem(

数据工程师大牛·2020-06-23 00:29

收藏 | 100+篇大数据学习资讯，带你玩转大数据分析！

HDFS解析Hadoop开发人员基础课程之初识MapReduceHBase基础知识，面向列的实时分布式数据库完全分布式HBase集群安装配置示例什么是Spark，如何使用Spark进行数据分析2分钟读懂大数据框架

数控小J·2020-06-22 22:08

spark+mongodb大数据框架搭建

spark依赖环境1.jdk1.82.scala2.113.hadoop2.7(本文用mongodb取代HadoopHDFS，不需要安装)安装JDK略。。安装ScalaScala官网地址：http://www.scala-lang.org选择2.11版本下载解压:tar-zxfscala-2.11.11.tgz配置环境变量：vim/etc/profile使配置生效：source/etc/profi

JoeyDTChen·2020-06-22 21:25

原创干货 | 史上最全的大数据学习资源(Awesome Big Data)

很多人在学习大数据的时候比较迷茫，不知从何学起，也不能够比较系统、全面的了解大数据框架。

Hadoop技术博文·2020-06-22 16:37

分布式任务调度可选方案

1、除了基于jvm的java之处，新接触一个JVM语言——SCALA，一种同时面向脚本和面向函数的语言，spark大数据框架是基于scala语言。

anmishi2025·2020-06-22 14:18

2分钟读懂Hadoop和Spark的异同

解决问题的层面不一样首先，Hadoop和ApacheSpark两者都是大数据框架，但是各自存在的目的不尽相同。

一克代码·2020-06-22 12:27

大数据框架之Spark框架

大数据软件框架之Spark框架：Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UCBerkeleyAMPlab(加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行框架，Spark，拥有HadoopMapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地

StarCoder_Yue·2020-06-22 05:06

权威指南：Hadoop vs Spark vs Flink –大数据框架比较

HadoopvsSparkvsFlink–大数据框架比较二、Apac

BAO7988·2020-06-21 17:47

大数据常用框架特点

一、大数据框架：Impala：hadoop的sql平台、支持hbase/hdfs、支持超大数据、支持多并发、sql支持好、对内存依赖比较严重。需要自己优化，并且有的语句超过内存会报错。

weixin_30632899·2020-06-21 10:50

简单介绍之大数据框架

致初学者一，恶龙出巢大数据，顾名思义，就是数据变得越来越多，变得很大很大。我知道很多人对这个解释嗤之以鼻，可是经过我的一段时间学习，发现这个概念就是这样，没有必要把它上升到一种难以理解的高度。不理解的问题在于：你对数据到底有多大根本没有概念。我们在网络上每一次操作无非都是对数据的增删改查，在未来随着网络应用的越来越多，人们对网络需求的越来越大，每个网络使用者相当于一个庞大的数据集，可以说你的经历有

lishinho·2020-06-21 09:03

Netty框架学习之(一）：Netty框架简介

.简介官方定义为：”Netty是一款异步的事件驱动的网络应用程序框架，支持快速地开发可维护的高性能的面向协议的服务器和客户端”,按照惯例贴上一张HighLevel的架构图：纵观Java系的多种服务器/大数据框架

铁猴·2020-06-21 07:26

Spark MLlib分布式机器学习源码分析：朴素贝叶斯

Spark是一个极为优秀的大数据框架，在大数据批处理上基本无人能敌，流处理上也有一席之地，机器学习则是当前正火热AI人工智能的驱动引擎，在大数据场景下如何发挥AI技术成为优秀的大数据挖掘工程师必备技能。

大数据之眸·2020-06-21 05:06

Linux---积累----处理文本技巧---去重

对文本的内容进行去重是一个很常见的需求，excel也可以进行处理但是有数量的限制，而linux更适用于处理比较大的数据量的去重，更大的数据量去重则需要考虑使用spark等大数据框架进行运算。

张小凡vip·2020-06-21 04:03

大数据之Flume学习记录

Flume大数据框架中用于分布式收集数据的系统由Cloudera公司开源；分布式、可靠、高可用的海量日志采集系统；数据源可定制，可扩展;数据存储系统可定制，可扩展。

forzawj·2020-06-21 03:35

云函数 SCF 与对象存储实现 WordCount 算法

本文将尝试通过MapReduce模型实现一个简单的WordCount算法，区别于传统使用Hadoop等大数据框架，本文使用云函数SCF与对象存储COS来实现。

Serverless·2020-05-28 00:26

【Hadoop学习笔记】大数据框架原理及主要工具概述

一、大数据原理大数据技术与工程开发技术在架构上有很大的不同大数据技术当然更关系数据，相关架构也都是围绕着数据展开，重要要考虑如何存储、计算、传输大规模的数据等；而工程端的计算处理模型都是“输入->计算->输出”模型。最大的不同点就是工程技术程序是主体，数据是传输对象，将数据输入后工程才开始计算，然后输出结果。而面临PB级别的大数据计算任务，再去搬移数据，无论读取、传输、处理已经任何服务器的网络贷款

【江湖】三津·2020-05-22 11:52

将 HDFS 搬上数人云：轻松实现集群的扩展收缩

HDFS可以提供高吞吐量的数据访问，非常适合大规模数据集上的应用，很多大数据框架都已HDFS作为其存储方案，如Hadoop、Spark、HBase等。

优云数智·2020-04-13 14:58

分布式计算框架比较

目前市面上有很多大数据框架，如批处理框架Hadoop，流处理框架Storm，以及混合处理型框架Flink和Spark，本文将针对以上几个主流框架进行阐述比较。

Bill_Lin·2020-03-30 04:19

浅谈Spark SQL语句解析与基于规则优化（RBO）

不少大数据框架早已支持了SQL化开发，如Spark、Flink、Kafka等。之前笔者操刀的多数Spark程序都是用传统的RDDAPI写的，SparkSQL用得很少，Flink也如是。

LittleMagic·2020-03-23 16:18

大数据框架学习：从 Hadoop 到 SparkHadoop

1.Hadoop是什么Hadoop软件库是一个利用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理的框架。特点：部署成本低、扩展方便、编程模型简单。Hadoop实现了在行业标准的服务器上进行可靠、可缩放的分布式计算，让你能够以较低的预算跟踪数PB以上的数据，而不必需要超级计算机和其他昂贵的专门硬件。Hadoop还能够从单台服务器扩展到数千台计算机，检测和处理应用程序层上的故障，从而提高可

JACKbayue·2020-03-22 20:29

Hadoop&spark

简介hadoop和spark是两种大数据框架。

练练笔记本·2020-03-19 00:14

超详细的大数据学习资源大全！

本资源类型主要包括：大数据框架、论文等实用资源集合。1.关系数据库管理系统(RDBMS)关系数据库管理系统

W3Cschool·2020-03-09 17:49

2分钟读懂Hadoop和Spark的异同

201601259918_4973.jpg1解决问题的层面不一样首先，Hadoop和ApacheSpark两者都是大数据框架，但是各自存在的目的不尽相同。

若有所思11·2020-03-01 10:02

2019-11-27

目前大数据框架的编写支

dida滴答·2020-02-29 07:40

架构设计04--技术实现02--搭建大数据框架（十分钟学会）

架构设计系列文章，请参见连接。十分钟让你透彻理解大数据的工作方式。大数据并不是深不可测、高不可攀的技术，这里用18页ppt为你深入的理解大数据，学习大数据做好充分的准备。结合大数据实际使用与开发流程讲述大数据中方方面面的内容。可以一次完整的了解大数据落地过程中需要考虑的问题，需要解决的问题呈现出一个可以真实，完整，落地的大数据服务平台。概述说明大数据分析的意义，并抽象大数据处理过程。以更通用的理解

Wales_Kuo·2020-02-21 19:50

框架Hue环境的搭建

Hue的功能由于大数据框架很多，为了解决某个问题，一般来说会用到几个框架，但是每个框架又都有自己的webUI监控界面，对应着不同的端口号。

心_的方向·2020-02-20 08:29

spark并行度学习笔记

问题spark是并行处理的大数据框架。所以，很多时候程序的运行速度，失败原因都和并行度有关。那什么是并行度？并行度怎么设置？

lu_yao·2020-02-18 17:07

2020寒假学习进度报告1

本寒假学习总目标：scala语言，python语言，spark大数据框架。

_小白兔·2020-02-01 21:00

Spark核心技术与高级应用

Spark简介相较于国内外较多的大数据处理框架，Spark以基低延时的出色表现，正在成为继Hadoop的MapReduce之后，新的，最具有影响的大数据框架之一。

Peng小成·2020-01-19 22:03

大数据框架开发基础之Sqoop(1) 入门

Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如：MySQL,Oracle,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。Sqoop的基本认知原理将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce

IT猿看视界·2020-01-10 14:00

hadoop 大数据框架

1、hadoop大数据框架Hadoop是一个应用Java语言实现的软件框架，廉价的计算机组成的集群运行海量数据的分布式并行计算框架，支持上千个节点和PB级别的数据。

foremost·2020-01-10 11:00

01 为什么 MapReduce 会被淘汰

为什么MR会被淘汰过去十几年，分布式系统的发展非常迅速，计算框架是其中非常耀眼的一个方向，业内比较流行的计算框架如下图所示（图片来自该专栏）：大数据框架大规模数据技术的发展，可以分为三个阶段：石器时代：

柳年思水·2020-01-07 18:52

大数据框架开发基础之Zookeeper入门

Zookeeper是Hadoop分布式调度服务，用来构建分布式应用系统。构建一个分布式应用是一个很复杂的事情，主要的原因是我们需要合理有效的处理分布式集群中的部分失败的问题。例如，集群中的节点在相互通信时，A节点向B节点发送消息。A节点如果想知道消息是否发送成功，只能由B节点告诉A节点。那么如果B节点关机或者由于其他的原因脱离集群网络，问题就出现了。A节点不断的向B发送消息，并且无法获得B的响应。

南风意未起·2020-01-07 15:00

如日中天的Uber是用什么语言做到的？

解决问题的层面不一样首先，Hadoop和ApacheSpark两者都是大数据框架，但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施:它将巨大的数据集分派到一个由普通计算机组成

天地会珠海分舵·2020-01-02 11:49

Hadoop常用测试集HiBench配置指南

文章也同时在个人博客http://kimihe.com/更新引言HiBench是intel为评估各大数据框架而设计的测试集，它可以用来测试hadoop集群对于常见计算任务的性能。

QihuaZhou·2020-01-01 19:16

Hadoop、Spark等5种大数据框架对比

大数据是收集、整理、处理大容量数据集，并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限，但这种计算类型的普遍性、规模，以及价值在最近几年才经历了大规模扩展。本文将介绍大数据系统一个最基本的组件：处理框架。处理框架负责对系统中的数据进行计算，例如处理从非易失存储中读取的数据，或处理刚刚摄入到系统中的数据。数据的计算则是指从大量单一数据点中提取信

Kemr·2019-12-31 01:23

推荐频道

***大数据框架***

Spark MLlib分布式机器学习源码分析：基本统计

Spark MLlib分布式机器学习源码分析：矩阵向量

大数据框架搭建集群安装配置步骤大全

Hadoop实战（一），单词计数（wordcount）

有关大数据框架的一些杂乱bug

Kylin 的架构和原理

kylin单机版搭建OLAP

flume大数据框架数据采集系统

大数据框架基础MapReduce实例分析：单词计数

大数据框架对比：Hadoop、Storm、Samza、Spark和Flink

Ansible：自动化运维必须技术之一

Spark权威指南(中文版)----第15章 Spark如何在集群环境运行

Spark权威指南(中文版)----第14章 分布式共享变量

非科班转行大数据开发--最详细的学习路线

全面解析大数据框架Hadoop主要模块

收藏 | 100+篇大数据学习资讯，带你玩转大数据分析！

spark+mongodb大数据框架搭建

原创干货 | 史上最全的大数据学习资源(Awesome Big Data)

分布式任务调度可选方案

2分钟读懂Hadoop和Spark的异同

大数据框架之Spark框架

权威指南：Hadoop vs Spark vs Flink –大数据框架比较

大数据 常用框架特点

简单介绍之大数据框架

Netty框架学习之(一）：Netty框架简介

Spark MLlib分布式机器学习源码分析：朴素贝叶斯

Linux---积累----处理文本技巧---去重

大数据之Flume学习记录

云函数 SCF 与对象存储实现 WordCount 算法

【Hadoop学习笔记】大数据框架原理及主要工具概述

将 HDFS 搬上数人云：轻松实现集群的扩展收缩

分布式计算框架比较

浅谈Spark SQL语句解析与基于规则优化（RBO）

大数据框架学习：从 Hadoop 到 SparkHadoop

Hadoop&spark

超详细的大数据学习资源大全！

2分钟读懂Hadoop和Spark的异同

2019-11-27

架构设计04--技术实现02--搭建大数据框架（十分钟学会）

框架Hue环境的搭建

spark并行度学习笔记

2020寒假学习进度报告1

Spark核心技术与高级应用

大数据框架开发基础之Sqoop(1) 入门

hadoop 大数据框架

01 为什么 MapReduce 会被淘汰

大数据框架开发基础之Zookeeper入门

如日中天的Uber是用什么语言做到的？

Hadoop常用测试集HiBench配置指南

Hadoop、Spark等5种大数据框架对比

大数据框架

Spark权威指南(中文版)----第14章分布式共享变量

大数据常用框架特点