spark2 第24页

Kylin 的架构和原理

从算法角度讲，现有的大数据框架可分为以下几类：1.并行计算：mapreduce、spark2.列式存储：parquet，节省IO3.

平生在翠微·2020-06-24 10:31

scala实现hbase批量写入

一、编程环境：1、JDK1.82、scala2.11.73、hadoop3.0.0、hbase2.1.0、spark2.4.0操作系统:centos7.6，编译器使用idea2019二、实现步骤：1、添加

落叶1210·2020-06-24 10:22

spark on yarn部署

DynamicallocationExternalShuffleServiceshuffle文件目录clustermodeclientmode三.调度FairScheduler队列设置资源抢占(Preempt)delayscheduling运行环境spark2.0.2cdh5.9.0

breeze_lsw·2020-06-24 09:24

Spark 2.0分布式集群环境搭建

本教程采用Spark2.0以上版本（比如Spark2.0.2、Spark2.1.0等）搭建集群，同样适用于搭建Spark1.6.2集群

love666666shen·2020-06-24 08:53

GraphX编程指南(spark2.4)

本文是在学习graph的时候顺便翻译为中文，以便以后查阅，如果大家阅读过程中发现问题，请大家指正。thx目录概述开始属性图属性图示例图操作图操作概览属性操作结构操作连接运算邻域聚合AggregateMessages(aggregateMessages)MapReduce三元组过度指南(遗留)计算度CollectingNeighborsCachingandUncachingPregelAPIGrap

llflilongfei·2020-06-24 08:22

spark参考

blog.csdn.net/englishsname/article/details/72864537Scalaapidoc:http://www.scala-lang.org/api/2.11.0-M4Spark2.0

lianzhouxiaowu·2020-06-24 04:23

自定义开发Spark ML机器学习类 - 1

.-2.基于RDD的API,属于spark.mllib包.从Spark2.0开始,Spark的API全面从RDD

liam08·2020-06-24 04:41

“西游记之大圣归来”关键词提取-textrank

功能输出文本关键词以及热度值工具python2spark2.0.2数据集两个字段（评论人，评论内容），480条短评；结果引言textrank是一个基于词共现的算法，目前最新的spark2.2.1的ml模块里没有

我满眼的欢喜都是你·2020-06-24 03:46

“西游记之大圣归来”短评主题分析-Latent Dirichlet Allocation

工具python2spark2.0.2引言在机器学习中，LDA是两个常用模型的简称：线性判别分析(LinearDiscriminantAnalysis)和隐含狄利克雷分布(LatentDirichletallocation

我满眼的欢喜都是你·2020-06-24 03:45

Spark 2.0 机器学习 ML 库：常见的机器学习模型（Scala 版）

而使用别人设计好的机器学习库如Spark2.0ML，那是基本不需要什么基础的，开箱即用。首先，看一个简单、完整、规范的案例，无疑是最好的方式。

IT小村·2020-06-24 02:17

Spark 通过submit作业启动流程源码分析

基于Spark2.4.4版本作业通过submit操作提交作业./bin/spark-submit\--class\--master\--deploy-mode\--conf=\...

冬瓜螺旋雪碧·2020-06-24 02:55

10.4 spark2 structured streaming 实时计算hdfs文件输入流cdh

继上一篇spark2.4cdh演示:实时监控hdfsa.文件1b.添加文件代码importorg.apache.spark.sql.SparkSessionimportorg.apache.spark.sql.types.StructTypeobjectFileInputStructuredStreaming

我的海_·2020-06-24 01:00

sparkR调用R的执行分布式计算

环境spark2.4.5,R3.6,install.package("SparkR"),默认sparkR提供的函数支持对应的版本为spark2.4.5不支持2.4.0如:将data.table,data.framedt.score

我的海_·2020-06-24 01:59

Spark2.8.0源代码导入，XMPP即时通讯Openfire和Spark源代码导入

关于Spark这里的Spark是指XMPP协议的一个客户端，并非目前非常流行的大数据计算框架Spark，误看名称进入博客的同学不好意思了，可以绕道了。因为平时实用XMPP协议的服务器大多实用的openfire，最近公司有需求，需要做一个桌面的入口，并实现部分即时通讯功能，于是便想研究下Spark的项目结构和部分代码。导入后的结构如下：--------------------------------

Jaiky_杰哥·2020-06-23 20:22

java8下spark-streaming结合kafka编程（spark 2.0 & kafka 0.10）

_delin·2020-06-23 20:55

Spark2x 学习笔记（1）RDD编程

1概览每个spark程序都有一个驱动程序运行在用户的main函数中，以及在集群中执行不同的并行操作。第一个抽象概念：RDD是元素的集合。这个集合可以被分到集群中的不同机器中并行处理。RDD可以由hadoop支持的文件系统中的文件创建，或者是驱动程序中的scala集合。RDD可以被保存在内存中被并行操作有效服用。第二个抽象概念：sharedvariables。共享变量可以在task之间或者task与

xiaotong_cloud·2020-06-23 16:13

java.net.SocketTimeoutException: 60000 millis timeout while waiting for channel to be ready for read

环境：-Spark2.11-2.0.2-Hadoop2.6.5使用Spark连接HDFS，在高并发的时候，偶尔会遇到以下异常：2017-01-2610:30:29,079ERRORorg.apache.hadoop.hdfs.server.datanode.DataNode

煉心_·2020-06-23 09:24

Spark2.1.0完全分布式环境搭建

以下操作都在Master节点以Hadoop用户进行操作。1）下载二进制包spark-2.1.0-bin-hadoop2.7.tgz2）解压并移动到相应目录3）修改相应的配置文件vi~/.bash_profile添加：exportSPARK_HOME=/home/hadoop/chadoop/spark/spark-2.1.1-bin-hadoop2.6/exportPATH=$PATH:$SPAR

gakki_smile·2020-06-23 09:14

TensorflowOnSpark遇到的几个问题和解决方法

我的版本如下：Hadoop2.7Spark2.3.1Python3.6.3Tensorflow1.5遇到的问题如下：（1）将文件转为csv格式时，就出现错误，错误位置为sc=SparkContext(conf

程序媛的小笔记·2020-06-23 09:20

第二章 spark2.3 mllib机器学习-数据操作

*本系列”sparkmllib机器学习”,均以最新spark2.3.0版本为蓝本进行编写,参考书籍>黄美灵版,转载请注明出处GitHub地址:https://github.com/future-fu/learnsparkmllib

数字支配万物的流转·2020-06-23 09:22

第三章 spark2.3 mllib机器学习-mllib矩阵向量

本系列”sparkmllib机器学习”,均以最新spark2.3.0版本为蓝本进行编写,参考书籍>黄美灵版,转载请注明出处GitHub地址:https://github.com/future-fu/learnsparkmllib

数字支配万物的流转·2020-06-23 09:51

第二节 Spark2.3源码解析之SparkContext的创建及源码

本系列”spark2源码解析”,均以最新spark2.3.0版本为蓝本进行编写,转载请注明出处一目录SparkContext定义从源码中看出SparkContext包含哪些功能重点解读createTaskSchedulerSparkContext

数字支配万物的流转·2020-06-23 09:51

第一章 spark2.3 mllib机器学习简介

本系列”sparkmllib机器学习”,均以最新spark2.3.0版本为蓝本进行编写,参考书籍>黄美灵版,转载请注明出处GitHub地址:https://github.com/future-fu/learnsparkmllib

数字支配万物的流转·2020-06-23 09:51

（一）Spark——基础

目录一、Spark概述1.什么是Spark2.Spark特点3.Spark内置模块介绍二、Spark部署模式1.下载Spark2.集群角色2.1Master和Worker2.1.1Master2.1.2Worker2.2Driver

fseast·2020-06-23 09:00

IntelliJ Idea 搭建spark 开发环境

环境:spark2.0.0scala2.11.8maven3.9.9idea151.Idea的安装.Idea可以在官网上下载。

Cherish_Qiang·2020-06-23 05:16

（基于最新的Kafka version 0.10.2 new consumer API ）想要Spark Streaming精确一次消费Topic？拿去不谢，记得点赞和分享！

本文基于Spark2.1.0、Kafka0.10.2、Scala2.11.8版本背景：Kafka做为一款流行的分布式发布订阅消息系统，以高吞吐、低延时、高可靠的特点著称，已经成为SparkStreaming

俺是亮哥·2020-06-23 04:16

Hadoop2.7.3+Spark2.1.0完全分布式集群搭建过程

1.选取三台服务器（CentOS系统64位）114.55.246.88主节点114.55.246.77从节点114.55.246.93从节点之后的操作如果是用普通用户操作的话也必须知道root用户的密码，因为有些操作是得用root用户操作。如果是用root用户操作的话就不存在以上问题。我是用root用户操作的。2.修改hosts文件修改三台服务器的hosts文件。vi/etc/hosts在原文件的

dhgr33280·2020-06-23 04:36

Spark权威指南(中文版)----第15章 Spark如何在集群环境运行

本书详细介绍了Spark2.x版本的各个模块，目前市面上最好的Spark2.x学习书籍！！！扫码关注公众号:登峰大数据，阅读中文Spark权威指南(完整版)，系统学习Spark大数据框架！

大数据辅导员·2020-06-23 03:57

Spark权威指南(中文版)----第14章分布式共享变量

本书详细介绍了Spark2.x版本的各个模块，目前市面上最好的Spark2.x学习书籍！！！扫码关注公众号:登峰大数据，阅读中文Spark权威指南(完整版)，系统学习Spark大数据框架！

大数据辅导员·2020-06-23 03:57

spark1.63升级到spark2.3.1环境变量配置

由于spark2.3需要jdk1.8的支持，因此spark-submit与spark-sql需要指定jdk版本，具体方式见测试用例1.修改个人用户配置文件.bashrc，注释以前的spark环境与java

cjlion·2020-06-22 23:08

收藏 | 100+篇大数据学习资讯，带你玩转大数据分析！

MapReduceHBase基础知识，面向列的实时分布式数据库完全分布式HBase集群安装配置示例什么是Spark，如何使用Spark进行数据分析2分钟读懂大数据框架Hadoop和Spark的异同IBM专家亲自解读Spark2.0

数控小J·2020-06-22 22:08

Spark2.x学习笔记：4、Spark程序架构与运行模式

4、Spark程序架构与运行模式4.1Spark程序最简架构所有的Spark程序运行时，主要由两大类组件Driver和Excutor构成。每个Spark程序运行时都有一个Driver，Driver是进程包含了运行所需要的CPU和内存等资源，Driver是我们应用程序main函数所在进程。比如当我们运行一个spark-shell时，就创建了一个driver程序。Executor可以有多个，其职责是运

程裕强·2020-06-22 22:55

cloudera manager 升级到jdk1.8

CDH5.11自带的是spark1.6，在把spark升级到2.2之后，添加服务，执行服务Spark2上的命令部署客户端配置阶段报错。

浮生物语QAQ·2020-06-22 21:24

Scala（spark）读写Hbase示例

Scala2.11.8；Spark2.1.0。仅在本机集群通过，供参考。

suyeye·2020-06-22 19:15

部署Spark2.2集群(on Yarn模式)

机器规划本次实战用到了三台CentOS7的机器，身份信息如下所示：IP地址hostname(主机名)身份192.168.119.163node0NameNode、ResourceManager、HistoryServer、Master192.168.119.164node1DataNode、NodeManager、Worker192.168.119.165node2DataNode、NodeMan

程序员欣宸·2020-06-22 18:35

Spark2.1.0之初体验

在《Spark2.1.0之运行环境准备》一文中，已经介绍了如何准备好基本的Spark运行环境，现在是时候实践一下，以便于在使用过程中提升读者对于Spark最直接的感触！

泰山不老生·2020-06-22 17:20

Structed Streaming写入数据到mysql，kafka中

structedstreaming是spark2.x之后更新的，一句话介绍就是比sparkstreaming更高级的api工具。举个例子，当我们做实时单词统计的时候，每一个批次的数据都能统计出来。

慕容馨磊·2020-06-22 11:01

Spark2.2（五）SparkSQL读写Hive

IDEA中使用SparkSQL读写Hive添加依赖libraryDependencies++=Seq("org.apache.spark"%%"spark-core"%"2.2.0","org.apache.spark"%%"spark-sql"%"2.2.0","org.apache.spark"%%"spark-sql"%"2.2.0","com.databricks"%%"spark-csv

H_w·2020-06-22 08:30

Spark3.0分布，Structured Streaming UI登场

Spark3.0主要的新特性如下：相比于Spark2.4，性能提升了2倍，主要体现在自适应查询执行，动态分区修剪等方面。Pandas

独孤风·2020-06-22 08:00

[Spark]Spark RDD 指南三弹性分布式数据集(RDD)

Spark2.3.0版本:Spark2.3.0创建RDDSpark的核心概念是弹性分布式数据集（RDD），RDD是一个可容错、可并行操作的分布式元素集合。

SunnyYoona·2020-06-22 05:16

大数据实战项目之新闻话题分析学习笔记（九）

概述及版本下载Hue编译及安装Hue的基本配置与服务启动Hue与HDFS集成Hue与yarn集成Hue与MySql集成Hue与HBase的集成对采集的数据进行可视化分析Hue需要注意的几个地方第17章：Spark2

爱学习的Neehong·2020-06-22 05:19

《网络安全态势感知》读书笔记

文章目录Ⅰ基础知识1开启网络安全态势感知的旅程2大数据平台和技术2.1大数据基础2.1.1大数据关键技术2.1.2大数据计算模式2.2大数据主流平台框架2.2.1Hadoop2.2.2Spark2.2.3Storm2.3

Alst0n·2020-06-22 04:24

Spark 3.0发布啦，改进SQL，弃Python 2，更好的兼容ANSI SQL，性能大幅提升

ApacheSpark3.0.0正式发布啦，ApacheSpark3.0是在Spark2.x的基础上开发的，带来了新的想法和功能。

老夫编程说·2020-06-22 04:00

以源码为基础，结实际案例，深入分析Spark核心原理和生态圈BDAS

前言：图解Spark：核心技术与案例实战以Spark2.0版本为基础进行编写，全面介绍了Spark核心及其生态圈组件技术。

哆啦小迁·2020-06-22 03:42

Spark与Scala的安装配置过程

blog.csdn.net/u013457387/article/details/87856770安装完成后出来这样的页面即可这里我是Scala和spark一起安装的比较方便，一些路径或版本不同的可以更改二、下载scala和spark2.1

戏子·2020-06-22 02:23

Spark2.x详解

Spark2.x1.Spark初始1.1:什么是Spark1.2:Spark与mapreduce的区别2.SparkCore2.1:RDD2.2:Spark任务执行原理2.3:代码流程2.4:Transformations

LssTwl·2020-06-22 00:47

Ubuntu18.04安装spark2.4.5

Ubuntu18.04安装spark下载压缩包配置spark运行并测试spark系统：Ubuntu18.04java-verison：1.8hadoop-version：2.x.xspark-version：2.4.5安装spark前必须安装hadoop并配置环境变量，若没进行按照或相关配置请查看：https://blog.csdn.net/LeeGe666/article/details/106

NH4L·2020-06-22 00:14

ubuntu16.04安装NVIDIA及CUDA，配置OpenCL

ubuntu16.04安装NVIDIA及cuda说明：拟使用ubuntu16.04LTS，NVIDIAdriver384及cuda9.0，jdk1.8，scala2.11.8，hadoop2.7.6，spark2.1.0

Fortuna_i·2020-06-21 20:03

hadoop2.6.5 scala2.11.12 spark2.3.0安装配置及出现的问题（单机版伪分布式）

hadoop2.6.5scala2.11.12spark2.3.0安装配置及出现的问题（单机版伪分布式）操作系统是deepinlinux１．安装配置Hadoop、JDK、SSH服务可参考以下链接超详细单机版搭建

Can96·2020-06-21 18:28

Win10+python3.6+jdk1.8+spark2.4.3+hadoop2.7.6

Win10+python3.6+jdk1.8+spark2.4.3+hadoop2.7.61.下载安装jdk（1）创建oracle账户：用户名******、密码：******；https://download.oracle.com

CX_Sunshine·2020-06-21 18:42

推荐频道

spark2

Kylin 的架构和原理

scala实现hbase批量写入

spark on yarn部署

Spark 2.0分布式集群环境搭建

GraphX编程指南(spark2.4)

spark参考

自定义开发Spark ML机器学习类 - 1

“西游记之大圣归来”关键词提取-textrank

“西游记之大圣归来”短评主题分析-Latent Dirichlet Allocation

Spark 2.0 机器学习 ML 库：常见的机器学习模型（Scala 版）

Spark 通过submit作业启动流程源码分析

10.4 spark2 structured streaming 实时计算hdfs文件输入流cdh

sparkR调用R的执行分布式计算

Spark2.8.0源代码导入，XMPP即时通讯Openfire和Spark源代码导入

java8下spark-streaming结合kafka编程（spark 2.0 & kafka 0.10）

Spark2x 学习笔记（1）RDD编程

java.net.SocketTimeoutException: 60000 millis timeout while waiting for channel to be ready for read

Spark2.1.0完全分布式环境搭建

TensorflowOnSpark遇到的几个问题和解决方法

第二章 spark2.3 mllib机器学习-数据操作

第三章 spark2.3 mllib机器学习-mllib矩阵向量

第二节 Spark2.3源码解析之SparkContext的创建及源码

第一章 spark2.3 mllib机器学习简介

（一）Spark——基础

IntelliJ Idea 搭建spark 开发环境

（基于最新的Kafka version 0.10.2 new consumer API ）想要Spark Streaming精确一次消费Topic？拿去不谢，记得点赞和分享！

Hadoop2.7.3+Spark2.1.0完全分布式集群搭建过程

Spark权威指南(中文版)----第15章 Spark如何在集群环境运行

Spark权威指南(中文版)----第14章 分布式共享变量

spark1.63升级到spark2.3.1环境变量配置

收藏 | 100+篇大数据学习资讯，带你玩转大数据分析！

Spark2.x学习笔记：4、Spark程序架构与运行模式

cloudera manager 升级到jdk1.8

Scala（spark）读写Hbase示例

部署Spark2.2集群(on Yarn模式)

Spark2.1.0之初体验

Structed Streaming写入数据到mysql，kafka中

Spark2.2（五）SparkSQL读写Hive

Spark3.0分布，Structured Streaming UI登场

[Spark]Spark RDD 指南三 弹性分布式数据集(RDD)

大数据实战项目之新闻话题分析 学习笔记（九）

《网络安全态势感知》读书笔记

Spark 3.0发布啦，改进SQL，弃Python 2，更好的兼容ANSI SQL，性能大幅提升

以源码为基础，结实际案例，深入分析Spark核心原理和生态圈BDAS

Spark与Scala的安装配置过程

Spark2.x详解

Ubuntu18.04安装spark2.4.5

ubuntu16.04安装NVIDIA及CUDA，配置OpenCL

hadoop2.6.5 scala2.11.12 spark2.3.0安装配置及出现的问题（单机版伪分布式）

Win10+python3.6+jdk1.8+spark2.4.3+hadoop2.7.6

Spark权威指南(中文版)----第14章分布式共享变量

[Spark]Spark RDD 指南三弹性分布式数据集(RDD)

大数据实战项目之新闻话题分析学习笔记（九）