spark2 第23页

Hadoop2.7.3和Spark2.1.0集群详细搭建教程

1.本文介绍本文包括如下内容Ubuntu虚拟机安装过程Ubuntu配置静态IP配置SSH免密登录Ubuntu国内APT软件源的配置JDK，Scala，MySQL软件安装Hadoop集群安装Spark集群安装Anaconda安装使用到的软件的版本及下载地址VMwareWorkstation12.5.2ubuntu-14.04.1-server-amd64XShell5XFTP5JDK1.8Scala

upshi·2020-06-27 10:46

spark2.x shell 客户端操作sparkSQL

1.客户端启动shell进入spark安装目录bin/spark-shell--masterspark://IP:7077--executor-memory1g2.scala操作（1）把HDFS上的文件映射为表启动sparkSession对象：valspark=org.apache.spark.sql.SparkSession.builder().appName("SparkSessionZips

语旅·2020-06-27 10:29

Apache Spark 2.2.0 官方文档中文版（翻译完成 98%. 除 MLib 外） | ApacheCN

htmlApacheSpark™是一个快速的,用于海量数据处理的通用引擎.官方网址:http://spark.apache.org中文文档:http://spark.apachecn.org花了大概两周左右的时间，在原来Spark2.0.2

那伊抹微笑·2020-06-27 03:14

Apache Spark 2.0.2 中文文档 | 那伊抹微笑 - ApacheCN（Apache中文网）

pageId=2887249ApacheCN（Apache中文网）-ApacheSpark2.0.2中文文档:http://www.apache.wiki/pages/viewpage.action?

那伊抹微笑·2020-06-27 03:44

基于Spark2.x新闻网大数据实时分析可视化系统项目

本次项目是基于企业大数据经典案例项目（大数据日志分析），全方位、全流程讲解大数据项目的业务分析、技术选型、架构设计、集群规划、安装部署、整合继承与开发和web可视化交互设计。项目代码托管于github，大家可以自行下载。一、业务需求分析捕获用户浏览日志信息实时分析前20名流量最高的新闻话题实时统计当前线上已曝光的新闻话题统计哪个时段用户浏览量最高二、系统架构图设计三、系统数据流程设计四、集群资源规

xl.zhang·2020-06-27 00:10

Spark2.X 分布式弹性数据集

1.三大弹性数据集介绍1）概念2）优缺点对比2.SparkRDD概述与创建方式1）概述在集群背后，有一个非常重要的分布式数据架构，即弹性分布式数据集（resilientdistributeddataset，RDD），它是逻辑集中的实体，在集群中的多台机器上进行了数据分区。RDD是Spark的核心数据结构，通过RDD的依赖关系形成Spark的调度顺序。通过对RDD的操作形成整个Spark程序。2）创

xl.zhang·2020-06-27 00:10

Spark2.X源码学习--从SparkContext创建分析AppClient注册

Spark核心类创建顺序：SparkConfig–SparkContext–SparkEnv–RpcEnv(持有了Driver的hostname和address)一个SparkContext代表了Spark运行的上下文，对应一个JVM进程，在创建一个新的SparkContext之前必须先stop已有的SparkContext。/***MainentrypointforSparkfunctional

Andy-L·2020-06-27 00:22

idea中maven项目遇到pom文件jar包不能下载解决方式

在做graphframes开发过程中遇到pom文件不能下载：graphframesgraphframes0.5.0-spark2.1-s_2.11解决办法：1）在maven库中建立groupId、artifactId

_小海_·2020-06-26 22:09

如何使用scala+spark读写hbase？

最近工作有点忙，所以文章更新频率低了点，希望大家可以谅解，好了，言归正传，下面进入今天的主题：如何使用scala+spark读写Hbase软件版本如下：scala2.11.8spark2.1.0hbase1.2.0

三劫散仙·2020-06-26 22:53

kylin2.0 安装与 Spark2.1 集成

apache-kylin-2.0.0-bin/kylinecho"exportKYLIN_HOME=/opt/kylin"source/etc/profile#修改find-spark-dependency.sh#由于spark2

胖蚂蚁_alleyz·2020-06-26 21:52

Spark2.1 DataFrameNaFunctions无fill方法解决

问题：为了将DataFrame中多列null值转换为0，采用na.fill方式，代码如下：_df.na.fill(0,Seq("col1","col2","col3"))在Spark2.1中运行该代码，

基咯咯·2020-06-26 21:02

Spark 2.0 技术预览版: Easier, Faster, and Smarter

Forthepastfewmonths,wehavebeenbusyworkingonthenextmajorreleaseofthebigdataopensourcesoftwarewelove:ApacheSpark2.0

sunbow0·2020-06-26 15:14

Spark ML 基础：DataFrame、Dataset、feature

SparkML是基于DataFrame/Dataset进行机器学习API的开发，随着Spark2.0的发展，Dataset将成为主流，会逐步取代RDD、DataFrame，当然这个取代只是在Dataset

sunbow0·2020-06-26 15:14

Hive在spark2.0.0启动时无法访问../lib/spark-assembly-*.jar: 没有那个文件或目录的解决办法

最近将整个架构升级到spark2.0.0之后，发现一个问题，就是每次进行hive--servicemetastore启动的时候，总是会报一个小BUG。

sparkexpert·2020-06-26 14:53

Spark Structured Streaming特性详解

本文所有内容是基于spark2.4.3版本官方文档StructuredStreamingprovidesfast,scalable,fault-tolerant,end-to-endexactly-oncestreamprocessingwithouttheuserhavingtoreasonaboutstreamingStructuredStreaming

soaring0121·2020-06-26 13:17

spark2.1 和 python3.6的问题

spark不支持python3.6不用卸载python，用anaconda的环境切换就行了1.先创建一个新的开发环境:condacreate-nmy_new_env_python352.激活这个新的开发环境:activatemy_new_env_python353.在这个新的开发环境中安装python3.5:condainstallpython=3.5这时python3.5版本的解释器就算是安装完

sisteryaya·2020-06-26 12:19

python+spark2.0 + Hadoop机器学习与大数据实战——学习笔记

python+spark2.0+Hadoop机器学习与大数据实战——学习笔记第一章介绍1.1机器学习的介绍1.2Spark的介绍功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中

ClydeTang·2020-06-26 11:32

hive+hbase+zookeeper+spark2.3.0环境搭建

集群配置说明安装图配置说明JDK：Hadoop和Spark依赖的配置，官方建议JDK版本在1.7以上！！！Scala：Spark依赖的配置，建议版本不低于spark的版本。Hadoop:是一个分布式系统基础架构。Spark:分布式存储的大数据进行处理的工具。zookeeper:分布式应用程序协调服务，HBase集群需要。HBase:一个结构化数据的分布式存储系统。Hive:基于Hadoop的一个数

桐木一·2020-06-26 10:06

spark之kryo 序列化

几乎所有的资料都显示kryo序列化方式优于java自带的序列化方式，而且在spark2.*版本中都是默认采用kryo序列化。因此本文将做kryo做一个测试以验证其性能。

sinadrew·2020-06-26 10:41

spark2.2.0 将数据写入elasticsearch7.2.0(idea sbt 项目)

写在前面:ideasbt项目spark2.2.0cdh6.0.1elasticsearch7.2.0step1.需要sbt依赖name:="biz_xy_diy"version:="0.1"scalaVersion

shtdayu·2020-06-26 09:07

3.如何安装Apache Spark

如何安装ApacheSpark1WhyApacheSpark2关于ApacheSpark3如何安装ApacheSpark4ApacheSpark的工作原理5spark弹性分布式数据集6RDD持久性7spark

全能程序猿·2020-06-26 07:10

spark1.6升级到spark2.4的常见问题

查看hadoop版本hadoop2.7可支持最新的spark2.4.0版本，下载地址为http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.4.0

savorTheFlavor·2020-06-26 07:06

Spark>简答题

文章目录Spark1、什么是Spark2、Spark特点3、Spark运行模式4、Spark编写代码SparkCore1、什么是RDD2、RDD的主要属性3、RDD的算子分为两类:4、Rdd数据持久化什么作用

千千匿迹·2020-06-26 03:35

带你看懂Spark2.x源码之stage划分

在Spark底层源码中，最重要的莫过于Stage划分和Task分配两个算法的源码了。由于之前我也学习过1.6的源码，这次看2.2的源码发现有很多方法发生了修改，所以将我对2.2源码的分析与大家分析一下，希望可以共同学习。先通过action算子，调用runjob()方法，例如foreach算子defforeach(f:T=>Unit):Unit=withScope{valcleanF=sc.clea

NoBugPro·2020-06-25 20:03

Graphx 源码剖析-图的生成

本文就是从这个角度来分析Graphx的运作基本原理（本文基于Spark2.0）。分布式图的切割方式在单机上图很好表示，在分布式环境下，就涉及到一个问题：图如何切分，以及切分之后

AlbertCheng·2020-06-25 16:52

Structed Streaming（Continuous Processing报错）：StreamingQueryException；java.util.NoSuchElementException

问题描述我在查询中使用了udf导致报错，因为目前spark2.4对ContinuousProcessing的查询仅支持投影类(projections)，如select,map,flatMap,mapPartitions

BOUNC3·2020-06-25 15:40

Centos7配置java+hadoop+mysql+hive+zookeeper+kafka+hbase+kylin+scala+spark+superset+sqoop及报错解决

https://www.centos.org/download/java1.8.0hadoop2.7.6mysql5.7.26hive2.3.2hbase1.4.9kylin2.6.3scala2.12.2spark2.1.1superset

叶柖·2020-06-25 15:52

Kylin 认识及使用RESTful API进行cube的增量更新

Kylin认识及使用RESTfulAPI进行cube的增量更新版本：spark2.2.0kylin：2.5.0首次登入界面：首先要创建project：如果想要查看当前有多少个project：点击ManageProject

小丑鱼1127·2020-06-25 12:11

HDP3.1.4中hive和spark看到的表不一致（严格来说，互相看不到对方的表）

1.HDP3之前，有spark和spark2两种服务，这两种服务的client配置文件：/etc/spark/conf/hive-site.xml和/etc/spark2/conf/hive-site.xml

人蠢多读书·2020-06-25 09:47

Spark 2.0 -SQL 学习笔记

sql-programming-guide.html本文只是翻译部分内容大体意思，参考资料还包括：DataFrame:http://blog.csdn.net/cq1982/article/details/45953401ApacheSpark2.0

千寻千梦·2020-06-25 08:03

RDD学习总结

1、引入SparkSpark2.3.2使用Scala2.11.x写应用程序，你需要使用一个兼容的Scala版本。

张薄薄·2020-06-25 07:17

CDH5.16.2安装Hue、kylin、spark2遇到的坑

环境：centos7#uname-aLinuxhadoop0013.10.0-957.el7.x86_64#1SMPThuNov823:39:32UTC2018x86_64x86_64x86_64GNU/Linux1、socket.error:[Errno98]Addressalreadyinuse找了很久到底是哪个和hue冲突，原来是我们的一个小工具“宝塔linux面板”的端口号也是8888,。

且插梅花醉平阳·2020-06-25 06:26

spark2.1 yarn cluster作业失败AnnotatedConnectException: Connection refused

作业提交脚本[root@tony-client-1-001~]#vim/mnt/tony/rec_model/model/data/f0.sh#!/usr/bin/envbashcurr_dir=`pwd`src_path=${curr_dir}spark_lib_path='/usr/hdp/2.5.0.0-1245/spark/lib'hbase_lib_path='/usr/hdp/2.5.

Tony_仔·2020-06-25 05:40

黑猴子的家：sample 随机抽样

1、Codevalsamplerdd=sc.makeRDD(Array("spark1","spark2","spark3","spark4","spark5","hadoop1","hadoop2",

黑猴子的家·2020-06-25 04:23

后来我使用了CM5.13.3spark2kafka3.1.1解决了很多疑难杂症——bug解决方案

关于spark2生成部署失败首先我们需要找到此处日志目录，并不是/opt/cloudera-manager/cm-5.13.3/log。

challengedream·2020-06-25 01:27

后来我使用了CM5.13.3spark2kafka3.1.1解决了很多疑难杂症——hue+hive数据库权限

由于数据库用于多个部门，每个人都可以对数据库进行增删改查，需要对数据库的操作进行权限限制。在hue界面创建登录用户hivetest在hive-site.xml的Hive和HiveServer2高级配置中添加配置hive.security.authorization.enabledtruehive.security.authorization.createtable.owner.grantsALLh

challengedream·2020-06-25 01:55

后来我使用了CM5.13.3spark2kafka3.1.1解决了很多疑难杂症——linux系统安装rz/sz

编译安装root账号登陆后，依次执行以下命令：cd/tmpwgethttp://www.ohse.de/uwe/releases/lrzsz-0.12.20.tar.gztarzxvflrzsz-0.12.20.tar.gz&&cdlrzsz-0.12.20./configure&&make&&makeinstall上面安装过程默认把lsz和lrz安装到了/usr/local/bin/目录下，现在

challengedream·2020-06-25 01:55

Caused by: java.lang.NoSuchMethodError: org.apache.spark.sql.catalyst.analysis.TypeCoercion$.findTig

（1）在pyspark连接，mongodb时连接代码如下：版本，spark2.3.0，scala2.11.8#创建会话spark=SparkSession\.builder\.appName("pyspark-mongodbdatasourceexample

大英小二黑new·2020-06-25 01:52

让我来告诉你，学习大数据都是要安装哪些软件

ssh2.2、hadoop2.2.1、core-site.xml2.2.2、hdfs-site.xml2.3、hbase2.3.1、hbase-env.sh2.3.2、hbase-site.xml2.4、spark2.4.1

我不是高材生·2020-06-25 01:40

Spark从入门到精通一----spark简介，spark的4种部署模式--spark2.x集群搭建-standalone集群

gssgch·2020-06-25 01:33

Spark2.X 集群安装（原生版详细）

Spark集群安装搭建最简单的三台主机的集群。hadoop001Masterhadoop002Workerhadoop003Worker详细步骤如下。1.下载spark安装包下载地址spark官网：http://spark.apache.org/downloads.htmlspark-2.0.2-bin-hadoop2.7版本.2.规划安装目录/opt/soft3.解压安装包tar-zxvfspa

少年阿峣_从零单排·2020-06-25 00:36

spark2.x-jvm调优实战（以tomcat访问日志分析为例）

背景如果在持久化RDD的时候，持久化了大量的数据，那么Java虚拟机的垃圾回收就可能成为一个性能瓶颈。因为Java虚拟机会定期进行垃圾回收，此时就会追踪所有的java对象，并且在垃圾回收时，找到那些已经不在使用的对象，然后清理旧的对象，来给新的对象腾出内存空间。垃圾回收的性能开销，是跟内存中的对象的数量，成正比的。所以，对于垃圾回收的性能问题，首先要做的就是，使用更高效的数据结构，比如array和

小蜗牛也有梦想·2020-06-24 23:27

python+sparkStreaming+kafka之大数据实时流

首先需要的是环境，我安装的是spark2…1,kafka0-10,hadoop2.7,scala2.11,因为spark是Scala语言写的，所以这个必须的安装，大数据传输存储需要用到Hadoop，HDFS

pyswt·2020-06-24 20:24

Spark2.X集群运行模式

1.几种运行模式介绍Spark几种运行模式：1）Local2）Standalone（Spark自己的集群管理）3）Yarn4）Mesos（Spark初期支持）下载IDEA并安装，可以百度一下免费文档。2.sparkStandalone模式配置并测试1）jdk1.8已经安装2）scala2.11.8已经安装3）Hadoop2.6.0已经安装4）SparkStandalone模式配置与测试a）配置sl

努力的凹凸曼·2020-06-24 20:39

spark2 之交互式用户行为分析

目录1、离线式行为分析2、交互式行为分析3、DataSet案例实战1、离线式行为分析每天凌晨对昨天的数据进行批量处理和分析，统计出各种指标和报表，放入MySQL等关系型数据库中。第二天就可以看到昨天以及昨天以前的数据分析结果。2、交互式行为分析用户在需要的时候，选择对应的查询和分析条件，然后由我们的系统立即运行一个大数据处理分析作业，在最短的时间内给用户提供他们想要的数据，这是所谓的交互式用户行为

tamir_2017·2020-06-24 20:39

Spark2.x 快速入门教程 1

Spark2.x课程介绍一、实验介绍1.1实验内容Spark是Apache高级项目里面较火的大数据处理的计算引擎，对比Spark1.x版本，Spark2.x有哪些改进，本节课主要讲解Spark2.x新特性

oxuzhenyi·2020-06-24 19:38

Spark executor中task的数量与最大并发数

关于executor和task的概念可以参考官方文档本文使用的源码是spark2.0.0版本Task的数量根据类DAGScheduler中的submitMissingTasks方法可以知道，在stage

Woople·2020-06-24 18:11

Spark ML机器学习

的机器学习库.相对于RDD，DataFrame拥有更丰富的操作API,可以进行更灵活的操作.目前,spark.mllib已经进入维护状态，不再添加新特性.本文将重点介绍pyspark.ml，测试环境为Spark2.1

meng_shangjy·2020-06-24 14:19

Java Spark代码报错：java.lang.NoSuchMethodError:net.jpountz.lz4.LZ4BlockInputStream

记录如下：开发环境为spark2.3+kafka0.9.0。编辑软件使用的IntelliJIDEA，使用的语言是java语言。

m0_37914799·2020-06-24 12:44

《深入理解Spark》之spark2.3结构化(Structured Streaming)的流之Streaming+streaming join

pom文件如下org.apache.sparkspark-streaming_2.112.3.0org.apache.sparkspark-streaming-kafka-0-10_2.112.3.0org.apache.sparkspark-sql_2.112.3.0org.apache.sparkspark-sql-kafka-0-10_2.112.3.0log4jlog4j1.2.17org

lyzx_in_csdn·2020-06-24 11:43

推荐频道

spark2