E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark2
Hadoop2.7.3和
Spark2
.1.0集群详细搭建教程
1.本文介绍本文包括如下内容Ubuntu虚拟机安装过程Ubuntu配置静态IP配置SSH免密登录Ubuntu国内APT软件源的配置JDK,Scala,MySQL软件安装Hadoop集群安装Spark集群安装Anaconda安装使用到的软件的版本及下载地址VMwareWorkstation12.5.2ubuntu-14.04.1-server-amd64XShell5XFTP5JDK1.8Scala
upshi
·
2020-06-27 10:46
spark
hadoop
spark2
.x shell 客户端操作sparkSQL
1.客户端启动shell进入spark安装目录bin/spark-shell--masterspark://IP:7077--executor-memory1g2.scala操作(1)把HDFS上的文件映射为表启动sparkSession对象:valspark=org.apache.spark.sql.SparkSession.builder().appName("SparkSessionZips
语旅
·
2020-06-27 10:29
hadoop
spark
mysql
Apache Spark 2.2.0 官方文档中文版(翻译完成 98%. 除 MLib 外) | ApacheCN
htmlApacheSpark™是一个快速的,用于海量数据处理的通用引擎.官方网址:http://spark.apache.org中文文档:http://spark.apachecn.org花了大概两周左右的时间,在原来
Spark2
.0.2
那伊抹微笑
·
2020-06-27 03:14
中文文档
ApacheCN
Spark
Apache Spark 2.0.2 中文文档 | 那伊抹微笑 - ApacheCN(Apache中文网)
pageId=2887249ApacheCN(Apache中文网)-Apache
Spark2
.0.2中文文档:http://www.apache.wiki/pages/viewpage.action?
那伊抹微笑
·
2020-06-27 03:44
ApacheCN
Apache中文网
中文文档
Spark
那伊抹微笑
基于
Spark2
.x新闻网大数据实时分析可视化系统项目
本次项目是基于企业大数据经典案例项目(大数据日志分析),全方位、全流程讲解大数据项目的业务分析、技术选型、架构设计、集群规划、安装部署、整合继承与开发和web可视化交互设计。项目代码托管于github,大家可以自行下载。一、业务需求分析捕获用户浏览日志信息实时分析前20名流量最高的新闻话题实时统计当前线上已曝光的新闻话题统计哪个时段用户浏览量最高二、系统架构图设计三、系统数据流程设计四、集群资源规
xl.zhang
·
2020-06-27 00:10
【项目开发】
【大数据的学路历程】
Spark2
.X 分布式弹性数据集
1.三大弹性数据集介绍1)概念2)优缺点对比2.SparkRDD概述与创建方式1)概述在集群背后,有一个非常重要的分布式数据架构,即弹性分布式数据集(resilientdistributeddataset,RDD),它是逻辑集中的实体,在集群中的多台机器上进行了数据分区。RDD是Spark的核心数据结构,通过RDD的依赖关系形成Spark的调度顺序。通过对RDD的操作形成整个Spark程序。2)创
xl.zhang
·
2020-06-27 00:10
【大数据的学路历程】
Spark2
.X源码学习--从SparkContext创建分析AppClient注册
Spark核心类创建顺序:SparkConfig–SparkContext–SparkEnv–RpcEnv(持有了Driver的hostname和address)一个SparkContext代表了Spark运行的上下文,对应一个JVM进程,在创建一个新的SparkContext之前必须先stop已有的SparkContext。/***MainentrypointforSparkfunctional
Andy-L
·
2020-06-27 00:22
spark
idea中maven项目遇到pom文件jar包不能下载解决方式
在做graphframes开发过程中遇到pom文件不能下载:graphframesgraphframes0.5.0-
spark2
.1-s_2.11解决办法:1)在maven库中建立groupId、artifactId
_小海_
·
2020-06-26 22:09
idea
如何使用scala+spark读写hbase?
最近工作有点忙,所以文章更新频率低了点,希望大家可以谅解,好了,言归正传,下面进入今天的主题:如何使用scala+spark读写Hbase软件版本如下:scala2.11.8
spark2
.1.0hbase1.2.0
三劫散仙
·
2020-06-26 22:53
spark
hbase
kylin2.0 安装与
Spark2
.1 集成
apache-kylin-2.0.0-bin/kylinecho"exportKYLIN_HOME=/opt/kylin"source/etc/profile#修改find-spark-dependency.sh#由于
spark2
胖蚂蚁_alleyz
·
2020-06-26 21:52
hadoop
Spark2
.1 DataFrameNaFunctions无fill方法解决
问题:为了将DataFrame中多列null值转换为0,采用na.fill方式,代码如下:_df.na.fill(0,Seq("col1","col2","col3"))在
Spark2
.1中运行该代码,
基咯咯
·
2020-06-26 21:02
Spark
Spark 2.0 技术预览版: Easier, Faster, and Smarter
Forthepastfewmonths,wehavebeenbusyworkingonthenextmajorreleaseofthebigdataopensourcesoftwarewelove:Apache
Spark2
.0
sunbow0
·
2020-06-26 15:14
Spark
Spark ML 基础:DataFrame、Dataset、feature
SparkML是基于DataFrame/Dataset进行机器学习API的开发,随着
Spark2
.0的发展,Dataset将成为主流,会逐步取代RDD、DataFrame,当然这个取代只是在Dataset
sunbow0
·
2020-06-26 15:14
Spark
Hive在
spark2
.0.0启动时无法访问../lib/spark-assembly-*.jar: 没有那个文件或目录的解决办法
最近将整个架构升级到
spark2
.0.0之后,发现一个问题,就是每次进行hive--servicemetastore启动的时候,总是会报一个小BUG。
sparkexpert
·
2020-06-26 14:53
Hive
Spark Structured Streaming特性详解
本文所有内容是基于
spark2
.4.3版本官方文档StructuredStreamingprovidesfast,scalable,fault-tolerant,end-to-endexactly-oncestreamprocessingwithouttheuserhavingtoreasonaboutstreamingStructuredStreaming
soaring0121
·
2020-06-26 13:17
大数据
SPARK
structured
streaming
spark2
.1 和 python3.6的问题
spark不支持python3.6不用卸载python,用anaconda的环境切换就行了1.先创建一个新的开发环境:condacreate-nmy_new_env_python352.激活这个新的开发环境:activatemy_new_env_python353.在这个新的开发环境中安装python3.5:condainstallpython=3.5这时python3.5版本的解释器就算是安装完
sisteryaya
·
2020-06-26 12:19
python+
spark2
.0 + Hadoop机器学习与大数据实战——学习笔记
python+
spark2
.0+Hadoop机器学习与大数据实战——学习笔记第一章介绍1.1机器学习的介绍1.2Spark的介绍功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中
ClydeTang
·
2020-06-26 11:32
python+spark2.0
+
Hadoop
hive+hbase+zookeeper+
spark2
.3.0环境搭建
集群配置说明安装图配置说明JDK:Hadoop和Spark依赖的配置,官方建议JDK版本在1.7以上!!!Scala:Spark依赖的配置,建议版本不低于spark的版本。Hadoop:是一个分布式系统基础架构。Spark:分布式存储的大数据进行处理的工具。zookeeper:分布式应用程序协调服务,HBase集群需要。HBase:一个结构化数据的分布式存储系统。Hive:基于Hadoop的一个数
桐木一
·
2020-06-26 10:06
spark之kryo 序列化
几乎所有的资料都显示kryo序列化方式优于java自带的序列化方式,而且在
spark2
.*版本中都是默认采用kryo序列化。因此本文将做kryo做一个测试以验证其性能。
sinadrew
·
2020-06-26 10:41
大数据
spark2
.2.0 将数据写入elasticsearch7.2.0(idea sbt 项目)
写在前面:ideasbt项目
spark2
.2.0cdh6.0.1elasticsearch7.2.0step1.需要sbt依赖name:="biz_xy_diy"version:="0.1"scalaVersion
shtdayu
·
2020-06-26 09:07
spark
elasticsearch
3.如何安装Apache Spark
如何安装ApacheSpark1WhyApache
Spark2
关于ApacheSpark3如何安装ApacheSpark4ApacheSpark的工作原理5spark弹性分布式数据集6RDD持久性7spark
全能程序猿
·
2020-06-26 07:10
spark1.6升级到
spark2
.4的常见问题
查看hadoop版本hadoop2.7可支持最新的
spark2
.4.0版本,下载地址为http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.4.0
savorTheFlavor
·
2020-06-26 07:06
bigdata
Spark>简答题
文章目录Spark1、什么是
Spark2
、Spark特点3、Spark运行模式4、Spark编写代码SparkCore1、什么是RDD2、RDD的主要属性3、RDD的算子分为两类:4、Rdd数据持久化什么作用
千千匿迹
·
2020-06-26 03:35
Spark
Spark
带你看懂
Spark2
.x源码之stage划分
在Spark底层源码中,最重要的莫过于Stage划分和Task分配两个算法的源码了。由于之前我也学习过1.6的源码,这次看2.2的源码发现有很多方法发生了修改,所以将我对2.2源码的分析与大家分析一下,希望可以共同学习。先通过action算子,调用runjob()方法,例如foreach算子defforeach(f:T=>Unit):Unit=withScope{valcleanF=sc.clea
NoBugPro
·
2020-06-25 20:03
大数据基础
Graphx 源码剖析-图的生成
本文就是从这个角度来分析Graphx的运作基本原理(本文基于
Spark2
.0)。分布式图的切割方式在单机上图很好表示,在分布式环境下,就涉及到一个问题:图如何切分,以及切分之后
AlbertCheng
·
2020-06-25 16:52
Structed Streaming(Continuous Processing报错):StreamingQueryException;java.util.NoSuchElementException
问题描述我在查询中使用了udf导致报错,因为目前
spark2
.4对ContinuousProcessing的查询仅支持投影类(projections),如select,map,flatMap,mapPartitions
BOUNC3
·
2020-06-25 15:40
spark
Centos7配置java+hadoop+mysql+hive+zookeeper+kafka+hbase+kylin+scala+spark+superset+sqoop及报错解决
https://www.centos.org/download/java1.8.0hadoop2.7.6mysql5.7.26hive2.3.2hbase1.4.9kylin2.6.3scala2.12.2
spark2
.1.1superset
叶柖
·
2020-06-25 15:52
大数据
Kylin 认识及使用RESTful API进行cube的增量更新
Kylin认识及使用RESTfulAPI进行cube的增量更新版本:
spark2
.2.0kylin:2.5.0首次登入界面:首先要创建project:如果想要查看当前有多少个project:点击ManageProject
小丑鱼1127
·
2020-06-25 12:11
Kylin
HDP3.1.4中hive和spark看到的表不一致(严格来说,互相看不到对方的表)
1.HDP3之前,有spark和
spark2
两种服务,这两种服务的client配置文件:/etc/spark/conf/hive-site.xml和/etc/
spark2
/conf/hive-site.xml
人蠢多读书
·
2020-06-25 09:47
大数据运维之ambari日常
Spark 2.0 -SQL 学习笔记
sql-programming-guide.html本文只是翻译部分内容大体意思,参考资料还包括:DataFrame:http://blog.csdn.net/cq1982/article/details/45953401Apache
Spark2
.0
千寻千梦
·
2020-06-25 08:03
spark
数据库相关
RDD学习总结
1、引入Spark
Spark2
.3.2使用Scala2.11.x写应用程序,你需要使用一个兼容的Scala版本。
张薄薄
·
2020-06-25 07:17
CDH5.16.2安装Hue、kylin、
spark2
遇到的坑
环境:centos7#uname-aLinuxhadoop0013.10.0-957.el7.x86_64#1SMPThuNov823:39:32UTC2018x86_64x86_64x86_64GNU/Linux1、socket.error:[Errno98]Addressalreadyinuse找了很久到底是哪个和hue冲突,原来是我们的一个小工具“宝塔linux面板”的端口号也是8888,。
且插梅花醉平阳
·
2020-06-25 06:26
hadoop集群安装
spark2
.1 yarn cluster作业失败AnnotatedConnectException: Connection refused
作业提交脚本[root@tony-client-1-001~]#vim/mnt/tony/rec_model/model/data/f0.sh#!/usr/bin/envbashcurr_dir=`pwd`src_path=${curr_dir}spark_lib_path='/usr/hdp/2.5.0.0-1245/spark/lib'hbase_lib_path='/usr/hdp/2.5.
Tony_仔
·
2020-06-25 05:40
scala
&
spark
黑猴子的家:sample 随机抽样
1、Codevalsamplerdd=sc.makeRDD(Array("spark1","
spark2
","spark3","spark4","spark5","hadoop1","hadoop2",
黑猴子的家
·
2020-06-25 04:23
Spark
后来我使用了CM5.13.3
spark2
kafka3.1.1解决了很多疑难杂症——bug解决方案
关于
spark2
生成部署失败首先我们需要找到此处日志目录,并不是/opt/cloudera-manager/cm-5.13.3/log。
challengedream
·
2020-06-25 01:27
集群bug处理
搭建集群
后来我使用了CM5.13.3
spark2
kafka3.1.1解决了很多疑难杂症——hue+hive数据库权限
由于数据库用于多个部门,每个人都可以对数据库进行增删改查,需要对数据库的操作进行权限限制。在hue界面创建登录用户hivetest在hive-site.xml的Hive和HiveServer2高级配置中添加配置hive.security.authorization.enabledtruehive.security.authorization.createtable.owner.grantsALLh
challengedream
·
2020-06-25 01:55
搭建集群
数据
后来我使用了CM5.13.3
spark2
kafka3.1.1解决了很多疑难杂症——linux系统安装rz/sz
编译安装root账号登陆后,依次执行以下命令:cd/tmpwgethttp://www.ohse.de/uwe/releases/lrzsz-0.12.20.tar.gztarzxvflrzsz-0.12.20.tar.gz&&cdlrzsz-0.12.20./configure&&make&&makeinstall上面安装过程默认把lsz和lrz安装到了/usr/local/bin/目录下,现在
challengedream
·
2020-06-25 01:55
搭建集群
rz
Caused by: java.lang.NoSuchMethodError: org.apache.spark.sql.catalyst.analysis.TypeCoercion$.findTig
(1)在pyspark连接,mongodb时连接代码如下:版本,
spark2
.3.0,scala2.11.8#创建会话spark=SparkSession\.builder\.appName("pyspark-mongodbdatasourceexample
大英小二黑new
·
2020-06-25 01:52
让我来告诉你,学习大数据都是要安装哪些软件
ssh2.2、hadoop2.2.1、core-site.xml2.2.2、hdfs-site.xml2.3、hbase2.3.1、hbase-env.sh2.3.2、hbase-site.xml2.4、
spark2
.4.1
我不是高材生
·
2020-06-25 01:40
如何学习大数据
Spark从入门到精通一----spark简介,spark的4种部署模式--
spark2
.x集群搭建-standalone集群
版权声明:本文为博主原创文章,未经博主允许不得转载!!欢迎访问:https://blog.csdn.net/qq_21439395/article/details/82778934交流QQ:824203453Spark概述什么是Spark(官网:http://spark.apache.org)spark中文官网:http://spark.apachecn.orgSpark是一种快速、通用、可扩展的
gssgch
·
2020-06-25 01:33
spark2.x
Spark
Spark2
.X 集群安装(原生版详细)
Spark集群安装搭建最简单的三台主机的集群。hadoop001Masterhadoop002Workerhadoop003Worker详细步骤如下。1.下载spark安装包下载地址spark官网:http://spark.apache.org/downloads.htmlspark-2.0.2-bin-hadoop2.7版本.2.规划安装目录/opt/soft3.解压安装包tar-zxvfspa
少年阿峣_从零单排
·
2020-06-25 00:36
#
Spark
Spark
安装部署
spark2
.x-jvm调优实战(以tomcat访问日志分析为例)
背景如果在持久化RDD的时候,持久化了大量的数据,那么Java虚拟机的垃圾回收就可能成为一个性能瓶颈。因为Java虚拟机会定期进行垃圾回收,此时就会追踪所有的java对象,并且在垃圾回收时,找到那些已经不在使用的对象,然后清理旧的对象,来给新的对象腾出内存空间。垃圾回收的性能开销,是跟内存中的对象的数量,成正比的。所以,对于垃圾回收的性能问题,首先要做的就是,使用更高效的数据结构,比如array和
小蜗牛也有梦想
·
2020-06-24 23:27
spark
python+sparkStreaming+kafka之大数据实时流
首先需要的是环境,我安装的是
spark2
…1,kafka0-10,hadoop2.7,scala2.11,因为spark是Scala语言写的,所以这个必须的安装,大数据传输存储需要用到Hadoop,HDFS
pyswt
·
2020-06-24 20:24
虚拟机+大数据
Spark2
.X集群运行模式
1.几种运行模式介绍Spark几种运行模式:1)Local2)Standalone(Spark自己的集群管理)3)Yarn4)Mesos(Spark初期支持)下载IDEA并安装,可以百度一下免费文档。2.sparkStandalone模式配置并测试1)jdk1.8已经安装2)scala2.11.8已经安装3)Hadoop2.6.0已经安装4)SparkStandalone模式配置与测试a)配置sl
努力的凹凸曼
·
2020-06-24 20:39
Spark新闻项目
Spark
spark2
之 交互式用户行为分析
目录1、离线式行为分析2、交互式行为分析3、DataSet案例实战1、离线式行为分析每天凌晨对昨天的数据进行批量处理和分析,统计出各种指标和报表,放入MySQL等关系型数据库中。第二天就可以看到昨天以及昨天以前的数据分析结果。2、交互式行为分析用户在需要的时候,选择对应的查询和分析条件,然后由我们的系统立即运行一个大数据处理分析作业,在最短的时间内给用户提供他们想要的数据,这是所谓的交互式用户行为
tamir_2017
·
2020-06-24 20:39
spark
Spark2
.x 快速入门教程 1
Spark2
.x课程介绍一、实验介绍1.1实验内容Spark是Apache高级项目里面较火的大数据处理的计算引擎,对比Spark1.x版本,
Spark2
.x有哪些改进,本节课主要讲解
Spark2
.x新特性
oxuzhenyi
·
2020-06-24 19:38
实验楼课程
Spark executor中task的数量与最大并发数
关于executor和task的概念可以参考官方文档本文使用的源码是
spark2
.0.0版本Task的数量根据类DAGScheduler中的submitMissingTasks方法可以知道,在stage
Woople
·
2020-06-24 18:11
Spark ML机器学习
的机器学习库.相对于RDD,DataFrame拥有更丰富的操作API,可以进行更灵活的操作.目前,spark.mllib已经进入维护状态,不再添加新特性.本文将重点介绍pyspark.ml,测试环境为
Spark2
.1
meng_shangjy
·
2020-06-24 14:19
Java Spark代码报错:java.lang.NoSuchMethodError:net.jpountz.lz4.LZ4BlockInputStream
记录如下:开发环境为
spark2
.3+kafka0.9.0。编辑软件使用的IntelliJIDEA,使用的语言是java语言。
m0_37914799
·
2020-06-24 12:44
常见Bug
《深入理解Spark》之
spark2
.3结构化(Structured Streaming)的流之Streaming+streaming join
pom文件如下org.apache.sparkspark-streaming_2.112.3.0org.apache.sparkspark-streaming-kafka-0-10_2.112.3.0org.apache.sparkspark-sql_2.112.3.0org.apache.sparkspark-sql-kafka-0-10_2.112.3.0log4jlog4j1.2.17org
lyzx_in_csdn
·
2020-06-24 11:43
Spark
上一页
19
20
21
22
23
24
25
26
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他