E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark2
spark2
1停掉集群运行/opt/cm-5.13.0/etc/init.d/cloudera-scm-serverstop/opt/cm-5.13.0/etc/init.d/cloudera-scm-agentstop2上传jar依赖,修改相应的用户组[root@master01csd]#pwd/opt/cloudera/csd[root@master01csd]#lltotal20-rw-r--r--1r
浮生若梦1379
·
2020-09-14 11:07
spark
CDH5.13离线并行安装
Spark2
.3
2019独角兽企业重金招聘Python工程师标准>>>简介:在我的CDH5.13集群中,默认安装的spark是1.6版本,这里需要将其升级为
spark2
.x版本。
weixin_33979363
·
2020-09-14 11:09
Pyspark访问Hbase
作者:Syn良子出处:http://www.cnblogs.com/cssdongl/p/7347167.html转载请注明出处记录自己最近抽空折腾虚拟机环境时用
spark2
.0的pyspark访问Hbase1.2
weixin_30670151
·
2020-09-14 11:13
cdh5.13.1 升/降级
SPARK2
(parcel安装的同理)
下载相关的CSD包与parcel包、parcel包SHA放置在相关位置。注意:重启cloudera-scm-server从parcel里删除旧包,启用新包csd目录里其它JAR包要删除转载于:https://www.cnblogs.com/net2817/p/9120870.html
weixin_30340819
·
2020-09-14 11:28
[CDH] CDH5.13.1集成 Apache
Spark2
.3.4(CDS 2.3.4)
背景:已有CDH5.13.1,集成CDS2.3.4(Apache
Spark2
.3.4)。
cindysz110
·
2020-09-14 11:54
CDH5
Spark
大数据平台搭建(hadoop+spark)
scalaspark-slave01172.16.200.82jdk、hadoop、sparkspark-slave02172.16.200.83jdk、hadoop、sparkspark-slave03172.16.200.84jdk、hadoop、
spark2
redhorse_plus
·
2020-09-14 11:50
杂七杂八
CDH5.13.3部署并升级
Spark2
.x
前言:网上也有很多关于CDH部署的相关文档,但由于基础环境的差异和软件安装方式的不同,其部署方式也大同小异,每篇文章都值得借鉴,但都不能完全照搬,只有自己亲自做了才知道所以然。建议在部署的时候遇到问题第一时间不是搜索而是先去看日志,提高自己解决问题的能力。唯有实践才能出真理!!!一、基础环境规划1.1软件版本操作系统:Centos7.4 64位 JDK:jdk1.8.0_181Clouder Ma
御剑江湖载酒行
·
2020-09-14 11:42
大数据
Linux
hadoop
spark
hdfs
cloudera
mapreduce
通过Spark访问Hbase的Hive外部表(hive on hbase的表)
1.拷贝如下jar包到${spark_home}/jars(
spark2
.0之前是${spark_home}/lib):hbase-protocol-1.2
levy_cui
·
2020-09-14 10:22
Spark
CDH 5.13.0安装Spark 2.2
1.将CDH环境安装好2.在CDH的主节点和备节点创建目录[root@yp-test-3/]#mkdir/opt/cloudera/csd/3.下载
Spark2
.2软件包下载csd地址:http://archive.cloudera.com
cny0120
·
2020-09-14 10:40
【CDH CM版本5.13以下】解决「通过Parcel对
spark2
版本升级无法发现服务」问题
【CDHCM版本5.13以下】解决「通过Parcel对
spark2
版本升级无法发现服务」问题前言现象报错报错原因新升级方案操作留档准备版本升级升级验证版本回退回退验证后记前言公司对于CDH5.10(注意这个版本
Jack_Roy
·
2020-09-14 09:08
Spark
CDH
大数据
spark
【
spark2
】“
spark2
on yarn client提交模式下报错:XXXX line xx: xxxx 已杀死 ”问题剖析
【
spark2
】ai-bigdata-20200806.sh:行24:10259已杀死
spark2
-submit……前言描述观点内容问题发现内存原因OOM机制解决方案后记前言报错内容:ai-bigdata
Jack_Roy
·
2020-09-14 09:08
Spark
Centos
spark
CDH集成
spark2
组件
文章目录CDH集成
spark2
组件下载相关文件上传文件(主节点)重启CM和集群添加服务配置设置CDH集成
spark2
组件参考网站:https://www.jianshu.com/p/6acd6419f697
麻雀加
·
2020-09-14 09:14
CDH
windows 安装 配置 hadoop2.7.2
spark2
.2.3 初学入门
Hadoop1.下载安装包,不赘述了。我解压路径为:E:\soft\hadoop-2.7.22.修改etc文件夹下的文件:core-site.xml:fs.defaultFShdfs://localhost:9000hadoop.tmp.dir/E:/soft/hadoop-2.7.2/workplace/tmphadoop-env.cmd:setJAVA_HOME=C:\PROGRA~1\Jav
csdn_dengfan
·
2020-09-14 06:03
大数据
windows 10 安装 spark 环境(spark 2.2.1 + hadoop2.7)
不过在安装新版本
spark2
.2.1(基于hadoop2.7)的配置时,略略有一些不同。
Inside_Zhang
·
2020-09-14 05:23
安装-升级-版本-信息查询
Spark学习—— (5) RDD基础编程(基于Python)
虽然
Spark2
.x中建议使用效率更高的DataSet代替RDD,但还是有必要学习一下RDD的相关知识。本文第一部分简单介绍RDD的一些基本概念,第二部分则介绍RDD的常用操作并给出例子。
茵茵的聪聪
·
2020-09-14 02:10
大数据学习记录
深入理解Spark 2.1 Core (二):DAG调度器的原理与源码分析
上一篇《深入理解
Spark2
.0(一):RDD实现及源码分析》的5.2Spark任务调度器我们省略过去了,这篇我们就来讲讲Spark的调度器。
卓寿杰_SoulJoy
·
2020-09-14 01:59
Spark
深入理解
Spark
2.1
Core
原理与源码分析
Spark的有向无环图DAG(代码及图解)
Spark的有向无环图DAG(代码及图解)标签:
spark2
017-01-0318:214497人阅读评论(0)收藏举报分类:【大数据】Spark(20)版权声明:本文为博主原创文章,出处为http:/
Tiger-Li
·
2020-09-14 01:39
Spark
Spark:java api读取hdfs目录下多个文件
于是把一个大文件拆分为多个小文件后上传到hdfs,然而在
spark2
.2下如何加载某个目录下多个文件呢?
weixin_34361881
·
2020-09-14 01:46
spark2
.4 on yarn安装
SparkisbuiltwithScala2.11bydefault.Scala2.10usersshoulddownloadtheSparksourcepackageandbuildwithScala2.10support.也就是说
spark2
.0
lbship
·
2020-09-14 00:50
spark
java.lang.NoSuchMethodError: breeze.linalg.DenseVector$.canSetD()
背景:跑时间序列模型报错环境:scala2.11+
spark2
.0报错:java.lang.NoSuchMethodError:breeze.linalg.DenseVector$.canSetD().
南宫木java
·
2020-09-14 00:32
scala
基于 Apache Pulsar 和 Apache Spark 进行批流一体的弹性数据处理
2017年7月,
Spark2
.2.0版本正式推出的Sparkstructuredstreami
Apache Pulsar
·
2020-09-13 23:30
Pulsar介绍
Cloudera Manager进行CDH生产环境集群配置及相关功能示例
目录主页主机角色Parcel配置-非默认值动态资源池静态服务池HDFSHiveImpalaKafka
Spark2
YARNZooKeeperClouderaManagerService主页主机
ddttoop
·
2020-09-13 18:02
Hadoop
大数据
分布式
【pyspark】一 spark dataframe 读写parquet、json、csv等文件
pyspark读写文件环境:zeppelin中的notebook提交的代码,python2.7,
spark2
.3.1pyspark读jsondataframe=spark.read.format("json
百物易用是苏生
·
2020-09-13 06:48
spark
python
并发编程模型AKKA
因为AKKA不同版本通讯不了,用户使用AKKA和spark中AKKA冲突,spark放弃维护AKKA等原因,在
spark2
.x后全更改成netty写的了
水墨风漾
·
2020-09-13 04:45
scala
spark
天池比赛-资金流入流出预测-挑战Baseline--第一次乱来的预测过程
需要的工具库:1.py
spark2
.pandas提示:本文下的代码都是基于pyspark的ml库思路:因为实在是不知道怎么预测,所以索性将每日近3万用户的申购总量和赎回总量累加起来,得到每天总的申购和赎回总量
希明人
·
2020-09-12 21:20
java中RunTime类的用途
最近公司准备使用spark做流式计算,把原来做过的东西拿出来整理一下,有以下内容1、通过java调用shell脚本启动
spark2
、在虚拟机退出时执行特定的方法即注册一个回调函数对于Runtime类的测试
lyzx_in_csdn
·
2020-09-12 16:47
Java
[
Spark2
.0]Spark SQL, DataFrames 和Datasets指南
综述SparkSQL是Spark提供的针对结构化数据处理的模块。不同于基本的SparkRDDAPI,SparkSQL提供的接口提供了更多的关于数据和计算执行的信息。在内部,SparkSQL使用这些额外信息完成额外的优化。这里有几种方式可以和SparkSQL相互操作,包括SQL和DatasetAPI。计算结果的时候使用相同的执行本页中所有示例使用到的样例的数据都包含在Spark发布中,而且都能在sp
yhao浩
·
2020-09-12 09:51
spark
Spark 中通讯架构
4、
Spark2
系列中,不再使用Akka,使用Netty。二、Spark通讯架构解析架构图为:1
火成哥哥
·
2020-09-12 08:33
spark
java
netty
分布式
rpc
spark
Spark高级操作之json复杂和嵌套数据结构的操作一
一,基本介绍本文主要讲
spark2
.0版本以后存在的Sparksql的一些实用的函数,帮助解决复杂嵌套的json数据格式,比如,map和嵌套结构。
大数据星球-浪尖
·
2020-09-12 07:46
Spark——在Windows单机安装spark
环境spark读取本地文件格式:配置日志显示级别配置cmd下pyspark在jupyter下运行下载安装Java,安装版本为8Java8下载地址安装教程详见:菜鸟教程—Java安装下载spark安装包
spark2
.3.3
C_tubby
·
2020-09-12 04:16
Spark机器学习实践
Flume+Spark Streaming
注意:从
Spark2
.3.0开始,不推荐使用Flume支持。个人也不推荐这种架构,数据量小的情况下可能没什么问题,但是再数据量过大的情况下Streaming流式处理是处理不过来的,必定会
爆发的~小宇宙
·
2020-09-11 23:35
spark
streaming
Spark之SparkSession
SparkSession是
Spark2
.0引如的新概念。SparkSession为用户提供了统一的切入点,来让用户学习spark的各项功能。
JasonQ_NEU
·
2020-09-11 22:56
spark
基于PySpark和ALS算法实现基本的电影推荐流程
3、基于PySpark和ALS的电影推荐流程数据集背景读取用户数据训练模型调用已训练的模型完整代码项目难点说明小结 本文内容第一部分给出Pyspark常见算子的用法,第二部分则参考书籍《Python
spark2
.0Hadoop
yield-bytes
·
2020-09-11 22:40
Spark
最简单的spark MLlib进行随机森林
上一篇文章讲到了docker玩转Hadoop这里想使用sparkMLlib进行集群的机器学习spark的准备1.拉取镜像dockerpullsingularities/
spark2
.新建docker-compose.yml
喝粥也会胖的唐僧
·
2020-09-11 20:20
大数据
hdfs
spark
mlib
spark2
.3源码分析之UnifiedMemoryManager
概述MemoryManagerMemoryManager是spark的内存管理器,它定义了execution和storage之间共享内存的方式。executionmemory指的是在shuffle、join、sort和aggregation过程中使用的内存;storagememory指的是缓存RDD和缓存broadcast广播变量占用的内存。每个JVM中都存在一个MemoryManager。Mem
weiqing687
·
2020-09-11 15:13
spark
idea下通过yarn-client远程调试spark,并从hive中获取数据
1、集群环境:
spark2
.2.2(独立安装),hadoop3.0.0(CDH搭建)1、修改windows用户,在本地host,C:\Windows\System32\drivers\etc下host中加入集群节点
笨笨v猪
·
2020-09-11 12:12
spark
Spark2
.x在Idea中运行在远程集群中并进行调试
方法1把自己的电脑作为Driver端,直接把jar包提交到集群,此时Spark的Master与Worker会一直和本机的Driver端保持连接,调试比较方便。importorg.apache.spark.SparkContextimportorg.apache.spark.SparkConf objectWordCount{ defmain(args:Array[String]):Unit={
zhangjunli
·
2020-09-11 12:35
Spark
Hadoop
Idea
idea搭建spark开发环境完整版(windows)
利用intellijidea搭建spark开发环境(windows)本文配置所有环境Win10企业版2016长期服务版Jdk1.8.0.131Hadoop2.7.3
Spark2
.2.0Scala2.11.12
一蓑烟雨紫洛
·
2020-09-11 11:34
HIVE
SparkStreaming整合Kafka(Offset保存在zookeeper上,
Spark2
.X + kafka0.10.X)
先来一段到处都有的原理(出处到处都有,就不注明了)Streaming和Kafka整合有两种方式--Receiver和Direct,简单理解为:Receiver方式是通过zookeeper来连接kafka队列,Direct方式是直接连接到kafka的节点上获取数据Receiver:1、Kafka中topic的partition与Spark中RDD的partition是没有关系的,因此,在KafkaU
weixin_34068198
·
2020-09-11 11:43
spark在eclipse下V2-搭建Demo代码阅读环境
https://files.cnblogs.com/files/wifi0/
spark2
.1.1example_api_sql_streaming_eclipseProject.ziphttps://files.cnblogs.com
weixin_30925411
·
2020-09-11 10:43
在eclipse中修改
spark2
.1源码
首先声明下这是我在eoe上转载的写的很好就摘抄了。。。参考:http://cn.soulmachine.me/blog/20130611/http://scala-ide.org/download/current.html1.安装Scala2.安装sbt3.安装scalaIDEhttp://scala-ide.org/download/current.html(要注意eclipse和ScalaID
ljtyxl
·
2020-09-11 10:52
bigdata
VM虚拟机安装+Hadoop+Scala+Spark
1.1VMWorksation安装1.2配置虚拟机网络1.3clone虚拟机1.4SSH免密登录2.JDK+Hadoop+Scala+Spark安装2.1JDK安装2.2Scala安装2.3Hadoop安装2.4安装
spark2
.5zeppelin
不二东
·
2020-09-11 10:02
SparkSql读取多行json文件产生-- _corrupt_record: string (nullable = true)错误!!
所用的软件版本:
spark2
.3.0hbase1.4.6IDEA2019.1在利用spark.read.json("e:/test.json")读取多行的json文件,利用DataFrame的DF.show
reedom1991
·
2020-09-11 10:56
spark
win10环境下单机eclipse+spark+scala配置
大致有以下6步环境为eclipse+scala+JDK1.8+
Spark2
.4.3+Hadoop2.7下载JAVA下载eclipseeclipse下下载scala下载配置spark下载配置Hadoop创建
YangPotatoes
·
2020-09-11 09:45
spark
Spark的RDD与DataFrame、DataSet
Apache
Spark2
.0统一API的主要动机是:追求简化Spark。通过减少用户学习的概念和提供结构化的数据进行处理。
desen210
·
2020-09-11 08:35
程序设计
Windows Pycharm 开发Spark环境搭建
是参考的这个:https://stackoverflow.com/questions/34685905/how-to-link-pycharm-with-pyspark环境:Windows1064bit,
Spark2
.3.2
qianleiz
·
2020-09-11 07:37
Python
pycharm
spark
windows
maven构建Scala程序,实现spark的wordcount
环境jdk1.8scala2.11.8
spark2
.11maven4.0新建工程ide:idea新建一个maven工程,添加jdk和scala支持然后添加maven依赖编写wordcount代码右键运行
HanLaotwo
·
2020-09-11 07:23
spark学习
spark学习
spark
scala
maven
Intellij IDEA构建
Spark2
.0以上工程示例
IntellijIDEA新建
Spark2
.0以上Maven工程示例长时间不用IDEA新建工程,新建的步骤都忘记了,再次记录一下,Spark新版中SparkSession需要依赖的包与SparkContext
巴拉巴拉朵
·
2020-09-11 07:47
大数据
Spark
IDEA
pyspark使用ML库并用py
spark2
pmml把模型保存为pmml格式
一、准备工作使用Idea开发pyspark程序,在这之前我们需要做一些准备工作,如同PyCharm开发pyspark程序一样,我们需要先对python项目进行配置:1.使用anaconda3里面的python打开File->ProjectStructure->Project,其中ProjectSDK的路径设为anaconda3的python路径,如/home/software/anaconda3/
微凉下午茶
·
2020-09-11 07:57
SparkStreaming整合KafkaCDH6.3.2版本(Offset保存在zookeeper上,
Spark2
.4 + kafka0.10.X)
依赖UTF-81.81.81.82.112.11.82.4.0-cdh6.3.23.0.0-cdh6.3.22.2.1-cdh6.3.2com.emgetp-common0.0.1-SNAPSHOTorg.scala-langscala-library${scala.version}${jar.scope}org.scala-langscala-compiler${scala.version}${
风是外衣衣衣
·
2020-09-11 07:25
kafka
保存kafka的offset
上一页
6
7
8
9
10
11
12
13
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他