E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark2
Apache Spark 统一内存管理模型详解(转)
一、前言本文将对Spark的内存管理模型进行分析,下面的分析全部是基于Apache
Spark2
.2.1进行的。为了让下面的文章看起来不枯燥,不打算贴出代码层面的东西。
愤怒的谜团
·
2023-03-10 12:57
Carbondata1.3.1+
Spark2
.1.0+Hadoop2.7.3集成问题记录(持续更新)
一、版本问题目前官方虽说支持了
spark2
.2.1,下载git代码后编译完全是可以通过的,但是在使用过程会出现问题。
Jonathan丶Wei
·
2023-03-09 11:09
Spark相关的依赖冲突,后期持续更新总结
Spark相关的依赖冲突持续更新总结Spark-Hive_2.11依赖报错这个依赖是Spark开启支持hiveSQL解析,其中2.11是Spark对应的Scala版本,如
Spark2
.4.7,对应的Scala
岁月的眸
·
2023-02-18 20:31
#
Spark总结
spark
大数据
scala
Delta Lake 平台化实践(离线篇)
本文是在DeltaLake0.4与
Spark2
.4集成、平台化过程中的一些实践与思考SQL支持DML背景deltalake0.4只支持以api的方式使用Delete/Update/MergeInto等DML
breeze_lsw
·
2023-02-07 12:07
sparkstreaming线程数小于2时出错!
当运行一个
spark2
.2.0官方文档的实例时,sparkstreaing出现如下错误:2019-04-1019:40:00WARNRandomBlockReplicationPolicy:66-Expecting1replicaswithonly0peer
时光如水_fe87
·
2023-02-06 13:18
spark 2.1 sort-based shuffle
所以在
spark2
.0之后remove了HashShuffle,开始只使用on-heap或off-heap的sort-based
Gilegamesh
·
2023-02-05 14:31
spark python 上传代码包_hue通过livy提交spark jar包python文件到spark
背景:集群中有hive、
spark2
,没有impala需求:通过hue访问hive以及提交spark任务现状:hue以及通过sentry实现了对hive的权限管理CDH5.15.1centos7.4livy
weixin_39927408
·
2023-02-02 14:58
spark
python
上传代码包
Spark2
.0机器学习系列之4:随机森林介绍、关键参数分析
概述随机森林是决策树的组合算法,基础是决策树,关于决策树和
Spark2
.0中的代码设计可以参考本人另外一篇博客:http://blog.csdn.net/qq_34531825/article/details
千寻千梦
·
2023-02-02 09:58
spark
spark
Spark-机器学习模型持久化
在即将发布的Apache
Spark2
.0中将会提供机器学习模型持久化能力。
二当家的掌柜
·
2023-02-02 09:26
机器学习
spark
机器学习
apache
解决spark UI界面在虚拟机中可以访问,在主机无法访问
Date:2020/09/24Version:CentOS7,
Spark2
.2关闭虚拟机中的防火墙即可systemctlstopfirewalld.service避免下次开机再次出现这种情况,可以执行以下命令
pluo1717
·
2023-02-01 08:40
CDH 升级
SPARK2
与 问题
否则会发生你意想不到的惊喜你懂的开始:以下操作基于主节点:也就是CHDSERVER节点1,关闭集群,关闭CMS,关闭CDHAGENT与SERVER2,下载文件下载仓库:http://archive.cloudera.com/
spark2
会长大的幸福_8bf9
·
2023-01-31 00:02
Kyuubi 解锁 Spark SQL on CDH 6
背景CDH最后一个免费版6.3.2发布一年有余,离线计算核心组件版本停在了Hadoop3.0.0,Hive2.1.1,
Spark2
.4.0。
517001e7cb6e
·
2023-01-28 19:10
Spark学习笔记
Date:2019/9/18Version:
Spark2
.1Source:网易云课堂-厦门大学林子雨老师主讲的《Spark编程基础(Scala版)》窄依赖宽依赖
pluo1717
·
2023-01-27 12:16
大数据--spark
在Spark1.x中,RDD是主要的应用程序编程接口(API),但从
Spark2
.x开始,鼓励使用数据集API[3],即使RDDAPI没有被弃用。[4][5]RDD技术仍然是Da
像影子追着光梦游_
·
2023-01-24 20:56
大数据
大数据
spark
Spark2
.2.0 + Scala2.13.0集群搭建
Spark使用了Hadoop的HDFS作为持久化存储层,因此安装Spark时,应先安装与Spark版本相对应的Hadoop。Spark计算框架以Scala语言开发,因此部署Spark首先需要安装Scala及JDK。Hadoop集群参考:ubuntu16+Hadoop2.7.3环境搭建(伪分布式),改为分布式集群JDK版本:1.8.0Scala版本:scala-2.13.0-M1spark版本:2.
sinat_34022298
·
2023-01-21 16:58
Spark
Hadoop
scala
spark
hadoop
『pyspark』〇:spark的安装、配置和使用
1、PySpark安装配置操作系统:Ubuntu18.04,64位所需软件:Java8+,Python3.6.5,Scala2.13.1,
spark2
.4.8安装步骤:1.1安装Java8sudoapt-getupdatesudoapt-getinstallopenjdk
简之
·
2023-01-21 16:47
大数据
spark
大数据
python
linux
本地虚拟机集群搭建数据仓库实战
组件目录一.环境准备二.JDK安装三.Hadoop安装过程四.Zookeeper安装五.Flume安装六.Kafka安装七.MySQL安装八.Sqoop安装九.Hive安装十.安装ES5.2十一.安装
Spark2
.4.3
ZhaoHY KeepRunning
·
2023-01-21 09:11
kafka
flink
hadoop
spark
hdfs
centos搭建hadoop集群实战命令总结
tar.gzHadoop3.1.3hadoop-3.1.3.tar.gzZookerper3.5.7apache-zookeeper-3.5.7-bin.tar.gzKafka2.4.1kafka_2.11-2.4.1.tgz
Spark2
.1.1spark
Jmayday
·
2023-01-21 09:06
Hadoop
使用Pandas_UDF快速改造Pandas代码
Pandas_UDF是在Py
Spark2
.3中新引入的API,由Spark使用Arrow传输数据,使用Pandas处理数据。
weixin_30824599
·
2023-01-14 09:08
python
大数据
pyspark入门系列 - 06 pyspark.sql.functions.pandas_udf使用教程
博客中代码基于
spark2
.4.4版本。不同版本函数会有不同,详细请参考官方文档。
铁甲大宝
·
2023-01-14 09:35
pyspark
spark
Spark执行环境——RPC环境
导读RpcEnv是
Spark2
.x.x版本中新出现的组件,它是用来替代
Spark2
.x.x以前版本中使用的Akka。
拾荒路上的开拓者
·
2023-01-12 19:57
Spark
Spark
2.1.0源码剖析
python spark dataframe_
Spark2
.1.0入门:DataFrame的创建(Python版)
从
Spark2
.0以上版本开始,Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载、转换、处理等功能。
weixin_39719101
·
2023-01-10 09:37
python
spark
dataframe
python大数据hadoop_Python+Spark 2.0+Hadoop 机器学习与大数据实战pdf,9787302490739下载
2.Python
Spark2
.0安装通过实机操作,学会安装
Spark2
.0,并在本机与多台机器集群执行PythonSpark应用程序。同时介绍如何在iPythonNotebook
weixin_39862382
·
2023-01-07 14:42
python大数据hadoop
python
spark2
.0_Python+
Spark2
.0+hadoop学习笔记——Python Spark MLlib决策树二分类
决策树是在数据分类问题中的一种常用且经典的机器学习方法,在本例里使用决策树模型来分析StumbleUpon数据集,来预测网页是暂时的(ephemeral)还是长青的(evergreen),并且调教参数找出最佳的参数组合,来提高预测准确度。像这类经典的二分类问题,在python中调包来做的话会非常容易,且分析手段也有很多。但是现在的练习任务是使用Spark来对着类问题进行处理,因此,下面将开始介绍使
weixin_39940344
·
2023-01-07 14:42
python
spark2.0
python
spark2
.0_Python+
Spark2
.0+hadoop学习笔记——Python Spark MLlib决策树回归
机器学习领域中分类方法和回归方法是相对的,大多数的方法可以相互转换,即一般的机器学习方法如果可以分类的话,也会可以做回归预测。在本例的回归方法中,使用的评价指标是RMSE。第一步:导入数据库importsysfromtimeimporttimeimportpandasaspdimportmatplotlib.pyplotaspltfrompysparkimportSparkConf,SparkCo
weixin_39726873
·
2023-01-07 14:12
python
spark2.0
python spark hadoop_Python+
Spark2
.0+hadoop学习笔记——实战之推荐引擎
推荐引擎是最常见的机器学习应用,在spark中,SparkMLlib支持ALS(AlternatingLeastSquares)推荐算法,是机器学习的协同过滤推荐算法。机器学习的协同过滤推荐算法用过观察所有用户给产品的评价来推断每个用户的喜好,并向用户推荐适合的多个产品,也可以把某一个产品推荐给多个用户。本例使用明尼苏达大学GroupLensResearch实验室得到数据。其中u.data用户评分
weixin_39620662
·
2023-01-07 14:42
python
spark
hadoop
python pipeline框架 hadoop_Python+
Spark2
.0+hadoop学习笔记——Spark ML Pipeline机器学习流程...
情况一:二元分类这部分使用的数据集是判断网页是暂时的还是长青的。因为涉及到了文本的信息,所以需要进行文本的数字化和向量化。在这部分中,机器学习分为三个部分,第一部分是建立机器学习流程pipeline,第二部分是训练,第三部分是预测。在建立机器学习流程pipeline中包含4个阶段,如下所示:StringIndexer:将文字的分类特征转换为数字。OneHotEncoder:将一个数字的分类特征字段
weixin_39645249
·
2023-01-07 14:42
python
pipeline框架
hadoop
《Python Spark 2.0 Hadoop机器学习与大数据实战_林大贵(著)》pdf
《Python+
Spark2
.0+Hadoop机器学习与大数据实战》五星好评+强烈推荐的一本书,虽然内容可能没有很深入,但作者非常用心的把每一步操作详细的列出来并给出说明,让我们跟着做的时候非常有信心,
weixin_34119545
·
2023-01-07 14:41
大数据
人工智能
python
Ubuntu的Spark 搭建实验(这次是完整的哈,没有错误)
学习目标:学会Spark环境的搭建学习内容:学习Spark搭建环境的过程一.软件的下载,解压与安装二.环境的配置学习环境:环境组合是
Spark2
.3.3+Java8+Scala2.11(这里都不是最新版本的
刘新源870
·
2022-12-31 07:10
VMware虚拟机
spark
ubuntu
大数据
scala
python
spark导出PMML模型bug排查纪实
不考虑PMML存储方式的实现很简单,使用的是官方API(我用的是
spark2
.4.0版本)通过独热编码One-hotCode产生高维稀疏矩阵时,此时还想通过JPMML-spark工具和pipelineModel
新时代深漂农民工
·
2022-12-31 06:06
大数据学习
机器学习工程问题
spark
机器学习
Spark2
.0机器学习系列之10: 聚类(高斯混合模型 GMM)
在
Spark2
.0版本中(不是基于RDDAPI的MLlib),共有四种聚类方法:(1)K-means(2)LatentDirichletallocation(LDA)(3)Bisectingk-means
千寻千梦
·
2022-12-26 14:46
spark
ml
spark
机器学习
Apache Spark 2.x Machine Learning Cookbook(1)
第1章:使用Scala使用Spark进行实用的机器学习第2章:足够的线性代数用于Spark机器学习第3章:Spark的三个机器学习数据火枪手-一起完美第4章:实施强大的机器学习系统的常用食谱第5章:
Spark2
.0
半_调_子
·
2022-12-26 14:46
人工知能
spark
深度学习
聚类(幂迭代聚类, power iteration clustering, PIC)
【转载】原文链接https://blog.csdn.net/qq_34531825/article/details/52675182在
Spark2
.0版本中(不是基于RDDAPI的MLlib),共有四种聚类方法
斯汤雷
·
2022-12-26 14:45
深度学习
聚类
机器学习
人工智能
Spark2
.0机器学习系列之8: 聚类(k-means,Bisecting k-means,Streaming k-means)
在
Spark2
.0版本中(不是基于RDDAPI的MLlib),共有四种聚类方法:(1)K-means(2)LatentDirichletallocation(LDA)(3)Bisectingk-means
千寻千梦
·
2022-12-26 14:45
Spark2
.0机器学习系列之11: 聚类(幂迭代聚类, power iteration clustering, PIC)
在
Spark2
.0版本中(不是基于RDDAPI的MLlib),共有四种聚类方法:(1)K-means(2)LatentDirichletallocation(LDA)(3)Bisectingk-means
张博208
·
2022-12-26 14:15
Algorithm
Spark
Scala
python
spark2
.0_
spark2
.0机器学习-python spark初探
本学习笔记都是基于python3.6而来(没办法,虽说spark是用Scala语言写的,但是本人只会使用python),学习资料主要来自
spark2
.0官方文档(暂时没有提供python接口的翻译)和《
weixin_39924329
·
2022-12-23 22:21
python
spark2.0
【大数据笔记】- Spark-SQL读写MySQL
Spark-SQL很强大,可以读写各种JDBC的库,先来一弹MySQL的,超简单:1.MySQL库建测试表和数据:CREATETABLEt_realtime.test_
spark2
mysql(idbigint
菜鸟老胡~
·
2022-12-21 23:24
技术学习
spark
mysql
big
data
大数据
数据仓库
spark中dataframe解析_spark结构化数据处理:Spark SQL、DataFrame和Dataset
本文主要讲解Spark1.6.x的结构化数据处理相关东东,但因Spark发展迅速(本文的写作时值Spark1.6.2发布之际,并且
Spark2
.0的预览版本也已发布许久),因此请随时关注SparkSQL
weixin_39747615
·
2022-12-18 19:15
个人总结-Spark-SQL之DataFrame的使用
DataFrame详解环境:
spark2
.4.0slaca:2.12以上创建DataFrame的几种方式第一种:rdd转DFimportsession.implict.
豪猪不挡道
·
2022-12-18 19:12
大数据
大数据
spark
dataframe
Spark-sql
Spark中的DataFrame和DataSet
在
spark2
.0之后,DataFrame和DataSet的API统一了,DataFrame是DataSet的子集,DataSet是DataFrame的扩展。(typeData
大大大大肉包
·
2022-12-18 19:12
spark学习
spark
big
data
大数据
pySpark数据分析(一)
pySpark数据分析(一)我安装的版本是
spark2
.4.3和hadoop2.7.7(或只安装winutils),配置好环境变量。
风凭借力
·
2022-12-17 12:19
数据分析
spark
python
使用spark源码脚本编译CDH版本spark
版本spark:
spark2
.4.4maven:3.6.2java:jdk8cdh版本:5.15.1注意事项maven版本以及java版本说
weixin_44641024
·
2022-12-15 11:06
环境部署
安装
pyspark使用方法
来源,官网
spark2
.2.1版本pyspark不同函数的形象化解释SparkSession是
Spark2
.0引入的新概念。
心影_
·
2022-12-15 11:04
大数据
人工智能
spark
pyspark
exists hive中如何使用_0644-5.16.1-如何在CDH5中使用
Spark2
.4 Thrift
1.文档编写目的Fayson在前面的文章中介绍过什么是SparkThrift,SparkThrift的缺陷,以及SparkThrift在CDH5中的使用情况,参考《0643-SparkSQLThrift简介》。在CDH5中通过自己单独安装的方式运行Thrift服务现在已经调通并在使用的是如下版本组合:1.在CDH5中安装Spark1.6的Thrift服务,参考《0079-如何在CDH中启用Spar
weixin_39902545
·
2022-12-15 11:33
exists
hive中如何使用
Spark Analyze收集stats信息实现和CBO stats信息estimate
*的Command命令的执行逻辑,到
Spark2
(3)部分代码发生了变化,DataFrame没了。
wankunde
·
2022-12-15 11:00
spark
spark2
.1.1yarn模式下,运行自带example的异常
运行spark自带的计算圆周率examplespark-submit--masteryarn--deploy-modecluster--classorg.apache.spark.examples.SparkPiexamples/jars/spark-examples_2.11-2.1.1.jar错误日志如下spark-env.sh设置如下hadooyarn-site.xml配置信息如下有人搭建环
Meteora_wyz
·
2022-12-15 11:26
安装Scala
Scala版本二、Windows上安装Scala三、测试Scala是否安装成功四、Linux上安装Scala五、启动Scala,执行语句六、Scala的使用一、选择Scala版本在master虚拟机上安装
Spark2
.1.1
qq_57026298
·
2022-12-15 11:56
scala
big
data
spark
CDH6.3.2集成spark-sql完整版本
spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz解压spark-4.0-bin-hadoop2.7.tgz到/opt/cloudera/parcels/CDH/lib/
spark2
奇科.zhang
·
2022-12-15 11:50
CDH
spark
sql
hadoop
Spark优化篇:RBO/CBO
为了产生比较好的查询规则,优化器需要理解数据的特性,于是在
Spark2
.0中引入了基于代价的优化器(cost-basedoptimizer),也就是所谓的CBO。
YaPengLi.
·
2022-12-15 11:31
Apache
Spark
spark
Spark安装和编程实践(
Spark2
.4.0)
安装Hadoop(伪分布式)安装JAVAJDK安装Spark(Local模式)下载安装包修改配置文件spark-env.sh文件(vim./conf/spark-env.sh),在第一行添加以下配置信息:exportSPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoopclasspath)配置完成后就可以直接使用,不需要像Hadoop运行启动命令运行
CHILDE Ley
·
2022-12-15 11:30
bug挖掘机
spark
大数据
hadoop
上一页
2
3
4
5
6
7
8
9
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他