E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark2
Pyspark实现KMeans机器学习聚类算法(一)
Pyspark实现KMeans机器学习聚类算法(一)环境配置:
spark2
.1.1python3.5.2IPython5.1.0这里配置了pyspark默认以ipython模式启动。
数据之禅
·
2023-09-28 14:03
Windows下Pycharm的Spark、Hadoop、Scala安装及常见报错(graphframes避坑、jupyter的文件位置更换、conda环境建立)
py4j2、安装pyspark接下来是新建python项目1、项目配置2、使用graphframes库项目环境jdk1.8.0_333python3.7.13scala2.11.8hadoop2.7.1
spark2
.4.3
soberld
·
2023-09-21 02:21
pycharm
spark
hadoop
Spark-Shell的启动与运行
Spark-Shell的启动与运行一、启动
spark2
.启动hadoop3.启动spark二、SparkRdd的简单操作1.从文件系统加载数据创建ADD(1)从Linux本地文件系统加载数据创建RDD—
LMY~~
·
2023-09-18 08:40
spark
大数据
hadoop
HDP服务器上spark-sql联通hive元数据库
spark-sql执行的脚本没有执行,提示没有找到数据库;新打session窗口测试,通过spark-sql连接yarn后showdatabases;发现数据库与hive元数据库不一致;解决方法:修改
spark2
NightFall丶
·
2023-09-17 23:44
#
Spark
#
hive
hive
数据库
服务器
Apache Spark 2.2.0 官方文档中文版
htmlApacheSpark™是一个快速的,用于海量数据处理的通用引擎.官方网址:http://spark.apache.org中文文档:http://spark.apachecn.org花了大概两周左右的时间,在原来
Spark2
.0.2
boonya
·
2023-09-17 10:40
Spark
1.spark读取数据与scala编程
以下是idea中用到的maven仓库版本说明:
spark2
.3.1scala2.11hadoop3.1.14.0.0com.attest.bigdataspark-2003291.0org.apache.sparkspark-core
一杭oneline
·
2023-09-16 10:59
Spark
Spark2
.4.6Spark介绍什么是Spark?ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎。
HikZ.919
·
2023-09-14 23:29
hadoop
spark
Spark-通信架构
Spark2
.x版本使用Netty通讯框架作为内部通讯组间。Spark基于Netty新的RPC框架借鉴了Akka中的设计,基于Actor模型。
布莱安托
·
2023-09-12 15:06
spark-windows本地环境搭建
bin目录)github找https://github.com/steveloughran/winutils/blob/master/hadoop-3.0.0/binscala-SDK-2.12.10,
spark2
.4.3
堂哥000
·
2023-09-11 11:11
Spark 【Spark SQL(一)DataFrame的创建、保存与基本操作】
Spark2
.0出现的SparkSession接口替代了Spark1.6版本中的SQLContext和HiveCont
让线程再跑一会
·
2023-09-10 23:52
Spark
spark
大数据
分布式
Spark【Spark SQL(三)DataSet】
在
Spark2
.0中,DataFrame和DataSet被合并为DataSet。DataSet包含
让线程再跑一会
·
2023-09-10 23:20
Spark
spark
大数据
分布式
Spark String Decimal类型引起的问题
问题背景从
Spark2
到Spark3这期间,Spark对于String和Decimal类型的比较会自动转换为Double类型。
wankunde
·
2023-09-09 04:33
spark
spark
big
data
Ambari HDP 下
SPARK2
与 Phoenix 整合
1、环境说明操作系统CentOSLinuxrelease7.4.1708(Core)Ambari2.6.xHDP2.6.3.0
Spark2
.xPhoenix4.10.0-HBase-1.22、条件HBase
跟着大数据和AI去旅行
·
2023-09-08 23:21
Spark2
x原理剖析(二)
一、概述基于社区已有的JDBCServer基础上,采用多主实例模式实现了其高可用性方案。集群中支持同时共存多个JDBCServer服务,通过客户端可以随机连接其中的任意一个服务进行业务操作。即使集群中一个或多个JDBCServer服务停止工作,也不影响用户通过同一个客户端接口连接其他正常的JDBCServer服务。多主实例模式相比主备模式的HA方案,优势主要体现在对以下两种场景的改进。主备模式下,
Hello.Reader
·
2023-09-06 07:08
大数据
spark
Spark SQL常用函数 函数分类及其简介
SparkSQL函数一、概述1、来源:本文总结自
spark2
.3.1API文档org.apache.spark.sql:objectfunctions;2、使用:org.apache.spark.sql.functions
vitrovitro
·
2023-09-03 01:43
BigData
CDK &CDS 安装
一、下载安装包http://archive.cloudera.com/kafka/parcels/4.1.0/http://archive.cloudera.com/
spark2
/csd/
SPARK2
_
吃货大米饭
·
2023-09-02 15:28
Spark_Spark中的几种Shuffle 以及工作原理, 含HashShuffle
Base
Spark2
.0+参考文章1.spark基础之shuffle机制和原理分析https://blog.csdn.net/zhanglh046/article/details/783607622.SparkShuffle
高达一号
·
2023-09-01 07:52
Spark
Spark2
.3整合bubbo问题总结
1.在java代码中写scala代码image.png编译后会出现scala代码找不到,需要在pom.xml添加net.alchim31.mavenscala-maven-plugin3.2.0scala-compile-firstprocess-resourcesadd-sourcecompiletest-compile-scalatest-compileadd-sourcetestCompil
LancerLin_LX
·
2023-08-29 07:55
hive3.1.4源码编译兼容spark3.0.0 hive on spark hadoop3.x修改源码依赖 步骤详细
使用hive3.1.2和spark3.0.0配置hiveonspark的时候,发现官方下载的hive3.1.2和spark3.0.0不兼容,hive3.1.2对应的版本是
spark2
.3.0,而spark3.0.0
薛定谔的猫不吃猫粮
·
2023-08-26 09:49
Hive
大数据组件
大数据
hive
hadoop
zookeeper
分布式计算框架:Spark、Dask、Ray
目录什么是分布式计算分布式计算哪家强:Spark、Dask、Ray2选择正确的框架2.1
Spark2
.2Dask2.3Ray什么是分布式计算分布式计算是一种计算方法,和集中式计算是相对的。
ZhangJiQun&MXP
·
2023-08-26 08:41
2023
AI
spark
大数据
分布式
【Spark】用scala2.11编译打包构建镜像
而如果还在用
Spark2
.x版本的,至少在2.4.5的版本中,已经是将Scala2.12作为默认的Scala版本了,如果用户的程序是用Scala2.11写的,也需要将Spark
runzhliu
·
2023-08-24 21:38
Kubernetes
Spark
Spark2
x on yarn日志配置详解
概述SparkonYarn的日志配置分为两类:SparkonYarnclient模式SparkonYarncluster模式接下为大家逐一介绍。SparkonYarnclient模式下的日志配置在client模式下,Spark分为三部分,分别是driver,applicationmaster以及executor,这种模式通常使用在测试环境中。driver:可以认为是sparkapplication
super_wing
·
2023-08-24 18:09
【Python】PySpark 数据处理 ② ( 安装 PySpark | PySpark 数据处理步骤 | 构建 PySpark 执行环境入口对象 )
文章目录一、安装PySpark1、使用pip安装Py
Spark2
、国内代理镜像3、PyCharm中安装PySpark二、PySpark数据处理步骤三、构建PySpark执行环境入口对象四、代码示例一、安装
韩曙亮
·
2023-08-23 08:09
Python
python
PyCharm
PySpark
Spark
数据处理
hibench 对CDH5.13.1进行基准测试(测试项目hadoop\spark\)HDFS作HA高可靠性
因为是全量安装,其中有SPARK的测试(
SPARK2
.0)。安装位置在SPARK服务所在的节点上面。
weixin_30262255
·
2023-08-23 00:44
大数据
java
PySpark安装及WordCount实现(基于Ubuntu)
先盘点一下要安装哪些东西:VMwareubuntu14.04(64位)Java环境(JDK1.8)Hadoop2.7.1
Spark2
.4.0(Local模式)Pycharm(一)UbuntuVMware
如何原谅奋力过但无声
·
2023-08-22 13:37
大数据组件
hadoop
spark
hdfs
Spark 为什么比 MapReduce 快100倍?
文章目录1.内存计算与磁盘刷写1.1MapReduce的Shuffle需要频繁IO1.2Spark计算走IO少2.进程和线程2.1基于进程的MapReduce2.2基于线程的
Spark2
.3基于进程VS
程序终结者
·
2023-08-20 02:43
Hadoop生态
spark
mapreduce
大数据
Spark 图计算ONEID 进阶版
0、环境信息本文采用阿里云maxcompute的spark环境为基础进行的,搭建本地spark环境参考搭建Windows开发环境_云原生大数据计算服务MaxCompute-阿里云帮助中心版本
spark2
.4.5
大数据00
·
2023-08-19 05:09
用户画像
Spark
spark
大数据
分布式
graph
使用FIFO的文件控制shell的线程数
/bin/bashdate+'%Y/%m/%d%H:%M:%S'HADOOP_CONF_DIR=/opt/cloudera/parcels/
SPARK2
-2.1.0.cloudera1-1.cdh5.7.0
飞天大漠
·
2023-08-17 12:17
使用SparkSQL操作Elasticsearch - Spark入门教程
从5.0版本开始,elasticsearch-hadoop就支持
Spark2
.0。
DreamsonMa
·
2023-08-17 10:56
Spark Structured Streaming 项目实战
google搜索一下就能找到SparkStreaming项目实战简单架构图原项目中用的是Sparkstreaming,目前spark官网推荐实用SparkStructuredStreaming,也就是对应
spark2
.0
maozicb
·
2023-08-16 06:25
Standalone模式下_taskScheduler和executor运行原理解密
环境:
spark2
.3.3scala2.11.8Java1.8.0_141_taskScheduler和executor运行的代码调用流程,如下图所示:将上述过程,整理简图如下:下面进行具体说明:一:SparkExecutor
ustbxyls
·
2023-08-12 16:34
Spark源码
Spark
大数据
Spark2
.2出现异常:ERROR SparkUI: Failed to bind SparkUI
详细错误信息如下:复制代码19/03/1911:04:18INFOutil.log:Logginginitialized@5402ms19/03/1911:04:18INFOserver.Server:jetty-9.3.z-SNAPSHOT19/03/1911:04:18INFOserver.Server:Started@5604ms19/03/1911:04:18WARNutil.Utils:
行走荷尔蒙
·
2023-08-12 09:11
大数据
安装spark时输入spark-shell报错 “系统找不到指定的路径“
安装spark时输入spark-shell报错“系统找不到指定的路径“1、检查是不是已经安装了py
spark2
、用spark-shell.cmd命令这个问题在网上大部分人都是说Java_Home配置的有问题
幸福右手牵
·
2023-08-12 05:18
spark
第一次scala课程
一、选择Scala版本我们在master虚拟机上安装的是
Spark2
.4.4,为了后续操作不出现任何匹配方面的问题,建议采用跟Spark版本匹配的Scala三、Windows上安装Scala(一)到Scala
snow323H
·
2023-08-11 19:08
scala
spark
big
data
Spark2
.x精通:Master端循环消息处理源码剖析(二)
问题或建议,请公众号留言;如果您觉得“大数据开发运维架构”对你有帮助,欢迎转发朋友圈从微信公众号拷贝过来,格式有些错乱,建议直接去公众号阅读上一篇文章
Spark2
.x精通:Master端循环消息处理源码剖析
大数据开发运维架构
·
2023-08-11 02:05
解决python3和jupyter-notebook中的报错No module named pyspark和No module named ‘py4j’
背景描述:在centos7–CDH6下配置了
spark2
.4和hive2.3,在linux-shell中输入pyspark可以正常启动,执行下列语句可正常显示frompyspark.sqlimportSparkSessionspark
Nancy_张
·
2023-08-10 20:16
pyspark
linux
python
python
linux
spark
Spark 3.1.1 遇到的 from_json regexp_replace组合表达式慢问题的解决
背景目前公司在从
spark2
.4.x升级到3.1.1的时候,遇到了一类SQL极慢的情况,该SQL的如下(只列举了关键的):selectdevice_personas.
鸿乃江边鸟
·
2023-08-06 19:47
spark
大数据
分布式
spark
大数据
分布式
Spark3-AQE-数据倾斜Join优化
AdaptiveQueryExection(自适应查询计划)简称AQE,在最早在spark1.6版本就已经有了AQE;到了
spark2
.x版本,intel大数据团队进行了相应的原型开发和实践;到了spark3.0
蠟筆小噺没有烦恼
·
2023-08-06 13:34
2 Scala的基础知识
变量值不可修改,一旦分配不能重新指向别的值val:分配后,可以指向类型相同的值vallines=sc.textFile("helloSpark.txt")lines=sc.textFile("hell
Spark2
Achaichai
·
2023-08-03 17:45
Spark2
.x精通:Master端循环消息处理源码剖析(一)
问题或建议,请公众号留言;如果您觉得“大数据开发运维架构”对你有帮助,欢迎转发朋友圈从微信公众号拷贝过来,格式有些错乱,建议直接去公众号阅读上篇文章:
Spark2
.x精通:Standalone模式Master
大数据开发运维架构
·
2023-08-03 12:57
Centos 7 环境 Storm 2.0.0 完全分布式集群的搭建过程
系列博客地址Centos7环境hadoop3.2.0完全分布式集群搭建Centos7环境hive3.1.1搭建Centos7环境
Spark2
.4.3完全分布式集群的搭建过程Centos7环境HBase2.1.5
小不强
·
2023-08-03 09:51
大数据
spark2
.x--7. 内存管理之StaticMemoryManage
1.MemoryManagerSpark的内存主要分为管理储存(Storage)和执行(Execution),ExecutionMemory是指Shuffles,joins,sorts和aggregation的操作;而StorageMemory是缓存和广播数据相关的,每一个JVM会产生一个MemoryManager来负责管理内存。MemoryManager主要有几个功能:•记录用了多少Storag
shuitai
·
2023-08-02 15:20
Python---pyspark的安装,执行入口,编程模型、RDD对象、数据输入
命令提示符程序内,输入:pipinstallpyspark或使用国内代理镜像网站(清华大学源)pipinstall-ihttps://pypi.tuna.tsinghua.edu.cn/simplepy
spark2
三月七(爱看动漫的程序员)
·
2023-08-02 05:51
初识python
python
开发语言
pycharm
数据分析
Spark Sql日志分析项目实战
项目简介统计主站最受欢迎的课程TopN访问次数按地市统计主站最受欢迎的TopN课程按流量统计主站最受欢迎的TopN课程环境安装CDH相关软件下载地址Spark环境搭建Spark源码编译(以
spark2
.1.0
kangapp
·
2023-07-24 06:17
Spark之Shuffle参数调优解析
下面是
spark2
.2.0版本的shuffle的属性表,http://spark.apache.org/docs/2.2.0/configuration.html一
zuodaoyong
·
2023-07-23 19:31
spark
spark
【基本功】Spark常用参数详解
一、Hadoop&Hive&Spark官方文档官网文档永远是最好的指导手册hive1.2.1参数配置官方文档
spark2
.2参数配置官方文档/sparksql参数配置文档/spark最新版本官方文档hadoop2.7.1
小马过河@大数据
·
2023-07-22 14:41
Spark
spark
大数据
hadoop
hdfs
hive
基于Flume+Kafka+Spark-Streaming的实时流式处理完整流程
基于Flume+Kafka+Spark-Streaming的实时流式处理完整流程1、环境准备,四台测试服务器spark集群三台,spark1,
spark2
,spark3kafka集群三台,spark1,
玩家_7a4c
·
2023-07-21 23:33
基于Spark3的个性化推荐系统——理论知识
本博客整理自慕课网实战《基于
Spark2
.x的个性化推荐系统》目录一.推荐系统的生态介绍1.生态概述2.常见问题3.效果评测二.协同过滤推荐算法原理1.基于用户的协同过滤2.基于物品的协同过滤3.基于模型的协同过滤
程研板
·
2023-07-21 13:08
#
推荐系统
推荐系统
算法
协同过滤
机器学习
Spark2
.1和2.2 SQL物理执行策略之Join源码分析以及不同类型Join区分
1.objectExtractEquiJoinKeys一个模式匹配,官方注释是:Apatternthatfindsjoinswithequalityconditionsthatcanbeevaluatedusingequi-join.Null-safeequalitywillbetransformedintoequalityasjoiningkey(replacenullwithdefaultva
orisonchan
·
2023-07-20 01:06
【Spark实战】Windows环境下编译
Spark2
Linux上部署Spark On Yarn
文章目录Windows环境下编译
Spark2
环境准备编译准备Linux上部署SparkOnYarn安装前提部署关键步骤配置hadoop变量部署Spark-SQLWindows环境下编译
Spark2
环境准备
顧棟
·
2023-07-20 01:37
#
Spark实战
Spark
spark
windows
linux
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他