E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark2.0
(转)Spark Streaming遇到问题分析
parkStreaming遇到问题分析1、
Spark2.0
之后搞了个StructuredStreaming还没仔细了解,可参考:https://github.com/lw-lin/Coo...2、Spark
达微
·
2024-01-22 20:06
Spark OFF_HEAP
Spark2.0
以前,默认的off_heap是Tachyon,当然,你可以通过继承ExternalB
尼小摩
·
2024-01-05 13:18
Spark内容分享(十八):70个Spark面试题
常见的大的稳定版本有Spark1.3,Spark1.6,
Spark2.0
,Spark1.6.0的数字含义第一个数字:1majorversion:代表大版本更新,一般都会有一些api的变化,以及大的优化或是一些结构的改变
之乎者也·
·
2024-01-02 10:50
Spark
内容分享
大数据(Hadoop)内容分享
Spark
大数据
(六)SparkSQL读写本地外部数据源
https://spark-packages.org/里有很多third-party数据源的package,spark把包加载进来就可以使用了csv格式在
spark2.0
版本之后是内置的,2.0之前属于第三方数据源一
白面葫芦娃92
·
2024-01-01 11:58
SparkSession介绍
一、介绍SparkSession是
Spark2.0
中引入的新概念,它是SparkSQL、DataFrame和DatasetAPI的入口点,是Spark编程的统一API,也可看作是读取数据的统一入口;它将以前的
阿君聊风控
·
2023-11-23 08:24
hive/sparksql
spark
hadoop
spark性能调优(二):内存
一、spark内存简介
spark2.0
后,基本上spark内存的管理就已经自动化了,内存出现问题基本上是一些数据问题。
我爱夜来香A
·
2023-11-17 10:05
Spark
spark
jvm
大数据
大数据之spark_spark简介
2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache的顶级项目,2014年5月发布spark1.0,2016年7月发布
spark2.0
普罗米修斯之火
·
2023-11-05 23:42
spark
spark
als算法参数_
Spark2.0
协同过滤与ALS算法介绍
ALS矩阵分解一个的打分矩阵A可以用两个小矩阵和的乘积来近似,描述一个人的喜好经常是在一个抽象的低维空间上进行的,并不需要把其喜欢的事物一一列出。再抽象一些,把人们的喜好和电影的特征都投到这个低维空间,一个人的喜好映射到了一个低维向量,一个电影的特征变成了纬度相同的向量,那么这个人和这个电影的相似度就可以表述成这两个向量之间的内积。我们把打分理解成相似度,那么“打分矩阵A(m*n)”就可以由“用户
鲁舒天
·
2023-10-29 19:36
als算法参数
spark 通信原理源码分析
spark2.0
以后采用Netty通信框架通信分为两端,driver端和executor端。
二十赶朝暮__
·
2023-10-26 21:12
SparkContext 与 SparkContext 之间的区别是什么
而SparkSession是
Spark2.0
新增的API,它是对SparkContext、SQLContext和HiveContext的封装,提供了统一的编程接口和数据访问方式。因此,Sp
Solitary_孤影照惊鸿
·
2023-10-15 09:56
Apache
Spark
SparkContext
【Spark分布式内存计算框架——Spark Streaming】1. Streaming 概述(上)Streaming 应用场景、Lambda 架构
前言在很多实时数据处理的场景中,都需要用到流式处理(StreamProcess)框架,Spark也包含了两个完整的流式处理框架SparkStreaming和StructuredStreaming(
Spark2.0
csdnGuoYuying
·
2023-10-09 21:33
分布式
spark
架构
sql
大数据
03-Spark MLib
以逻辑斯蒂回归为例查找出所有包含“spark”的句子,即将包含spark的句子的标签设为1,没有spark的句子标签设备0下面是完整代码,之后分步骤对代码进行解析1.需要使用SparkSession对象
Spark2.0
yu1069153913
·
2023-10-09 15:04
分布式Spark笔记
spark
Spark 【Spark SQL(一)DataFrame的创建、保存与基本操作】
Spark2.0
出现的SparkSession接口替代了Spark1.6版本中的SQLContext和HiveCont
让线程再跑一会
·
2023-09-10 23:52
Spark
spark
大数据
分布式
Spark【Spark SQL(三)DataSet】
在
Spark2.0
中,DataFrame和DataSet被合并为DataSet。DataSet包含
让线程再跑一会
·
2023-09-10 23:20
Spark
spark
大数据
分布式
hibench 对CDH5.13.1进行基准测试(测试项目hadoop\spark\)HDFS作HA高可靠性
因为是全量安装,其中有SPARK的测试(
SPARK2.0
)。安装位置在SPARK服务所在的节点上面。
weixin_30262255
·
2023-08-23 00:44
大数据
java
使用SparkSQL操作Elasticsearch - Spark入门教程
从5.0版本开始,elasticsearch-hadoop就支持
Spark2.0
。
DreamsonMa
·
2023-08-17 10:56
Spark Structured Streaming 项目实战
google搜索一下就能找到SparkStreaming项目实战简单架构图原项目中用的是Sparkstreaming,目前spark官网推荐实用SparkStructuredStreaming,也就是对应
spark2.0
maozicb
·
2023-08-16 06:25
Spark 1--3章简介,架构体系, 环境搭建
2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache的顶级项目,2014年5月发布spark1.0,2016年7月发布
spark2.0
All996
·
2023-06-20 10:15
spark
hadoop
大数据
spark 运行原理
sparkcontext:一个线程只有一个spark的job都是jvm的进程在
spark2.0
之前,SparkContext是所有spark任务的入口,无论spark集群有多少个节点做并行处理,每个程序只可以有唯一的
JackLi_csdn
·
2023-06-09 10:18
spark
spark
spark学习(二)从hello world开始
在github中,spark有完整的wordcount源码,代码清晰整洁,是用RDD完成编码的,但上一节提到过
spark2.0
之后推荐使用Dataset进行编码,所以本节笔者试着使用Dataset进行wordcount
mumu_cola
·
2023-04-17 16:15
Spark+Hadoop环境搭建
一、工具下载:1、spark下载目前最新的是2.1.1,
spark2.0
开始api和之前的还是有比较多的变化,因此如果选择2.0以上版本,最好看一下api变化,下载地址:http://spark.apache.org
m0_67392811
·
2023-04-11 03:28
java
hadoop
spark
大数据
java
开发语言
spark 内存管理机制与相关参数调优
spark内存管理文章目录spark内存管理spark1.6内存管理机制
spark2.0
内存管理机制spark3.3.1官方文档spark内存相关参数调优spark1.6内存管理机制https://0x0fff.com
nefu-ljw
·
2023-03-29 15:39
从零开始学大数据
spark
大数据
调优
内存管理
Spark介绍
Spark是2009年诞生,2014年成为Apache项目,2016年发布了
Spark2.0
,2019年10月Spark3.0预览版,2020年6月18日Spark3.0正式版发布Spark是一个大数据领域的统一分析引擎
ssttIsme
·
2023-03-18 04:20
spark 2.1 sort-based shuffle
所以在
spark2.0
之后remove了HashShuffle,开始只使用on-heap或off-heap的sort-based
Gilegamesh
·
2023-02-05 14:31
Spark2.0
机器学习系列之4:随机森林介绍、关键参数分析
概述随机森林是决策树的组合算法,基础是决策树,关于决策树和
Spark2.0
中的代码设计可以参考本人另外一篇博客:http://blog.csdn.net/qq_34531825/article/details
千寻千梦
·
2023-02-02 09:58
spark
spark
python spark dataframe_Spark2.1.0入门:DataFrame的创建(Python版)
从
Spark2.0
以上版本开始,Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载、转换、处理等功能。
weixin_39719101
·
2023-01-10 09:37
python
spark
dataframe
python大数据hadoop_Python+Spark 2.0+Hadoop 机器学习与大数据实战pdf,9787302490739下载
2.PythonSpark2.0安装通过实机操作,学会安装
Spark2.0
,并在本机与多台机器集群执行PythonSpark应用程序。同时介绍如何在iPythonNotebook
weixin_39862382
·
2023-01-07 14:42
python大数据hadoop
Spark2.0
机器学习系列之10: 聚类(高斯混合模型 GMM)
在
Spark2.0
版本中(不是基于RDDAPI的MLlib),共有四种聚类方法:(1)K-means(2)LatentDirichletallocation(LDA)(3)Bisectingk-means
千寻千梦
·
2022-12-26 14:46
spark
ml
spark
机器学习
Apache Spark 2.x Machine Learning Cookbook(1)
第1章:使用Scala使用Spark进行实用的机器学习第2章:足够的线性代数用于Spark机器学习第3章:Spark的三个机器学习数据火枪手-一起完美第4章:实施强大的机器学习系统的常用食谱第5章:
Spark2.0
半_调_子
·
2022-12-26 14:46
人工知能
spark
深度学习
聚类(幂迭代聚类, power iteration clustering, PIC)
【转载】原文链接https://blog.csdn.net/qq_34531825/article/details/52675182在
Spark2.0
版本中(不是基于RDDAPI的MLlib),共有四种聚类方法
斯汤雷
·
2022-12-26 14:45
深度学习
聚类
机器学习
人工智能
Spark2.0
机器学习系列之8: 聚类(k-means,Bisecting k-means,Streaming k-means)
在
Spark2.0
版本中(不是基于RDDAPI的MLlib),共有四种聚类方法:(1)K-means(2)LatentDirichletallocation(LDA)(3)Bisectingk-means
千寻千梦
·
2022-12-26 14:45
Spark2.0
机器学习系列之11: 聚类(幂迭代聚类, power iteration clustering, PIC)
在
Spark2.0
版本中(不是基于RDDAPI的MLlib),共有四种聚类方法:(1)K-means(2)LatentDirichletallocation(LDA)(3)Bisectingk-means
张博208
·
2022-12-26 14:15
Algorithm
Spark
Scala
python spark2.0_spark2.0机器学习-python spark初探
本学习笔记都是基于python3.6而来(没办法,虽说spark是用Scala语言写的,但是本人只会使用python),学习资料主要来自
spark2.0
官方文档(暂时没有提供python接口的翻译)和《
weixin_39924329
·
2022-12-23 22:21
python
spark2.0
spark中dataframe解析_spark结构化数据处理:Spark SQL、DataFrame和Dataset
本文主要讲解Spark1.6.x的结构化数据处理相关东东,但因Spark发展迅速(本文的写作时值Spark1.6.2发布之际,并且
Spark2.0
的预览版本也已发布许久),因此请随时关注SparkSQL
weixin_39747615
·
2022-12-18 19:15
Spark中的DataFrame和DataSet
在
spark2.0
之后,DataFrame和DataSet的API统一了,DataFrame是DataSet的子集,DataSet是DataFrame的扩展。(typeData
大大大大肉包
·
2022-12-18 19:12
spark学习
spark
big
data
大数据
pyspark使用方法
来源,官网spark2.2.1版本pyspark不同函数的形象化解释SparkSession是
Spark2.0
引入的新概念。
心影_
·
2022-12-15 11:04
大数据
人工智能
spark
pyspark
Spark优化篇:RBO/CBO
为了产生比较好的查询规则,优化器需要理解数据的特性,于是在
Spark2.0
中引入了基于代价的优化器(cost-basedoptimizer),也就是所谓的CBO。
YaPengLi.
·
2022-12-15 11:31
Apache
Spark
spark
基于
spark2.0
文本分词+多分类模型
文本分类sparkspark2.0开始引入dataframe作为RDD的上层封装,以屏蔽RDD层次的复杂操作,本文使用sparkmilib中ml机器学习库进行新闻文本多分类预测,包含数据预预处理,分词,标签和特征向量化转换、多分类模型训练(包含朴素贝叶斯、逻辑回归、决策树和随机森林),分类预测和模型评估等完整的机器学习demo。本文分词方法选用HanLP分词工具包(文档丰富、算法公开、代码开源,并
weixin_34202952
·
2022-12-12 09:39
大数据
人工智能
开发工具
elasticsearch-spark用法
从5.0版本开始,elasticsearch-hadoop就支持
Spark2.0
。
wwwwwzh
·
2022-05-22 21:43
elasticsearch-spark的用法
从5.0版本开始,elasticsearch-hadoop就支持
Spark2.0
。目前spark支持的数据源有:(1)文件系统:LocalF
ZepheryWen
·
2022-05-22 21:00
Spark2.0
机器学习系列之12: 线性回归及L1、L2正则化区别与稀疏解
概述线性回归拟合一个因变量与一个自变量之间的线性关系y=f(x)。Spark中实现了:(1)普通最小二乘法(2)岭回归(L2正规化)(3)Lasso(L1正规化)。(4)局部加权线性回归(5)流式数据可以适用于线上的回归模型,每当有新数据达到时,更新模型的参数,MLlib目前使用普通的最小二乘支持流线性回归。除了每批数据到达时,模型更新最新的数据外,实际上与线下的执行是类似的。本文采用的符号:拟合
weixin_30709809
·
2022-03-23 08:26
大数据
数据结构与算法
人工智能
pycharm 远程连接运行pyspark
pycharm新建项目,添加如下远程sshinterpreter解释器,输入连接要连接的host和username将linux中spark下的pyspark复制到python中由于是
spark2.0
因此只支持
晚点吧
·
2022-03-18 05:24
推荐系统
pyspark
prcharm
远程连接
spark
Spark-StructuredStreaming 下的checkpointLocation分析以及对接 Grafana 监控和提交Kafka Lag 监控
一、Spark-StructuredStreamingcheckpointLocation介绍StructuredStreaming在
Spark2.0
版本于2016年引入,是基于SparkSQL引擎构建的可扩展且容错的流处理引擎
张永清
·
2021-11-22 14:00
Spark 2.0 Structured Streaming 分析
前言
Spark2.0
将流式计算也统一到DataFrame里去了,提出了StructuredStreaming的概念,将数据源映射为一张无线长度的表,同时将流式计算的结果映射为另外一张表,完全以结构化的方式去操作流式数据
祝威廉
·
2021-06-08 14:05
Spark2.0
与HDP2.4集成
很多感兴趣的朋友想要在HDP2.4的环境上尝鲜
Spark2.0
,笔者自己也尝试着在HDP2.4的环境下运行了spark2.0onYARN模式。将一些配置整理如下,感兴趣的朋友可以作为参考。
biggeng
·
2021-05-10 23:18
phoenix for cloudera
软件版本:spark2.0.2cdh5.9phoenix4.9(phoenix-spark模块使用4.11)下载CDH版本的phoenix,最新版本目前只有phoenix4.9,不过在4.10开始才可以使用
spark2.0
breeze_lsw
·
2021-05-06 21:06
2021年大数据Spark(三十四):Spark Streaming概述
SparkStreaming在很多实时数据处理的场景中,都需要用到流式处理(StreamProcess)框架,Spark也包含了两个完整的流式处理框架SparkStreaming和StructuredStreaming(
Spark2.0
Lansonli
·
2021-04-21 19:39
大数据
Spark
Streaming
hive load data外部表报错_生产SparkSQL如何读写本地外部数据源及排错
https://spark-packages.org/里有很多third-party数据源的package,spark把包加载进来就可以使用了csv格式在
spark2.0
版本之后是内置的,2.0之前属于第三方数据源一
weixin_39638048
·
2020-11-29 16:31
hive
load
data外部表报错
Structured Streaming
第1章StructuredStreaming概述从
spark2.0
开始,spark引入了一套新的流式计算模型:StructuredStreaming.该组件进一步降低了处理数据的延迟时间,它实现了“有且仅有一次
wm_43827516
·
2020-11-15 21:48
spark
Spark读取文本文档创建DataFrame, 通过RDD转换成DataFrame, 通过SparkSession构建DataFrame 20
前言在
Spark2.0
版本之前,SparkSQL中SQLContext是创建DataFrame和执行SQL的入口,可以利用hiveContext通过hivesql语句操作hive表数据,兼容hive操作
啊策策
·
2020-09-17 07:23
Spark社区
上一页
1
2
3
4
5
6
7
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他