E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark2
利用idea对spark程序进行远程提交和调试
idea对spark程序进行远程提交和调试本文以WordCount程序来实现idea对spark程序进行远程提交和调试环境-利用虚拟机搭建拥有3台主机的spark集群spark1:192.168.6.137
spark2
yiluohan0307
·
2020-07-12 18:43
spark从入门到放弃
Spark 介绍
如果无特殊说明,均针对
Spark2
.2。
此星爷非彼星爷
·
2020-07-12 15:07
centos通过脚本文件ssh其他机器无法jps,提示命令找不到
/usr/bin/bashecho"showjps"foriin{"spark1","
spark2
","spark3"};doecho"#####
秋裤侠呀
·
2020-07-12 13:42
Springboot2.X 集成
spark2
.X 实现WordCount
1.创建springboot项目引入spark依赖项目结构项目pom文件项目使用
spark2
.4.5依赖中自带scala无需安装com.lionlispringboot-spark-demo1.0-SNAPSHOTorg.springframework.bootspring-boot-starter-parent2.1.13
Lion Li
·
2020-07-12 11:12
springboot经验总结
spark
RDD、DataFrame和Dataset 怎么选择才好?
在本文中,我将深入讲讲Apache
Spark2
.2以及以上版本提供的三种API——RDD、DataFrame和Dataset,
稚枭天卓
·
2020-07-12 03:43
spark
rdd
dataframe
dataset
Spark join 和 groupBy 的比较
最近在使用
spark2
的过程中,发现在join的过程中要产生shuffle。而每一次的shuffle都会带来大量的cpu计算。在后来,发现有一个需求:表A需要同时join另外3张表,表B,表C,表D。
天明cc
·
2020-07-12 02:05
Spark2
.0.1伪分布式安装配置
前言.Spark简介和hadoop的区别Spark是一种与Hadoop相似的开源集群计算环境,但是两者之间还存在一些不同之处,Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。1.架构不同。Hadoop是对大数据集进行分布式计算的标准工具。提供了包括工具和技巧在内的丰富的生态系统,允许使用相对便宜的商业硬件集群进行超级计算机级别的计算。Spark使用函数式编程范式
哥们你裤衩掉了
·
2020-07-12 01:26
spark
Spark第二代Tungsten引擎测试数据和引擎实现内幕
Spark2
.X中的第二代Tungsten性能之所以能够提升10倍左右的原因:1、去掉了虚函数的调用,极大的减少了CPU指令的无用的消耗!2、数据直接放在寄存器中,至少提升了一个数量级的数据读写熟读!
ALTHE
·
2020-07-11 22:55
搭建
Spark2
.0源码研读和代码调试的开发环境
搭建Spark源码研读和代码调试的开发环境TableofContents源码获取与编译从Github上获取Spark源码编译Spark项目源码导入与代码运行导入源码到IntellijIDEA16运行实例代码1.配置运行参数2.添加缺失的flumesink源代码3.添加运行依赖的jars4.成功运行实例代码单步调试源代码工欲善其事,必先利其器,第一篇笔记介绍如何搭建源码研读和代码调试的开发环境。一些
sbq63683210
·
2020-07-11 22:47
Spark
spark-4-文件读写
root,access=WRITE,inode="/user/chaojunwang":chaojunwang:supergroup:drwxr-xr-x【解决方法】1.不要sudo启动hadoop或py
spark2
王朝君BITer
·
2020-07-11 19:00
Apache Spark 统一内存管理模型详解
本文将对Spark的内存管理模型进行分析,下面的分析全部是基于Apache
Spark2
.2.1进行的。为了让下面的文章看起来不枯燥,我不打算贴出代码层面的东西。
小东升职记
·
2020-07-11 18:25
Spark
spark
Apache Spark 内存管理详解
本文中阐述的原理基于
Spark2
.1版本,阅读本文需要读者有一定的Spark和Java基础,了解RDD、Shuffle、JVM等相关概念。在执行
小东升职记
·
2020-07-11 18:55
Spark
Spark2
.0机器学习系列之12: 线性回归及L1、L2正则化区别与稀疏解
我的博客中参考了大量的文章或者别的作者的博客,有时候疏忽了并未一一标注,本着分享交流知识的目的,如果侵犯您的权利,这并非我的本意,如果您提出来,我会及时改正。概述线性回归拟合一个因变量与一个自变量之间的线性关系y=f(x)。Spark中实现了:(1)普通最小二乘法(2)岭回归(L2正规化)(3)Lasso(L1正规化)。(4)局部加权线性回归(5)流式数据可以适用于线上的回归模型,每当有新数据达到
千寻千梦
·
2020-07-11 17:26
spark
ml
如何用IntelliJ IDE build & run Spark
3.下载spark源代码,本博客使用
spark2
.3.04.安装scala,切记安装spark源码pom.xm
penngrove
·
2020-07-11 14:07
编程技巧
Spark
IntelliJ
idea sbt Spark环境搭建
最近在参考厦门大学数据库实验室的博客http://dblab.xmu.edu.cn/blog/1492-2/进行sparksbtidea开发环境搭建,博客中使用的
spark2
.1.0版本,而个人使用了目前最新的
小林子405
·
2020-07-11 12:31
免费分享一套搭建好直接可用的基于Hadoop的大数据环境(集成了Hadoop、Hive、Zookeeper、Kafka、Flume、Hbase、Spark等)
系统CentOS7.6,包含三个节点,集成了如下大数据组件:Hadoop2.7.7,Hive2.3.4,Zookeeper3.4.10,Kafka2.1.0,Flume1.8.0,Hbase2.1.1,
Spark2
.4.0
原来浙小商啊
·
2020-07-11 06:15
Hadoop 3.1.2(HA)+Zookeeper3.4.13+Hbase1.4.9(HA)+Hive2.3.4+
Spark2
.4.0(HA)高可用集群搭建
目录目录1、前言1.1、什么是Hadoop?1.1.1、什么是YARN?1.2、什么是Zookeeper?1.3、什么是Hbase?1.4、什么是Hive1.5、什么是Spark?2、环境准备2.1、网络配置2.2、更改HOSTNAME2.3、配置SSH免密码登录登录2.4、关闭防火墙2.7、安装NTP3.下载应用程序及配置环境变量3.1、创建安装目录3.2、下载本文中用到的程序3.3、设置环境变
dianbutang4605
·
2020-07-11 05:10
SparkSql 2.2.x 中 Broadcast Join的陷阱(hint不生效)
问题描述在
spark2
.2.0的sparksql中使用hint指定广播表,却无法进行指定广播;前期准备hive>select*fromtest.tmp_demo_small;OKtmp_demo_small.pas_phonetmp_demo_small.age156201572215815hive
哈士奇说喵
·
2020-07-10 22:08
SQL
Spark
Spark DataSource API V2
Spark2
.3中,新一版的数据源API初见雏形,它克服了上一版API的种种问题,原来的数据源代码也在逐步重写。本文将演示这两版API的使用方法,比较它们的不同
薄荷脑
·
2020-07-10 15:21
大数据
Spark 2.0.2 学习笔记
本篇博文译自
Spark2
.0.2官方文档,以供自己学习及大家参考,如转载请注明。
yykxt
·
2020-07-10 14:40
大数据
Spark3.0分布,Structured Streaming UI登场
Spark3.0主要的新特性如下:相比于
Spark2
.4,性能提升了2倍,主要体现在自适应查询执行,动态分区修剪等方面。Pandas
xiangwang2206
·
2020-07-10 12:43
Spark Release 2.3.0 版本发布新特性和优化
Apache
Spark2
.3.0是2.x系列中的第四个版本。此版本增加了对结构化流中的连续处理以及全新的KubernetesScheduler后端的支持。
wuzhilon88
·
2020-07-10 12:54
spark
1.6.0
core
源码分析
(五)使用Ansible搭建分布式大数据基础环境-ZooKeeper集群模式搭建
“使用Ansible搭建分布式大数据基础环境”系列文章完整包含了如何使用Ansible这一分布式运维利器,来帮我们快速搭建Hadoop2/
Spark2
/Hive2/ZooKeeper3/Flink1.7
workwithwebis3w
·
2020-07-10 12:49
(二)使用Ansible搭建分布式大数据基础环境-Ansible项目创建
“使用Ansible搭建分布式大数据基础环境”系列文章完整包含了如何使用Ansible这一分布式运维利器,来帮我们快速搭建Hadoop2/
Spark2
/Hive2/ZooKeeper3/Flink1.7
workwithwebis3w
·
2020-07-10 12:49
(六)使用Ansible搭建分布式大数据基础环境-Hadoop高可用集群搭建
“使用Ansible搭建分布式大数据基础环境”系列文章完整包含了如何使用Ansible这一分布式运维利器,来帮我们快速搭建Hadoop2/
Spark2
/Hive2/ZooKeeper3/Flink1.7
workwithwebis3w
·
2020-07-10 12:49
SparkSQL DatasourceV2 之 Multiple Catalog
导言SparkSQLDatasourceV2作为
Spark2
.3引入的特性,在Spark3.0preview(2019/12/23)版本中又有了新的改进以更好的支持各类数据源。
weixin_45906054
·
2020-07-10 11:47
Spark基础环境搭建——local本地模式
Spark环境搭建提前声明:1.我们选择目前企业中使用最多的稳定版
Spark2
.2.02.为了方便浏览和更改配置信息,我们把主机名更换为node01,node02.....local本地模式安装我们需要下载
Alice菌
·
2020-07-10 11:27
#
Spark
Scala与Spark的安装配置
对于ScalaAPI,
Spark2
.4.2使用Scala2.12。您需要使用兼容的Scala版本(2.12.x)。
猎剑
·
2020-07-10 10:04
Spark学习之路 (二)
Spark2
.3 HA集群的分布式安装
一、下载Spark安装包1、从官网下载http://spark.apache.org/downloads.html2、从微软的镜像站下载http://mirrors.hust.edu.cn/apache/3、从清华的镜像站下载https://mirrors.tuna.tsinghua.edu.cn/apache/二、安装基础1、Java8安装成功2、zookeeper安装成功3、hadoop2.7
weixin_33811961
·
2020-07-10 07:51
spark2
.3.2基于hadoop2.9编译心得
用maven工具编译的,编译时带了ganglia参数支持,整个编译加打包过程花了三个小时左右,当编译完后在jars的目录下就有gangliasink.class,但当配置spark的metrics.properties时,启动spark总找不到gangliasink类,找原因找了几天,最后发现是配置文件修改时单行有空格,如“*.sink.ganglia.class=org.apache.spark
weixin_30823833
·
2020-07-10 07:15
Hadoop2.7.3+
Spark2
.1.0 完全分布式环境 搭建全过程
一、修改hosts文件在主节点,就是第一台主机的命令行下;vim/etc/hosts我的是三台云主机:在原文件的基础上加上;ip1masterworker0namenodeip2worker1datanode1ip3worker2datanode2其中的ipN代表一个可用的集群IP,ip1为master的主节点,ip2和iip3为从节点。二、ssh互信(免密码登录)注意我这里配置的是root用户,
weixin_30460489
·
2020-07-10 06:18
Spark 2.4.0 编程指南--快速入门
Spark2
.4.0编程指南–快速入门更多资源github:https://github.com/opensourceteams/spark-scala-maven-2.4.0视频
Spark2
.4.0编程指南
thinktothings
·
2020-07-10 03:42
Spark
2.4.0
记一次 spark rdd 写数据到 hbase 报 NPE 的问题排查
文章目录前言问题排查前言最近我们的EMR集群要从
spark2
.3.2升级到
spark2
.4.3来解决spark小文件多的问题。
甄情
·
2020-07-10 02:43
异常修复
SparkSQL基于DataSourceV2自定义数据源
SparkSQL基于DataSourceV2自定义数据源版本说明:
Spark2
.3前言:之前在SparkSQL数据源操作文章中整理了一些SparkSQL内置数据源的使用,总的来说SparkSQL支持的数据源还是挺丰富的
shirukai
·
2020-07-10 02:47
Spark
编译
spark2
.4.3出现 Failed to execute goal org.codehaus.mojo:exec-maven-plugin
spark2
.4编译1、下载
spark2
.4.3源码2、安装maven3、解压
spark2
.4.3执行exportMAVEN_OPTS="-Xmx2g-XX:MaxPermSize=512M-XX:ReservedCodeCacheSize
如初⁰
·
2020-07-10 00:44
bug
spark
Spark课后实验报告
对于ScalaAPI,
Spark2
.4.2使用Scala2.12。您需要使用兼容的Scala版本(2.12.
JackZhao666
·
2020-07-09 23:34
java8下spark-streaming结合kafka编程(spark 2.3 kafka 0.10)
1.相关组件版本首先确认版本,因为跟之前的版本有些不一样,所以才有必要记录下,另外仍然没有使用scala,使用java8,
spark2
.0.0,kafka0.10。
CODE男孩
·
2020-07-09 22:56
streaming
spark3.0-新特性
ApacheSpark3.0建立在
Spark2
.x的许多创新基础之上,带来了新的想法并持续了很长时间。正在开发的长期项目。
小蜗牛也有梦想
·
2020-07-09 21:06
spark
spark
spark3.0
大数据
新特性
spark streaming 监控方案
SparkStreaming监控从
spark2
.2.0版本开始支持,目前不支持2.1.0调研背景介绍业务反应sparkstreaming任务数据处理存在堆积情况,但是仍然会不断从kafka拉取数据,针对这种情况调研
灰二和杉菜
·
2020-07-09 21:45
Apache
Spark
小白的虚拟机
Spark2
.4.5入门:Local(单机)模式下Spark的安装另附VScode安装
在安装了Java环境和Hadoop之后,我们可以进行Spark的安装。由于笔者使用的是Ubuntu16.04,已经自带了Python3.5版本,所以不用再重新安装。如果你的系统中没有,可以安装Python3.4以上的版本。安装Spark在虚拟机中打开http://spark.apache.org/downloads.html,由于我们已经安装了Hadoop,所以,“Chooseapackagety
是粽子呀
·
2020-07-09 21:51
大数据课程安装笔记
Spark2
.x 快速入门教程 5
Spark处理多种数据源一、实验介绍1.1实验内容SparkSQL通过DataFrame接口可以支持Parquet、JSON、Hive等数据源,将DataFrame注册为临时视图,可以允许你在数据上运行SQL查询语句,并且可以通过JDBC连接外部数据源。前面的介绍中,我们已经涉及到了Hive,这里不再赘述。本节讲解Parquet,JSON,及JDBC数据库连接等。1.2实验知识点Parquet数据
oxuzhenyi
·
2020-07-09 21:57
实验楼课程
spark2
.3+hadoop2.8.2+java1.8+scala2.11.12完全分布式搭建过程
软硬件环境lunix机器三台及以上,window机器一台安装xshell来控制所有lunix机器机器之间在同一个局域网,通过xshell可以互相ping通可创建新用户并赋给管理员权限并在用户下搭建环境直接在root用户下搭建环境所有配置均在一台机器改配置文件,然后发送给其他机器节点集群之间必须做免密通信cd/etc/profile最终配置文件exportJAVA_HOME=/usr/lib/jvm
hu-Johnson
·
2020-07-09 20:12
云计算
大数据
spark伪分布standalone搭建
一.环境准备jdk1.8.0hadoop2.7.3伪分布式部署scala2.11.8支持
spark2
.0.1及以上版本
spark2
.1.1二.Spark安装模式(本文伪分布式)spark有以下几种安装模式
盛装吾步
·
2020-07-09 18:51
spark
Spark权威指南(中文版)----第22章 事件时间和有状态处理
本书详细介绍了
Spark2
.x版本的各个模块,目前市面上最好的
Spark2
.x学习书籍!!!扫码关注公众号:登峰大数据,阅读中文Spark权威指南(完整版),系统学习Spark大数据框架!
大数据辅导员
·
2020-07-09 15:31
bigdata
Spark权威指南(中文版)----第26章 分类
本书详细介绍了
Spark2
.x版本的各个模块,目前市面上最好的
Spark2
.x学习书籍!!!扫码关注公众号:登峰大数据,阅读中文Spark权威指南(完整版),系统学习Spark大数据框架!
大数据辅导员
·
2020-07-09 15:31
bigdata
人工智能
Flink
Spark权威指南(中文版)----第21章 Structured Streaming基础
本书详细介绍了
Spark2
.x版本的各个模块,目前市面上最好的
Spark2
.x学习书籍!!!扫码关注公众号:登峰大数据,阅读中文Spark权威指南(完整版),系统学习Spark大数据框架!
大数据辅导员
·
2020-07-09 15:31
bigdata
Spark权威指南(中文版)----第25章 预处理和特征工程
本书详细介绍了
Spark2
.x版本的各个模块,目前市面上最好的
Spark2
.x学习书籍!!!扫码关注公众号:登峰大数据,阅读中文Spark权威指南(完整版),系统学习Spark大数据框架!
大数据辅导员
·
2020-07-09 15:31
人工智能
bigdata
机器学习
Spark权威指南(中文版)----第23章 生产环境中的结构化流
本书详细介绍了
Spark2
.x版本的各个模块,目前市面上最好的
Spark2
.x学习书籍!!!扫码关注公众号:登峰大数据,阅读中文Spark权威指南(完整版),系统学习Spark大数据框架!
大数据辅导员
·
2020-07-09 15:31
bigdata
Spark 3.0发布啦,改进SQL,弃Python 2,更好的兼容ANSI SQL,性能大幅提升
ApacheSpark3.0.0正式发布啦,ApacheSpark3.0是在
Spark2
.x的基础上开发的,带来了新的想法和功能。
老夫科技说
·
2020-07-09 14:57
计算机基础
Mac部署
spark2
.4.4
环境信息操作系统:macOSMojave10.14.6JDK:1.8.0_211(安装位置:/Library/Java/JavaVirtualMachines/jdk1.8.0_211.jdk/Contents/Home)前提条件请参考《Mac部署hadoop3(伪分布式)》一文,在Mac上事先部署好hadoop3部署步骤安装scala:brewinstallscala配置scala的环境变量,打
程序员欣宸
·
2020-07-09 13:53
Spark实战
上一页
16
17
18
19
20
21
22
23
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他