E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark2
从0-1搭建Spark本地开发环境(idea)
1文档编写目的记录spark本地开发环境的搭建过程环境依赖操作系统macosideascala2.11.12
spark2
.4.0-根据集群版本选择jdk2Scala-2.11.12安装下载连接https
Eights-Li
·
2020-09-11 07:33
Spark 学习笔记(一)使用Intellij Idea编写Spark应用程序(Scala+SBT)
运行环境阿里云主机Linux部署
Spark2
.3.1本地JDK1.8IntellijIdea(Version2018)安装Scala插件安装Scala插件,该Scala插件自带SBT工具。
安之_a
·
2020-09-11 06:06
Spark
学习笔记
spark2
原理分析—shuffle框架的实现概要分析
概述本文分析
spark2
的shuffle过程的实现的一个概要。shuffle过程介绍shuffle总体流程
spark2
的shuffle过程可以分为shufflewrite和shuffleread。
一 铭
·
2020-09-11 06:31
spark
大数据处理
深入浅出Spark原理
spark2
学习(3) 之Spark SQL
SparkSQL是用于结构化数据处理的Spark模块。与基本的SparkRDDAPI不同,SparkSQL提供的接口为Spark提供了有关数据结构和正在执行的计算的更多信息。在内部,SparkSQL使额外的优化。有几种与SparkSQL交互的方法,包括SQL和DatasetAPI。创建sparksessionimportorg.apache.spark.sql.SparkSessionvalspa
willwill1101
·
2020-09-11 05:58
spark
Spark 2.4新特性概述
导读:Spark官方于今年11月份新发布了
Spark2
.4。那么新版本的Spark都有哪些值得了解的新特性?应对大数据领域的诸多方案,Spark目前是什么样的状况?未来会有怎样的规划?
高可用架构
·
2020-09-11 05:59
Spark Streaming使用push模式接收Flume传送的数据并进行WordCount统计
组件环境:
Spark2
.4.4Flume1.6.0Scala2.11.8JDK1.8.0_121IDEA2017.2r
ylqdh
·
2020-09-11 05:11
BigData
BigData
SparkSQL_
Spark2
+ 的SparkSQL 性能调优
参考文章:1.
Spark2
+的sql性能调优https://www.cnblogs.com/yyy-blog/p/10260988.html更多参考官方文档!!!
高达一号
·
2020-09-11 04:14
Spark
Spark_Streaming 对接Kafka的好多坑
不过现在还没提交到集群运行)Kafka0.8.2.10.8.Spark_Streaming://创建Receiver流的一个要点//“zookeeper.connect”->“spark1:2181,
spark2
Garb_v2
·
2020-09-11 03:56
spark
CDH 5.12 spark升级从1.6到2.2
CDH5.12对应spark版本下载Spark升级包CSD文件下载
SPARK2
_ON_YARN-2.1.0.cloudera1.jarparcels包下载因为我的Linux版本是centos7,因此下载下面的两个包
克念
·
2020-09-11 03:33
linux
shell
数据仓库
ETL
环境搭建
我的大数据之路 --pyspark连接mysql数据库
pyspark连接mysql数据库说明一点,
spark2
.0(包括
spark2
.0)以下的版本不支持python3.6以上的版本(包括python3.6)。(亲测到怀疑人生)三台机都要。
小牛头#
·
2020-09-11 03:32
大数据
【备忘】年薪50万2018年最新
Spark2
.0从入门到精通教程
Spark从入门到精通(Scala编程,案例实战,高级特性,Spark内核源码剖析,Hadoop高端)用到技术:Scala,Spark,SparkSQL,SparkStreaming涉及项目:每日uv和销售额统计,各品类top3热卖商品统计,每日top3热点搜索词统计,广告计费实时过滤,热点搜索词滑动统计,各品类TOP3商品热卖滑动实时统计一,Scala的编程详解:第1讲-Spark前世的今生第2
风一样的男人_
·
2020-09-11 02:30
spark
spark和flink读取csv文件对比
(注:本文内容针对
spark2
.3.0以及flink1.9.1)spark:本来想自己总结一下,但是这里有位大佬写的很详细,可以直接参考:https://blog.csdn.net/weixin_42411818
bradyM
·
2020-09-11 00:55
flink
sparkSql
spark TopN问题:dataframe和RDD比较
spark版本:
spark2
.0.2scala版本:2.11.8服务器版本:CentOS6.7sparkTopN问题,其实就是分组、排序、组内取值问题。
aomao4913
·
2020-09-11 00:44
map与flatMap的区别
spark版本:
spark2
.0.2scala版本:2.11.8服务器版本:CentOS6.7对比map和flatMap在RDD中的使用:valrdd1=sc.parallelize(Seq(("onetwothreefourfivesixseven
aomao4913
·
2020-09-11 00:14
Spark SQL性能调优(
Spark2
.3.2)
对于某些工作负载,可以通过在内存中缓存数据或打开一些实验选项来提高性能。1.在内存中缓存数据SparkSQL可以通过调用spark.catalog.cacheTable("tableName")或dataFrame.cache()使用内存中的列式格式来缓存表。然后,SparkSQL将仅扫描所需的列,并自动调整压缩以最小化内存使用和GC压力。您可以调用spark.catalog.uncacheTab
西贝木土
·
2020-09-10 22:16
Spark
SQL
Spark
spark导入在idea中运行
1、saprk官网(http://spark.apache.org/downloads.html)下载
spark2
.3.2,并解压在D:\project\idea_spark\spark-2.3.2目录
weixin_34254823
·
2020-09-10 19:06
大数据
开发工具
java
用intellij idea写spark代码
接着下载
spark2
.0源代码以及
spark2
.0预编译版本。再下载并安装scala程序。当然如果你没有安装javasdk的话,那你需要安装javasdk(这些基本安装就不介绍了)。
jxhaha
·
2020-09-10 14:08
spark
Spark机器学习的三剑客:RDD、DataFrame和Dataset API
新的
Spark2
.0DatasetAPI是一个类型安全的领域对象集合,可以使用函数运算或关系操作方式执行(类似于RDD的filter、map和flatMap()等)并行转换。为了向后兼容,D
人邮异步社区
·
2020-09-03 15:30
spark
机器学习
Spark -- 模型的导入和导出
因为
Spark2
.0后我们都是用Pipeline去训练模型的,我们以PipelineModel为
TheBiiigBlue
·
2020-08-26 09:17
Spark
Spark2
.0 读写Redis数据(scala)——redis5.0.3
@羲凡——只为了更好的活着
Spark2
.0读写Redis数据(scala)——redis5.0.3特别强调楼主使用
spark2
.3.2版本,redis5.0.3版本1.准备工作在pom.xml文件中要添加
羲凡丞相
·
2020-08-26 09:10
Cassandra/Hbase
1.scala安装及开发工具IDEA配置scala环境
1.1windows上安装scala:访问Scala官网http://www.scala-lang.org/下载Scala编译器安装包,目前最新版本是2.12.x,但是目前大多数的框架都是用2.11.x编写开发的,
Spark2
挨踢正能量
·
2020-08-26 08:19
#
scala
执行pyspark报错env: ‘python’: No such file or directory问题
前提条件:Ubuntu16.04环境安装好
Spark2
.x,并配置好环境变量安装好python3问题:执行pyspark脚本报错$pysparkpyspark:line45:python:commandnotfoundenv
Hadoop_Liang
·
2020-08-26 08:30
问题
spark
Spark分布式集群部署及HA配置
文章目录1.安装scala1.1上传安装包1.2解压1.3重命名1.4配置环境变量1.5验证2.安装
Spark2
.1上传安装包2.2解压2.3重命名2.4配置环境变量2.5修改配置文件2.5.1拷贝slaves
DanielMaster
·
2020-08-25 16:53
Spark
Spark
HA
Spark——优化篇
Spark2
.4.4官网https://spark.apache.org/docs/latest/tuning.html调整Spark由于大多数Spark计算基于内存的性质,Spark程序可能会因为群集中任何资源而达到瓶颈
想法很多的阿远
·
2020-08-25 06:12
实操_Spark_v1.0.0
文件名称版本号作者qq备注实操_Sparkv1.0.0学生宫布8416837
Spark2
.11-2.4.4|Hadoop2.7.7|Ubuntu18文章目录部署安装包式部署-Hadoop已提前部署下载&
学生宫布
·
2020-08-25 06:21
技术栈-大数据
spark
计算
大数据计算
二十Spark1和
Spark2
的区别
学习Spark的方法dblab.xmu.edu.cn/blog/spark-quick-start-guide/spark.apache.org/docs/1.6.2/mllib-collaborative-filtering.html1开始去spark官网下载源码2安装步骤3运行Spark自带的例子4根据业务来5了解RDD原理MASTER,WORKER6了解Spark的各个组件,sparksql
张金玉
·
2020-08-25 05:18
spark_kafka
What Is the Role of Machine Learning in Databases?
欲知效果如何,请读附送的paper,里面的实验结果是基于
Spark2
.3。
smilegator
·
2020-08-25 01:46
基于LR的新闻多分类(基于
spark2
.1.0, 附完整代码)
环境:Scala2.11.8+Java1.8.0_112
Spark2
.1.0+HanLP1.3.2完整项目代码见我的GitHub:https://github.com/yhao2014/ckoocML(
yhao浩
·
2020-08-24 18:51
spark
机器学习
[
Spark2
.0]ML piplines管道模式
在本部分,我们将介绍MLPipline的概念。MLPipline提供了一整套建立在DataFrame上的高级API,它能帮助用户创建和调优实际机器学习管道。Pipline的主要思想Mllib标准化了机器学习算法的API,使得将多个算法融合到一个简单的管道或工作流更为简单。本部分将覆盖PiplineAPI的关键思想,这里的pipline概念是受scikit-learn项目启发而来。DataFrame
yhao浩
·
2020-08-24 18:18
spark
[
Spark2
.0]ML 调优:模型选择和超参数调优
本节讲述如何使用MLlib提供的工具来对ML算法和Pipline进行调优。内建的交叉验证和其他工具允许用户在算法和Pipline中优化超参数。模型选择(又名超参数调优)在ML中一个重要的任务就是模型选择,或者使用给定的数据为给定的任务寻找最适合的模型或参数。这也叫做调优。调优可以是对单个的Estimator,比如LogisticRegression,或者是包含多个算法、向量化和其他步骤的整个Pip
yhao浩
·
2020-08-24 18:18
spark
Spark2
.4.5集群安装与本地开发
下载官网地址:https://www.apache.org/dyn/cl...验证Java是否安装java-verisonJDK下载地址解压安装tar-zxvfjdk-14.0.1_linux-x64_bin.tar.gzmvjdk-14.0.1/usr/local/java验证Scala是否安装scala-verisonwgethttps://downloads.lightbend.com/sc
架构设计之道
·
2020-08-24 17:25
centos
CDH-5.9.2整合
spark2
1.编写目的:由于cdh-5.9.2自带spark版本是spark1.6,现需要测试
spark2
新特性,需要整合
spark2
,且spark1.x和
spark2
.x可以同时存在于cdh中,无需先删除spark1
weixin_30239339
·
2020-08-24 16:07
Spark 2.3.1测试笔记一:问题依旧在?
1前言基于
spark2
.3.0的简单性能测试分析已经进行两轮,结果并不是十分满意,总体而言就是Bug多多,性能有regression,兼容性不保障。
Kent_Yao
·
2020-08-24 16:25
Spark 2.3.0测试笔记一:Shuffle到胃疼
1前言最近有想法将生产用的
spark2
.1.x版本的基线上调至
spark2
.3系列,在此基础上维护一个相对稳定的生产版本,以满足用户日益增长的新特性和性能的需求。
Kent_Yao
·
2020-08-24 15:59
Spark Structured Streaming + Kafka使用笔记
这篇博客将会记录StructuredStreaming+Kafka的一些基本使用(Java版)
spark2
.3.01.概述StructuredStreaming(结构化流)是一种基于SparkSQL引擎构建的可扩展且容错的
小鹅鹅
·
2020-08-24 13:08
Spark
Spark
/
Hadoop生态系列
SparkStreaming + Kafka集成指南(Kafka版本要求0.8.2.1以上)
注意:
spark2
.3版本已经取消了对kafka0.8版本的支持这里主要对如何配置SparkStreaming程序接受kafka的数据进行介绍。
V_Gbird
·
2020-08-24 13:46
kafka
springboot项目:spark 2 操作es6+
本文介绍springboot下
spark2
操作es6.1、环境springboot2.1.3.RELEASEes:elasticsearch6.4.3spark:2.4.3scala:2.11.12本人
manbufenglin
·
2020-08-24 06:35
Spring
Boot
大数据
spark2
.1 新特性
Apache
Spark2
.0是基于sparkbranch-2.x开发的,相比于branch-1.0,它在功能和性能等方面均有巨大改进。
wisgood
·
2020-08-24 04:16
spark
spark
spark2.0
spark新特性
spark2
.0新特性--执行计划
spark2
.0出现了Dataset,一个更加智能的RDD(本质上还是RDD)。
weixin_43866709
·
2020-08-24 04:21
spark
在阿里云EMR上使用Intel Analytics Zoo进行深度学习
系统要求JDK8Spark集群(推荐使用EMR支持的
Spark2
.x)python-2.7(python3.5,3.6也支持),pip安装AnalyticsZooAnalyticsZoo最新的release
weixin_33881041
·
2020-08-24 03:02
在jupyter notebook上引用pyspark
环境:anaconda(推荐所有人都装,非常的方便)python3.6,
spark2
.0,操作系统为ma
知天易or逆天难
·
2020-08-24 03:47
AI
python
spark
Spark2
的 Whole-stage Code Generation、Vectorization 技术 与Spark1 的 Volcano Iterator Model 技术 的对比分析
目录1、Spark1的VolcanoIteratorModel技术2、
Spark2
的Whole-stageCodeGeneration、vectorization技术3、总结1、Spark1的VolcanoIteratorModel
tamir_2017
·
2020-08-24 01:04
spark
Spark SQL - 简介
前言:After
Spark2
.0,RDDsarereplacedbyDataset,whichisstrongly-typedlikeanRDD,butwithricheroptimizationsunderthehood.wehighlyrecommendyoutoswitchtouseDataset
自由编程
·
2020-08-23 23:02
Spark on Yarn 部署中出现的问题
版本:
spark2
.3.0hadoop:cdh5.14.2-2.6.0配置情况:spark-env.shHADOOP_CONF_DIR=/etc/hadoop/confYARN_CONF_DIR=/etc
金刚_30bf
·
2020-08-23 14:53
pyspark系列--py
spark2
.x环境搭建
py
spark2
.x环境搭建1.前言2.linux子系统2.1.操作windows文件2.2.ssh安装3.java环境4.安装hadoop5.安装spark6.安装python7.测试7.1.命令行测试
振裕
·
2020-08-23 11:54
spark
数据分析
在Mac OSX上配置PySpark
在MacOSX上配置Py
Spark2
016-04-2022:03:28安装环境系统:OSX-10.11.1(15B42)内核版本:DarwinKernelVersion15.0.0Python版本:2.7.10GCC
Lauhoman
·
2020-08-23 11:54
Data
Mining
python
mac
osx
Spark
PySpark学习 | 常用的 68 个函数 | 解释 + python代码
实验环境可以按照在windows上面安装并用jupyter运行pyspark进行配置:python3Hadoop2.7Py
Spark2
.2.3Windows10打开cmd命令窗口,输入pyspar
蠡1204
·
2020-08-23 11:51
Spark
Spark 2.0 + kafka 0.10 fullstack 实战小记(1)
开发环境是Macos+scala2.11+
spark2
.0+kafka0.10+IntellijIdea。
Bernini_buffalo
·
2020-08-23 06:04
spark
Spark2
.1.0事件总线分析——SparkListenerBus详解
阅读提示:阅读本文前,最好先阅读《
Spark2
.1.0之源码分析——事件总线》和《
Spark2
.1.0事件总线分析——ListenerBus的继承体系》。
泰山不老生
·
2020-08-23 05:17
大数据
Spark
Scala
深入理解Spark
Spark2
.1.0事件总线分析——LiveListenerBus详解
阅读提示:阅读本文前,最好先阅读《
Spark2
.1.0之源码分析——事件总线》、《
Spark2
.1.0事件总线分析——ListenerBus的继承体系》及《
Spark2
.1.0事件总线分析——SparkListenerBus
泰山不老生
·
2020-08-23 05:17
大数据
Spark
Scala
深入理解Spark
上一页
7
8
9
10
11
12
13
14
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他