Spark2 第11页

从0-1搭建Spark本地开发环境(idea)

1文档编写目的记录spark本地开发环境的搭建过程环境依赖操作系统macosideascala2.11.12spark2.4.0-根据集群版本选择jdk2Scala-2.11.12安装下载连接https

Eights-Li·2020-09-11 07:33

Spark 学习笔记（一）使用Intellij Idea编写Spark应用程序（Scala+SBT）

运行环境阿里云主机Linux部署Spark2.3.1本地JDK1.8IntellijIdea(Version2018)安装Scala插件安装Scala插件,该Scala插件自带SBT工具。

安之_a·2020-09-11 06:06

spark2原理分析—shuffle框架的实现概要分析

概述本文分析spark2的shuffle过程的实现的一个概要。shuffle过程介绍shuffle总体流程spark2的shuffle过程可以分为shufflewrite和shuffleread。

一铭·2020-09-11 06:31

spark2学习(3) 之Spark SQL

SparkSQL是用于结构化数据处理的Spark模块。与基本的SparkRDDAPI不同，SparkSQL提供的接口为Spark提供了有关数据结构和正在执行的计算的更多信息。在内部，SparkSQL使额外的优化。有几种与SparkSQL交互的方法，包括SQL和DatasetAPI。创建sparksessionimportorg.apache.spark.sql.SparkSessionvalspa

willwill1101·2020-09-11 05:58

Spark 2.4新特性概述

导读：Spark官方于今年11月份新发布了Spark2.4。那么新版本的Spark都有哪些值得了解的新特性？应对大数据领域的诸多方案，Spark目前是什么样的状况？未来会有怎样的规划？

高可用架构·2020-09-11 05:59

Spark Streaming使用push模式接收Flume传送的数据并进行WordCount统计

组件环境：Spark2.4.4Flume1.6.0Scala2.11.8JDK1.8.0_121IDEA2017.2r

ylqdh·2020-09-11 05:11

SparkSQL_Spark2+ 的SparkSQL 性能调优

参考文章：1.Spark2+的sql性能调优https://www.cnblogs.com/yyy-blog/p/10260988.html更多参考官方文档！！！

高达一号·2020-09-11 04:14

Spark_Streaming 对接Kafka的好多坑

不过现在还没提交到集群运行)Kafka0.8.2.10.8.Spark_Streaming://创建Receiver流的一个要点//“zookeeper.connect”->“spark1:2181,spark2

Garb_v2·2020-09-11 03:56

CDH 5.12 spark升级从1.6到2.2

CDH5.12对应spark版本下载Spark升级包CSD文件下载SPARK2_ON_YARN-2.1.0.cloudera1.jarparcels包下载因为我的Linux版本是centos7，因此下载下面的两个包

克念·2020-09-11 03:33

我的大数据之路 --pyspark连接mysql数据库

pyspark连接mysql数据库说明一点，spark2.0（包括spark2.0）以下的版本不支持python3.6以上的版本（包括python3.6）。（亲测到怀疑人生）三台机都要。

小牛头#·2020-09-11 03:32

【备忘】年薪50万2018年最新Spark2.0从入门到精通教程

Spark从入门到精通（Scala编程，案例实战，高级特性，Spark内核源码剖析，Hadoop高端）用到技术：Scala，Spark，SparkSQL，SparkStreaming涉及项目：每日uv和销售额统计，各品类top3热卖商品统计，每日top3热点搜索词统计，广告计费实时过滤，热点搜索词滑动统计，各品类TOP3商品热卖滑动实时统计一，Scala的编程详解：第1讲-Spark前世的今生第2

风一样的男人_·2020-09-11 02:30

spark和flink读取csv文件对比

（注：本文内容针对spark2.3.0以及flink1.9.1）spark：本来想自己总结一下，但是这里有位大佬写的很详细，可以直接参考：https://blog.csdn.net/weixin_42411818

bradyM·2020-09-11 00:55

spark TopN问题：dataframe和RDD比较

spark版本：spark2.0.2scala版本：2.11.8服务器版本：CentOS6.7sparkTopN问题，其实就是分组、排序、组内取值问题。

aomao4913·2020-09-11 00:44

map与flatMap的区别

spark版本：spark2.0.2scala版本：2.11.8服务器版本：CentOS6.7对比map和flatMap在RDD中的使用：valrdd1=sc.parallelize(Seq(("onetwothreefourfivesixseven

aomao4913·2020-09-11 00:14

Spark SQL性能调优(Spark2.3.2)

对于某些工作负载，可以通过在内存中缓存数据或打开一些实验选项来提高性能。1.在内存中缓存数据SparkSQL可以通过调用spark.catalog.cacheTable("tableName")或dataFrame.cache()使用内存中的列式格式来缓存表。然后，SparkSQL将仅扫描所需的列，并自动调整压缩以最小化内存使用和GC压力。您可以调用spark.catalog.uncacheTab

西贝木土·2020-09-10 22:16

spark导入在idea中运行

1、saprk官网(http://spark.apache.org/downloads.html)下载spark2.3.2，并解压在D:\project\idea_spark\spark-2.3.2目录

weixin_34254823·2020-09-10 19:06

用intellij idea写spark代码

接着下载spark2.0源代码以及spark2.0预编译版本。再下载并安装scala程序。当然如果你没有安装javasdk的话，那你需要安装javasdk（这些基本安装就不介绍了）。

jxhaha·2020-09-10 14:08

Spark机器学习的三剑客：RDD、DataFrame和Dataset API

新的Spark2.0DatasetAPI是一个类型安全的领域对象集合，可以使用函数运算或关系操作方式执行（类似于RDD的filter、map和flatMap()等）并行转换。为了向后兼容，D

人邮异步社区·2020-09-03 15:30

Spark -- 模型的导入和导出

因为Spark2.0后我们都是用Pipeline去训练模型的，我们以PipelineModel为

TheBiiigBlue·2020-08-26 09:17

Spark2.0 读写Redis数据(scala)——redis5.0.3

@羲凡——只为了更好的活着Spark2.0读写Redis数据(scala)——redis5.0.3特别强调楼主使用spark2.3.2版本，redis5.0.3版本1.准备工作在pom.xml文件中要添加

羲凡丞相·2020-08-26 09:10

1.scala安装及开发工具IDEA配置scala环境

1.1windows上安装scala：访问Scala官网http://www.scala-lang.org/下载Scala编译器安装包，目前最新版本是2.12.x，但是目前大多数的框架都是用2.11.x编写开发的，Spark2

挨踢正能量·2020-08-26 08:19

执行pyspark报错env: ‘python’: No such file or directory问题

前提条件：Ubuntu16.04环境安装好Spark2.x，并配置好环境变量安装好python3问题：执行pyspark脚本报错$pysparkpyspark:line45:python:commandnotfoundenv

Hadoop_Liang·2020-08-26 08:30

Spark分布式集群部署及HA配置

文章目录1.安装scala1.1上传安装包1.2解压1.3重命名1.4配置环境变量1.5验证2.安装Spark2.1上传安装包2.2解压2.3重命名2.4配置环境变量2.5修改配置文件2.5.1拷贝slaves

DanielMaster·2020-08-25 16:53

Spark——优化篇

Spark2.4.4官网https://spark.apache.org/docs/latest/tuning.html调整Spark由于大多数Spark计算基于内存的性质，Spark程序可能会因为群集中任何资源而达到瓶颈

想法很多的阿远·2020-08-25 06:12

实操_Spark_v1.0.0

文件名称版本号作者qq备注实操_Sparkv1.0.0学生宫布8416837Spark2.11-2.4.4|Hadoop2.7.7|Ubuntu18文章目录部署安装包式部署-Hadoop已提前部署下载&

学生宫布·2020-08-25 06:21

二十Spark1和Spark2的区别

学习Spark的方法dblab.xmu.edu.cn/blog/spark-quick-start-guide/spark.apache.org/docs/1.6.2/mllib-collaborative-filtering.html1开始去spark官网下载源码2安装步骤3运行Spark自带的例子4根据业务来5了解RDD原理MASTER，WORKER6了解Spark的各个组件，sparksql

张金玉·2020-08-25 05:18

What Is the Role of Machine Learning in Databases?

欲知效果如何，请读附送的paper，里面的实验结果是基于Spark2.3。

smilegator·2020-08-25 01:46

基于LR的新闻多分类（基于spark2.1.0, 附完整代码）

环境：Scala2.11.8+Java1.8.0_112Spark2.1.0+HanLP1.3.2完整项目代码见我的GitHub：https://github.com/yhao2014/ckoocML（

yhao浩·2020-08-24 18:51

[Spark2.0]ML piplines管道模式

在本部分，我们将介绍MLPipline的概念。MLPipline提供了一整套建立在DataFrame上的高级API，它能帮助用户创建和调优实际机器学习管道。Pipline的主要思想Mllib标准化了机器学习算法的API，使得将多个算法融合到一个简单的管道或工作流更为简单。本部分将覆盖PiplineAPI的关键思想，这里的pipline概念是受scikit-learn项目启发而来。DataFrame

yhao浩·2020-08-24 18:18

[Spark2.0]ML 调优：模型选择和超参数调优

本节讲述如何使用MLlib提供的工具来对ML算法和Pipline进行调优。内建的交叉验证和其他工具允许用户在算法和Pipline中优化超参数。模型选择（又名超参数调优）在ML中一个重要的任务就是模型选择，或者使用给定的数据为给定的任务寻找最适合的模型或参数。这也叫做调优。调优可以是对单个的Estimator，比如LogisticRegression，或者是包含多个算法、向量化和其他步骤的整个Pip

yhao浩·2020-08-24 18:18

Spark2.4.5集群安装与本地开发

下载官网地址：https://www.apache.org/dyn/cl...验证Java是否安装java-verisonJDK下载地址解压安装tar-zxvfjdk-14.0.1_linux-x64_bin.tar.gzmvjdk-14.0.1/usr/local/java验证Scala是否安装scala-verisonwgethttps://downloads.lightbend.com/sc

架构设计之道·2020-08-24 17:25

CDH-5.9.2整合spark2

1.编写目的：由于cdh-5.9.2自带spark版本是spark1.6，现需要测试spark2新特性，需要整合spark2，且spark1.x和spark2.x可以同时存在于cdh中，无需先删除spark1

weixin_30239339·2020-08-24 16:07

Spark 2.3.1测试笔记一：问题依旧在？

1前言基于spark2.3.0的简单性能测试分析已经进行两轮，结果并不是十分满意，总体而言就是Bug多多，性能有regression，兼容性不保障。

Kent_Yao·2020-08-24 16:25

Spark 2.3.0测试笔记一：Shuffle到胃疼

1前言最近有想法将生产用的spark2.1.x版本的基线上调至spark2.3系列，在此基础上维护一个相对稳定的生产版本，以满足用户日益增长的新特性和性能的需求。

Kent_Yao·2020-08-24 15:59

Spark Structured Streaming + Kafka使用笔记

这篇博客将会记录StructuredStreaming+Kafka的一些基本使用(Java版)spark2.3.01.概述StructuredStreaming（结构化流）是一种基于SparkSQL引擎构建的可扩展且容错的

小鹅鹅·2020-08-24 13:08

SparkStreaming + Kafka集成指南（Kafka版本要求0.8.2.1以上）

注意：spark2.3版本已经取消了对kafka0.8版本的支持这里主要对如何配置SparkStreaming程序接受kafka的数据进行介绍。

V_Gbird·2020-08-24 13:46

springboot项目：spark 2 操作es6+

本文介绍springboot下spark2操作es6.1、环境springboot2.1.3.RELEASEes:elasticsearch6.4.3spark:2.4.3scala:2.11.12本人

manbufenglin·2020-08-24 06:35

spark2.1 新特性

ApacheSpark2.0是基于sparkbranch-2.x开发的，相比于branch-1.0，它在功能和性能等方面均有巨大改进。

wisgood·2020-08-24 04:16

spark2.0新特性－－执行计划

spark2.0出现了Dataset，一个更加智能的RDD（本质上还是RDD）。

weixin_43866709·2020-08-24 04:21

在阿里云EMR上使用Intel Analytics Zoo进行深度学习

weixin_33881041·2020-08-24 03:02

在jupyter notebook上引用pyspark

知天易or逆天难·2020-08-24 03:47

Spark2 的 Whole-stage Code Generation、Vectorization 技术与Spark1 的 Volcano Iterator Model 技术的对比分析

目录1、Spark1的VolcanoIteratorModel技术2、Spark2的Whole-stageCodeGeneration、vectorization技术3、总结1、Spark1的VolcanoIteratorModel

tamir_2017·2020-08-24 01:04

Spark SQL －简介

前言：AfterSpark2.0,RDDsarereplacedbyDataset,whichisstrongly-typedlikeanRDD,butwithricheroptimizationsunderthehood.wehighlyrecommendyoutoswitchtouseDataset

自由编程·2020-08-23 23:02

Spark on Yarn 部署中出现的问题

版本：spark2.3.0hadoop：cdh5.14.2-2.6.0配置情况：spark-env.shHADOOP_CONF_DIR=/etc/hadoop/confYARN_CONF_DIR=/etc

金刚_30bf·2020-08-23 14:53

pyspark系列--pyspark2.x环境搭建

pyspark2.x环境搭建1.前言2.linux子系统2.1.操作windows文件2.2.ssh安装3.java环境4.安装hadoop5.安装spark6.安装python7.测试7.1.命令行测试

振裕·2020-08-23 11:54

在Mac OSX上配置PySpark

在MacOSX上配置PySpark2016-04-2022:03:28安装环境系统：OSX-10.11.1(15B42)内核版本：DarwinKernelVersion15.0.0Python版本：2.7.10GCC

Lauhoman·2020-08-23 11:54

PySpark学习 | 常用的 68 个函数 | 解释 + python代码

实验环境可以按照在windows上面安装并用jupyter运行pyspark进行配置：python3Hadoop2.7PySpark2.2.3Windows10打开cmd命令窗口，输入pyspar

蠡1204·2020-08-23 11:51

Spark 2.0 + kafka 0.10 fullstack 实战小记（1）

开发环境是Macos+scala2.11+spark2.0+kafka0.10+IntellijIdea。

Bernini_buffalo·2020-08-23 06:04

Spark2.1.0事件总线分析——SparkListenerBus详解

阅读提示：阅读本文前，最好先阅读《Spark2.1.0之源码分析——事件总线》和《Spark2.1.0事件总线分析——ListenerBus的继承体系》。

泰山不老生·2020-08-23 05:17

Spark2.1.0事件总线分析——LiveListenerBus详解

阅读提示：阅读本文前，最好先阅读《Spark2.1.0之源码分析——事件总线》、《Spark2.1.0事件总线分析——ListenerBus的继承体系》及《Spark2.1.0事件总线分析——SparkListenerBus