Spark2.0 第2页

Hive报错：cannot access /usr/local/src/spark-2.2.1-bin-hadoop2.6/lib/spark-assembly-*.jar

cannotaccess/usr/local/src/spark-2.1.3-bin-hadoop2.6/lib/spark-assembly-*.jar:Nosuchfileordirectory原因：spark2.0

Devin01213·2020-09-17 05:44

xgboost on spark

因此选择了spark2.0与XGBoost0.7。scala代码/***train

ukakasu·2020-09-16 23:14

Spark2.0读写Cassandra数据(scala)

@羲凡——只为了更好的活着Spark2.0读写Cassandra数据(scala)为了方便查询一些些业务数据，将hdfs或hive中的数据写入到Cassandra的一个大表中。

羲凡丞相·2020-09-16 19:55

Spark2.0版本新特性学习笔记

一、SparkCore&SparkSQLAPI1、dataframe与dataset统一，dataframe只是dataset[Row]的类型别名2、SparkSession：统一SQLContext和HiveContext，新的上下文入口3、为SparkSession开发的一种新的流式调用的configurationapi4、accumulator功能增强：便捷api、webui支持、性能更高5

风中的大数据·2020-09-16 13:38

spark2.0版本RDD、DataFrame、DataSet介绍

一只土肥圆的猿·2020-09-16 11:26

CDH5.16.2离线安装spark2.1

我尝试了安装spark2.0版本和spark2.1版本，均告成功。

小姚同學·2020-09-16 05:35

Spark ML特征的提取、转换和选择

象在舞·2020-09-16 02:24

SparkSession与SparkContext关系详解

SparkSession是Spark2.0引如的新概念。SparkSession为用户提供了统一的切入点，来让用户学习spark的各项功能。

华山论键·2020-09-15 18:45

SparkSession、SparkContext、SQLContext

SparkSession是Spark2.0新引入的SparkSession内部封装了SparkCo

Jsoooo·2020-09-15 18:33

spark学习-SparkSQL-SparkSession与SparkContext

SparkSession-Spark的一个全新的切入点SparkSession是Spark2.0引如的新概念。SparkSession为用户提供了统一的切入点，来让用户学习spark的各项功能。

九师兄·2020-09-15 17:37

Spark介绍（七）PySpark

Spark2.0之后的初始化，会在spark安装pyspark的模块，直接在spark/bin/启动pyspark是会报错的：原因是因为spark2.0默认安装的Python是3.6的，而“Spark<

kxiaozhuk·2020-09-15 17:50

spark笔记（1）——SparkContext 与JavaSparkContext互相转化

挪威马天雨·2020-09-15 17:57

SparkContext，SparkConf 和 SparkSession

SparkContext，SparkConf在Spark2.0之前，SparkContext是所有Spark功能的结构，驱动器（driver）通过SparkContext连接到集群（通过resourcemanager

大胖头leo·2020-09-15 16:30

【Spark】 SparkSession与SparkContext

文章开始先让我们看一张图：从图中我们可以大概看出SparkSession与SparkContext的关系了SparkSession是Spark2.0引如的新概念。

孙文旭·2020-09-15 16:32

SparkContext、SparkConf以及进化版的SparkSession

Spark2.0之前需要显式地创建SparkConf实例，并用Conf实例初始化SparkContext，再用SparkContext创建SQLContext。

詩和遠方·2020-09-15 16:38

Pyspark访问Hbase

作者：Syn良子出处：http://www.cnblogs.com/cssdongl/p/7347167.html转载请注明出处记录自己最近抽空折腾虚拟机环境时用spark2.0的pyspark访问Hbase1.2

weixin_30670151·2020-09-14 11:13

通过Spark访问Hbase的Hive外部表（hive on hbase的表）

1.拷贝如下jar包到${spark_home}/jars（spark2.0之前是${spark_home}/lib）:hbase-protocol-1.2

levy_cui·2020-09-14 10:22

深入理解Spark 2.1 Core （二）：DAG调度器的原理与源码分析

上一篇《深入理解Spark2.0（一）：RDD实现及源码分析》的5.2Spark任务调度器我们省略过去了，这篇我们就来讲讲Spark的调度器。

卓寿杰_SoulJoy·2020-09-14 01:59

spark2.4 on yarn安装

SparkisbuiltwithScala2.11bydefault.Scala2.10usersshoulddownloadtheSparksourcepackageandbuildwithScala2.10support.也就是说spark2.0

lbship·2020-09-14 00:50

[Spark2.0]Spark SQL, DataFrames 和Datasets指南

综述SparkSQL是Spark提供的针对结构化数据处理的模块。不同于基本的SparkRDDAPI，SparkSQL提供的接口提供了更多的关于数据和计算执行的信息。在内部，SparkSQL使用这些额外信息完成额外的优化。这里有几种方式可以和SparkSQL相互操作，包括SQL和DatasetAPI。计算结果的时候使用相同的执行本页中所有示例使用到的样例的数据都包含在Spark发布中，而且都能在sp

yhao浩·2020-09-12 09:51

Spark高级操作之json复杂和嵌套数据结构的操作一

一，基本介绍本文主要讲spark2.0版本以后存在的Sparksql的一些实用的函数，帮助解决复杂嵌套的json数据格式，比如，map和嵌套结构。

大数据星球-浪尖·2020-09-12 07:46

Spark之SparkSession

SparkSession是Spark2.0引如的新概念。SparkSession为用户提供了统一的切入点，来让用户学习spark的各项功能。

JasonQ_NEU·2020-09-11 22:56

Intellij IDEA构建Spark2.0以上工程示例

IntellijIDEA新建Spark2.0以上Maven工程示例长时间不用IDEA新建工程，新建的步骤都忘记了，再次记录一下，Spark新版中SparkSession需要依赖的包与SparkContext

巴拉巴拉朵·2020-09-11 07:47

我的大数据之路 --pyspark连接mysql数据库

pyspark连接mysql数据库说明一点，spark2.0（包括spark2.0）以下的版本不支持python3.6以上的版本（包括python3.6）。（亲测到怀疑人生）三台机都要。

小牛头#·2020-09-11 03:32

【备忘】年薪50万2018年最新Spark2.0从入门到精通教程

Spark从入门到精通（Scala编程，案例实战，高级特性，Spark内核源码剖析，Hadoop高端）用到技术：Scala，Spark，SparkSQL，SparkStreaming涉及项目：每日uv和销售额统计，各品类top3热卖商品统计，每日top3热点搜索词统计，广告计费实时过滤，热点搜索词滑动统计，各品类TOP3商品热卖滑动实时统计一，Scala的编程详解：第1讲-Spark前世的今生第2

风一样的男人_·2020-09-11 02:30

用intellij idea写spark代码

接着下载spark2.0源代码以及spark2.0预编译版本。再下载并安装scala程序。当然如果你没有安装javasdk的话，那你需要安装javasdk（这些基本安装就不介绍了）。

jxhaha·2020-09-10 14:08

Spark -- 模型的导入和导出

因为Spark2.0后我们都是用Pipeline去训练模型的，我们以PipelineModel为

TheBiiigBlue·2020-08-26 09:17

Spark2.0 读写Redis数据(scala)——redis5.0.3

@羲凡——只为了更好的活着Spark2.0读写Redis数据(scala)——redis5.0.3特别强调楼主使用spark2.3.2版本，redis5.0.3版本1.准备工作在pom.xml文件中要添加

羲凡丞相·2020-08-26 09:10

[Spark2.0]ML piplines管道模式

在本部分，我们将介绍MLPipline的概念。MLPipline提供了一整套建立在DataFrame上的高级API，它能帮助用户创建和调优实际机器学习管道。Pipline的主要思想Mllib标准化了机器学习算法的API，使得将多个算法融合到一个简单的管道或工作流更为简单。本部分将覆盖PiplineAPI的关键思想，这里的pipline概念是受scikit-learn项目启发而来。DataFrame

yhao浩·2020-08-24 18:18

[Spark2.0]ML 调优：模型选择和超参数调优

本节讲述如何使用MLlib提供的工具来对ML算法和Pipline进行调优。内建的交叉验证和其他工具允许用户在算法和Pipline中优化超参数。模型选择（又名超参数调优）在ML中一个重要的任务就是模型选择，或者使用给定的数据为给定的任务寻找最适合的模型或参数。这也叫做调优。调优可以是对单个的Estimator，比如LogisticRegression，或者是包含多个算法、向量化和其他步骤的整个Pip

yhao浩·2020-08-24 18:18

spark2.0新特性－－执行计划

spark2.0出现了Dataset，一个更加智能的RDD（本质上还是RDD）。

weixin_43866709·2020-08-24 04:21

在jupyter notebook上引用pyspark

知天易or逆天难·2020-08-24 03:47

spark DataFrame的创建几种方式和存储

从Spark2.0以上版本开始，Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载、转换、处理等功能。

weixin_30251587·2020-08-23 03:09

Pyspark 读取本地csv文件，插入parquet格式的hive表中

（注意事项：Spark2.0版本开始将sqlContext、hiveContext统一整合为SparkSession）2、读取文件并转换为SparkDataFrame格式。（坑1：路径和语

小晓酱手记·2020-08-23 02:39

spark读写csv文件

如果是spark1.6.0请添加maven：com.databricksspark-csv_2.101.4.0compile如果是spark2.0+就不用添加maven了，因为spark2.0内部集成了读写

lhxsir·2020-08-23 01:57

Spark Broadcast之TorrentBroadcast

概述SparkBroadcast概述中介绍了四种实现Broadcast的思路，这篇关注Spark中具体的实现TorrentBroadcast，其是Spark2.0及以后唯一的实现，其他实现都被删除了。

Mr_JieLQ·2020-08-22 18:12

基于 spark ml NaiveBayes实现中文文本分类

思路：1准备数据2，代码编写准备数据这里数据我将它分为两类，1军事，2nba，我将文件数据放在下面代码编写：这里面我用的是sparkml进行代码的实现的，spark版本用的是2.2（spark2.0和1.6

记录每一份笔记·2020-08-22 09:56

Spark in Action 免积分下载

完全更新Spark2.0。下载地址：SparkinAction更多免积分电子书，请访问：IE布克斯网转载于:https://my.oschina.net/u/3070312/blog/2997943

chongyuwan4121·2020-08-22 01:50

Dstream生成RDD实例详解

SparkStreaming源码解析系列，返回目录请猛戳这里「腾讯·广点通」技术团队荣誉出品本系列内容适用范围：*2016.12.28update,Spark2.1全系列√(2.1.0)*2016.11.14update,Spark2.0

zzzzzzzzzzzzzzzzzxs·2020-08-21 02:25

第四篇|Spark Streaming编程指南(1)

在2016年7月，Spark2.0版本中引入了StructuredStreaming，并在Spark2.2版本中达到了生产级别，StructuredStreaming

西贝木土·2020-08-20 17:29

第四篇|Spark Streaming编程指南(1)

在2016年7月，Spark2.0版本中引入了StructuredStreaming，并在Spark2.2版本中达到了生产级别，StructuredStreaming

西贝木土·2020-08-20 17:29

Waterdrop推动Spark Structured Streaming走向生产环境

前言StructuredStreaming是Spark2.0以后新开放的一个模块，相比SparkStreaming，它有一些比较突出的优点：它能做到更低的延迟;可以做实时的聚合，例如实时计算每天每个商品的销售总额

Ricky_Huo·2020-08-19 10:12

spark sql 中 java.lang.ClassCastException: org.apache.spark.sql.catalyst.expressions.Gener

zhanghytc·2020-08-19 06:08

spark2.0操作hive

用spark直接操作hive方式，完成之前的流量分析统计。spark＋hive的作用：1，hive是企业里面离线分析的数据源，hive作为数据源进行rdd加工操作，比如做一些算法类。2，为了紧紧执行hivesql。即已有的hive作业迁移到spark上来。hive运行在mapreduce框架里，要想运行在spark框架里，现在2.0版本就可以直接用hivesql，企业里面很多人做存储过程开发，所以

zzzzzzzzzzzzzzzzzxs·2020-08-18 12:57

Intellij IDEA构建Spark2.0以上工程示例

IntellijIDEA新建Spark2.0以上Maven工程示例长时间不用IDEA新建工程，新建的步骤都忘记了，再次记录一下，Spark新版中SparkSession需要依赖的包与SparkContext

qq_22796957·2020-08-18 11:14

Spark2.0机器学习系列之2：Logistic回归及Binary分类（二分问题）结果评估

参数设置α：梯度上升算法迭代时候权重更新公式中包含α：http://blog.csdn.net/lu597203933/article/details/38468303为了更好理解α和最大迭代次数的作用，给出Python版的函数计算过程。#梯度上升算法-计算回归系数#每个回归系数初始化为1#重复R次：#计算整个数据集的梯度#使用α*梯度更新回归系数的向量#返回回归系数defgradAscent(d

千寻千梦·2020-08-15 07:57

Spark2.0功能测试和日志查看

一、spark2.0功能测试1.Spark-shell在spark的sbin使用spark-shell命令开启，使用如下例子测试：scala>valfile=sc.textFile("hdfs://namenode

HappyBearZzz·2020-08-14 20:30

Spark 读写CSV的常用配置项

Spark2.0之前，SparkSQL读写CSV格式文件，需要Databricks官方提供的spark-csv库。在Spark2.0之后，SparkSQL原生支持读写CSV格式文件。

三丰·2020-08-11 05:16

spark流数据处理：Spark Streaming的使用

本文的写作时值Spark1.6.2发布之际，Spark2.0预览版也已发布，Spark发展如此迅速，请随时关注SparkStreaming官方文档以了解最新信息。

qq_26091271·2020-08-11 05:11

[spark] Shuffle Write解析 (Sort Based Shuffle)

本文基于Spark2.1进行解析前言从Spark2.0开始移除了HashBasedShuffle，想要了解可参考Shuffle过程，本文将讲解SortBasedShuffle。

大写的UFO·2020-08-11 02:24

推荐频道

Spark2.0

Hive报错：cannot access /usr/local/src/spark-2.2.1-bin-hadoop2.6/lib/spark-assembly-*.jar

xgboost on spark

Spark2.0读写Cassandra数据(scala)

Spark2.0版本新特性学习笔记

spark2.0版本RDD、DataFrame、DataSet介绍

CDH5.16.2离线安装spark2.1

Spark ML特征的提取、转换和选择

SparkSession与SparkContext关系详解

SparkSession、SparkContext、SQLContext

spark学习-SparkSQL-SparkSession与SparkContext

Spark介绍（七）PySpark

spark笔记（1）——SparkContext 与JavaSparkContext互相转化

SparkContext，SparkConf 和 SparkSession

【Spark】 SparkSession与SparkContext

SparkContext、SparkConf以及进化版的SparkSession

Pyspark访问Hbase

通过Spark访问Hbase的Hive外部表（hive on hbase的表）

深入理解Spark 2.1 Core （二）：DAG调度器的原理与源码分析

spark2.4 on yarn安装

[Spark2.0]Spark SQL, DataFrames 和Datasets指南

Spark高级操作之json复杂和嵌套数据结构的操作一

Spark之SparkSession

Intellij IDEA构建Spark2.0以上工程示例

我的大数据之路 --pyspark连接mysql数据库

【备忘】年薪50万2018年最新Spark2.0从入门到精通教程

用intellij idea写spark代码

Spark -- 模型的导入和导出

Spark2.0 读写Redis数据(scala)——redis5.0.3

[Spark2.0]ML piplines管道模式

[Spark2.0]ML 调优：模型选择和超参数调优

spark2.0新特性－－执行计划

在jupyter notebook上引用pyspark

spark DataFrame的创建几种方式和存储

Pyspark 读取本地csv文件，插入parquet格式的hive表中

spark读写csv文件

Spark Broadcast之TorrentBroadcast

基于 spark ml NaiveBayes实现中文文本分类

Spark in Action 免积分下载

Dstream生成RDD实例详解

第四篇|Spark Streaming编程指南(1)

第四篇|Spark Streaming编程指南(1)

Waterdrop推动Spark Structured Streaming走向生产环境

spark sql 中 java.lang.ClassCastException: org.apache.spark.sql.catalyst.expressions.Gener

spark2.0操作hive

Intellij IDEA构建Spark2.0以上工程示例

Spark2.0机器学习系列之2：Logistic回归及Binary分类（二分问题）结果评估

Spark2.0功能测试和日志查看

Spark 读写CSV的常用配置项

spark流数据处理：Spark Streaming的使用

[spark] Shuffle Write解析 (Sort Based Shuffle)