spark2.0 第6页

Spark2.0特征提取、转换、选择之一：数据规范化，String-Index、离散-连续特征相互转换

数据规范化（标准化）在数据预处理时，这两个术语可以互换使用。（不考虑标准化在统计学中有特定的含义）。下面所有的规范化操作都是针对一个特征向量（dataFrame中的一个colum）来操作的。首先举一个例子：//MaxAbsScaler例子（参考后面MaxAbsScaler部分)//例子：对特征0，特征1，特征2，分别进行缩放，使得值为[-1,1]//例如特征0，其特征向量为[1000,100,-1

大师兄你家猴跑啦·2017-12-13 17:45

【备忘】年薪50万2017年最新北风网Spark2.0从入门到精通教程

Spark从入门到精通（Scala编程、案例实战、高级特性、Spark内核源码剖析、Hadoop高端）官方出售价格：2250元，地址：http://www.ibeifeng.com/goods-560.html本课程主要讲解目前大数据领域最热门、最火爆、最有前景的技术——Spark。在本课程中，会从浅入深，基于大量案例实战，深度剖析和讲解Spark，并且会包含完全从企...适合人群：中级课时数量：

qq_38472089·2017-11-12 17:33

Spark 2.0 时代全面到来 —— 2.0.1 版本发布

距离Spark2.0.0发布两个月后，Spark2.0.1版本发布了，这是一个修正版本，共处理了300多个Issue，涉及spark稳定性和bug等方面的修复，它的发布意味着Spark2.0接近生产环境使用要求

kaixin2010·2017-11-05 10:19

hive on spark安装(hive2.3 spark2.1)

spark2.0引入了sparksession的概念，创建一个spark任务和之前也不一样，之前版本的hive并不能兼容spark2.0，所以推荐使用hive2.3以后的版本。

敲码的汉子·2017-11-01 18:08

hive on spark安装(hive2.3 spark2.1)

spark2.0引入了sparksession的概念，创建一个spark任务和之前也不一样，之前版本的hive并不能兼容spark2.0，所以推荐使用hive2.3以后的版本。

敲码的汉子·2017-11-01 18:08

Spark 2.0视频教程|快学Spark 2.0(新特性、含真实项目、纯Scala语言开发、CDH5.7)

快学Spark2.0(新特性、含真实项目、纯Scala语言开发、CDH5.7)分享网盘下载——https://pan.baidu.com/s/1mkqrTs0密码:y5hghttps://pan.baidu.com

fengzhongyela·2017-10-20 08:43

Spark 2.0视频教程|快学Spark 2.0(新特性、含真实项目、纯Scala语言开发、CDH5.7)

老江师兄弟·2017-10-20 08:00

Spark Streaming遇到问题分析

SparkStreaming遇到问题分析1、Spark2.0之后搞了个StructuredStreaming还没仔细了解,可参考：https://github.com/lw-lin/Coo...2、Spark

xbynet·2017-07-17 00:00

[Spark基础]-- spark-2.0图文讲解核心

fromSource=gwzcw.107190.107190.107190导语spark2.0于2016-07-27正式发布，伴随着更简单、更快速、更智慧的新特性，spark已经逐步替代hadoop在大数据中的地位

highfei2011·2017-07-11 22:15

SPARK官方实例：两种方法实现随机森林模型（ML/MLlib）

在spark2.0以上版本中，存在两种对机器学习算法的实现库MLlib与ML，比如随机森林：org.apache.spark.mllib.tree.RandomForest和org.apache.spark.ml.classification.RandomForestClassificationModel

O白马非马O·2017-05-31 17:24

xgboost之spark上运行-scala接口

概述xgboost可以在spark上运行，我用的xgboost的版本是0.7的版本，目前只支持spark2.0以上版本上运行,编译好jar包，加载到maven仓库里面去：mvninstall:install-file-Dfile

旭旭_哥·2017-05-08 15:25

spark2.0系列《一》—— RDD VS. DataFrame VS. DataSet

虽说，spark我也不陌生，之前一直用python跑的spark，基本的core和SQL操作用的也是比较熟练。但是这一切的基础都是在RDD上进行操作，即使是进行SQL操作也是将利用SpaekContext类中的textFile方法读取txt文件返回RDD对象，然后使用SQLContext实例化载利用函数createDataFrame将格式化后的数据转化为dataFrame或者利用createDat

wing1995·2017-05-03 20:00

【Spark2.0源码学习】-3.Endpoint模型介绍

Spark作为分布式计算框架，多个节点的设计与相互通信模式是其重要的组成部分。一、组件概览对源码分析，对于设计思路理解如下：RpcEndpoint：RPC端点，Spark针对于每个节点（Client/Master/Worker）都称之一个Rpc端点,且都实现RpcEndpoint接口，内部根据不同端点的需求，设计不同的消息和不同的业务处理，如果需要发送（询问）则调用DispatcherRpcEnv

放错位的天才·2017-04-23 20:00

Spark2.0机器学习系列之5：GBDT（梯度提升决策树）、GBDT与随机森林差异、参数调试及Scikit代码分析

关于决策树和随机森林，我也写了两篇介绍博客，可以作为参考：随机森林介绍、关键参数分析及Spark2.0中实现http://blog.csdn.net/qq_34531825/article/details

勿悔Choles·2017-04-09 23:26

深入理解Spark 2.1 Core （二）：DAG调度器的原理与源码分析

上一篇《深入理解Spark2.0（一）：RDD实现及源码分析》的5.2Spark任务调度器我们省略过去了，这篇我们就来讲讲Spark的调度器。

小爷Souljoy·2017-04-09 10:33

Spark 2.0介绍：Dataset介绍和使用

Spark2.0介绍：Dataset介绍和使用Spark2.0是ApacheSpark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大变化。

MatrixSparse·2017-04-05 17:10

ambari 搭建hadoop大数据平台系列2-客户机配置

本案例搭建的环境介绍如下：Ambari2.4.2+HDP2.5（hadoop2.7；hive1.2；Tez；Spark2.0）+jdk1.8.25+centos7.0,这里首先要关注些注意事项，至于为什么会一一说明

TIMES2020·2017-04-04 17:00

spark ml pipelines

sparkMLPipelines在spark2.0里mllib分为两个包，spark.mllib里是基于RDD的API，spark.ml里是基于DataFrame的API。

Dillon2015·2017-03-21 17:24

spark Exception in thread "main" java.lang.IllegalArgumentException: java.net.URISyntaxException: Re

在windows上运行spark2.0的ml算法报错：Exceptioninthread"main"java.lang.IllegalArgumentException:java.net.URISyntaxException

Dillon2015·2017-03-20 23:50

Spark之殇

之前Spark2.0刚发布不久后的第一个小版本，StructuredStreaming终于支持Kafka了，但是只支持Kafka1.0而不支持Kafka0.8。

祝威廉·2017-03-15 20:00

Hadoop生态圈介绍

Spark2.0以后也用netty做rpc。

墨染百城·2017-02-15 14:33

BlackEnn·2017-01-27 18:00

Spark SQL内置函数的使用Spark SQL执行计划总结

个人感觉SparkSQL的优势在于UDF和DataFrame(RDD的封装，由于RDD是可以是任意类型，因此可以封装一个对象在RDD里面，spark2.0以后对DataSet做了优化，由于DataFrame

bigdataCoding·2017-01-18 16:33

Spark sbt-assembly 打包

因为要用spark2.0，而集群上cdh5.7.1的spark版本是1.6的，在单独使用spark2.0的时候出现了hbase包找不到的问题，因为spark-submit–jars属性引的包太多，就干脆直接用

-ROOT-·2017-01-16 12:48

spark2.0 history server 内存溢出解决

从下面命令构建类可以看到，如果你想增加historyserver的内存，只能设置SPARK_DAEMON_MEMORY。在SPARK_HISTORY_OPTS里设置"-Xmx"不起作用。classSparkClassCommandBuilderextendsAbstractCommandBuilder{privatefinalStringclassName;privatefinalListclas

houzhizhen·2016-12-20 10:03

Spark 2.0 RPC通信层设计原理分析

SparkRPC层设计概况spark2.0的RPC框架是基于优秀的网络通信框架Netty开发的，我们先把Spark中与RPC相关的一些类的关系梳理一下，为了能够更直观地表达RPC的设计，我们先从类的设计来看

ZanderXu·2016-12-19 18:27

在Ubuntu16.04中配置Anaconda（Python2.7）以支持Spark2.0（Pyspark）

本文主要内容：对比Spark和Hadoop介绍PysPark和Anaconda搭建并配置运行WordCount最近想学习大数据分析平台Spark，由于实验室设备不足，只能先在本地搭建一个独立式的Spark环境，进行简单分析，逐步探索Spark的奥秘，为以后Spark集群操作打好基础。对于从事数据挖掘和机器学习人员来说，使用anaconda的ipythonnotebook无疑是最棒的体验。那么，如何

积微成著·2016-12-12 20:29

Spark2.0源码之1_Broadcast

通过Spark源码中的注释信息理解Spark内核源码。packageorg.apache.spark.broadcastimportjava.io.Serializableimportscala.reflect.ClassTagimportorg.apache.spark.SparkExceptionimportorg.apache.spark.internal.Loggingimportorg.

lcjasas·2016-12-06 14:29

spark学习1--centOS7.2下基于hadoop2.7.3的spark2.0集群环境搭建

安装步骤如没特殊指明哪台服务器，则说明都是在3台服务器上做同样的操作。1.准备1.1装有centOS7的3台服务器master192.168.174.132node1192.168.174.133node2192.168.174.1341.2搭建hadoop集群环境参考“hadoop学习1--hadoop2.7.3集群环境搭建”1.3准备安装包scala-2.11.8.tgzspark-2.0.0

夢_殤·2016-11-23 17:36

基于spark2.0整合spark-sql + mysql + parquet + HDFS

一、概述spark2.0做出的改变大家可以参考官网以及其他资料，这里不再赘述由于spark1.x的sqlContext在spark2.0中被整合到sparkSession，故而利用spark-shell

CaramelCapucchino·2016-11-22 12:11

spark 2.0 踩过的SparkSession的坑

spark2.0踩过的SparkSession的坑spark20踩过的SparkSession的坑背景抽象的运行代码初步定位问题进一步定位问题源码相关分析再看SparkSession的创建最终解决取代了

cjuexuan·2016-11-17 21:31

spark2.0 MessageHandler和 TransportResponseHandler

MessageHandler处理Netty发送或者接收的消息。一个MessageHandler和一个Netty通道关联在一起，尽管一个Netty通道可以为多个client对象服务。TransportResponseHandler扩展自MessageHandler，它处理服务器端响应，响应是TransportClient的请求。它跟踪请求的列表和它们的回调函数。它是线程安全的。/***Handles

houzhizhen·2016-11-15 17:21

Spark Storage ④ - 存储执行类介绍（DiskBlockManager、DiskStore、MemoryStore）

本文为Spark2.0源码分析笔记，某些实现可能与其他版本有所出入这篇文章前半部分我们对直接在Block存取发挥重要作用的类进行介绍，主要是DiskBlockManager、MemoryStore、DiskStore

牛肉圆粉不加葱·2016-10-22 22:05

Scala2.11.8 + Sbt + Maven + IntelliJ Idea + Spark2.0开发环境搭建备忘

已有hadoopyarn和spark集群部署、运行在分布式环境中，程序开发编码在PC上，由于逐渐增多scala编写spark2.0程序，入乡随俗使用sbt和IntelliJIdea，顺便对PC上的Scala

bitbyteworld·2016-10-10 22:16

Spark2.0机器学习系列之9：聚类算法(LDA）

在写这篇文章之前，先说一些题外话。许多机器学习算法（如后面将要提到的LDA）涉及的数学知识太多，前前后后一大堆，理解起来不是那么容易。面对复杂的机器学习模型，尤其是涉及大量数学知识的模型，我们往往要花费大量的时间和精力去推导数学算法（公式），如果过分沉湎于此会忽略了很多背后也许更重要的东西，正所谓只见树木，不见森林，而这是缺乏远见，是迷茫的。我们需要深入理解模型背后的逻辑和所蕴含的或简或繁的思想。

千寻千梦·2016-09-21 15:06

Spark2.0机器学习系列之9：聚类算法(LDA）

在写这篇文章之前，先说一些题外话。许多机器学习算法（如后面将要提到的LDA）涉及的数学知识太多，前前后后一大堆，理解起来不是那么容易。面对复杂的机器学习模型，尤其是涉及大量数学知识的模型，我们往往要花费大量的时间和精力去推导数学算法（公式），如果过分沉湎于此会忽略了很多背后也许更重要的东西，正所谓只见树木，不见森林，而这是缺乏远见，是迷茫的。我们需要深入理解模型背后

qq_34531825·2016-09-21 15:00

大数据Spark “蘑菇云”行动第47课程 Spark 2.0实战之Dataset：collect_list、collect_set、avg、sum、countDistinct等

大数据Spark“蘑菇云”行动第47课程Spark2.0实战之Dataset：collect_list、collect_set、avg、sum、countDistinct等DatasetAPI:http

段智华·2016-09-17 22:15

scalaIDE 与spark2.0 源代码关联

scalaIDE与spark2.0源代码关联一scalaIDEmaven方式获取spark2.0源代码不安装插件，scalaide的maven新建的是java工程，没法使用scala代码。

段智华·2016-09-17 19:01

CentOS7 基于Hadoop2.7 的Spark2.0集群搭建

序言上传文件到各服务器安装配置Scala安装配置Spark配置集群启动集群测试Spark集群序言Hadoop2.7集群已搭建完毕.参考“CentOS7从零开始搭建Hadoop2.7集群‘’。（node192.168.169.131,node1192.168.169.133,node2192.168.169.132,node3192.168.169.134）本地下载scala-2.11.8.tgz：

小杭嘟嘟嘟·2016-09-17 17:23

第45课 Spark 2.0实战之Dataset：map、flatMap、mapPartitions、dropDuplicate、coalesce、repartition等

第45课Spark2.0实战之Dataset：map、flatMap、mapPartitions、dropDuplicate、coalesce、repartition等packagecom.dt.spark200importorg.apache.spark.sql.SparkSessionimportscala.collection.mutable.ArrayBufferobjectDataSet

段智华·2016-09-16 19:41

第44课：Spark 2.0编程实战之DataSet案例开发实战

第44课：Spark2.0编程实战之DataSet案例开发实战people.json{"name":"Michael"}{"name":"Andy","age":30}{"name":"Justin",

段智华·2016-09-16 17:32

第43课：Spark 2.0编程实战之SparkSession、DataFrame、DataSet开发实战

第43课：Spark2.0编程实战之SparkSession、DataFrame、DataSet开发实战2017年5月份左右，老师个人认为需要等到Spark2.2版本DataSet背后会被Tungsten

段智华·2016-09-13 22:44

Spark2.0 特征提取、转换、选择之二：特征选择、文本处理，以中文自然语言处理(情感分类为例)

特征选择RFormulaRFormula是一个很方便，也很强大的Feature选择（自由组合的）工具。输入string进行独热编码（见下面例子country）输入数值型转换为double（见下面例子hour）label为string，也用StringIndexer进行编号RFormulaproducesavectorcolumnoffeaturesandadoubleorstringcolumno

千寻千梦·2016-09-04 11:47

spark2.0中逻辑回归模型

今天上午看了下spark2.0中的逻辑回归模型，相比以前mllib版本确实改进不少，逻辑回归模型再次不再多说，原理较为简单，模型中的一些参数设定，自己要主要，代码主要是用maven跟git进行管理，数据是官方自带的数据

旭旭_哥·2016-09-03 11:56

Spark2.0 特征提取、转换、选择之一：数据规范化，String-Index、离散-连续特征相互转换

数据规范化（标准化）在数据预处理时，这两个术语可以互换使用。（不考虑标准化在统计学中有特定的含义）。下面所有的规范化操作都是针对一个特征向量（dataFrame中的一个colum）来操作的。首先举一个例子：//MaxAbsScaler例子（参考后面MaxAbsScaler部分)//例子：对特征0，特征1，特征2，分别进行缩放，使得值为[-1,1]//例如特征0，其特征向量为[1000,100,-1

千寻千梦·2016-09-02 17:44

Spark2.0机器学习系列之5：GBDT（梯度提升决策树）、GBDT与随机森林差异、参数调试及Scikit代码分析

关于决策树和随机森林，我也写了两篇介绍博客，可以作为参考：随机森林介绍、关键参数分析及Spark2.0中实现http://blog.csdn.net/qq_34531825/article/details

千寻千梦·2016-08-30 09:33

spark的安装和使用

笔者的环境为：centos7.该文章主要是讲述了在centos7上搭建spark2.0的具体操作和spark的简单使用，希望可以给刚刚接触spark的朋友一些帮助。

ouyangyanlan·2016-08-29 18:00

Spark2.0机器学习系列之3：决策树及Spark 2.0-MLlib、Scikit代码分析

概述分类决策树模型是一种描述对实例进行分类的树形结构。决策树可以看为一个if-then规则集合，具有“互斥完备”性质。决策树基本上都是采用的是贪心（即非回溯）的算法，自顶向下递归分治构造。生成决策树一般包含三个步骤：特征选择决策树生成剪枝决策树算法种类决策树主要有ID3,C4.5,C5.0andCART几种，ID3,C4.5,和CART实际都采用的是贪心（即非回溯）的算法，自顶向下递归分治构造。对

千寻千梦·2016-08-26 18:45

hadoop2.2.0安装spark1.1.0（maven编译）

而在目前spark官网上已经下载不到spark1.1.0版本（目前已经发布了spark2.0版本）。为了在机器上使用spark，选择了csdn上下载了spark1.1.0的源码，自己尝试编译。

TurboBoost·2016-08-16 12:30

推荐频道

spark2.0

Spark2.0特征提取、转换、选择之一：数据规范化，String-Index、离散-连续特征相互转换

【备忘】年薪50万2017年最新北风网Spark2.0从入门到精通教程

Spark 2.0 时代全面到来 —— 2.0.1 版本发布

hive on spark安装(hive2.3 spark2.1)

hive on spark安装(hive2.3 spark2.1)

Spark 2.0视频教程|快学Spark 2.0(新特性、含真实项目、纯Scala语言开发、CDH5.7)

Spark 2.0视频教程|快学Spark 2.0(新特性、含真实项目、纯Scala语言开发、CDH5.7)

Spark Streaming遇到问题分析

[Spark基础]-- spark-2.0图文讲解核心

SPARK官方实例：两种方法实现随机森林模型（ML/MLlib）

xgboost之spark上运行-scala接口

spark2.0系列《一》—— RDD VS. DataFrame VS. DataSet

【Spark2.0源码学习】-3.Endpoint模型介绍

Spark2.0机器学习系列之5：GBDT（梯度提升决策树）、GBDT与随机森林差异、参数调试及Scikit代码分析

深入理解Spark 2.1 Core （二）：DAG调度器的原理与源码分析

Spark 2.0介绍：Dataset介绍和使用

ambari 搭建hadoop大数据平台系列2-客户机配置

spark ml pipelines

spark Exception in thread "main" java.lang.IllegalArgumentException: java.net.URISyntaxException: Re

Spark之殇

Hadoop生态圈介绍

Spark相关文章索引（2）

Spark相关文章索引（2）

Spark SQL内置函数的使用Spark SQL执行计划总结

Spark sbt-assembly 打包

spark2.0 history server 内存溢出解决

Spark 2.0 RPC通信层设计原理分析

在Ubuntu16.04中配置Anaconda（Python2.7）以支持Spark2.0（Pyspark）

Spark2.0源码之1_Broadcast

spark学习1--centOS7.2下基于hadoop2.7.3的spark2.0集群环境搭建

基于spark2.0整合spark-sql + mysql + parquet + HDFS

spark 2.0 踩过的SparkSession的坑

spark2.0 MessageHandler和 TransportResponseHandler

Spark Storage ④ - 存储执行类介绍（DiskBlockManager、DiskStore、MemoryStore）

Scala2.11.8 + Sbt + Maven + IntelliJ Idea + Spark2.0开发环境搭建备忘

Spark2.0机器学习系列之9： 聚类算法(LDA）

Spark2.0机器学习系列之9： 聚类算法(LDA）

大数据Spark “蘑菇云”行动第47课程 Spark 2.0实战之Dataset：collect_list、collect_set、avg、sum、countDistinct等

scalaIDE 与spark2.0 源代码关联

CentOS7 基于Hadoop2.7 的Spark2.0集群搭建

第45课 Spark 2.0实战之Dataset：map、flatMap、mapPartitions、dropDuplicate、coalesce、repartition等

第44课：Spark 2.0编程实战之DataSet案例开发实战

第43课：Spark 2.0编程实战之SparkSession、DataFrame、DataSet开发实战

Spark2.0 特征提取、转换、选择之二：特征选择、文本处理，以中文自然语言处理(情感分类为例)

spark2.0中逻辑回归模型

Spark2.0 特征提取、转换、选择之一：数据规范化，String-Index、离散-连续特征相互转换

Spark2.0机器学习系列之5：GBDT（梯度提升决策树）、GBDT与随机森林差异、参数调试及Scikit代码分析

spark的安装和使用

Spark2.0机器学习系列之3：决策树及Spark 2.0-MLlib、Scikit代码分析

hadoop2.2.0安装spark1.1.0（maven编译）

Spark2.0机器学习系列之9：聚类算法(LDA）

Spark2.0机器学习系列之9：聚类算法(LDA）