E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark2.0
Hive报错:cannot access /usr/local/src/spark-2.2.1-bin-hadoop2.6/lib/spark-assembly-*.jar
cannotaccess/usr/local/src/spark-2.1.3-bin-hadoop2.6/lib/spark-assembly-*.jar:Nosuchfileordirectory原因:
spark2.0
Devin01213
·
2020-09-17 05:44
Hive
xgboost on spark
因此选择了
spark2.0
与XGBoost0.7。scala代码/***train
ukakasu
·
2020-09-16 23:14
spark
机器学习
Spark2.0
读写Cassandra数据(scala)
@羲凡——只为了更好的活着
Spark2.0
读写Cassandra数据(scala)为了方便查询一些些业务数据,将hdfs或hive中的数据写入到Cassandra的一个大表中。
羲凡丞相
·
2020-09-16 19:55
Cassandra/Hbase
spark
Cassandra
写入Cassandra
读取Cassandra
scala
Spark2.0
版本新特性学习笔记
一、SparkCore&SparkSQLAPI1、dataframe与dataset统一,dataframe只是dataset[Row]的类型别名2、SparkSession:统一SQLContext和HiveContext,新的上下文入口3、为SparkSession开发的一种新的流式调用的configurationapi4、accumulator功能增强:便捷api、webui支持、性能更高5
风中的大数据
·
2020-09-16 13:38
Spark
spark2.0
版本RDD、DataFrame、DataSet介绍
1.相关概念1)RDD:spark中最基本的弹性分布式数据集,提供了很多api来操作数据集中的元素2)DataFrame:spark的基于RDD的一种高级抽象,在RDD之上加入了scheme信息,给RDD的元素的每一列提供了名称和数据类型的标志;同时它还提供了更多的api,可以实现类似于sql的操作;但是DataFrame也丢掉了RDD的优点:编译时类型检查和面向对象3)DataSet:引入了En
一只土肥圆的猿
·
2020-09-16 11:26
spark
Scala
CDH5.16.2离线安装spark2.1
我尝试了安装
spark2.0
版本和spark2.1版本,均告成功。
小姚同學
·
2020-09-16 05:35
大数据
CDH
spark2
Spark ML特征的提取、转换和选择
相关文章将会发布在我的个人博客专栏《
Spark2.0
机器学习》,欢迎大家关注。
象在舞
·
2020-09-16 02:24
Spark
Scala
机器学习
Spark
2.0机器学习
SparkSession与SparkContext关系详解
SparkSession是
Spark2.0
引如的新概念。SparkSession为用户提供了统一的切入点,来让用户学习spark的各项功能。
华山论键
·
2020-09-15 18:45
spark
SparkSession、SparkContext、SQLContext
SparkSession是
Spark2.0
新引入的SparkSession内部封装了SparkCo
Jsoooo
·
2020-09-15 18:33
Spark
spark学习-SparkSQL-SparkSession与SparkContext
SparkSession-Spark的一个全新的切入点SparkSession是
Spark2.0
引如的新概念。SparkSession为用户提供了统一的切入点,来让用户学习spark的各项功能。
九师兄
·
2020-09-15 17:37
大数据-spark
Spark介绍(七)PySpark
Spark2.0
之后的初始化,会在spark安装pyspark的模块,直接在spark/bin/启动pyspark是会报错的:原因是因为
spark2.0
默认安装的Python是3.6的,而“Spark<
kxiaozhuk
·
2020-09-15 17:50
技术介绍
Spark介绍和实践
spark笔记(1)——SparkContext 与JavaSparkContext互相转化
问题在
spark2.0
中,官方推荐Spark中所有功能的入口点都是SparkSession类,对于Java开发人员来说,就不太方便从SparkSession中获取JavaSparkContext2.0之前
挪威马天雨
·
2020-09-15 17:57
spark
spark
java
SparkContext
SparkContext,SparkConf 和 SparkSession
SparkContext,SparkConf在
Spark2.0
之前,SparkContext是所有Spark功能的结构,驱动器(driver)通过SparkContext连接到集群(通过resourcemanager
大胖头leo
·
2020-09-15 16:30
PySpark学习日志
【Spark】 SparkSession与SparkContext
文章开始先让我们看一张图:从图中我们可以大概看出SparkSession与SparkContext的关系了SparkSession是
Spark2.0
引如的新概念。
孙文旭
·
2020-09-15 16:32
Spark
SparkContext、SparkConf以及进化版的SparkSession
Spark2.0
之前需要显式地创建SparkConf实例,并用Conf实例初始化SparkContext,再用SparkContext创建SQLContext。
詩和遠方
·
2020-09-15 16:38
ETL/BI/大数据
Pyspark访问Hbase
作者:Syn良子出处:http://www.cnblogs.com/cssdongl/p/7347167.html转载请注明出处记录自己最近抽空折腾虚拟机环境时用
spark2.0
的pyspark访问Hbase1.2
weixin_30670151
·
2020-09-14 11:13
通过Spark访问Hbase的Hive外部表(hive on hbase的表)
1.拷贝如下jar包到${spark_home}/jars(
spark2.0
之前是${spark_home}/lib):hbase-protocol-1.2
levy_cui
·
2020-09-14 10:22
Spark
深入理解Spark 2.1 Core (二):DAG调度器的原理与源码分析
上一篇《深入理解
Spark2.0
(一):RDD实现及源码分析》的5.2Spark任务调度器我们省略过去了,这篇我们就来讲讲Spark的调度器。
卓寿杰_SoulJoy
·
2020-09-14 01:59
Spark
深入理解
Spark
2.1
Core
原理与源码分析
spark2.4 on yarn安装
SparkisbuiltwithScala2.11bydefault.Scala2.10usersshoulddownloadtheSparksourcepackageandbuildwithScala2.10support.也就是说
spark2.0
lbship
·
2020-09-14 00:50
spark
[
Spark2.0
]Spark SQL, DataFrames 和Datasets指南
综述SparkSQL是Spark提供的针对结构化数据处理的模块。不同于基本的SparkRDDAPI,SparkSQL提供的接口提供了更多的关于数据和计算执行的信息。在内部,SparkSQL使用这些额外信息完成额外的优化。这里有几种方式可以和SparkSQL相互操作,包括SQL和DatasetAPI。计算结果的时候使用相同的执行本页中所有示例使用到的样例的数据都包含在Spark发布中,而且都能在sp
yhao浩
·
2020-09-12 09:51
spark
Spark高级操作之json复杂和嵌套数据结构的操作一
一,基本介绍本文主要讲
spark2.0
版本以后存在的Sparksql的一些实用的函数,帮助解决复杂嵌套的json数据格式,比如,map和嵌套结构。
大数据星球-浪尖
·
2020-09-12 07:46
Spark之SparkSession
SparkSession是
Spark2.0
引如的新概念。SparkSession为用户提供了统一的切入点,来让用户学习spark的各项功能。
JasonQ_NEU
·
2020-09-11 22:56
spark
Intellij IDEA构建
Spark2.0
以上工程示例
IntellijIDEA新建
Spark2.0
以上Maven工程示例长时间不用IDEA新建工程,新建的步骤都忘记了,再次记录一下,Spark新版中SparkSession需要依赖的包与SparkContext
巴拉巴拉朵
·
2020-09-11 07:47
大数据
Spark
IDEA
我的大数据之路 --pyspark连接mysql数据库
pyspark连接mysql数据库说明一点,
spark2.0
(包括
spark2.0
)以下的版本不支持python3.6以上的版本(包括python3.6)。(亲测到怀疑人生)三台机都要。
小牛头#
·
2020-09-11 03:32
大数据
【备忘】年薪50万2018年最新
Spark2.0
从入门到精通教程
Spark从入门到精通(Scala编程,案例实战,高级特性,Spark内核源码剖析,Hadoop高端)用到技术:Scala,Spark,SparkSQL,SparkStreaming涉及项目:每日uv和销售额统计,各品类top3热卖商品统计,每日top3热点搜索词统计,广告计费实时过滤,热点搜索词滑动统计,各品类TOP3商品热卖滑动实时统计一,Scala的编程详解:第1讲-Spark前世的今生第2
风一样的男人_
·
2020-09-11 02:30
spark
用intellij idea写spark代码
接着下载
spark2.0
源代码以及
spark2.0
预编译版本。再下载并安装scala程序。当然如果你没有安装javasdk的话,那你需要安装javasdk(这些基本安装就不介绍了)。
jxhaha
·
2020-09-10 14:08
spark
Spark -- 模型的导入和导出
因为
Spark2.0
后我们都是用Pipeline去训练模型的,我们以PipelineModel为
TheBiiigBlue
·
2020-08-26 09:17
Spark
Spark2.0
读写Redis数据(scala)——redis5.0.3
@羲凡——只为了更好的活着
Spark2.0
读写Redis数据(scala)——redis5.0.3特别强调楼主使用spark2.3.2版本,redis5.0.3版本1.准备工作在pom.xml文件中要添加
羲凡丞相
·
2020-08-26 09:10
Cassandra/Hbase
[
Spark2.0
]ML piplines管道模式
在本部分,我们将介绍MLPipline的概念。MLPipline提供了一整套建立在DataFrame上的高级API,它能帮助用户创建和调优实际机器学习管道。Pipline的主要思想Mllib标准化了机器学习算法的API,使得将多个算法融合到一个简单的管道或工作流更为简单。本部分将覆盖PiplineAPI的关键思想,这里的pipline概念是受scikit-learn项目启发而来。DataFrame
yhao浩
·
2020-08-24 18:18
spark
[
Spark2.0
]ML 调优:模型选择和超参数调优
本节讲述如何使用MLlib提供的工具来对ML算法和Pipline进行调优。内建的交叉验证和其他工具允许用户在算法和Pipline中优化超参数。模型选择(又名超参数调优)在ML中一个重要的任务就是模型选择,或者使用给定的数据为给定的任务寻找最适合的模型或参数。这也叫做调优。调优可以是对单个的Estimator,比如LogisticRegression,或者是包含多个算法、向量化和其他步骤的整个Pip
yhao浩
·
2020-08-24 18:18
spark
spark2.0
新特性--执行计划
spark2.0
出现了Dataset,一个更加智能的RDD(本质上还是RDD)。
weixin_43866709
·
2020-08-24 04:21
spark
在jupyter notebook上引用pyspark
环境:anaconda(推荐所有人都装,非常的方便)python3.6,
spark2.0
,操作系统为ma
知天易or逆天难
·
2020-08-24 03:47
AI
python
spark
spark DataFrame的创建几种方式和存储
从
Spark2.0
以上版本开始,Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载、转换、处理等功能。
weixin_30251587
·
2020-08-23 03:09
Pyspark 读取本地csv文件,插入parquet格式的hive表中
(注意事项:
Spark2.0
版本开始将sqlContext、hiveContext统一整合为SparkSession)2、读取文件并转换为SparkDataFrame格式。(坑1:路径和语
小晓酱手记
·
2020-08-23 02:39
PySpark
Hive
spark读写csv文件
如果是spark1.6.0请添加maven:com.databricksspark-csv_2.101.4.0compile如果是spark2.0+就不用添加maven了,因为
spark2.0
内部集成了读写
lhxsir
·
2020-08-23 01:57
spark
Spark Broadcast之TorrentBroadcast
概述SparkBroadcast概述中介绍了四种实现Broadcast的思路,这篇关注Spark中具体的实现TorrentBroadcast,其是
Spark2.0
及以后唯一的实现,其他实现都被删除了。
Mr_JieLQ
·
2020-08-22 18:12
spark-core源码
spark
基于 spark ml NaiveBayes实现中文文本分类
思路:1准备数据2,代码编写准备数据这里数据我将它分为两类,1军事,2nba,我将文件数据放在下面代码编写:这里面我用的是sparkml进行代码的实现的,spark版本用的是2.2(
spark2.0
和1.6
记录每一份笔记
·
2020-08-22 09:56
Spark in Action 免积分下载
完全更新
Spark2.0
。下载地址:SparkinAction更多免积分电子书,请访问:IE布克斯网转载于:https://my.oschina.net/u/3070312/blog/2997943
chongyuwan4121
·
2020-08-22 01:50
Dstream生成RDD实例详解
SparkStreaming源码解析系列,返回目录请猛戳这里「腾讯·广点通」技术团队荣誉出品本系列内容适用范围:*2016.12.28update,Spark2.1全系列√(2.1.0)*2016.11.14update,
Spark2.0
zzzzzzzzzzzzzzzzzxs
·
2020-08-21 02:25
spark
第四篇|Spark Streaming编程指南(1)
在2016年7月,
Spark2.0
版本中引入了StructuredStreaming,并在Spark2.2版本中达到了生产级别,StructuredStreaming
西贝木土
·
2020-08-20 17:29
spark
第四篇|Spark Streaming编程指南(1)
在2016年7月,
Spark2.0
版本中引入了StructuredStreaming,并在Spark2.2版本中达到了生产级别,StructuredStreaming
西贝木土
·
2020-08-20 17:29
spark
Waterdrop推动Spark Structured Streaming走向生产环境
前言StructuredStreaming是
Spark2.0
以后新开放的一个模块,相比SparkStreaming,它有一些比较突出的优点:它能做到更低的延迟;可以做实时的聚合,例如实时计算每天每个商品的销售总额
Ricky_Huo
·
2020-08-19 10:12
Spark
Waterdrop
spark sql 中 java.lang.ClassCastException: org.apache.spark.sql.catalyst.expressions.Gener
最近在做推荐系统的项目,使用了
spark2.0
,需要给每个userid推荐出一个list,使用了udf函数udf()在每行执行的时候得到org.apache.spark.SparkException:Failedtoexecuteuserdefinedfunction
zhanghytc
·
2020-08-19 06:08
saprk
Scala
spark2.0
操作hive
用spark直接操作hive方式,完成之前的流量分析统计。spark+hive的作用:1,hive是企业里面离线分析的数据源,hive作为数据源进行rdd加工操作,比如做一些算法类。2,为了紧紧执行hivesql。即已有的hive作业迁移到spark上来。hive运行在mapreduce框架里,要想运行在spark框架里,现在2.0版本就可以直接用hivesql,企业里面很多人做存储过程开发,所以
zzzzzzzzzzzzzzzzzxs
·
2020-08-18 12:57
spark
Intellij IDEA构建
Spark2.0
以上工程示例
IntellijIDEA新建
Spark2.0
以上Maven工程示例长时间不用IDEA新建工程,新建的步骤都忘记了,再次记录一下,Spark新版中SparkSession需要依赖的包与SparkContext
qq_22796957
·
2020-08-18 11:14
Spark走马观花
Spark2.0
机器学习系列之2:Logistic回归及Binary分类(二分问题)结果评估
参数设置α:梯度上升算法迭代时候权重更新公式中包含α:http://blog.csdn.net/lu597203933/article/details/38468303为了更好理解α和最大迭代次数的作用,给出Python版的函数计算过程。#梯度上升算法-计算回归系数#每个回归系数初始化为1#重复R次:#计算整个数据集的梯度#使用α*梯度更新回归系数的向量#返回回归系数defgradAscent(d
千寻千梦
·
2020-08-15 07:57
spark
ml
Spark2.0
功能测试和日志查看
一、
spark2.0
功能测试1.Spark-shell在spark的sbin使用spark-shell命令开启,使用如下例子测试:scala>valfile=sc.textFile("hdfs://namenode
HappyBearZzz
·
2020-08-14 20:30
大数据
Spark 读写CSV的常用配置项
Spark2.0
之前,SparkSQL读写CSV格式文件,需要Databricks官方提供的spark-csv库。在
Spark2.0
之后,SparkSQL原生支持读写CSV格式文件。
三 丰
·
2020-08-11 05:16
Spark
spark流数据处理:Spark Streaming的使用
本文的写作时值Spark1.6.2发布之际,
Spark2.0
预览版也已发布,Spark发展如此迅速,请随时关注SparkStreaming官方文档以了解最新信息。
qq_26091271
·
2020-08-11 05:11
Spark
[spark] Shuffle Write解析 (Sort Based Shuffle)
本文基于Spark2.1进行解析前言从
Spark2.0
开始移除了HashBasedShuffle,想要了解可参考Shuffle过程,本文将讲解SortBasedShuffle。
大写的UFO
·
2020-08-11 02:24
spark
spark
shuffle
源码
上一页
1
2
3
4
5
6
7
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他