E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark2.1.0
Ambari hdp Spark多版本并存
本示例基于ambarihdp-2.6.0.3(
spark2.1.0
),集成spark2.2.2,其他的版本思路类似(spark2.3经测试也是没问题的)下载spark-2.2.2-bin-hadoop2.7
Respect123
·
2023-12-06 05:20
Spark Sql日志分析项目实战
项目简介统计主站最受欢迎的课程TopN访问次数按地市统计主站最受欢迎的TopN课程按流量统计主站最受欢迎的TopN课程环境安装CDH相关软件下载地址Spark环境搭建Spark源码编译(以
spark2.1.0
kangapp
·
2023-07-24 06:17
Spark2.1.0
的Standalone模式部署
1.下载并解压spark安装包:spark-2.1.0-bin-hadoop2.7.tgz,配置好每台机器上spark的环境变量cd/home/hadoop273/sparktar-zxvf/data/soft/spark/spark-2.1.0-bin-hadoop2.7.tgz-C.vim~/.bash_profileexportSPARK_HOME=/home/hadoop273/spark
逸笔草草
·
2023-06-08 11:24
Spark
spark
使用sbt编译打包,spark-submit命令提交的详细步骤
Spark2.1.0
入门:Spark的安装和使用使用sbt打包Scala程序该程序依赖SparkAPI,因此我们需要通过sbt进行编译打包。请在.
GloomyHarbor
·
2023-04-02 10:45
大数据-scala的使用
java
linux
python
spark
大数据
Carbondata1.3.1+Spark2.1.0+Hadoop2.7.3集成问题记录(持续更新)
按照目前所验证的结果是,
spark2.1.0
版本和carbondata1.3.1版本是可以正常使用的。
Jonathan丶Wei
·
2023-03-09 11:09
Spark2.1.0
模型设计与基本架构(上)
随着近十年互联网的迅猛发展,越来越多的人融入了互联网——利用搜索引擎查询词条或问题;社交圈子从现实搬到了Facebook、Twitter、微信等社交平台上;女孩子们现在少了逛街,多了在各大电商平台上的购买;喜欢棋牌的人能够在对战平台上找到世界各地的玩家对弈。在国内随着网民数量的持续增加,造成互联网公司的数据在体量、产生速度、多样性等方面呈现出巨大的变化。互联网产生的数据相较于传统软件产生的数据,有
weixin_30460489
·
2022-11-20 22:10
scala
java
大数据
spark的spark.sql.hive.caseSensitiveInferenceMode参数含义
的参数含义及使用进行梳理、总结1.参数含义Spark2.1.1引入了一个新的配置项:spark.sql.hive.caseSensitiveInferenceMode,默认值是NEVER_INFER,保持与
spark2.1.0
java编程艺术
·
2022-10-30 19:17
spark
spark
schema
infer
hive
表读取慢
spark的spark.sql.hive.caseSensitiveInferenceMode参数含义 - INFER_AND_SAVE
的参数含义及使用进行梳理、总结1.参数含义Spark2.1.1引入了一个新的配置项:spark.sql.hive.caseSensitiveInferenceMode,默认值是NEVER_INFER,保持与
spark2.1.0
灵佑666
·
2022-10-30 19:16
Spark
spark
hive
sql
Hadoop集群+Spark集群搭建(一篇文章就够了)
Ubuntu16.04.6(ubuntu-16.04.6-server-amd64.iso)JDK1.8(jdk-8u201-linux-x64.tar.gz)Hadoop2.7.7(hadoop-2.7.7.tar.gz)
Spark2.1.0
非法小恋
·
2022-02-11 14:22
Spark Streaming如何消费Kafka的大消息(30M-40MB)
本文基于
Spark2.1.0
版本虽然很少有生产环境用Kafka传递超过1M消息的场景(因为高吞吐、低延时的要求,Kafka发布-订阅模型中Producer-Broker-Consumer3方的相关默认配置都是
俺是亮哥
·
2021-05-07 14:29
使用spark-shell访问hive里面的数据
在
spark2.1.0
中,启动就会报错(两个版本的去别可能是前者在执行第一条语句之后去连接启动等动作,而后者是在启动的时候就进行连接启动等动作)。报错信息一样,都是在指定的classpath
扣篮的左手
·
2021-04-28 21:02
spark的数三角形算法_
Spark2.1.0
入门:Spark GraphX 算法实例
【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!返回Spark教程首页GraphX中自带一系列图算法来简化分析任务。这些算法存在于org.apache.spark.graphx.lib包中,可以被Graph通过GraphOps直接访问。本章节主要介绍GraphX中主要的三个算法。PageRank算法PageRank,有成网页排名算法。PageRank通过网络的超链接关系确定
weixin_39609541
·
2020-12-19 21:44
spark的数三角形算法
基于LR的新闻多分类(基于
spark2.1.0
, 附完整代码)
原创文章!转载请保留原始文章链接,谢谢!环境:Scala2.11.8+Java1.8.0_112Spark2.1.0+HanLP1.3.2完整项目代码见我的GitHub:https://github.com/yhao2014/ckoocML(因为HanLP分词模型太大,未上传至项目中,需要的请从HanLP发布页下载,然后解压后将data目录整个放到ckoocML\dictionaries\hanl
yhao浩
·
2020-08-24 18:51
spark
机器学习
Spark2.1.0
事件总线分析——SparkListenerBus详解
阅读提示:阅读本文前,最好先阅读《
Spark2.1.0
之源码分析——事件总线》和《
Spark2.1.0
事件总线分析——ListenerBus的继承体系》。
泰山不老生
·
2020-08-23 05:17
大数据
Spark
Scala
深入理解Spark
Spark2.1.0
事件总线分析——LiveListenerBus详解
阅读提示:阅读本文前,最好先阅读《
Spark2.1.0
之源码分析——事件总线》、《
Spark2.1.0
事件总线分析——ListenerBus的继承体系》及《
Spark2.1.0
事件总线分析——SparkListenerBus
泰山不老生
·
2020-08-23 05:17
大数据
Spark
Scala
深入理解Spark
Spark2.1.0
事件总线分析——ListenerBus的继承体系
阅读提示:阅读本文前,最好先阅读《
Spark2.1.0
之源码分析——事件总线》。
泰山不老生
·
2020-08-23 05:16
大数据
Spark
Scala
深入理解Spark
spark
core
内核
事件
ListenerBus
spark2.1.0
之源码分析——RPC传输管道处理器详解
提示:阅读本文前最好先阅读:《
Spark2.1.0
之内置RPC框架》《
spark2.1.0
之源码分析——RPC配置TransportConf》《
spark2.1.0
之源码分析——RPC客户端工厂TransportClientFactory
泰山不老生
·
2020-08-23 05:16
大数据
Spark
Java
Netty
深入理解Spark
编译spark 2.1.0源码
编译
spark2.1.0
源码准备环境:准备spark源码包:https://archive.apache.org/dist/spark/spark-2.1.0/spark-2.1.0.tgz准备maven
Mars_sock
·
2020-08-23 05:54
spark
Spark2.1.0
之源码分析——事件总线
Spark定义了一个特质[1]ListenerBus,可以接收事件并且将事件提交到对应事件的监听器。为了对ListenerBus有个直观的理解,我们先来看看它的代码实现,见代码清单1。代码清单1ListenerBus的定义private[spark]traitListenerBus[LlogError(s"Listener${Utils.getFormattedClassName(listener
泰山不老生
·
2020-08-23 04:20
大数据
Spark
Scala
深入理解Spark
Spark广播之TorrentBroadcast实现原理
Spark有两种方式:一种是HttpBroadcast(
Spark2.1.0
已经移除),另一种是TorrentBroadcast。
javartisan
·
2020-08-22 16:51
Spark
子雨大数据之Spark入门教程---
Spark2.1.0
入门:第一个Spark应用程序:WordCount 2.2
原博客地址:http://dblab.xmu.edu.cn/blog/1311-2/前面已经学习了Spark安装,完成了实验环境的搭建,并且学习了Spark运行架构和RDD设计原理,同时,我们还学习了Scala编程的基本语法,有了这些基础知识作为铺垫,现在我们可以没有障碍地开始编写一个简单的Spark应用程序了——词频统计。任务要求任务:编写一个Spark应用程序,对某个文件中的单词进行词频统计。
千寻~
·
2020-08-22 03:20
centos6.8安装python3.5
原因是
spark2.1.0
不支持python3.6,所以重新安装python3.5步骤准备安装环境和依赖:yuminstallzlib-develbzip2-developenssl
SusanLovesTech
·
2020-08-20 20:06
小白学技术
Spark DataFrame 的 groupBy vs groupByKey
所用spark版本:
spark2.1.0
先从使用的角度来说,groupBy:groupBy类
weixin_33709219
·
2020-08-03 06:35
Spark DataFrame的groupBy vs groupByKey
所用spark版本:
spark2.1.0
先从使用的角度来说,groupBy:groupBy类
weixin_33849942
·
2020-08-02 21:13
Spark DataFrame 的 groupBy vs groupByKey
所用spark版本:
spark2.1.0
先从使用的角度来说,**groupBy:**
zzzzMing
·
2020-08-02 20:38
大数据计算
大数据
Spark RDD的默认分区数:(spark 2.1.0)
文章转载自:简书-我是亮哥:本文基于
Spark2.1.0
版本新手首先要明白几个配置:spark.default.parallelism:(默认的并发数)如果配置文件spark-default.conf中没有显示的配置
haixwang
·
2020-08-02 15:23
Hadoop
Spark
Hbase...
深入浅出
Spark2.1.0
度量系统——Sink继承体系
阅读提示:阅读本文前,最好请阅读《
Spark2.1.0
——深入浅出度量系统》和《深入浅出
Spark2.1.0
度量系统——Source继承体系》。
泰山不老生
·
2020-07-31 16:14
大数据
Spark
Scala
Metrics
深入理解Spark
Spark2.1.0
——广播管理器BroadcastManager
BroadcastManager用于将配置信息和序列化后的RDD、Job以及ShuffleDependency等信息在本地存储。如果为了容灾,也会复制到其他节点上。创建BroadcastManager的代码实现如下。valbroadcastManager=newBroadcastManager(isDriver,conf,securityManager)BroadcastManager除了构造器定
泰山不老生
·
2020-07-31 16:14
大数据
Scala
Spark
深入理解Spark
深入浅出
Spark2.1.0
度量系统——Source继承体系
阅读提示:阅读本文前,最好请阅读《
Spark2.1.0
——深入浅出度量系统》一文。
泰山不老生
·
2020-07-31 16:14
大数据
Spark
Scala
Metrics
深入理解Spark
Spark2.1.0
——深入浅出度量系统
对于一个系统而言,首先考虑要满足一些业务场景,并实现功能。随着系统功能越来越多,代码量级越来越高,系统的可维护性、可测试性、性能都会成为新的挑战,这时监控功能就变得越来越重要了。在国内,绝大多数IT公司的项目都以业务为导向,以完成功能为目标,这些项目在立项、设计、开发、上线的各个阶段,很少有人会考虑到监控的问题。在国内,开发人员能够认真的在代码段落中打印日志,就已经属于最优秀的程序员了。然而,在国
泰山不老生
·
2020-07-31 11:20
大数据
Spark
Metrics
深入理解Spark
Spark2.1.0
——存储体系概述
本书在5.7节曾介绍过存储体系的创建,那时只为帮助读者了解SparkEnv,现在是时候对Spark的存储体系进行详细的分析了。简单来讲,Spark存储体系是各个Driver、Executor实例中的BlockManager所组成的。但是从一个整体出发,把各个节点的BlockManager看成存储体系的一部分,那么存储体系还有更多衍生内容,比如块传输服务、map任务输出跟踪器、Shuffle管理器等
泰山不老生
·
2020-07-31 11:53
大数据
Spark
Scala
深入理解Spark
spark2.1.0
完全分布式集群搭建-hadoop2.7.3
搭建spark集群:要求安装JDK,完全分布式HADOOP2.7集群。环境:VM搭建的三个虚拟机,均采用centos-6.8-64.iso机器IP与名称对应关系如下:192.168.152.192master192.168.152.193slave1192.168.152.194slave2JDK请自行安装。hadoop2.7集群安装可以参考我的文章搭建hadoop完全分布式集群scala版本:s
sand_clock
·
2020-07-30 09:52
spark
hadoop2.7.3下
spark2.1.0
安装_yarn作业提交
已安装hadoop2.7.3,安装
spark2.1.0
设f1为master,f2至f5位worker软件安装目录设为/data1-下载安装scala-2.11.8https://www.scala-lang.org
hjw199089
·
2020-07-30 08:25
[3]Spark
JAVA1.7+Hadoop 2.7.3+Spark 2.1.0一主多从集群搭建
文章目录0集群信息及基本初始化0.1集群初始化0.2集群信息1Hadoop2.7.3环境搭建1.1下载JDK1.7、Hadoop2.7.3、
Spark2.1.0
包1.2解压JDK安装包1.3配置java
ibless
·
2020-07-30 07:30
大数据
用maven编译
spark2.1.0
Java7+,这里是官方文档中要求的maven和jdk版本,其他版本未测;2.执行exportMAVEN_OPTS="-Xmx2g-XX:ReservedCodeCacheSize=512m"3.切换到
spark2.1.0
bit小兵
·
2020-07-28 17:00
Spark 2.1.0的运行模式
Spark2.1.0
支持的运行模式Spark支持多种运行模式,可以在集群环境中运行,也可以单机本地运行,或者在单机上部署伪分布集群来运行Spark。
远太狼
·
2020-07-27 22:52
Spark
Spark2.1.0
——SparkContext初始化之Spark环境的创建
阅读指导:在《
Spark2.1.0
——SparkContext概述》一文中,曾经简单介绍了SparkEnv。本节内容将详细介绍SparkEnv的创建过程。
泰山不老生
·
2020-07-27 19:15
大数据
Spark
Scala
深入理解Spark
Spark2.1.0
安装和配置
Spark主要使用HDFS充当持久化层,所以完整地使用Spark需要预先安装HadoopHadoop的下载地址:http://hadoop.apache.org/Spark的下载地址:http://spark.apache.org/同时也可使用Ambari安装Hadoop生态系统的所有需要的组件,参看文章:http://blog.csdn.net/wee_mita/article/details/
狮锅艺
·
2020-07-27 17:47
Spark
Spark原理
spark Ml 机器学习之 线性回归
本文版本选自
spark2.1.0
写这篇文章之前已阅读过官网api,算法本身自认为自己手动写,应该可以搞定(进一步优化不提);但是官网却看的我迷迷糊糊的,参数选择和结果获取,描述不够清晰,写这篇文字的目的就是为了理清所有官网没有解答的谜团
zhangshoutian
·
2020-07-12 19:41
spark
idea sbt Spark环境搭建
最近在参考厦门大学数据库实验室的博客http://dblab.xmu.edu.cn/blog/1492-2/进行sparksbtidea开发环境搭建,博客中使用的
spark2.1.0
版本,而个人使用了目前最新的
小林子405
·
2020-07-11 12:31
spark资源调度流程总结
现在对相关
spark2.1.0
源码的学习做个梳理。一应用程序提交时Master中对Driver和Executor的启动控制和资源分配机制。
壹禅
·
2020-07-05 10:18
spark
spark源码编译
如果官方给的安装包不能满足我们生产环境的要求又或者我们基于自己的需求修改了spark源码,那么我们就需要对spark源码重新编译打包,相关方法和命令官网也写的特别清楚,我们只需要安装官网一步步操作即可,本文基于
spark2.1.0
Sx_Ren
·
2020-07-02 07:53
使用Eclipse编写Spark应用程序(Scala+Maven) scala ide for eclipse
本教程介绍如何在Ubuntu中使用Eclipse来开发scala程序(使用Maven工具),在
Spark2.1.0
,scala2.11.8下验证通过。
DemonHunter211
·
2020-07-02 07:00
JAVA
spark dataframe, rdd unpersist的坑
目前使用的
Spark2.1.0
有一个很坑爹的问题,如果persist一个df1后unpersist与df1相关的df0,那么df1也会被unpersist掉,导致后续用到df1的地方又需要重新算df1,
Code_LT
·
2020-07-01 08:09
Spark
Hadoop2.7.3和
Spark2.1.0
集群详细搭建教程
1.本文介绍本文包括如下内容Ubuntu虚拟机安装过程Ubuntu配置静态IP配置SSH免密登录Ubuntu国内APT软件源的配置JDK,Scala,MySQL软件安装Hadoop集群安装Spark集群安装Anaconda安装使用到的软件的版本及下载地址VMwareWorkstation12.5.2ubuntu-14.04.1-server-amd64XShell5XFTP5JDK1.8Scala
upshi
·
2020-06-27 10:46
spark
hadoop
Spark 2.0分布式集群环境搭建
本教程采用Spark2.0以上版本(比如Spark2.0.2、
Spark2.1.0
等)搭建集群,同样适用于搭建Spark1.6.2集群
love666666shen
·
2020-06-24 08:53
大数据
Spark2.1.0
完全分布式环境搭建
以下操作都在Master节点以Hadoop用户进行操作。1)下载二进制包spark-2.1.0-bin-hadoop2.7.tgz2)解压并移动到相应目录3)修改相应的配置文件vi~/.bash_profile添加:exportSPARK_HOME=/home/hadoop/chadoop/spark/spark-2.1.1-bin-hadoop2.6/exportPATH=$PATH:$SPAR
gakki_smile
·
2020-06-23 09:14
hadoop集群配置
(基于最新的Kafka version 0.10.2 new consumer API )想要Spark Streaming精确一次消费Topic?拿去不谢,记得点赞和分享!
本文基于
Spark2.1.0
、Kafka0.10.2、Scala2.11.8版本背景:Kafka做为一款流行的分布式发布订阅消息系统,以高吞吐、低延时、高可靠的特点著称,已经成为SparkStreaming
俺是亮哥
·
2020-06-23 04:16
Scala(spark)读写Hbase示例
Scala2.11.8;
Spark2.1.0
。仅在本机集群通过,供参考。
suyeye
·
2020-06-22 19:15
Spark学习记录
Spark2.1.0
之初体验
在《
Spark2.1.0
之运行环境准备》一文中,已经介绍了如何准备好基本的Spark运行环境,现在是时候实践一下,以便于在使用过程中提升读者对于Spark最直接的感触!
泰山不老生
·
2020-06-22 17:20
大数据
Spark
Scala
Shell
深入理解Spark
上一页
1
2
3
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他