E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark2
Kylin 的架构和原理
从算法角度讲,现有的大数据框架可分为以下几类:1.并行计算:mapreduce、
spark2
.列式存储:parquet,节省IO3.
平生在翠微
·
2020-06-24 10:31
kylin
scala实现hbase批量写入
一、编程环境:1、JDK1.82、scala2.11.73、hadoop3.0.0、hbase2.1.0、
spark2
.4.0操作系统:centos7.6,编译器使用idea2019二、实现步骤:1、添加
落叶1210
·
2020-06-24 10:22
大数据
scala及spark
spark on yarn部署
DynamicallocationExternalShuffleServiceshuffle文件目录clustermodeclientmode三.调度FairScheduler队列设置资源抢占(Preempt)delayscheduling运行环境
spark2
.0.2cdh5.9.0
breeze_lsw
·
2020-06-24 09:24
Spark
Spark 2.0分布式集群环境搭建
本教程采用
Spark2
.0以上版本(比如
Spark2
.0.2、
Spark2
.1.0等)搭建集群,同样适用于搭建Spark1.6.2集群
love666666shen
·
2020-06-24 08:53
大数据
GraphX编程指南(
spark2
.4)
本文是在学习graph的时候顺便翻译为中文,以便以后查阅,如果大家阅读过程中发现问题,请大家指正。thx目录概述开始属性图属性图示例图操作图操作概览属性操作结构操作连接运算邻域聚合AggregateMessages(aggregateMessages)MapReduce三元组过度指南(遗留)计算度CollectingNeighborsCachingandUncachingPregelAPIGrap
llflilongfei
·
2020-06-24 08:22
spark
spark参考
blog.csdn.net/englishsname/article/details/72864537Scalaapidoc:http://www.scala-lang.org/api/2.11.0-M4
Spark2
.0
lianzhouxiaowu
·
2020-06-24 04:23
spark
自定义开发Spark ML机器学习类 - 1
.-2.基于RDD的API,属于spark.mllib包.从
Spark2
.0开始,Spark的API全面从RDD
liam08
·
2020-06-24 04:41
Spark
“西游记之大圣归来”关键词提取-textrank
功能输出文本关键词以及热度值工具python2
spark2
.0.2数据集两个字段(评论人,评论内容),480条短评;结果引言textrank是一个基于词共现的算法,目前最新的
spark2
.2.1的ml模块里没有
我满眼的欢喜都是你
·
2020-06-24 03:46
nlp
“西游记之大圣归来”短评主题分析-Latent Dirichlet Allocation
工具python2
spark2
.0.2引言在机器学习中,LDA是两个常用模型的简称:线性判别分析(LinearDiscriminantAnalysis)和隐含狄利克雷分布(LatentDirichletallocation
我满眼的欢喜都是你
·
2020-06-24 03:45
nlp
Spark 2.0 机器学习 ML 库:常见的机器学习模型(Scala 版)
而使用别人设计好的机器学习库如
Spark2
.0ML,那是基本不需要什么基础的,开箱即用。首先,看一个简单、完整、规范的案例,无疑是最好的方式。
IT小村
·
2020-06-24 02:17
机器学习
Spark 通过submit作业启动流程源码分析
基于
Spark2
.4.4版本作业通过submit操作提交作业./bin/spark-submit\--class\--master\--deploy-mode\--conf=\...
冬瓜螺旋雪碧
·
2020-06-24 02:55
Spark
源码
Shell
10.4
spark2
structured streaming 实时计算hdfs文件输入流cdh
继上一篇
spark2
.4cdh演示:实时监控hdfsa.文件1b.添加文件代码importorg.apache.spark.sql.SparkSessionimportorg.apache.spark.sql.types.StructTypeobjectFileInputStructuredStreaming
我的海_
·
2020-06-24 01:00
sparkR调用R的执行分布式计算
环境
spark2
.4.5,R3.6,install.package("SparkR"),默认sparkR提供的函数支持对应的版本为
spark2
.4.5不支持2.4.0如:将data.table,data.framedt.score
我的海_
·
2020-06-24 01:59
spark2
Spark2
.8.0源代码导入,XMPP即时通讯Openfire和Spark源代码导入
关于Spark这里的Spark是指XMPP协议的一个客户端,并非目前非常流行的大数据计算框架Spark,误看名称进入博客的同学不好意思了,可以绕道了。因为平时实用XMPP协议的服务器大多实用的openfire,最近公司有需求,需要做一个桌面的入口,并实现部分即时通讯功能,于是便想研究下Spark的项目结构和部分代码。导入后的结构如下:--------------------------------
Jaiky_杰哥
·
2020-06-23 20:22
IM开发
Spark2.8.0
Openfire
Spark
源代码导入
XMPP协议
java8下spark-streaming结合kafka编程(spark 2.0 & kafka 0.10)
1.相关组件版本首先确认版本,因为跟之前的版本有些不一样,所以才有必要记录下,另外仍然没有使用scala,使用java8,
spark2
.0.0,kafka0.10。
_delin
·
2020-06-23 20:55
spark
hadoop
Spark2
x 学习笔记(1)RDD编程
1概览每个spark程序都有一个驱动程序运行在用户的main函数中,以及在集群中执行不同的并行操作。第一个抽象概念:RDD是元素的集合。这个集合可以被分到集群中的不同机器中并行处理。RDD可以由hadoop支持的文件系统中的文件创建,或者是驱动程序中的scala集合。RDD可以被保存在内存中被并行操作有效服用。第二个抽象概念:sharedvariables。共享变量可以在task之间或者task与
xiaotong_cloud
·
2020-06-23 16:13
大数据
java.net.SocketTimeoutException: 60000 millis timeout while waiting for channel to be ready for read
环境:-
Spark2
.11-2.0.2-Hadoop2.6.5使用Spark连接HDFS,在高并发的时候,偶尔会遇到以下异常:2017-01-2610:30:29,079ERRORorg.apache.hadoop.hdfs.server.datanode.DataNode
煉心_
·
2020-06-23 09:24
Spark
Hadoop
Spark
Hadoop
Spark2
.1.0完全分布式环境搭建
以下操作都在Master节点以Hadoop用户进行操作。1)下载二进制包spark-2.1.0-bin-hadoop2.7.tgz2)解压并移动到相应目录3)修改相应的配置文件vi~/.bash_profile添加:exportSPARK_HOME=/home/hadoop/chadoop/spark/spark-2.1.1-bin-hadoop2.6/exportPATH=$PATH:$SPAR
gakki_smile
·
2020-06-23 09:14
hadoop集群配置
TensorflowOnSpark遇到的几个问题和解决方法
我的版本如下:Hadoop2.7
Spark2
.3.1Python3.6.3Tensorflow1.5遇到的问题如下:(1)将文件转为csv格式时,就出现错误,错误位置为sc=SparkContext(conf
程序媛的小笔记
·
2020-06-23 09:20
第二章
spark2
.3 mllib机器学习-数据操作
*本系列”sparkmllib机器学习”,均以最新
spark2
.3.0版本为蓝本进行编写,参考书籍>黄美灵版,转载请注明出处GitHub地址:https://github.com/future-fu/learnsparkmllib
数字支配万物的流转
·
2020-06-23 09:22
spark2
sparkmllib
第三章
spark2
.3 mllib机器学习-mllib矩阵向量
本系列”sparkmllib机器学习”,均以最新
spark2
.3.0版本为蓝本进行编写,参考书籍>黄美灵版,转载请注明出处GitHub地址:https://github.com/future-fu/learnsparkmllib
数字支配万物的流转
·
2020-06-23 09:51
spark2
sparkmllib
第二节
Spark2
.3源码解析之SparkContext的创建及源码
本系列”
spark2
源码解析”,均以最新
spark2
.3.0版本为蓝本进行编写,转载请注明出处一目录SparkContext定义从源码中看出SparkContext包含哪些功能重点解读createTaskSchedulerSparkContext
数字支配万物的流转
·
2020-06-23 09:51
spark2
大数据
第一章
spark2
.3 mllib机器学习简介
本系列”sparkmllib机器学习”,均以最新
spark2
.3.0版本为蓝本进行编写,参考书籍>黄美灵版,转载请注明出处GitHub地址:https://github.com/future-fu/learnsparkmllib
数字支配万物的流转
·
2020-06-23 09:51
spark2
sparkmllib
(一)Spark——基础
目录一、Spark概述1.什么是
Spark2
.Spark特点3.Spark内置模块介绍二、Spark部署模式1.下载
Spark2
.集群角色2.1Master和Worker2.1.1Master2.1.2Worker2.2Driver
fseast
·
2020-06-23 09:00
Spark
大数据
spark
IntelliJ Idea 搭建spark 开发环境
环境:
spark2
.0.0scala2.11.8maven3.9.9idea151.Idea的安装.Idea可以在官网上下载。
Cherish_Qiang
·
2020-06-23 05:16
(基于最新的Kafka version 0.10.2 new consumer API )想要Spark Streaming精确一次消费Topic?拿去不谢,记得点赞和分享!
本文基于
Spark2
.1.0、Kafka0.10.2、Scala2.11.8版本背景:Kafka做为一款流行的分布式发布订阅消息系统,以高吞吐、低延时、高可靠的特点著称,已经成为SparkStreaming
俺是亮哥
·
2020-06-23 04:16
Hadoop2.7.3+
Spark2
.1.0完全分布式集群搭建过程
1.选取三台服务器(CentOS系统64位)114.55.246.88主节点114.55.246.77从节点114.55.246.93从节点之后的操作如果是用普通用户操作的话也必须知道root用户的密码,因为有些操作是得用root用户操作。如果是用root用户操作的话就不存在以上问题。我是用root用户操作的。2.修改hosts文件修改三台服务器的hosts文件。vi/etc/hosts在原文件的
dhgr33280
·
2020-06-23 04:36
Spark权威指南(中文版)----第15章 Spark如何在集群环境运行
本书详细介绍了
Spark2
.x版本的各个模块,目前市面上最好的
Spark2
.x学习书籍!!!扫码关注公众号:登峰大数据,阅读中文Spark权威指南(完整版),系统学习Spark大数据框架!
大数据辅导员
·
2020-06-23 03:57
Flink
机器学习
Spark权威指南(中文版)----第14章 分布式共享变量
本书详细介绍了
Spark2
.x版本的各个模块,目前市面上最好的
Spark2
.x学习书籍!!!扫码关注公众号:登峰大数据,阅读中文Spark权威指南(完整版),系统学习Spark大数据框架!
大数据辅导员
·
2020-06-23 03:57
spark1.63升级到
spark2
.3.1环境变量配置
由于
spark2
.3需要jdk1.8的支持,因此spark-submit与spark-sql需要指定jdk版本,具体方式见测试用例1.修改个人用户配置文件.bashrc,注释以前的spark环境与java
cjlion
·
2020-06-22 23:08
spark
收藏 | 100+篇大数据学习资讯,带你玩转大数据分析!
MapReduceHBase基础知识,面向列的实时分布式数据库完全分布式HBase集群安装配置示例什么是Spark,如何使用Spark进行数据分析2分钟读懂大数据框架Hadoop和Spark的异同IBM专家亲自解读
Spark2
.0
数控小J
·
2020-06-22 22:08
人工智能
大数据应用
预测分析
商业智能
数据分析
Spark2
.x学习笔记:4、Spark程序架构与运行模式
4、Spark程序架构与运行模式4.1Spark程序最简架构所有的Spark程序运行时,主要由两大类组件Driver和Excutor构成。每个Spark程序运行时都有一个Driver,Driver是进程包含了运行所需要的CPU和内存等资源,Driver是我们应用程序main函数所在进程。比如当我们运行一个spark-shell时,就创建了一个driver程序。Executor可以有多个,其职责是运
程裕强
·
2020-06-22 22:55
Spark2.x学习笔记
Spark2.x学习笔记
cloudera manager 升级到jdk1.8
CDH5.11自带的是spark1.6,在把spark升级到2.2之后,添加服务,执行服务
Spark2
上的命令部署客户端配置阶段报错。
浮生物语QAQ
·
2020-06-22 21:24
spark
Scala(spark)读写Hbase示例
Scala2.11.8;
Spark2
.1.0。仅在本机集群通过,供参考。
suyeye
·
2020-06-22 19:15
Spark学习记录
部署
Spark2
.2集群(on Yarn模式)
机器规划本次实战用到了三台CentOS7的机器,身份信息如下所示:IP地址hostname(主机名)身份192.168.119.163node0NameNode、ResourceManager、HistoryServer、Master192.168.119.164node1DataNode、NodeManager、Worker192.168.119.165node2DataNode、NodeMan
程序员欣宸
·
2020-06-22 18:35
spark
Spark实战
Spark2
.1.0之初体验
在《
Spark2
.1.0之运行环境准备》一文中,已经介绍了如何准备好基本的Spark运行环境,现在是时候实践一下,以便于在使用过程中提升读者对于Spark最直接的感触!
泰山不老生
·
2020-06-22 17:20
大数据
Spark
Scala
Shell
深入理解Spark
Structed Streaming写入数据到mysql,kafka中
structedstreaming是
spark2
.x之后更新的,一句话介绍就是比sparkstreaming更高级的api工具。举个例子,当我们做实时单词统计的时候,每一个批次的数据都能统计出来。
慕容馨磊
·
2020-06-22 11:01
spark
Spark2
.2(五)SparkSQL读写Hive
IDEA中使用SparkSQL读写Hive添加依赖libraryDependencies++=Seq("org.apache.spark"%%"spark-core"%"2.2.0","org.apache.spark"%%"spark-sql"%"2.2.0","org.apache.spark"%%"spark-sql"%"2.2.0","com.databricks"%%"spark-csv
H_w
·
2020-06-22 08:30
Spark
Spark3.0分布,Structured Streaming UI登场
Spark3.0主要的新特性如下:相比于
Spark2
.4,性能提升了2倍,主要体现在自适应查询执行,动态分区修剪等方面。Pandas
独孤风
·
2020-06-22 08:00
[Spark]Spark RDD 指南三 弹性分布式数据集(RDD)
Spark2
.3.0版本:
Spark2
.3.0创建RDDSpark的核心概念是弹性分布式数据集(RDD),RDD是一个可容错、可并行操作的分布式元素集合。
SunnyYoona
·
2020-06-22 05:16
Spark
大数据实战项目之新闻话题分析 学习笔记(九)
概述及版本下载Hue编译及安装Hue的基本配置与服务启动Hue与HDFS集成Hue与yarn集成Hue与MySql集成Hue与HBase的集成对采集的数据进行可视化分析Hue需要注意的几个地方第17章:
Spark2
爱学习的Neehong
·
2020-06-22 05:19
技术学习
《网络安全态势感知》读书笔记
文章目录Ⅰ基础知识1开启网络安全态势感知的旅程2大数据平台和技术2.1大数据基础2.1.1大数据关键技术2.1.2大数据计算模式2.2大数据主流平台框架2.2.1Hadoop2.2.2
Spark2
.2.3Storm2.3
Alst0n
·
2020-06-22 04:24
读书笔记
Spark 3.0发布啦,改进SQL,弃Python 2,更好的兼容ANSI SQL,性能大幅提升
ApacheSpark3.0.0正式发布啦,ApacheSpark3.0是在
Spark2
.x的基础上开发的,带来了新的想法和功能。
老夫编程说
·
2020-06-22 04:00
spark
ansi
sql
以源码为基础,结实际案例,深入分析Spark核心原理和生态圈BDAS
前言:图解Spark:核心技术与案例实战以
Spark2
.0版本为基础进行编写,全面介绍了Spark核心及其生态圈组件技术。
哆啦小迁
·
2020-06-22 03:42
java
数据库
微服务
python
java
大数据
分布式
spark
Spark与Scala的安装配置过程
blog.csdn.net/u013457387/article/details/87856770安装完成后出来这样的页面即可这里我是Scala和spark一起安装的比较方便,一些路径或版本不同的可以更改二、下载scala和
spark2
.1
戏 子
·
2020-06-22 02:23
大数据
Spark2
.x详解
Spark2
.x1.Spark初始1.1:什么是Spark1.2:Spark与mapreduce的区别2.SparkCore2.1:RDD2.2:Spark任务执行原理2.3:代码流程2.4:Transformations
LssTwl
·
2020-06-22 00:47
大数据
Ubuntu18.04安装
spark2
.4.5
Ubuntu18.04安装spark下载压缩包配置spark运行并测试spark系统:Ubuntu18.04java-verison:1.8hadoop-version:2.x.xspark-version:2.4.5安装spark前必须安装hadoop并配置环境变量,若没进行按照或相关配置请查看:https://blog.csdn.net/LeeGe666/article/details/106
NH4L
·
2020-06-22 00:14
hadoop
ubuntu16.04安装NVIDIA及CUDA,配置OpenCL
ubuntu16.04安装NVIDIA及cuda说明:拟使用ubuntu16.04LTS,NVIDIAdriver384及cuda9.0,jdk1.8,scala2.11.8,hadoop2.7.6,
spark2
.1.0
Fortuna_i
·
2020-06-21 20:03
GPU
Linux
SparkCL
hadoop2.6.5 scala2.11.12
spark2
.3.0安装配置及出现的问题(单机版伪分布式)
hadoop2.6.5scala2.11.12
spark2
.3.0安装配置及出现的问题(单机版伪分布式)操作系统是deepinlinux1.安装配置Hadoop、JDK、SSH服务可参考以下链接超详细单机版搭建
Can96
·
2020-06-21 18:28
大数据环境配置
Win10+python3.6+jdk1.8+
spark2
.4.3+hadoop2.7.6
Win10+python3.6+jdk1.8+
spark2
.4.3+hadoop2.7.61.下载安装jdk(1)创建oracle账户:用户名******、密码:******;https://download.oracle.com
CX_Sunshine
·
2020-06-21 18:42
大数据
上一页
20
21
22
23
24
25
26
27
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他