E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark2
Spark Streaming之流式词频统计(Socket数据源)
开发环境:系统:Win10开发工具:scala-eclipse-IDE项目管理工具:Maven3.6.0JDK1.8Scala2.11.11
Spark2
.4.3Spark运行环境:系统:LinuxCentOS7
碣石观海
·
2022-06-14 22:18
Spark
Hudi 集成 Hive
环境:hudi0.10.1
spark2
.4.5hive2.3.7hadoop2.7.5将编译好的hudijar,copy到hivelib目录下:cp/Users/xxx/cloudera/lib/hudi
雾岛与鲸
·
2022-05-31 07:42
数据湖
spark
sql
big
data
elasticsearch-spark用法
从5.0版本开始,elasticsearch-hadoop就支持
Spark2
.0。
wwwwwzh
·
2022-05-22 21:43
elasticsearch-spark的用法
从5.0版本开始,elasticsearch-hadoop就支持
Spark2
.0。目前spark支持的数据源有:(1)文件系统:LocalF
ZepheryWen
·
2022-05-22 21:00
spark 2.3 alter table partition 造成分区create_time丢失
简介使用
spark2
.3进行hive表修改分区信息是,会造成hive元数据的create_time置为0。
MasonMa.sy
·
2022-04-24 15:10
spark
sql
spark
hive
big
data
【源码学习-
spark2
.1.1和yarn2.11】SparkOnYarn部署流程(二)ApplicationMaster_CoarseGrainedExecutorBackend
002-源码spark-2.1.1版SparkOnYarn部署流程-ApplicationMasterSparkOnYarn部署流程-CoarseGrainedExecutorBackendSparkOnYarn部署流程-ApplicationMaster如果走集群模式的话,bin/javaorg.apache.spark.deploy.yarn.ApplicationMaster当该命令提交后,
Aponson
·
2022-03-25 07:17
源码
spark
大数据
scala
yarn
源码
【源码学习-
spark2
.1.1和yarn2.11】SparkOnYarn部署流程(一)从sparksubmit提交到yarn启动进程ApplicationMaster
001-源码spark-2.1.1版SparkOnYarn部署流程-SparkSubmit源码三步1.整体框架2.框架组件、通信3.任务的划分、调度、执行这里基于spark-2.1.1版本的源码,官网现在是spark-3.0.0和spark-2.1.1的源码还是有很多区别的。官网下载:https://www.apache.org/dyn/closer.lua/spark/spark-2.1.1/s
Aponson
·
2022-03-25 07:46
源码
spark
大数据
scala
源码spark2.1.1
yarn
Spark2
.0机器学习系列之12: 线性回归及L1、L2正则化区别与稀疏解
概述线性回归拟合一个因变量与一个自变量之间的线性关系y=f(x)。Spark中实现了:(1)普通最小二乘法(2)岭回归(L2正规化)(3)Lasso(L1正规化)。(4)局部加权线性回归(5)流式数据可以适用于线上的回归模型,每当有新数据达到时,更新模型的参数,MLlib目前使用普通的最小二乘支持流线性回归。除了每批数据到达时,模型更新最新的数据外,实际上与线下的执行是类似的。本文采用的符号:拟合
weixin_30709809
·
2022-03-23 08:26
大数据
数据结构与算法
人工智能
Spark2
Linear Regression线性回归
本文使用SparkMllib搭建简单的线性回归例子数据下载地址packageSparkMlibCourse3importorg.apache.log4j.{Level,Logger}importorg.apache.spark.sql.{DataFrame,SQLContext}importorg.apache.spark.{SparkConf,SparkContext}importorg.apa
kicilove
·
2022-03-23 08:10
Spark
spark
mllib
j
spark学习记录
登陆默认在“/root”目录linux目录结构Java8安装Zookeeper安装Hadoop安装
Spark2
.3HA集群分布式安装SparkRDDsparksqldockermysqlsparksessionlinux
mo明奇妙
·
2022-03-18 18:06
big
data
pycharm远程连接spark的初始安装以及问题
2.再虚拟机搭建
spark2
.配置pycharm1.新建项目2.开菜单"Tools->Deployment->Configuration…”3.新建一个通过SFTP把本地文件远程发布到虚拟机的设置。
吃再多糖也不长胖
·
2022-03-18 05:26
问题
pycharm 远程连接运行pyspark
pycharm新建项目,添加如下远程sshinterpreter解释器,输入连接要连接的host和username将linux中spark下的pyspark复制到python中由于是
spark2
.0因此只支持
晚点吧
·
2022-03-18 05:24
推荐系统
pyspark
prcharm
远程连接
spark
Pycharm下连接hive的两种方式!!解决各种姿势报错
windowpycharm下用spark连接hive操作数据一、在/opt/soft/
spark2
34/conf下导入hive-site.xml二、把mysql的驱动包mysql-connector-java
WCL0520
·
2022-03-18 04:19
知识归纳
环境搭建
信息配置
hive
python
spark
SparkSql概念总结
SparkSql目录SparkSql1、SparkonHive和Hiveon
Spark2
、DataFrame和DataSet3、SparkSql底层架构4、什么是谓词下推?
每日小新
·
2022-03-02 07:14
Java+大数据之旅
spark
【
spark2
】【源码学习】【分区数】spark读取 本地/可分割/单个 的文件时是如何划分分区
大数据计算中很关键的一个概念就是分布式并行计算,意思就是将一份原始数据切分成若干份,然后分发到多个机器或者单个机器多个虚拟出来的内存容器中同时执行相同的逻辑,先分发(map),然后聚合(reduce)的一个过程。那么问题是原始文件是怎么切分的呢,在spark读取不同的数据源,切分的逻辑也是不同的。首先spark是有改变分区的函数的,分别是Coalesce()方法和rePartition()方法,但
kyle0349
·
2022-02-28 10:35
spark2
源码学习
spark
spark分区数
pyspark入门系列 - 03 pyspark.sql.DataFrame函数汇总与实践
博客中代码基于
spark2
.4.4版本。不同版本函数会有不同,详细请参考官方文档。
铁甲大宝
·
2022-02-27 11:02
pyspark
spark
数据挖掘
Spark on Yarn2.2.0资源分配
写在前面的文章修改自Spark1.3.0版本:参数本文主要讨论SparkonYarn内存分配情况,所以只需要关注以下几个内心相关的参数(该值来自
spark2
.2.0官网或者spark-shell--help
我猪妹打钱
·
2022-02-22 02:16
spark-sql-perf
测试环境:
spark2
.4.0spark-sql-perf_2.11-0.5.0-SNAPSHOT测试tpcds-kit通过tpcds-kit生成TPC-DS数据。
breeze_lsw
·
2022-02-21 10:12
Kafka+Spark Streaming进行网站黑名单实时过滤
开发环境:
spark2
.3kafka1.1.1黑名单数据是从mysql中获取的。
hipeer
·
2022-02-20 11:59
Spark UI页面样式文件加载错误的排查过程
问题描述spark以cluster模式运行在yarn上.我们访问这个正在运行着的SparkUI时,发现页面缺少样式,如下图.image.png排查我们之前使用
Spark2
.2.0时.也遇到过类似的情况,
海边的贝壳林
·
2022-02-18 05:38
第三十七天(4月27日)(补)
1学习时间学了一个番茄钟的
spark2
学习内容spark3学习总结很勉强的学习了一会,学习效果一般
forrse
·
2022-02-17 02:24
黑猴子的家:sample 随机抽样
1、Codevalsamplerdd=sc.makeRDD(Array("spark1","
spark2
","spark3","spark4","spark5","hadoop1","hadoop2",
黑猴子的家
·
2022-02-15 19:08
使用滑动窗口进行实时的热词统计
开发环境:kafka1.1.1
spark2
.3Java代码:packagecn.spark.streaming;importjava.util.Arrays;importjava.util.HashMap
hipeer
·
2022-02-15 02:55
使用docker安装
spark2
.4.3
前置说明在安装hbase之前,安装了hadoop,因为hbase的数据需要存放到hdfs中spark也与hadoop有关联,但是要理解spark仅仅用到hadoop的库,并不依赖hadoop程序,它不需要安装hadoop,spark仅依赖jdk.spark有四大集群模式:standalone,mesos,yarn,k8s根据数据量,确定使用最简单的standalone模式.下载https://ww
阿亚2011
·
2022-02-14 14:00
基于FlinkSql1.10.0 搭建实时数仓
开源框架与阿里云架构对比分类阿里云架构开源架构数据采集DTS、DataHubcanal、flume数据传输DTS、DataHubkafka数据存储Rds、AnalyticDBMysql、HBase数据计算阿里云实时计算Flink、
spark2
.2Binlog
卡戎li
·
2022-02-13 01:38
spark源码编译过程
本文环境:Scala2.11.8、Maven3.3.9、
Spark2
.3.01.下载源码1.png原因:1.spark对应不同的hadoop版本有不同的支持2.方便后期对源码的更改,并进行编译需要注意2
番茄ozz
·
2022-02-12 16:14
Hadoop集群+Spark集群搭建(一篇文章就够了)
Ubuntu16.04.6(ubuntu-16.04.6-server-amd64.iso)JDK1.8(jdk-8u201-linux-x64.tar.gz)Hadoop2.7.7(hadoop-2.7.7.tar.gz)
Spark2
.1.0
非法小恋
·
2022-02-11 14:22
HBase/Spark Guava依赖冲突解决方案
前言版本guava版本
Spark2
.2.012.0.1HBase1.0.0-cdh5.6.020.0由于guava的版本在16.0以后,不向后兼容,所以Spark程序中集成HBase是会报找不到依赖的方法错误
zfylin
·
2022-02-10 10:05
ET钱包2月19日早报|pEOS将进行空投
ET钱包2019.2.19星期二EOS价值¥24.56(来源Gate.io)ET钱包每日早报----------------------------1.EOS主网数据&行情据EO
SPark2
月19日8:
ET钱包
·
2022-02-06 09:33
Spark Streaming+Kakfa细节剖析
SparkStreaming+Kakfa细节剖析本文基于Kafka1.1.0和
Spark2
.3.0版本源代码进行分析Kafka消费接口Kafka消费接口包含:低级和高级API,这个区分主要针对broker
alan787
·
2022-02-05 09:09
用户画像和留存预测模型
用户画像设计Hive数据结构
Spark2
Hbase逻辑处理样本设计标签设计样本标签表算法模型特征工程模型封装模型应用目标1.spark从hive获取数据对用户特征进行处理写入hbase2.保留30天用户特征数据
carollia
·
2022-01-28 15:59
「Spark 从精通到重新入门(一)」Spark 中不可不知的动态优化
我们Erda的FDP平台(FastDataPlatform)也从
Spark2
.4升级到Spark3.0
·
2021-12-01 14:38
Spark-StructuredStreaming 下的checkpointLocation分析以及对接 Grafana 监控和提交Kafka Lag 监控
一、Spark-StructuredStreamingcheckpointLocation介绍StructuredStreaming在
Spark2
.0版本于2016年引入,是基于SparkSQL引擎构建的可扩展且容错的流处理引擎
张永清
·
2021-11-22 14:00
Centos7——hostname和hosts
修改hostname1.查看主机名2.修改主机名[spark@localhost~]$sudovim/etc/hostname打开之后的内容是:localhost.localdomain删掉
spark2
023
^o^Smile^_^
·
2021-11-07 19:19
服务器
centos
linux
运维
Spark2
.0.0与Elasticsearch6.5的jar包冲突问题
1.问题在工作中,多次遇到了jar包冲突的情况,就以这个为例,整理下解决思路。现有某Spark程序,从Elasticsearch中读取数据进行后续的各种分析。当Spark版本是2.0.0,Elasticsearch的版本是5.2的时候,程序能够正常运行;后来由于项目需要,将Elasticsearch版本升级到了6.5,而Spark版本依然是2.0.0,此时出现了以下情况,异常如下:image.pn
本熊本
·
2021-06-27 20:04
spark Thriftserver配置自定义端口
1.在ambarispark界面中删除port设置:hive.server2.thrift.http.port=100152.启动命令中添加端口号:/usr/hdp/2.6.1.0-129/
spark2
哇哈哈乐园
·
2021-06-27 16:07
Spark core源码分析--shuffle管理器
ShuffleManager的实现类目前只有SortShuffleManager,因此现对它进行分析:
spark2
.4-4901.1ShuffleWriter详解ShuffleWriter是一个抽象类,
倾听内心的声音
·
2021-06-25 00:33
spark 2.3 structured streaming 长时间运行内存溢出排查
structuredstreaming运行一段时间后,就会出现OOM异常,虽然task会重新执行一次,但会导致系统内存监控报警,经过dump线上堆内存,用mat分析后发现一个占用大量内存的HashMapimage.png搜索得知是
spark2
.3
shaun_x
·
2021-06-24 07:18
Apache Spark 2.4 and 3.0
一场介绍
Spark2
.4和3.0的讲座,当然是满座了,并且也站满了。
smilegator
·
2021-06-24 03:29
java中使用SparkLauncher提交spark应用
将开发好的sparkapplication(对于java/scala来说是jar)提交到spark集群执行的方式通常包括两种,一种是通常使用的sparksubmit脚本(
spark2
.x版本是
spark2
alexlee666
·
2021-06-20 23:06
win10 spark+scala+eclipse+sbt 安装配置
转载请务必注明原创地址为:https://dongkelun.com/2018/03/15/winSparkConf/1、首先安装配置jdk1.8以上,建议全部的安装路径不要有空格2、安装
spark2
.1
董可伦
·
2021-06-14 00:21
Spark-sql与hive整合运行在Yarn上,经典错误解决方案!
1.版本
spark2
.3.0hive1.2.12.错误现象jar通过spark-submit提交到yarn运行时报错如下:org.apache.hadoop.hive.ql.metadata.HiveException
文儿哥
·
2021-06-13 20:42
CentOS7搭建Spark-2.3集群
spark2
.3-hadoop-2.71.配置环境变量exportSPARK_HOME=/opt/sparkexportPATH=$PATH:$SPARK/bin2.修改spark-env.shcp/opt
hipeer
·
2021-06-13 04:57
Spark2
.x精通:Standalone模式Master节点启动源码剖析
微信公众号:大数据开发运维架构关注可了解更多大数据相关的资讯。问题或建议,请公众号留言;如果您觉得“大数据开发运维架构”对你有帮助,欢迎转发朋友圈从微信公众号拷贝过来,格式有些错乱,建议直接去公众号阅读对于Spark生产环境部署模式通常是SparkStandalone或SparkOnYarn,这里我们跟踪下源码,分析Standalone模式下Master节点的启动流程,已经相关的初始化流程:源码版
大数据开发运维架构
·
2021-06-12 07:51
如何基于 Pulsar 和 Spark 进行批流一体的弹性数据处理?
2017年7月,
Spark2
.2.0版本正式推出的Sparkstructuredstreaming将SparkSQL作为流处理、批处理底层统一的执
StreamNative
·
2021-06-09 21:13
快乐大数据第8课 Spark计算引擎概述
(一)本地模式启动在node01上cd~/apps/
spark2
.2bin/spark-shell定义变量valrdd=sc.parallelize(1to100,3)#生成三个分区,每个分区中的数值是
快乐大数据
·
2021-06-09 10:21
Spark 2.0 Structured Streaming 分析
前言
Spark2
.0将流式计算也统一到DataFrame里去了,提出了StructuredStreaming的概念,将数据源映射为一张无线长度的表,同时将流式计算的结果映射为另外一张表,完全以结构化的方式去操作流式数据
祝威廉
·
2021-06-08 14:05
Apache hive 3.1.2从单机到高可用部署 HiveServer2高可用 Metastore高可用 hive on spark hiveserver2 web UI 高可用集群启动脚本
后面配置hiveonspark可以使用
spark2
.3.0。而
spark2
.3.0对应的hadoop版本是2.x。重新编译,参考本人写的另一篇文章hive3.1.4
薛定谔的猫不吃猫粮
·
2021-05-21 16:59
Hive
hive
大数据
hadoop
spark
pycharm利用pyspark远程连接spark集群的实现
1方法1.1软件配置
spark2
.3.3,hadoop2.6,python31.2spark配置Spark集群的每个节点的Python版本必须保持一致。在每个节点的$S
·
2021-05-17 17:26
Ubuntu18.04 + docker + hadoop + spark 搭建分布式集群
物料说明宿主机ubuntu18.04dockerjdk1.8.0_211hadoop3.2
spark2
.4.3约定操作的路径为/home/bigdata/step0安装docker容器#删除可能有的旧版本
等流心0316
·
2021-05-15 01:00
上一页
3
4
5
6
7
8
9
10
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他