E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
java调用spark
大数据学习入门到实战教程,精心整理万字长文入门,老奶奶看了都说学会了
换个角度说,大数据是:1、有海量的数据2、有对海量数据进行挖掘的需求3、有对海量数据进行挖掘的软件工具(hadoop、
spark
、storm、flink、tez
悦悦学Python
·
2024-01-16 18:10
hive:创建自定义python UDF
addfilehdfs://home/user/py3_script/;set
spark
.yarn.dist.archives=hdfs://home/user/py3.tar.gz;set
spark
.shuffle.hdfs.enabled
青盏
·
2024-01-16 16:35
other
hive
hadoop
数据仓库
Spark
-RDD算子大全
Spark
RDD(弹性分布式数据集)是
Spark
中的核心抽象,它代表一个不可变、分区的分布式数据集合。
Young_IT
·
2024-01-16 15:17
大数据开发
spark
大数据
分布式
78、
Spark
SQL之延伸知识之Hive On
Spark
Spark
SQL与HiveOn
Spark
区别Hive是目前大数据领域,事实上的SQL标准。
ZFH__ZJ
·
2024-01-16 15:10
记录学习
Spark
+Kafka构建实时分析Dashboard案例中遇到的问题(一)安装
目录推荐环境系统和软件安装安装Ubuntu分辨率问题虚拟机桥接模式连不上网Hadoop安装Ubuntu16.04下用aria2下载百度网盘大文件其他在安装hadoop时遇到的问题hadoop用法小结单机模式伪分布式
Spark
白令屿
·
2024-01-16 13:53
大数据处理
spark
kafka
python
大数据
Python 与 Py
Spark
数据分析实战指南:解锁数据洞见
Python和Py
Spark
作为强大的工具,提供了丰富的库和功能,使得数据分析变得更加高效和灵活。在这篇文章中,我们将深入探讨如何使用Python和Py
Spark
进行数据分析,包
库库的里昂
·
2024-01-16 12:27
杂谈
人工智能
chatgpt
信息可视化
开发语言
数据挖掘
Spark
r
https://
spark
.rstudio.com/index.html如何使用
spark
在上述这个链接有详细文档。下一个问题,如搭建一个
spark
平台!
Liam_ml
·
2024-01-16 12:57
最新智能AI系统ChatGPT网站程序源码+详细图文搭建部署教程,Midjourney绘画,GPT语音对话+ChatFile文档对话总结+DALL-E3文生图
一、前言
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2024-01-16 09:57
人工智能
软件源码
程序源码
人工智能
chatgpt
语音识别
midjourney
AI作画
【Flink-1.17-教程】-【一】Flink概述、Flink快速入门
【Flink-1.17-教程】-【一】Flink概述、Flink快速入门1)Flink是什么1.1.有界流和无界流1.2.Flink的发展史2)Flink特点3)Flinkvs
Spark
Streaming4
bmyyyyyy
·
2024-01-16 08:16
Flink
flink
java
大数据
#flink概述
#flink快速入门
#wordcount
Spark
Structured Streaming + Kafka +Json
org.apache.
spark
spark
-sql-kafka-0-10_2.11 2.1.1 org.apache.
spark
spark
-sql_2.11 2.1.1importorg.apache.
spark
.sql.
Spark
SessionobjectMyTest
zhangxl-jc
·
2024-01-16 07:00
kafka
spark
spark
kafka
json
StructStreaming整合Kafka操作
StructStreaming整合Kafka操作Maven依赖org.apache.
spark
spark
-sql-kafka-0-10_2.123.3.1实时数据ETL准备数据/***模拟产生基站日志数据
健鑫.
·
2024-01-16 07:29
spark
kafka
scala
spark
Spark
SQL和Hive语法差异
Spark
SQL和Hive语法差异1、仅支持Hive
Spark
SQL关联条件on不支持函数rand()创建零时表时,
Spark
不支持直接赋值null
Spark
无法读取字段类型为void的表
Spark
SQL
中长跑路上crush
·
2024-01-16 07:28
Spark阶段
hive
hadoop
数据仓库
spark
分布式
Structured Streaming 整合 Kafka指南
从kafka读取数据//Subscribeto1topicvaldf=
spark
.readStream.format("kafka").option("kafka.bootstrap.servers",
鸭梨山大哎
·
2024-01-16 07:27
kafka
kafka
Py
Spark
Structured Streaming kafka示例
Py
Spark
StructuredStreamingkafka示例直接上代码:#!
张行之
·
2024-01-16 07:52
大数据
pyspark
structured
streaming
kafka
python
Structured Streaming配置Kafka参数
overridedefstream():DataFrame={valkafkaConf=newKafkaConfigurationval
spark
=Gx
Spark
Session().session()valdf
sunyang098
·
2024-01-16 07:18
spark
spark
streaming
kafka
配置
Structured_Streaming和Kafka整合
结构化编程模型输出终端/位置默认情况下,
Spark
的结构化流支持多种输出方案:1-consolesink:将结果数据输出到控制台。
小希 fighting
·
2024-01-16 06:14
kafka
分布式
spark
大数据
seatunnel 消费kafka数据写入clickhouse
SeaTunnel是一个非常易用、高性能、支持实时流式和离线批处理的海量数据集成平台,架构于Apache
Spark
和ApacheFlink之上,支持海量数据的实时同步与转换。
冰帆<
·
2024-01-16 05:41
seatunel
大数据
大数据
大数据技术原理与应用 第三版 林子雨 期末复习(五) 第十章
SPARK
大数据技术原理与应用第三版林子雨期末复习(五)第十章
SPARK
简介
spark
特点
spark
与Hadoop对比Hadoop缺点
spark
优点RDDRDD概念RDD间存在依赖关系分为宽依赖与窄依赖RDD的两种常用操作简介
头发多多,肆意生长
·
2024-01-16 05:22
大数据技术
spark
big
data
hadoop
Spark
- 资源动态释放
>通过
spark
-submit会固定占用一占的资源,有什么办法,在任务不运作的时候将资源释放,让其它任务使用呢,yarn新版本默认已经支持了,我们使用的是HDP。##版本如下!
kikiki4
·
2024-01-16 03:58
Spark
MLlib ----- ALS算法
补充在谈ALS(AlternatingLeastSquares)之前首先来谈谈LS,即最小二乘法。LS算法是ALS的基础,是一种数优化技术,也是一种常用的机器学习算法,他通过最小化误差平方和寻找数据的最佳匹配,利用最小二乘法寻找最优的未知数据,保证求的数据与已知的数据误差最小。LS也被用于拟合曲线,比如所熟悉的线性模型。下面以简单的线性一元线性回归模型说明最小二乘法。假设我们有一组数据{(x1,y
创作者mateo
·
2024-01-16 02:54
spark
spark
MLlib
ALS
spark-ml
算法
ClickHouse - 01
与其特性在大数据处理场景中,流处理和批处理使用到的技术大致如下:大数据处理场景流程.png批处理会将源业务系统中的数据通过数据抽取工具(例如Sqoop)将数据抽取到HDFS中,这个过程可以使用MapReduce、
Spark
ArthurHC
·
2024-01-16 02:17
Python语法进阶学习--进程和线程
后续很快就要进入
Spark
的学习,在学习之前也是要铺垫一个知识点:进程是什么?线程是什么?两者有什么区别?又有什么关系?
Yan_bigdata
·
2024-01-15 23:34
python
学习
开发语言
并发和并行
进程和线程
互斥锁
守护进程
【
Spark
】
Spark
原理简述
发现一篇很好的文章,适合对
Spark
有一定了解的小伙伴阅读主要介绍下自己在学习
spark
当中的一些理解和学习过程中踩到的坑,对
spark
时间效率优化的点做个总结,各位大佬轻拍。
turboSniper
·
2024-01-15 14:57
大数据
spark
大数据
分布式
streaming 101
看之前就知道这是两篇能够提升你对流处理理解的文章,不是一般的提升,可以说是一种升华,因为他谈的不是一个具体的工具(
spark
streaming,flink等),而是谈流处理应该是怎么样的,流处理要打败批处理一统天下的话需要有什么特性
Bitson
·
2024-01-15 12:31
Spark
原理——Shuffle 过程
Shuffle过程Shuffle过程的组件结构从整体视角上来看,Shuffle发生在两个Stage之间,一个Stage把数据计算好,整理好,等待另外一个Stage来拉取放大视角,会发现,其实Shuffle发生在Task之间,一个Task把数据整理好,等待Reducer端的Task来拉取如果更细化一下,Task之间如何进行数据拷贝的呢?其实就是一方Task把文件生成好,然后另一方Task来拉取现在是
我像影子一样
·
2024-01-15 09:47
Spark
大数据
spark
大数据
Spark
高级特性 (难)
Spark
高级特性(难)闭包/**编写一个高阶函数,在这个函数要有一个变量,返回一个函数,通过这个变量完成一个计算**/@Testdeftest():Unit={//valf:Int=>Double=closure
我像影子一样
·
2024-01-15 09:11
Spark
大数据
spark
大数据
GitHub API使用--获取GitHub topic
目录标题技术简介申请token简单使用使用
Java调用
获取GitHubtopic总结技术简介GitHubAPI是一个功能强大的工具,为开发者提供了访问和操作GitHub平台上资源的途径。
不会喷火的小火龙
·
2024-01-15 07:22
sping
boot
Java网络爬虫
项目开发技术
github
API
spring
boot
java
spark
Streaming 连接kafka的方式
spark
Streaming消费kafak有两种方式1:receiver方式2:direct方式receiver方式:1:
spark
Streaming将kafka之中的数据读取到
spark
内存之中,然后对
流砂月歌
·
2024-01-15 06:59
大数据问答汇总
Apache
Spark
有哪些常见的稳定版本,
Spark
1.6.0的数字分别代表什么意思?
Sql强
·
2024-01-15 03:28
Java 与 Scala 使用Maven混合编译打包
在SpringBoot上使用
spark
的时候会遇到的混合编译问题,在java代码中打包会找不到scala定义的包,即可参考使用如下配置。
kikiki4
·
2024-01-15 02:07
centos
spark
单机版伪分布式模式
Spark
的部署方式包括Standalone、YARN、Mesos,在我们学习
Spark
编程的过程中,往往机器资源有限,于是可以采用伪分布式部署。
piziyang12138
·
2024-01-15 00:05
FLINK学习笔记(一)-- Word Count
defmain(args:Array[String]):Unit={/***flink的运行模型*1.DataSource*2.Transformation*3.DataSink*///获取环境,类似于
spark
contextvalenv
k_wzzc
·
2024-01-14 22:15
Building online HBase cluster of Zhihu based on Kubernetes
utm_campaign=profiletracking&utm_medium=sssite&utm_source=ssslideview同样对
spark
或者yarnr
mtj66
·
2024-01-14 21:24
spark
hbase
CDH
深入理解
Spark
(二)
Spark
Application 提交和运行源码分析
spark
核心流程yarn-clientyarn-cluster
spark
任务调度
spark
stage级别调度
spark
task级别调度失败重试和白名单对于运行失败的Task,TaskSetManager
我很ruo
·
2024-01-14 21:19
大数据
服务器
servlet
运维
深入理解
Spark
(三)
Spark
Task 执行与 shuffle 详解
Spark
Task的分发部署与启动流程分析
Spark
Action算子触发job提交
Spark
当中Stage切分源码详解Task的提交与执行
Spark
Shuffle机制详解MapReduceShuffle全流程深度剖析
我很ruo
·
2024-01-14 21:19
大数据
spark
大数据
hadoop
分布式
java
深入理解
Spark
(四)
Spark
内存管理模型
Spark
中的内存管理和资源管理模型Executor进程作为一个JVM进程,其内存管理建立在JVM的内存管理之上,整个大致包含两种方式:堆内内存和堆外内存。
我很ruo
·
2024-01-14 21:16
大数据
spark
大数据
分布式
Java调用
WebService接口的SOAP方式
Java调用
WebService接口的SOAP方式:importjavax.xml.soap.
cxzm_1024
·
2024-01-14 20:50
WebService
Spark
SQL函数定义——UDF函数,窗口函数
目录1定义UDF函数1.1返回值是数组类型的UDF定义1.2返回字典类型的UDF定义2窗口函数1定义UDF函数目前python仅支持UDF两种定义方式:1.
spark
session.udf.register
油豆皮
·
2024-01-14 20:03
数据库
大数据
spark
spark
| scala | 线性代数库Breeze学习
最近在学习
spark
,对线性代数库Breeze做了学习,介绍下常用的函数前提,使用Breeze库,必须导入相关的包importbreeze.linalg._importbreeze.numerics.
茁壮小草
·
2024-01-14 18:55
spark
scala
Breeze
Spark
线性代数,绘图工具入门;scala, java下的Breeze线性代数以及数据绘图工具breeze-viz入门
//官方地址,https://github.com/scalanlp/breeze/wiki/Quickstar//由于编辑器的格式原因,自行拷贝到集成开发环境中调试格式,代码都可以正确运行defbreezeTest:Unit={//Vector支持访问和更新,DenseVector是列向量valx=DenseVector.zeros[Double](5);//构建一个5维的稠密向量SparseV
stableMusic
·
2024-01-14 18:23
Breeze
Scala
Spark
Breeze
scala
spark
java
数据
利用 Azure Data Bricks的免费资源学习云上大数据
AzureDatabricks是一个基于Apache
Spark
的分析平台,专为大数据处理和机器学习而设计。它结合了Data
AI普惠大师
·
2024-01-14 16:42
azure
学习
microsoft
科大讯飞星火大模型接入API js 部分 接口 安装注意事项
下载以下链接例子运行程序https://xfyun-doc.xfyun.cn/static%2F16968175055332330%2F
spark
_js_demo.zip官网给的说明准备1.在demo中填写
guoruijun_2012_4
·
2024-01-14 15:37
javascript
开发语言
ecmascript
RDD转换为DataFrame
Spark
SQL它支持两种不同的方式转换已经存在的RDD到DataFrame1.反射(Java中的概念,scala是隐式转换)2.运行编程接口用反射去推倒出来RDD里面的schema。
起个什么呢称呢
·
2024-01-14 14:42
2022-03-01 回春的三月——交学期费
昨天2月的最后一天,也是交学期票的最后一天,超期的话要多付费,可我的
SPARK
ASSE卡长时间没使用,账户被锁了。
keivenbear
·
2024-01-14 11:40
深入理解
Spark
(一)
spark
运行模式简介与启动流程源码分析
spark
的运行模式standalone模式以standalone-client为例,运行过程如下:
Spark
Context连接到Master,向Master注册并申请资源(CPUCore和Memory
我很ruo
·
2024-01-14 10:56
大数据
spark
大数据
分布式
py
spark
py
spark
version输出
spark
的版本print("py
spark
version"+str(sc.version))mapsc=
spark
context,parallelizecreatesanRDDfromthepassedobjectx
Tim在路上
·
2024-01-14 10:43
计算机毕业设计吊炸天
spark
+hive+nlp慕课在线教育课程数据分析可视化大屏 知识图谱课程推荐系统 课程爬虫 文本分类 LSTM情感分析 大数据毕业设计
将.csv上传到hdfs中,并使用hive建表后导入.csv数据;9个指标,一半使用
spark
/scala去做实时计算分析。一半使用hive_sql进行分层离线处
计算机毕业设计大神
·
2024-01-14 09:48
使用
spark
-submit 部署应用、自定义分区器、checkpoint、共享变量
文章目录
spark
-submit部署应用附加的参数:
spark
-env.sh具体的属性配置信息配置资源分配参数调优案例分析自定义分区器检查点checkpoint
Spark
共享变量
spark
-submit
Geek白先生
·
2024-01-14 09:31
Spark
spark-submit
spark
--累加器-★★★
累加器现象比较难理解,但是代码很简单packagecn.hanjiaxiaozhi.coreimportorg.apache.
spark
.rdd.RDDimportorg.apache.
spark
.util.LongAccumulatorimportorg.apache.
spark
韩家小志
·
2024-01-14 09:01
Spark
spark
Spark
-之自定义wordCount累加器
Spark
-之自定义wordCount累加器
Spark
Core中的3种数据类型:累加器(只写)RDD广播变量(只读)累加器在多个action算子触发的job中重复累加,且需要action算子才能触发累加器操作
稳哥的哥
·
2024-01-14 09:01
Spark
spark
scala
big
data
上一页
15
16
17
18
19
20
21
22
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他