E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Hadoop;Spark
毕业设计——基于
spark
的电影推荐系统,包括基于ALS、LFM的离线推荐、实时推荐
项目以推荐系统建设领域知名的经过修改过的MovieLens数据集作为依托,以电影网站真实业务数据架构为基础,包含了离线推荐与实时推荐体系,综合利用了协同过滤算法以及基于内容的推荐方法来提供混合推荐。提供了从前端应用、后台服务、算法设计实现、平台部署等多方位的闭环的业务实现【用户可视化】:主要负责实现和用户的交互以及业务数据的展示,主体采用AngularJS2进行实现,部署在Apache服务上。【综
Python豆豆
·
2024-01-25 22:21
毕业设计指导及定制
课程设计
spark
大数据
大数据|
Spark
介绍
前文回顾:Hive和数据仓库目录为什么会有
Spark
Spark
的基本架构和组件主要体系结构和组件
Spark
集群的基本结构
Spark
系统的基本结构
Spark
应用程序的基本结构
Spark
程序运行机制⭐️
Spark
啦啦右一
·
2024-01-25 21:08
大数据与数据分析
#
大数据管理与分析笔记
大数据
spark
大数据技术之
Spark
Spark
概述1.1
Spark
是什么官方解释:
Spark
是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。
严同学正在努力
·
2024-01-25 21:38
大数据
spark
hadoop
apache
kafka
大数据开发之
Spark
(
spark
streaming)
第1章:
Spark
Streaming概述1.1
spark
streaming是什么
spark
streaming用于流式数据的处理。
Key-Key
·
2024-01-25 21:07
大数据
spark
分布式
年度案例大数据盘点之
Spark
篇
Spark
最新的特性以及功能2015年中
Spark
版本从1.2.1升级到当前最新的1.5.2,1.6.0版本也马上要进行发布,每个版本都包含了许多的新特性以及重要的性能改进,我会按照时间顺序列举部分改进出来
BAO7988
·
2024-01-25 21:06
大数据
大数据
spark
大数据开发之
Spark
(完整版)
第1章:
Spark
概述1.1什么是
spark
回顾:
hadoop
主要解决,海量数据的存储和海量数据的分析计算。
spark
是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。
Key-Key
·
2024-01-25 21:05
大数据
spark
分布式
弹性分布式数据集
hadoop
Tonemapping不够用了:Local Tonemapping方案总结
【U
Spark
le专栏】如果你深怀绝技,爱“搞点研究”,乐于分享也博采众长,我们期待你的加入,让智慧的火花碰撞交织,让知识的传递生生不息!
UWA
·
2024-01-25 21:21
厚积薄发
Unity优化
计算机图形学
实时渲染
游戏引擎
Hadoop
on Yarn 提交job失败:java.net.ConnectException:Connection refused
报错:INFOorg.apache.
hadoop
.service.AbstractService:ServiceNodeManagerfailedinstateSTARTED;cause:org.apache.
hadoop
.yarn.exceptions.YarnRuntimeException
Anthons
·
2024-01-25 20:58
Linux 安装 py
Spark
1、安装Java和Scale。1.1、Java参考Java安装运行1.2、Scale安装1)下载并解压官网地址:https://www.scala-lang.org/download/wgethttps://downloads.lightbend.com/scala/2.13.1/scala-2.13.1.tgztar-zxvfscala-2.13.1.tgzmvscala-2.13.1scala
兰叶书
·
2024-01-25 20:00
Linux
sqoop之hive数据仓库和oracle数据库数据转换
sqoop(发音:skup)是一款开源的工具,主要用于在
Hadoop
(Hive)与传统的数据库(mysql、oracle)间进行数据的传递,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres
Summer_1981
·
2024-01-25 20:37
spakr 提交任务
当前集群支持3中集群管理Standalone(spak框架自身拥有能力)ApacheMesos
Hadoop
YARNKubernetes使用/
spark
-submit脚本提交任务,脚本后面可以接参数.
新鲜氧气
·
2024-01-25 19:55
大数据
#
scala
#
spark
scala
spark
大数据
spark
关联外部数据
importorg.apache.
spark
.rdd.RDDimportorg.apache.
spark
.
新鲜氧气
·
2024-01-25 19:54
#
spark
#
scala
大数据
spark
大数据
分布式
Spark
累加器LongAccumulator
Accumulator有两个性质:1、只会累加,合并即累加;2、不改变
Spark
作业懒执行的特点,即没有action操作触发job的情况下累加器的值有可能是初始值。o
新鲜氧气
·
2024-01-25 19:53
#
spark
#
scala
#
hadoop
spark
大数据
分布式
hadoop
问题集
1.org.apache.
hadoop
.yarn.exceptions.InvalidAuxServiceException:TheauxService:mapreduce_shuffledoesnotexistyarn
Pure_Eyes
·
2024-01-25 17:18
hadoop
大数据
分布式
py
spark
排雷
问题执行计算时,抛出异常:...java.lang.IllegalArgumentException:Unsupportedclassfilemajorversion57...经过查询,发现时py
spark
jar
_Rango_
·
2024-01-25 16:05
大数据分析组件Hive-集合数据结构
Hive的数据结构前言一、array数组类型二、map键值对集合类型三、struct结构体类型前言Hive是一个基于
Hadoop
的数据仓库基础设施,用于处理大规模分布式数据集。
Aimyon_36
·
2024-01-25 15:15
Hive
数据分析
hive
数据结构
[AIGC 大数据基础]hive浅谈
Hive作为一个基于
Hadoop
的数据仓库基础设施,为用户提供了类SQL的查询语言和丰富的功能,使得处理大规模数据变得更加简单和高效。
程序员三木
·
2024-01-25 14:17
大后端
大数据
AIGC
hive
Flink1.17总结
1.Flink介绍1.Flink和
Spark
Streaming区别2.Flink分层API3.WordCount案例需求:写一个文本,统计出单词的个数1.使用flink批处理查看WordCountBatchDemo
asxyyjh
·
2024-01-25 14:29
大数据
flink
java
hadoop
集群部署
hadoop
简介
Hadoop
是一个由Apache基金会所开发的分布式系统基础架构,是一个存储系统+计算框架的软件框架,主要解决海量数据存储与计算的问题,是大数据技术中的基石。
Cat God 007
·
2024-01-25 12:45
笔记
大数据
大数据
hdfs
Hadoop
集群的部署,安装和管理(头歌)
示例集群信息以下表格为本教程所用示例集群节点信息:我们准备了三台虚拟服务器,连接方式如下:第一步我们需要在evassh服务器初始化虚拟服务器:cd/optwrapdockerulimit-funlimiteddockerload-iubuntu16-ssh.tardocker-composeup-d注意:请不要在各个虚拟服务器之间进行ssh登录,这种操作会导致无法保存配置数据。正确方法是:在虚拟服
小坏蛋儿&
·
2024-01-25 12:14
大数据
hadoop
服务器
linux
hadoop
集群规划部署
一、集群规划三台硬件资源,部署
hadoop
版本,
hadoop
-3.3.5,部署后配置文件。
Hadoop
配置文件分两类:默认配置文件和自定义配置文件。
Snower_2022
·
2024-01-25 12:43
hadoop
hadoop
java
大数据
Hbase集群安装部署
安装好对应版本的
hadoop
集群,并启动安装好对应版本的zookeeper集群,并启动HBase集群安装部署下载安装包并上传到node01服务器安装包下载地址:http://archive.cloudera.com
我还不够强
·
2024-01-25 12:02
详解Linux运维工程师高级篇(大数据安全方向).
hadoop
安全目录:kerberos(已发布)elasticsearch(已发布)http://blog.51cto.com/chenhao6/2113873knoxoozierangerapachesentry
weixin_30588729
·
2024-01-25 10:14
运维
操作系统
java
大数据
Hadoop
/Hive学习笔记一(基础概念)
大数据
Hadoop
/Hive学习笔记一(基础概念)一,概念介绍:大数据:大数据一般用来描述一种数量庞大,复杂的数据集,传统数据处理应用程序难以应对。
lucky_myj
·
2024-01-25 09:46
大数据
hadoop
【hudi学习笔记】hudi基础教程-hudi表设计
一.hudi表设计在较高的层次上,用于写Hudi表的组件使用了一种受支持的方式嵌入到Apache
Spark
作业中,它会在支持DFS的存储上生成代表Hudi表的一组文件。
菜鸟老胡~
·
2024-01-25 09:13
技术学习
big
data
数据仓库
大数据
Hudi学习笔记4 - Hudi配置之
Spark
配置
Spark
DatasourceConfigs读配置配置项是否必须默认值配置说明as.of.instantYN/A0.9.0版本新增,时间旅行查询从哪儿开始,有两种格式的值:yyyyMMddHHmmss和
一见
·
2024-01-25 09:40
hudi
spark
spark
学习
笔记
Hudi学习笔记2 - Hudi配置
https://hudi.apache.org/docs/configurationsHudi配置分类
Spark
DatasourceConfigs
Spark
Datasource的配置。
一见
·
2024-01-25 09:39
flink
hudi
spark
学习
笔记
大数据
Hudi学习笔记1
使用
Spark
SQL创建hudi表时,默认设置:hoodie.da
一见
·
2024-01-25 09:09
hudi
flink
spark
学习
笔记
hive
Hudi学习笔记(一)
大数据发展背景Hudi用于管理分布式文件系统上大型分析数据集存储,支持
Spark
和Flink整合。它能够是DFS数据集在分钟级时延内支持变更,也支持下游系统对这个数据集的增量处理。
一一|一一一亅
·
2024-01-25 09:37
学习
笔记
上万字详解
Spark
Core(建议收藏)
先来一个问题,也是面试中常问的:
Spark
为什么会流行?
废柴程序员
·
2024-01-25 09:06
Hadoop
-HDFS写流程(从命令行到完成)
一、简单回顾下HDFS的架构如果不了解HDFS的可以看下我写的一篇博客,这里先贴下官网架构图:二、源码分析源码中写的肯定是最真实的,下面是
hadoop
官方源码下载地址,我下载的是
hadoop
-3.2.4
隔着天花板看星星
·
2024-01-25 09:23
hadoop
hdfs
大数据
Hadoop
-HDFS高可用
原理参考官网介绍:Apache
Hadoop
3.3.6–HDFSHighAvailabilityUsingtheQuorumJournalManager二、背景在
Hadoop
2.0.0之前,NameNode
隔着天花板看星星
·
2024-01-25 09:52
hadoop
hdfs
大数据
Hadoop
-MapReduce使用说明
下面让我们跟着官网来学习下吧Apache
Hadoop
3.3.6–MapReduceTutorial二、运行流程大致描述1、用户通过jo
隔着天花板看星星
·
2024-01-25 09:52
hadoop
mapreduce
大数据
Hadoop
-YARN概览
一、什么是YARNYetAnotherResourceNegotiator,另一种资源协调者,简称YARN。基本思想是将资源管理和作业调度/监视的功能拆分为单独的守护进程。其想法是拥有一个全局ResourceManager(RM)和每个应用程序的ApplicationMaster(AM)。可以支持单个作业,也可以支持多个作业的DAG。被称为另一种资源协调者,那就证明有一种比YARN更早的资源协调者
隔着天花板看星星
·
2024-01-25 09:52
hadoop
大数据
分布式
Hadoop
-HDFS读流程(从输入命令到回显)
一、简单回顾下HDFS的架构如果不了解HDFS的可以看下我写的一篇博客,这里先贴下官网架构图:二、静静的思考一会儿爱因斯坦说过:想象力比知识更重要。想象力推动世界,是知识进化的源泉。我们先不看源码,先通过官方架构图和我们对HDFS的了解来想象下读流程是什么样的。我要读HDFS上的一份文件,首先需要知道它在哪台节点上,HDFS上存储的文件都是以块的形式存放在各个DataNode节点上。因此需要知道这
隔着天花板看星星
·
2024-01-25 09:52
hadoop
hdfs
大数据
Hadoop
-MapReduce-源码跟读-客户端篇
一、源码下载下面是
hadoop
官方源码下载地址,我下载的是
hadoop
-3.2.4,那就一起来看下吧Indexof/dist/
hadoop
/core二、从WordCount进入源码用idea将源码加载进来后
隔着天花板看星星
·
2024-01-25 09:52
hadoop
mapreduce
eclipse
hadoop
三种运行方式
一、本地运行方式1创建在
hadoop
-3.3.5文件下面创建一个wcinput文件夹[antares@
hadoop
1
hadoop
-3.3.5]$mkdirwcinput[antares@
hadoop
1
hadoop
Snower_2022
·
2024-01-25 09:51
hadoop
大数据
分布式
Hadoop
-MapReduce-跟着日志理解整体流程
一、数据准备viinput_01.txtviinput_02.txtviinput_03.txt文本内容如下:-----------------input_01.txt----------------javascalapythonc++javajsgogovbaccc++javascalapythonphpcsshtmljsjavajavascalavbac#.netRRRjava--------
隔着天花板看星星
·
2024-01-25 09:49
hadoop
mapreduce
大数据
HBase学习五:运维排障之备份与恢复
HBase的所有文件都存储在HDFS上,因此只要使用
Hadoop
提供的文件复制工具distcp将HBASE目录复制到同一HDFS或者其他HDFS的另一个目录中,就可以完成对源HBase集群的备份工作copyTable
Studying!!!
·
2024-01-25 09:49
中间件
hbase
学习
运维
spark
3.2 reuse pvc 功能改造
背景
spark
reusepvcfeaturePVC:PersistentVolumeClaim.APersistentVolumeClaim(PVC)isarequestforstoragebyauser.ItissimilartoaPod.PodsconsumenoderesourcesandPVCsconsumePVresources.Podscanrequestspecificlevelso
todd5167
·
2024-01-25 07:23
大数据平台组件日常运维操作说明(
Hadoop
/Zookeeper/Kafa/ES/Mysql/
Spark
/Flume/Logstash/Tomcat)
Hadoop
日常运维操作说明hdfs生产环境
hadoop
为30台服务器组成的集群,统一安装配置,版本号为2.7.7部署路径:/opt/
hadoop
启动用户:
hadoop
配置文件:/opt/
hadoop
/
love6a6
·
2024-01-25 07:12
大数据
java-zookeeper
运维
一个女人和一座公园
图片发自App后来知道这座公园有一个很阴柔的名字“Women‘
sPark
”。鉴于这是所知范围内最近的公园,所以似乎也没有更好的选择。于是这名孕妇经常踟蹰在这异国他乡清
七月的薰衣草天空
·
2024-01-25 07:13
基于CentOS7
Hadoop
-2.7.2伪分布式部署
1、基本环境Linux版本:CentOS7.0JDK版本:jdk-7u79-linux-x64.tar.gz
Hadoop
版本:
hadoop
-2.7.2.tar.gzjdk以及
Hadoop
安装在/usr目录下
程序员小H
·
2024-01-25 07:23
Hadoop
HDFS 实现原理图文详解
一、HDFS体系结构1.1HDFS简介
Hadoop
分布式文件系统(HDFS)是运行在通用硬件(commodityhardware)上的分布式文件系统(DistributedFileSystem)。
禅与计算机程序设计艺术
·
2024-01-25 07:49
【Java Kubernates】Java调用kubernates提交Yaml到
Spark
Operator
考虑使用
spark
,
spark
operator也已经部署到k8s,现在需要定向提交
spark
sql到k8s的
spark
operator上,使用k8s资源执行sql。
秦拿希
·
2024-01-25 07:13
java
k8s
spark
operator
fabric8io
spark
广播变量
-1-24广播变量特点BroadcastVariable会将使用到的变量,只会为每个节点拷贝一份,不会为每个task进行拷贝,能够优化性能(在task数量比较大体现更明显),减少网络传输及内存消耗通过
Spark
Context
新鲜氧气
·
2024-01-25 07:37
spark
大数据
分布式
Hive运行机制与使用
hive介绍hive是基于
Hadoop
的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。
小猪Harry
·
2024-01-25 05:09
Spark
Streaming稽查布控/动态广播变量(处理电信数据)
Spark
Streaming稽查布控/动态广播变量需求:1.在mysql中建表2.在虚拟机中使用指令:nc-lk88883.在IDEA中编写代码数据如下需求:1.在mysql中建表CREATETABLE
莫尼莫尼
·
2024-01-25 05:54
大数据
spark
big
data
scala
py
spark
udf
目录简单的注册UDF自己定义函数UDFpy
spark
udf源码解析复杂数据类型:ArrayType、MapType、StructTypeArrayTypeMapTypeStructType简单的注册UDF
小赵要加油
·
2024-01-25 05:33
spark
spark
【
spark
】
Spark
SQL
目录
Spark
SQL01.快速入门什么是
Spark
SQL为什么学习
Spark
SQL
Spark
SQL的特点
Spark
SQL发展历史-前身Shark框架
Spark
SQL发展历史02.
Spark
SQL概述
Spark
SQL
小赵要加油
·
2024-01-25 05:00
spark
spark
大数据
分布式
上一页
20
21
22
23
24
25
26
27
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他