E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
推荐系统协同过滤spark
【
Spark
系列3】RDD源码解析实战
本文主要讲1、什么是RDD2、RDD是如何从数据中构建一、什么是RDD?RDD:弹性分布式数据集,ResillientDistributedDataset的缩写。个人理解:RDD是一个容错的、并行的数据结构,可以让用户显式的将数据存储到磁盘和内存中,并能控制数据的分区。同时RDD还提供一组丰富的API来操作它。本质上,RDD是一个只读的分区集合,一个RDD可以包含多个分区,每个分区就是一个data
周润发的弟弟
·
2024-01-28 23:12
spark
大数据
分布式
Spark
作业执行原理
Spark
的作业和任务调度系统是
Spark
的核心,它能够有效地进行调度根本原因是对任务划分DAG和容错,使得它对低层到顶层的各个模块之间的调用和处理显得游刃有余。下面介绍一些相关术语。
垫路的石头
·
2024-01-28 23:12
spark
Spark
工作原理
1)
Spark
工作原理:首先看中间是一个
Spark
集群,可以理解为是
Spark
的standalone集群,集群中有6个节点左边是
Spark
的客户端节点,这个节点主要负责向
Spark
集群提交任务,假设在这里我们向
小崔的技术博客
·
2024-01-28 23:12
大数据学习
spark
大数据
hadoop
Spark
详解(五):
Spark
作业执行原理
Spark
的作业和任务调度系统是其核心,它能够有效地进行调度的根本原因是对任务的划分DGG和容错。
MasterT-J
·
2024-01-28 23:42
Spark框架
Spark框架
Spark框架
Spark
运行原理
Spark
的这种学术基因,使得它从一开始就在大数据领域建立了一定优势。无论是性能,还是方案的统一性,对比传统的Hadoop,优势都非常明显。
hellozhxy
·
2024-01-28 23:41
spark
spark
Spark
| 记录下
Spark
作业执行时常见的参数属性配置
理解作业基本原理,是进行
Spark
作业资源参数调优的基本前提。
点滴笔记
·
2024-01-28 23:11
Spark
spark
【
Spark
系列1】
Spark
作业执行原理
本文字数在7800字左右,预计时间在15分钟一、整体流程每个Aciton操作会创建一个JOB,JOB会提交给DAGScheduler,DAGScheduler根据RDD依赖的关系划分为多个Stage,每个Stage又会创建多个TaskSet,每个TaskSet包含多个Task,这个Task就是每个分区的并行计算的任务。DAGScheduler将TaskSet按照顺序提交给TaskScheduler
周润发的弟弟
·
2024-01-28 23:40
从零开始搞大数据
servlet
数仓治理-小文件治理
:数据治理实践|小文件治理本文中将介绍Hive中小文件治理的方法和技巧,希望对大家有所帮助https://mp.weixin.qq.com/s/HDxAGhGIPvXF38wPiXZ7xg[离线计算-
Spark
爱吃辣条byte
·
2024-01-28 23:40
数据治理
大数据
数据仓库
Java爬虫+
协同过滤
+Springboot+vue.js实现的小说
推荐系统
,小说推荐平台,小说管理系统
因此本次毕业设计程序立足于网络爬虫技术采集互联网小说资源分析汇总至本小说推荐平台,基于用户
协同过滤
推荐算法对不同的用户展开个性化的小说内容推荐阅读。
计算机程序优异哥
·
2024-01-28 22:49
spark
内核源码剖析七:Work工作原理
driverDesc)=>{logInfo(s"Askedtolaunchdriver$driverId")valdriver=newDriverRunner(conf,driverId,workDir,
spark
Home
雪飘千里
·
2024-01-28 18:08
极简py
spark
Py
Spark
简要介绍Py
Spark
是一个基于
Spark
的Python接口,它允许你在Python中使用
Spark
的强大功能,如大数据处理、实时数据处理等。
吉小雨
·
2024-01-28 18:13
python
基于个性化的电影
推荐系统
全流程设计
dl-re-movies项目简介:dl_re_web:Web项目的文件夹re_sys:Webappmodel:百度云下载之后,把model放到该文件夹下recommend:网络模型相关data:训练数据集文件夹DataSet.py:数据集加载相关re_model.py:网络模型类utils.py:工具、爬虫static:Web页面静态资源templates:为Web页面的Html页面venv:Dj
会唱歌的炼丹师
·
2024-01-28 17:29
python
电影推荐
推荐系统
自然语言处理
tensorflow
深度学习
神经网络
py
spark
在windows下java.net.SocketException: Connection reset by peer 错误
py
spark
在windows加载数据集训练模型出现以下错误java.net.SocketException:Connectionresetbypeer:socketwriteerroratjava.net.SocketOutputStream.socketWrite0
walk walk
·
2024-01-28 15:49
数据挖掘
python
spark
java
java
大数据
python
【开源】基于JAVA+Vue+SpringBoot的用户画像活动
推荐系统
目录一、摘要1.1项目介绍1.2项目录屏二、功能模块2.1数据中心模块2.2兴趣标签模块2.3活动档案模块2.4活动报名模块2.5活动留言模块三、系统设计3.1用例设计3.2业务流程设计3.3数据流程设计3.4E-R图设计四、系统展示五、核心代码5.1查询兴趣标签5.2查询活动推荐5.3新增活动报名5.4新增活动收藏5.5新增活动留言六、免责说明一、摘要1.1项目介绍基于JAVA+Vue+Spri
桑程程
·
2024-01-28 14:32
java
开源
vue.js
spring
boot
前端
开发语言
spark
-streaming与kafka的整合
1.概述在2.x中,
spark
有两个用来与kafka整合的代码,版本代号为0.8和0.10,由于在0.8,kafka有两套消费者api,根据高级api得到了Receiver-basedApproach,
王大为学习笔记
·
2024-01-28 14:47
[
Spark
SQL] Rdd转化DataFrame 通过StructType为字段添加Schema
1、开发环境
spark
-2.1.0-bin-hadoop2.62、Rdd转换成DataFrame,为字段添加列信息参数nullable说明:Indicatesifvaluesofthisfieldcanbenullvaluesvalschema
林沐之森
·
2024-01-28 13:51
[AIGC大数据基础]
Spark
入门
其中,
Spark
作为一个快速、通用的大数据处理引擎备受关注。本文将从“是什么、怎么用、为什么用”三个角度来介绍
Spark
。
程序员三木
·
2024-01-28 12:32
大后端
大数据
AIGC
spark
【阿里巴巴】阿里妈妈联盟-Java研发工程师-杭州
杭州|正式|硕士|研发-后端职位|1年工作经验职位描述参与广告内容生产和分发工作,深入了解和优化电商广告业务;负责大数据计算、搜索
推荐系统
和业务应用系统设计;参与大型业务项目的设计和实施,推动业务快速迭代发展
探小虎
·
2024-01-28 12:20
spring
java
后端
Impala-shell卡顿分析——记一次曲折的Debug经历
Impala-shell卡顿分析——记一次曲折的Debug经历问题发现最近准备在Impala中增加对UTF-8的支持,以修正跟Hive、
Spark
等基于Java的系统在UTF-8字符串上的不兼容表现(如
stiga-huang
·
2024-01-28 12:06
Impala
大数据
impala
debug
Impala元数据简介
Impala元数据简介背景Impala是一个高性能的OLAP查询引擎,与其它SQL-on-Hadoop的ROLAP解决方案如Presto、
Spark
SQL等不同的是,Impala对元数据(Metadata
stiga-huang
·
2024-01-28 12:05
Impala
Spark
:Task Locality参考
Datalocalitycanhaveamajorimpactontheperformanceof
Spark
jobs.Ifdataandthecodethatoperatesonitaretogetherthencomputationtendstobefast.Butifcodeanddataareseparated
liuzx32
·
2024-01-28 12:38
推荐系统
工程篇之搭建以图搜图服务
基于内容的召回在
推荐系统
中是比较常见的召回策略,常见有基于用户或物品的标签召回或者基于用户的年龄,地域等召回,一般该策略的实现是基于开源软件Elasticseach实现的。
飘移1族
·
2024-01-28 10:15
Spark
的宽依赖和窄依赖
Apache
Spark
中的依赖关系指的是转换操作(transformations)之间的依赖类型。这些依赖关系决定了任务是如何在集群上分布执行的。
小湘西
·
2024-01-28 08:52
Spark
spark
大数据
分布式
TNNLS'23 | 简单高效的图对比学习聚类
来源:图神经网络与
推荐系统
本文约2400字,建议阅读5分钟论文提出了一种简单高效的图对比学习聚类方法SCGC。
数据派THU
·
2024-01-28 08:20
学习
聚类
数据挖掘
机器学习
人工智能
Spark
——
Spark
SQL逻辑计划(Logical Plan)、物理计划(Physical Plan)和Catalyst优化器(Catalyst Optimizer)
文章目录TreesRules
Spark
SQL中使用CatalystAnalysis逻辑优化(LogicalOptimizations)物理计划(PhysicalPlanning)代码生成(CodeGeneration
Southwest-
·
2024-01-28 08:18
Spark
Spark
Spark
——
Spark
覆盖分区表中指定的分区
问题描述
Spark
中向分区表写数据的时候,如果写入模式为“overwrite”,那会将整个表覆盖掉;如果写入模式为“ap
Southwest-
·
2024-01-28 08:18
Spark
Spark
Spark
——
Spark
OOM Error问题汇总分析
.广播了大变量Executor端OOMError1.低效的查询2.不合适的Driver端和Executor端内存3.不合适的YARNContainer内存4.内存中缓存大量数据5.不合适任务并行度参考
Spark
Southwest-
·
2024-01-28 08:17
Spark
Spark
Spark
——
Spark
写MySQL太慢、很慢、非常慢的原因分析及优化方法
文章目录问题背景原因分析解决方法参考问题背景有这样一个业务场景:需要将通过
Spark
处理之后的数据写入MySQL,并在在网页端进行可视化输出。
Southwest-
·
2024-01-28 08:17
Spark
Spark
MySQL
Spark
——
Spark
/Hive向量化查询执行原理分析(Vectorization Query Execution)
文章目录什么是向量化查询执行列式存储
Spark
向量化查询执行Hive向量化查询执行参考什么是向量化查询执行在标准的查询执行系统中,每次只处理一行数据,每次处理都要走过较长的代码路径和元数据解释,从而导致
Southwest-
·
2024-01-28 08:47
Spark
Spark
Hive
向量化
Spark
——
Spark
缓存临时视图(View)
文章目录RDD/Dataset缓存复用纯SQL结果缓存复用RDD/Dataset缓存复用我们知道在使用RDD和DatasetAPI开发
Spark
应用程序的时候,如果要缓存某个RDD或Dataset来进行复用
Southwest-
·
2024-01-28 08:47
Spark
Spark
Spark
——
Spark
DataFrame导出为Excel文件
文章目录问题背景实现1.Maven依赖2.代码实现3.参数详解1.'sheet_name'!B3:C35。2.sheet_name[#All]参考问题背景有时候我们在进行一些表的计算之后,会生成一些指标,需要导出来给其它同事用,虽说可以将DataFrame直接写成表,然后通过工具(比如Hue)导出为Excel,但是步骤就多了,而且如果要导出的表比较多的话,就更浪费时间了,那么这时候调用第三方插件就
Southwest-
·
2024-01-28 08:17
Spark
spark
Spark
—— JSON对象/数组转成
Spark
Dataset/DataFrame
JSON转DataFrame在日常使用
Spark
处理数据时,半结构化的JSON数据(JSONObject,JSONArray)可能是最常见的一种数据结构,那么能熟练并快速地处理JSON格式数据应该是数据开发人员的必备技能
Southwest-
·
2024-01-28 08:16
Spark
spark
json
Spark
——
Spark
读写MongoDB
文章目录
Spark
直连MongoDB1.通过
Spark
Conf2.通过ReadConfig3.通过DataFrameReaderHive中创建映射表mongoexport导出文件参考如果我们要想通过
Spark
Southwest-
·
2024-01-28 08:46
Spark
Spark
MongoDB
Spark
——
Spark
读写Greenplum/Greenplum-
Spark
Connector高速写Greenplum
文章目录问题背景解决方式代码实现
Spark
写Greenplum
Spark
读Greenplum参考问题背景通过数据平台上的DataX把Hive表数据同步至Greenplum(因为DataX原生不支持GreenplumWriter
Southwest-
·
2024-01-28 08:42
Spark
spark
大数据
分布式
Hive之set参数大全-18
指定在执行
Spark
上的动态分区裁剪时,用于评估分区数据大小的最大限制在Hive中,hive.
spark
.dynamic.partition.pruning.max.data.size是一个配置参数,用于指定在执行
OnePandas
·
2024-01-28 07:33
Hive
hive
数据仓库
hive面试题
本质上是将SQL转换为MapReduce或者
spark
来进行计算,数据是存储在hdfs上,简单理解来说hive就是MapReduce的一个客户端工具。补充1:你可以说一下HQL转换为MR的任务流程吗?
韩顺平的小迷弟
·
2024-01-28 07:29
大数据面试题
hive
hadoop
数据仓库
(N-140)基于springboot,vue
协同过滤
推荐算法个性化购物商城
开发工具:IDEA服务器:Tomcat9.0,jdk1.8项目构建:maven数据库:mysql5.7系统分前后台,项目采用前后端分离前端技术:vue+elementUI服务端技术:springboot+mybatis+redis本项目分为前台(普通用户)、后台(管理员)两部分一、普通用户功能(前台):1.注册用户和登录、分类浏览商品、加入购物车、管理购物车、商品下单2.商品支付(支付宝沙箱支付)
IT教程资源-
·
2024-01-28 06:23
javaweb毕设成品项目
开发工具
spring
boot
vue.js
推荐算法
大数据——Flink 知识点整理
目录1.Flink的特点2.Flink和
Spark
Streaming的对比3.Flink和Blink、Alink之间的关系4.JobManager和TaskManager的职责5.Flink集群部署有哪些模式
Vicky_Tang
·
2024-01-28 06:17
Flink
flink
面试
big
data
大数据
【Deep Dive: AI Webinar】基于LLM的
推荐系统
中的公平与责任:确保人工智能技术的使用合乎道德...
【深入探讨人工智能】网络研讨系列总共有17个视频。我们按照视频内容,大致上分成了3个大类:1.人工智能的开放、风险与挑战(4篇)2.人工智能的治理(总共12篇),其中分成了几个子类:a.人工智能的治理框架(3篇)b.人工智能的数据治理(4篇)c.人工智能的许可证(4篇)d.人工智能的法案(1篇)3.炉边对谈-谁在构建开源人工智能?今天发布的是第二个类别“人工智能的治理框架”里的第一个视频:【基于L
开源社
·
2024-01-28 04:50
人工智能
搜索引擎
深度学习如何入门?
深度学习是一种利用多层神经网络来学习数据特征和模式的机器学习方法,它在图像识别、自然语言处理、语音识别、
推荐系统
等领域都取得了令人瞩目的成果。那么,如果你想学习深度学习,你需要掌握哪些知识和技能呢?
清水白石008
·
2024-01-28 00:05
深度学习
自然语言处理
人工智能
Apache
Spark
架构与特点
1.背景介绍Apache
Spark
是一个开源的大数据处理框架,由AMLLabs公司开发,后被Apache软件基金会所支持。
OpenChat
·
2024-01-27 23:35
apache
spark
架构
大数据
分布式
Spark
-core
什么是
Spark
Spark
是基于内存的快速,通用,可扩展的大数据分析引擎
Spark
的内置模块
Spark
Core是
Spark
可以离线处理的部分,实现了
spark
的基本功能,包含任务调度,错误恢复,与存储系统交互等模块
luckboy0000
·
2024-01-27 23:12
学习笔记
利用上下文信息的
推荐系统
利用上下文信息的
推荐系统
读书笔记,参考书本:项亮,
推荐系统
实践.2012(主要讨论时间信息,如何将时间信息结合到推荐算法中)时间效应举例时间是一种重要的上下文信息,对用户兴趣有着深入而广泛的影响。
锦绣拾年
·
2024-01-27 22:08
独家解读 | 滴滴机器学习平台架构演进之路
所谓大同是指大家所要处理的问题都相似,技术架构和选型也差不太多,比如都会使用GPU集群、采用
Spark
或K8s平台等。
csdn产品小助手
·
2024-01-27 19:18
人工智能
运维
大数据
apache 前30个开源项目
高性能Web服务器提供HTTP服务支持非常活跃2ApacheTomcatJava应用服务器部署JavaWeb应用程序非常活跃3ApacheHadoop分布式存储和计算框架大数据处理非常活跃4Apache
Spark
临水逸
·
2024-01-27 17:35
apache
开源
机器学习架构:实现高效的模型训练和部署
在过去的几年里,机器学习技术在各个领域取得了显著的进展,例如自然语言处理、计算机视觉、
推荐系统
、语音识别等。这些成果的共同点在于它们都依赖于大规模的数据处理和计算能力。
OpenChat
·
2024-01-27 16:15
机器学习
架构
人工智能
如何使用irsa将火花提交给亚马逊eks集群
Inpreviousarticle,Ihaveintroducedhowwesubmita
Spark
jobtoanEKScluster.Aslongaswe’reusingotherAWScomponentsforourpipelinestointeract
weixin_26755331
·
2024-01-27 15:26
java
Py
spark
分类--LogisticRegression
LogisticRegression:逻辑回归分类classpy
spark
.ml.classification.LogisticRegression(featuresCol=‘features’,labelCol
Gadaite
·
2024-01-27 14:53
ML基础
分类
机器学习
人工智能
搭建大数据平台常用的端口号
journalnode默认的端口号9000:非高可用访问数rpc端口8020:高可用访问数据rpc8088:yarn的webUI的端口号8080:master的webUI,Tomcat的端口号7077:
spark
修勾勾L
·
2024-01-27 13:51
Linux
大数据
Spark
连接Hive的两种方式
一、使用hive-site.xml第一步:将集群中的hive-site.xml的内容复制出来,并放在idea项目的resources下,要求文件命名为:hive-site.xmldatanucleus.schema.autoCreateAlltruejavax.jdo.option.ConnectionURLjdbc:mysql://192.168.38.160:3306/hive_db?crea
修勾勾L
·
2024-01-27 13:50
Spark
Hive
hive
spark
mysql
上一页
12
13
14
15
16
17
18
19
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他