推荐系统协同过滤spark 第16页

【Spark系列3】RDD源码解析实战

本文主要讲1、什么是RDD2、RDD是如何从数据中构建一、什么是RDD？RDD：弹性分布式数据集，ResillientDistributedDataset的缩写。个人理解：RDD是一个容错的、并行的数据结构，可以让用户显式的将数据存储到磁盘和内存中，并能控制数据的分区。同时RDD还提供一组丰富的API来操作它。本质上，RDD是一个只读的分区集合，一个RDD可以包含多个分区，每个分区就是一个data

周润发的弟弟·2024-01-28 23:12

Spark作业执行原理

Spark的作业和任务调度系统是Spark的核心，它能够有效地进行调度根本原因是对任务划分DAG和容错，使得它对低层到顶层的各个模块之间的调用和处理显得游刃有余。下面介绍一些相关术语。

垫路的石头·2024-01-28 23:12

Spark工作原理

1）Spark工作原理：首先看中间是一个Spark集群，可以理解为是Spark的standalone集群，集群中有6个节点左边是Spark的客户端节点，这个节点主要负责向Spark集群提交任务，假设在这里我们向

小崔的技术博客·2024-01-28 23:12

Spark详解（五）：Spark作业执行原理

Spark的作业和任务调度系统是其核心，它能够有效地进行调度的根本原因是对任务的划分DGG和容错。

MasterT-J·2024-01-28 23:42

Spark运行原理

Spark的这种学术基因，使得它从一开始就在大数据领域建立了一定优势。无论是性能，还是方案的统一性，对比传统的Hadoop，优势都非常明显。

hellozhxy·2024-01-28 23:41

Spark | 记录下Spark作业执行时常见的参数属性配置

理解作业基本原理，是进行Spark作业资源参数调优的基本前提。

点滴笔记·2024-01-28 23:11

【Spark系列1】Spark作业执行原理

本文字数在7800字左右，预计时间在15分钟一、整体流程每个Aciton操作会创建一个JOB，JOB会提交给DAGScheduler，DAGScheduler根据RDD依赖的关系划分为多个Stage，每个Stage又会创建多个TaskSet，每个TaskSet包含多个Task，这个Task就是每个分区的并行计算的任务。DAGScheduler将TaskSet按照顺序提交给TaskScheduler

周润发的弟弟·2024-01-28 23:40

数仓治理-小文件治理

:数据治理实践|小文件治理本文中将介绍Hive中小文件治理的方法和技巧，希望对大家有所帮助https://mp.weixin.qq.com/s/HDxAGhGIPvXF38wPiXZ7xg[离线计算-Spark

爱吃辣条byte·2024-01-28 23:40

Java爬虫+协同过滤+Springboot+vue.js实现的小说推荐系统，小说推荐平台，小说管理系统

因此本次毕业设计程序立足于网络爬虫技术采集互联网小说资源分析汇总至本小说推荐平台，基于用户协同过滤推荐算法对不同的用户展开个性化的小说内容推荐阅读。

计算机程序优异哥·2024-01-28 22:49

spark 内核源码剖析七：Work工作原理

driverDesc)=>{logInfo(s"Askedtolaunchdriver$driverId")valdriver=newDriverRunner(conf,driverId,workDir,sparkHome

雪飘千里·2024-01-28 18:08

极简pyspark

PySpark简要介绍PySpark是一个基于Spark的Python接口，它允许你在Python中使用Spark的强大功能，如大数据处理、实时数据处理等。

吉小雨·2024-01-28 18:13

基于个性化的电影推荐系统全流程设计

dl-re-movies项目简介：dl_re_web:Web项目的文件夹re_sys：Webappmodel：百度云下载之后，把model放到该文件夹下recommend：网络模型相关data：训练数据集文件夹DataSet.py：数据集加载相关re_model.py：网络模型类utils.py：工具、爬虫static：Web页面静态资源templates：为Web页面的Html页面venv：Dj

会唱歌的炼丹师·2024-01-28 17:29

pyspark在windows下java.net.SocketException: Connection reset by peer 错误

pyspark在windows加载数据集训练模型出现以下错误java.net.SocketException:Connectionresetbypeer:socketwriteerroratjava.net.SocketOutputStream.socketWrite0

walk walk·2024-01-28 15:49

【开源】基于JAVA+Vue+SpringBoot的用户画像活动推荐系统

目录一、摘要1.1项目介绍1.2项目录屏二、功能模块2.1数据中心模块2.2兴趣标签模块2.3活动档案模块2.4活动报名模块2.5活动留言模块三、系统设计3.1用例设计3.2业务流程设计3.3数据流程设计3.4E-R图设计四、系统展示五、核心代码5.1查询兴趣标签5.2查询活动推荐5.3新增活动报名5.4新增活动收藏5.5新增活动留言六、免责说明一、摘要1.1项目介绍基于JAVA+Vue+Spri

桑程程·2024-01-28 14:32

spark-streaming与kafka的整合

1.概述在2.x中，spark有两个用来与kafka整合的代码，版本代号为0.8和0.10，由于在0.8，kafka有两套消费者api，根据高级api得到了Receiver-basedApproach，

王大为学习笔记·2024-01-28 14:47

[SparkSQL] Rdd转化DataFrame 通过StructType为字段添加Schema

1、开发环境spark-2.1.0-bin-hadoop2.62、Rdd转换成DataFrame，为字段添加列信息参数nullable说明：Indicatesifvaluesofthisfieldcanbenullvaluesvalschema

林沐之森·2024-01-28 13:51

[AIGC大数据基础] Spark 入门

其中，Spark作为一个快速、通用的大数据处理引擎备受关注。本文将从“是什么、怎么用、为什么用”三个角度来介绍Spark。

程序员三木·2024-01-28 12:32

【阿里巴巴】阿里妈妈联盟-Java研发工程师-杭州

杭州｜正式｜硕士｜研发-后端职位｜1年工作经验职位描述参与广告内容生产和分发工作，深入了解和优化电商广告业务；负责大数据计算、搜索推荐系统和业务应用系统设计；参与大型业务项目的设计和实施，推动业务快速迭代发展

探小虎·2024-01-28 12:20

Impala-shell卡顿分析——记一次曲折的Debug经历

Impala-shell卡顿分析——记一次曲折的Debug经历问题发现最近准备在Impala中增加对UTF-8的支持，以修正跟Hive、Spark等基于Java的系统在UTF-8字符串上的不兼容表现（如

stiga-huang·2024-01-28 12:06

Impala元数据简介

Impala元数据简介背景Impala是一个高性能的OLAP查询引擎，与其它SQL-on-Hadoop的ROLAP解决方案如Presto、SparkSQL等不同的是，Impala对元数据（Metadata

stiga-huang·2024-01-28 12:05

Spark:Task Locality参考

DatalocalitycanhaveamajorimpactontheperformanceofSparkjobs.Ifdataandthecodethatoperatesonitaretogetherthencomputationtendstobefast.Butifcodeanddataareseparated

liuzx32·2024-01-28 12:38

Spark 的宽依赖和窄依赖

ApacheSpark中的依赖关系指的是转换操作（transformations）之间的依赖类型。这些依赖关系决定了任务是如何在集群上分布执行的。

小湘西·2024-01-28 08:52

TNNLS'23 | 简单高效的图对比学习聚类

数据派THU·2024-01-28 08:20

Spark——Spark SQL逻辑计划（Logical Plan）、物理计划（Physical Plan）和Catalyst优化器（Catalyst Optimizer）

文章目录TreesRulesSparkSQL中使用CatalystAnalysis逻辑优化（LogicalOptimizations）物理计划（PhysicalPlanning）代码生成（CodeGeneration

Southwest-·2024-01-28 08:18

Spark——Spark覆盖分区表中指定的分区

问题描述Spark中向分区表写数据的时候，如果写入模式为“overwrite”，那会将整个表覆盖掉；如果写入模式为“ap

Southwest-·2024-01-28 08:18

Spark——Spark OOM Error问题汇总分析

.广播了大变量Executor端OOMError1.低效的查询2.不合适的Driver端和Executor端内存3.不合适的YARNContainer内存4.内存中缓存大量数据5.不合适任务并行度参考Spark

Southwest-·2024-01-28 08:17

Spark——Spark写MySQL太慢、很慢、非常慢的原因分析及优化方法

文章目录问题背景原因分析解决方法参考问题背景有这样一个业务场景：需要将通过Spark处理之后的数据写入MySQL，并在在网页端进行可视化输出。

Southwest-·2024-01-28 08:17

Spark——Spark/Hive向量化查询执行原理分析（Vectorization Query Execution）

文章目录什么是向量化查询执行列式存储Spark向量化查询执行Hive向量化查询执行参考什么是向量化查询执行在标准的查询执行系统中，每次只处理一行数据，每次处理都要走过较长的代码路径和元数据解释，从而导致

Southwest-·2024-01-28 08:47

Spark——Spark缓存临时视图（View）

文章目录RDD/Dataset缓存复用纯SQL结果缓存复用RDD/Dataset缓存复用我们知道在使用RDD和DatasetAPI开发Spark应用程序的时候，如果要缓存某个RDD或Dataset来进行复用

Southwest-·2024-01-28 08:47

Spark——Spark DataFrame导出为Excel文件

文章目录问题背景实现1.Maven依赖2.代码实现3.参数详解1.'sheet_name'!B3:C35。2.sheet_name[#All]参考问题背景有时候我们在进行一些表的计算之后，会生成一些指标，需要导出来给其它同事用，虽说可以将DataFrame直接写成表，然后通过工具(比如Hue)导出为Excel，但是步骤就多了，而且如果要导出的表比较多的话，就更浪费时间了，那么这时候调用第三方插件就

Southwest-·2024-01-28 08:17

Spark —— JSON对象/数组转成Spark Dataset/DataFrame

JSON转DataFrame在日常使用Spark处理数据时,半结构化的JSON数据(JSONObject,JSONArray)可能是最常见的一种数据结构，那么能熟练并快速地处理JSON格式数据应该是数据开发人员的必备技能

Southwest-·2024-01-28 08:16

Spark——Spark读写MongoDB

文章目录Spark直连MongoDB1.通过SparkConf2.通过ReadConfig3.通过DataFrameReaderHive中创建映射表mongoexport导出文件参考如果我们要想通过Spark

Southwest-·2024-01-28 08:46

Spark——Spark读写Greenplum/Greenplum-Spark Connector高速写Greenplum

文章目录问题背景解决方式代码实现Spark写GreenplumSpark读Greenplum参考问题背景通过数据平台上的DataX把Hive表数据同步至Greenplum（因为DataX原生不支持GreenplumWriter

Southwest-·2024-01-28 08:42

Hive之set参数大全-18

指定在执行Spark上的动态分区裁剪时，用于评估分区数据大小的最大限制在Hive中，hive.spark.dynamic.partition.pruning.max.data.size是一个配置参数，用于指定在执行

OnePandas·2024-01-28 07:33

hive面试题

本质上是将SQL转换为MapReduce或者spark来进行计算，数据是存储在hdfs上，简单理解来说hive就是MapReduce的一个客户端工具。补充1：你可以说一下HQL转换为MR的任务流程吗？

韩顺平的小迷弟·2024-01-28 07:29

(N-140)基于springboot,vue协同过滤推荐算法个性化购物商城

开发工具：IDEA服务器：Tomcat9.0，jdk1.8项目构建：maven数据库：mysql5.7系统分前后台，项目采用前后端分离前端技术：vue+elementUI服务端技术：springboot+mybatis+redis本项目分为前台(普通用户)、后台(管理员)两部分一、普通用户功能（前台）：1.注册用户和登录、分类浏览商品、加入购物车、管理购物车、商品下单2.商品支付（支付宝沙箱支付）

IT教程资源-·2024-01-28 06:23

大数据——Flink 知识点整理

目录1.Flink的特点2.Flink和SparkStreaming的对比3.Flink和Blink、Alink之间的关系4.JobManager和TaskManager的职责5.Flink集群部署有哪些模式

Vicky_Tang·2024-01-28 06:17

【Deep Dive: AI Webinar】基于LLM的推荐系统中的公平与责任：确保人工智能技术的使用合乎道德...

【深入探讨人工智能】网络研讨系列总共有17个视频。我们按照视频内容，大致上分成了3个大类：1.人工智能的开放、风险与挑战（4篇）2.人工智能的治理（总共12篇），其中分成了几个子类：a.人工智能的治理框架（3篇）b.人工智能的数据治理（4篇）c.人工智能的许可证（4篇）d.人工智能的法案（1篇）3.炉边对谈-谁在构建开源人工智能?今天发布的是第二个类别“人工智能的治理框架”里的第一个视频：【基于L

开源社·2024-01-28 04:50

深度学习如何入门？

深度学习是一种利用多层神经网络来学习数据特征和模式的机器学习方法，它在图像识别、自然语言处理、语音识别、推荐系统等领域都取得了令人瞩目的成果。那么，如果你想学习深度学习，你需要掌握哪些知识和技能呢？

清水白石008·2024-01-28 00:05

Apache Spark架构与特点

1.背景介绍ApacheSpark是一个开源的大数据处理框架，由AMLLabs公司开发，后被Apache软件基金会所支持。

OpenChat·2024-01-27 23:35

Spark-core

什么是SparkSpark是基于内存的快速，通用，可扩展的大数据分析引擎Spark的内置模块SparkCore是Spark可以离线处理的部分，实现了spark的基本功能，包含任务调度，错误恢复，与存储系统交互等模块

luckboy0000·2024-01-27 23:12

锦绣拾年·2024-01-27 22:08

独家解读 | 滴滴机器学习平台架构演进之路

所谓大同是指大家所要处理的问题都相似，技术架构和选型也差不太多，比如都会使用GPU集群、采用Spark或K8s平台等。

csdn产品小助手·2024-01-27 19:18

apache 前30个开源项目

高性能Web服务器提供HTTP服务支持非常活跃2ApacheTomcatJava应用服务器部署JavaWeb应用程序非常活跃3ApacheHadoop分布式存储和计算框架大数据处理非常活跃4ApacheSpark

临水逸·2024-01-27 17:35

机器学习架构：实现高效的模型训练和部署

在过去的几年里，机器学习技术在各个领域取得了显著的进展，例如自然语言处理、计算机视觉、推荐系统、语音识别等。这些成果的共同点在于它们都依赖于大规模的数据处理和计算能力。

OpenChat·2024-01-27 16:15

如何使用irsa将火花提交给亚马逊eks集群

Inpreviousarticle,IhaveintroducedhowwesubmitaSparkjobtoanEKScluster.Aslongaswe’reusingotherAWScomponentsforourpipelinestointeract

weixin_26755331·2024-01-27 15:26

Pyspark分类--LogisticRegression

LogisticRegression：逻辑回归分类classpyspark.ml.classification.LogisticRegression(featuresCol=‘features’,labelCol

Gadaite·2024-01-27 14:53

搭建大数据平台常用的端口号

journalnode默认的端口号9000：非高可用访问数rpc端口8020：高可用访问数据rpc8088：yarn的webUI的端口号8080：master的webUI，Tomcat的端口号7077：spark

修勾勾L·2024-01-27 13:51

Spark连接Hive的两种方式

一、使用hive-site.xml第一步：将集群中的hive-site.xml的内容复制出来，并放在idea项目的resources下，要求文件命名为：hive-site.xmldatanucleus.schema.autoCreateAlltruejavax.jdo.option.ConnectionURLjdbc:mysql://192.168.38.160:3306/hive_db?crea

修勾勾L·2024-01-27 13:50

推荐频道

推荐系统协同过滤spark

【Spark系列3】RDD源码解析实战

Spark作业执行原理

Spark工作原理

Spark详解（五）：Spark作业执行原理

Spark运行原理

Spark | 记录下Spark作业执行时常见的参数属性配置

【Spark系列1】Spark作业执行原理

数仓治理-小文件治理

Java爬虫+协同过滤+Springboot+vue.js实现的小说推荐系统，小说推荐平台，小说管理系统

spark 内核源码剖析七：Work工作原理

极简pyspark

基于个性化的电影推荐系统全流程设计

pyspark在windows下java.net.SocketException: Connection reset by peer 错误

【开源】基于JAVA+Vue+SpringBoot的用户画像活动推荐系统

spark-streaming与kafka的整合

[SparkSQL] Rdd转化DataFrame 通过StructType为字段添加Schema

[AIGC大数据基础] Spark 入门

【阿里巴巴】阿里妈妈联盟-Java研发工程师-杭州

Impala-shell卡顿分析——记一次曲折的Debug经历

Impala元数据简介

Spark:Task Locality参考

推荐系统工程篇之搭建以图搜图服务

Spark 的宽依赖和窄依赖

TNNLS'23 | 简单高效的图对比学习聚类

Spark——Spark SQL逻辑计划（Logical Plan）、物理计划（Physical Plan）和Catalyst优化器（Catalyst Optimizer）

Spark——Spark覆盖分区表中指定的分区

Spark——Spark OOM Error问题汇总分析

Spark——Spark写MySQL太慢、很慢、非常慢的原因分析及优化方法

Spark——Spark/Hive向量化查询执行原理分析（Vectorization Query Execution）

Spark——Spark缓存临时视图（View）

Spark——Spark DataFrame导出为Excel文件

Spark —— JSON对象/数组转成Spark Dataset/DataFrame

Spark——Spark读写MongoDB

Spark——Spark读写Greenplum/Greenplum-Spark Connector高速写Greenplum

Hive之set参数大全-18

hive面试题

(N-140)基于springboot,vue协同过滤推荐算法个性化购物商城

大数据——Flink 知识点整理

【Deep Dive: AI Webinar】基于LLM的推荐系统中的公平与责任：确保人工智能技术的使用合乎道德...

深度学习如何入门？

Apache Spark架构与特点

Spark-core

利用上下文信息的推荐系统

独家解读 | 滴滴机器学习平台架构演进之路

apache 前30个开源项目

机器学习架构：实现高效的模型训练和部署

如何使用irsa将火花提交给亚马逊eks集群

Pyspark分类--LogisticRegression

搭建大数据平台常用的端口号

Spark连接Hive的两种方式