——Spark 第61页

windows本地搭建mmlspark分布式机器平台流程

文章目录windows本地搭建mmlspark分布式机器平台流程安装环境pyspark环境spark环境java环境hadoop环境1.修改hadoop配置文件下的jdk地址为自己的实际地址2.修改bin

安替-AnTi·2023-10-24 14:36

Spark简单回顾

星光下的赶路人star的个人主页大鹏一日同风起，扶摇直上九万里文章目录1、Spark1.1Spark入门1.1.1Spark

星光下的赶路人star·2023-10-24 11:32

SparkSQL之LogicalPlan概述

逻辑计划本质上是一种中间过程表示，与Spark平台无关，后续阶段会进一步将其映射为可执行的物理计划。SparkSQL逻辑计划在实现层面被定义为LogicalPlan类。

RainTicking·2023-10-24 11:03

【Spark ML】第 5 章：Recommendations

大家好，我是Sonhhxg_柒，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流个人主页－Sonhhxg_柒的博客_CSDN博客欢迎各位→点赞+收藏⭐️+留言系列专栏-机器学习【ML】自然语言处理【NLP】深度学习【DL】foreword✔说明⇢本人讲解主要包括Python、机器学习（ML）、深度学习（DL）、自然语言处理（NLP）等内容。如果你对这个系列感兴趣的话，可以关注订阅哟文章目录

Sonhhxg_柒·2023-10-24 09:22

电影评分数据分析案例-Spark SQL

#cording:utf8frompyspark.sqlimportSparkSessionfrompyspark.sql.typesimportIntegerType,StringType,StructTypeimportpyspark.sql.functionsasFif

菜鸟一千零八十六号·2023-10-24 08:52

Spark SQL概述与基本操作

目录一、SparkSQL概述（1）概念（2）特点（3）SparkSQL与Hive异同（4）Spark的数据抽象二、SparkSession对象执行环境构建(1)SparkSession对象（2）代码演示三

菜鸟一千零八十六号·2023-10-24 08:22

SparkSQL的Shuffle分区设定及异常数据处理API（去重、缺失值处理）

一、SparkSQL的Shuffle分区数目设定在允许spark程序时，查看WEBUI监控页面发现，某个Stage中有200个Task任务，也就是说RDD有200分区Partion。

菜鸟一千零八十六号·2023-10-24 08:49

Spark 学习笔记

dataframecreate创建dataframevaltraining=ss.createDataFrame(Seq((1.0,Vectors.dense(0.0,1.1,0.1)),(0.0,Vectors.dense(2.0,1.0,-1.0)),(0.0,Vectors.dense(2.0,1.3,1.0)),(1.0,Vectors.dense(0.0,1.2,-0.5)))).toD

小小兰哈哈·2023-10-24 07:31

Spark之DataFrame操作大全

SparkSession中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作，在DataFrame中都可以通过调用其API接口来实现。

果粒多·2023-10-24 07:23

大数据常见错误及解决方案

/bin/spark-shell启动spark时遇到异常：java.net.BindException:Can'tassignrequestedaddress:Service'sparkDriver'failedafter16retries

果粒多·2023-10-24 07:53

中国智能创客素质教育晨报

【PlanetSpark获得3200万卢比pre-A轮融资】印度游戏化学习解决方案初创公司PlanetSpark宣布完成3200万卢比（约合44.88万美元）的pre-A轮融资，投资方为：IndianAngelNetwork

81224ff12082·2023-10-24 05:35

Tableau第三课

3.2、香港不同地区酒店数量与价格四、气泡图与词云4.1、不同类型电影数量与票房4.2、动作电影动态气泡图4.3、词云图制作五、本次课程作业一、上次课程回顾https://blog.csdn.net/SparkOnYarn

Spark on yarn·2023-10-24 05:16

流计算概述（林子雨慕课课程）

11.1.2流计算概念与典型框架11.2流计算处理流程11.3流计算的应用11.4开源流计算框架Storm11.4.1Storm简介11.4.2Storm设计思想11.4.3Storm框架设计11.5SparkSparkStreamingSamza

几窗花鸢·2023-10-24 04:16

Java实现一个简单的GitHub仓库信息爬取

云计算实践作业需要采用Spark,Flink实现，其中需要用到爬虫进行数据的的爬取，来保证数据的来源和有效且“大量”。

adventure.Li·2023-10-24 03:41

es第十篇：Elasticsearch for Apache Hadoop

esforapachehadoop(elasticsearch-hadoop.jar)允许hadoop作业(mapreduce、hive、pig、cascading、spark)与es交互。

lvtula·2023-10-24 02:24

大数据学习04 Scala的学习

大数据学习04Scala的学习在Spark学习之前，先进行对Scala的学习提示：已经有Scala基础的同学可以先跳过这部分文章目录大数据学习04Scala的学习Scala是什么一、Scala入门1.为什么学习

燕大扎克伯格·2023-10-24 01:12

Scala教程

Scala是一门综合了面向对象和函数式编程概念的静态类型的编程语言，它运行在标准的java平台上，可以与所有的Java类库无缝操作Spark，Kafka等底层都是Scala编写的1.1.2Scala的发展马丁

三暮辰·2023-10-24 01:05

Flink（1）-概述

目前比较流行的大数据处理引擎ApacheSpark，基本上已经取代了MapReduce成为当前大数据处理的标准。随着数据的不断增长，人们逐渐意识到对实时数据处理的重要性。

鱼跃鹰飞·2023-10-23 23:24

1注解知识点-@Valid用法

前提:在pom.xml导入org.hibernatehibernate-validator5.4.1.Final1.客户端传入参数publicclassParkEnterpriseModelextendsBaseModel

堕落小怪兽·2023-10-23 20:53

Spark（三十八）数据倾斜解决方案之提高shuffle操作reduce并行度

一、背景1、第一个和第二个方案，都不适合做。2、第三个方案，提高shuffle操作的reduce并行度将reducetask的数量，变多，就可以让每个reducetask分配到更少的数据量，这样的话，也许就可以缓解，或者甚至是基本解决掉数据倾斜的问题。提升shufflereduce端并行度，怎么来操作？1、很简单，主要给我们所有的shuffle算子，比如groupByKey、countByKey、

文子轩·2023-10-23 19:15

【无标题】

Spark和Hadoop的MapReduce对比spark和mapreduce对比速度：Spark的设计目标是比MapReduce更快，这要归功于它的内存处理能力。

浩海紫冰·2023-10-23 19:54

Spark-checkpoint检查点

Spark中对于数据的保存除了缓存操作外，还提供了一种检查点的机制，检查点是为了通过血缘关系实现容错辅助，血缘关系过长会造成容错成本过高，如果在中间阶段设立检查点进行容错，当后续节点出现问题是，从检查点开始重新建立血缘会减少开销

布莱安托·2023-10-23 16:43

Spark 简介

spark特点spark是基于内存计算的大数据并行计算框架具有如下特点：运行速度快Spark使用先进的DAG执行引擎，基于内存的执行速度可比HadoopMapReduce快上百倍，基于磁盘的执行速度也能快十倍容易使用支持使用

博弈史密斯·2023-10-23 16:22

Spark常用RDD算子详解！！！

文章目录1.Transformation转换算子1.1Value类型1.1.1map()映射1.1.2mapPartitions()以分区为单位执行Map1.1.3map()和mapPartitions()区别1.1.4mapPartitionsWithIndex()带分区号1.1.5flatMap()压平1.1.6glom()分区转换数组1.1.7groupBy()分组1.1.8GroupBy之

子清.·2023-10-23 14:16

spark rdd算子的简单练习

统计发布招聘岗位最多的五个地区objectfrist_test{defmain(args:Array[String]):Unit={valsparkConf=newSparkConf().setMaster

南辰x·2023-10-23 14:15

Mongo+Spark

本文转载自：http://www.mongoing.com/tj/mongodb_shanghai_spark介绍按照官方的定义，Spark是一个通用，快速，适用于大规模数据的处理引擎。

亮亮-AC米兰·2023-10-23 14:15

Spark核心编程—RDD算子(转换算子)

文章目录持续更新中一、RDD转换算子（一）Value类型1、map2、mapPartitions3、mapPartitionWithIndex4、flatMap5、glom6、groupBy7、filter8、sample9、distinct10、coalesce11、repartition12、sortBy（二）双Value类型1、intersection2、union3、subtract4、z

Jerry Hong·2023-10-23 14:43

spark 算子详解 java_spark RDD算子详解3

Actions算子本质上在Actions算子中通过SparkContext执行提交作业的runJob操作，触发了RDDDAG的执行。

拐个王子回古墓·2023-10-23 14:12

Spark RDD算子详解

RDD方法=>RDD算子(Operator操作)RDD的方法和Scala集合对象的方法不一样，集合对象的方法都是在同一个节点的内存中完成的。RDD的方法可以将计算逻辑发送到Executor端（分布式节点）执行。为了区分不同的处理效果，所以将RDD的方法称之为算子。RDD的方法外部的操作都是在Driver端执行的，而方法内部的逻辑代码是在Executor端执行。算子字面看还是以计算为主，RDD不存放

数据求学家·2023-10-23 14:42

利用pyspark练习sparkRDD算子的操作练习实验

实验名称RDD算子的操作实验实验目的掌握RDD算子的基本用法实验资源student.txt实验环境VMwareWorkstationUbuntu16.04JupyterNotebookPyspark实验内容

墨风倾城·2023-10-23 14:11

Spark中transformation和Action的RDD算子

Spark中transformation和Action的RDD算子区别transformationtransformation是在现有的RDD上通过一定方法转换生成新的RDD，转换时延时执行（lazy）

lds_include·2023-10-23 14:41

RDD常见转化算子和行动算子

spark提供了丰富的用于操作RDD的方法，这些方法被称为算子。一个创建完成的RDD只支持两种算子：转化算子和行动算子。转化算子负责对RDD中的数据进行计算并转化为新的RDD。

东流-beyond the label·2023-10-23 14:41

Spark RDD&算子基本操作

1.RDDSpark提供了两种创建RDD的方式：（1）由一个已经存在的Scala集合进行创建。

傍ྂ离ྂ·2023-10-23 14:40

SparkSql读取Snappy Parquet压缩文件报错：java.lang.UnsatisfiedLinkError: org.xerial.snappy.SnappyNative.unc...

版本信息Spark-sql：2.2.0.cloudera2Spark-core：2.2.0.cloudera2JDK：1.8Scala：2.11.11问题描述在通过SparkSqlAPI读取SnappyParquet

Producer晨·2023-10-23 13:10

kafka 数据可靠性深度解读

目前越来越多的开源分布式处理系统如Cloudera、ApacheStorm、Spark等都支持与Kafka集成。如果想学习Java工程化、高性能及分布式、深入浅出。

程序员日常填坑·2023-10-23 09:11

spark开发环境搭建

1、下载工具下载开发工具lunaeclipse或者IntellijIDEA(官网下载的scalaforeclipse如果不能用可以使用luna)2、安装jdk配置环境变量建议jdk1.8，jdk版本请确定好，是64位还是32位。（1）环境变量添加java_home,变量值写入jdk安装路径；（2）环境变量找到path，没有则新建，变量值入%JAVA_HOME%\bin;%JAVA_HOME%\jr

请叫我刚爷·2023-10-23 08:12

Spark任务中Partition分区与HDFS中的Block数据块

hdfs-block位于存储空间；spark-partition位于计算空间；hdfs-block的大小是固定的；spark-partition大小是不固定的；hdfs-block是有冗余的、不会轻易丢失

liuzx32·2023-10-23 07:32

Spark - 动态注册UDF

昨天有位大哥问小弟一个Spark问题，他们想在不停Spark程序的情况下动态更新UDF的逻辑，他一问我这个问题的时候，本猪心里一惊，Spark**还能这么玩?

kikiki2·2023-10-23 06:08

spark-core-转载

第1章RDD概念1.1RDD为什么会产生 RDD：ResilientDistributedDataset弹性分布式数据集 RDD是Spark的基石，是实现Spark数据处理的核心抽象。

zuoseve01·2023-10-23 05:28

Spark系列之（五）——案例一：搜索引擎日志分析

1.数据描述2.业务分析3.jieba入门4.需求1：搜索关键词统计5.需求2：用户和关键词组合分析6.需求3：热门搜索时间段7.提交集群运行

浩 k·2023-10-23 05:58

Spark Streaming系列-5、应用案例：百度搜索风云榜

传送门：大数据系列文章目录官方网址：http://spark.apache.org/、http://spark.apache.org/sql/目录业务场景初始化环境创建Topic模拟日志数据StreamingContextUtils

技术武器库·2023-10-23 05:57

转：大数据真实案例：Spark在美团的实践

美团是数据驱动的互联网服务，用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志，这些日志数据将被汇总处理、分析、挖掘与学习，为美团的各种推荐、搜索系统甚至公司战略目标制定提供数据支持。大数据处理渗透到了美团各业务线的各种应用场景，选择合适、高效的数据处理引擎能够大大提高数据生产的效率，进而间接或直接提升相关团队的工作效率。美团最初的数据处理以HiveSQL为主，底层计算引擎为MapRed

爱萨萨·2023-10-23 05:57

SparkCore系列-7、SougoQ日志分析

传送门：大数据系列文章目录官方网址：http://spark.apache.org/、https://databricks.com/spark/about目录回顾介绍业务需求准备工作HanLP中文分词样例类

技术武器库·2023-10-23 05:27

大数据Spark实时搜索日志实时分析

目录1业务场景2初始化环境2.1创建Topic2.2模拟日志数据2.3StreamingContextUtils工具类3实时数据ETL存储4实时状态更新统计4.1updateStateByKey函数4.2mapWithState函数5实时窗口统计1业务场景百度搜索风云榜（http://top.baidu.com/）以数亿网民的单日搜索行为作为数据基础，以搜索关键词为统计对象建立权威全面的各类关键词

赵广陆·2023-10-23 05:26

基于Spark Streaming的实时日志分析系统实践 Spark Streaming 在数据平台日志解析功能的应用

前言目前业界基于Hadoop技术栈的底层计算平台越发稳定成熟，计算能力不再成为主要瓶颈。多样化的数据、复杂的业务分析需求、系统稳定性、数据可靠性，这些软性要求，逐渐成为日志分析系统面对的主要问题。2018年线上线下融合已成大势，苏宁易购提出并践行双线融合模式，提出了智慧零售的大战略，其本质是数据驱动，为消费者提供更好的服务，苏宁日志分析系统作为数据分析的第一环节，为数据运营打下了坚实基础。数据分析

bcdk1188·2023-10-23 05:56

Spark(11) -- Spark实现ip地址查询案例及Sogou日志分析（scala版）

1.Spark实现ip地址查询案例1.1需求分析在互联网中，我们经常会见到城市热点图这样的报表数据，例如在百度统计中，会统计今年的热门旅游城市、热门报考学校等，会将这样的信息显示在热点图中。

erainm·2023-10-23 05:56

大数据Spark对SogouQ日志分析

2.2样例类SogouRecord3业务实现3.1读取数据3.2搜索关键词统计3.3用户搜索点击统计3.4搜索时间段统计3.5完整代码1业务需求使用搜狗实验室提供【用户查询日志(SogouQ)】数据，使用Spark

赵广陆·2023-10-23 05:56

Spark内核调度

目录一、DAG（1）概念（2）Job和Action关系（3）DAG的宽窄依赖关系和阶段划分二、Spark内存迭代计算三、spark的并行度（1）并行度设置（2）集群中如何规划并行度四、spark任务调度五

菜鸟一千零八十六号·2023-10-23 05:55

spark搜狗日志数据分析实战

一.数据来源本次示例所用数据是来自搜狗实验室的用户查询日志。搜索引擎查询日志库设计为包括约1个月(2008年6月)Sogou搜索引擎部分网页查询需求及用户点击情况的网页查询日志数据集合。为进行中文搜索引擎用户行为分析的研究者提供基准研究语料。数据下载地址为：http://www.sogou.com/labs/resource/q.php。可以根据自己需求下载不同版本数据，这里下载的是迷你版本的ta

RiverCode·2023-10-23 05:25

推荐频道

——Spark