.spark 第61页

陌陌-pyspark

使用陌陌案例数据，用sparksql进行需求实现需求说明字段说明代码实现#conding=utf-8importosos.environ['JAVA_HOME']='/export/server/jdk1.8.0

5:30·2023-11-04 21:42

大数据毕业设计选题推荐-自媒体舆情分析平台-Hadoop-Spark-Hive

✨作者主页：IT毕设梦工厂✨个人简介：曾从事计算机专业培训教学，擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。☑文末获取源码☑精彩专栏推荐⬇⬇⬇Java项目Python项目安卓项目微信小程序项目文章目录一、前言二、开发环境三、系统界面展示四、部分代码设计五、论文参考六、系统视频结语一、前言随着互联网的普及和

IT毕设梦工厂·2023-11-04 20:12

大数据毕业设计选题推荐-旅游景点游客数据分析-Hadoop-Spark-Hive

✨作者主页：IT毕设梦工厂✨个人简介：曾从事计算机专业培训教学，擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。☑文末获取源码☑精彩专栏推荐⬇⬇⬇Java项目Python项目安卓项目微信小程序项目文章目录一、前言二、开发环境三、系统界面展示四、部分代码设计五、论文参考六、系统视频结语一、前言随着现代科技的发展

IT毕设梦工厂·2023-11-04 20:40

大数据技能竞赛（需要提供相关答疑私信）

全国职业院校技能大赛模拟题（平台搭建，离线数据清洗，实时数据分析，可视化，综合分析）大数据平台搭建大数据技术与应用技能竞赛题目解析及代码分析实验Hadoop完全分布式安装配置/伪分布式安装配置Spark

笨鸟先-森·2023-11-04 13:03

从TCP三次握手说起——浅析TCP协议中的疑难杂症

PeterWang_bupt贡献值：2等級：L10发布0评论1顶发布链接发布图文全部主题我关注的主题GEEKNEWSRustSwift全栈工程师/homePrestoDB人工智能前端Spark云计算潜水猿

yesIcando-bupt·2023-11-04 10:32

Java使用Spark入门级非常详细的总结

目录Java使用Spark入门环境准备安装JDK安装Spark编写Spark应用程序创建SparkContext读取文本文件计算单词出现次数运行Spark应用程序总结Java使用Spark入门本文将介绍如何使用

小白学编程123·2023-11-04 10:45

4.RDD编程指南

概述spark提供的重要的抽象是一个弹性分布式数据集(RDD)，能被并行操作的，在集群上分区的集合元素。

流月up·2023-11-04 09:52

5.RDD持久化

概述今日目标：RDD持久化RDD持久化原理RDD持久化策略如何选择RDD持久化策略案例相关文章如下：spark官网地址RDD编程指南RDD持久化RDD持久化原理Spark中最重要的功能之一是跨操作在内存中持久化

流月up·2023-11-04 09:52

3.使用spark开发第一个程序WordCount程序及多方式运行代码

概述WordCount是一个快速入门案例，单词统计，通过此案例，学习如何用scala来编写spark程序，spark支持java，scalal这些语言，目前在企业中大部分公司都是使用scala进行开发，

流月up·2023-11-04 09:51

6.Spark共享变量

概述共享变量共享变量的工作原理BroadcastVariableAccumulator共享变量共享变量的工作原理通常，当给Spark操作的函数(如mpa或reduce)在Spark集群上执行时，函数中的变量单独的拷贝到各个节点上

流月up·2023-11-04 09:47

mac使用pyspark & spark thrift server的使用

前段时间，做公司bot平台的日志处理，跟着大佬老王同志一起学spark。学了这么久，总算有些技巧分享给大家。

GoddyWu·2023-11-04 09:50

Spark SQL

一.SparkSqlSparkSQL可以简化RDD的开发，提高开发效率.提供了2个编程抽象，类似SparkCore中的RDD➢DataFrame➢DataSet1.SparkSQL特点➢易整合无缝的整合了

ytzhyp·2023-11-04 04:23

通过IDEA编写Spark SQL, 以编程方式执行Spark SQL查询, 使用Scala语言操作Spark SQL 25

1.使用Scala语言操作SparkSQL,将RDD转为DataFrame前面我们学习了如何在SparkShell中使用SQL完成查询，现在我们通过IDEA编写SparkSQL查询程序。

啊策策·2023-11-04 04:21

spark代码连接hive_本地spark连接hive相关问题总结

1、在win下去连接hive首先需要下载spark，下载地址：http://mirror.bit.edu.cn/apache/spark/spark-3.0.0-preview/spark-3.0.0-

weixin_39798626·2023-11-04 04:21

spark sql 本地调试_scala spark sql 本地调试

对于习惯了sql的开发同学来说，写sql肯定比较用map，filter内在算法因子要顺手的多。一，sbt项目1，build.sbt配置name:="scalatest"version:="0.1"scalaVersion:="2.11.8"libraryDependencies+="com.alibaba"%"fastjson"%"1.2.49"libraryDependencies++=Seq(

weixin_39679664·2023-11-04 04:50

idea maven spark 连接 sql server

在网上找了很久的方法，没有找到成功的，所以写一下参考官网：https://docs.microsoft.com/zh-cn/sql/connect/spark/connector?

qingDT·2023-11-04 04:18

IDEA本地执行Spark报错：is not a valid DFS filename

本地执行sparkstructuredstreaming报错，程序代码：defmain(args:Array[String]):Unit={valspark=SparkSession.builder.master

头顶榴莲树·2023-11-04 04:48

Windows下配置IDEA开发Spark(spark和hive整合，IDEA中standalone、yarn直接执行)

Windows下配置IDEA开发Spark(spark和hive整合，IDEA中standalone、yarn直接执行)本文介绍Windows下如何配置IDEA开发Spark，spark和hive整合，

laoda137·2023-11-04 04:17

使用 Spark-HBase-Connector 读取 HBase

{Level,Logger}importorg.apache.spark.sql.execution.datasources.hbase.

焉知非鱼·2023-11-04 04:58

Spark3.2教程（七）IDEA下Java开发Spark SQL

上一篇文章中，我们使用了Scala语言调用SparkSQL接口进行了开发，本篇文章我们使用Java语言进行同样业务功能的处理，依然是对JSON、Txt文本进行处理。

Java朱老师·2023-11-04 04:43

Spark SQL之IDEA中的应用

pom中添加依赖org.apache.sparkspark-sql_2.123.0.0Test1packagetest.wyh.sqlimportorg.apache.spark.SparkConfimportorg.apache.spark.sql.SparkSessionobjectTestSQL

QYHuiiQ·2023-11-04 04:43

Spark3.2教程（六）IDEA下Scala开发Spark SQL

SparkSQL是为了提供对结构化数据处理而推出的技术。Spark自带的例子还是比较详尽而浅显易懂的。本次SparkSQL，我们通过研究Spark自带的教程demo来学习。

Java朱老师·2023-11-04 04:13

windows idea本地执行spark sql避坑

刘文钊1·2023-11-04 04:41

大数据之Spark（6）- SparkStreaming

1SparkStreaming概述1.1SparkStreaming是什么SparkStreaming用于流式数据的处理。

jackyan163·2023-11-04 03:34

SparkSQL的3种Join实现

对于Spark来说有3中Join的实现，每种Join对应着不同的应用场景：BroadcastHashJoin：适合一张较小的表和一张大表进行joinShuffleHashJoin:适合一张小表和一张大表进行

麦子星星·2023-11-04 03:38

Mac中Dbeaver启动时报错：“fail to create java virtual machine”

看到这个信息想起来上周刚在本机上安装了Hadoop，Spark，过程中有新下载了JDK，有可能是Java版本问题。遇到环境问题，也没有诀窍，就是网上搜索各位前辈的解决方案。

数据分析师之家·2023-11-04 01:46

SeaTunnel安装及测试

一.简介架构于Spark和Flink之上的分布式的支持海量数据实时同步的高性能分布式数据集成平台官网：http://seatunnel.incubator.apache.org/Gitee：https:

小小大数据·2023-11-04 01:59

5.Spark Core-Spark经典案例之数据排序

业务场景：数据排序1、”数据排序”是许多实际任务执行时要完成的第一项工作，比如学生成绩评比、数据建立索引等。这个实例和数据去重类似，都是先对原始数据进行初步处理，为进一步的数据操作打好基础。1）、需求描述对输入文件中数据进行排序。输入文件中的每行内容均为一个数字，即一个数据。要求在输出中每行有两个间隔的数字，其中，第一个代表原始数据在原始数据集中的位次，第二个代表原始数据。2）输入文件file1：

__元昊__·2023-11-03 22:07

Spark的主要概念

文章目录博主介绍本文内容1.RDD2.SparkSQL3.SparkStreaming4.MLlib5.GraphX总结文章总结博主目标博主介绍我是廖志伟，一名Java开发工程师、Java领域优质创作者

我是廖志伟·2023-11-03 18:49

sortByKey()

一定会有shuffer作用：在一个(K,V)的RDD上调用，K必须实现Ordered接口，返回一个按照key进行排序的(K,V)的RDDpackagecom.atguiguimportorg.apache.spark.rdd.RDDimportorg.apache.spark

比格肖·2023-11-03 15:26

Spark 学习

本片简单的介绍如何使用Spark，我们将首先通过Spark的交互式shell（在Python或Scala中）介绍API。然后介绍如何使用Scale和python编写应用程序。

Liam_ml·2023-11-03 14:20

Flink、Flink SQL学习笔记

文章目录碎碎念1.Flink的特点1.1FlinkvsSparkStreaming2.Java快速使用3.Flink部署模式3.1Standalone模式3.2yarn模式1.SesstionCluster

东河西·2023-11-03 13:07

大数据学前准备--zookeeper详解与集群搭建（保姆级教程）

我将陆续发布大数据阶段所学，包括但不限于（hadoop，hive，hbase，phoneix，flume，bdeaver，kafka，spark，kylin，flink，azkaban）。

毫无感情的dj·2023-11-03 09:37

Spark学习（四）：Array和ArrayBuffer

主要内容摘自博文，点击阅读原文Array定义定长数组，ArrayBuffer定义变长数组上代码，一看就懂：importscala.collection.mutable.ArrayBufferobjectArrayAndArrayBuffer{defmain(args:Array[String]):Unit={//定义Array方式一:valary1=newArray[Int](5)//长度为5的整

CocoMama190227·2023-11-03 06:38

4、Spark概要

spark任务后期再计算的时候，job的输出结果可以保存在内存中，后

Tu_jc·2023-11-03 05:08

Scala零基础教学【61-80】

第61讲：Scala中隐式参数与隐式转换的联合使用实战详解及其在Spark中的应用源码解析第62讲：Scala中上下文界定内幕中的隐式参数与隐式参数的实战详解及其在Spark中的应用源码解析/***Scala

weixin_30393907·2023-11-03 04:29

怦然心动系列

最近看了《麻理惠的整理秘诀》，一个单词深深印在我脑海里“SparkJoy”，中文翻译“怦然心动”。整理的终极秘诀就是，家里只留下那些让我们怦然心动的东西。

裴莉莉·2023-11-03 04:45

Pyspark_ML_线性回归_决策树回归

Pyspark_ML_线性回归_决策树回归回归模型1，线性回归2，决策树回归回归模型Mllib支持常见的回归模型，如线性回归，广义线性回归，决策树回归，随机森林回归，梯度提升树回归，生存回归，保序回归。

Elvis_hui·2023-11-03 03:01

Spark性能优化之Java虚拟机垃圾回收调优

一、Java虚拟机垃圾回收调优的背景如果在持久化RDD的时候,持久化了大量数据，那么Java虚拟机的垃圾回收就可能成为一个性能瓶颈。因此Java虚拟机会定期进行垃圾回收，此时就会追踪所有java对象，并且在垃圾回收时，找到那些已经不存在使用对象，然后清理旧对象，来给新的对象腾出内存空间。垃圾回收的性能开销,是跟内存中的对象的数量成正比的，所以对于垃圾回收的性能问题，首先要做的是使用更高效的数据结构

有一束阳光叫温暖·2023-11-03 00:07

大数据四大阵营之OLTP阵营（上）

**·OLTP（在线事务、交易处理）：RDBMS、NoSQL、NewSQL·OLAP（在线分析处理）：MapReduce、Hadoop、Spark等·MPP（大规模并行处理）：Greenplum、TeradataAster

Ultipa·2023-11-03 00:24

大数据毕业设计选题推荐-系统运行情况监控系统-Hadoop-Spark-Hive

✨作者主页：IT毕设梦工厂✨个人简介：曾从事计算机专业培训教学，擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。☑文末获取源码☑精彩专栏推荐⬇⬇⬇Java项目Python项目安卓项目微信小程序项目文章目录一、前言二、开发环境三、系统界面展示四、部分代码设计五、论文参考六、系统视频结语一、前言随着信息化时代的快

IT毕设梦工厂·2023-11-02 21:51

idea好用插件整理

1、AlibabaJavaCodingGuidelines阿里巴巴编码格式规范2、BigDataTools大数据开发工具，是一个集成Spark且支持编辑和运行ZeppelinNotebooks的IntelliJIDEA

静心得意，天下迎春·2023-11-02 19:27

理论学习--【Hadoop生态原理学习】

Mahout2.版本1.0mapreduce还进行资源调度2.0mapreduce=yarn（资源调度）+mapreduce（进行计算运行在yarn上），HDfs:nn,ha2.1.2yarn还支持strom、spark

zenas_yuan·2023-11-02 18:31

spark 只基于内存计算

但是spark是不是只基于内存计算呢？答案是否定的。

scandly·2023-11-02 17:46

Spark RDD dataframe嘿嘿

RDD（ResilientDistributedDatasets）可扩展的弹性分布式数据集，RDD是spark最基本的数据抽象，RDD表示一个只读、分区且不变的数据集合，是一种分布式的内存抽象，与分布式共享内存

南师大蒜阿熏呀·2023-11-02 15:19

Pytorch基础代码实战系列之定义一个简单的卷积神经网络

深度学习框架Pytroch系列注：大家觉得博客好的话，别忘了点赞收藏呀，本人每周都会更新关于人工智能和大数据相关的内容，内容多为原创，PythonJavaScalaSQL代码，CVNLP推荐系统等，SparkFlinkKafkaHbaseHiveFlume

陈万君Allen·2023-11-02 14:52

Spark的那些事(二)Structured streaming中Foreach sink的用法

Structuredstreaming默认支持的sink类型有Filesink，Foreachsink，Consolesink，Memorysink。特别的说明一下Foreachsink的用法（ps：以通过Foreachsink写入外部redis为例）。lastEtlData.writeStream().foreach(newTestForeachWriter()).outputMode("upd

假文艺的真码农·2023-11-02 14:01

Mac 搭建 pyspark各类疑难杂症解决

安装所需要的包：参考这几篇文章进行安装需要的包，并进行安装流程MACOS如何安装PySparkmac下搭建pyspark环境InstallingApacheSparkonMacOS在安装以下文件时都出现了一些小问题

Trance_Fu63·2023-11-02 14:57

2019-12-04 spark简单代码测试

CreateFromArchetype)安装scala插件image.png删除项目的java目录，新建scala并设置源文件夹image.png4.添加scalaSDKimage.png添加依赖4.0.0com.ganymedesparkplatformstudy1.0

basicGeek·2023-11-02 11:38

推荐频道

.spark