——Spark 第66页

科大讯飞API的Python使用教程

首先大家需要获取Token一、如何获取TokenPC端可以直接访问：https://xinghuo.xfyun.cn/sparkapi?ch=blapi_6Oryuhttps://xinghuo.xf

爱玩代码的勒勒·2023-10-17 09:57

大数据开发复习（1）

day01就业岗位介绍面试流程最重要的是简历基础复习JavamysqlLinuxday02HDFSMapReducehive(sqlboy)HBASEday03kafkaredisesday04scalasparkflinkday05etl

小码上线·2023-10-17 09:55

科大讯飞星火API教程

首先大家需要获取Token一、如何获取TokenPC端可以直接访问：token申请https://xinghuo.xfyun.cn/sparkapi?ch=blapi_dq3CG新老用户都可以通过上面

猪八戒程序员·2023-10-17 09:53

科大讯飞的星火API，免费开通了

1.SparkDesk网站地址：https://xinghuo.xfyun.cn/desk这个“科大讯飞版”的ChatG

程序员鹤涵·2023-10-17 09:22

离线推荐服务建设——基于Spark平台的协同过滤实时电影推荐系统项目系列博客（七）

IronmanJay·2023-10-17 08:04

10. 大数据基础

1.shuffle过程https://blog.csdn.net/zpf336/article/details/809316292.Spark为什么快？

_诉说·2023-10-17 07:02

Spark Streaming——Spark第一代实时计算引擎

虽然SparkStreaming已经停止更新，Spark的重点也放到了StructuredStreaming，但由于Spark版本过低或者其他技术选型问题，可能还是会选择SparkStreaming。

大数据流动·2023-10-17 07:03

spark调优总结

1.10.用户访问session分析方案1、按条件筛选session先查出指定的任务，获取任务的查询参数进行session粒度聚合，从用户访问表（user_visit_action）查询指定日期范围内的行为数据将session粒度聚合数据与用户信息进行join。得到RDD最后进行session数据过滤(filter算子。ValidUtil工具类)2、聚合统计：统计出符合条件的session中，访问

paulgeorge9527·2023-10-17 07:25

Spark 内核架构深度剖析

Spark内核架构深度剖析如果你要要学习Spark内核架构，要有一定spark编程基础，对Scala能达到熟练的水平。我们先从案例开始一步一步介绍Spark内核架构。

周尚千寻·2023-10-17 07:58

2023_Spark_实验十四：SparkSQL入门操作

区别：sc.textFile("file:///D:\\temp\\emp.csv")import org.apache.spark.sql.SparkS

pblh123·2023-10-17 06:07

用隐式类增强DataFrameWriter实现spark对mysql的upsert

实际应用中经常会遇到spark把DataFrame保存到mysql，同时遇重更新无重插入的场景，spark原生save只实现了insert，在遇到唯一性约束时就会抛出异常。

zhujh·2023-10-17 05:16

Spark读写HBase表数据

一、Maven依赖clouderahttps://repository.cloudera.com/artifactory/cloudera-reposorg.apache.sparkspark-core

扎西的德勒·2023-10-17 04:14

Flink内存管理

这一问题从MR1.0一直延续到Spark时代，从Spark晚期版本试图由应用程序自行管理内存后，人们才初步解决了内存问题。

寇寇寇先森·2023-10-17 04:03

Spark-从Kafka读取数据

在工程中引用spark-streaming-kafka-0-10_2.11来使用它。

布莱安托·2023-10-16 23:05

scala项目创建

答：实时数仓却不了spark,spark离不开scala、也就是你也是不学习spark也就不用学习scala，因为有其他编程语言可以代替它。2、特点答：1）是一门多范式语言，支持面向对象和函数式编程。

鱼得三金·2023-10-16 20:02

JDBC数据源

SparkSQL支持使用JDBC从关系型数据库（比如MySQL）中读取数据。读取的数据，依然由DataFrame表示，可以很方便地使用Sparksql提供的各种算子进行处理。

一个人一匹马·2023-10-16 17:46

简介、关于文章的故事

其故事叙述了小马TwilightSparkle为了执行导师Celestia公主给她的任务，与助手Spike一起来到小马镇学习有关友谊魔法的知识，在学习和生活的过程中她结识了五位好朋友，并获得了真正的友谊

喵仙_NO202·2023-10-16 16:37

浅谈大数据之Flink

Flink主要面向流处理，如果说Spark是批处理界的“王者”，那么Flink就是流处理领域冉冉升起的“新星”。

`FUTURE`·2023-10-16 16:33

Spark上使用pandas API快速入门

菜鸟Octopus·2023-10-16 14:02

2023_Spark_实验二十：SparkStreaming累加计算单词频率

一、需求分析在服务器端不断产生数据的时候，sparkstreaming客户端需要不断统计服务器端产生的相同数据出现的总数，即累计服务器端产生的相同数据的出现的次数。

pblh123·2023-10-16 14:57

2023_Spark_实验十七：导入招聘大数据（项目）

一、爬虫爬取的招聘网站数据二、在MySQL中创建空表SETFOREIGN_KEY_CHECKS=0;--------------------------------Tablestructureforjd_jobs------------------------------DROPTABLEIFEXISTS`jd_jobs`;CREATETABLE`jd_jobs`(`job_name`text,`

pblh123·2023-10-16 14:56

2023_Spark_实验十八：安装FinalShell

下载安装包链接：https://pan.baidu.com/s/14cOJDcezzuwUYowPsOA-sg?pwd=6htc提取码：6htc下载文件名称：FinalShell.zip二、安装三、启动FinalShell四、连接远程linux服务器先确保linux系统已经开启，不然连接不上左边是服务器端数据的监控工作台下面是一些快捷菜单工具栏及文件管理基本使用介绍就这些，其它的后面使用就知道了这

pblh123·2023-10-16 14:56

LAS Spark 在 TPC-DS 的优化揭秘

字节数据平台·2023-10-16 14:26

2023_Spark_实验十九：SparkStreaming入门案例

SparkStreaming入门案例一、准备工作二、任务分析三、官网案例四、开发NetWordCount一、准备工作实验环境：netcat安装nc：yuminstall-ync二、任务分析将nc作为服务器端

pblh123·2023-10-16 14:22

Apache Kyuubi & Celeborn，助力 Spark 拥抱云原生

简介：10月14日13:00-17:30，ApacheKyuubi&Celeborn社区将在杭州举办「ApacheKyuubi&Celeborn(Incubating)助力Spark拥抱云原生」Meetup

阿里云大数据AI技术·2023-10-16 12:40

java spark 消费kafka_spark streaming消费kafka数据写入hdfs避免文件覆盖方案(java版)

1.写在前面在sparkstreaming+kafka对流式数据处理过程中，往往是sparkstreaming消费kafka的数据写入hdfs中，再进行hive映射形成数仓，当然也可以利用sparkSQL

吴羽舒·2023-10-16 11:40

53、Spark Streaming:输入DStream之Kafka数据源实战

receiver从Kafka中获取的数据都是存储在SparkExecutor的内存中的，然后SparkStreaming启动的job会去处理那些数据。

weixin_30830327·2023-10-16 11:40

【Spark Streaming】（二）Spark Streaming - 实时数据采集

导入spark和spark-streaming依赖包org.apache.sparkspark-core_2.112.4.5org.apache.sparkspark-streaming_2.112.4.5

屡傻不改·2023-10-16 11:06

spark stream入门案例：netcat准实时处理wordCount（scala 编程）

目录案例需求代码结果解析案例需求：使用netcat工具向9999端口不断的发送数据，通过SparkStreaming读取端口数据并统计不同单词出现的次数--1.Spark从socket中获取数据：一行一行的获取

超爱慢·2023-10-16 11:03

spark Spark Streaming、kafka数据源Direct模式、自定义数据源

文章目录前言1.Kafka数据源1.1选型1.2Kafka0-10Direct模式2.自定义数据源前言 SparkStreaming广泛运用于流式数据的处理（准实时、微批次的数据处理框架）。

但行益事莫问前程·2023-10-16 11:33

spark stream 3.0.0 scala版本读取kafka消息统计写入mysql

1.添加依赖org.apache.sparkspark-core_2.123.0.0org.apache.sparkspark-streaming_2.123.0.0org.apache.sparkspark-streaming-kafka

程序猿（攻城狮）·2023-10-16 11:33

spark streaming从指定offset处消费Kafka数据

一.前言当sparkstreaming程序意外退出时，数据仍然再往Kafka中推送，然而由于Kafka默认是从latest的offset读取，这会导致数据丢失。

L.ZZ·2023-10-16 11:33

Spark（第七节）SparkStreaming介绍，DStream介绍，SparkStreaming接收socket数据、文件数据、自定义数据源数据、RDD队列数据案例

目录SparkStreaming介绍什么是SparkStreamingSparkStreaming与Storm的对比SparkStreaming原理与架构SparkStreaming原理SparkStreaming

hwq317622817·2023-10-16 11:32

大数据Spark DStream

目录1DStream是什么2DStreamOperations2.1函数概述2.2转换函数：transform2.3输出函数：foreachRDD3流式应用状态1DStream是什么SparkStreaming

赵广陆·2023-10-16 11:30

2.Spark Streaming基础—DStream 创建—RDD 队列、自定义数据源、Kafka 数据源

本文目录如下：第3章DStream创建3.1RDD队列3.1.1用法及说明3.1.2案例实操3.2自定义数据源3.2.1用法及说明3.2.2案例实操3.3Kafka数据源（面试、开发重点）3.3.1版本选型3.3.2Kafka0-10Direct模式第3章DStream创建3.1RDD队列3.1.1用法及说明测试过程中，可以通过使用ssc.queueStream(queueOfRDDs)来创建DS

页川叶川·2023-10-16 11:30

spark DStream从不同数据源采集数据（RDD 队列、文件、diy 采集器、kafka）（scala 编程）

数据源【重点】1.RDD队列a、使用场景：测试b、实现方式:通过ssc.queueStream(queueOfRDDs)创建DStream，每一个推送这个队列的RDD，都会作为一个DStream处理valsparkconf

超爱慢·2023-10-16 11:54

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。使用方法csvspark.sql("select*fromcsv.

大猪大猪·2023-10-16 07:26

大数据学习笔记，学习清单

大数据目前技术组件有很多，比如有hdfs,hive,spark,flink,kafka,clickhouse,cdh,nifi,streamset等等技术，主流的开发语言有Java，Scala，Python

平凡天下·2023-10-16 06:59

Spark的现状与未来发展

Spark的发展对于一个具有相当技术门槛与复杂度的平台，Spark从诞生到正式版本的成熟，经历的时间如此之短，让人感到惊诧。

weixin_33735077·2023-10-16 06:18

Spark的数据输入、数据计算、数据输出

PySpark的编程，主要氛围三大步骤：1）数据输入、2）数据处理计算、3）数据输出1）数据输入:通过SparkContext对象，晚上数据输入2）数据处理计算:输入数据后得到RDD对象，对RDD对象进行迭代计算

velpro_!·2023-10-16 06:04

Spark SQL-数据源

一、通用加载/保存方法1.手动指定选项SparkSQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作，也可以被注册为临时表。

我是星星我会发光i·2023-10-16 06:33

Spark-Submit参数设置说明

集群配置软件配置Hadoop2.6.0Spark2.2.0硬件配置三台服务器，32核64G500G总资源：32核64Gx3=48核192GYarn可分配总资源：48核60Gx3=144核180G默认情况下

我在北国不背锅·2023-10-16 06:33

Spark-SQL教程

目录创建SparkSession通过SparkSession创建SparkContextSparkContext读写文件的操作SparkSession文件读写sparkcatalog操作读取数据并生成DataFrame

星瀚光晨·2023-10-16 06:03

Spark---数据计算

flatmap算子：#flatmap算子:对rdd执行map操作,然后进行解除嵌套操作frompysparkimportSparkConf,SparkContextconf=SparkConf().setMaster

velpro_!·2023-10-16 06:31

Spark metrics整理

概述spark使用metrics的包路径为：org.apache.spark.metrics，核心类：MetricsSystem。

lioversky·2023-10-16 05:53

Spring boot结合Kafka的Demo

文章链接KafkaDemoKafkaDemo参考博客：http://www.54tianzhisheng.cn/2018/01/05/SpringBoot-Kafka/Spark安装：厦大数据库实验室Spark

ShubinHuang·2023-10-16 00:48

flink教程

文章目录来自于尚硅谷教程1.Flink概述1.1特点1.2与SparkStreaming对比2.Flink部署2.1集群角色2.2部署模式2.3Standalone运行模式2.3.1本地会话模式部署2.3.2

Cool_Pepsi·2023-10-15 22:33

vue+webapi文件上传与下载

vue+webapi文件上传话不多说直接上本人测试代码VUE前端请将电子书拖入或点击上传图书已上传//importSparkMD5from'spark-md5'importstorefrom"../..

叫我小范·2023-10-15 22:46

flume+kafka+sparkstreaming+hbase

文章目录爬虫代码MonitorCatcherpom.xml启动爬虫flume配置文件启动flume命令kafka相关命令Hive建立HBase关联表SparkStreamingSparkStreamTestpom.xml

李南想做条咸鱼·2023-10-15 19:18

spark streamming

问题为什么需要streamming,不用行不行？streamming运行机制？1.从Kafka拉数据方式：1）利用Receiver接收数据（个人理解对读数据得一种封装）*持续接收消息*从Zookeeper中读取offset值2）直接从kafka读取数据；Kafka中的partition与RDD中的partition是一一对应；高效（在Receiver的方式中，为了达到0数据丢失需要将数据存入Wri

舟舟洋·2023-10-15 19:52

推荐频道

——Spark