spark大数据第39页

史上最全的spark面试题

1.spark中的RDD是什么，有哪些特性？

@毛毛·2024-02-02 13:12

livy使用样例_livy提交spark应用

spark-submit的使用shell时时灵活性较低，livy作为spark提交的一种工具，是使用接口或者java客户端的方式提交，可以集成到web应用中1.客户端提交的方式核心代码LivyClientclient

阿里聚安全·2024-02-02 13:11

PySpark（一）Spark原理介绍、PySpark初体验及原理

Spark简介ApacheSpark是用于大规模数据（large-scaladata）处理的统一（unified）分析引擎，其特点就是对任意类型的数据进行自定义计算。

独憩·2024-02-02 13:11

生产环境_Spark找出两DataFrame之间的差集（技巧）

在生产作业中，经常在工作流中遇到前后两DataFrame的数据缺失，比如df1为410条，下一个节点的df2就变成409条了，用眼睛看很费劲，因此不得不做一个差集。代码：/假设df1和df2是你的两个DataFramevaldf1=xxxvaldf2=ccc//使用except操作找出df1中存在但df2中不存在的数据valonlyInDf1=df1.except(df2)//使用except操作

Matrix70·2024-02-02 13:10

浅谈Spark Livy

SparkLivy什么是LivyLivy的特点Livy的运作流程阐述Livy的安装、启动、访问Livy的使用1.什么是Livylivy是cloudera开发的通过REST来连接、管理spark的解决方案

浅汐yt·2024-02-02 13:40

【Spark实践6】特征转换FeatureTransformers实践Scala版--补充算子

本节介绍了用于处理特征的算法，大致可以分为以下几组：提取（Extraction）：从“原始”数据中提取特征。转换（Transformation）：缩放、转换或修改特征。选择（Selection）：从更大的特征集中选择一个子集。局部敏感哈希（LocalitySensitiveHashing,LSH）：这类算法结合了特征转换的方面与其他算法。FeatureTransformersIndexToStri

周润发的弟弟·2024-02-02 13:39

spark相关面试题总结

1.spark中的RDD是什么，有哪些特性？

专注于大数据技术栈·2024-02-02 13:39

[Scala学习笔记] Spark开发小笔记

Spark开发小笔记：从0开始的Spark建图生活持续更新中……0.开发平台Zeppelin支持多种语言，默认是scala(背后是sparkshell)，SparkSQL,Markdown和Shell。

Rinnki·2024-02-02 13:39

Scala 与spark 7.23

例如：@transientvalsparkContext:SparkContext,Scala多行字符串之stripMargin方法https://www.jianshu.com/

qq_34872215·2024-02-02 13:09

生产环境踩坑系列::Hive on Spark的connection timeout 问题

因为这个数据会影响到第二天所有大数据组对外的应用服务中组织架构基础数据，当然，我们的Pla-nB也不是吃素的，一旦出现错误，后面的权限管理模块与网关会自动配合切换前一天的最后一次成功处理到DIM中的组织架构数据

dclar_·2024-02-02 13:08

【SparkML实践5】特征转换FeatureTransformers实战scala版

本节介绍了用于处理特征的算法，大致可以分为以下几组：提取（Extraction）：从“原始”数据中提取特征。转换（Transformation）：缩放、转换或修改特征。选择（Selection）：从更大的特征集中选择一个子集。局部敏感哈希（LocalitySensitiveHashing,LSH）：这类算法结合了特征转换的方面与其他算法。本章节主要讲转换1FeatureTransformersTo

周润发的弟弟·2024-02-02 13:08

spark livy hue

1.下载livylivy为Spark提供了REST接口，有如下特性:*提供交互式shell*批量提交*多用户使用用一个服务(用户模拟)*可以从任何地方使用REST的方式提交*无需对代码进行任何修改wgethttp

bigdataf·2024-02-02 13:08

PySpark（二）RDD基础、RDD常见算子

目录RDDRDD五大特性RDD创建RDD算子常见的Transformation算子mapflatMapmapValuesreduceByKeygroupByfilterdistinctunionjoinintersectionglomgroupByKeygroupByKey和reduceByKey的区别?sortBysortByKey常见的action算子countByKeycollectredu

独憩·2024-02-02 13:07

【livy】Spark Livy深究

什么是livyLivy的特点Livycloudera开发通过REST来连接、管理spark的解决方案从任何地方提交job使用交互式的Scala、Python语言与远程的spark集群进行通信无需更改代码

小赵要加油·2024-02-02 13:07

Python之PySpark简单应用

文章目录一、介绍1.准备工作2.创建SparkSession对象：3.读取数据：4.数据处理与分析：5.停止SparkSession：二、示例1.读取解析csv数据2.解析计算序列数据map\flatmap

陈年小趴菜·2024-02-02 13:37

【SparkML实践4】Pipeline实战scala版

DataFrame：这个机器学习API使用来自SparkSQL的DataFrame作为机器学习数据集，它可以包含多种数据类型。例如，一个DataFrame可以有不同的列存

周润发的弟弟·2024-02-02 13:36

生产环境_Spark接收传入的sql并替换sql中的表名与解析_非常NB

背景开发时遇到一个较为复杂的周期需求，为了适配读取各种数据库中的数据并将数据库数据转换为DataFrame并进行后续的开发分析工作，做了如下代码。在爷们开发这段生产中的代码，可适配mysql,hive,hbase，gbase等等等等，基本涉及到数据库的情况基本可以进行。可以说是非常之NB！！！！！了数据流程：由于该代码片段主要关注数据处理流程，而非实际数据内容，,当然，我也不能把特殊数据给大家展示

Matrix70·2024-02-02 13:06

亿某通电子文档安全管理系统 UploadFileToCatalog SQL注入漏洞

Ⅰ、漏洞描述亿某通新一代电子文档安全管理系统（简称：CDG）是一款融合文档加密、数据分类分级、访问控制、关联分析、大数据分析、智能识别等核心技术的综合性数据智能安全产品。产

Love Seed·2024-02-02 13:10

数字资产前景好，我们应该选择怎样的平台？

今天的人们已经生活在以大数据为基础精确定位的数字帝国。百度、阿里、腾讯、京东等互联网巨头通过风投、上市和资本并购，逐渐建立起覆盖现实生活的数字化帝国，这些数字化帝国估值达到数以万

爱投资周sir·2024-02-02 13:25

redis存10万条数据_Redis遇到（大数据量）百亿级Key存储需求及解决方案介绍

1.需求背景是什么？2.存储何种数据？3.数据特点是什么？4.存在哪些技术挑战？5.解决方案有哪些？6.md5散列桶的方法需要注意的问题？7.测试结果是什么？解决方案：1需求背景该应用场景为DMP缓存存储需求，DMP需要管理非常多的第三方id数据，其中包括各媒体cookie与自身cookie(以下统称supperid)的mapping关系，还包括了supperid的人口标签、移动端id(主要是id

weixin_39757169·2024-02-02 12:26

redis百万级数据量预热方案

注意点：1、因为数据量大，不要直接将所有数据查询出来然后遍历存储，因为大数据量数据全部缓存在服务器内存中会导致内存溢出报错；解

伟大的小冰·2024-02-02 12:53

Iceberg从入门到精通系列之二十四：Spark Structured Streaming

Iceberg从入门到精通系列之二十四：SparkStructuredStreaming一、StreamingReads二、StreamingWrites三、Partitionedtable四、流表的维护

最笨的羊羊·2024-02-02 12:52

Iceberg从入门到精通系列之二十三：Spark查询

Iceberg从入门到精通系列之二十三：Spark查询一、使用SQL查询二、使用DataFrame进行查询三、Timetravel四.Incrementalread五、检查表六、History七、元数据日志条目八

最笨的羊羊·2024-02-02 12:51

Iceberg从入门到精通系列之二十一：Spark集成Iceberg

Iceberg从入门到精通系列之二十一：Spark集成Iceberg一、在Spark3中使用Iceberg二、添加目录三、创建表四、写五、读六、Catalogs七、目录配置八、使用目录九、替换会话目录十

最笨的羊羊·2024-02-02 12:20

新书速览|Python数据科学应用从入门到精通

系统教授数据科学与Python实战，涵盖线性回归、逻辑回归、决策树、随机森林、神经网本书内容随着数据存储、数据处理等大数据技术的快速发展，数据科学在各行各业得到广泛的应用。

全栈开发圈·2024-02-02 12:47

实时数据湖：Flink CDC流式写入Hudi

点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜1.环境准备•Flink1.12.2_2.11•Hudi0.9.0-SNAPSHOT(master分支)•Spark2.4.5、Hadoop3.1.3

王知无(import_bigdata)·2024-02-02 12:01

使用 Flink Hudi 构建流式数据湖

通过MR/Spark的

浪尖聊大数据-浪尖·2024-02-02 12:30

Linux一些实用操作

黑马程序员新版Linux零基础快速入门到精通，全涵盖linux系统知识、常用软件环境部署、Shell脚本、云平台实践、大数据集群项目实战等_哔哩哔哩_bilibili目录1各类小技巧（快捷键）2软件安装

ML.star·2024-02-02 12:55

Iceberg从入门到精通系列之二十二：Spark DDL

Iceberg从入门到精通系列之二十二：SparkDDL一、SparkDDL二、SparkDDL-创建表三、SparkDDL-PARTITIONEDBY四、SparkDDL-CREATETABLE...

最笨的羊羊·2024-02-02 12:47

传奇类手游在哪个平台充值可以返利有什么能充值返利的传奇手游平台

现在的手游折扣平台很多，每家几乎都是不一样的折扣水准，所以说选择一个靠谱的平台是玩家最基本的原则，本期小编就根据现在的大数据统计来盘点几个值得推荐的0.1折手游平台，一起来瞧瞧有哪些吧！

会飞的鱼儿·2024-02-02 12:47

JavaScript 与Java什么关系？为什么名字中带有Java？

Java是一种面向对象的、静态类型的编程语言，主要用于开发独立应用程序、网络应用、企业应用、移动应用、大数据等等。Java程序需要被编译成字节码，然后在Java虚拟机上运行。

凯哥Java·2024-02-02 11:03

pyspark的安装及使用

jdk安装必须要求为jdk1.8版本JDK下载后环境变量配置新增系统变量JAVA_HOMEPath新增测试是否安装成功：javac-versionspark安装官网下载，遇到加载不了选项框的情况可以尝试用手机打开网址获取下载链接后下载直接解压

a013067506e4·2024-02-02 11:56

精益开发——税务大数据平台建设效能提升的倍增器

2020年阿里巴巴的研发效能峰会上，阿里资深技术专家何勉做了“ALPD——阿里创新能力背后的精益产品开发体系”的分享，它是阿里正在实践和持续打造的产品开发方法，目的是帮助组织提升精益的交付和创新能力，实现十倍效能提升（包括：响应速度、过程质量、有效价值交付等）。或许大家会有怀疑，采用精益开发真有这么大的提升吗？答案是肯定的。这种巨大的提升来自于精益软件开发的理念和方法，它更精准地把握了软件开发过程

悬臂星云·2024-02-02 10:36

spark题06

6.列举Spark中常见的端口，分别有什么功能？8.Spark官网中，你常用哪几个模块？11.yarn的原理？14.看过源码？你熟悉哪几个部分的源码？

博弈史密斯·2024-02-02 09:59

【阿里巴巴】【淘天集团天猫超市&食品生鲜供应链】技术线-高级Java研发工程师-供应链计划

所属部门:淘天集团｜学历:本科|工作年限:3年职位描述负责淘天集团天猫超市&食品生鲜供应链计划系统研发，包括经营计划，需求计划，补货计划，调拨计划，库存健康，资源计划等多个核心业务负责基于AI，大数据，

探小虎·2024-02-02 09:55

【阿里巴巴】【业务部用户增长相关技术承接】1688事业部-java工程师-用增&买家运营工程

所属部门:淘天集团|学历:本科|工作年限:2年职位描述负责阿里巴巴1688业务部用户增长相关技术承接，构建1688用户增长工程化、平台化能力，应用大数据和算法知识完成用增信息流投放的转化效率和效能攻坚，

探小虎·2024-02-02 09:54

大数据知识图谱之深度学习——基于BERT+LSTM+CRF深度学习识别模型医疗知识图谱问答可视化系统

文章目录大数据知识图谱之深度学习——基于BERT+LSTM+CRF深度学习识别模型医疗知识图谱问答可视化系统一、项目概述二、系统实现基本流程三、项目工具所用的版本号四、所需要软件的安装和使用五、开发技术简介

星川皆无恙·2024-02-02 09:53

【C/C++ 03】堆排序

在大数据时代，堆排序常用于处理Top-K问题。

AllinTome·2024-02-02 08:53

Kafka 入门

一、定义Kafka是一个分布式的基于发布/订阅模式的消息队列（messageQueue），主要用于大数据实时处理领域。

永恒的狼牙·2024-02-02 08:13

Kafka入门

Kafka入门1.Kafka概述2.Kafka快速入门1.Kafka概述定义Kafka是一个分布式的基于发布/订阅模式的消息队列（MessageQueue），主要应用于大数据实时处理领域。

Kevin_琪琪·2024-02-02 08:39

珠宝的新模式分析

梵羽珠宝选择做基于钻石的耳钉、手链等更加时尚的装饰品，梵星学基于大数据提供珠宝月度订购服务；珠宝壹佰从珠宝分级体系切入B2B业务。

三锦囊的猫·2024-02-02 08:15

Git系列---标签管理

作者简介：RO-BERRY学习方向：致力于C、C++、数据结构、TCP/IP、数据库等等一系列知识日后方向:偏向于CPP开发以及大数据方向，欢迎各位关注，谢谢各位的支持目录1.理解标签2.创建标签3.操作标签

RO-BERRY·2024-02-02 08:52

Flink实现高斯朴素贝叶斯

Flink实现高斯朴素贝叶斯在之前的文章中提到了多项式的朴素贝叶斯，在spark的ML里也实现了多项式的朴素贝叶斯和伯努利朴素贝叶斯，在实际情况当中我们处理的变量除了离散型，还有连续型。

k_wzzc·2024-02-02 08:49

2024年光学通信和物联网、自动化控制和大数据国际会议(OCITACB2024)

会议简介2024年国际光通信与物联网、自动控制和大数据会议（OCITACB2024）的主要目标是促进光通信与物联网、自动管理和大数据领域的研发活动。

anana_xu·2024-02-02 08:19

企业级大数据安全架构（八）FreeIPA高可用部署

作者：楼高前面第七章详细介绍了部署FreeIPA来做kerberos认证，这节接着介绍FreeIPA高可用部署1.FreeIPA高可用配置说明：在安装完一台ipa-server之后，在另一个备份节点部署ipa-client-install和ipa-replica-install1.1备节点机器上yum安装ipa-server相关包yuminstall-yipa-server1.2修改备节点dns配

云掣YUNCHE·2024-02-02 08:05

蓝桥杯参赛须知

又到了一年一届的蓝桥杯比赛报名的时间，很荣幸受老师邀请于昨天早上通过腾讯会议线上给大数据专业的学弟学妹们分享蓝桥杯参赛心得，想必也会有更多初次参加蓝桥杯的同学们在寻找相关的信息。

月半长安·2024-02-02 07:30

第0章 Linux 基础入门

在服务器领域中发展良好成本低，安全性高一般用于云计算，大数据领域Linu

璀云霄·2024-02-02 07:10

HBase详细安装指南

二、HBASE安装1.安装准备2.安装三.基本使用1.hbaseshell总结前言随着大数据时代的来临，mysql已经无法满足人们的需要，海量数据存储到达了瓶颈，hbase应运而生。

嘎嘎嘎啊哈·2024-02-02 06:59

如何推动埋点管理项目的落地

一埋点管理常见痛点分析埋点数据作为三大数据来源之一，具有应用场景多、数据量级大等特点，上能影响数据分析、推荐、AB实验的准确性，下能影响数仓结构设计和维护成本，其重要性不言而喻。

一个数据人的自留地·2024-02-02 06:01

建行首推无人银行，银行一线员工如何避免未来遭遇唐山收费员式的悲剧？

这家高度智能化的营业网融合了包括生物识别、语音识别、人脸识别、语音导航、大数据以及AR、VR等一系列最前沿的科技成果。与此同时，该网点还首次尝试与书店、品牌商场等场景化娱乐场所

Yu见未来·2024-02-02 06:09

推荐频道

spark大数据