spark核心技术第14页

AI+数据库——梳理Snowflake 和 Databricks 在峰会上的重要发布，快来看市值数百亿美金的数据巨头的贴身肉搏！

他们原本定位略有不同，Databricks是一个用于数据工程、数据科学和分析的集成环境，它构建在ApacheSpark之上，提供实

小猿姐·2024-02-03 10:51

重磅新书：《分布式商业生态战略》定义未来商业新逻辑与企业数字化转型新策略

在国内外经济方面，国际的地缘政治对商业经济产生着重大的影响，例如供应链中断，核心技术的自主创新及国产化，以及美联储的持续加息对市场经济的影响，等等。国内

思无邪11·2024-02-03 09:33

【机器学习】3万字长文，PySpark入门级学习教程，框架思维

为什么要学习Spark？

风度78·2024-02-03 08:00

【数据开发】pyspark入门与RDD编程

【数据开发】pyspark入门与RDD编程文章目录1、pyspark介绍2、RDD与基础概念3、RDD编程3.1Transformation/Action3.2数据开发流程与环节1、pyspark介绍pyspark

小哈里·2024-02-03 08:58

Spark如何用repartition来提升执行效率

Spark如何用repartition来提升执行效率repartition是Spark中的一个转换操作，它可以用来增加或减少分区的数量。

HanhahnaH·2024-02-03 08:28

网络空间测绘在安全领域的应用（下）

3.漏洞感知漏洞感知能力在当今的网络安全领域是至关重要的，而其核心技术之一是漏洞验证技术。通过对漏洞信息与产品版本的关联，系统能够更准确地感知漏洞，但仅仅依靠这种数据关联会引发一系列问题。

AIwenIPgeolocation·2024-02-03 07:56

Redis核心技术与实战【学习笔记】 - 16.Redis 缓存异常：缓存和数据库不一致

概述只要使用Redis缓存，就必须面对缓存和数据库的一致性问题。重要的是，如果数据不一致，那么业务应用从缓存中读取的数据就不是最新数据，这会导致严重的问题。比如说，我们把电商商品的库存信息缓存在Redis中，如果库存信息不对，那么业务下单操作就可能出错。1.缓存和数据库的数据不一致是如何发生的？“数据的一致性”包含了两种情况：缓存中有数据，那么，缓存的数据值需要和数据库中的值相同；缓存中没有数据，

陈建111·2024-02-03 07:12

Redis核心技术与实战【学习笔记】 - 18.Redis 缓存被污染了，如何选择淘汰策略

前言在一些常见下，有些数据被访问的次数非常少，甚至只会被访问一次。当这些数据请求后，还继续留存在缓存中的话，只会白白占用缓存的空间。这种情况就是缓存污染。当缓存污染不严重时，只有少量数据占据缓存空间，此时对缓存系统的影响不大。但是，缓存污染一旦变得验证后，就会有大量不在访问的数据滞留在缓存中。如果这时数据占满了缓存空间，我们再往缓存中写入新数据时，就需要先把这些数据逐步淘汰出缓存，这就会引入额外的

陈建111·2024-02-03 07:12

Redis核心技术与实战【学习笔记】 - 15.Redis 缓存的淘汰策略

前言Redis缓存使用内存来保存数据，避免业务应用直接从数据库读取数据，可以提升应用的访问速度。但是，我们又没有办法做到把所有的数据都放入缓存，因为这样做的性价比不高，而且缓存也存不下数据库中的所有数据。例如，Mysql中有1TB的数据，如果使用Redis把这些数据都缓存起来，虽然应用都能在内存中访问数据了，但是这样配置并不合理，因为性价比低。一方面内存的价格比磁盘的价格贵很多。另一方面，数据访问

陈建111·2024-02-03 07:11

Redis核心技术与实战【学习笔记】 - 17.Redis 缓存异常：缓存雪崩、击穿、穿透

概述Redis的缓存异常问题，除了数据不一致问题外，还会面临其他三个问题，分别是缓存雪崩、缓存击穿、缓存穿透。这三个问题，一旦发生，会导致大量的请求积压到数据库。若并发量很大，就会导致数据库宕机或故障，这是很严重的生产事故。1.缓存雪崩缓存雪崩是指大量的应用请求无法在Redis缓存中进行处理，应用将大量的请求发送到数据库层，导致数据库层压力激增。造成缓存雪崩的原因一般有两个，应对的方案也不同。1.

陈建111·2024-02-03 07:36

纯血鸿蒙来了，鸿蒙App开发该如何提速

---360集团创始人、董事长周鸿祎“HarmonyOS实现了AI框架、大模型、设计系统、编程框架、编程语言、编译器等全栈自研，有核心技术、全栈能力、底座和生态，是真正的操作系统，而非像其他手机操作系统一样

speedoooo·2024-02-03 06:12

10大高性能开发宝石，我要消灭一半程序员！

这篇文章，我们循序渐进，从内存、磁盘I/O、网络I/O、CPU、缓存、架构、算法等多层次递进，串联起高性能开发十大必须掌握的核心技术。

程序员知识圈·2024-02-03 04:29

2019-03-16 Spark基本架构及运行原理

SparkCore:包含Spark的基本功能，包含任务调度，内存管理，容错机制等，内部定义了RDDs(弹性分布式数据集)，提供了很多APIs来创建和操作这些RDDs。为其他组件提供底层的服务。

做一只乐观的小猴子·2024-02-03 02:04

国产化替代：Coremail邮件系统跑赢Exchange邮箱

“我有信心，三四年以后，所有的政府办公桌面计算机技术体系可以百分百国产化核心技术替代。”

Coremail1·2024-02-03 01:53

中国芯片天才惊艳全球，三年破欧美封锁，缔造业界神话

早在2017年，我国芯片产业的国产化率已接近五成，但在25G及以上高端芯片的自主研发上，我们仅能实现微乎其微的3%自给率，这部分核心技术长期以来被欧美等发达国家牢牢把控。然而

云表平台·2024-02-03 00:56

数据湖系列之一 | 你一定爱读的极简数据平台史，从数据仓库、数据湖到湖仓一体

理解这些方法和技术背后隐藏的演进脉路、关键问题、核心技术原理，可以帮助企业更好地建设数据平台。这也是百度智能云推出数据湖系列内容的初衷。本系列文章将包含几个部分：本篇将作为数据湖整

百度智能云技术站·2024-02-02 23:04

2019-01-26

华为手机应该说是在市面上比较流行的，作为一个老牌的厂商，他在自己的核心技术层面具备得很到位，小米手机在这几年表现的一直都很不错，这也是很多人一直都非常喜欢的一个情况吧，也不是任何一个品牌都有着绝对的影响力

娱乐1·2024-02-02 22:13

一、二、三、四代测序技术原理详解

测序技术是基因组学的核心技术，上期的推送【LAI：基因组组装质量评估新标准】简单介绍了测序技术的发展进程。其实，测序技术的发展主要基于两个非常具有里程碑意义的理念：“生命是序列的”和“生命是数据的”。

生信空间·2024-02-02 22:24

开源网安上榜《关基安全保护支撑能力白皮书》

多年来，开源网安在创新驱动发展战略引领下，不断实现核心技术突破，降低关基企业安全产品国产替代难度，在数字化转型道路上迈出坚实的步伐

开源网安·2024-02-02 21:48

深度学习的开源分布式框架Deeplearning4j

该框架基本上是由Hadoop和Spark集成的分布式深度学习库组成的。在Hadoop和Spark的帮助下，我们可以轻松地分发模型和大数据集，并运行

weixin_43106248·2024-02-02 19:13

golang实现简单的流式处理

实现一个最简单的类似spark的流式处理流程包含map和filter数据typeStreamstruct{data[]int}map函数func(sStream)Map(ffunc(int)int)Stream

nil_ddea·2024-02-02 18:24

【代码随想录-链表】环形链表 II

檀越剑指大厂·2024-02-02 18:48

【好书推荐-第三期】《深入理解Java核心技术：写给Java工程师的干货笔记》全网阅读量千万的Java工程师成神之路学习笔记，Java基础知识点查漏补缺

作者介绍：我是程序员洲洲，一个热爱写作的非著名程序员。CSDN全栈优质领域创作者、华为云博客社区云享专家、阿里云博客社区专家博主、前后端开发、人工智能研究生。公粽号：程序员洲洲。本文专栏：本文收录于洲洲的《送书福利》系列专栏，该专栏福利多多，只需关注+点赞+收藏三连即可参与送书活动！欢迎大家关注本专栏~专栏一键跳转同时欢迎大家关注其他专栏，我将分享Web前后端开发、人工智能、机器学习、深度学习从0

程序员洲洲·2024-02-02 14:50

史上最全的spark面试题

1.spark中的RDD是什么，有哪些特性？

@毛毛·2024-02-02 13:12

livy使用样例_livy提交spark应用

spark-submit的使用shell时时灵活性较低，livy作为spark提交的一种工具，是使用接口或者java客户端的方式提交，可以集成到web应用中1.客户端提交的方式核心代码LivyClientclient

阿里聚安全·2024-02-02 13:11

PySpark（一）Spark原理介绍、PySpark初体验及原理

Spark简介ApacheSpark是用于大规模数据（large-scaladata）处理的统一（unified）分析引擎，其特点就是对任意类型的数据进行自定义计算。

独憩·2024-02-02 13:11

生产环境_Spark找出两DataFrame之间的差集（技巧）

在生产作业中，经常在工作流中遇到前后两DataFrame的数据缺失，比如df1为410条，下一个节点的df2就变成409条了，用眼睛看很费劲，因此不得不做一个差集。代码：/假设df1和df2是你的两个DataFramevaldf1=xxxvaldf2=ccc//使用except操作找出df1中存在但df2中不存在的数据valonlyInDf1=df1.except(df2)//使用except操作

Matrix70·2024-02-02 13:10

浅谈Spark Livy

SparkLivy什么是LivyLivy的特点Livy的运作流程阐述Livy的安装、启动、访问Livy的使用1.什么是Livylivy是cloudera开发的通过REST来连接、管理spark的解决方案

浅汐yt·2024-02-02 13:40

【Spark实践6】特征转换FeatureTransformers实践Scala版--补充算子

本节介绍了用于处理特征的算法，大致可以分为以下几组：提取（Extraction）：从“原始”数据中提取特征。转换（Transformation）：缩放、转换或修改特征。选择（Selection）：从更大的特征集中选择一个子集。局部敏感哈希（LocalitySensitiveHashing,LSH）：这类算法结合了特征转换的方面与其他算法。FeatureTransformersIndexToStri

周润发的弟弟·2024-02-02 13:39

spark相关面试题总结

1.spark中的RDD是什么，有哪些特性？

专注于大数据技术栈·2024-02-02 13:39

[Scala学习笔记] Spark开发小笔记

Spark开发小笔记：从0开始的Spark建图生活持续更新中……0.开发平台Zeppelin支持多种语言，默认是scala(背后是sparkshell)，SparkSQL,Markdown和Shell。

Rinnki·2024-02-02 13:39

Scala 与spark 7.23

例如：@transientvalsparkContext:SparkContext,Scala多行字符串之stripMargin方法https://www.jianshu.com/

qq_34872215·2024-02-02 13:09

Redis核心技术与实战【学习笔记】 - 14.Redis 旁路缓存的工作原理及如何选择应用系统的缓存类型

概述我们知道，Redis提供了高性能的数据存取功能，广泛应用在缓存场景中，既可以提升业务的响应速度，又可以避免把高并发的请求发送到数据库。如果Redis做缓存时出现了问题，比如说缓存失效，那么，大量请求就会直接积压到数据库，给数据库带来巨大的压力，很可能导致数据库宕机。正是因为Redis用作缓存的普遍性以及它在业务应用的重要作用，所以，我们需要系统的掌握缓存的一系列内容，包括工作原理、替换策略、异

陈建111·2024-02-02 13:08

生产环境踩坑系列::Hive on Spark的connection timeout 问题

起因7/16凌晨，钉钉突然收到了一条告警，一个公司所有业务部门的组织架构表的ETL过程中，数据推送到DIM层的过程中出现异常，导致任务失败。因为这个数据会影响到第二天所有大数据组对外的应用服务中组织架构基础数据，当然，我们的Pla-nB也不是吃素的，一旦出现错误，后面的权限管理模块与网关会自动配合切换前一天的最后一次成功处理到DIM中的组织架构数据，只会影响到在前一天做过组织架构变化的同事在系统上

dclar_·2024-02-02 13:08

【SparkML实践5】特征转换FeatureTransformers实战scala版

本节介绍了用于处理特征的算法，大致可以分为以下几组：提取（Extraction）：从“原始”数据中提取特征。转换（Transformation）：缩放、转换或修改特征。选择（Selection）：从更大的特征集中选择一个子集。局部敏感哈希（LocalitySensitiveHashing,LSH）：这类算法结合了特征转换的方面与其他算法。本章节主要讲转换1FeatureTransformersTo

周润发的弟弟·2024-02-02 13:08

spark livy hue

1.下载livylivy为Spark提供了REST接口，有如下特性:*提供交互式shell*批量提交*多用户使用用一个服务(用户模拟)*可以从任何地方使用REST的方式提交*无需对代码进行任何修改wgethttp

bigdataf·2024-02-02 13:08

PySpark（二）RDD基础、RDD常见算子

目录RDDRDD五大特性RDD创建RDD算子常见的Transformation算子mapflatMapmapValuesreduceByKeygroupByfilterdistinctunionjoinintersectionglomgroupByKeygroupByKey和reduceByKey的区别?sortBysortByKey常见的action算子countByKeycollectredu

独憩·2024-02-02 13:07

【livy】Spark Livy深究

什么是livyLivy的特点Livycloudera开发通过REST来连接、管理spark的解决方案从任何地方提交job使用交互式的Scala、Python语言与远程的spark集群进行通信无需更改代码

小赵要加油·2024-02-02 13:07

Python之PySpark简单应用

文章目录一、介绍1.准备工作2.创建SparkSession对象：3.读取数据：4.数据处理与分析：5.停止SparkSession：二、示例1.读取解析csv数据2.解析计算序列数据map\flatmap

陈年小趴菜·2024-02-02 13:37

【SparkML实践4】Pipeline实战scala版

DataFrame：这个机器学习API使用来自SparkSQL的DataFrame作为机器学习数据集，它可以包含多种数据类型。例如，一个DataFrame可以有不同的列存

周润发的弟弟·2024-02-02 13:36

生产环境_Spark接收传入的sql并替换sql中的表名与解析_非常NB

背景开发时遇到一个较为复杂的周期需求，为了适配读取各种数据库中的数据并将数据库数据转换为DataFrame并进行后续的开发分析工作，做了如下代码。在爷们开发这段生产中的代码，可适配mysql,hive,hbase，gbase等等等等，基本涉及到数据库的情况基本可以进行。可以说是非常之NB！！！！！了数据流程：由于该代码片段主要关注数据处理流程，而非实际数据内容，,当然，我也不能把特殊数据给大家展示

Matrix70·2024-02-02 13:06

华天动力OA ntkodownload.jsp 任意文件读取漏洞

Ⅰ、漏洞描述华天动力OA是一个以技术领先著称的协同软件产品，拥有领先业界的三大核心技术：协同平台、工作流和智能报表，是业内唯一实现协同工具软件、协同应用软件、协同平台融合的

Love Seed·2024-02-02 13:41

亿某通电子文档安全管理系统 UploadFileToCatalog SQL注入漏洞

Ⅰ、漏洞描述亿某通新一代电子文档安全管理系统（简称：CDG）是一款融合文档加密、数据分类分级、访问控制、关联分析、大数据分析、智能识别等核心技术的综合性数据智能安全产品。产

Love Seed·2024-02-02 13:10

Iceberg从入门到精通系列之二十四：Spark Structured Streaming

Iceberg从入门到精通系列之二十四：SparkStructuredStreaming一、StreamingReads二、StreamingWrites三、Partitionedtable四、流表的维护

最笨的羊羊·2024-02-02 12:52

Iceberg从入门到精通系列之二十三：Spark查询

Iceberg从入门到精通系列之二十三：Spark查询一、使用SQL查询二、使用DataFrame进行查询三、Timetravel四.Incrementalread五、检查表六、History七、元数据日志条目八

最笨的羊羊·2024-02-02 12:51

Iceberg从入门到精通系列之二十一：Spark集成Iceberg

Iceberg从入门到精通系列之二十一：Spark集成Iceberg一、在Spark3中使用Iceberg二、添加目录三、创建表四、写五、读六、Catalogs七、目录配置八、使用目录九、替换会话目录十

最笨的羊羊·2024-02-02 12:20

新书速览|PyTorch 2.0深度学习从零开始学

为读者揭示PyTorch2.0进行深度学习项目实战的核心技术，实战案例丰富而富有启发。02本书内容本书共分15章，内容包括PyTorch概述、开发环境搭建、基于PyTorch的MNIST分类实

全栈开发圈·2024-02-02 12:46

实时数据湖：Flink CDC流式写入Hudi

点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜1.环境准备•Flink1.12.2_2.11•Hudi0.9.0-SNAPSHOT(master分支)•Spark2.4.5、Hadoop3.1.3

王知无(import_bigdata)·2024-02-02 12:01

使用 Flink Hudi 构建流式数据湖

通过MR/Spark的

浪尖聊大数据-浪尖·2024-02-02 12:30

Iceberg从入门到精通系列之二十二：Spark DDL

Iceberg从入门到精通系列之二十二：SparkDDL一、SparkDDL二、SparkDDL-创建表三、SparkDDL-PARTITIONEDBY四、SparkDDL-CREATETABLE...

最笨的羊羊·2024-02-02 12:47

推荐频道

spark核心技术