阿里云大数据AI技术

Spark on k8s 在阿里云 EMR 的优化实践

导读： 随着大数据技术的发展，Spark 成为当今大数据领域最受关注的计算引擎之一。在传统的生产环境中，Spark on YARN 成为主流的任务执行方式，而随着容器化概念以及存算分离思想的普及，尤其是 Spark3.1 版本下该模式的正式可用（GA），Spark on K8s 已成燎原之势。

今天的介绍会围绕下面两点展开：

Spark on K8s 的基础概念和特性

Spark on K8s 在阿里云 EMR 的优化和最佳实践

点击查看直播回放

Spark on K8s 的基础概念和特性

首先和大家分享下 Spark on K8s 的一些背景。

1. Spark 的集群部署模式

Spark 现如今支持 4 种部署模式：

Standalone：使用 Spark 的内置调度器，一般用于测试环境，因为没有充分利用到大数据的调度框架，无法充分利用集群资源。
Hadoop YARN：最常见的一种方式，源自 Hadoop，拥有良好的社区生态。
Apache Mesos：与 YARN 类似，也是一个资源管理框架，现在已经逐渐退出历史舞台。
Kubernetes：即 Spark on K8s，Spark3.1.1 对这种部署模式正式提供可用支持，越来越多的用户也在积极做这方面的尝试。

使用 Spark on K8s 的优势如下：

提高资源利用率：无需按照使用场景部署多个集群，所有 Spark 作业共享集群资源，能提高总体集群利用率，而且在云上使用时可以弹性容器实例，真正做到按量付费。
统一运维方式：可以利用 K8s 的社区生态和工具，统一维护集群，减少集群切换带来的运维成本。
容器化：通过容器镜像管理，提高 Spark 任务的可移植性，避免不同版本 Spark 带来版本冲突问题，支持多版本的 A/B Test。

尤其需要关注的一点是，根据我们的测试，在相同的集群资源条件下，Spark on K8s 和 Spark on YARN 的性能差距几乎可以忽略不计。再加上充分利用 Spark on K8s 的弹性资源，可以更好地加速 Spark 作业。

总结来看，Spark on K8s 相较于 Spark on YARN 的模式来说，其实是利大于弊的。

2. Spark on K8s 的部署架构

当前环境下，想要把 Spark 作业提交到 K8s 上，有两种方式：

使用原生的 spark-submit

在这种方式下，K8s 集群无需提前安装组件。像现在使用的 YARN 的提交方式一样，提交作业的 Client 端需要安装 Spark 的环境，并且配置 kubectl，就是连接 K8s 集群的一个工具，然后在提交命令中标注 K8s 集群地址以及使用的 Spark 镜像地址即可。

上图详细的展示了使用原生的 spark-submit 提交任务到 K8s 的任务运行流程。用户在 Client 端执行 spark-submit 命令后会在本地启动一个进程，该进程会连接 K8s 的 api server 请求创建一个 Driver Pod。Driver Pod 在启动进程中会启动 Spark Context，并负责申请 Executor Pod。任务执行完毕后，Driver Pod 会负责清理 Executor Pod。但 Driver Pod 结束后会保留，用于日志或状态的查看，需要手动清理。

优点：

这种提交方式符合用户的使用习惯，减少用户学习成本，与现有的大数据平台集成性更好。因为是 Client 模式提交，支持本地依赖，支持 Spark-shell 的交互式作业模式。

使用 Spark-on-K8s-operator

Spark-on-K8s-operator 是 Google 开源的一个组件，需要提前在 K8s 集群中部署一个常驻 pod，以提供相关服务。与第一种方式不同的是，使用这种方式不再是以命令行的方式提交，而是使用 kubectl 提交一种 yaml 文件来提交作业。本质上来说，这种工具具体实现还是使用的 spark-submit 的方式，只是相当于命令行中的信息换了一种格式以文件的形式提交。但是 Spark-on-K8s-operator 在第一种方式的基础上，做了一些辅助工具，包括定时调度、监控、作业管理等。

从流程上来说，用户提交了一个 yaml 文件，在 K8s 集群上常驻的 Spark-on-K8s-operator 就监听到了这个事件，通过解析文件转化成执行 spark-submit 命令启动一个 Spark 任务。

除了提交方式的不同，我们刚刚也提到这个工具提供了一些辅助的功能。Spark-on-K8s-operator 通过 K8s 的 Mutating Admission Webhook 机制，拦截了 K8s 的 Api 请求，在启动 Driver 和 Executor Pod 资源时，可以对其进行一些自定义配置处理。另一方面，工具可以监听 Driver 和 Executor Pod 的事件，从而跟踪和管理任务的执行进度。

优点：

工具的存在支持作业的管理，包括记录、重试、定时执行等。提供作业监控指标，也可以对接 Prometheus 方便统一监控。支持自动清理作业资源，也可以自动配置 Spark UI 的 service/ingress。

3. Spark on K8s 的社区进展

Spark2.3 之前，有人尝试过通过在 K8s 上部署 YARN 的方式来支持 Spark on K8s，但是本质上 Spark 还是跑在 YARN 的资源管控下，所以并不能称之为完整意义上的 Spark on K8s。

Spark2.3，社区首次发布支持了原生的 Spark on K8s，全是第一次官方支持这样的部署方式。

Spark2.4 做了少量的特性优化，真正完善了这个功能是在 Spark3 版本，尤其是 Spark3.1 正式可用（GA）。当前 Spark on K8s 方向热度很高，所以如果感兴趣的同学建议直接升级到 Spark3.1 来尝试这个部署方式。

4. Spark on K8s 的重点特性

优化 Spark Pod 配置属性

K8s 的 Pod 定义通常采用 Yaml 的描述处理，早期的 Driver 和 Executor Pod 定义只能通过 Spark Conf 进行配置，灵活性很差，毕竟不是所有的配置都能通过 Spark Conf 处理。Spark3.0 开始，支持使用模板文件。用户可以建立模板文件，定义 Pod 的属性，然后通过 spark 的配置传入，相较于单条配置更加便利，灵活性增强了很多。

动态资源分配（Dynamic Allocation）

Spark2 版本时，动态资源分配只能使用 External Shuffle Service（ESS）的方式，这种方式下，executor 在执行时产生的 shuffle 数据全部交由 ESS 服务接管，executor 执行完毕随时回收。但是这种方式一般由 YARN 的 Node Manager 启动管理，很难在 K8s 上部署。

Spark3 版本中支持了 Shuffle Tracking 的特性，就是可以在没有 ESS 的情况下，利用自身对 executor 的管理，做到动态资源配置的效果。但是这种方式的缺点就是，在 shuffle read 阶段 executor 不能动态回收，仍需要保留以供 reducer 读取 shuffle 数据，然后需要等到 driver 端 gc 之后才会标记这个 executor 可以释放，资源释放效率低。

节点优雅下线（node decommissioning）

在 K8s 的环境中，节点的缩容，抢占式实例回收这些场景还是比较常见的，尤其是在一些场景下，将部分 Spark 的任务优先级调低以满足其他高优先级的任务的使用。这种场景下，executor 直接退出可能会存在 stage 重算等情况，延长了 Spark 的执行时间。Spark3.1 提供了“优雅下线”特性，支持 Executor Pod 在“被迫”下线前，可以通知 Driver 不再分配新的 Task，并将缓存的数据或者 shuffle 的文件迁移到其他的 Executor Pod 中，从而保证对应 Spark 任务的效率，避免重算。

当前这个功能还属于实验性质，也就是默认不开启。

PersistentVolumeClaim 复用

PersisentVolumnClaim（简称 pvc），是 K8s 的存储声明，每个 Pod 都可以显式地申请挂载。Spark3.1 支持动态创建 pvc，意味着不需要提前声明申请，可以随着执行动态的申请挂载资源。但是这个时候 pvc 的生命周期伴随着 Executor，如果出现上述的抢占式被迫关闭的情况，同样会出现保存在 pvc 上面的数据丢失重算的问题。所以在 Spark3.2 中，支持了 pvc 重新利用，它的生命周期伴随 Driver，避免了重新申请和计算，保障整体的效率。

Spark on K8s 在阿里云 EMR 的优化和最佳实践

接下来和大家分享下阿里云 EMR 对于 Spark on K8s 的优化和最佳实践。

1. Spark on ACK 简介

ACK：阿里云容器服务 Kubernetes 版，简称 ACK。

EMR：阿里云开源大数据平台 E-MapReduce，简称 EMR。

在阿里云公共云上，我们有一款 EMR on ACK 的产品，其中包含了 Spark 类型的集群，后面简称 Spark on ACK。Spark on ACK 这个产品是一套半托管的大数据平台，用户首先需要有一个自己的 ACK 集群，也就是 k8s 集群，然后我们会在这个集群内创建一个用于 Spark 作业的 namespace，并安装一些固定组件 pod 比如 spark-operator、historyserver 之类，后续的 Spark 作业 pod 也会在这个 namespace 下运行，这些 Spark 作业 pod 可以利用用户自己的 ACK 节点机器来跑，也可以利用我们的弹性实例 ECI 来跑，来实现按量付费。这个所谓弹性实例 ECI 是什么，接下来我们具体介绍一下。

2. 云上弹性优势

Spark 在云上最大的优势就是更好的弹性，在阿里云的 ACK 的环境中，提供了一个弹性容器实例 ECI 的产品，有了 ECI 意味着，我们申请 pod 时不再是占用自己的机器节点的资源了，而是完全利用云上资源来创建 pod，而且可以做到快速拉起，秒级付费。利用 ECI 来跑 spark 作业我认为是非常划算的，因为通常大家用 spark 作业跑批处理任务，凌晨高峰，白天可能只有少量查询，这种峰谷明显的特点搭配快速弹性和按量付费是很适合的，外加 ECI 可以使用 spot 抢占式实例，有 1 个小时的保护期，并结合 Spark 的 Node decommissioning 特性，可以节省很多成本。

3. RSS 优化 Shuffle 和动态资源

Spark Shuffle 对本地存储依赖较大，但是云上环境下，存储分离的机器很难保障自带本地磁盘，使用云盘大小也无法预估，性价比不高。另一方面，Spark 原生的无 ESS 的动态资源配置，executor 的释放资源效率较低，可能因为无法回收造成资源浪费。

Spark Shuffle 本身也有很多缺点。Mapper 的输出量增大，导致 spill 到本地磁盘，引发额外的 IO；Reducer 并发拉取 Mapper 端的数据，导致大量随机读的产生，降低效率；在 shuffle 过程中，产生 numMapper * numReducer 个网络连接，消耗过多 CPU 资源，带来性能和稳定性问题；Shuffle 数据单副本导致数据丢失时，需要重新计算，浪费资源。

阿里云提供了独立部署的 RSS，目前已经在 github 上开源，可以直接对接 ACK，用户无需关注 Shuffle 数据是否有本地磁盘支持。原先的 spark shuffle 数据保存在 executor 本地磁盘，使用 RSS 后，shuffle 的数据就交给 RSS 来管理了。其实采用 push based 的外部 shuffle service 业界已经是一种共识了，很多公司都在做这方面的优化。优点有很多，Executor 执行完毕即可回收，节约资源；RSS 还将传统的大量随机读优化成了追加写，顺序读，进一步弥补了 Spark Shuffle 的效率问题；RSS 服务支持 HA 部署，多副本模式，降低重复计算的可能性，进一步保障 Spark 任务的效率。

4. 增强 K8s 作业级别调度

K8s 默认的调度器调度粒度是 Pod，但是传统的 Spark 任务调度默认粒度是 application。一个 Application 的启动，会伴随启动多个 Pod 执行支持。所以，突然提交大量 Spark 任务时，可能出现大量 Driver Pod 启动，单都在等待 Executor Pod 启动，从而导致整个集群死锁。另一方面，K8s 的多租户场景支持不佳，也不支持租户之间的弹性调度，以及动态配额等。相比于 YARN 的调度策略，K8s 的调度策略单一，为默认优先级+FIFO 的方式，无法做到公平调度。

阿里云 ACK 在这个方面做了增强：

调度时优先判断资源是否满足，解决上述可能出现的死锁问题。
基于 NameSpace 实现多租户树状队列，队列可以设置资源上下限，支持队列间抢占资源。
实现了以 App 粒度调度 Spark 作业的优先级队列，支持队列间的公平。调度，并基于 Spark-on-K8s-operator 的扩展，提交作业会自动进入队列。

5. 云上数据湖存储与加速

在 K8s 环境下，相比于传统的 Hadoop 集群，使用数据湖存储 OSS 更贴合存算分离的架构。Spark on ACK 内置 Jindo SDK，无缝对接 OSS。
Fluid 可支撑 Spark on K8s 部署模式下的缓存加速，在 TPC-DS 场景下，可以提升运行速度 30%左右。

6. 使用 DLF 构建云上数据湖

在 K8s 上想要使用 Hadoop 生态圈的组件，还需要额外部署。但是 Spark on ACK 无缝对接阿里云 DLF（Data Lake Formation），DLF 提供了统一的元数据服务，支持权限控制和审计，另外提供数据入湖的功能，支持 Spark SQL 的交互式分析，以及数据湖管理功能，支持进行存储分析和成本优化。

7. 易用性提升

Spark on ACK 提供了一个 CLI 工具，可以直接以 spark-submit 语法来提交 spark 作业，同时也会记录到 spark-operator 里面来管理。之前我们提到了 2 种提交作业方式的优劣，spark-operator 具备比较好的作业管理能力，但是提交作业不兼容老的命令语法，也无法跑交互式 shell，从老集群迁移的用户改动比较麻烦，因此利用我们这种工具，可以同时享受 2 种提交方式的优点，对用户的易用性来说是个比较大的提升。

在日志收集这一点，Spark on ACK 提供日志收集方案，并通过 HistoryServer 让用户可以像 Spark on YARN 一样在界面上查看。

Serverless成本优化实战：从资源浪费到精准管控的架构演进知识产权13937636601 计算机 serverless 架构云原生
本文系统解析Serverless架构下的成本构成黑洞，揭示函数计算、存储服务、API网关等模块的资源浪费真相。基于电商、社交、物联网等行业的真实账单数据，深度剖析冷启动损耗、配置冗余、日志存储三大核心成本痛点。结合AWSLambda、阿里云函数计算等平台的最佳实践，给出冷启动优化、智能伸缩策略、存储分层设计等12项关键优化方案，并展望AI预测调度、多云成本博弈等前沿技术方向，为企业节省60%以上的
Ubuntu18.04/Mysql 5.7 建立主备模式Mysql集群武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js layui 毕业设计
一、数据库的安装详见https://www.jianshu.com/p/5073177eedf2本文实验环境为阿里云的两台ubuntu18.04服务器：masterip:172.26.138.7slaveip:172.26.0.209二、修改Master的配置(#的行是我后增加的部分)：编辑/etc/mysql/mysql.conf.d/mysqld.cnf[mysqld]user=mysqlpi
低代码平台架构设计 LINGYI_WEN 低代码前端开发语言
1.整体架构概述1.1技术栈选择前端：React+Redux/Vue+Vuex后端：Node.js+Express/SpringBoot数据库：MySQL/PostgreSQL/MongoDB云服务：AWS/Azure/GoogleCloud容器化：Docker+Kubernetes1.2模块划分前端模块：可视化编辑器：用于拖拽和配置组件预览器：实时预览页面效果发布器：将设计好的页面发布到生产环境
Vue3 中 Excel 导出的性能优化与实战指南
文章目录Vue3中Excel导出的性能优化与实战指南引言：为什么你的导出功能会卡死浏览器？一、前端导出方案深度剖析1.1xlsx(SheetJS)-轻量级冠军1.2exceljs-功能强大的重量级选手二、后端导出方案：大数据处理的救星2.1为什么大数据需要后端处理？2.2Node.js流式导出实战三、生产环境性能优化全攻略3.1内存优化技巧对比3.2用户体验优化方案四、决策流程图：帮你选择最佳方案
手动续期证书后自动上传到阿里云
要将acme.sh续期后的脚本自动传到阿里云上，可以按照以下步骤进行：安装阿里云CLI：在服务器上安装阿里云命令行工具（CLI），以便能够通过命令行与阿里云进行交互。可以使用以下命令进行安装：wgethttps://aliyuncli.alicdn.com/aliyun-cli-linux-latest-amd64.tgz&&tarxzvfaliyun-cli-linux-latest-amd64
FP16、BF16、INT8、INT4精度模型加载所需显存以及硬件适配的分析 herosunly 大模型精度 BF16 硬件适配
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了FP16、INT8、INT4精度模型加载占用显存大小的分析，希望对学习大
低代码数字孪生智慧钢厂组态监控界面图扑可视化三维可视化数字孪生数据大屏组态监控智慧钢厂
2024年4月，中国钢铁工业协会发布了《钢铁行业数字化转型评估报告（2023年）》（以下简称《报告》）。《报告》指出，绝大部分钢铁企业建立了数字化转型相关管理组织和团队，并加强其规划落实，系统间的综合集成能力进一步加强。在研发、制造、服务全生命周期管控以及产业链协同等方面需继续深化，这也是现阶段钢铁企业数字化转型需重点建设的内容。钢铁行业作为典型的流程制造业，通过融合先进的信息技术和大数据分析，既
UI前端与大数据的深度融合：打造智慧应用的新生态前端开发与ui设计的老司机 ui 前端大数据
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!在数字化转型的浪潮中，UI前端与大数据正逐渐成为推动智慧应用发展的核心力量。UI前端作为用户与应用程序交互的直接界面，负责提供直观、便捷且吸引人的用户体验；而大数据则凭借其强大的数据收集、分析和预测能力，为应用程序
数字孪生：未来城市管理的革命性技术大有数据可视化信息可视化
一、数字孪生技术概述数字孪生技术是一种通过创建虚拟模型与物理实体之间实时交互的技术。它借助物联网、大数据、云计算、人工智能等前沿技术，实现对物理实体的精准映射与动态仿真。数字孪生的核心在于构建一个与物理世界相对应的虚拟模型，该模型能够实时反映物理实体的状态，并通过数据分析与模拟优化其性能。在城市管理领域，数字孪生技术为城市管理者提供了一种全新的视角和工具。城市是一个复杂的巨系统，涉及基础设施、交通
Python大数据分析&人工智能教程 - Django-Celery异步处理（深入解析与实战案例） AI_DL_CODE python 数据分析 Django Celery异步处理 Celery
文章目录1.概念介绍1.1Django框架概述1.2Celery异步任务队列1.3AMQP协议与消息路由2.环境搭建2.1安装Django和Celery2.2配置Redis作为消息代理3.Celery架构与工作原理3.1Celery组件介绍3.2任务生命周期3.3任务调度与执行3.3.1定时任务3.3.2异步任务调用3.3.3任务结果查询4.Django与Celery集成4.1创建Celery实例
Python大数据分析&人工智能教程 - Django-RestFramework框架（深入解析+实操案例） AI_DL_CODE python 数据分析 django RestFramework框架
文章目录1.Django-RestFramework基础1.1Django-RestFramework概述1.2安装与配置1.3构建第一个API1.3.1定义模型1.3.2创建序列化器1.3.3定义视图1.3.4配置URL路由1.4进阶功能1.4.1权限控制1.4.2限流1.5实战案例1.5.1创建图书1.5.2查询图书1.5.3更新图书1.5.4删除图书2.序列化器(Serializers)2.
算法备案 | 算法备案必要性、算法类型、备案流程极创信息人工智能 AIGC
一、进行算法备案的必要性在当今的数字化时代，算法已经广泛应用于各个行业，引起了监管部门的高度关注，因为算法产品可能会带来一些潜在的风险。为了规范互联网信息服务中的算法推荐活动，抵制诸如深度生成合成、算法歧视、“大数据杀熟”、诱导沉迷等不合理应用，各个国家都先后出台了一系列关于算法管理的法律法规。在我国，《数据安全法》、《个人信息保护法》、《互联网信息服务算法推荐管理规定》等法律法规明确对算法的使用
集装箱智慧通关系统如何用AI技术重塑物流效率？
在全球贸易和物流高速发展的今天，港口、物流园区及企业的闸口管理面临巨大挑战——如何提升通关效率、保障货物安全并降低运营成本？集装箱智慧通关系统依托先进的AI视觉识别、物联网及大数据技术，为行业提供了智能化解决方案。核心技术：AI视觉+物联网赋能传统闸口依赖人工核验集装箱号、车辆信息，效率低且易出错。而智慧通关系统通过高精度摄像头+AI算法，可自动识别集装箱编号、货车车牌、货物类型等关键信息，准确率
从单一设备到万物互联：鸿蒙生态崛起的未来之路王子良. 经验分享 harmonyos 华为
目录一、引言：开启智能时代的钥匙二、鸿蒙生态概述：跨设备协同的核心价值三、开发者机遇与挑战：抓住鸿蒙崛起的机会四、鸿蒙生态崛起的前景：万物互联的未来五、开发者在鸿蒙生态中的实践机遇与挑战1.跨设备开发的机遇2.与人工智能和物联网结合的创新空间3.持续创新与生态完善的挑战六、鸿蒙生态未来的多维发展：智能硬件与大数据的深度结合1.智能硬件与大数据的结合2.在智能家居与城市管理中的应用3.行业领域的深度
遥感云大数据在灾害、水体与湿地领域典型案例实践及GPT模型应用科研的力量生态遥感双碳 chatgpt GEE 卫星遥感数据
以EarthEngine（GEE）、PIE-Engine为代表全球尺度地球科学数据（尤其是卫星遥感数据）在线可视化计算和分析云平台应用越来越广泛。GEE平台存储和同步遥感领域目前常用的MODIS、Landsat和Sentinel等卫星影像、气候与天气、地球物理等方面的数据集超过80PB，同时依托全球上百万台超级服务器，提供足够的运算能力对这些数据进行处理。相比于ENVI等传统的遥感影像处理工具，G
SeaTunnel 社区月报（5-6 月）：全新功能上线、Bug 大扫除、Merge 之星是谁？数据库
在5月和6月，SeaTunnel社区迎来了一轮密集更新：2.3.11正式发布，新增对Databend、Elasticsearch向量、HTTP批量写入、ClickHouse多表写入等多个连接器能力，全面提升了数据同步灵活性。同时，近100个修复与优化PR合入，涵盖Spark引擎并行性修复、Paimon精度兼容性增强、Mongo-CDCExactlyOnce默认值优化、OracleDDL类型支持补全
spark数据处理练习题番外篇【上】
一.单选题（共23题，100分）1.(单选题)maven依赖应该加在哪个文件中？A.pom.xmlB.log4j.propertiesC.src/main/scala.resourceD.src/test/scala.resource正确答案:A:pom.xml;Maven依赖应该添加在pom.xml文件中，这是Maven项目的核心配置文件。解释：pom.xml(ProjectObjectMode
**基于Python的数据分析与机器学习实战教程****一、引言**随着大数据时代的到来，数据处理和分析能力已经成为现代软件开发人员的必备技能之一。Python作为一种高效、简洁且功能丰富的编程语言， 2401_89451588 python 数据分析机器学习
基于Python的数据分析与机器学习实战教程一、引言随着大数据时代的到来，数据处理和分析能力已经成为现代软件开发人员的必备技能之一。Python作为一种高效、简洁且功能丰富的编程语言，在数据分析领域得到了广泛的应用。本文将介绍如何使用Python进行数据分析，并结合机器学习算法实现数据驱动的应用。二、Python基础首先，我们需要掌握Python的基本语法和常用的库。Python的语法简洁易懂，上
【Kubernetes】ReplicaSet 如何选择要删除的 Pod - 缩容优先级深度解析 showyoui 云原生开源 kubernetes 容器云原生
文章目录概述核心问题：控制器如何在自己的Pod中做选择？ReplicaSet的删除优先级排序特殊情况：StatefulSet决策流程图关键应用：使用`pod-deletion-cost`总结概述当您缩减一个Deployment或ReplicaSet的副本数时，控制器必须从其管理的众多Pod中做出选择：删除哪一个？这是一个在应用更新和弹性伸缩中频繁发生的操作。与因节点资源不足而引发的"被动"驱逐不同
深入了解大数据领域Zookeeper的ACL权限管理 AGI大模型与大数据研究院大数据 zookeeper wpf ai
深入了解大数据领域Zookeeper的ACL权限管理关键词：Zookeeper、ACL权限管理、大数据安全、分布式系统、访问控制、权限模型、数据保护摘要：本文深入探讨了Zookeeper中的ACL(AccessControlList)权限管理系统。作为分布式协调服务的核心组件，Zookeeper的ACL机制对于保障大数据环境中的数据安全至关重要。文章将从基础概念出发，详细解析ZookeeperAC
场景题：有40亿个QQ号如何去重？仅1GB内存卷福同学社招面试面试阿里云京东云 java
场景题也有一些套路可以考虑，比如去重、判断给定数据是否存在1.大数据去重1.1现在有40亿个QQ号如何去重？仅1GB内存参考链接：https://juejin.cn/post/7396332696660131849介绍2种方法：Bitmap和布隆过滤器方法一：Bitmap首先介绍下什么是位图Bitmap位图是使用bit数组表示的，它只存储0或者1，因此我们可以把全部的QQ号放到位图中，当index
Kubernetes第八章--存储类型运维小贺 kubernetes 容器云计算云原生运维
k8s存储概述在Kubernetes（K8s）中，存储系统是一个关键的组成部分，用于管理容器化应用的数据持久性和共享性。K8s的存储分类可以从多个维度进行理解，但主要分为两大类：临时存储和持久存储。关于元数据和真实数据的分类，虽然这两个概念在存储系统中普遍存在，但在K8s的存储分类中，它们并不是直接用于分类存储类型的标准。不过，可以从K8s存储类型如何管理和使用这些数据的角度来探讨。k8s支持的卷
Kubernetes第七章--Service详解 (纯干货) 运维小贺 kubernetes 容器云原生 docker etcd
Service存在的意义？引入Service主要是解决Pod的动态变化，通过创建Service，可以为一组具有相同功能的容器应用提供一个统一的入口地址，并且将请求负载分发到后端的各个容器应用上。若提供服务的容器应用是分布式，所以存在多个pod副本，而Pod副本数量可能在运行过程中动态改变，比如水平扩缩容，或者服务器发生故障Pod的IP地址也有可能发生变化。当pod的地址端口发生改变后，客户端再想连
Kubernetes Pod 调度基础
目录一、ReplicationController与ReplicaSet：Pod副本数的守护者1.1ReplicationController：确保Pod副本数的基础机制1.1.1ReplicationController实践示例1.2标签与标签选择器：Kubernetes对象管理的核心机制1.2.1标签（Label）的定义与规范1.2.2标签选择器（LabelSelector）的类型与用法1.2
深度剖析数据中台：大数据领域的核心技术架构大数据洞察大数据架构 java ai
深度剖析数据中台：大数据领域的核心技术架构关键词：数据中台、大数据、核心技术架构、数据治理、数据服务摘要：本文旨在对数据中台这一大数据领域的核心技术架构进行深度剖析。首先介绍了数据中台的背景，包括其目的、适用读者、文档结构和相关术语。接着阐述了数据中台的核心概念、原理和架构，通过文本示意图和Mermaid流程图进行直观展示。详细讲解了核心算法原理及具体操作步骤，并结合Python源代码进行说明。引
CentOS 7 yum操作时出现 Could not resolve host: mirrorlist.centos.org 解决记录 qq_30327325 centos linux 运维
开始查询网络上大部分的解决方案是修改DNS为8.8.8.8和8.8.4.4，但是经过多次尝试未果，只能寻找其他解决办法，然后就是想到切换yum源，通过DeepSeek查询到各个源的地址，这里列一下#备份原有配置文件sudomv/etc/yum.repos.d/CentOS-Base.repo/etc/yum.repos.d/CentOS-Base.repo.backup#下载阿里云的镜像源配置文件
Centos7 yum install “Could not resolve host: mirrorlist.centos.org“ 错误解决 q不回安定区 centos linux 运维
代理()可能需要关闭有影响wget-O/etc/yum.repos.d/epel-7.repohttp://mirrors.aliyun.com/repo/epel-7.repo#换aliyunepel源yumcleanall#清除系统所有的yum缓存yummakecache#生成yum缓存Centos7配置国内yum源和epel源-阿里云开发者社区
2025年全球数据安全发展趋势 jinan886 人工智能大数据安全数据分析
随着云计算、大数据、人工智能等技术的迅猛发展，数据已成为驱动经济社会发展的关键生产要素。然而，数据泄露、网络攻击等安全事件频发，给个人隐私、企业利益乃至国家安全带来了前所未有的挑战。全球数据安全发展趋势正随着技术进步和威胁演变而不断变化，以下是主要趋势：1.数据隐私法规加强GDPR（欧盟《通用数据保护条例）和CCPA（加州消费者隐私法案）等法规推动了全球对数据隐私的重视，更多国家和地区正在制定或更
机器学习在智能仓储中的应用：库存管理与物流优化 Blossom.118 机器学习与人工智能机器学习人工智能深度学习机器人 sklearn tensorflow cnn
最近研学过程中发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击链接跳转到网站人工智能及编程语言学习教程。读者们可以通过里面的文章详细了解一下人工智能及其编程等教程和学习方法。下面开始对正文内容的介绍。随着电子商务的蓬勃发展，仓储和物流行业面临着前所未有的挑战和机遇。智能仓储通过整合先进的信息技术，如物联网（IoT）、大数据和机器学习，能够实现从货物入库到出库的全流程
为什么一定要用云服务器而不用物理机？云资源服务商冰儿云计算阿里云腾讯云华为云服务器
随着云计算技术的发展，越来越多的企业正在考虑将业务迁移到云端。在这个过程中，选择合适的云服务提供商及其产品变得至关重要。本文将以阿里云的弹性计算服务（ECS）为例，结合实测数据，与传统物理服务器进行成本、性能和安全性的全面对比，帮助企业更好地理解云服务的优势，并做出明智的选择。成本效益分析阿里云ECS：按需付费：用户可以根据实际使用的资源量来支付费用，避免了前期高额的硬件采购成本。节省维护费用：无
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文