Alluxio

实录分享 | Alluxio 在网易大数据的应用与优化

欢迎来到【微直播间】，2min纵览大咖观点

本次分享主要包括四个方面：

背景介绍；
对象存储场景优化；
Impala 引擎适配；
通用功能增强。

一、背景介绍

网易有数大数据基础平台NDH：NDH 是网易对标 Cloudera CDH 的一个内部实现，是网易内部广泛使用的一个基础平台。

分布式大数据查询引擎 Impala：NDH 底层的 OLAP 引擎是 Impala, Impala 是 MPP 的架构，有着强悍的查询性能。

在网易的使用场景中，Alluxio 可以让整个云上大数据系统的性能提升很多倍，降低云上场景的接入成本，在整个系统的稳定运行中发挥了应有的作用，同时很好地融入到了整个产品体系中。

二、对象存储场景优化

流上传优化；
方案：对象存储流式上传功能
Rename性能优化；
OBS 场景删除性能优化。

三、Impala引擎适配

网易数帆 NDH 使用 Impala 作为 OLAP查询引擎，使用 Alluxio 作为离线大数据的分布式缓存加速层。在 Impala 引擎适配上，主要做了如下相关工作：

文件句柄缓存；
Transparent URI；
getFileBlockLocations 优化。

四、通用功能增强

运维能力增强 - 动态修改代理用户配置
运维能力增强 - UFS 性能指标
运维能力增强 - 审计日志增强
运维能力增强 - 文件上传感知
运维能力增强 - 缓存行为控制

以上仅为大咖演讲概览，完整内容点击视频观看：

点击观看

附件：大咖分享文字版完整内容可见下文

一、背景介绍

网易有数大数据基础平台 NDH

NDH 是网易对标 Cloudera CDH 的一个内部实现，是网易内部广泛使用的基础平台。有如下特点：

可从 CDH 集群平滑迁移；
运维智能化；
核心代码完全掌控；
任务运行优化和资源隔离；
多层安全保障。

分布式大数据查询引擎 Impala

NDH 底层的 OLAP 引擎是 Impala, Impala 是 MPP 的架构，有着强悍的查询性能。

为什么选择 Alluxio

NDH 使用 Alluxio 作为缓存加速层的原因有如下几点：

Alluxio 是第一个面向基于云的数据分析和人工智能的开源数据编排系统；
可降低云上场景的接入成本；
基于内存 + SSD + HDD 的多级缓存可以大幅提高数据访问速度。

NDH 在公有云部署时，通过 Alluxio 提供的统一标准的存储接口，可以对接 HDFS 以及 OSS,S3,COS,OBS 等对象存储。在该方案中，Alluxio 也发挥了一个存储层的文件管理、IO 路由和缓存加速的作用。计算引擎和查询引擎，如 Spark, Impala, Flink等，会通过Hadoop compatible 接口访问 Alluxio。

二、对象存储场景优化

流上传优化

目前我们所遇到的难题：

在大数据场景下，通过Spark执行ETL任务时, 会通过 Alluxio上传文件到对象存储中。在使用过程中发现，当上传超过5GB的文件时, Alluxio 会报错导致任务失败，我们必须通过参数调整等方式避免ETL 产生超过5GB的文件，而这些调整对业务用户的影响较大；
Hive SQL任务尝试向Alluxio写入大文件时，会导致 Alluxio Worker节点磁盘写满，直接引起集群大量写入失败，并影响同节点上其他服务的稳定性。

当前文件上传在内部实现上，客户端会首先将数据写到 Alluxio Worker 节点的一个临时目录上, 然后在客户端调用 Close 方法时，才会将这些 Alluxio Worker 节点的本地文件上传到对象存储中。这种实现方式会带来如下问题：

上传性能慢：Alluxio 客户端向 Alluxio Worker 发送数据，同时Alluxio Worker向对象存储发送数据，是一个串行的过程，所以上传流量和下载流量是分开的，无法充分利用网络带宽；
上传文件的大小受到 Worker 节点磁盘容量的限制，在上传大文件时可能引起 Worker 节点磁盘满的故障，进而导致整个集群停止服务：比如上传 1T 的数据时，如果 worker节点磁盘容量只有100G，此时在写满Worker节点磁盘后，就会影响Worker节点的其它服务如Spark、Impala等，进而导致整个集群停服；
上传大文件受到对象存储putObject接口大小限制，在上传超过5GB大小的文件时，任务会失败;
上传重试行为低效：上传过程中如果出现网络异常导致作业失败，重试时需要把整个文件重新再上传一遍，比如一个10G的文件上传了8G后失败了，则整个10G的数据都需要重新上传，这无疑是低效的；

针对上述问题，网易开发了一套流上传优化的解决方案替代现有的机制（目前已经贡献给开源社区）。该方案在 Worker 中对上传的文件进行分片，如果上传到的文件已经达到了一个分片大小，就会调用UploadPart 异步上传文件分片到对象存储中，该方案的优势如下：

客户端发送数据到Worker的过程和Worker上传文件到 UFS 的过程异步，可以更充分地利用网络带宽，整体 I/O 性能提升 40%；
上传超大文件时无Worker磁盘容量限制：上传超大文件时，Worker中已经上传成功的文件分片可以被删除掉，所以文件大小没有Worker磁盘容量的限制；
单文件上传时无putObject接口大小限制，允许上传更大的单个文件；
按文件分片重试，更高效：上传过程中如果出现网络异常导致作业失败，重试时只需要重试上传失败的文件分片，而不需要把整个文件重新再上传一遍；

Rename性能优化

在大数据 ETL 作业中，首先会把一些批量任务的结果存储到临时目录中，然后在整个作业完成后再将临时目录 Rename 为正式目录。由于大多数的对象存储没有原生 Rename 接口，所以在内部实现上会结合 Copy 和 Delete 来实现。原先的实现会对每一个对象都发送一个 Copy 和 Delete 请求，所以Rename 性能较慢，尤其是对拥有大量文件的目录进行操作时，会造成严重的性能问题。

网易利用了 UFS 对象存储的批量删除接口，通过合并删除请求批量删除对象，此时整体的 rpc 调用会减少很多，以此来优化 Rename 的整体性能。测试结果显示，针对大目录（文件数40万++），其 Rename 操作获得了 30% 的性能提升。

OBS 场景删除性能优化

有些客户会将网易 NDH 部署在华为云上，此时底层使用了华为 OBS 对象存储 (Object Storage Service)，对接时发现 Spark 作业删除 OBS 大目录时性能较慢。经与华为云相关人员沟通，了解到 OBS 的 PFS 提供了针对目录的原生 Rename 接口，且 PFS 的 Rename 接口性能比 delete 接口快。

在优化方案中，先将文件Rename 到指定目录，然后再定期延迟删除，从而优化了 delete 性能。

三、Impala 引擎适配

网易数帆 NDH 使用 Impala 作为 OLAP查询引擎，使用 Alluxio 作为离线大数据的分布式缓存加速层。在 Impala 引擎适配上，主要做了如下相关工作。

文件句柄缓存

Impala 等 OLAP框架，普遍会使用文件句柄缓存机制提升打开文件的性能，并降低元数据服务（比如HDFS 的 namenode）的负载压力，但开源的 Impala 对 Alluxio 的支持不足，网易通过调整 Impala 代码支持了调整 Alluxio I/O 线程数、文件句柄缓存等功能。开启 Impala 的文件句柄缓存机制后我们发现，过段时间后所有查询都会卡住，造成 Impala 服务不可用，同时在 Impala 日志中可以发现大量客户端 OOM 日志。

在 Impala 的文件句柄缓存机制中，Impala 读取文件时，会首先判断是否缓存了文件句柄，如果没有就调用 Open 方法向 Master 发起请求以获取文件的元数据信息（如文件的长度，文件块的位置信息等），此后会向 Worker 发起读取请求并调用 read 方法读取数据块，此后会调用 unbuffer 方法并缓存文件句柄，最后会返回读取的数据；后续再次读取相同文件时，如果已经缓存了文件句柄，就不需要再次向 Master 发起请求以获取文件的元数据信息。

而 Alluxio 客户端的实现中其实并没有 unbuffer 方法，查看接口 CanUnbuffer 的声明可以发现，此处可以释放网络连接以及文件句柄。网易修改实现了 Hadoop 客户端的 unbuffer 接口，在缓存文件句柄时断开了与 Worker 之间的长连接和清除预读的数据缓存，避免了连接池和内存耗尽。在 profile 中查看效果可见，启用文件句柄缓存后，打开文件的耗时指标有了大幅下降。

Transparent URI

OLAP 引擎和 Spark 查询数据时都需要访问元数据引擎 HMS 以获得库和表的元数据，包括其在存储系统中的具体路径。针对对象存储S3，分布式文件系统HDFS，以及 Alluxio, 其存储系统和存储路径相关信息分别为 location=s3://xx，location=hdfs://xxx，和 location=alluxio://xx。在一些场景下，我们希望只使用 Alluxio 来加速 OLAP 引擎的查询性能，而像 Spark 这样的引擎跑 ETL 任务的时候不需要经过 Alluxio。

为满足上述需求，网易首先采用了白名单方案：即在 Impala 查询引擎当中添加一个库表白名单机制，根据用户访问的表是否在白名单中，决定 Impala 是否在查询前对元数据中的 location 前缀进行转换。

由于上述白名单机制对查询引擎有侵入（若要实现类似功能，每个查询引擎都要进行修改以引入白名单机制），网易后续又参考了企业版的 Transparent URI 机制，在内部版本中实现了类似功能，该方案无需各引擎分别实现 location 前缀的转换，业务无感知，对业务更加友好。

getFileBlockLocations 优化

Impala 在元数据加载时会调用Hadoop 的 getFileBlockLocations 接口，用于在调度时通过块位置信息优先将对应的 scan range 下发到与 Worker 混部的 Impalad ，尽可能利用短路读取来优化查询 I/O 性能。而在实际使用时发现，Impala 在加载文件数较多的表时 getFileBlockLocations 返回较慢，同时发现 Master 上有大量的 getFileInfo 请求，对元数据加载的性能产生较大影响。

分析源码实现可以发现，Alluxio 在 listStatus 时已经将 BlockLocation 放到 FileStatus 当中，无需再调用 getFileInfo RPC 接口获取块位置信息。网易优化了 Alluxio 客户端的实现逻辑，去除了冗余的 RPC 调用，为 Impala 加载元数据时的性能带来了提升。

四、通用功能增强

数据资产

在数据资产相关服务中，用户需要对存储资源进行各种分析，优化资源配置，降低存储成本，这需要实时查询指定路径下的元数据信息，而直接遍历目录计算会对集群造成很大压力，直接影响服务性能和稳定性。

为解决上述问题，网易在 Apache Ratis 上开发了 listener 功能，Ratis listener 只参与日志复制过程，而不参与主节点选举 (Alluxio 的高可用是基于Apache Ratis 提供的 Raft 协议来实现的)。由于 Raft Listener 不响应客户端的请求，只负责计算 Alluxio 元数据信息并写入到 HBase 当中，所以可以做到不影响集群的性能和稳定性。

Ratis listener 写入到 HBase 中的 Alluxio 元数据信息，可以通过 Meta API 实时响应用户的查询请求，也可以通过 Spark 同步到Hive中以满足T+1类的离线数据分析需求。

Hadoop 生态兼容-回收站

Hadoop 生态的计算框架为了提升数据安全性，在执行删除操作时，会先将删除的文件或者目录移动到回收站目录（/user//.Trash/Current）下，一段时间后由 NameNode 负责清理相应的文件。而 Alluxio 没有相同机制，需要手动进行清理操作，操作繁琐，容易误删数据。出于易用性的考量，网易为 Alluxio 添加了相同的清理逻辑，提供了与 HDFS 回收站功能相同的特性。

Hadoop 生态兼容-目录冻结

为防止有更新权限的用户误删除特定数据目录，网易结合元数据功能和其内部的 Ranger（开源的 Ranger 只区分 Read 和 Write，对 Write 操作不区分具体是 create 还是rename/delete），实现了目录冻结功能，能够冻结指定目录或者超过一定大小的目录，从而禁止任何用户对该目录的 Rename 或 delete 操作，避免了数据误删除，提升了数据安全性。

运维能力增强-动态修改代理用户配置

由于之前业务经常有修改和新增代理用户的需求，之前需要重启集群才能生效，影响范围大。因此我们实现了监听配置文件并动态修改代理用户功能，降低Alluxio的重启次数，提升集群稳定性。

运维能力增强 - UFS 性能指标

我们发现 Alluxio 在 UFS 上经常出现底层存储性能的瓶颈，为了用于排查提升 Alluxio 可观测性，我们开发了UFS性能指标增强的功能。

运维能力增强 - 审计日志增强

使用过程中发现目前 Alluxio 缺少管理客户端能力，如果一些老的客户端版本有 BUG，难以确定需要通知哪些业务方升级。我们在客户端上增加了上报版本和客户端配置等信息的功能，并将这些信息在审计日志中打印，增强客户端管理能力。

运维能力增强- 文件上传感知

添加了命令行识别 Worker 节点正在上传的文件，方便定位排查问题。

运维能力增强 - 缓存行为控制

为了更好的控制缓存空间，开发允许在 Free 和 Load 命令中指定 Worker 节点的功能，增强缓存控制能力。

五、总结与展望

使用 Alluxio 作为统一存储入口的网易 NDH 云上大数据方案已经服务了在 AWS 、阿里云和华为云上的多个用户。网易 Alluxio 团队积极参与社区共建，包括及时反馈 Issue 、贡献特性 PR 和修复已知 Bug 等，目前累计已为 Alluxio 贡献了 40+ PR。

想要了解更多关于Alluxio的干货文章、热门活动、专家分享，可点进入【Alluxio智库】：

hive全量迁移脚本我要用代码向我喜欢的女孩表白数据迁移 bigdata-大数据专栏 hive hadoop 数据仓库
#!/bin/bash#场景：数据在同一库下，并且hive是内部表（前缀的hdfs地址是相同的）#1.读取一个文件，获取表名#echo"时间$dt_jian_2-------------------------">>/home/hadoop/qianyi_zengliang/rs.txt#跟客户宽带有关，万兆(1.2g)，然后咨询业务后，看监控高峰，大概可以用一般600mb/spinjie="ha
创新市场调查方法，精准把握消费者脉搏（消费者调查） zhonglidc01 消费者调查市场调查咨询大数据人工智能
在当今竞争激烈的市场环境中，（第三方市场调查）企业要想精准把握消费者需求，制定有效的市场策略，（市场咨询公司）创新的市场调查方法至关重要。成都中立调查公司凭借17年的深厚调研经验，（问卷调查）结合线上线下调查、运用大数据分析等创新举措，致力于为客户提供更具前瞻性的市场洞察，助力企业精准把握消费者脉搏，提升市场竞争力。一、结合线上线下调查，全面覆盖消费者群体线上调研：便捷高效，触达广泛受众在互联网时
/etc/security/limits.d/90-nproc.conf 一千二 linux命令
步骤解读：/etc/security/limits.d/90-nproc.conf与/etc/security/limits.conf都是系统用户资源配置文件/etc/security/limits.d/90-nproc.conf配置文件：[root@~]#cat/etc/security/limits.d/90-nproc.conf#Defaultlimitfornumberofuser'spr
笔记：DataSphere Studio安装部署流程右边com Java 大数据
一、标准版部署标准版：有一定的安装难度，体现在Hadoop、Hive和Spark版本不同时，可能需要重新编译，可能会出现包冲突问题。适合于试用和生产使用，2~3小时即可部署起来。支持的功能有：数据开发IDE-Scriptis工作流实时执行信号功能和邮件功能数据可视化-Visualis数据质量-Qualitis(单机版)工作流定时调度-Azkaban(单机版)Linkis管理台二、基础环境准备2.1
android+8.0对应版本,Android各版本适配之8.0 chinhoyoo android+8.0对应版本
Android8.0透明Activity报错"Onlyfullscreenactivitiescanrequestorientation"1、分析问题首先，我的代码是这样的：style.xmltruetrueadjustPanfalse@color/app_transparent_colortrue//透明true//悬浮AndroidManifest.xml从上面可以看出，我的activity是
hive-site.xml 配置总结 hxsln11 hive xml hadoop
在Hive安装后，hive主要的配置文件为conf中hive-site.xml那该文件中那么多的配置选项都是什么含义呢。下面这篇文章带你解密这些配置请跟随以下这些问题来看以下配置：1.hive输出格式的配置项是哪个？2.hive被各种语言调用如何配置？3.hive提交作业是在hive中还是hadoop中？4.一个查询的最后一个map/reduce任务输出是否被压缩的标志，通过哪个配置项？5.当用户
【Spring】Spring的模块架构与生态圈—Spring Boot、Spring Cloud与Spring Security AI人H哥会Java JAVA java spring 后端开发语言 spring boot spring cloud
随着互联网的发展，企业对快速开发和高可用性的需求不断增加，Spring生态系统（包括SpringBoot、SpringCloud和SpringSecurity）应运而生，为Java开发提供了强大的支持。在实际应用中，SpringBoot使得开发者能够快速构建独立的、生产级的Spring应用；SpringCloud则为微服务架构提供了完整的解决方案；而SpringSecurity则为应用提供了安全保
揭秘Linux：从服务器到智能家居，一个操作系统如何改变世界寒水馨 Linux问题解决方案服务器 linux 智能家居
揭秘Linux：从服务器到智能家居，一个操作系统如何改变世界文章目录揭秘Linux：从服务器到智能家居，一个操作系统如何改变世界引言：Linux，不仅仅是一个操作系统Linux在企业级应用中的霸主地位云计算与虚拟化：Linux的天下大数据与人工智能：Linux的助推器Web服务器：Apache和Nginx的最佳搭档Linux在移动和嵌入式设备中的崛起Android：Linux的最成功衍生品物联网（
探索大数据处理：利用 Apache Spark 解锁数据价值 Echo_Wish 实战高阶大数据 apache spark 大数据
探索大数据处理：利用ApacheSpark解锁数据价值大家好，我是你们熟悉的大数据领域自媒体创作者Echo_Wish。今天，我们来聊聊如何利用ApacheSpark进行大规模数据处理。ApacheSpark作为一个快速、通用的集群计算框架，以其出色的性能和丰富的API，成为大数据处理的利器。那么，ApacheSpark究竟如何帮助我们高效处理海量数据？接下来，让我们一起深入探讨。一、ApacheS
Pytorch实现论文：利用推土机距离与梯度惩罚在ACGAN中训练。这张生成的图像能检测吗优质GAN模型训练自己的数据集 pytorch 人工智能深度学习 gan 机器学习生成对抗网络
论文简介论文：ACWGAN-GPformillingtoolbreakagemonitoringwithimbalanceddata（ACWGAN-GP用于铣削工具断裂监视的数据不平衡数据）出处：RoboticsandComputer-IntegratedManufacturing论文摘要：铣削操作过程中的刀具破损监测(TBM)对于确保工件质量和最大限度减少经济损失至关重要。在训练数据充足、分布均
微服务网关springcloud gateway整合nacos实现服务名负载均衡程序猿20 开发框架微服务 gateway 负载均衡 nacos
1.添加依赖com.alibaba.cloudspring-cloud-starter-alibaba-nacos-discovery2.2.5.RELEASE2.添加配置spring:cloud:nacos:discovery:#服务注册地址server-addr:192.168.17.94:88483.将路由配置中的uri采用lb://服务名的形式进行配置spring:cloud:gatewa
浅聊读写分离不全数据库 JAVA C#相关数据库读写分离 C#JAVA
一、前言最近工作很繁忙，同事的离职给我带来了很多的事情，投身于博客的时间比较少，另外在宿舍住可能部分的时间要随大流，鹤立鸡群有一些不好，当然这也是给自己找借口和理由，趁着周末整理下最近的感悟；另外公司用的ElasticSearch，最近我也在探索，微服务方面暂时搁浅，待到搬出宿舍的时候在开始一波666的操作；另外随着数据量增加自己还需要去接触波大数据东西，不得说真是有些挑战和机遇，看自己如何把握了
电力知识图谱与大模型的结合：从构建到行业应用的深度解析 Cc不爱吃洋葱知识图谱人工智能自然语言处理大模型大语言模型 LLM 语言模型
随着大数据和人工智能技术的飞速发展，电力行业迎来了智能化转型的全新契机。电力知识图谱作为一种将数据转化为结构化知识的技术，正在赋能故障诊断、设备管理、运维优化等核心场景。而当知识图谱与大模型相结合，更能释放强大的知识推理和智能预测能力，为行业智慧化发展注入新动力。本文将从专业视角，深入探讨电力知识图谱的构建过程、大模型的融入方法，以及它们在实际应用中的落地场景。通过具体案例剖析与技术解读，帮助你了
提示工程（Prompt Engineering）的进阶策略与实践指南调皮的芋头 prompt 机器学习人工智能
深化与细化：提示工程（PromptEngineering）的进阶策略与实践指南一、结构化提示的黄金框架CRISPE框架（角色-约束-意图-风格-示例）适用于复杂技术场景，确保输出精准可控：[角色]你是一名有10年经验的Java架构师[约束]使用SpringSecurity6.0+，兼容JDK17[意图]实现支持JWT和OAuth2协议的用户鉴权模块[风格]代码符合GoogleJavaStyle，包
360智算中心：万卡GPU集群落地实践 ZVAyIVqt0UFji
360智算中心是一个融合了人工智能、异构计算、大数据、高性能网络、AI平台等多种技术的综合计算设施，旨在为各类复杂的AI计算任务提供高效、智能化的算力支持。360智算中心不仅具备强大的计算和数据处理能力，还结合了AI开发平台，使得计算资源的使用更加高效和智能化。360内部对于智算中心的核心诉求是性能和稳定性，本文将深入探讨360智算中心在万卡GPU集群中的落地实践过程，包括算力基础设施搭建、集群优
华为云OBS配置方法芊言凝语数据库网络服务器
华为云对象存储服务（ObjectStorageService，OBS）是一种海量、安全、低成本、高可靠的云存储服务。以下是华为云OBS配置的详细步骤及相关说明：创建OBS桶登录华为云控制台后，在搜索框中输入“对象存储服务”，选择对应的服务进入OBS管理页面。点击“创建桶”按钮，进入创建桶的配置页面。基本信息桶名称：输入一个全局唯一的桶名称，例如可以采用项目名称或业务名称相关的命名方式，方便识别和管
常见Linux命令程序员小柴后端工程化 linux 服务器运维
第八章常见Linux命令学习目标1熟练文件目录类命令2熟悉用户管理命令3熟悉组管理命令4熟练文件权限命令5熟悉搜索查找类命令6熟练压缩和解压缩命令7熟练进程线程类命令8了解磁盘分区类命令第一节文件目录类命令（1）pwd打印当前目录的绝对路径(printworkingdirectory)基本语法pwd（功能描述：显示当前工作目录的绝对路径）案例实操显示当前工作目录的绝对路径[root@hadoop1
CMSC 150 Simple Chatbot 后端
SimpleChatbotCMSC150-[01/02]-Spring2025-Project1IntroductionMostAIagents,particularlychatbots(seeELIZA,oneofthefirstchatbotsandEugeneGootsman,thefirstchatbottopasstheTuringTest),arereallyjustmadeupofc
AWS Certified Solutions Architect 彻骨寒风 aws
NetworkACLsarestateless,andsecuritygroupsarestatefulTheALBstopssendingtraffictotheinstance.Runtheclusterson-premisesusingAmazonEKSDistro.DynamoDB：StoringmetadataforS3objectsHigh-performancereadsandwri
字节跳动后端或大数据基础知识面试题及参考答案（2万字长文）大模型大数据攻城狮大数据大厂面试数据结构算法 leetcode
目录Redis的数据类型Redis数据类型的底层数据结构三次握手、四次挥手Redis持久化机制购物车为什么用Redis存，是永久存储吗MySQL的InnoDB索引数据结构哪些SQL的关键字会让索引失效队列、栈、数组、链表有什么不同讲讲爬虫的构成爬虫抓到的数据不清洗吗？不去重吗？对爬虫的更多了解Linux进程间通信机制进程和线程的区别线程私有的数据讲一下堆排序，每次调整的时间复杂度？堆排序是稳定的吗
《2025：中国行业新方向与民营企业的使命》晚风る传媒
2025年，中国经济正站在新的历史节点上，科技创新、数字经济、绿色经济等成为发展的核心驱动力。在这样的背景下，2025年民营企业座谈会的召开，无疑为中国未来行业的发展指明了方向。本文将结合座谈会内容，探讨中国未来行业发展的新方向。一、数字经济：创新驱动的核心引擎数字经济已成为全球经济增长的重要引擎，而民营企业在其中扮演着关键角色。2025年，数字经济将继续深化，涵盖云计算、大数据、人工智能、物联网
网络安全：挑战、技术与未来发展一ge科研小菜鸡运维网络运维
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言在数字化时代，网络安全（Cybersecurity）已成为全球关注的焦点。随着云计算、大数据、人工智能（AI）、物联网（IoT）等技术的发展，企业和个人的敏感数据在互联网上的流通日益增加，黑客攻击、数据泄露、勒索软件等网络安全威胁也日趋严峻。本文将从网络安全的核心概念、常见攻击手段、防御技术、企业安全策略以及未来发展趋势等方面，深入探讨如
DolphinScheduler环境搭建、服务启动等常见问题及解决方案数据库
ApacheDolphinScheduler作为一款分布式易扩展的工作流调度系统，广泛应用于大数据任务编排。然而，在实际使用中，用户可能会遇到环境搭建、服务启动、工作流执行等问题。本文结合社区文档与用户实践经验，整理以下高频问题及详细解决方案，帮助用户快速定位并解决问题。一、安装与部署问题环境依赖配置错误问题：部署时因缺少JDK、Maven或数据库配置导致失败。解决方案：安装JDK1.8+并配置J
文心快码智能体不断发展，真正与AI协同工作
文心快码(BaiduComate)是基于百度文心大模型，在研发全流程全场景下为开发者提供辅助建议的智能代码助手。结合百度积累多年的编程现场大数据、外部优秀开源数据，可为开发者生成更符合实际研发场景的优秀代码，提升编码效率，释放“十倍”软件生产力。如果您对【文心快码企业版】感兴趣，希望获取更多详细信息，点击进入企业服务咨询我们会尽快安排专业人员与您取得联系！我们期待与您建立联系，为您的企业带来更高效
python中的URLEncode和Base64编码：技术详解与应用小宇python python python基础爬虫 python 服务器 linux
URLEncode编码1.定义与目的URLEncode（百分比编码）是一种编码机制，用于在URI（统一资源标识符）中嵌入特定字符。由于URL中只允许包含一定范围内的字符，URLEncode用于将非法字符转换为合法字符，以便在URL中安全传输。2.编码规则URLEncode将非字母数字字符（排除-,_,.,!,~,*,+,@等字符）转换为%后跟两位十六进制数的形式。例如，空格字符（ASCII码为32
vue 解决image-conversion图片处理插件压缩后图片底色变黑问题 qq_48354174 vue.js javascript
官方文档https://www.npmjs.com/package/image-conversion将el-upload封装为一个组件，并将图片上传到对象存储引用方式importSingleUploadfrom"@/components/upload/singleUpload"//isWatermark是否需要水印changeFile方法判断是否是透明图片，如果是透明图片将底部改为透明色impor
智能城市：科技驱动的未来城市给生活加糖！热门知识科技语音识别人工智能
随着科技的不断发展和城市化进程的加速，传统城市面临着诸多挑战，包括交通拥堵、环境污染、资源浪费和公共服务不足等问题。为了解决这些问题，智能城市（SmartCity）的概念应运而生。智能城市是利用现代信息技术、物联网、大数据、云计算、人工智能等手段，对城市的各个方面进行全面的智能化管理与优化，从而提高城市运行效率、改善居民生活质量，并实现可持续发展的城市目标。一、什么是智能城市？智能城市是指通过信息
推动AI云产业向深向实，云·AI·算力创新发展大会即将启幕科技云报道云计算 AI 云计算
近年来，以AIGC为代表的新兴技术正加速演进，全球站在智能化变革的起点，人工智能与云计算的深度融合，也驱动云计算进入第三次发展浪潮，迎来前所未有的机遇。伴随AI的快速发展，2024年《政府工作报告》明确提出，制定支持数字经济高质量发展政策，深化大数据、人工智能等研发应用，开展“人工智能+”行动。这意味着AI正在成为产业创新的核心抓手和驱动新质生产力的关键引擎，而云计算作为基础底座将在其中扮演至关重
PHP + XlsWriter实现百万级数据导入导出，如何实现程序员阿凡提 PHP实战教程 php 开发语言
在PHP中使用XlsWriter（如xlswriter扩展）处理百万级数据的导入导出，需重点解决内存占用和性能问题。以下是分步骤的实现方案：一、环境准备1安装xlswriter扩展从PECL安装：peclinstallxlswriter在php.ini中启用扩展：extension=xlswriter.so2调整PHP配置处理大数据时需增加内存和执行时间限制：memory_limit=1024Mm
【国产自研-神软大数据平台3.4.10】王旭亮_ 数据治理大数据技术栈大数据数据治理神软产品国产自研
产品介绍：北京神舟航天软件技术股份有限公司自研全栈式大数据平台神软大数据平台是数据全生命周期一站式数据治理开发平台，提供数据采集、数据集成、数据开发、数据治理、数据服务等功能，支持大数据存储、大数据计算分析引擎等数据底座，充分发挥数据价值作用，聚焦企业数字化转型，提升组织的信息化水平和高效应用决策。1、可以兼容并适配各种服务器（X86\ARM）、操作系统包括Centos、麒麟V10SP3、欧拉（o
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin