Apache Spark中国社区

阿里云 E-MapReduce 全面开启 Serverless 时代

本文整理自阿里云智能 EMR 负责人李钰（花名：绝顶）在 2023 云栖大会开源大数据专场的分享，演讲主题为阿里云 E-MapReduce 全面开启 Serverless 时代。

EMR 2.0 平台

阿里云正式发布云原生开源大数据平台 EMR 2.0 已历经一年时间，如今 EMR 2.0 全新平台在生产上已经全面落地，资源占比超过 60%。EMR 2.0 平台之所以在生产上这么快落地，源于其体验全面提升，更重要的一点是为客户实现了全面降本增效。

EMR 2.0 平台实现降本增效主要源于四个核心能力。

极致弹性

EMR 2.0 平台提供极致弹性的能力，主要表现在两个方面。第一是支持抢占式实例，客户可以指定使用抢占式实例的优先级，单节点组最多选择 10 种不同规格，成本优化策略支持自动选取低价实例规格出价，当抢占式实例不足的时候，会给客户补充按量付费的实例，兼顾成本和业务效果。第二就是极速响应能力，单节点组内和多节点组间均支持并行扩容，支持缩容期间并行扩容，支持突发业务变化；并且在响应能力上也有大幅提升，扩容速度不随着节点的增加而增加，100 节点扩容时间小于 2 分钟，弹性指标检测周期低于 30 秒，能够更好地响应负载变化；而且单次扩容规模能够达到 1000 个节点。

智能诊断

EMR 2.0 平台具备智能诊断能力，通过 EMR Doctor 的集群日报和实时检测功能，可以实现避免资源浪费、风险提前预警和实时分析建议的核心效果：通过健康检查服务的集群日报功能查看集群是否存在资源浪费；通过任务评分倒排 Top N，找到资源浪费最多的作业进行优化；通过持续优化，最大化利用资源，避免浪费。

新硬件支持

EMR 2.0 平台全面支持倚天 ECS 实例，相较 X86 实例成本降低 20%以上。另外在软件层面、计算引擎层面，针对ARM的指令集也做了一系列优化，性能更高，CPU 占用率更低，在典型 TPC-DS 大数据 Benchmark 下能够进一步将性能提升 1/4，意味着使用 EMR2.0 新平台加上倚天实例构建大数据集群，可以实现 40%成本下降。

资源配比优化

EMR 2.0 平台提供资源配比优化能力。虽然大数据负载具备动态性，但是在一定时间内也具备一定的周期性。EMR 2.0 平台提供 HBO 能力，基于历史用量分析用量高峰低谷，推荐更低成本的预付费（包年包月固定资源）和后付费（按量弹性资源）配比。固定和弹性资源用量和账单可视化，历史用量曲线跟踪，更直观地度量资源配比调整前后成本绩效。

基于以上四个方面的优化，使用 EMR 2.0 平台的客户在生产上确确实实地实现了降本增效。EMR 团队也开始进一步思考以 ECS 集群方式构建大数据的解决方案是否存在难以解决的问题。

EMR 集群形态难以解决的问题？

有物理机运维经验的同学应该知道，当 CPU 和内存的使用率都超过 70%时，整个集群的负载水位就很高了。所以在生产当中如果资源的综合使用率能够达到70%，就可以认为整个集群的资源使用率是比较高的。如果以 70%的资源使用率为标准评判集群的资源是否利用得比较充分，则会观察到一个现象。10%的线上集群资源使用较为充分，有 90%的集群资源利用率不到 70%。另外观察到超过 3 成集群资源综合使用率不足 50%，而且没有明显的资源峰谷，只是日常综合的使用率。

另外考虑到业务负载动态变化，以及集群形态对资源规划者能力要求极高，如果想在资源利用率上更进一步，全面 Serverless 化势在必行。基于以上背景，近一年阿里云EMR团队在Serverless化产品上取得了较大进展。

EMR Serverless 化产品

EMR Serverless Notebook

上图是阿里云EMR数据湖仓架构。首先看一下数据开发层，数据开发层分为开发和调度两方面。在数据开发方面 EMR 推出了 Serverless Notebook，是一款即开即用免运维的产品，提供完善的用户权限和企业级的安全能力。用户可以开发 SQL、Python 等非常通用的 Notebook 作业。另外 EMR Serverless Notebook 几乎全面兼容了 HUE 的能力，历史存量业务可以无缝迁移，还支持无缝对接各种形态的EMR集群。目前还在测试中，感兴趣的用户可以到 EMR 官网申请试用。

EMR Serverless Workflow

在数据工作流调度方面，EMR 推出了 Serverless Workflow。这款产品也是即开即用免运维的全托管产品，完全兼容 Apache DolphinScheduler，也提供用户权限和企业级的安全能力。另外还可以随着调度负载的增加和减少提供弹性伸缩的能力，可以无缝对接各种形态的 EMR 集群，支持包括 Spark、Flink 在内的各种大数据作业开发，感兴趣的用户可以在 EMR 工作台直接开通测试。

接下来看一下计算层，我们通常将大数据的计算分为三类，批处理、流处理和 Olap 交互式分析。流处理主流产品是Flink，阿里云对应推出了实时计算 Flink 版产品。EMR 则在批处理和 Olap 两个方向分别推出了对应的产品。

EMR Serverless Spark

一站式数据开发平台

EMR Serverless Spark 提供了一站式数据开发平台，在这个一站式数据开发平台上面，用户可以便捷地开发 SQL 作业，也可以很方便地进行试运行和调试，调试完成后支持一键上线及发布，同时还提供内置工作流编排能力，用户可以基于已经开发好的 SQL 作业来编排工作流，并且在工作流上做定时调度，当工作流编排调度好了之后还提供工作流和任务两个维度且比较完善的监控和运维能力。用户可以在工作流维度上看到工作流每次运行的状态，例如运行到哪个节点失败，点击失败的节点可以看到失败的原因。此外还支持智能诊断，比如 Spark 作业有数据倾斜或者某个并发数据 GC 的问题，智能诊断能力可以帮助用户更快地解决问题。

企业级 Native 引擎

除了一站式数据开发平台，EMR Serverless Spark 在内核上也做了优化。首先是企业级 Native 引擎优化，基于 Native 算子及 SIMDJson 优化的向量化执行引擎；支持高性能列式的 Shuffle，可以将Shuffle的数据量最多减少 40%；面向不同指令集做的指令集粒度优化，包括zstd等比较先进的压缩、解压缩算法的优化；最后还提供原生的 C++接口来对接湖格式、OSS—HDFS 存储，从而提供端到端完整的高性能。

下图左侧是 EMR Native Engine 和 Apache Spark3.3 在 TPC-DS 10TB 这个 benchmark 上的对比，可以看到企业级 Native 引擎可以达到开源引擎 3 倍以上的性能。

企业级 RSS 支持

EMR Serverless Spark 提供企业级 RSS 支持。众所周知，批处理云原生和Serverless化需要将本地的状态和存储依赖去掉，就要把ESS转换成使用Remote shuffle service。EMR Serverless Spark 提供的企业级 RSS 支持是基于Apache Celeborn 的，也是阿里云 EMR 团队捐赠给 Apache 孵化器的一款 RSS 软件，目前在整个生态上面有非常多国内外公司在使用，包括国外的 Linkedin、Shopee，国内的网易、哔哩哔哩。EMR Serverless Spark 在完全兼容 Celeborn 的基础上，还提供了企业级多租户能力，支持企业级的安全隔离。另外依托于阿里内部的生产实践，在大规模、高性能和全面功能性上都做了完整的提升。

下图左侧就是 Remote Shulffe Service 相比于 ESS 的性能对比情况，可以看到有非常明显的提升。

按量付费&极致弹性

此外，EMR Serverless Spark 支持按量付费和极致弹性。全新的按量计费方式，打破了传统的按规格计费方式，根据计算资源和存储空间的实际使用量计费，计算资源以 CU 为单位，1 个 CU 性能等于 1 Core CPU 4 GB Mem。在同样规则的情况下，Serverless 可以更好地响应负载变化，成本节省高达 50%！

EMR Serverlesss StarRocks

EMR Serverlesss StarRocks 已经正式商业化，除了有一站式应用的开发平台之外，还能够全面覆盖数据湖分析的各种场景，另外还具备企业级内核能力和云原生能力。

企业级 StarRoks Manager 管控

EMR Serverless StrarRocks 提供企业级 StarRocks manager 管控，不仅支持实例级别管理和监控，还可以做一站式 SQL 开发查询，支持慢 SQL Profile 查询分析，另外还提供智能诊断分析能力，帮助用户更方便地使用 StarRocks。

企业级数据湖分析场景支持

EMR Serverless StrarRocks 在数据湖分析场景的支持也非常完善。一方面支持数据湖查询加速，另一方面在传统数仓分层 ETL 的场景下，作为 ADS 层的 Olap 引擎，同时也支持 DWD 和 DWS 层的查询加速。

EMR Serverless StrarRocks 在企业级数据湖分析场景做到按需秒级弹性，0 负载 0 成本，提供全面的负载分析和诊断分析；通过内核优化实现了相比于开源 Trino3—5 倍的提升，支持 Trino 兼容以及一键迁移，另外在 Benchmark 测试下性能显著优于开源的 ClickHouse 和 Apache Doris；另外在查询加速方面，针对缓存管理也做了增强，企业级外表物化视图，可有效实现湖仓分层，企业级缓存管理模块，支持配置热表，热分区等淘汰策略，可根据业务场景平衡性能与成本。

企业级物化视图 ELT 场景支持

EMR Serverless StrarRocks 提供企业级物化视图ELT场景支持。当数据量没有那么大的时候，可以用 StarRocks 处理所有 Pipeline，极大地加速整个业务流程。EMR Serverless StrarRocks 通过大量算子 Spill 特性优化，提供企业级 MPP ETL 模式，确保了高稳定性，同时利用 VVP CTAS / CDAS 能力打造了全链路实时数仓；完善的 Data Sink Connector，支持多种湖格式，基于 DataLake 的 ELT 全链路，一站式读写和加工湖数据；此外，后续还会推出视图血缘功能，提供企业级物化视图血缘关系，可以更方便地构建实时数仓，还可以基于历史信息优化，推荐更完善、性能更好、更稳定的物化视图，帮助用户在 ELT 场景下更好地支撑业务。

存算分离&极致弹性

除了能够全面地支撑数据湖分析场景之外，EMR Serverless StrarRocks 还支持企业级的存算分离和极致弹性能力。

在存算分离架构下，基于底层的 OSS 数据湖存储在极大地降低存储成本的同时，还能够保证很高的数据可靠性；另外多 Data WareHouse 场景可以基于同一份物理数据创建两个 Virtual Data Warehouse，一个用于扫表，一个用于高维查询，两个Warehouse 有各自的缓存策略，对于业务隔离和 SLA 保障有非常好的提升；另外在性能上，依托于 EMR Serverless StrarRocks 企业级缓存能力，在缓存打开的时候性能和存算一体基本持平，当缓存不命中的情况下，查询性能也较为可控。

数据湖管理 DLF 重磅升级

统一元数据管理

首先在元数据管理方面，DLF 有 2.5 倍性能提升，单表支持 500 万分区；推出了全面兼容 HMS 功能，也就是 Hive MetaStore 的能力。

统一权限管理

中心化权限管理方面，全面兼容 Ranger 鉴权，全面支持访问审计，还支持对接 LDAP；全场景权限检查方面，支持 Hive/Spark 表鉴权，支持文件目录鉴权，另外还可以对接 EMR 全系列产品组件。

统一数据治理

在数据治理方面也做了很多工作。在生命周期管理方面，支持全面分析访问日志、访问时间，智能识别数据冷热，允许指定规则，智能执行冷热分层和归档，较好地节约成本；湖表格式加速方面也全面支持湖表格式加速，全面覆盖 Paimon、Delta、Hudi、 Iceberg 等常用湖格式。

在线平滑迁移

DLF 支持 HMS 迁移、支持 HDFS、S3 迁移、支持双跑校验比对；支持 HDFS 透明协议代理。实现在线平滑迁移，不影响在线应用，无需修改业务，在数据迁移过程中和迁移之后可以做双跑数据对比校验，没有数据损害。

数据湖存储 OSS-HDFS 全面升级

数据湖存储 OSS-HDFS 也做了全面升级，目前在线上已经有超过 1000 个客户，服务存储量超过100PB。

大幅提升性能

元数据访问性能提升了 2 倍以上，对于某些特定的操作，性能提升能够达到 10 倍。IO 访问支持智能预读，请求数减少 20%+，支持高效并发，CPU 使用降低 30%+。

多举措降低成本

全面支持 OSS 归档能力，新增支持冷归档和深冷归档，支持归档直读，无须回转；对于分层存储和归档数据也有完善管理，支持无限制目录级/分区级归档，支持目录 Access Time，高效识别数据冷热。

全方位数据保护

对 Kerberos 认证、Ranger 鉴权、审计日志、数据清单功能进行全面安全支持，另外还提供目录保护的能力，支持指定目录保护，避免误删，对于回收站的清理策略也支持更细粒度的管理。

全面开源生态兼容

全面兼容 HDFS，兼容 HDFS 接口、支持 HDFS 二进制协议兼容、支持 HDFS 命令；另外还支持 fsimage 导出。

最后，阿里云 EMR 团队也在规划全托管数据湖缓存加速，预计明年 4 月份会和大家见面，欢迎关注。

▼ 关注「Apache Spark 技术交流社区」，获取更多技术干货 ▼

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
#千锋逆战班郭燕学习的一天开启郭千岁呗
在千锋"逆战"学习云计算第17天加油努力会有好结果复习昨天知识中国加油！武汉加油！千峰加油!我自己加油！
阿里云服务器4核8G配置购买及价格类文章汇总（10篇）阿里云最新优惠和活动汇总
阿里云服务器4核8G配置如何购买？价格是多少？4核8G配置的阿里云服务器可以通过云服务器产品页购买也可以通过阿里云活动去下单购买，一般通过活动购买的用户比较多，但是不同实例规格的阿里云服务器价格不一样，带宽不同价格也不一样，本文为大家汇总了10篇关于阿里云服务器4核8G配置购买教程文章和价格类文章，分为购买类文章和价格类文章，以供大家参考如何购买阿里云服务器4核8G配置和最新优惠价格是多少。阿里云
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
信息系统安全相关概念(上) YuanDaima2048 课程笔记基础概念安全信息安全笔记
文章总览：YuanDaiMa2048博客文章总览下篇:信息系统安全相关概念(下)信息系统安全相关概念[上]信息系统概述信息系统信息系统架构信息系统发展趋势：信息系统日趋大型化、复杂化信息系统面临的安全威胁信息系统安全架构设计--以云计算为例信息系统安全需求及安全策略自主访问控制策略DAC强制访问控制策略MAC信息系统概述信息系统用于收集、存储和处理数据以及传递信息、知识和数字产品的一组集成组件。几
【2023年】云计算金砖牛刀小试6 geekgold 云计算服务器网络 kubernetes 容器
第一套【任务1】私有云服务搭建[10分]【题目1】基础环境配置[0.5分]使用提供的用户名密码，登录提供的OpenStack私有云平台，在当前租户下，使用CentOS7.9镜像，创建两台云主机，云主机类型使用4vCPU/12G/100G_50G类型。当前租户下默认存在一张网卡，自行创建第二张网卡并连接至controller和compute节点（第二张网卡的网段为10.10.X.0/24，X为工位号
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
阿里云国际 CDN 和低延迟全球云解决方案九河云阿里云网络服务器安全
延迟与隐藏程度成反比。C数据存在，并且连接已建立，但在接收客户端请求响应和显示用户请求的内容时存在明显延迟。将数据从源移动到目标时，会出现即时丢失。延迟是数据发送器和数据接收器之间的时间差。此外，当通过云响应用户查询时，这种延迟会被放大。有多种因素会导致满足用户请求的潜在延迟。想象一下，您在美国数据中心部署了服务，并且您的用户遍布全球。在此拓扑中，来自美国的用户将能够以正常（如果不是很好）的性能使
AIGC图生视频技术下的巴黎奥运高光时刻阿里云视频云 AIGC与媒体生产 AIGC
共享，奥运夺金时刻。巴黎奥运会的高光片段中国奥运的夺金时刻动漫风格下的别样风态以下AI动漫视频内容BY「阿里云视频云」智能生成从首金到21金镜头倒转尽情回顾······更多巴黎奥运高光时刻更多AIGC精彩内容可在「新华社官方」新媒体账号观看阿里云视频云用视频云+AI，持续助力奥运
raksmart洛杉矶云服务器全面解析 rak部落服务器 raksmart洛杉矶云服务器
RAKsmart洛杉矶云服务器是一种高性能的云计算解决方案，专为满足不同业务需求而设计。以下是对RAKsmart洛杉矶云服务器的具体介绍，rak小编为您整理发布raksmart洛杉矶云服务器全面解析。1.线路选择：RAKsmart洛杉矶云服务器提供多种网络线路选项，包括大陆优化线路和CN2ONLY线路。这些线路能够提供更稳定和快速的连接速度，特别适合需要高效数据传输和低延迟的业务环境。2.性能表现
阿里云服务器4核8G配置可选实例规格及最新优惠价格表（2023最新）阿里云最新优惠和活动汇总
阿里云4核8G服务器有十几种实例规格可选，其中计算型c7、通用算力型u1和计算优化型c7（国外地域）三种实例规格有优惠，其中计算型c7实例4核8G配置1M带宽优惠价格为3127.61元1年、5M带宽优惠价格为3862.01元1年；通用算力型u1实例4核8G配置1M带宽1367.86元1年、5M带宽优惠价格为1735.06元1年；计算优化型c7（国外地域）实例4核8G配置1M带宽5907.19元1年
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
Docker学习十一：Kubernetes概述爱打羽球的程序猿 Docker学习系列 docker kubernetes 学习
一、Kubernetes简介2006年，Google提出了云计算的概念，当时的云计算领域还是以虚拟机为代表的云平台。2013年，Docker横空出世，Docker提出了镜像、仓库等核心概念，规范了服务的交付标准，使得复杂服务的落地变得更加简单，之后Docker又定义了OCI标准，Docker在容器领域称为事实的标准。但是，Docker诞生只是帮助定义了开发和交付标准，如果想要在生产环境中大批量的使
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
Python国内常用镜像源和使用方法 wfqlt163 Python 基础操作 python 开发语言
常用的镜像源：1、企业镜像：豆瓣https://pypi.doubanio.com/simple/网易https://mirrors.163.com/pypi/simple/阿里云https://mirrors.aliyun.com/pypi/simple/腾讯云https://mirrors.cloud.tencent.com/pypi/simple2、高校镜像：清华大学（推荐）：https:/
为用户都喜欢购买阿里云服务器？阿里云服务器有何优势？阿里云最新优惠和活动汇总
随着企业数字化转型的加速和云计算技术的日益成熟，云服务器已成为企业搭建应用、存储和处理数据的重要基础设施。在众多云服务提供商中，阿里云以其卓越的性能、丰富的产品线、出色的技术支持和强大的生态系统，赢得了众多用户的青睐。那么，阿里云服务器到底有哪些优势？为何如此多的用户选择使用阿里云服务器呢？阿里云服务器优势图.jpg阿里云服务器的优势一、技术领先，性能卓越阿里云作为国内最早涉足云计算领域的企业之一
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb