阿里云云栖号

作业帮基于 DeltaLake 的数据湖建设最佳实践

简介：作业帮是一家以科技为载体的在线教育公司，其大数据中台作为基础系统中台，主要负责建设公司级数仓，向各个产品线提供面向业务主题的数据信息。本文主要分享了作业帮基于 DeltaLake 的数据湖建设最佳实践。

作者：

刘晋作业帮-大数据平台技术部负责人

王滨作业帮-大数据平台技术部高级架构师

毕岩阿里云-计算平台开源大数据平台技术专家

内容框架：

业务背景
问题&痛点
解决方案
基于 DeltaLake 的离线数仓
未来规划
致谢

一、业务背景

作业帮是一家以科技为载体的在线教育公司。目前旗下拥有工具类产品作业帮、作业帮口算，K12直播课产品作业帮直播课，素质教育产品小鹿编程、小鹿写字、小鹿美术等，以及喵喵机等智能学习硬件。作业帮教研中台、教学中台、辅导运营中台、大数据中台等数个业务系统，持续赋能更多素质教育产品，不断为用户带来更好的学习和使用体验。其中大数据中台作为基础系统中台，主要负责建设公司级数仓，向各个产品线提供面向业务主题的数据信息，如留存率、到课率、活跃人数等，提高运营决策效率和质量。

上图为作业帮数据中台总览。主要分为三层：

第一层是 数据产品以及赋能层

主要是基于主题数据域构建的数据工具以及产品，支撑商业智能、趋势分析等应用场景。

第二层是 全域数据层

通过OneModel统一建模，我们对接入的数据进行了标准化建模，针对不同时效性的场景构建了业务域的主题数据，提高上层产品的使用效率和质量。

第三层是 数据开发层

构建了一系列的系统和平台来支持公司内所有的数据开发工程，包括数据集成、任务开发、数据质量、数据服务、数据治理等。

本次分享的内容主要是面向离线数仓（天级、小时级）解决其生产、使用过程中的性能问题。

二、问题&痛点

作业帮离线数仓基于 Hive 提供从 ODS 层到 ADS 层的数据构建能力，当 ADS 表生成后，会通过数据集成写入 OLAP 系统面向管理人员提供 BI 服务；此外，DWD、DWS、ADS 表，也会面向分析师提供线下的数据探查以及取数服务。

随着业务逐步发展以及对应的数据量越来越多，离线数仓系统突显如下主要问题：

ADS 表产出延迟越来越长

由于数据量增多，从 ODS 层到 ADS 层的全链路构建时间越来越长。虽然对于非常核心的 ADS 表链路可以通过倾斜资源的模式来短期解决，但是其实这个本质上就是丢车保帅的模式，该模式无法规模化复制，影响了其他重要的 ADS 表的及时产出，如对于分析师来说，由于数据表的延迟，对于T+1的表最差需等到T+2才可以看到。

小时级表需求难以承接

有些场景是小时级产出的表，如部分活动需要小时级反馈来及时调整运营策略。对于这类场景，随着数据量增多、计算集群的资源紧张，小时级表很多时候难以保障及时性，而为了提高计算性能，往往需要提前预备足够的资源来做，尤其是需要小时级计算天级数据的时候，最差情况下计算资源需要扩大24倍。

数据探查慢、取数稳定性差

数据产出后很多时候是面向分析师使用的，直接访问 Hive 则需要几十分钟甚至小时级，完全不能接受，经常会收到用户的吐槽反馈，而采用 Presto 来加速 Hive 表的查询，由于 Presto 的架构特点，导致查询的数据表不能太大、逻辑不能太复杂，否则会导致 Presto 内存 OOM，且 Hive 已有的 UDF 和 VIEW 等在 Presto 中也没法直接使用，这也非常限制分析师的使用场景。

三、解决方案

问题分析

不论是常规的 ODS 层到 ADS 层全链路产出慢、或者是面对具体表的探查取数慢，本质上都是在说 Hive 层的计算性能不足。从上述场景分析来看：

**链路计算慢的原因：**由于 Hive 不支持增量更新，而来自业务层数据源的 Mysql-Binlog 则包含大量的更新信息，因此在 ODS 这一层，就需要用增量数据和历史的全量数据做去重后形成新的全量数据，其后 DWD、DWS、ADS 均是类似的原理。这个过程带来了数据的大量重复计算，同时也带来了数据产出的延迟。
**数据查询慢的原因：**由于 Hive 本身缺少必要的索引数据，因此不论是重吞吐的计算还是希望保障分钟级延迟的查询，均会翻译为 MR-Job 进行计算，这就导致在数据快速探查场景下，查询结果产出变慢。

方案调研

从上面分析来看，如果可以解决离线数仓的数据增量更新问题就可以提高链路计算的性能，而对于数据表支持索引能力，就可以在保障查询功能不降级的前提下降低查询的延迟。

基于 HBase+ORC 的解决方案

解决数据的更新问题，可以采用 HBase 来做。对 RowKey 设置为主键，对各列设置为 Column，这样就可以提供数据实时写入的能力。但是受限于 HBase 的架构，对于非主键列的查询性能则非常差。为了解决其查询性能，需要定期（如小时表则小时级、天级表则天级）将 HBase 的表按照特定字段排序后导出到 HDFS 并存储为 ORC 格式，但是 ORC 格式只支持单列的 min、max 索引，查询性能依然无法满足需求，且由于 HBase 的数据写入一直在持续发生，导出的时机难以控制，在导出过程中数据还可能发生变化，如我们希望导出12月11日21点前的数据作为数据表21点分区的数据就需要考虑版本数、存储容量、筛选带来的计算性能等因素，系统复杂度陡增，同时也引入了 HBase 系统增加了运维成本。

数据湖

数据湖实际上是一种数据格式，可以集成在主流的计算引擎（如 Flink/Spark）和数据存储(如对象存储)中间，不引入额外的服务，同时支持实时 Upsert，提供了多版本支持，可以读取任意版本的数据。

目前数据湖方案主要有 DeltaLake、Iceberg、Hudi。我们调研了阿里云上这三种方案，其区别和特点如下：

此外，考虑到易用性（DeltaLake 语义清晰，阿里云提供全功能 SQL 语法支持，使用简单；后两者的使用门槛较高）、功能性（仅 DeltaLake 支持 Zorder/Dataskipping 查询加速）等方面，结合我们的场景综合考虑，我们最后选择 DeltaLake 作为数据湖解决方案。

四、基于 DeltaLake 的离线数仓

引入 DeltaLake 后，我们的离线数仓架构如下：

首先 Binlog 通过 Canal 采集后经过我们自研的数据分发系统写入 Kafka，这里需要提前说明的是，我们的分发系统需要对 Binlog 按照 Table 级严格保序，原因下面详述。其后使用 Spark 将数据分批写入 DeltaLake。最后我们升级了数据取数平台，使用 Spark SQL 从 DeltaLake 中进行取数。

在使用 DeltaLake 的过程中，我们需要解决如下关键技术点：

流数据转批

业务场景下，对于离线数仓的 ETL 任务，均是按照数据表分区就绪来触发的，如2021-12-31日的任务会依赖2021-12-30日的数据表分区就绪后方可触发运行。这个场景在 Hive 的系统上是很容易支持的，因为 Hive 天然支持按照日期字段（如dt）进行分区。但是对于 DeltaLake 来说，我们数据写入是流式写入的，因此就需要将流数据转为批数据，即某天数据完全就绪后，方可对外提供对应天级分区的读取能力。

如何界定数据完全就绪

流式数据一般会有乱序的情况，在乱序的情况下，即使采用 watermark 的机制，也只能保障一定时间范围内的数据有序，而对于离线数仓来说，数据需要100%可靠不丢。而如果我们可以解决数据源的有序性问题，那么数据就绪问题的解决就会简化很多：假如数据按照天级分区，那么当出现12-31的数据时，就可以认为12-30的数据都就绪了。

因此，我们的方案拆解为两个子问题：

流数据有序后界定批数据边界
保障流数据有序的机制

首先对于前者，总体方案如下：

设定数据表的逻辑分区字段 dt 以及对应的时间单位信息。

当 Spark 读取某一个 batch 数据后，根据上述表元数据使用数据中的 event time 生成对应的 dt 值，如数据流中 event time 的值均属于T+1，则会触发生成数据版本T的 snapshot，数据读取时根据 snapshot 找到对应的数据版本信息进行读取。

如何解决流数据的乱序问题

不论是 app-log 还是 MySQL-Binlog，对于日志本身都是有序的，以 MySQL-Binlog 举例，单个物理表的 Binlog 必然有序，但是实际业务场景下，业务系统会经常进行分库分表的使用，对于使用分表的场景，一张逻辑表 Table 会分为 Table1、Table2、……几张表，对于离线数仓的 ODS 表，则需要屏蔽掉业务侧 MySQL 分表的细节和逻辑，这样，问题就聚焦为如何解决分表场景下数据有序的问题。

保障分库分表，甚至不同分表在不同集群的情况下，数据写入到 Kafka 后的有序性。即写入 DeltaLake 的 Spark 从某个 topic 读取到逻辑表的数据是 partition 粒度有序的。
保障 ODS 表就绪的时效性，如区分无 Binlog 数据的情况下，ODS 层数据也可以按期就绪。

此处需要对原有系统进行升级改造，方案如下：

如上图所示：某个 MySQL 集群的 Binlog 经 Canal 采集后写入到特定的 Kafka-topic，但是由于写入时按照db和 Table（去分表_*后缀）做 hash 确定 partition，因此单个 partition 内部会存在多个物理表的 Binlog，对于写入 DeltaLake 来说非常不友好。考虑到对其他数据应用方的兼容性，我们新增了数据分发服务：

将逻辑表名（去分表_*后缀）的数据写入到对应的 topic，并使用物理表名进行 hash。保障单 partition 内部数据始终有序，单 topic 内仅包括一张逻辑表的数据。
在 MySQL 集群内构建了内部的心跳表，来做 Canal 采集的延迟异常监控，并基于此功能设置一定的阈值来判断当系统没有 Binlog 数据时是系统出问题了还是真的没数据了。如果是后者，也会触发 DeltaLake 进行 savepoint，进而及时触发 snapshot来保障 ODS 表的及时就绪。

通过上述方案，我们将 Binlog 数据流式的写入 DeltaLake 中，且表分区就绪时间延迟<10mins。

读写性能优化

下面讲下我们在使用 DeltaLake 过程中遇到的性能问题以及对应的解法。

通过 DPP 提高写性能

DeltaLake 支持通过 SparkStreamingSQL 的方式来写入数据。

因为要做记录的合并去重，因此这里需要通过 merge into 的方式写入。DeltaLake 更新数据时分为两步：

定位到要更新的文件，默认情况下需要读取全部的文件和 Spark 内 batch 的增量数据做 Join，关联出需要更新的文件来。
Merge 后重新写入这些文件，把老的文件标记为删除。

如上左图所示，由于 DeltaLake 默认会读取上个版本的全量文件，因此导致写入性能极低，一次合并操作无法在 Spark一个 batch 内完成。

针对这种场景，对 DeltaLake 做了升级：使用 DPP 做分区剪枝来优化 Megre into 的性能，如上右图所示：

分析 Merge-on 条件，得到 source 表中对应到 DeltaLake 表分区字段的字段。
统计得到分区字段的枚举列表。
将上步结果转化成 Filter 对象并应用，进一步过滤裁剪数据文件列表。
读取最终的数据文件列表和 batch 的 source 数据关联得到最终需更新的文件列表。

通过 DPP 优化后，Spark 一个 batch（5min粒度）的处理延迟由**最大20mins+ 减少到最大~3mins，**完全消除了过去因为处理时间过长导致延迟不断叠加的问题。

使用 Zorder 提高读性能

在解决了数据的写入性能后，我们又遇到了数据读取性能的问题。

我们使用同样的数据（200亿+），使用 Hive 计算，平均延迟10min+，而使用 DeltaLake 后，平均延迟居然高达~11mins+。分析后发现主要是没有对筛选列使用 Zorder 排序，当开启 Zorder 后，延迟则降低到了~24s， 提高了近25X性能。

基于 Zorder 对 DeltaLake 表进行查询优化，主要会涉及两个方面的提升：

Dataskipping
DeltaLake 会按照文件粒度统计各个字段的 max/min 值，用于直接过滤数据文件。
Zorder
一种数据 layout 的方式，可以对数据重排列尽可能保证 Zorder 字段的数据局部性。

Zorder 构建耗时优化

对哪些列开启 Zorder 是按需构建的，常规情况构建时长~30mins，数据倾斜下，构建Zorder 时长高达~90mins。

针对这两种情况，对 Zorder 进行了优化：

常规情况下，对于多列的 Zorder，由多次遍历数据集改为遍历一次数据集来提升构建效率。构建时长 从平均~30mins降低到~20mins。
数据倾斜下，对于倾斜列所在的 bucket 做了热点分散，构建时长 从平均~90mins降低到~30mins。

总体效果

经过了近半年多的开发和优化，近期基于 DeltaLake 的离线数仓已经上线，重点是提升分析的查询优化，同时针对有小时全量需求的场景，也同样提供了支持，整体看的效果如下：

就绪时间更快：ODS 替换到 DeltaLake 后，产出时间从之前凌晨2:00 - 3:00 提前到凌晨00:10左右，产出时间 提前了2个多小时。
能力扩展更广：大数据具备了支持小时全量表的能力，利用 DeltaLake 增量更新的特性，低成本的实现了小时全量的需求，避免了传统方案下读取全量数据的消耗。目前已经应用到了部分核心业务中来，构建小时级全量表，同时时效性上保障 从过去的~40mins降低到~10mins。
查询速度提升：我们重点提升的分析师的即席查询效率，通过将分析师常用的数仓表迁移到 Deltalake 之后，利用 Zorder 实现了查询加速，查询速度从过去的 数十分钟降低到~3mins。

五、未来规划

随着 DeltaLake 在作业帮的使用，当前还有一些问题有待解决：

提高修数效能。
使用 Hive 时我们可以方便的针对某个历史分区独立修复，但是 DeltaLake 表修数时需要通过回退故障版本后的所有版本。
完全支持 Hive 引擎。
目前我们使用 DeltaLake，主要解决了过去使用 Hive 查询慢、使用 Presto 限制复杂查询的问题，在复杂查询、低延迟上提供了解决方案，但前面提到的 GSCD、Dataskipping 等特性 Hive 还不支持，导致用户无法像使用 Hive 一样使用 DeltaLake。
支持 Flink 接入。
我们流计算系统生态主要围绕 Flink 构建，引入 DeltaLake 后，也同时使用 Spark，会导致我们的流计算生态维护成本加重。

六、致谢

最后，非常感谢阿里云 EMR 数据湖团队，凭借他们在 DeltaLake 中的专业能力和合作过程中的高效支持，在我们这次数据湖迁移过程中，帮助我们解决了很多关键性问题。

原文链接

本文为阿里云原创内容，未经允许不得转载。

iOS 网络请求： Alamofire 结合 ObjectMapper 实现自动解析胖虎1 开发经验分享 ios Alamofire ObjectMapper 网络请求自动解析数据自动解析模型
引言在iOS开发中，网络请求是常见且致其重要的功能之一。从获取资料到上传数据，出色的网络请求框架能夠大大提升开发效率。Alamofire是一个极具人气的Swift网络请求框架，提供了便据的API以完成网络请求和响应处理。它支持多种请求类型，如GET和POST，并且给予您便据的带容处理过滤器和返回数据解析的功能。ObjectMapper是一个强大的Swift数据映射工具，使用其提供的Mappable
Mybatis总结（一）（简单介绍） weixin_34326429 java 数据库
1.1MyBatis介绍MyBatis本是apache的一个开源项目iBatis,2010年这个项目由apachesoftwarefoundation迁移到了googlecode，并且改名为MyBatis，实质上Mybatis对ibatis进行一些改进。MyBatis是一个优秀的持久层框架，它对jdbc的操作数据库的过程进行封装，使开发者只需要关注SQL本身，而不需要花费精力去处理例如注册驱动、创
服务化架构 IM 系统之红包功能设计与实现棕生 IM系统服务化架构 IM系统服务化架构红包逻辑发红包抢红包拆红包
在IM系统中，“红包”是一种很常见的应用。在前面的文章（见《基于需求分析模型来结构化剖析IM系统》）中，我们曾分析过，“红包”属于扩展功能需求，“消息”属于基础功能需求，红包功能的实现需要基于消息功能的实现。在文章（见《分层架构IM系统之消息收发功能设计与实现》）中，我们深入分析过消息的收发流程；在IM的服务化架构中，消息收发逻辑与在分层架构中类似，见下图，我们快速回顾一下。图中箭头表示数据流向。
分层架构 IM 系统之架构演进棕生 IM系统分层架构 IM系统分层架构业务分离 MQ解耦
在电商业务日活几百万的情况下，IM系统采用分层架构方式，如下图。分层架构的IM系统，整体上包含了【终端层】、【入口层】、【业务逻辑层】、【路由层】、【数据访问层】和【存储层】，我们在上篇文章（分层架构IM系统之架构解读）中进行了介绍。今天讨论局部的架构调整和演进！随着用户日活量的增多，业务规模也在逐步增大（即后端接口数量越来越大），而且业务逻辑也越来越复杂；为了引流，平台几乎每周都会做运营活动，此
基于hadoop的协同过滤算法电影推荐系统的设计与实现 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
基于hadoop的协同过滤算法电影推荐系统的设计与实现文章目录基于hadoop的协同过滤算法电影推荐系统的设计与实现1.背景介绍1.1电影推荐系统的重要性1.2传统推荐系统的缺陷1.3Hadoop在大数据处理中的作用2.核心概念与联系2.1协同过滤算法2.2基于用户的协同过滤2.3基于项目的协同过滤2.4Hadoop在协同过滤算法中的应用3.核心算法原理具体操作步骤3.1基于用户的协同过滤算法流程
mybatis架构原理章绍龙 java基础
1、mybatis配置SqlMapConfig.xml，此文件作为mybatis的全局配置文件，配置了mybatis的运行环境等信息。mapper.xml文件即sql映射文件，文件中配置了操作数据库的sql语句。此文件需要在SqlMapConfig.xml中加载。SqlMapConfig.xml是mybatis的核心文件。mybatis将dao层与sql语句分离开来，虽然写的时候分离开来了，但是执
动手写分布式缓存 11 qq_50996930 Go语言学习专栏分布式缓存
main函数实现定义一个map模拟数据库。varmysql=map[string]string{"Tom":"630","Jack":"589","Sam":"567",}为多个端口处创建rpc服务服务名就是ip+端口。将各个服务器的ip+端口加到每个服务器的哈希环里。为每个服务器创建缓存池组。缓存池组和rpc服务绑定。持续监听端口addrs:=[]string{"localhost:9999",
青少年编程与数学 02-007 PostgreSQL数据库应用 12课题、存储过程编写明月看潮生编程与数学第02阶段数据库青少年编程 postgresql 编程与数学
青少年编程与数学02-007PostgreSQL数据库应用12课题、存储过程编写一、存储过程二、分类三、创建四、调用五、修改六、删除七、应用示例八、内置存储过程课题摘要:本课题详细介绍了PostgreSQL中存储过程的编写和操作。存储过程是一系列SQL语句的集合，可作为单元保存在数据库中，用于执行数据查询、更新、插入和删除等操作。它们具有封装性、提高性能、增强安全性、事务管理、参数化和返回结果等特
Java 驱动大数据流处理：Storm 与 Flink 入门（大数据）用心去追梦大数据 java storm
Java是一种广泛使用的编程语言，特别适用于企业级应用开发。随着数据量的不断增长，处理大数据流成为了现代软件开发中的一个重要领域。ApacheStorm和ApacheFlink是两个用于处理大规模数据流的开源框架，它们都支持用Java编写的应用程序。下面将简要介绍这两个框架，并提供一些入门指导。ApacheStormApacheStorm是一个免费、开源的分布式实时计算系统。Storm让用户能够轻
实现音乐播放器实现:前端HTML，CSS，JavaScript综合大项目（java实战）用心去追梦前端 html css
创建一个音乐播放器项目，使用HTML、CSS和JavaScript作为前端技术栈，并结合Java后端（如果需要），可以是一个很好的实战项目。这个项目不仅能够帮助你掌握前端开发技能，还能让你了解如何与后端交互来获取数据。下面是实现这样一个音乐播放器项目的步骤指南，包括了从规划到部署的各个方面。1.项目规划规划功能基本功能播放/暂停按钮。音量控制。进度条。歌曲列表显示。高级功能随机播放。列表循环。搜索
【人工智能 | 大数据】基于人工智能的大数据分析方法用心去追梦人工智能大数据数据分析
基于人工智能（AI）的大数据分析方法是指利用机器学习、深度学习和其他AI技术来分析和处理大规模数据集。这些方法能够自动识别模式、提取有用信息，并做出预测或决策，从而帮助企业和组织更好地理解市场趋势、客户行为以及其他关键因素。以下是几种主要的基于AI的大数据分析方法：机器学习模型：通过训练算法让计算机从历史数据中学习并做出预测或分类。常见的机器学习技术包括监督学习（如回归分析、支持向量机）、非监督学
hive电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 毕业设计大数据毕设计算机毕业设计 hive spring boot 爬虫
hive电影数据分析Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示+[手把手视频教程和开发文档]【功能介绍】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.MR数据清洗data.csv4.Hive汇总处理,将Hive处理的结果数据保存到本地Mysql数据库中5.Springboot+Vu
hadoop电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 计算机毕业设计毕业设计大数据毕设 hadoop spring boot 爬虫
全套视频教程全套开发文档hadoop电影数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示【Hadoop项目】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.data.csv数据清洗4.MR数据汇总处理,将Reduce的结果数据保存到本地Mysql数据库中5.Springboot
spark电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 毕业设计大数据毕设计算机毕业设计 spark spring boot 爬虫大数据电影推荐电影分析
spark电影数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示+[手把手视频教程和开发文档【功能介绍】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.MR数据清洗data.csv4.Spark汇总处理,将Spark处理的结果数据保存到本地Mysql数据库中5.Springboo
hadoop图书数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫1万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 毕业设计大数据毕设图书数据分析 hadoop spring boot 爬虫
hadoop图书数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫1万+数据大屏数据展示+[手把手视频教程和开发文档]【亮点功能】1.Springboot+Vue+Element-UI+Mysql前后端分离2.Echarts图表统计数据,直观展示数据情况3.发表评论后，用户可以回复评论,回复的评论可以被再次回复,一级评论可以添加图片附件4.爬虫图书数据1万+5.推荐图书列表展示,推荐图
数据结构之链表（linked list）代码实现(小白轻松懂，C语言版) Morandi_Chen 数据结构链表 c语言
一、前言：链表的简单介绍链表（LinkedList）是一种重要的线性数据结构，它以节点（Node）的形式存储数据，每个节点通过指针（或引用）指向下一个节点，从而形成一个动态的数据链条。与数组不同，链表的内存分配并不连续，因此具有更灵活的插入和删除操作，但在随机访问元素时效率相对较低。链表通常分为单向链表（SinglyLinkedList）、双向链表（DoublyLinkedList）和循环链表（C
Python爬虫工具BeautifulSoup使用详解闲人陈二狗 python 爬虫 beautifulsoup
目录一、模块简介二、方法利用1、安装beautifulsoup2、引入模块3、选择解析器解析指定内容三、具体利用1、获取拥有指定属性的标签2、获取标签的属性值3、获取标签中的内容4、stripped_strings四、输出1、格式化输出prettify()2、get_text()一、模块简介BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换
SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比不二人生 #数据集成工具 SeaTunnel
文章目录SeaTunnel与DataX、Sqoop、Flume、FlinkCDC对比同类产品横向对比2.1、高可用、健壮的容错机制2.2、部署难度和运行模式2.3、支持的数据源丰富度2.4、内存资源占用2.5、数据库连接占用2.6、自动建表2.7、整库同步2.8、断点续传2.9、多引擎支持2.10、数据转换算子2.11、性能2.12、离线同步2.13、增量同步&实时同步2.14、CDC同步2.15
数据结构学习记录-队列墨楠。 #C 语言数据结构研习汇数据结构学习
队列的基本概念1、队列是操作受限的线性表2、队头：允许删除的一端3、队尾：允许插入的一端4、空队列：不含任何元素的空表5、特点：先进先出、FIFO6、应用场景：栈：解决括号匹配；逆波兰表达式求解;递归改非递归等等队列：公平排队，广度优先遍历等等队列的结构：队列的具体实现结构比较灵活，只要遵循先进先出原则即可。顺序表的方式实现，如果用数组表示，虽然尾插数据比较方便，但当头删数据时，还要移动剩余元素，
深度学习中超参数 fengbingchun Deep Learning hyperparameter
深度学习中的超参数(hyperparameters)是决定网络结构的变量(例如隐藏层数量)和决定网络训练方式的变量(例如学习率)。超参数的选择会显著影响训练模型所需的时间，也会影响模型的性能。超参数是在训练开始之前设置的，而不是从数据中学习的参数。超参数是模型训练期间无法学习的参数，需要事先设置。在深度学习中，模型由模型参数(如神经网络的权重和偏置)定义或表示。然而，训练模型的过程涉及选择最佳超参
使用宝塔面板以jar包方式部署SpringBoot个人博客（以IP+端口号访问） emmastone 部署 spring boot ssh centos 服务器
使用宝塔面板以jar包方式部署SpringBoot个人博客购买阿里云服务器ECS在服务器端创建数据库修改SpringBoot项目的配置文件上传jar包和配置文件到服务器同一个目录下放行相关端口号首先需要在阿里云的控制台放行相关端口号然后在宝塔面板的安全放行相关端口号购买阿里云服务器ECS购买ECS服务器时，选择附带宝塔面板的，会默认安装好LAMP（Apache+Mysql+php），只需在安装to
android-Presentation双屏异显勘察加熊人 android
最近碰到一个智能硬件，有两块屏幕，主屏幕和小屏幕，主界面执行各种操作流程，然后小屏幕展示数据，然后做一下数据交互主要技术是Presentation+eventbusstep1:清单文件注册权限step2:首页主界面packagecom.example.user.mathgame;importandroid.os.Bundle;importandroid.support.v4.app.Fragmen
什么是ShardingSphere的关联表？ java1234_小锋 java ShardingSphere
大家好，我是锋哥。今天分享关于【什么是ShardingSphere的关联表？】面试题。希望对大家有帮助；什么是ShardingSphere的关联表？1000道互联网大厂Java工程师精选面试题-Java资源分享网在ShardingSphere中，关联表（也叫做跨库跨表查询）是指多个表之间通过关联查询而涉及到的表。当你在进行数据库分片时，可能会遇到多个表需要通过外键、联合查询等方式进行连接的情况。S
MySQL有哪些高可用方案? java1234_小锋 mysql mysql 数据库
大家好，我是锋哥。今天分享关于【RMySQL有哪些高可用方案?】面试题。希望对大家有帮助；MySQL有哪些高可用方案?1000道互联网大厂Java工程师精选面试题-Java资源分享网MySQL的高可用方案可以帮助确保数据库在发生故障时仍能持续提供服务，避免单点故障带来的影响。以下是一些常见的MySQL高可用方案：1.主从复制（Master-SlaveReplication）概述：主从复制是最常见的
Python自动化|几秒提取成千上百个Excel指定数据,你学废了吗？ Python子木_ Python学习 Python入门 python 大数据 python入门 python学习 python基础 python教程 python教学
在数据密集的工作环境中,我们经常需要从多个Excel文件中提取指定的数据.这种重复性的工作不仅枯燥,还非常耗时.今天,我将分享如何使用Python实现从成千上万个Excel文件中自动提取数据的方法,让你几秒钟完成5000分钟的工作,彻底告别枯燥重复工作.这里插播一条粉丝福利，如果你正在学习Python或者有计划学习Python，想要突破自我，对未来十分迷茫的，可以点击这里获取最新的Python学习
盘点原生JavaScript中直接触发事件的方式 javascript
JavaScript提供了多种方式来直接触发事件，无论是在用户交互、程序逻辑处理或是数据更新时。本文将全面探讨原生JavaScript中各种事件触发方式，并通过深入的技术案例分析，帮助开发者掌握这些方法在实际开发中的应用。使用dispatchEvent原生JavaScript中触发事件的核心方法是dispatchEvent。这个方法允许开发者为任何DOM元素触发几乎任何类型的事件，包括但不限于点击
deepin-grep详解：文本搜索的强大工具 deepin
在Linux系统中，grep命令是一个极其强大的文本搜索工具，广泛应用于文本处理、日志分析和数据筛选等场景。它的全称是“GlobalsearchREgularexpressionandPrintouttheline”，即全局搜索正则表达式并打印匹配的行。本文将详细介绍grep命令的基本用法、常用选项以及正则表达式的使用技巧。1.grep命令的基本功能grep命令的主要作用是从文本文件或管道数据流中
Python增强办公效率的11个实用代码段，零基础入门到精通，收藏这一篇就够了 Python_chichi 互联网程序员网络安全 python java 大数据
引言在日常工作中，许多任务可以通过编程自动化来提高效率。本文将介绍一些实用的Python脚本，用于批量创建文件夹、重命名文件、处理Excel数据、合并PDF文件等。这些工具能显著减少重复性工作，提升工作效率。1.快速生成批量文件夹工作中经常需要创建多个文件夹来分类存储不同类型的文件。手动创建不仅耗时还容易出错。利用Python可以快速生成批量文件夹。importosdefcreate_folder
大数据组件之Azkaban简介努力的小星星大数据 linux 运维数据结构
一、Azkaban介绍1.1背景一个完整的大数据分析系统，必然由很多任务单元(如数据收集、数据清洗、数据存储、数据分析等)组成，所有的任务单元及其之间的依赖关系组成了复杂的工作流。复杂的工作流管理涉及到很多问题：如何定时调度某个任务？如何在某个任务执行完成后再去执行另一个任务？如何在任务失败时候发出预警？......面对这些问题，工作流调度系统应运而生。Azkaban就是其中之一。1.2功能Azk
分析-MQ消息队列中间件-在IM即时通讯系统的用途酱油瓶啤酒杯中间件分布式队列 kafka
MQ消息队列在IM即时通讯的用途1）用户聊天消息的离线存储环节：因为IM消息的发送属于高吞吐场景，直接操作DB可能会让DB崩溃，所有离线消息在落地入库前，可以先扔到MQ消息队列中，再由单独部署的消费者来有节奏地存储到DB中；２)用户的行为数据收集环节：因为用户的聊天消息和指令等，可以用于大数据分析，而且基于国家监管要求也是必须要存储一段时间的，所以此类数据的收集同样可以用于MQ消息队列，再由单独部
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的