DolphinScheduler社区

插件扩充，血缘耦合系统，生产环境优化，提高Apache DolphinScheduler易用性的应用改造...

Apache DolphineScheduler作为新一代的大数据任务调度系统，是为了让调度变得更加容易。为了更好的满足用户使用平台，Apache DolphineScheduler Contributor 张柏强针对一些现有的易用性及优化问题，比如任务扩展、任务血缘耦合、任务日志优化等，提供了一些解决方案，并在 Apache DolphineScheduler 4月线上Meetup上，以题为《Apache DolphinScheduler的应用实践》的演讲，详细讲解了其针对Apache DolphinScheduler的一些应用实践和优化。

分享主要内容如下：

基于Apache DolphinScheduler的二次改造
Apache DolphinScheduler的插件扩充分享
Apache DolphinScheduler耦合血缘系统
Apache DolphinScheduler的生产基本优化

张柏强大数据基础平台开发

从事大数据基础平台开发以及底层组件运维

基于Apache DolphinScheduler的二次改造

元数据和任务多环境执行改造

不论3.x版本还是之前2.x版本，目前Apache DolphinScheduler在元数据和任务多环境执行是存在短板的，而且目前社区并没有做这些功能点，短板内容为：

1. 任务上线无法编辑

2. 任务无法动态切换Pro/Test环境

3. 同一个ProcessWorkflow无法设置多个调度

1.1

元数据分离改造

针对元数据和任务多环境执行的问题，我们对Apache DolphinScheduler进行了一个基本的改造。

首先是任务上线后无法编辑会导致用户使用体验不够友好，其根本也是因为如果随便更改的话可能会影响到线上的调度。通常任务彻底开发完成之后，才能修改任务，如果任务没有开发完成，那任务就无法上线，因为可能就会影响到下游的依赖。所以我们对Apache DolphinScheduler的元数据进行了改造，把用户编辑的任务和调度的任务拆分为不同的两部分，当用户点击任务发布，则触发调度依赖的任务信息表修改，而用户本地执行和修改都不会去触发调度依赖的任务信息表。

如上图，当用户点击执行任务以及修改任务时，操作都是针对于 Dev的元数据。当用户点击发布任务，通过Dev发布到Apache DolphinScheduler，即调度的元数据，那执行的就是调度的元数据。这可以帮助我们解决任务上线后无法编辑的问题。在不发布任务的情况下，我们的任务不会影响到线上的任务。这相当于进行了任务的多态化改造，即测试化和生产化。

1.2

多环境执行改造

针对第二个问题的改造：任务动态切换环境。基于最新版本的Apache DolphinScheduler 2.x.x版本支持多环境的基础，我们给出了一个部署配置 scheduler.executor.environment.name。该参数的作用是当任务通多调度执行时应该使用哪个环境。例如调度a时使用测试环境，调度b时使用生产环境，通过参数配置自动化做任务执行的改造。

任务信息清单增加

为了增强UI页面的可用性，我们特意增加了任务清单功能，以减少用户的操作量，支持一页多信息。在原生Apache DolphinScheduler中，我们每次查找任务执行记录需要再次点击or多次点击，同时一些任务的明细信息也不是很全面，包括任务最近执行状态等。同时，我们也改造了任务上下线的模块，单独进行任务展示，页面内容包括与版本挂钩的任务版本、任务历程、最近10次的执行实例、任务名称以及编辑任务流、任务版本管理、定时管理和任务下载等。最新UI页面如下图所示:

项目文件夹功能扩充和工作流UI改造

在原生Apache DolphinScheduler中，当创建了一个调度之后是无法创建第二个调度的。目前，我们将UI进行了改造，支持调度任务支持多个调度设置。

详细来说，Apache DolphinScheduler提供了以project为基础的最大单位，每个project里会包含数百上千的workflow单位，workflow下是task。虽然其本身包含了分页的功能，但是从使用场景来说，如果一个project中包含的workflow过多，会导致用户不知道任务下有哪些task，无法根据当前项目的业务线去划分任务。为了用户更方便地操作，我们提供一个业务线文件夹的单位，单位划分为 project -> workflow dir -> dir，同时针对Workflow定义UI的界面样式进行了改造，如下图所示:

Apache DolphinScheduler的插件扩充构建

我们目前做了很多种类型的task，但常用的有三种，分别是Spark/Hive ClientSQL Task、DQC Task和SSH Task。

Spark/Hive ClientSQL Task

Apache DolphinScheduler提供的开箱即用的task中只提供了通过jdbc的方式执行sql任务的形式，但对于某些数仓场景，这些任务类型明显是不满足需求的，于是我们提供了基于模板配置的hive/spark sql task。可能有人选择通过shell执行任务，但这可能对其他系统造成影响，因此我们做成了模板化。该模板支持多SQL，包含高级参数，也就是把Spark所有的参数以及Hive所有的参数做了一个列表供用户搜索和配置，其他功能则和原生功能保持一致。这些改造最重要的作用是能够让用户快速开发离线任务，同时将当前的task绑定血缘系统，在任务执行时能够包含完整的可追溯血缘。

DQC Task

DQC Task在当前已经release的2.x版本中还没有得到支持，我们基于已有的一套规则完善了第一版本的DQC task，提供了空值检查、最大值检查、最小值检查、重复数据检查以及数据量检查，支持多集群、多表对比和用户自定义功能。以上功能实现相对较容易，相当于把规则包装成Spark SQL，通过Spark SQL或者其他方式执行。

在优化方面，针对统计数据量，我们专门编写程序实现了直接读取ORC文件中的数据量以提升资源的使用率。目前，我们已经完成集成的功能包括任务检测、DQC告警和自定义规则，但DQC还未包涵盖所有大数据场景。

SSH Task

SSH task实际上就是提供了一个任务模板，在某些场景下，如果Apache DolphinScheduler的worker不在机器上，我们需要自己定时执行任务，比如每天定时清理日志，定时operate某些bash，为了统一管理，我们提供了一个冗余的task，用于快速开发。

Apache DolphinScheduler耦合血缘系统

耦合血缘一直是社区呼声比较高的需求之一，借着这次机会，我来讲一下我们针对这一部分功能所做的改进，供大家参考。

任务表血缘绑定

首先是任务表的血缘绑定。任务血缘构建的流程是，当Apache DolphinScheduler执行任务时，我们会根据type获取到如下几种类型，并将这几种类型的task content、task name、workflow name写入lineage server，再通过lineage server构建成血缘，之后写入 graph db或者Hbase中，最后通过API将数据查询出来进行展示。

任务类型包括SeaTunnel、Spark、MySQL、Hive和Sqoop。那我们如何获取数据抽取的血缘呢？

首先是数据抽取也就是血缘的源头,我们通过SeaTunnel和Sqoop本身包含的配置文件进行血缘节点构建,把配置文件发送到lineageServer。lineageServer相当于一个client，作用是把接收到的配置文件和一些变量数据进行解析后发送到MQ中。

其次，数仓Spark的实现包括Spark的listener以及SparkSql的SparkSessionExtensions

再者，MySQL是自定义的解析规则，采用的是antlr4工具，大家也可以根据自己的需要使用Druid or其他解析工具。

最后，数仓Hive类型使用的是hive的hook，hook有SQL执行前触发，SQL执行后触发，会将执行的信息发送给下游。

血缘的具体实现是将所有的用户定义进行一个解析,其具体的实现是包含数据抽取以及目标数据,LineageSource是解析Seatunnel和Sqoop的配置文件,把配置发送到下游的血缘服务中，血缘服务会把它解析成一个大的json str,将其发送到MQ,而且我们解析时会将其绑定WorkflowName以及TaskName,格式是workflow.task.database.table。在这个过程中，如何拿到workflow和task的名称？在Apache DolphinScheduler执行中，最终会将用户的任务封装成shell去执行。再把workflow name和task name导入到进程级别的环境变量中，或者使用 process API设置环境变量，下游会触发hook，当触发hook时，在同一个进程下，环境变量还是存在的，所以在hook、spark listener或者血缘服务触发时，会读取环境变量，拿到workflow名称和task名称，拼接成一个血缘里的大json。封装成一个大json之后，json里就包含了一整套的血缘信息，再把血缘的json数据发送到mq，由lineage的下游读取写入到图库、Hbase或MySQL，最后通过API server展示。

若想深入的做血缘服务，需要了解常见的SQL解析工具，主要有：

antlr4，可以编写规则，生成规则类文件，之后直接使用解析。当前Apache Spark就采用了这个工具。
Calcite，当前采用此工具的有Apache Flink。
Druid，已完整封装了一套API，可以解析Hive、MySQL。
解析包，Hive-exec.jar和Spark-sql.jar。原生的解析包会提供解析的公共API来直接调用，也可以解析SQL再封装血缘。

血缘存储设计建议

Hbase存储

我们使用Hbase存储将血缘存储在Atlas中。Neo4j原生是支持血缘关系的，那我们为什么要用Hbase做血缘存储？个人认为相较于使用Neo4j数据库，我们不需要再进行额外的学习。

复杂的是血缘的设计，首先我们先展开血缘表结构为例，最简单的设计为

tableName  lineage_table (split[])
rowkey
column family   s  t

第一行：给Hbase定义表名 lineage_table

第二行：设计rowkey,rowkey就是当前你要搜索的表名,Hive的hook的机制会在任务SQL执行完之后，把信息发送到下游，此时会有一个DDL监控，当用户触发DDL时，比如用户新建表，那就会推送或在Hbase中插入一条数据，数据包括创建时间和表名，这就是它的rowkey。

第三行：列簇。列簇设计有2个，包括source和target。比如表a对应的是上游和下游的任务表血缘，上游相当于source，下游相当于target，就是两个列簇，把解析下来的血缘写入到source和target。在应用层查询时，可以直接根据rowkey把source和target全部查出来进行展示。这只是一个简单的构思，虽然我们有应用过，但最终因各种原因没有使用。若对Hbase比较了解或应用较多的小伙伴，建议可以深入研究。当数据写入之后，我们每次只展开最近的血缘关系，并根据最近的血缘关系依次展开，同时更新task时需要发送一个事件来删除旧的血缘等操作。

Neo4j

如果会用Neo4j，存储血缘信息比用Hbase更简单，其天然支持血缘关系，无需自己设计。

Apache DolphinScheduler的生产基本优化

任务日志存储优化

对于服务于用户和开发者的调度系统来说，任务排错是必不可少的。一般情况下，任务排错从 demo、debug和log入手，所以对于使用者来说，针对task

执行日志进行排错是必不可少的一步，这也从侧面证明了log对于调度系统的重要性。但是随之任务增加和时间递增，日志会越来越多。然而，企业中的服务器往往是存储磁盘和应用磁盘分开的，所以我们需要做的第一步，就是更改Apache DolphinScheduler的execution log存储位置。

如上图所示，应用部署的目录挂载在1T的磁盘上，执行日志写入的目录挂载的是5T的磁盘，用来做可拔插的数据磁盘。这就是做了一个划分。

写入时需要修改conf下面的logback-worker，修改log base和file标签中的内容，并写入到相应的位置就可以，不需要做其他操作，就可以做到日志、执行日志和应用划分开，减少服务器的压力，同时有利于进行日志监控和日志清洗。

经验分享

在改造Apache DolphinScheduler的过程中，我们也积累了一些经验分享给大家。

1. 实例数据如何管理?

随着系统上线持续运行，实例的数据会随着时间逐渐递曾，但大量实例数据不适合删除，保留又会造成读写速度过慢。对此，常见的解决方法有分库分表，以及将数据写入HDFS，交由HIVE管理，只将历史统计数据写入MySQL。第二种方式是改造Apache DolphinScheduler的查询，需要增加一些聚合，如Hive聚合的结果、历史数据的聚合。

2. Shell 结果获取失败原因?

shell的执行机制是，这行代码报错后，如果下一行还有代码依然会执行,如果下一行代码执行正常则返回0，我们可以设置 set -e。

3. 如何扩充新的管理员用户?

修改原生Apache DolphinScheduler的t_Apache DolphinScheduler_user表中的user_type为0。

4. 在原生Apache DolphinScheduler中如何使用双环境执行?

为了保证Apache DolphinScheduler能够在两套集群中运行，最简单的方法就是部署worker到测试环境中，这种情况下，我们在任务执行时可动态选择执行的worker；如果不想部署过多worker，可以set两套不同的execution env,之后将测试环境的包部署到worker的某个位置，不启动服务，甚至可以将服务的jar剔除，只依赖client及其配置文件。如果需要保证数据一致性，就需要借助于一些外部工具，如DQC工具和自定义开发的工具。

以上就是我的分享，谢谢！

Q&A

1. Hbase血缘能够分析Hive构建数据仓库的血缘图吗？

答：可以的。血缘关系是通过工具把血缘解析成血缘的json。比如数仓，工具用的是Hive，Hive本身支持血缘服务，可以直接用来解析成一套血缘的json，发送给kafka让下游去解析。Hbase并不负责血缘解析，只是负责血缘存储。

2. 基于两套容器环境中部署worker，其中一套环境部署master，如何保证master和另一套环境的互通呢？

答：网络互通即可。部署时要沟通好网络互通情况，比如防火墙等。

3. Worker的部署方式是怎样的？是部署在Spark的集群中，还是Spark的jar方式呢？

答：不一定非要部署到执行环境中。可以单独部署一套调度集群专门做调度，Spark客户端部署到调度集群中，保证客户端能通信到yarn等服务即可。Worker也可以部署到执行环境中，因为Spark执行时会读取配置文件，把任务发送到调度集群执行，只要保证网络通信正常。

4. 血缘有具体应用场景吗？

答：在表达到一定的规模，比如上万张表或者更多时，血缘能方便查找，其次，数据的链路追踪可以了解到表的价值体现在哪里。

参与贡献

随着国内开源的迅猛崛起，Apache DolphinScheduler 社区迎来蓬勃发展，为了做更好用、易用的调度，真诚欢迎热爱开源的伙伴加入到开源社区中来，为中国开源崛起献上一份自己的力量，让本土开源走向全球。

参与 DolphinScheduler 社区有非常多的参与贡献的方式，包括：

贡献第一个PR(文档、代码) 我们也希望是简单的，第一个PR用于熟悉提交的流程和社区协作以及感受社区的友好度。

社区汇总了以下适合新手的问题列表：https://github.com/apache/dolphinscheduler/issues/5689

非新手问题列表：https://github.com/apache/dolphinscheduler/issues?q=is%3Aopen+is%3Aissue+label%3A%22volunteer+wanted%22

如何参与贡献链接：https://dolphinscheduler.apache.org/zh-cn/docs/development/contribute.html

来吧，DolphinScheduler开源社区需要您的参与，为中国开源崛起添砖加瓦吧，哪怕只是小小的一块瓦，汇聚起来的力量也是巨大的。

参与开源可以近距离与各路高手切磋，迅速提升自己的技能，如果您想参与贡献，我们有个贡献者种子孵化群，可以添加社区小助手微信(Leonard-ds) ，手把手教会您( 贡献者不分水平高低，有问必答，关键是有一颗愿意贡献的心 )。

添加小助手微信时请说明想参与贡献。

来吧，开源社区非常期待您的参与。

活动推荐

当数据资源成为生产发展乃至于生存过程中必不可少的要素，企业该如何通过数据集成帮助企业数据服务全生命周期落地呢？5月14日，数据集成框架 Apache SeaTunnel(Incubating)将邀请一站式数据集成平台 Apache InLong(Incubating)的技术专家与开源贡献者们，一同来到直播间，与大家畅谈使用Apache SeaTunnel(Incubating)与Apache InLong(Incubating)后的实践经历与心得体会。

本次活动受疫情影响仍以线上直播的形式开展，活动现已开放免费报名，欢迎扫描下图二维码，或点击“阅读原文”免费报名！

扫码观看直播

扫码入直播群

更多精彩推荐

☞中国联通改造 Apache DolphinScheduler 资源中心，实现计费环境跨集群调用与数据脚本一站式访问

☞达人专栏 | 还不会用 Apache Dolphinscheduler？大佬用时一个月写出的最全入门教程

☞全面拥抱 K8s，ApacheDolphinScheduler 应用与支持 K8s 任务的探索

☞杭州思科对 Apache DolphinScheduler Alert 模块的改造

☞日均处理 10000+ 工作流实例，Apache DolphinScheduler 在 360 数科的实践

点击阅读原文，免费报名！

“四预”驱动数字孪生水利：让智慧治水守护山河安澜 GeoSaaS 实景三维智慧城市人工智能 gis 大数据安全
近年来，从黄河秋汛到海河特大洪水，从珠江流域性洪灾到长江罕见骤旱，极端天气频发让水安全问题备受关注。如何实现“治水于未发”？数字孪生水利以“预报、预警、预演、预案”（四预）为核心，正在掀起一场水利治理的智慧革命。一、数字孪生水利：从物理世界到虚拟镜像的跃迁数字孪生水利并非简单的“数字建模”，而是通过高精度传感器、大数据、人工智能等技术，在虚拟空间构建与物理流域完全映射的“数字分身”，实现水情、工情
没有好的学历，Java开发未来的路应该怎么走？全干程序员demo 技术热文 java 开发语言
没有好的学历，Java开发未来的路应该怎么走？在当今数字化时代，技术发展日新月异，大模型应用、鸿蒙系统等新兴技术领域正在蓬勃发展，为Java开发者带来了新的机遇和挑战。即使没有高学历，Java开发者依然可以通过以下路径在这些新兴领域找到自己的发展方向，实现职业突破。一、拥抱新兴技术，拓宽技术边界（一）大模型应用：从开发到优化大模型技术正在重塑软件开发的各个环节。对于Java开发者来说，可以从以下几
如何区别原生页面和H5页面大汉堡玩测试功能测试
文章目录前言原生开发特点H5开发特点混合开发怎么区别是原生还是H5总结前言软件采用混合开发的模式时，测试发现了bug找开发沟通有时会找错人，明明是H5模块的错误却找了负责原生模块的开发，显得很不专业~那在测试时该如何区分是原生的报错还是H5报错呢？原生开发原生开发（NativeApp开发），是为特定操作系统（如iOS使用Objective-C/Swift、安卓使用Java/Kotlin）专门开发的
Python 正则表达式小结1 大收藏家 Python 正则表达式 python
[声明]：本文参考了白夜黑雨老师的网页讲解。如有侵权，请与我联系！！！Python正则表达式小结11.正则表达式验证2.特殊元字符及含义3匹配某种字符类型4.正则表达式举例大收藏家说1.正则表达式验证提供两个网站用于正则表达式的验证，可以敲入文本与正则表达式。通过该网站，验证正则表达式的正确性。非常好用！英文网站中文网站2.特殊元字符及含义元字符含义.表示要匹配除了换行符之外的任何单个字符*星号-
python离线语音转文本_使用Python将语音转换为文本的方法 weixin_39760619 python离线语音转文本
使用Python将语音转换为文本的方法,语音,转换为,文本,您的,麦克风使用Python将语音转换为文本的方法易采站长站，站长之家为您整理了使用Python将语音转换为文本的方法的相关内容。语音识别是计算机软件识别口语中的单词和短语，并将其转换为可读文本的能力。那么如何在Python中将语音转换为文本？如何使用SpeechRecognition库在Python中将语音转换为文本？我们不需要从头开始
Open-Sora - 为所有人实现高效的视频制作大众化小众AI AI开源音视频人工智能 AI编程
GitHub：https://github.com/hpcaitech/Open-Sora更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AI这是一款开源的SOTA（State-of-the-Art）视频生成模型，仅用20万美元（224张GPU）就能训练出商业级11B参数的视频生成大模型。它采用Python语言和PyTorch深度学习框架开发，具有生成速度快、资源消
AnythingLLM - 任何文档资源内容转换为任何LLM 小众AI AI开源人工智能 AI编程
更多AI开源软件：AI开源-小众AIhttps://www.aiinn.cn/sources一个全栈应用程序，使您能够将任何文档、资源或内容转换为任何LLM都可以在聊天期间用作参考的上下文。此应用程序允许您选择要使用的LLM或矢量数据库，并支持多用户管理和权限。AnythingLLM是一个全栈应用程序，您可以在其中使用商用现成的LLM或流行的开源LLM和vectorDB解决方案来构建一个不折不扣的
共筑智慧城市新生态！YashanDB与荣科科技完成兼容互认证科技圈快讯 oracle 数据库
近日，深圳计算科学研究院的崖山数据库系统YashanDB与荣科科技股份有限公司的智慧工程移动管理平台V1.0与不动产智能管理系统V1.0成功完成了兼容性互认证，标志着双方在智慧城市建设领域实现关键突破，以国产化高性能数据库技术为核心，为工程建设与不动产管理领域提供安全可控、高效稳定的数字化解决方案。‌在兼容性互认证过程中，双方针对功能、性能、兼容性以及稳定性等关键指标进行了多轮严格测试，验证了Ya
JavaScript 中的性能优化：从基础到高级技巧 lina_mua 深入 javascript 性能优化开发语言
1.引言1.1性能优化的重要性在现代前端开发中，性能优化是提升用户体验的关键。无论是页面加载速度、交互响应时间，还是内存占用，性能优化都能显著提升应用的流畅度和用户满意度。1.2本文的目标本文旨在深入探讨JavaScript中的性能优化，从基础到高级技巧，帮助开发者理解性能优化的核心概念，并掌握其在实际开发中的应用。2.性能优化的基础2.1什么是性能优化？性能优化是指通过改进代码、减少资源消耗、优
8、Python 字符串处理与正则表达式实战指南 wolf犭良 python python 正则表达式
Python字符串处理与正则表达式实战指南文章概述本文深入探讨Python字符串处理核心方法与正则表达式实战技巧，涵盖字符串编码转换、分割替换、正则表达式语法精髓，并通过日志解析、数据清洗等真实场景案例展示高阶应用。最后提供10道阶梯式练习题（附完整答案代码），助你从基础到进阶全面掌握文本处理技能。一、字符串处理核心三剑客1.1编码转换（encode/decode）text="中文文本"utf8_
deepseek api参数详解孽小倩大语言模型 python java 前端人工智能 deepseek
deepseek的参数与openai保持兼容，所以openai能用的参数deepseek都可以使用，以下是常用的参数介绍。在使用Deepseek/OpenAI的PythonAPI时，最常用的API端点是chat/completions，用于调用deepseek生成文本对话内容。以下是openai.ChatCompletion.create()方法的主要参数及其作用：1.model作用：指定使用的模
数智读书笔记系列021《大数据医疗》：探索医疗行业的智能变革 Allen_Lyb 数智读书笔记大数据健康医疗人工智能 python
一、书籍介绍《大数据医疗》由徐曼、沈江、余海燕合著，由机械工业出版社出版。徐曼是南开大学商学院副教授，在大数据驱动的智能决策研究领域颇有建树，尤其在大数据驱动的医疗与健康决策方面有着深入研究，曾获天津优秀博士论文、教育部博士研究生新人奖。沈江等作者也在相关学术和实践领域有着丰富的经验和深厚的专业知识。这本书系统且深入地探讨了大数据技术在医疗领域的应用与变革，对推动医疗行业的智能化发展具有重要的理论
VsCode配置JDK\Tomcat\Maven Yang___Xing javascript VsCode Java java vscode tomcat
1、安装VsCode下载地址：VisualStudioCode-CodeEditing.Redefined安装提示安装完成即可2、安装JDK下载地址：JavaDownloads|Oracle选择版本：按照需求自行选择配置JAVA_HOMEMac的修改mac的打开终端，输入open~/.zshrc新增exportPATH="/yourpath/jdk-1.8.jdk/Contents/Home/bi
哈希表的前沿演进：从经典实现到未来潜力大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
摘要：哈希表（HashTable）作为一种基本且高效的数据结构，已广泛应用于计算机科学的各个领域。从数据库的索引、缓存系统到密码学、分布式系统中，哈希表都发挥着至关重要的作用。随着计算需求的不断增长，哈希表的性能优化及其新型变种已成为当前研究的热点。本文将探讨哈希表的经典实现方式及其优化技术，并展望未来在量子计算、分布式存储等领域的潜在应用。1.引言：哈希表作为一种具有常数时间复杂度（O(1)）的
算法基础——蓝桥杯（python实现，实际上大多数用c++更明白易懂）（第一部分，共12个小题） New_Teen 算法蓝桥杯 python
1.成绩统计问题描述:编写一个程序，建立一个字典，每个字典包含姓名、学号、英语成绩、数学成绩和C++成绩，并通过字典操作平均分最高的学生和平均分最低的学生并且输出。输入格式：输入n+1行，第一行输入一个正整数n，表示学生数量；接下来的n行每行输入5个数据，分别表示姓名、学号、英语成绩、数学成绩和C++成绩。注意成绩有可能会有小数。输出格式：输出两行，第一行输出平均成绩最高的学生姓名。第二行输出平均
Python（正则表达式）羡江007 Python进阶 python 正则表达式开发语言
re模块#在Python中需要通过正则表达式对字符串进行匹配的时候，可以使用一个re模块'''re模块三步走#第一步：导入re模块importre#第二步：使用match方法进行匹配操作result=re.match(pattern正则表达式,string要匹配的字符串,flags=0)#第三步：如果数据匹配成功，使用group方法来提取数据result.group()re.match(patte
Ubuntu20.04安装并配置Pycharm2020.2.5 搬砖的打工人!!! ubuntu pycharm python
一.下载pycharm社区版1.下载地址：PyCharm:thePythonIDEfordatascienceandwebdevelopmentThePythonIDEfordatascienceandwebdevelopmentwithintelligentcodecompletion,on-the-flyerrorchecking,quick-fixes,andmuchmore.https:/
使用python中you-get库实现下载网抑云瞎老弟 python python 音视频爬虫
WYY音乐下载前言代码实现使用说明前言前几天，我做了b站视频的下载，有好兄弟表示，只下载视频，不能够让人满足，我还希望能够下载网易云的音乐。上一次在我发布的b站视频下载中，使用了you-get库作为下载方式，但是实际上，这个库也可以下载网易云音乐，因此，我们只需要参考我们上次的b站视频下载，简单的进行一下修改，就可以完成音乐的下载了。为了能够更加方便的批量下载音乐，这里采用了“按艺术家“的下载方式
Python用Pyqt5制作音乐播放器 Aix959 python 开发语言
具体效果如下需要实现的功能主要的几个有：1、搜索结果更新至当前音乐的列表，这样播放下一首是搜素结果的下一首2、自动播放3、滚动音乐文本4、音乐进度条5、根据实际情况生成音乐列表。我这里的是下面的情况，音乐文件的格式是歌名_歌手.mp3所以根据需求修改find_mp3_files方法，我这里返回的是[{"path":音乐文件路径,"music":歌名,"singer":歌手},{"path":音乐文
使用vscode远程连接linux运行项目报错解决方案大数据lsy 笔记 vscode linux python
报错：subprocess.CalledProcessError:Command'['/xxx/anaconda3/envs/graphinvent/bin/python','./graphinvent/main.py','--job-dir','/xxx/GraphINVENT/output_gdb13_1K/example/job_0/']'returnednon-zeroexitstatus
代码管理工具——SVN weixin_33728708 git 开发工具 python
2019独角兽企业重金招聘Python工程师标准>>>SVN版本控制的作用：记录若干文件内容变化，以便将来查阅特定版本修订情况。版本管理工具发展简史，cvs-->svn-->Git（参考：http://luckypoem14.github.io/test/2012/04/24/scm-history/）。svn全称subversion，是一个开源版本控制系统（C/S架构），始于2000年；git（
jieba库词频统计_jieba分词器（应用及字典的补充）及文档高频词提取实战袁圆园建建 jieba库词频统计
jieba分词器是Python中最好的中文分词组件，本文讲解一下jieba分词器及其应用。1、jieba分词器的分词模式jieba分词器提供了三种常用的分词模式1、精确模式：将句子按照最精确的方法进行切分，适合用于进行文本分析；2、全模式：将句子当中所有可以成词的词语都扫描出来，分词速度很快但容易产生歧义；3、搜索引擎模式：在精确模式分词的基础上，将长的句子再次进行切分，提高召回率，适用于搜索引擎
MyBatis 中的缓存机制 JiaHao汤 Mybatis mybatis
文章目录一级缓存二级缓存MyBatis中的缓存是用于提高数据访问性能的一个重要机制。它可以将查询结果缓存在内存中，避免重复查询数据库，从而加快数据访问速度。MyBatis中存在一级缓存和二级缓存，一级缓存和二级缓存是相互独立的，它们并不共享缓存数据。一级缓存默认开启；而二级缓存默认关闭，如果需要开启二级缓存，则需要手动配置进行开启。在使用MyBatis中的缓存时，需要关注缓存的有效性和管理。由于缓
#Hadoop全分布式安装 #mysql安装 #hive安装砸吧砸吧 hadoop hive yarn mysql
分布式（多台机器部署不同组件）与集群（多台机器部署相同组件）概念。Linux基础命令linux具有文件数：目录、文件，从根目录开始，路径具有唯一性。pwd：显示当前路径特殊符号：/：根目录.：隐藏文件，如果路径以.开始，表示当前目录下..：当前目录下的上一级~：当前目录的home目录--help：帮助命令使用linux常用操作命令tab键：自动补全ls：显示指定目录内容默认：当前路径-a：显示所有
【LeetCode 热题 100】3. 无重复字符的最长子串 | python 【中等】一只小白跳起来 leetcode java 算法开发语言
美美超过管解题目：3.无重复字符的最长子串给定一个字符串s，请你找出其中不含有重复字符的最长的长度。示例1:输入:s="abcabcbb"输出:3解释:因为无重复字符的最长子串是"abc"，所以其长度为3。注意：考虑空字符串问题有重复之后要在重复的那个后面新建序列，减少时间，故需要列表储存（标准做法里用的集合捏）标准做法：把重复的set.remove（），a指针步进，没有重复的话，b指针一直步进怎
并发爬虫实战：多线程高效抓取王者荣耀全英雄皮肤 YiFoEr_Liu 爬虫案例实操爬虫部署 python 爬虫 python 大数据
一、场景与挑战在网络爬虫开发中，我们常常面临以下挑战：需要处理成百上千个页面的数据抓取目标服务器存在反爬机制和请求频率限制单线程模式下载效率低下，难以充分利用带宽本文以王者荣耀英雄皮肤下载为例（日访问量超过1亿的热门游戏），演示如何通过Python并发编程实现高效数据抓取。二、技术选型分析2.1为什么选择并发线程？I/O密集型场景：网络请求占比90%以上GIL限制：Python线程适合I/O密集型
【JavaEE】Mybatis 简单启动鸽鸽程序猿 JavaEE java-ee mybatis 数据库
目录一、Mybatis简介二、MyBatis⼊⻔2.1创建项目2.2准备数据2.3配置文件2.4实体类2.5执行结果一、Mybatis简介Mybatis是一个操作数据库驱动的持久层框架，用来简化JDBC操作的，SpringBoot集成了这个框架。MyBatis本是Apache的⼀个开源项⽬iBatis，2010年这个项⽬由apache迁移到了googlecode，并且改名为MyBatis。2013
OpenEuler kinit报错找不到文件的解决办法久违的太阳其他故障处理服务器运维
客户一套华为大数据集群平台,在一台arm平台openEuler服务器上面安装完集群客户端之后,使用kinit认证出现报错Nosuchfileordirectory:最终定位是操作系统/lib64缺少ld包导致,执行下面的命令恢复：ln-sv/lib/ld-linux-aarch64.so.1/lib64/ld-linux-aarch64.so.1
使用提示词进行信息抽取的实用方法 scaFHIO windows python
在大规模语言模型（LLM）中进行信息抽取时，我们不一定需要工具调用功能。通过精心设计的提示词（prompt）可以指导模型输出特定格式的信息，然后对其进行解析以生成结构化数据。这种方法依赖于创建良好的提示词，并将LLM的输出解析为所需的Python对象。技术背景介绍大规模语言模型可以根据提示词生成特定格式的文本。例如，我们可以要求模型以JSON格式输出所需的信息。在信息抽取的场景中，设计良好的提示词
JavaScript 模块化语法 import、export详解 qq39138814 javascript 开发语言 ecmascript
JavaScript模块化语法import、export详解1.为什么需要模块化？在JavaScript早期，所有代码都是写在一个全局作用域中，这样做的问题是：变量污染：所有变量、函数都是全局的，容易互相干扰。文件依赖管理困难：多个JS文件之间的依赖关系混乱，难以维护。代码复用困难：无法方便地拆分和复用代码。为了解决这些问题，模块化方案应运而生。2.JavaScript模块化的发展2.1早期的模块
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情