weixin_39629989

python dfs算法_算法工程师技术路线图

前言

这是一份写给公司算法组同事们的技术路线图，其目的主要是为大家在技术路线的成长方面提供一些方向指引，配套一些自我考核项，可以带着实践进行学习，加深理解和掌握。

内容上有一定的通用性，所以也分享到知乎上。欢迎大家给出建议，如有错误纰漏，还望不吝指正 :)

工程师能力层级概览

对于不同级别的算法工程师技能要求，我们大致可以分成以下几个层级：

初级：可以在一些指导和协助下独立完成开发任务。具体到算法方面，需要你对于工具框架，建模技术，业务特性等方面有一定的了解，可以独立实现一些算法项目上的需求。
中级：可以基本独立完成一个项目的开发与交付。在初级工程师的基础上，对于深入了解技术原理的要求会更高，并且能够应对项目中各种复杂多变的挑战，对于已有技术和工具进行改造适配。在整体工程化交付方面，对于代码质量，架构设计，甚至项目管理方面的要求会开始显现。另外从业务出发来评估技术选型和方案也变得尤为重要。
高级：可以独立负责一条产品线的运作。在中级工程师的基础上，需要更广阔的技术视野与开拓创新能力，定义整个产品线的前进方向。解决问题已经不是关键，更重要的是提出和定义问题，能够打造出在业界具有领先性和差异性的产品，为公司创造更大的价值。

事实上对于不同层级的工程师，非技术部分的要求都有一定占比。本文主要聚焦在技术路线图上，对于其他方面的学习进阶路线不会做覆盖。

阅读建议

以下内容分工程基础，算法基础，算法工程交叉，工程深入方向，算法深入方向几个部分，在各个部分内部会进一步区分一些主题。在各个主题内部，也是有深入程度的区别的，不过限于篇幅没有进行详细的说明。建议学习路线可以先把两个基础部分与工作中较为相关的内容做一个整体基础的夯实，然后可以在后续交叉和深入方向的主题中选择感兴趣的进行深入了解和学习，过程中发现基础部分欠缺的，可以再回到基础部分查漏补缺，迭代前行。

工程基础

编程语言

Python

Python是算法工程师日常工作中最常用的语言，应该作为必须掌握的一门技术。大致的学习路线如下：

学习掌握Python的基本语法，可以通过各类入门教程来看，个人推荐《Learn Python the Hard Way》。
- 自我考核：能够读懂大多数的内部项目及一些开源项目代码的基本模块，例如pandas, sklearn等。
学习Python的编程风格，建议学习观远内部的Python代码规范。
- 自我考核：编写的代码符合编码规范，能够通过各类lint检查。
Python进阶，这方面有一本非常著名的书《Fluent Python》，深入介绍了Python内部的很多工作原理，读完之后对于各类疑难问题的理解排查，以及语言高级特性的应用方面会很有帮助。另外动态语言元编程这块，《Ruby元编程》也是一本非常值得推荐的书。
- 自我考核：能够读懂一些复杂的Python项目，例如sqlalchemy中就大量使用了元编程技巧。在实际工程项目中，能够找到一些应用高级技巧的点进行实践，例如基于Cython的性能优化等。
领域应用，Python的应用相当广泛，在各个领域深入下去都有很多可以学习的内容，比如Web开发，爬虫，运维工具，数据处理，机器学习等。这块主要就看大家各自的兴趣来做自由选择了，个人推荐熟悉了解一下Python web开发，测试开发相关的内容，开拓视野。
- 自我考核：以Web开发和测试开发为例，尝试写一个简单的model serving http服务，并编写相应的自动化测试。

Scala/Java

Java目前是企业级开发中最常用的软件，包括在大数据领域，也是应用最广泛的语言，例如当年的Hadoop生态基本都是基于Java开发的。Scala由于其函数式编程的特性，在做数据处理方面提供了非常方便的API，也因为Spark等项目的火热，形成了一定的流行度。在进行企业级的软件开发，高性能，大规模数据处理等方面，JVM上的这两门语言有很大的实用价值，值得学习。

顺带一提，Scala本身是一门非常有意思的语言，其中函数式编程的思想与设计模式又是非常大的一块内容，对于拓宽视野，陶冶情操都是挺不错的选择。

考虑到算法工程师的工作内容属性，这边给出一个Scala的学习路线：

学习掌握Scala的基本语法，开发环境配置，项目编译运行等基础知识。这里推荐Coursera上Martin Odersky的课程，《快学Scala》或《Programming in Scala》两本书也可以搭配着浏览参考。
- 自我考核：能使用Scala来实现一些简单算法问题，例如DFS/BFS。或者使用Scala来处理一些日常数据工作，例如读取日志文件，提取一些关键信息等。
学习使用Scala来开发Spark应用，推荐edX上的《Big Data Analytics Using Spark》或者Coursera上的《Big Data Analytics with Scala and Spark》，另外有些相关书籍也可以参考，比如《Spark快速大数据分析》等。
- 自我考核：能够使用Spark的Scala API来进行大规模的数据分析及处理，完成lag feature之类的特征工程处理。
JVM的原理学习，Scala/Java都是JVM上运行的优秀语言，其背后是一个非常大的生态，包括在Web，Android，数据基础架构等方面有广泛的应用。JVM相比Python虚拟机，发展更加成熟，有一套非常完善的JDK工具链及衍生的各类项目，便于开发者debug，调优应用。这方面推荐学习周志明的《深入理解Java虚拟机》。
- 自我考核：理解JVM GC原理，能通过JDK中相关工具或者优秀的第三方工具如arthas等，排查分析Spark数据应用的资源使用情况，GC profiling，hot method profiling等，进而进行参数优化。
计算机语言理论。Programming Language作为计算机科学的一个重要分支，包含了很多值得深入研究的主题，例如类型论，程序分析，泛型，元编程，DSL，编译原理等。这方面的很多话题，在机器学习方面也有很多实际应用，比如TVM这类工作，涉及到大量编译原理的应用，知乎大佬“蓝色”也作为这个领域的专家在从事深度学习框架相关的工作。llvm, clang作者Chris Lattner也加入Google主导了Swift for Tensorflow等工作。Scala作为一门学术范非常强的语言，拥有极佳的FP，元编程等能力支持，强大的类型系统包括自动推理，泛型等等高级语言特性，相对来说是一门非常“值得”学习的新语言，也是一个进入PL领域深入学习的"gateway drug" :) 对这个方面有兴趣的同学，可以考虑阅读《Scala函数式编程》，《冒号课堂》，以及Coursera上《Programming Languages》也是一门非常好的课程。另外只想做科普级了解的同学，也可以读一读著名的《黑客与画家》感受一下。

C/C++/Rust

当前流行的算法框架，例如TensorFlow, PyTorch, LightGBM等，底层都是基于C++为主要语言进行实现的。但是C++本身过于复杂，使用场景也比较有限制，建议只需要达到能够读懂一些基础的C++代码逻辑即可。在系统级开发领域，目前有一门新语言逐渐崛起，连续几年被StackOverflow投票评选为程序员最喜爱的语言：Rust。从设计理念和一些业界应用（例如TiKV）来看还是非常不错的，但是我也没有深入学习了解过，就不做具体推荐了。这方面建议的学习内容包括经典的《The C Programming Language》以及Rust官方的：https://github.com/rust-lang/rustlings

自我考核：能够读懂LightGBM里对于tweedie loss的相关定义代码。

操作系统

基本概念

我们所编写的算法应用，都是通过操作系统的环境运行在物理硬件之上的。在实际运作过程中，会碰到不少相关的问题，例如为什么程序报了资源不足的错误，为什么notebook在浏览器里打不开，为什么进程hang住了没有响应等等，都需要一些操作系统的知识来帮助理解和分析问题，最终排查解决。操作系统涵盖的内容比较多，建议一开始只需要了解一些主要概念（例如硬件结构，CPU调度，进程，线程，内存管理，文件系统，IO，网络等），对于整体图景有一些感觉即可。后续碰到了实际问题，可以再在各个部分深入学习展开。优秀的学习资料也有很多，基本都是大部头，重点推荐《深入理解计算机系统》，《Operating Systems: Three Easy Pieces》，以及《现代操作系统》。

自我考核：能够基本明确运行一个模型训练任务过程中，底层使用到的硬件，操作系统组件，及其交互运作的方式是如何的。

Linux基础

平时工作中最常用的两个操作系统CentOS和macOS，都是Unix/Linux系的，因此学习掌握相关的基础知识非常重要。一些必须掌握的知识点包括：Shell与命令行工具，软件包管理，用户及权限，系统进程管理，文件系统基础等。这方面的入门学习资料推荐《鸟哥的Linux私房菜》，基本涵盖了Linux系统管理员需要掌握知识的方方面面。进阶可以阅读《Unix环境高级编程》，对于各种系统调用的讲解非常深入，可以为后续性能调优等高级应用打下基础。

自我考核：开发一个shell小工具，实现一些日常工作需求，例如定时自动清理数据文件夹中超过一定年龄的数据文件，自动清理内存占用较大且运行时间较久的jupyter notebook进程等。

深入应用

工作中碰到的疑难问题排查，性能分析与优化，系统运维及稳定性工程等方面，都需要较为深入的计算机体系和操作系统知识，感兴趣的同学可以针对性的进行深入学习。以性能优化为例，可以学习经典的《性能之巅》，了解其中的原理及高级工具链。像其中的系统调用追踪(strace)，动态追踪(systemtap, DTrace, perf, eBPF)等技术，对于操作系统相关的问题排查都会很有帮助。

自我考核：能够分析定位出LightGBM训练过程中的性能瓶颈，精确到函数调用甚至代码行号的级别。

软件工程

算法与数据结构

暂时先把这块放到软件工程模块下。这里指的算法是计算机科学中的经典算法，例如递归，排序，搜索，动态规划等，有别于我们常说的机器学习算法。这块的学习资料网上有非常多，个人当年是通过普林斯顿的算法课(需要有Java基础)入门，后来又上了斯坦福的算法分析与设计，开拓了一些视野。书籍方面推荐新手从《算法图解》入门，然后可以考虑阅读Jeff Erickson的《Algorithms》，或者选择上面提到的网课。另外像《编程珠玑》，《编程之美》等也可以参阅，里面有不少问题的巧妙解法。除了从书本中学习，还可以直接去LeetCode等网站进行实战操作进行练习提高。

自我考核：能够设计相关的数据结构，实现一个类似airflow中点击任意节点向后运行的功能。

代码规范

从初级程序员到中高级程序员，其中比较大的一个差异就是代码编写习惯上，从一开始写计算机能理解，能够运行成功的代码，逐渐演化到写人能够理解，易于修改与维护的代码。在这条学习路径上，首先需要建立起这方面的意识，然后需要在实战中反复思考和打磨自己的代码，评判和学习其它优秀的项目代码，才能逐渐精进。推荐的学习书籍有《编写可读代码的艺术》，一本非常短小精悍的入门书籍，后续可以再慢慢阅读那些经典大部头，例如《Clean Code》，《Code Complete》，《The Pragmatic Programmer》等。这方面Python也有一本比较针对性的书籍《Effective Python》，值得一读。

自我考核：审视自己写的项目代码，能发现并修正至少三处不符合最佳编码实践的问题。

设计模式

在代码架构方面，设计模式是一个重要的话题，对于日常工作中出现的许多典型场景，给出了一些解决方案的“套路”。这方面最著名的书当属GoF的《设计模式》，不过个人并不十分推荐，尤其是以Python作为主要工作语言的话，其中很大部分的设计模式可能并不需要。入门可以浏览一下这个网站掌握一些基本概念：https://refactoringguru.cn/design-patterns/python ，后续可以考虑阅读《Clean Architecture》，《重构》等相关数据，理解掌握在优化代码架构过程中思考的核心点，并加以运用。Python相关的设计模式应用，还可以参考《Python in Practice》。

自我考核：在项目中，找到一处可以应用设计模式的地方，进行重构改进。

质量保障

对于需要实际上线运行的软件工程，质量保障是非常重要的一个环节，能够确保整个产品按照期望的方式进行运作。在机器学习项目中，由于引入了数据这个因素，相比传统的软件测试会有更高的难度，也是业界还在摸索前进的方向。建议可以先阅读《单元测试的艺术》或《Google软件测试之道》，大致理解软件测试的一些基本概念和运作方式，在此基础上可以进一步阅读Martin Fowler对于机器学习领域提出的CD4ML中相关的测试环节，学习sklearn，LightGBM等开源库的测试开发方式，掌握机器学习相关的质量保障技术能力。

自我考核：在项目中，实现基础的数据输入测试，预测输出测试。

项目管理

软件工程推进过程中，项目管理相关的技能方法与工具运用也非常的关键。其中各种研发流程与规范，例如敏捷开发，设计评审，代码评审，版本管控，任务看板管理等，都是实际项目推进中非常重要的知识技能点。这方面推荐学习一本经典的软件工程教材《构建之法》，了解软件项目管理的方方面面。进一步来说广义的项目管理上的很多知识点也是后续深入学习的方向，可以参考极客时间上的课程《项目管理实战20讲》。

自我考核：在某个负责项目中运用项目管理方法，完成一个实际的需求评估，项目规划，设计与评审，开发执行，项目上线，监控维护流程，并对整个过程做复盘总结。

高级话题

软件工程师在技能方向成长的一条路线就是成为软件架构师，在这个方向上对于技能点会有非常高的综合性要求，其中也有不少高级话题需要深入学习和了解，例如技术选型与系统架构设计，架构设计原则与模式，宽广的研发知识视野，高性能，高可用，可扩展性，安全性等等。有兴趣的同学可以了解一下极客时间的《从0开始学架构》这门课，逐渐培养这方面的视野与能力。另外如《微服务架构设计模式》还有领域驱动设计方面的一系列书籍也值得参考学习。

自我考核：设计一个算法项目Docker镜像自动打包系统。

算法基础

数据分析

数学基础

在进行算法建模时，深入了解数据情况，做各类探索性分析，统计建模等工作非常重要，这方面对一些数学基础知识有一定的要求，例如概率论，统计学等。这方面除了经典的数学教材，也可以参考更程序员向的《统计思维》，《贝叶斯方法》，《程序员的数学2》等书籍。

自我考核：理解实际项目中的数据分布情况，并使用统计建模手段，推断预测值的置信区间。

可视化

在进行数据分析时，可视化是一个非常重要的手段，有助于我们快速理解数据情况，发掘数据规律，并排查异常点。对于各种不同类型的数据，会对应不同的可视化最佳实践，如选择不同的图表类型，板式设计，分析思路编排，人机交互方式等等。另一方面，可视化与数据报告也是我们与不同角色人群沟通数据insights的一个重要途径，需要从业务角度出发去思考可视化与沟通方式。这方面可以参考《Storytelling with Data》，《The Visual Display of Quantitative Information》等经典数据，同时也需要培养自己的商业背景sense，提升沟通能力。

自我考核：对内沟通方面，能使用可视化技术，分析模型的bad case情况，并确定优化改进方向。对外沟通方面，能独立完成项目的数据分析沟通报告。

误差分析与调优

在做算法模型调优改进中，需要从数据分析的基础上出发来决定实验方向，这么做有几个好处：

从分析出发指导调优更有方向性，而不是凭经验加个特征，改个参数碰运气。哪怕是业务方提供的信息，也最好是有数据分析为前提再做尝试，而不是当成一个既定事实。
由分析发现的根源问题，对于结果验证也更有帮助。尤其在预测的数据量极大情况下，加一个单一特征很可能总体只有千分位准确率的提升，无法确定是天然波动还是真实的提升。但如果有分析的前提，那么我们可以有针对性的看对于这个已知问题，我们的调优策略是否生效，而不是只看一个总体准确率。
对于问题的彻底排查解决也更有帮助，有时候结果没有提升，不一定是特征没用，也可能是特征代码有bug之类的问题。带着数据分析的目标去看为什么这个特征没有效果，是模型没学到还是特征没有区分度等，有没有改进方案，对于我们评判调优尝试是否成功的原因也更能彻查到底。
数据分析会帮助我们发现一些额外的问题点，比如销量数据清洗处理是不是有问题，是不是业务本身有异常，需要剔除数据等。

这方面在业界有一些关于误差分析的探索研究，不过大多数都是基于分类问题的，例如《Identifying Unknown Unknowns in the Open World》，《A Characterization of Prediction Errors》等。可以在了解这些研究的基础上，结合具体的业务情况，深入思考总结误差分析的思路与方法论。

自我考核：在项目中形成一套可以重复使用的误差分析方案，能够快速从预测输出中定位到目前模型最重要的误差类别，并一定程度上寻找到根本原因。

机器学习基础

传统机器学习

这块大家应该都非常熟悉了，初阶的学习路线可以参考周志华老师的《机器学习》，涵盖了机器学习基础，常用机器学习方法，和一些进阶话题如学习理论，强化学习等。如果希望深化理论基础，可以参考经典的《PRML》，《ESL》和《统计学习方法》。在实战中，需要综合业务知识，算法原理，及数据分析等手段，逐渐积累形成建模调优的方法论，提高整体实验迭代的效率和成功率。

自我考核：结合实际业务和机器学习理论知识，挖掘项目中算法表现不够好的问题，并通过算法改造进行提升或解决。

深度学习

近些年兴起的深度学习，已经成为机器学习领域一个非常重要的分支，在各个应用方向发挥了很大的作用。相对于传统机器学习，对于特征工程要求的降低成了其核心优势。另一方面，深度学习对于大数据量，大规模算力的应用能力很强，也一定程度上提升了整体的产出效果。由于理论方面的研究稍显落后，深度学习在实际应用中对于使用者的经验技能要求相对比较高，需要有大量的实战经验才能达到比较理想的效果。这方面的学习资料推荐Keras作者的《Deep Learning with Python》，以及《Hands-on Machine Learning with Scikit-Learn and TensorFlow》，而在理论方面推荐著名的“花书”《Deep Learning》。在学习理论原理的基础上，尤其要注意在实际算法应用中，能够通过观察各种指标与数据分析，找到提升模型的操作改进方向。

自我考核：能够在实际项目中，使用深度学习模型，达到接近甚至超过传统GBDT模型的精确度效果，或者通过ensemble，embedding特征方式，提升已有模型的精度。

领域建模

目前我们的业务领域在时间序列预测，自然语言处理，推荐等方面，其它类似图像，搜索，广告等领域也都有各自的一些领域建模方法。在时间序列领域，包括了传统时序模型，如ARIMA, Prophet，机器学习模型，如划动窗口特征构建方法结合LightGBM，及深度学习模型，例如LSTM，seq2seq，transformer等。这方面可以参考Kaggle上相关比赛的方案分享，以及Amazon，Uber，天猫等有类似业务场景公司的分享资料。其它领域也是类似，通过了解历史技术演进，相关比赛，业界的方案分享与开源项目，会议论文来逐渐掌握学习建模方法，结合实际业务进行实践尝试，积累起更加体系性的个人知识技能。

自我考核：在项目中复现一个Kaggle获胜方案，检验其效果，分析模型表现背后的原因，并尝试进行改进。

算法框架

数据处理框架

在项目实施过程中，会需要各类复杂的数据处理操作，因此熟练掌握此类框架就显得尤为重要。目前行业的标准基本上会参照Pandas DataFrame的定义，在数据量较大的情况下，也有许多类似的框架，如Spark，Dask，Modin，Mars等支持分布式运行的DataFrame，以及cuDF，Vaex等提升单机性能的改进实现。这方面经典的书籍可以参考Wes McKinney的《Python for Data Analysis》，在掌握基础数据操作的基础上，可以进而了解窗口函数，向量化性能优化等高级话题。另外SQL也可以做非常复杂的数据处理工作，有不少公司例如阿里会以SQL为主来构建数据处理流程，感兴趣的同学也可以学习一下SQL中各种高级计算的使用及优化方法。

自我考核：在已有项目中，能把至少三个使用apply方法的pandas处理修改成向量化运行，并测试性能提升。使用window function或其它方案来实现lag特征，减少join次数。

机器学习框架

机器学习方面的新框架层出不穷，一方面我们需要掌握经典框架的使用方式，理解其模块构成，接口规范的设计，一定程度上来说其它新框架也都需要遵循这些业界标准框架的模块与接口定义。另一方面对于新框架或特定领域框架，我们需要掌握快速评估，上手使用，并且做一定改造适配的能力。一些比较经典的框架有：

通用机器学习：scikit-learn，Spark ML，LightGBM
通用深度学习：Keras/TensorFlow，PyTorch
特征工程：tsfresh, Featuretools，Feast
AutoML：hyperopt，SMAC3，nni，autogluon
可解释机器学习：shap，aix360，eli5，interpret
异常检测：pyod，egads
可视化：pyecharts，seaborn
数据质量：cerberus，pandas_profiling，Deequ
时间序列：fbprophet，sktime，pyts
大规模机器学习：Horovod，BigDL，mmlspark
Pipeline：MLflow, metaflow，KubeFlow，Hopsworks

一般的学习路径主要是阅读这些框架的官方文档和tutorial，在自己的项目中进行尝试使用。对于一些核心接口，也可以阅读一下相关的源代码，深入理解其背后的原理。

自我考核：在LightGBM框架下，实现一个自定义的损失函数，并跑通训练与预测流程。

其它框架

其它比较常见且与算法工程师日常工作会有一些联系的有Web框架，爬虫框架等，最具有代表性的当属Flask和scrapy。这两者背后各自又是很大一块领域，尤其web开发更是保罗万象。感兴趣的同学还可以了解一下一些新兴的基于Python3的框架，例如FastAPI，其背后借鉴的许多现代框架的思想设计，包括数据验证，序列化，自动文档，异步高性能等，开拓一下知识面。

自我考核：实现一个简单的model serving http服务。

算法工程交叉

大规模算法运行

分布式训练

在很多项目中，数据量达到十亿级以上的情况下，单机训练会难以支撑。因此分布式训练也是实际工程落地中非常重要的一个主题。分布式训练涉及到多机的通讯协同方式，优化算法的改造，数据及模型的并行与聚合，以及框架的选择和运维等话题，具体可以参考《分布式机器学习》。另外对于分布式系统，也可以参阅《数据密集型应用系统设计》这本神作，了解其背后原理。

自我考核：能够在多机上进行亿级数据的GBDT模型训练与预测。

高性能计算

在做大规模的数据训练与推理时，近些年涌现出许多高性能计算优化的方法，例如从硬件方面，有各种超线程技术，向量化指令集，GPGPU，TPU的应用等，从软件方面，有针对数值计算场景的OpenBLAS，有自动并行化的OpenMP，有各种codegen，JIT技术下的运行时优化等。这方面可以学习的方向也很多，从基础的并行编程，编译原理及优化的知识开始，到CUDA，OpenMP的应用（例如Nvidia的cuDNN，还有LightGBM中也用到了OpenMP），Codegen，JIT等技术在Spark，TVM等项目中的使用等，建议有深度性能优化需求时可以往这些方向做调研和学习。

自我考核：能够通过LLVM JIT来优化实现Spark window function的执行性能。

模型加速领域

这个方向分两个部分，一块是模型训练方面，能够做到加速，例如使用大batch size，迁移学习，持续的在线/增量学习等手段，另一块在模型预测方面，也有很多加速需求，比如模型参数量优化，模型压缩，混合精度，知识蒸馏等技术手段，都是为了做到更高性能，更低资源消耗的模型预测推理。这方面业界有各个方向的文章和技术实现可以参考，比如经典的《Training ImageNet in 1 Hour》，MobileNet，TensorRT，二值网络等。

自我考核：在典型的销量预测场景中实现增量训练与预测。

MLOps

编排调度

包含各类pipeline的编排与调度能力的支持，包括数据pipeline，训练pipeline和serving pipeline等。这方面比较常用的框架工具有Airflow，DolphinScheduler，Cadence等，需要掌握其基本的工作原理和使用方式，并能够应用于离线实验与线上运行。

自我考核：使用Airflow完成一个标准的项目pipeline搭建与运行。

数据集成

相对于传统的DevOps，机器学习项目最大的区别在于数据方面的依赖会更加显著与重要。这方面的话题包括数据血缘，数据质量保障，数据版本控制等，有各类工具可以借鉴使用，例如数据版本管理方面的DVC，数据质量方面的TFX Data Validation，Cerberus，Deequ等。在方法论层面，《The ML Test Score》中给出了不少数据相关的具体测试方法，值得参考学习。

自我考核：在项目中实现输入数据的分布测试，特征工程测试及特征重要性准入测试。

实验管理

这部分也是ML项目的独特之处，在开发过程中有大量的实验及相应的结果输出需要记录，以指导后续调整优化的方向，并选择最优结果来进行上线部署。这方面可以参考的项目有MLflow，fitlog，wandb等。当然对于单独的项目来说，可能online Excel就能满足需求了 :)

自我考核：在实际项目中实行一套标准的实验记录手段，并能从中找出各类实验尝试带来的精度提升的top 5分别是哪些操作。

Serving

目前我们的serving大多数是离线batch预计算的形式，所以主要依赖的技术手段是各类离线inference的方法，例如直接使用model predict接口，使用mmlspark等做大规模并行inference等。如果涉及到在线serving，情况会更加复杂，例如在线pipeline的运行，实时特征获取，low latency/high throughput的serving服务等，可以参考TF Serving，MLeap，H2O，PredictionIO，PMML/PFA/ONNX等开发标准模型格式等。

自我考核：部署一个实时预测服务，能够根据用户输入产生相应的预测结果。

CI/CD

软件工程中的持续集成，持续部署已经成为一种标准实践，在算法项目中，额外引入了数据这个维度的复杂性，带来了一些新的挑战。在这个方向上，几个主要话题包括自动化测试，pipeline打包部署，持续监控运维等，可以参考Martin Fowler关于CD4ML的文章。工具系统层面，可以学习传统的Jenkins，也有一些新选择例如CircleCI，GoCD，VerCD（Uber）等。

自我考核：通过Jenkins实现pipeline自动测试，打包，上线流程。

系统监控

在整个项目上线后，需要对系统的各个环节进行监控，并对各种异常情况作出响应。例如输入数据的监控，判别测试数据与训练数据的分布是否有偏移，整个运行pipeline的监控，判别是否有运行失败抛出异常的情况，对于预测输出的监控，确保没有异常的预测输出值，也包括对于系统计算资源等方面的监控，确保不会因为资源不足导致业务受到影响等。在监控信息收集，基础上，还需要配套一系列的自动告警通知，日志追踪排查等。这方面的工具框架包括TF data validation这类专门针对算法项目的新产品，也有elasicsearch + kibana这类传统产品。

自我考核：将三个项目中做过的问题排查改造成常规监控手段，支持自动的问题发现，告警通知，如有可能，提供自动化或半自动化的问题排查解决方案。

MLOps系统

MLOps整体是一个比较大的话题，在这方面有很多产品和系统设计方面的实践可以参考学习。例如Uber的Michelangelo系列文章，Facebook的FBLearner，neptune.ai，dataiku，domino等，虽然没有开源，但是其背后的很多设计理念，演进思考，白皮书等都非常值得我们学习。在开源界也有很多可以参考的项目，例如MLflow，Kubeflow，Metaflow，TFX等，可以学习他们的设计理念，Roadmap，以及实现细节等。

自我考核：总结各个MLOps产品的功能模块矩阵对比，能够根据项目需求来进行产品选型与使用。

工程深入方向

数据库

数据库原理

在平时工作中，我们有大量的场景需要用到数据库。从客户数据的对接，数据集的管理和使用，到各种业务系统的数据表设计及优化等，都需要对数据库的运作原理，适用场景，运维使用，性能优化等方面有一定的了解。常见的需要掌握的概念有OLTP vs OLAP，事务，索引，隔离级别，ACID与CAP理论，数据同步，数据分片，SQL语法，ORM等。从底层原理看，会涉及到数据，索引，及日志等存储引擎方面，以及各种计算查询引擎，包括分布式系统的设计与实现。这方面推荐的学习资料有《数据库系统内幕》及《数据密集型应用系统设计》。

自我考核：能够理解SQL执行计划，并能够根据执行计划来做索引或查询调优。

关系型数据库

目前常用的关系型数据库主要是MySQL和PostgreSQL，主要需要掌握的是日常的一些SQL操作，例如DML（增删改查），DDL（创建表，修改索引等），DCL（权限相关）。在此基础上还可以进一步了解一些如数据类型，高级计算，存储引擎，部署运维，范式概念与表结构设计等方面的话题。对于高级话题这块，推荐《高性能MySQL》与《高可用MySQL》。

自我考核：在MySQL中设计相关表结构，存储实际项目中的一系列中间数据集。

NoSQL数据库

常用的NoSQL数据库有几类，KV存储（Redis），文档数据库（MongoDB），Wide-column存储（Cassandra，HBase）以及图数据库（Neo4j）。在目前我们的算法项目中，比较有可能会用到的主要是Redis这类KV存储（也可能把Cassandra之类当泛KV来用），或者更新一点的类似Delta Lake的存储系统。建议学习了解一下这类KV存储，以及分布式数据库的常见操作方式，以及基础的运维排查，性能优化方法。

自我考核：考虑一个线上模型服务的场景，用户输入作为基础特征，使用类似Redis的KV系统，实现实时获取其它特征，并进行模型预测。

云计算

基础架构

IT系统总体的发展趋势在往云计算方向演进，即使是自建的基础设施，也会采用云计算的一套构建方式，让开发者不用过多的关注底层计算存储资源的部署运维。对于应用开发者来说，需要了解一些基础架构方面的知识，例如各类虚拟化及容器技术，配置管理，容器编排等，便于在日常工作中使用相关技术来管理和发布应用。从工具层面看，Docker与k8s等技术发展速度较快，主要还是根据官方文档来学习为主。浙大之前出版的《Docker - 容器与容器云》一书中有一些更深入的话题的探讨，另外《Kubernetes in Action》中也值得一读。从方法论层面看，《Infrastructure as Code》和《Site Reiliability Engineering》是两本非常不错的学习资料。与算法应用结合的虚拟化，运维，持续集成等都是比较新的领域，需要我们探索出一条可行路线。

自我考核：对于已有的算法项目，总结制定一套开发，测试，发布，运维的标准流程，且尽可能自动化执行。

分布式存储

前些年最流行的分布式存储是脱胎于Google经典的GFS论文实现的HDFS，不过随着硬件技术的发展，计算存储分离思想的逐渐兴起，不但灵活性更高，成本更低，且各自架构的复杂度也大大降低了。因此目前更建议学习简单的object store形式的分布式存储，例如s3，minio等。在此基础上的一些存储系统，例如Delta Lake，提供了事务，高效的upsert，time travel等功能，也值得关注与学习。原理方面，还是推荐《数据密集型应用设计》这本。

自我考核：在项目中实现不同机器能够访问同一个s3路径的文件，并进行正常的数据读写，模型文件读写等功能。

分布式计算

大数据时代的分布式计算的鼻祖来自于Google经典的MapReduce论文，后续在Hadoop系统中做了开源实现，在前几年是非常火热的一项技术。目前业界的主流是Spark和Flink，前者在批处理计算中处于霸者地位，后者是流处理领域的领先者。目前我们的业务应用中，Spark是比较常用的分布式计算引擎，其基本操作相关内容比较简单，参考官方文档或者《Spark快速大数据分析》即可。后续的主要难点会有大数据量下的问题排查与性能调优，执行复杂计算或与Python相关UDF的交互配合方式等。这方面需要对Spark的系统架构，内部原理有一定了解，例如master，worker，driver，executor等之间的关系，lazy evaluation，DAG的lineage与stage概念，shuffle优化，wholestage codegen等技术细节。这方面暂时没有找到比较好的资料，主要还是依赖实际问题解决的经验积累。

自我考核：用Spark来实现项目中的特征工程，并在一定数据量情况下取得比单机Pandas更好的性能效果。

其它话题

其它云服务基础设施还包括分布式数据库，消息队列，zk/raft分布式协作系统，虚拟网络，负载均衡等。这些话题离算法应用方面会比较远一些，基本上达到遇到需求时会使用的能力即可，在这里不做展开。

算法深入方向

AutoML

超参优化

自动化机器学习中比较传统的一块是超参数优化，进而可以推广到整个pipeline的超参优化，包括数据预处理，特征工程，特征选择，模型选择，模型调优，后处理等部分。目前业界应用比较广泛的技术手段主要是随机搜索，贝叶斯优化，进化算法，Hyperband/BOHB等，在特征工程方面有Featuretools，tsfresh，AutoCross等自动化特征工程工具。学术界有一些进一步的探索研究，包括multi-fidelity优化，多任务优化，HPO结合ensemble learning，pipeline planning，data diff自动数据分布探测等方面。可以参考http://automl.org上的各类参考资料与书籍进行学习了解。主要难点包括automl算法的泛化能力，scalability，整体pipeline组合的搜索与生成，针对不同学习算法的自动优化手段等。

自我考核：了解超参优化的基础概念，能够在项目中应用框架工具来实现模型超参的贝叶斯优化流程。

元学习

Meta learning是近年来非常活跃的一个新兴领域，其主要思路是希望能通过元学习模型方法，去积累建模调优的先验知识，跨任务推断模型效果并warm start新的训练任务，或者指导学习算法来进行更高效的具体任务的训练过程。这方面在工业界的主要应用基本上集中在建模调优先验知识的积累方面，比如通过一系列公开数据集搜索寻找出表现较好的起始参数，用于指导在新任务上做超参优化的起始搜索点。学术研究中除了configuration space的研究，还包括从learning curve中进行学习推断，元特征提取与建模，HTN planning在pipeline构建中的应用，以及MAML等few-shot learning方向的探索。这方面推荐Lilian Weng的一系列文章（https://lilianweng.github.io/lil-log/2018/11/30/meta-learning.html），以及http://automl.org网站上的资料。

自我考核：设计一系列meta feature与meta learning手段，实现对新任务的参数选择的初始化。

NAS

AutoML领域比较火，但也是比较特别的一个方向，目前需要大量的计算资源投入才能做这方面的研究与尝试，因此主要建议了解一下这个方向的一些工作即可，不做深入探索学习。

AutoML系统

自动化机器学习相关的框架工具也非常多，比较有代表性的框架有auto-sklearn(来自http://automl.org团队)，nni(microsoft)，auto-gluon(amazon)，H2O，ray tune等，在工具级别也有如hyperopt，SMAC3，featuretools等。可以通过学习这些工具框架，了解AutoML系统的架构与实现方式，并应用到实际项目中。

自我考核：使用一种AutoML系统来进行项目的模型自动优化，并与手工优化的结果进行比较，看是否有所提升，及寻找背后的原因。

模型解释

模型解释技术

主要有三个方面，一是模型本身的解释性，例如线性回归，决策树等，模型结构简单，根据其原理，可以直接对预测结果，特征使用等方面给出解释。另外一些复杂模型，例如EBM，神经网络，Bayesian rule lists，SLIMs等，也可以利用一些本身的特性给出一些解释，例如GradCAM方法等。二是模型无关的解释方法，包括经典的PDP，ICE等特征图，LIME等surrogate model方法，以及基于博弈论的Shapley方法。三是基于sample的解释方法，例如conterfactual explanations，adversarial examples，prototypes，influential instances，kNN等，不过看起来这类方法对于计算的开销一般都会比较大，不太容易在工程中实现落地。这方面的资料可以学习《Interpretable Machine Learning》和《Explainable AI》（关于深度学习的内容会更多）。另外学术界也有很多前沿探索，比如针对模型解释的降维工作，自动的时间序列分析及报告生成，因果模型，模型公平性及社会影响等方面，可以保持关注。

自我考核：理解LIME，Shapley的运作原理，并分析其局限性，尝试提出改进方案。

模型解释应用

从工具框架方面，有许多可以使用的开源项目，例如微软的interpret，eli5，shap，AIX360等。另外也有一些非传统意义上的模型解释，例如manifold，tensorboard这类模型debugging工具，自动化的误差分析与模型改进方案，因果模型框架，模型公平性评估与纠正工具等，都可以涵盖在广义的模型解释领域中。在工具基础上，如何结合业务领域知识，给出更有针对性的解释方案，也是值得思考深挖的方向。

自我考核：使用shap，eli5等工具来进行模型解释，并在此基础上形成面向开发者的模型debug，误差分析及改进方案，或形成面向业务的what-if分析看板。

总结

目前机器学习应用领域还在高速发展与演进过程中，除了上述提到的技能方向，后续很可能会不断有新的主题引入进来，需要练就快速学习并应用落地的能力。在掌握前面编程，软件工程，机器学习的基础上，后半部分的研究方向，大家可以根据个人兴趣，选择几个进行深入探索与实践。仅阅读相关书籍和文章，只能对知识内容有一个初步的认识，必须要通过深入的动手实践，反复试错思考和修正，才能逐渐内化为自己的技能，并构建起较为坚实的知识体系。

================================

文中提到的算法深入方向中的AutoML部分，也整理了一篇文章出来，欢迎感兴趣的朋友们来一起探讨：

字节：走马观花AutoMLzhuanlan.zhihu.com

模型解释方面的简单介绍也已火热出炉，欢迎围观：

字节：初探Explainable AIzhuanlan.zhihu.com

你可能感兴趣的:(python,dfs算法,算法工程师)

python 定时任务框架 assless python 自动化相关 python 定时任务 APSchedule 自动化测试
python定时任务框架如果想实现自定义定时任务框架，可以看看下面转载的文章写的很详细传送门=>APScheduler定时框架
（基础）Python实现定时任务的八种方案详解程序员-不秃头的阿焕 python 开发语言后端
在日常工作中，我们常常会用到需要周期性执行的任务，我们可以用Python直接实现这一功能。今天我们来学习一下这些基本的操作，有需要了解更多关于python相关知识的，免费领取资源的，请点击这个链接。目录利用whileTrue:+sleep()实现定时任务使用Timeloop库运行定时任务利用threading.Timer实现定时任务利用内置模块sched实现定时任务利用调度模块schedule实现
强化学习中，为什么用AC架构资源存储库算法强化学习算法
目录强化学习中，为什么用AC架构为什么用AC架构？AC架构的工作原理AC架构的优缺点优点：缺点：相关算法：基于AC架构的算法总结强化学习中，为什么用AC架构在强化学习（ReinforcementLearning,RL）中，AC架构（即Actor-Critic架构）是一种非常常用的架构，用于训练智能体（Agent）在环境中执行任务。AC架构结合了策略梯度方法和价值迭代方法，通过分离策略和价值函数的估
anaconda 安装后找不到prompt 刘凑华 prompt python 开发语言
解决方法，用cmd进入anaconda的安装目录，然后输入如下命令python .\Lib\_nsis.py mkmenus
Qutebrowser：Python程序员的浏览器利器东方佑量子变法 python
引言在日常工作中，我们常常会遇到一些重复性的操作，比如每天打开固定的几个网页，或者需要频繁地对网页进行截图。如果你是一位Python开发者，并且希望有一种更高效的方式来处理这些任务，那么今天介绍的Qutebrowser绝对会让你眼前一亮。Qutebrowser是一个基于Python和PyQt开发的键盘驱动浏览器，它不仅支持Vim风格的快捷键操作，还允许用户通过编写Python脚本来扩展其功能。接下
Python GUI编程(Tkinter框架) chunyublog python 开发语言
1.Tkinter是什么？Tkinter是Python的标准GUI（图形用户界面）库，它是Python的Tcl/TkGUI工具包的包装器。Tkinter允许Python程序员快速创建GUI应用程序，而无需深入了解底层的图形绘制细节。2.安装TkinterTkinter通常已经预装在Python中，所以不需要额外安装。你可以在Python环境中直接导入它：Importtkinterastk不过，在某
python、JAVA等多种语言演示免费获取股票数据（实时数据、历史数据、CDMA、KDJ等指标数据）配有股票数据API接口说明文档说明 Eumenides_max python java 数据库股票API接口股票数据接口
近一两年来，股票量化分析逐渐受到广泛关注。而作为这一领域的初学者，首先需要面对的挑战就是如何获取全面且准确的股票数据。因为无论是实时交易数据、历史交易记录、财务数据还是基本面信息，这些数据都是我们进行量化分析时不可或缺的宝贵资源。我们的核心任务是从这些数据中挖掘出有价值的信息，为我们的投资策略提供有力的支持。在寻找数据的过程中，我尝试了多种途径，包括自编网易股票页面爬虫、申万行业数据爬虫，以及同花
找不到Anaconda prompt终端 AI小白（入门版） prompt python 开发语言
想打开anacondaprompt时发现文件夹和开始菜单里都找不到问题原因因为anaconda还没有初始化，在安装anaconda的过程中，有一行是否要添加anaconda到菜单目录中，由于没有勾选，导致没有菜单部分的初始化，故找不到。问题解决打开cmd，进入anaconda的安装路径，输入命令。python.\Lib\_nsis.pymkmenus然后会发现菜单目录就有了anaconda终端。
selenium+pytest自动化脚本生成报告乱码问题 xiaobawang001 selenium pytest 自动化
在运行pytest生成报告的时候，中文会显示为？如下图尝试多种修改conftest的编码格式后，未能成功，最终直接修改python路径\Lib\site-packages\pytest_html内的html_report.py将这句head=html.head(html.meta(charset="utf-8"),html.title(self.title),html_css)修改为：head=h
MacOS系统搭建Appium自动化测试环境 xiangzhihong8 前端 macos appium
一、Appium简介1.1什么是APPiumAPPium是一个开源测试自动化框架，适用于原生、混合或移动Web应用程序的自动化测试工具。APPium使用WebDriver协议驱动iOS、Android等应用程序。APPium具有如下特点：支持多平台（Android、iOS等）。支持多语言（python、java、ruby、js、c#等)。APPium是跨平台的，可以用在OSX，Windows以及L
vscode+Python便携版简易制作可以直接复制到u盘再看我把你喝掉笔记 python vscode visual studio code 编辑器
引言对于vscode和Python的爱好者，一直被复杂的开发环境所困扰，于是迫切需要一个可以将vscode和Python放置在u盘中可以不受运行环境的影响运行在不同电脑的便携方案。通过百度初步检索发现：吾爱破解论坛提供了一种需要修改pipe.exe源文件的制作方法，csdn网提供个一种通过设置bat批处理来实现便携化的方案。上述两种方案，操作相对复杂，需要一定的计算机知识，很不方便。对此提出一种更
用bash脚本激活python虚拟环境这个人很懒，还没有设置昵称... bash bash
bash脚本内容：#!/bin/bashcondaactivatenamefasta=$1echo$fasta$1就是接受的用户在命令行输入的变量，echo就是打印该变量激活办法：bash-irun.sh参考链接：https://zhuanlan.zhihu.com/p/422365954if语句判断路径是否存在：result=$1if[-f"$result"];thenmkdir$resultf
R 调用 python weixin_33971205 python json java
上一篇说了python使用rpy2调用R，这里介绍R如何调用python。R的强项在于统计方面，尤其是专业的统计分析，统计检验以及作图功能十分强大，但是在通用性方面，就远不如Python了，比如python可以做web，可以开发GUI，可以爬虫，甚至可以开发游戏，这些R其实也不是完全不行，但是在易用性方面实在是难以与Python相匹敌。所以如果要是能将R与Python相结合，充分发挥二者的优势，那
【大模型应用开发动手做AI Agent】LlamaIndex和基于RAG的AI开发 AI天才研究院 AI大模型企业级应用开发实战大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
文章目录【大模型应用开发动手做AIAgent】LlamaIndex和基于RAG的AI开发1.背景介绍1.1问题的由来1.2研究现状1.3研究意义1.4本文结构2.核心概念与联系LlamaIndexRAG联系3.核心算法原理&具体操作步骤3.1算法原理概述LlamaIndexRAG3.2算法步骤详解LlamaIndexRAG3.3算法优缺点LlamaIndexRAG3.4算法应用领域4.数学模型和公
chatgpt赋能python：Python怎么安装到U盘 vacvefito ChatGpt chatgpt 人工智能计算机
Python怎么安装到U盘在日常的编程工作中，Python是一门十分常用的编程语言。而有时候并非每个人都愿意在电脑上安装Python，或者在外出时需要借助一台非自己的电脑来进行Python编程。因此，将Python安装到U盘成为一个方便实用的选择。为什么要将Python安装到U盘将Python安装到U盘可以让我们在不同设备上进行Python编程，而不用担心设备内是否已经安装了Python。这样可以
chatgpt赋能python：在U盘上安装Python开发环境教程 tulingtest ChatGpt chatgpt python 开发语言计算机
在U盘上安装Python开发环境教程如果你是一位Python开发人员，那么你肯定知道，为了成功地开发和运行Python程序，需要安装Python开发环境。然而，对于很多人来说，它们的工作地点可能不支持安装软件，或者他们需要在多个设备上使用Python开发环境。针对这些情况，将Python开发环境安装到U盘上就成了必要的。优点使用U盘上Python开发环境的好处如下：灵活性：可以在任何地方使用Pyt
centOS安装python3 梦中生花 centos linux python
centOS(7.7.64)安装python3.7.2centos7自带版本是python2.7先查看系统python的位置whereispythonpython2.7默认安装是在/usr/bin目录中cd/usr/bin#切换到/usr/binllpython*#查看python文件及其软连接从下图中我们可以看到：python指向python2，python2指向python2.7我们要删除py
chatgpt赋能python：如何在U盘上下载安装Python？ sc17332889342 ChatGpt chatgpt python 开发语言计算机
如何在U盘上下载安装Python？随着Python语言在全球范围内的流行和广泛使用，越来越多的程序员、工程师和开发者需要从不同的设备上去下载Python，以便在其电脑上使用。然而，在某些环境下，电脑或工作站的管理权限受限，因此无法自由安装和使用Python。那么，如何在没有管理员权限和完整安装包的情况下，在U盘上下载并安装Python呢？步骤1：下载Python安装程序在任何电脑上都可以下载Pyt
PowerShell 激活 activate 命令切换Python虚拟环境南七小僧网站开发 AI技术产品经理人工智能 python 开发语言
使用如下命令可以创建新的conda环境:condacreate-nenvname然后使用如下命令就可以激活虚拟环境:#winactivateenvname#linuxsourceactivateenvname但是在日常使用过程中,发现存在一个问题,windows激活虚拟环境的命令在cmd中可以正常使用,但是在powershell中使用就存在一些问题,总之无法正常运行.使用如下方法解决:1.安装如下
2022年最新【Java八股文背诵版面试题】面试必备，查漏补缺；多线程+spring+JVM调优+分布式+redis+算法 Java面试_ Java java 面试 jvm
前言春招，秋招，社招，我们Java程序员的面试之路，是挺难的，过了HR，还得被技术面，小刀在去各个厂面试的时候，经常是通宵睡不着觉，头发都脱了一大把，还好最终侥幸能够入职一个独角兽公司，安稳从事喜欢的工作至今...近期也算是抽取出大部分休息的时间，为大家准备了一份通往大厂面试的小捷径，准备了一整套Java复习面试的刷题以及答案，我知道很多同学不知道怎么复习，不知道学习过程中哪些才是重点，其实，你们
chatgpt赋能python：U盘安装Python——一种简单高效的Python学习方式 findyi123 ChatGpt chatgpt python 学习计算机
U盘安装Python——一种简单高效的Python学习方式介绍Python作为一门实用性和易学性极高的脚本语言，在软件开发、数据分析等领域有着广泛的应用。很多初学者会选择安装Python解释器和相关IDE工具进行学习和实践。然而，如果你只是想快乐地学习Python，并且不想折腾复杂的环境配置和软件安装，那么可以考虑使用U盘安装Python，一种简单高效、随时随地可以学习Python的方式。步骤下载
chatgpt赋能python：将Python装进U盘：给程序员的便携指南 aijinglingchat ChatGpt chatgpt python 开发语言计算机
将Python装进U盘：给程序员的便携指南如果您是一个程序员或者开发人员，您可能经常需要在不同的电脑上使用Python。从编写代码到测试，您需要在不同的操作系统上运行和测试您的代码。因此，我们为您准备了一个便携式解决方案：将Python安装在U盘上。在本文中，我们将详细介绍如何在U盘上安装Python，并讨论其优点和缺点。步骤1：下载Python首先，您需要从Python官网（https://ww
RAG技术架构深度解析（非常详细）零基础入门到精通，收藏这一篇就够了 Python_chichi 程序员互联网大模型架构人工智能机器学习语音识别
本文主要介绍了RAG技术架构在AI编程中的创新应用及其面临的挑战。文章深入分析了RAG技术架构的兼容性、实时性和智能化水平等方面的问题，并提出了相应的改进措施，如加强标准化建设、引入实时数据处理技术和先进算法模型。同时，文章预测了RAG技术架构在智能化水平持续提升、跨领域融合加速以及数据隐私与安全保障方面的未来发展趋势。最后，文章回顾了RAG技术在AI编程领域的应用成果，并展望了其广阔的应用前景，
python虚拟环境 L888666Q Python python 开发语言
1.创建并激活虚拟环境首先，你需要有一个Python虚拟环境。如果你还没有创建，可以使用venv（Python3.3及更高版本内置）或virtualenv（第三方库）来创建一个。使用venv（推荐Python3.3及以上）#创建一个名为venv的虚拟环境python3-mvenvvenv#激活虚拟环境（Windows）venv\Scripts\activate#激活虚拟环境（Unix或MacOS）
【第十天】零基础入门刷题Python-算法篇-数据结构与算法的介绍-两种常见的字符串算法（持续更新） Long_poem 算法 python 哈希算法
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、Python数据结构与算法的详细介绍1.Python中的常用的字符串算法2.字符串算法3.详细的字符串算法1）KMP算法2）Rabin-Karp算法总结前言提示：这里可以添加本文要记录的大概内容：第一天Python数据结构与算法的详细介绍第二天五种常见的排序算法第三天两种常见的搜索算法第四天两种常见的递归算法第五天一种
【软件工具】如何在在 CentOS 中安装 Python 3 阿寻寻软件工具 python centos 开发语言
如何在在CentOS中安装Python3一、方法1:使用`yum`安装（CentOS7及以上）步骤：方法2:使用SoftwareCollections(SCL)安装（适用于CentOS7）步骤：方法3:从源代码编译安装（适用于高级用户）步骤：方法4:使用`pyenv`安装（适用于多版本管理）安装`pyenv`：总结二、1.**开发工具包**2.**必备依赖包**3.**Python特定依赖包**4
【2024年华为OD机试】(C卷,100分)- 悄悄话（Java & JS & Python&C/C++）妄北y 算法汇集笔记总结(保姆级)华为od c语言 java python javascript
一、问题描述题目描述给定一个二叉树，每个节点上站一个人，节点数字表示父节点到该节点传递悄悄话需要花费的时间。初始时，根节点所在位置的人有一个悄悄话想要传递给其他人，求二叉树所有节点上的人都接收到悄悄话花费的时间。输入描述给定二叉树的层序遍历序列：0920-1-1157-1-1-1-132注：-1表示空节点。输出描述返回所有节点都接收到悄悄话花费的时间。38用例输入0920-1-1157-1-1-1
Python的绝对引入和相对引入 wildland python
Python的绝对引入和相对引入绝对引入相对引入参考于：https://www.bilibili.com/video/BV1EK411g7Ff在python中有一些常见的概念，并且这些概念可能会被混淆：脚本（script）：一个python文件，可以直接运行用于实现特定的功能。通常不包含类和函数，只是用来执行。模块（module）：也是一个python文件，通常包含了一些类和函数，用来被其他文件引
Python 函数魔法书：基础、范例、避坑、测验与项目实战李智 - 重庆 Python 精讲精练 -从入门到实战 python 经验分享编程技巧编程实战水平考试
Python函数魔法书：基础、范例、避坑、测验与项目实战内容简介本系列文章是为Python3学习者精心设计的一套全面、实用的学习指南，旨在帮助读者从基础入门到项目实战，全面提升编程能力。文章结构由5个版块组成，内容层层递进，逻辑清晰。基础速通：n个浓缩提炼的核心知识点，夯实编程基础；经典范例：10个贴近实际的应用场景，深入理解Python3的编程技巧和应用方法；避坑宝典：10个典型错误解析，提供解
Python 安装包时 VC 14 找不到错误终极解决办法 suirosu python windows microsoft
pythonsetup.pybdist_wheeldidnotrunsuccessfully.修改源码:M:\work\tool\Python39x64\Lib\site-packages\setuptools\msvc.py中函数def_msvc14_find_vc2017():下代码:try:path=subprocess.check_output([join(root,"MicrosoftV
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri