百度Geek说

百度搜索万亿规模特征计算系统实践

作者 | Jay

导读

本文主要介绍百度搜索在全网万亿级规模内容做内容理解的工程实践，涉及机器学习工程化、资源调度、存储优化等多个Topic。

全文6648字，预计阅读时间17分钟。

01 业务背景

百度收录了互联网海量内容，要索引这些内容，需要先对内容做深度理解，提取包括内容语义、内容质量、内容安全等多维度信息，从而进一步支持内容筛选过滤、语义建库等需求。对全网海量内容做深度理解，挑战是非常大的，主要是体现在成本和效率上。

在成本上，计算量非常大，除了因全网内容数据量大（万亿规模）、特征数多外，有两个趋势也加剧了计算压力，一方面是互联网内容图文化、视频化比例持续大幅增长，图片/视频的计算量远大于文本，另一方面，深度学习技术大规模应用，特别近期大模型的兴起，对算力需求也随之剧增。在效率上，怎么让系统更易用，尽可能地提升业务迭代效率，是所有工程系统的核心目标之一。

02 关键思路

（1）成本优化：要满足如此庞大的算力需求，需要极致地『开源节流』。

1.『开源』：尽可能扩大计算资源池，通过采购来满足ROI低，挖潜现有资源是关键。从公司整体看，资源使用并不充分，在线资源存在波峰波谷，库存空闲资源也不少，而我们大多为离线计算，对资源稳定性要求不高，可以结合两者，建设一套弹性计算调度系统来解决资源问题。

2.『节流』：尽可能优化服务性能，降低单位计算成本，模型推理计算量大，但本身有较大的优化空间，结合模型结构和GPU硬件特点进行优化，可以大幅提升模型服务单卡吞吐。此外，优化CPU处理、使用百度自研昆仑芯片等多种方式也能降低单位成本。

（2）效率优化：如图所示，整体业务流程包括实时和离线计算两部分，新增特征需对存量数据离线刷一遍，而对Spider新收录的数据，会筛选高时效性的数据实时计算，其余的也离线计算，计算大头在离线部分。效率问题主要为：怎么支持模型快速工程化？怎么提升离线计算效率？

1.模型服务框架&平台：模型工程化是通过统一的模型服务框架和配套的模型服务平台来实现，模型服务框架和平台支持并涵盖从构建、测试、上线等模型服务全生命周期的各个环节。

2.特征批量计算平台：为了离线特征计算效率问题，建设了统一的批量计算平台，分析并深度优化从离线任务开发到计算过程中各环节的效率和性能瓶颈，尽可能地提升效率。

03 技术方案

3.1 整体架构

整体架构如下图所示，最核心的是模型服务平台、批量计算平台、计算调度系统、模型服务框架这几部分。

1.模型服务框架：算法同学使用统一的模型服务框架进行服务封装，基于研发效率考虑，选择Python作为框架语言，但Python性能问题也很明显，因此需要做很多针对性优化。此外，我们也在框架持续集成多种推理优化手段，尽可能地降低服务单位计算成本。

2.模型服务平台：模型服务平台支持模型服务DevOps和能力输出，平台以『算子』作为管理粒度，『算子』代表一种完整功能，如视频分类等，它通常需要多个模型服务组合使用。算法同学在平台注册算子，提供服务拓扑等元信息，也通过自动性能调参、自动化压测等生成性能报告，服务拓扑和性能报告是后续调度的重要输入。平台也提供算子检索、调研试用等功能，以中台化方式支持其他业务需求。

3.计算调度系统：计算调度系统做流量和资源的统一调度，所有对模型服务的请求都会经过计算调度系统的网关，执行流控和路由等流量策略，计算调度系统也会调度百度多个PaaS的多种空闲异构资源，自动化部署合适的算子，给离线计算提供更大吞吐。

4.批量计算平台：批量计算平台支持离线作业的任务生成、任务调度、DevOps等功能，建设基于HTAP的存储方案，解决Scan吞吐瓶颈问题，并联动计算调度系统，支持大规模离线计算。

3.2 技术关键点

本章节主要阐述系统技术关键点，包括遇到的技术难点、思考和权衡折衷，一些共性问题也期望读者能和我们多多交流。

3.2.1 模型服务框架

在实际业务场景，模型服务框架有几个关键问题需要解决：业务编程模型、Python服务性能优化、以及推理性能优化，下面介绍。

3.2.1.1 业务编程模型

实现某个功能往往需要组合使用多个模型和多种数据处理逻辑，为了抽象表达处理流，实现通用逻辑复用，采用方案如下：

将业务逻辑描述成DAG（有向无环图），DAG上的节点称为Op，DAG有多个Op组成，Op之间存在串联和并联关系，一个OP可以是模型推理或者一段处理逻辑，Op之间通过数据白板进行上下文传递。通过DAG能清晰地呈现整体处理流程，提升代码可读性和可维护性。
建设通用Op库，像模型推理、视频抽帧、视频转换等通用逻辑被整合成通用Op库，支持业务复用。业务也可根据需要，定制扩展Op，并注册到框架使用。

3.2.1.2 Python服务性能优化

选择Python降低了开发成本，但也引入了Python GIL（全局解释器锁）问题，导致不能充分利用CPU多核，极大限制了服务吞吐，解决方案如下：

采用多进程+异步协程+CPU/GPU计算分离的并发方案，服务包含三类进程：RPC进程、DAG进程、模型进程，它们之间通过共享内存/显存进行数据交互。
PRC进程负责网络通讯，基于BRPC开发（开源版本：https://github.com/apache/brpc ），我们优化了BRPC的Python实现，使其支持Python多进程和协程的并发模式，在实际业务场景测试下，优化后性能提升5倍+。
DAG进程负责DAG执行（CPU处理），通过多DAG进程和Op执行异步协程化来充分利用CPU多核。另一个比较重要的是ModelOp，它实际是推理代理（类似RPC），真正推理是在本地模型进程或者远程服务执行，ModelOp屏蔽了调用细节，支持用户方便地使用模型。
模型进程负责模型推理（GPU处理），考虑显存有限等原因，模型进程和DAG进程分离独立，模型进程支持Pytorch、Paddle等多种推理引擎，并做了很多推理优化工作。由于Tensor数据通常较大，DAG和模型进程传输Tensor直接使用共享显存，避免不必要的内存拷贝。

主要有推理调度、推理优化、模型量化、模型压缩等优化手段，经过优化，服务单卡吞吐相比原生实现通常有数倍提升。

1.推理调度：动态批量处理（DynamicBatching）和多Stream执行。GPU批量计算效率更高，由于服务也接受实时单条请求，没法请求时拼Batch，因此采用服务内缓存拼Batch，牺牲时延换吞吐。Stream可看做GPU任务队列，默认全局单条，任务串行执行，会出现GPU IO操作（内存显存互拷）时，计算单元闲置，通过创建多Stream，不同推理请求走不同Stream让IO和计算能充分并行。

2.推理优化：业界主流方案是使用TensorRT，但是实际应用会有动态图静态化失败、TensorRT Op覆盖不全等问题。为解决这些问题，团队自研Poros（开源版本：https://github.com/PaddlePaddle/FastDeploy/tree/develop/poros ），结合TorchScript、图优化、TensorRT、vLLM等技术，实现无需复杂模型转化，添加几行代码即可大幅提升推理性能，效率和性能双赢，同时Poros也支持昆仑等异构硬件。

3.模型量化：GPU、昆仑等硬件对低精度都有更强的算力，量化虽有少量效果损失，但带来大幅吞吐提升，因此，上线都会采用FP16乃至INT8/INT4量化，这部分也是通过Poros支持。

4.模型压缩：通过模型蒸馏、模型裁剪等方法精简模型参数，减少计算量，但是需要训练，且效果有损，通常和算法同学一起合作优化。

3.2.2 计算调度系统

计算调度系统的运行架构图如下，所有请求流量都通过统一的网关（FeatureGateway），网关支持流控、路由等多种流量策略。离线作业也通过网关提交计算需求，网关会将需求转发给调度器（SmartScheduler）进行调度。调度器对接了百度内多个PaaS，不断检测空闲资源，根据需求、多种指标、空闲异构资源分布等，自动化调度部署合适的算子，算子元信息从服务平台获取，调度完成后，调度器会调整网关的流控和路由等。

系统比较关键的两个问题：怎么实现算子（复合服务，含复杂服务拓扑）自动化部署？怎么在流量分布不稳定、多异构资源等复杂条件下进行调度？

3.2.2.1 自动化部署

为简化调度器开发复杂度，采用声明式编程，实际是基于k8s controller机制开发。算子自动化部署实现方案如下：

1.CRD扩展：利用K8S CRD来自定义ServiceBundle（算子部署包）等对象，通过controller机制让在PaaS等外部系统执行部署等操作。ServiceBundle包含了算子需要的所有子服务部署信息，以及其拓扑关系。调度创建算子服务时，会从最底层开始逐层创建子服务，上层子服务可以通过通信托管机制获得下游子服务地址。

2.通信托管：通信托管机制是基于配置中心和模型服务框架实现，服务启动命令会带有远程配置地址和AppID，通过加载远程配置可以实现下游服务地址启动时变更。其实更理想方案是使用ServiceMesh等技术将架构能力和业务策略解耦，但考虑我们要在多PaaS部署，而在各个PaaS都部署ServiceMesh SideCar等组件成本较高，集成到框架又过于重，因此，先建设基于配置中心的方案，后续时机成熟再考虑迁移。

3.2.2.2 调度设计

调度是个非常复杂的问题，在我们场景，其复杂性主要体现在以下几方面：

1.算子调度：算子（复合服务）可承载流量取决于其最短板的子服务容量，调度时需要整体考虑，避免长板服务资源浪费。

2.流量分布变化：部分算子的性能会受输入数据分布影响，如视频OCR会受视频时长、画面文字比例影响，调度时需要自适应调整。

3.多异构硬件：算子有些能支持多种异构硬件（昆仑/GPU/CPU等），有些只能绑定一种，怎么分配才能保证全局资源最有效利用。

4.其他因素：作业优先级、资源优先级、资源波动等因素也都会影响调度，实际调度要考虑的因素非常多元化。

基于以上因素考虑，我们的调度设计方案如下：

1.两阶段调度：分流量调度和资源调度两阶段，各自独立调度。流量调度负责对当前算子服务容量分配到各个作业，并结果同步到网关，调整流量策略；资源调度负责根据资源空闲情况和算子容量缺口等进行调度，最终对算子服务实例进行扩缩容。

2.流量调度：流量调度Adjust阶段会根据任务运行指标等调整归一化系数，再用系数将任务所需Qps映射成NormalizedQps，NormalizedQps是后续所有调度的依据，从而解决流量分布变化影响问题。在Sort阶段会根据作业优先级等排序，在Assign阶段会根据Sort结果，按优先级将现有算子容量分配到各个作业。Bind阶段会将结果执行，同步路由等到网关。

3.资源调度：资源调度Prepare阶段会先将作业的容量缺口转换成对应服务实例数缺口；接着进行HardwareFit，将要扩容的服务分配到合适的硬件资源队列，并根据资源稀缺性、计算性价比等进行Sort；然后进行PreAssign，对各子服务进行资源预分配，最后GroupAssign阶段考虑复合服务的各子服务调度满足度，对复合服务的各子服务容量进行细调，避免资源浪费。

3.2.3 批量计算平台

批量计算平台要解决的问题：弹性资源比较充裕时（如夜间），对Table（分布式表格系统）的Scan吞吐瓶颈，以及怎么尽可能地优化离线任务效率，下面介绍具体解决方案。

3.2.3.1 HTAP存储设计

先分析对Table Scan慢的原因，主要如下：

1.读写混合：OLTP（抓取更新等）和OLAP（特征批量计算等）需求都访问Table，多种读写方式混合，而底层采用HDD存储，大量读写混合使磁盘IO吞吐严重下滑

2.Scan放大：Table采用宽表结构存储，不同任务Scan时通常只需要其中的某几列，但Table Scan时需要读取整行数据再过滤，IO放大严重。

3.扩容成本高：由于OLTP和OLAP混合读写，要为Scan单独扩容成本高，同时因读写比例难以固定，也很难预估扩容资源。

通过上述分析可知，关键问题还是OLTP/OLAP混合使用Table。参考业界实践，采用单一存储引擎难以同时满足OLTP和OLAP场景，但为了存储系统易用性，又希望一套存储系统同时支持两种场景。因此，我们结合业务场景和业界经验，实现一个HTAP存储方案，具体方案如下：

1.OLAP/OLTP存储分离 ：针对批量计算等OLAP场景建设高效OLAP存储，减少因OLAP/OLTP混合使用Table带来的读写混合问题，也可根据需求单独扩容。

2.高效OLAP存储设计：自研OLAP存储基于Rocksdb、AFS（百度类HDFS）构建，采用增量同步、行数据分区、列数据动态合并存储的设计，将Table全量数据划分成N个数据物理分区，利用Table的增量Snapshot定期高效同步更新OLAP存储数据（由于Table底层采用LSM存储，增量Snapshot效率远高于全量Scan）。列存储根据字段访问热点重新组织，将热点列在物理层一起存储，降低IO放大，也支持动态调整。方案会存在数据同步延时问题，但在我们场景，时效性要求不高，问题可以忽略。

3.HTAP SDK：提供统一的SDK同时支持对Table和OLAP存储访问，用户基于SDK可以同时执行自己的OLAP和OLTP任务。

3.2.3.2 任务生成与调度

为了简化批量计算任务的开发，平台目前提供了三种任务开发模式：配置化、KQL、离线框架，开发自由度/成本由低到高，易用性由高到低：

配置化：针对通用并频繁使用的任务类型，平台对这些任务进行高度封装，只需要在Web界面上配置即可生成任务。
KQL：KQL是自研的类SQL语言，提供多种通用函数，并支持自定义函数（类似Spark UDF），用户可以通过KQL查询和处理数据。

Function classify = {
def classify(cbytes, ids):
    unique_ids=set(ids)
    classify=int.from_bytes(cbytes, byteorder='little', signed=False)
    while classify != 0:
        tmp = classify & 0xFF
        if tmp in unique_ids:
            return True
        classify = classify >> 8
    return False
}

declare ids = [2, 8];
select * from my_table
convert by json outlet by row filter by function@classify(@cf0:types, @ids);

离线框架：框架提供包括数据读写、通用转换等功能，用户按照框架规范自定义逻辑并生成离线任务部署包提交平台，平台进行任务调度。

除了以下几种方式，平台也在尝试结合大模型实现基于自然语言的任务生成。实际上，无论采用哪种方式，最后生成的离线任务都是基于离线框架，只是根据更具体的场景提供了更高度的封装而已。

任务生成后，会将任务调度到MapReduce或者FaaS平台执行，不同任务生成方式在调度前的预处理有所不同，比如KQL任务需要先做KQL解析再生成实际任务做调度，而业务通过框架开发的任务比较容易出现各种非预期问题，所以走自动化准入等DevOps流程。任务执行时，会先向计算调度系统提交需要的算子以及期望吞吐，之后不断向网关获取要可用Quota，并结合当前任务实例数、失败率等，自适应调整请求投递速度。

04 总结

当前系统支持搜索出图、视频搜索、图片搜索等十多个业务方向，支持数百个算子的研发和上线，天级数百亿的计算调用，支持全网万亿规模内容特征的例行更新。随着AI大模型时代的到来，带来很多新的场景和挑战，有很多点值得重新思考，后续我们将结合大模型进行更多的探索。

招聘

部门多个职位火热招聘，ANN检索工程师、模型优化工程师、分布式计算研发工程师等，欢迎愿意拥抱挑战，具备优秀分析问题、解决问题能力的人才加入~

招聘邮箱：[email protected]

——END——

推荐阅读

通过Python脚本支持OC代码重构实践（三）：数据项使用模块接入数据通路的适配

百度搜索智能化算力调控分配方法

百度搜索深度学习模型业务及优化实践

UBC SDK日志级别重复率优化实践

文生图大型实践：揭秘百度搜索AIGC绘画工具的背后故事！

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
网易严选官方旗舰店，优质商品，卓越服务高省_飞智666600
网易严选官方旗舰店是网易旗下的一家电商平台，以提供优质商品和卓越服务而闻名。作为一名SEO优化师，我将为您详细介绍网易严选官方旗舰店，并重点强调其特点和优势。大家好！我是高省APP最大团队&联合创始人飞智导师。相较于其他返利app，高省APP的佣金更高，模式更好，最重要的是，终端用户不会流失！高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
2022现在哪个打车软件比较好用又便宜实惠的打车软件合集高省APP珊珊
这是一个信息高速传播的社会。信息可以通过手机，微信，自媒体，抖音等方式进行传播。但同时这也是一个交通四通发达的社会。高省APP，是2022年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。珊珊导师，高省邀请码777777，注册送2皇冠会员，送万元推广大礼包，教你如何1年做到百万团队。高
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
如何成为段子手欣雅阅读
我是一个尬聊大师，与朋友聊天经常把话题聊死，留我一个人在群里，望着自己打下的最后一句话无语凝噎。看到风趣幽默的朋友与人聊天，很是艳羡，觉得自己何时才能成为这样的段子手呢？一、段子是什么？“段子”一词在百度百科上的解释：本是相声中的一个艺术术语，指的是相声作品中一节或一段艺术内容。我的理解：段子就是一些搞笑的故事或者笑话。二、为什么要会说段子？不知道大家有没有这样的朋友，本来很无趣的聚会，只要有他参
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理