SelectDB技术团队

知乎基于 Apache Doris 的 DMP 平台架构建设实践｜万字长文详解

导读：知乎基于业务需求搭建了 DMP 平台，本文详细的介绍了 DMP 的工作原理及架构演进过程，同时介绍了 Apache Doris 在 DMP 平台的应用实践，本文对大家了解 DMP 工作方式很有帮助，欢迎阅读。

作者｜用户理解&数据赋能研发 Leader 侯容

DMP 业务背景

DMP 平台是大家老生常谈的话题。在早期广告系统出现之后就拥有了类似的 DMP 平台，比如：腾讯的广点通、阿里巴巴的达摩盘等都是业界做的比较好的 DMP 平台典型。而知乎搭建属于自己的 DMP 平台，一方面是因为知乎有相关的站内运营业务；另一方面也是因为我们可以通过搭建 DMP 平台支持内部系统对接、同时还可以协助完成相关业务发展以及定制化需求建设的目的。

DMP 业务包含：业务模式、业务场景以及业务需求。

图1.1 DMP业务

DMP 平台设计的方向：为了找到我们的核心客户，并在后续对我们的核心客户完成如广告投放等营销操作，让核心客户跟我们的内容之间能够有更好的匹配。

业务模式

DMP 平台业务模式

从站外转站内。典型场景是广告主在进行广告投放的过程中，如何通过 Mapping 将可能出现的站外人群转到站内，并在站内的系统上承接这些用户包。
从站内转站外。在知乎内先找到定向用户后再去用这些用户在三方投广告。
站内运营。包括内容运营，用户运营以及活动运营。一方面可以增加知乎相关内容的宣传，另一方面进行客户定位并精准解决某些客户的问题与需求。与此同时，我们也可以通过活动设计来提升业务效果。

业务场景

基于这三种业务模式，主要应用的业务场景：

信息流方面。拿推荐场景举例：推荐场景中会有定向推荐以及定向提权两种诉求。定向推荐是我们把推送内容定向推送给某些用户，而定向提权是我们把推送内容在被推送的用户身上完成提权并重新打分。
广告侧实时竞价。得知该用户身上挂了哪些广告之后可以进行实时竞价，通过排序选出最适合该用户的广告。
详情页。详情页中会有弹窗提示：比如说某个用户点击某个详情之后，若该用户没有达到目标条件，会弹窗引导来该用户达到条件。
活动平台。设置活动的目标用户。针对不一样的目标群体，展示不同的活动信息。
触达系统。比如在推送消息、弹窗和短信时，可以拿到一类具体的用户，之后向该类用户进行发布相应的 Push 和站内信等。
站外投放。找到合适的用户群并在站外为其投放相应的广告。

业务需求

基于业务模式场景，在人群方面能做的事情可以分为三类：

对接系统

一般分为以下 3 种情况：

该用户命中了哪些人群包。拿广告系统为例，该人群包 ID 可以 Mapping 成一个广告，也就是该用户命中了哪些广告。
内部人群包。人群包对内部而言就是把内容推荐给谁，或者给谁发布内容的 Push。
对外部的广告。当我们筛选出一类用户需要投放在站外时，这时候就是在使用对外部的人群包。对于这两个人群包之间的区别而言，人群 ID 会有不同：一种是站内的通用 ID，另外一种是基于不同投放平台上对应的对外 ID。

人群定向

人群定向包括导入/导出、基于某些特征进行标签圈选、人群泛化、用户量预估等。

人群泛化，拿到比较小的种子人群包后，基于规则寻找相似特征，再通过对相似特征的置信度进行调整，扩展更多的人群。
用户量预估，选中一批用户后需要立即了解这批用户的数量有多少。

人群洞察

包括画像洞察，用户的内部画像以及两个不同人群包之间的对比分析。

业务流程

由于当前 DMP 业务的三种场景面向人群不同，会提供向站内与站外不同系统来完成这批人群相关的运营动作。

据此情况，我们组织人群定向功能、获取到目标用户之后进行 Mapping ，拿到用户在站内或站外投放的效果回收之后，获取目标用户进行构成分析与对比分析，进行用户洞察。若目标达成，那么本次投放顺利达成；若目标未达成，运营侧会做相关假设：是否可以再加一个特征或特殊操作进一步提升业务？提出假设之后，设计 AB 实验，经过 AB 试验后，我们又会对目标人群进行一些调整。以上就是我们的运营流程。

图1.2 DMP业务流程

站内运营自闭环

人群定向。通过标签圈选，选择历史上有活动效果或导入喜欢此活动的人群，进行泛化完成基础人群包选择，以此来确定目标人群。

进行投放。由于很多业务在推荐侧的信息流、触达系统、详情系统以及广告引擎等系统中进行对接，可以利用以上系统和业务来完成对目标用户在站内不同流量场景投放。

投放之后。获取本次投放的效果并进行分析。比如我们做的操作是发 Push，谁点击了Push、阅读时间等行为，可以分析有哪些用户更喜欢我们此次发布的 Push，从而获得目标用户的典型特征。

若此次 Push 的点击量达成推送目标，那么目标完成；若点击量没有达成目标，我们会进行一个假设，比如最初预测点击 Push 的男性＞女性，但最后得出的结果相反时，我们会通过 TGI 算法进行排序，找出这两次差别的典型特征，完成设计并产出 AB 实验。

通过 AB 实验我们可以对前后的人群包再做一次对比并发布相关的 Push。如果点击量有所提升，我们在后续过程中就会不断的完成循环，最终找到基于我们运营场景的领域的精准用户。

站内向站外投放

基于已经积累的用户特征数据，找出在知乎内部有几率产生站外效果的人群，并划出该类人群的范围。再通过 Mapping，可以把站内的 ID 转换成在三方投放平台上产出的 ID 并进行投放。

由于这个过程我们的站内系统不同，并不能直接拿到相应的埋点数据供我们进行数据链路建设，所以就必须要通过三方投放平台上下载相应的埋点数据，通过类似的场景完成数据导入后再进行后续流程的建设。这也就导致了整个过程的效果回收会比较长。

站外转站内

假如我是一名知乎站外的广告主，我要投放一个牙膏类的产品，但是我对知乎的用户并不是特别了解。通过前期所做的运营调研，可以发现历史购买牙膏的人群包是什么样子。那么就可以把前期调研所得到的人群包通过 ID Mapping 转换为知乎 ID 并导入生成目标人群。但是广告主拿到购买牙膏的人群可能存在与知乎用户重合度较低的情况。这时候启用第二个功能，也就是人群泛化功能。

人群泛化会把导入人数较少的种子人群连接到知乎，这个过程可以对用户达成的所有特征在 AI模型中完成训练。可以训练出种子人群在知乎所有用户特征下的模型是什么，之后再把所有用户的全部特征灌入得到的模型之中进行推理。这样得到带有置信度的目标用户。

若广告主认为基于之前的调研结果来看，相关目标人群在知乎中为 1,000 万左右，此时我们就可以选择对于目标用户的置信度。比如说当置信度为 0.7 时，得到结果为 2,000 万；之后我们把置信度调整为 0.8 时，得到结果为 1,000 万，此时我们就可以选择 0.8 的置信度完成广告引擎的对接并进行投放后分析效果。

基于上述运营流程，我们可以抽象出 DMP 平台最核心的功能包括洞察、定向以及 ID mapping。

画像特征

图1.3 DMP画像特征

我们根据上述的用户画像，构建出了画像特征。其中标签是最重要的部分，也是离散部分。连续部分包括了用户的停留时长以及相关的用户行为，比如：某人在某地做了什么事等，这些都属于连续特征。特征方面，在该特征还没有打上标签之前，我们会统称为普通特征。

功能梳理

图1.4 DMP功能梳理

基于DMP平台的功能，向右侧拓展为业务功能。业务功能会服务于运营、销售或站内的应用系统，包括人群定向、人群洞察以及相关的 ID Mapping。向左侧拓展是信息量巨大且十分重要的特征接入部分。

当前 DMP 平台由于单从标签方面就有 250 万的标签量级，在用户X标签也有 1100 亿相关用户数据，同时业务方面对部分标签具有实时性要求。这也就导致在特征接入过程中需要做很多事情。

接下来将为大家介绍具体功能。

人群定向。人群定向方面整体上分为导入与导出、特征圈选以及人群泛化这三个功能。
人群洞察。包括构成分析和对比分析两种功能。构成分析部分我们可以简单理解为一个饼图或柱状图。对比分析是多个人群对比分析。
ID Mapping。整体上将无论是 oai、idfa、手机号，全部硬生成知乎的连续统一 ID，而且这个连续 ID 基本是严格自增的。
特征接入
建设方式分为实时特征及离线特征
标签组方面有离线和实时两种接入方式。其中树状标签主要用来应对复杂场景，如用户对某话题在阅读和互动方面的是多选的树形结构。

DMP 架构与实现

图2.1 DMP业务架构

我认为架构对于实现最终目标是很重要的阶段，但并不是必要阶段。只要我们把所有功能都进行完善就可以完成我们所有的业务实践，但是这样会导致在系统经过不断膨胀后，所对应的维护成本也会不断变高，稳定性变差，最后导致没有人可以维护的窘迫情况发生。架构主要可以为我们解决在多个复杂业务功能场景下，如何以低成本的方式进行维护迭代并有目标的去针对某个模块进行优化，但并不能解决实际的业务功能问题。

基于以上我对架构的认知，对业务以及整体 DMP 架构进行拆解：

DMP 使用用户

DMP 系统对接的是 3 类用户：

平台方面，包括广告平台、信息流、广告引擎以及触达系统。
操作人员，包括运营、投放以及销售等业务相关操作人员。
诸如特征开发的产品及相关内部产品。

而这三部分人所对接的最前台的系统也是不一样的。

首先我们认为，平台或系统方面会与 DMP 的接口层对接。接口主要分为三种：

第一种接口是诸如广告引擎和信息流经常请求用户命中了哪些人群包列表。在广告引擎内，完成请求之后就可以直接把人群包列表变成某个广告 ID 并完成竞价。信息流与广告引擎类似：当前用户若命中了我们要提权某内容或领域标签时，我们就会进行提权。该接口的设计就是典型的高稳定性、高并发、高吞吐。我们可以通过线上数据来进行该接口与其他接口的承载差别对比：该接口当前承载了 10 万 qps，由于接口对接了公司的核心系统，因此不能有任何抖动与故障，对它的稳定性要求达到 S 级，所以该接口也有多机缓存和高并发方面的相关设计，需要能够达到高稳定性、高并发、高吞吐的目标。

第二部分是站内与站外的人群包，该部分和上述内容也比较类似，都会对接到我们最核心的系统。一旦人群包无法圈选人群，后面整体的营销与定向投放也都会受到影响。对于 DMP 前台部分，该部分和接口层存在着明显区别：DMP 前台主要对接的是我们的内部运营同学与销售同学。DMP 前台若产生异常情况，只是会不能进行新的洞察以及人群定向的，不会影响正常使用历史人群。由于该部分会对接众多的销售和人群而不是对接重请求的接口，使用的复杂性也就必须要降到最低，减少在运营方面的培训成本，所以 DMP 前台就需要具备操作简单且使用成本低的特点。

第三方面是对接我们的内部系统，这部分主要会降低我们日常开发的成本。

DMP 核心功能

DMP 能够支持人群圈选、泛化、人群洞察的核心业务模块；支持标签生产， ID Mapping 还有计算任务运维和存储方面的功能。

DMP 业务模块

DMP 业务模块分为上下两层，向上的业务层实现新增功能的低成本化，重点在于可扩展性；向下的业务层随着人群与业务功能的增长，整体的开发或技术投入成本不会有太大的产出，也就是资源上的可扩展性。

DMP 基础设施

最下方是基础设施，需要保证基础设施相关的稳定性。

我们判断接口的依据是请求的接口主要承载是 Redis；Doris 主要承载了 DMP 前台和整体业务功能；后台部分主要承载是 MySQL 与 TiDB。以上是我们当前具体底层数据库的相关承载方面。

有人会问 Redis 成本是否会太高？不会的。因为核心的圈选人群逻辑都是在 Doris 上实现的，存放的大量相关标签都是通过 Doris 进行存放，只有在某个广告要指定某目标人群的某几个特征进行排列组合并且完成泛化时，我们会圈选出某个人群包 ID 对应的结果，最后才导出存放到 Redis 中。因此 Redis 的主要目的是用来扛高并发，实际的存放量很少。

DMP 平台功能盘点

功能盘点主要分为业务向与基础向两部分。

图2.2 DMP平台功能盘点-业务向

业务向

业务向我们能够支持人群定向以及人群洞察两部分能力。

人群定向：

人群预估：比如说对性别、年龄、感兴趣的话题、该用户手机品牌是等多个条件进行排列组合，要求能够在 1 秒内完成精确结构的人群特征量级预估。
人群圈选：经过精确结构的人群数量预估后，可以在分钟级别内将预估结果转化为要进行投放和使用的相关人群包。
人群包泛化：泛化的能力要求尽可能简单，比如说我选择有历史的人群包后，就可以进行人群泛化并有具体的执行度选择。

人群洞察：

可以探索当前活动入口画像，并完成流量回收。比如说我向 100 万人发布了推送，其中有 3 万人点击，那么可以对这 3 万人进行流量回收，与已推送的 100 万人进行对比，就可以这 3 万人明显的用户特征，方便我们后续提取出更精准的用户群体。

基础向

另外 DMP 架构还有一些基础功能，包括了主要特征建设、ID mapping 以及计算任务运维。

图2.3 DMP平台功能盘点-基础向

这三个基础功能不仅可以让我们快速完成实时和批量计算，还能够帮助我们解决新老版本滚动上线的问题。因为我们当前无论是通过 AI、数据采买、特征筛选，找到一个用户，即使是性别这种最基础的特征，也是在不断优化的过程，但每次优化是没有办法快速进行运营影响的评估，因此就需要做到多版本灰度上线，并进行滚动上线。

特征建设

特征整体有两部分，一种是原子特征，一种是派生特征。

在建设原子特征时，我们就需要从离线或实时数据中生产大量相同基准的特征。
对于派生特征，会基于已生产的特征再生产一个特征。举例：假如我们认为某群体是高消费能力群体，放在一个简单的场景中，我们可能会圈选出一位在 18-25 岁之间并在一二线城市的女性，并认为这样的特征可能是对化妆品消费能力比较高的群体特征。之后我们就会把该特征作为派生特征进行存储并去加快后续计算速度并降低运营筛选的成本。

特征建设可以做到能力隔离，以此来提升我们特征建设和上线效率。

Mapping能力

包括设备 ID Mapping、用户特征 ID Mapping、泛化特征 ID mapping。该部分整体场景主要是统一 ID,并将 ID 从差别较大、类型不同的不连续 ID 变成连续统一的 int 型自增 ID。

计算任务运维

任务运维主要是完成 DAG 的调度与计算资源管理。如果大家用过 Doris 的话，就会知道 Doris 会使用最快的速度完成每一个 SQL 的执行。因此在进行人群预估时就需要做好排队的速度，否则突然有一波运营动作或热点事件时，可能会出现预估出多个人群包的状况并把所有资源都占满，这样都会互相受到影响，所以就需要通过任务运维进行资源的优先级排队，逐一执行相关人群包的圈选工作。

总结

特征建设可以做到能力隔离，以此来提升我们特征建设和上线效率。
ID Mapping 屏蔽了我们 ID Mapping 的困难成本。我们会分为完成原子特征建设、完成派生特征建设以及进行基础设施的建设这三部分。当基础设施建设同学完成屏蔽或在架构上隔离之后，特征建设的同学就不需要管 ID Mapping 方面的问题，只需要管专注于建设特征即可。
计算任务运维部分，对于业务开发同学并不需要知道底层到底发生了什么，为此我们要有一个同学完成对底层的封装后向上层提供一个接口，业务侧可以直接使用底层的功能的同时屏蔽了底层的复杂性。通过抽象与屏蔽，可以明显的提升最终上线与建设的效率，并能让其他某些工作从研发侧转移到运营侧。

举例：我们当前有两种特征，第一种是原子特征。在形成原子特征的过程中，写一个 SQL 就可以形成一个特征。分析师与业务产品均可以参与特征的建设过程。第二种是派生特征。我们在运营后台上具备派生特征的交并差的能力，一些业务上的运营动作可以直接在管理后台进行操作并完成派生特征的建设。这样主要的工作量从研发侧逐渐转移到了产品侧与业务侧，明显的提升了各种能力和特征上线的效率。

DMP 核心介绍

DMP 核心部分有两方面：数据的写入/导入以及快查/快读。写入和导入是链路及存储的一部分，快查和快读我会在后续进行介绍。

特征数据链路及存储

图3.1 特征数据链路及存储

写入部分流程首先是离线链路：离线链路会从各个业务的 Hive 存储上跑相关的 SQL 并生成一个 Tag 表。我们会在 Hive 上落一份 Tag 表后完成离线 Mapping。这个离线 Mapping 过程会请求通过用户设备核心自动生成统一连续的用户 ID，同时在离线 Mapping 的过程会把 imei、idfa、oaid 等数据进行转换和唯一绑定，若过程结束后发现新用户，则生成新ID，若是老用户则获取用户 ID。通过这个过程，生成 ID mapping 的表，再进行大小写等复杂流程就可以得到用户唯一 ID 与映射 ID 的 Mapping 表，这就是我们得到的第一个表。

接着我们会在 ID Mapping 后进行枚举采集：当前标签组是 125 个，由 120 个离线特征和 5 个实施特征组成。当我们完成这 125 个相关数据的开发之后，数据相应的原子特征就可以通过 Mapping 直接拿出来。之所以要进行枚举采集是因为用户在使用过程中需要标签的搜索功能，当用户搜索标签时，250 万人工录入的成本过高，因此我们在离线和实时处理的过程中会将枚举采集出来，并且通过 Bulk Load 的写到 ElasticSearch 中。在这个过程也会生成连续的自增 ID 去映射用户标签的倒排表，也就是 tag_map 表，这是我们得到的第二个表。另外还存在第三个表用户行为表，这张表是我们在实时数仓方面构建的，因此没有单独强调那一部分。

基于上述三张表的部分，我们形成了三套存储：

第一套是在 ElasticSearch 上的搜索标签存储。
第二套是在 Doris 上，也是最核心的存储。
第三套是整体 ID Mapping 的存储。

获取到这 3 个存储后，可以进行多种 Join 和查询，为后续的洞察及人群定向提供了基础。

接下来为大家公布几个量级：用户X标签量级，为 1,100 亿；ID Mapping 是一个宽表，量级是8.5亿；ElastichSearch，量级是250万。这三个量级也是我们为什么选择 ElasticSearch 和 Doris 的原因。

人群定向流程

上述的数据导入后形成 3 张表，这里是利用这 3 张表产生人群相关定向和人群包。

图3.2 人群定向流程

人群定向流程分为两种：

第一个是通过购物车筛选人群标签后进行人群预估，最后完成人群圈选回写到 Redis 的流程。
第二个是人群泛化，通过 AI 平台完成 AI 模型的整体训练及人群的推理，再回写到 Doris 中，通过置信度进行选择并打上标签。

简单介绍一下这两个流程的过程：

整体的标签搜索。用户的前台在产出标签搜索的事件之后就会去完成标签的搜索：通过思考各种名字组合寻找想要的标签后，我们会把这个标签放在标签购物车中并立。这个过程就是不停的向人群购物车中加各种标签和组合条件后，查看人群数量的过程。

这个过程存在的原因是在日常运营使用中，我们会对每次推广或目标群体进行量级预估。如果这个事件原本只涉及 200 万到 300 万左右的人群，经过人群圈选预估出来是 5,000 万，那么肯定是我们圈选条件不够精准，这个情况下我们就需要逐渐添加各种精准的条件，并把圈选控制在合适范围的量级后再形成人群包，所以这个过程会不断进行循环并获取到合适的标签/特征的组合。在获取到合适的组合之后，我们需要确定这个标签的目标和人群是，这个过程就会生成人群包。生成人群包的过程会进行连表操作并关联原数据，同时也会关联 ID Mapping 的表。若出现导出到站外的情况，则会做ID Mapping 的表并完成站外的 ID 转换。之后再把导出的人群包 ID 与人群 ID 写入 Reids中，写入之后进行通知。

如果只需要提供人群包来发布推送和短信等的业务就不需要写到 Redis 之中，这样可以大量释放存储并写到离线存储上。比如说一方面是 HDFS，另外一方面是我们对接的对象存储就会写到这些存储之中。由这些存储直接传给推动系统后，信息系统就可以直接拿到人群包并批量的给相关人群发布相关 Push 或推送。

人群泛化。人群泛化流程最开始可能会有上传人群包的过程，也有可能没有。这个过程主要解决有些业务中，我们拥有某些历史活动的人群并需要进行人群泛化的问题。如果说它的人群包之前点击过我们的 Push，可以直接筛选，筛选完成之后关联所有的用户特征进行用户训练，模型训练完成后再对全站用户进行推理，推理出一批带有置信度的人群 ID 的结果并返回写到 Doris 之中。在这个过程中会同时发起另外一个流程，此流程会对用户侧的泛化的结果进行筛选，可以根据合适的置信度选择合适的数量。

接下来为大家介绍几个常用流程：在开发完成之后，最核心的流程就是加标签和购物车并完成圈选后，传统的人群进行泛化的流程。但是经过和运营侧沟通后，我们发现日常工作中，运营侧实际上会将我们这几个流程反复进行叠加使用，实际的使用有这么几种：拿到带有历史效果的人群并进行泛化，但是完成泛化之后效果他的用户特征也会被相应被扩大，之后再叠加本次运营特点的标签后完成圈选并进行使用。

第二种是获取到历史效果后进行洞察和分析。包括查看用户的画像后再重新根据标签关系圈选，之后又叠加了一次历史正向人群包后再去进行泛化。泛化之后再实现分发条件，最后再进行圈选，将该人群包给广告与相关的投放业务。运营侧会做很多基于原子能力以外更复杂的一些组合后再进行使用。

人群定向性能优化

背景

图3.3 人群定向性能优化背景与难点

当前 DMP 系统中有两大功能，第一大功能是人群定向，另外一大功能是人群洞察。基于这两大功能会有一个底层的功能是建设各种用户方面的画像特征。当我们完成拆解之后，我们就会发现人群定向的这部分功能是运营侧或业务侧的痛点。

场景要求

人群预估，针对投放和营销场景，运营侧会有人数预期，那么会构建相应规模的购物车，持续在购物车中加入新的特征，需要立即看到新的特征加入之后会圈选出多少人，而不是每次加入新的特征后都需要很长时间的等待。
人群圈选，针对热点运营。运营侧在日常工作中会持续跟进发生的各种热点事件，当发生了某些热点事件后，要快速的圈选出人群包发布 Psuh 和推荐。如果圈选过程需要好几分钟，就会错过热点事件。

难点

第一个数据量极大，如上图标注。
第二个期望时间很短，人群预估与人群筛选分别能够在一秒钟内和一分钟内完成。

性能优化（1）

第一阶段优化我们通过了以下几点来解决这两个问题：

图3.3 人群定向性能优化第一阶段

倒排索引和按条件查询

图3.4 人群定向性能优化倒排索引及ID Mapping

首先，倒排索引方面，我们将查询条件由原先的 and or not 改成了 bitmap 函数的交并差；同时我们把连续数值打散成为了离散标签。举例：用户的年龄是大于 0，小于 100 的 int 型，如果按照数字顺序进行筛选，运营侧是不好把控的，圈选的过程中也会导致使用效果不理想。因此我们把按照顺序排列的年龄打上另外的标签，称为年龄段，比如 18-25，0-18 等。
接着，把原先的 and or not 的查询转换为了倒排索引的相关查询，原先建立的表就会变成按照 tag_group 、tag_value_id 、置信区间的标识、bitmap 的顺序排序。同时基于这部分我们也需要进行 ID Mapping，ID Mapping 在导入的过程中的核心就是要把用户 ID 变成连续自增的。

查询逻辑变更

图3.5 人群定向性能优化查询逻辑变更

原先的查询条件是 where 条件中的 and、or、not，现在经过复杂的手段，把原先的查询条件修改成 bitmap_and，bitmap_or，bitmap_not，我们通过业务代码，将外部运营通过可视化后台配置的 and、or、not 的逻辑全部改为函数式的逻辑，相当于把 where 条件放到了函数和聚合逻辑之中。

但经过优化之后还会存在 2 个问题：

第一个问题是单一的 bitmap 过大，第二个问题是 bitmap 的空间分散。这两个问题集中导致每次进行交并差聚合时网络 IO 特别高。

底层 Doris 中用的是 brpc。在数据交换的过程中，因为每一个单一的 bitmap 都很大，就会导致 brpc 传输拥堵，有时甚至会出现上百兆的 bitmap 进行交换的情况。上百兆的 bitmap 进行交并差计算时性能很低，基本上我们想要达它达到 1 分钟圈选人群，1 秒钟进行人群预估是不可能的。

性能优化（2）

基于仍存在的问题，我们进行了第二阶段的优化。

图3.6 人群定向性能优化第二阶段

分而治之

第二阶段的核心的思路是分治。当我们进行了第一波上线后，发现人群预估能力是分钟级别，圈选基本上要到 10 分钟开外了。分治的思路是将全站的用户全部打成连续自增 ID 后，按照某个程度进行分组。比如说 0-100 万是一组，100 万-200 万是一组...逐渐分为几个组别。全站用户的交并差，可以等价于分组之后的交并差结果之和。

图3.7 人群定向性能优化分治

数据预置

当我们发现这个规律之后，通过分而治之可以做相关的数据预置。利用 Doris 中 Colocate group 特性，把每个分组内 100 万人全部放到某一台物理机上，避免网络的开销。

算子优化

全部放到某一个物理机上之后，就可以把聚合的算子由原先 bitmap_and_not 的 bitmap not 和bitmap count 替换成一个函数来实现。此时基于 Doris 团队的新版本，增加了类似 bitmap_and_not_count 的组合函数后，性能相对于原先的嵌套函数有了比较明显的优化。

解决方案

基于上述解决思路，我们设计了新的解决方案。

新的解决方案以上 3 个思路进行拆分，包括查询逻辑的变更，预估变成子逻辑的求和、人群圈选变成子逻辑的合并。

由于把原先几个 bitmap 的计算变成了多个小组 bitmap 计算，能进一步的提升多线程的并行度，使计算速度提升；同时也对代码进行了优化，将可复合的 bitmap_and_or_not 函数在提交时合并成同一个函数；在写入过程中把分组 ID 和相应的百万分组进行写入调整。
离线和实时之中都会写相应的 tag 表。在完成 tag 表的写入之后可以把每一个 tag 之中不同的 user tag 写到不同的物理机上：比如可以将 300 万拆开分别写在三台不同的物理机上，完成物理机方面的区隔。这里借助了 Colocate group 以及 Group key 进行设置。完成写入之后，计算过程从原先的整体计算变成独立按照每一个 Group 进行计算。由于整体的 bitmap 很大，每一个独立的 Group 又都在一台物理机上面进行计算，速度有非常明显的提升。
在每一个 Group 计算之后进行合并，合并之后，人群预估变成了不同物理机上面的数字简单加和，结果基本达到秒出。人群圈选也就变成了不同物理机上面的 bitmap，再 Shuffle 出去做最后的合并，这个过程量级很小，可以做到 1 分钟之内输出结果。

优化结果

下面两张截图分别是还没有进行合并之前以及合并之后的查询计划。

图2.7 人群定向性能优化数据预置

优化前：在查询的过程中，首先我们需要针对某一个 tag 做一个 bitmap_and 和 bitmap_not 或者 bitmap_or，在这之后另外几个 tag 也会做相同的聚合，在聚合完之后再做一次 Shuffle，最后进行 Join。同时另外的部分也会进行聚合，经过聚合之后再进行 Shuffle 和 Join。

这几次聚合过程中，每一个 tag 都有非常高的成本，都需要经过聚合—网络传输—再聚合—再网络传输的过程后再做 Join。

优化后：查询计划有了非常明显的改变。只需要通过一个函数在合并的过程中进行查询，合并完成之后就可以完成最终的结果合并。无论是 int 类型的相加还是 bitmap 的合并都只有最后一层，速度有显著提升。原先人均预估可需要分钟级别完成，优化后，只需要几百毫秒便可完成，即使是复杂到上千个条件也只需要一秒就可以完成。

人群圈选也和上述过程类似：在条件复杂的情况下，可以做到一分多钟到两分多种之间完成。如果只有几十到一百个的条件的话，人群圈选都可以在一分钟左右完成。

整个过程主要对数据进行了拆分，由 Doris 的 Colocate 原理把拆分后的数据提前预置在某一台物理机上面，通过优化，可以满足大部分场景的运营要求。

未来及展望

业务向

图4.1 未来与展望业务向

如红色框选所见，当前的系统流程是人群定向之后进行 Mapping，在用户洞察上是围绕人群进行建设的，同时与各个业务侧在 Mapping、洞察以及人群等环节进行对接。但是在这个流程中，如何通过运营达成目标、如何设计 AB 方案，两个部分是松耦合的。

未来我们希望 DMP 运营平台不光是松耦合的模式，而且能够在在业务上执行强耦合、强绑定的模式。这样的运营模式在使用过程中会更舒服，可以完全在 DMP 平台上完成了整体运营流程，并可以根据运营效果设计相关的 AB 实验，不断优化。

技术向

图4.2 未来与展望技术向

技术建设过程中，最主要的就是圈选人群。运营侧甚至会选几百个条件进行人群圈选。而这些运营人员可能分属在不同业务，这会导致他们的基础条件写得很相似。对于这种相似的基础条件我们会人工建立相应的 bitmap 进行预合并，再去基于此特征圈选，由于预合并的缘故会明显提升我们后续的执行速度。

第一个是查询效率。对所有运营的人群圈选进行定期扫描及 SQL Parser。经过解析自动设计 SQL 的聚合条件进行预聚合，合成相应的 bitmap 的同时注册到相关的特征。在人群圈选时我们也会通过相同的 SQL Parser 自动将原先圈选的 SQL 改写，在改写之前可能会有好几十个特征，而他们又正好等于某一个派生特征的结果，此时就可以直接替换成派生特征。这个举动能进一步的提升我们查询的圈选速率。

第二个是导入速度。我们经过五天的时间，每天需要导入大概 2TB 的数据量，存储了11TB 的数据，数据量比较大，我们希望在导入的过程中可以进一步的提速。当前我们了解到业界有做 Spark 直接撰写具体 OLAP 引擎文件，我们也在思考是否可以通过 Spark 直接撰写 Doris Tablet 文件并挂载到 FE 上面，让我们能够快速完成导入或写入。

Q&A 环节

Q：知乎的标签体系有多少标签？记录量是多少？后台是一张还是多张的大宽表？在人群圈选的时候进行表链接，业务人员能否实时显示圈选出的人群特征和人群数量？

A：知乎的标签体系很大，包含了用户、内容、商业以及业务方面治理与安全等很多方面的标签，DMP 系统方面主要会与用户方面的标签进行对接。就单论通过认证且正在使用的标签组而言就有将近 700 多个，如果在加上业务方面在提未认证标签可以达到上千个。对于我们正在使用的用户方面的标签有 120 个标签组以及 5 个实时标签，总共 125 个标签。

记录量方面有 1100 亿的记录量。

后台不是一张宽表。在子标签完成生成后，会生成出独立的 tag1、tag2、tag3 的数据源表。经过我们将这些表写入 DMP 之后最终才会变成一个大宽表，在 DMP 中是问题中的一个大宽表，在业务中则是每个独立的标签表。多张大宽表在进行人群标签圈选时会进行连接，我们在经过数据处理后，会将数据写入到一张表中而不再是一张大宽表。

由于我们的优化，在这一张表中的存储的文件已经不会再按照 Tag ID 这种查询进度缓慢的方式进行分散。我们会按照存储的 Key，比如说 0~100 万的 ID 都会分在相同的地方进行存储。我们在计算的过程会在同一台物理机扫描出来，在经过聚合逻辑后就可以拿到结果。所以也就能够做到实时圈选相关数量的结果。

Q：人群圈选是基于经验进行标签组合圈选吗？投入后的效果如何分析？是独立的分析平台工具吗？如何知道投放人群包的转化率？转化是否回到打标签中利用另外的分析平台进行分析？

A：人群圈选可以分为两部分。第一部分是我们基于运营的经验进行圈选，这个部分中又分为已知人群圈选与未知人群圈选两个分支。

已知人群圈选，意味着运营已经对这个场景非常明确。能够熟知我们在运营的用户群体就是某个性别以及用户年龄段等，这时候我们就会基于历史经验进行圈选。对于完全未知的用户特征，我们会直接圈大盘。

这两种运营流程的区别就在于已知用户群体圈选的准确率会更高。基于已知的结果，我们几乎不再需要不用进行 AB 实验就可以完成本次投放。对于完全未知的用户特征而言，如果直接圈大盘的话，我们就一定需要进行小流量的 AB 实验发现点击 Push 的用户都满足某一个兴趣后，就可以基于这部分兴趣积累经验，之后再设计一个 AB 实验并调整人群特征至合适场景，直到效果逐渐的达到期望目标后，就会从未知的人群变为已知人群。

还存在另外一种经验。比如说广告主的经验，广告主可能在知乎中并没有历史投放经验，但是广告主知道购买过我的产品人群有哪些，比如说他们手机号的加密 MD5 或手机 idfa 的加密 MD5 等，这样就可以将其他站投放过的效果完成导入，形成基本的人群。通过人群泛化，和站内所有的特征进行 Join 后去训练模型，通过 AI 的能力自动寻找到我的历史购买人群有怎么样的显著特征，之后就可以完成这部分泛化的全选。基于泛化的全选后，还是会经过相同的链路并完成这部分的数次循环循，之后就可以知道我这个场景下应该投放给哪些用户。

转化率我们在单独的地方进行查看，这也是我后期想要集成在 DMP 平台内做到的功能。我们在单独的页面上可以看不同 Push 的转化率。DMP 平台上面只能通过效果回收进行查看。

Q：后台都是基于 Doris 吗？多少节点是一个集群呢？

A：后台主要的计算方面都是基于 Doris。在高吞吐方面我们也依赖于 Redis。TPP 方面我们用了 TiDB。当前 Doris 集群是 6 节点，64 核心 256g 的 BE；3个 FE 是 6 节点，16 核心 32g 的集群配置。

Q：人群放大靠谱吗？所有的人群圈选占比有多大，用的是什么算法？

A：人群放大是比较靠谱的。从运营侧的反馈可以得知：如果只通过广告主或只通过基于列入历史运营效果拿到的数据基本上无法支持完成本次运营，但是如果把我们所有的特征都加入并进行训练的话，基本每次都会有比较明显的提升，在CTR方面，能够达到 80%-90%。置信度调整为了 80%。

人群圈选业务使用占比会比一般圈选要少一些。对于一般圈选而言，我们当前历史上已有的特征也带有置信度。我们基于这些已有特征基本就可以完成绝大部分的运营工作。而人群泛化主要是用来解决的是当我对这部分客户完全没有认知，同时又想将站内全部随机大盘用户导入，进行用户群体特征探测的情况。这个过程其实对运营侧而言工作量比较大，只有在这种特定情况下才会选用泛化，所以泛化的占比按照比例来讲是不多的。比如说每天有 300 个基于特征和标签的定向，而每天基于算法方面的泛化是 1~2 次。

用的是什么算法我还没有细看过。当前我们会通过数据来调用 AI 同学的相关的算法。我们当前提供的就是将用户的所有特征都准备好后灌入到 AI 的自动训练的模型之中。在完成训练之后，我们再调用这个模型并把所有特征都灌入进行推理。

Q：AB 如果要用 Reids 查标签该如何设计？要如何保持实时性呢？

A：对于问题中 A 表和 B 表要查标签，数据量会爆炸，这个情况是的确存在的。所以我建议做标签，最好所有的标签都在这一个表里。通过我们当前经历的探索得出的结论，我们对于该问题的解决方案就是每一台物理机可能会存多个 100 万，但是要确保每一个 100 万的分段都在同一台物理机上，它就可以变成这台物理机的 Scan 以及聚合之后进行直接运算，所以它就不存在双表的 Join 问题，可以直接在表内进行聚合。我们这边有好几个类似于 bitmap and or not 的标签的计算，但是在算子方面，算子已经是被合并在聚合算子里面并完成聚合，聚合后再做一个最终的数据合并，这样的话性能会好很多，而且也能避免 A 表和 B 表做 Join 的结果。

对于第二个问题，我们完成人群的 ID 聚合都会通过这个函数。当这个函数走完之后，它会生成当前投放特征下的人群列表，我才完成 Join。在这个时候，普通的 Join 就不会有非常爆炸的数量，也不会涉及到上千亿的快速的查询计算。

Q：可以解读一下关于 250 万个标签的相关内容吗？

A：大家可以在图 1.3 中看到,出现像 250 万个标签主要是因为一个性别在标签组内算作 1，而在标签方面则会拥有男、女、其他 3 个标签。在手机品牌中，一个标签组下我们当前也是收录了将近 20 多个手机品牌的标签。之后还有话题兴趣的标签组中相当多的话题兴趣的标签数量。比如说知乎站内其实有很多话题，某些用户可能对影视内容感兴趣，也可能对母婴内容感兴趣，同时也可能对教育或学生内容感兴趣，以上的话题兴趣有具有连续的共性点。连续标签方面我们会在后续的文章中继续为大家介绍。当前用户画像的内容方面，如果从标签进行分组，都是属于离散标签。连续标签更多的是用户行为或者是操作数值等。

Q：标签和特征的关系是什么？标签又是怎样建立的？

A：我们定义特征是要比较比标签大的，可以理解为我们当前的特征中 90% 是标签，剩下 10% 是用户行为的比例。

加入社区

欢迎更多热爱开源的小伙伴加入 Apache Doris 社区，参与社区建设，除了可以在 GitHub 上提 PR 或 Issue 之外，也欢迎大家积极参与到社区日常建设中来，比如：

参加社区征文活动，进行技术解析、应用实践等文章产出；作为讲师参与 Doris 社区的线上线下活动；积极参与 Doris 社区用户群的提问与解答等。

最后，欢迎更多的开源技术爱好者加入 Apache Doris 社区，携手成长，共建社区生态。

SelectDB 是一家开源技术公司，致力于为 Apache Doris 社区提供一个由全职工程师、产品经理和支持工程师组成的团队，繁荣开源社区生态，打造实时分析型数据库领域的国际工业界标准。基于 Apache Doris 研发的新一代云原生实时数仓 SelectDB，运行于多家云上，为用户和客户提供开箱即用的能力。

你可能感兴趣的:(大数据,数据库,apache)

Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
Mongodb Error: queryTxt ETIMEOUT xxxx.wwwdz.mongodb.net 佛一脚 error react mongodb 数据库
背景每天都能遇到奇怪的问题，做个记录，以便有缘人能得到帮助！换了一台电脑开发nextjs程序。需要连接mongodb数据，对数据进行增删改查。上一台电脑好好的程序，新电脑死活连不上mongodb数据库。同一套代码，没任何修改，搞得我怀疑人生了，打开浏览器进入mongodb官网毫无问题，也能进入线上系统查看数据，网络应该是没问题。于是我尝试了一下手机热点，这次代码能正常跑起来，连接数据库了！！！是不
入门MySQL——查询语法练习 K_un
前言：前面几篇文章为大家介绍了DML以及DDL语句的使用方法，本篇文章将主要讲述常用的查询语法。其实MySQL官网给出了多个示例数据库供大家实用查询，下面我们以最常用的员工示例数据库为准，详细介绍各自常用的查询语法。1.员工示例数据库导入官方文档员工示例数据库介绍及下载链接：https://dev.mysql.com/doc/employee/en/employees-installation.h
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
ubuntu安装wordpress lissettecarlr
1安装nginx网上安装方式很多，这就就直接用apt-get了apt-getinstallnginx不用启动啥，然后直接在浏览器里面输入IP:80就能看到nginx的主页了。如果修改了一些配置可以使用下列命令重启一下systemctlrestartnginx.service2安装mysql输入安装前也可以更新一下软件源，在安装过程中将会让你输入数据库的密码。sudoapt-getinstallmy
深入浅出 -- 系统架构之负载均衡Nginx的性能优化 xiaoli8748_软件开发系统架构系统架构负载均衡 nginx
一、Nginx性能优化到这里文章的篇幅较长了，最后再来聊一下关于Nginx的性能优化，主要就简单说说收益最高的几个优化项，在这块就不再展开叙述了，毕竟影响性能都有多方面原因导致的，比如网络、服务器硬件、操作系统、后端服务、程序自身、数据库服务等，对于性能调优比较感兴趣的可以参考之前《JVM性能调优》中的调优思想。优化一：打开长连接配置通常Nginx作为代理服务，负责分发客户端的请求，那么建议开启H
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
计算机毕业设计PHP仓储综合管理系统（源码+程序+VUE+lw+部署） java毕设程序源码王哥 php 课程设计 vue.js
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
最简单将静态网页挂载到服务器上(不用nginx) 全能全知者服务器 nginx 运维前端 html 笔记
最简单将静态网页挂载到服务器上(不用nginx)如果随便弄个静态网页挂在服务器都要用nignx就太麻烦了，所以直接使用Apache来搭建一些简单前端静态网页会相对方便很多检查Web服务器服务状态：sudosystemctlstatushttpd#ApacheWeb服务器如果发现没有安装web服务器：安装Apache：sudoyuminstallhttpd启动Apache：sudosystemctl
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
3.增删改查--连接查询问女何所忆
关系型数据库的一个特点就是，多张表之间存在关系，以致于我们可以连接多张表进行查询操作，所以连接查询会是关系型数据库中最常见的操作。连接查询主要分为三种，交叉连接、内连接和外连接，我们一个个说。1、交叉连接交叉连接其实连接查询的第一个阶段，它简单表现为两张表的笛卡尔积形式，具体例子：如果你没学过数学中的笛卡尔积概念，你可以这样简单的理解这里的交叉连接：两张表的交叉连接就是一个连接合并的过程，T1表中
docker from指令的含义_多个FROM-含义 weixin_39722188 docker from指令的含义
小编典典什么是基本图片？一组文件，加上EXPOSE端口ENTRYPOINT和CMD。您可以添加文件并基于该基础图像构建新图像，Dockerfile并以FROM指令开头：后面提到的图像FROM是新图像的“基础图像”。这是否意味着如果我neo4j/neo4j在FROM指令中声明，则在运行映像时，neo数据库将自动运行并且可在端口7474的容器中使用？仅当您不覆盖CMD和时ENTRYPOINT。但是图像
Redis:缓存击穿我的程序快快跑啊缓存 redis java
缓存击穿(热点key)：部分key(被高并发访问且缓存重建业务复杂的)失效,无数请求会直接到数据库，造成巨大压力1.互斥锁：可以保证强一致性线程一：未命中之后，获取互斥锁，再查询数据库重建缓存，写入缓存，释放锁线程二：查询未命中，未获得锁(已由线程一获得)，等待一会，缓存命中互斥锁实现方式：redis中setnxkeyvalue:改变对应key的value,仅当value不存在时执行，以此来实现互
mysql学习教程，从入门到精通，TOP 和MySQL LIMIT 子句（15）知识分享小能手大数据数据库 MySQL mysql 学习 oracle 数据库开发语言 adb 大数据
1、TOP和MySQLLIMIT子句内容在SQL中，不同的数据库系统对于限制查询结果的数量有不同的实现方式。TOP关键字主要用于SQLServer和Access数据库中，而LIMIT子句则主要用于MySQL、PostgreSQL（通过LIMIT/OFFSET语法）、SQLite等数据库中。下面将分别详细介绍这两个功能的语法、语句以及案例。1.1、TOP子句（SQLServer和Access）1.1
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu