疯狂创作者

B站数据质量保障体系建设与实践

本文将分享 B 站数据质量保障体系的建设和实践。文章将关注数仓和建模的相关方法论，讲解 B 站数仓平台团队在数仓建设和建模过程中所做的工作，并分享质量保障方面取得的成果。

一、背景目标

首先，分享一下 B 站数据质量保障的背景和目标。

B 站数据建设的历史演进可以分为四个阶段。

数据库阶段。在这个阶段B 站处于初创阶段，业务也在初步发展中，数据逐渐受到各方的重视。这一阶段的质量保障重点在于设计测试用例、验证数据正确性，并进行数据库的监控和调优。
数据仓库阶段。这个阶段的出现是因为随着业务的发展，各方对数据的需求也日益增加，更加关注 OLAP 相关的需求。随着业务的复杂性增加，我们意识到单一数据库无法满足需求。这一阶段更加注重数据的完整性、准确性、一致性和及时性的保障。
数据平台阶段。随着中国互联网浪潮的兴起，数据量急剧增加，随之进入了数据平台阶段。在传统的 OLAP 分析系统（如TeraData）和 SaaS 传统分析系统中，面对大数据场景，数据无法有效地服务于应用分析体系。因此，我们逐渐引入开源生态系统，如 Hadoop 和相关开源组件。这个阶段更加关注保障架构的质量，包括链路的可用性和数据加工链路的多样性，以及实时链路。
中台阶段。不仅要承接前三个阶段的数据和需求，还要着重解决业务问题和数据化的核心需求。在这个阶段，业务逐渐多样化，要求能力服务化和数据智能化。在质量保障方面，兼容了前三个阶段的内容，并基于这些内容展开了一些延展讨论。这将是接下来分享的重点。

这里想强调的一点是，数据质量保障是持续发展的。只有了解不同阶段的背景和目标，才能更好地实现数据质量保障。

B站数据中台当前数据架构如下图所示。整体上分为四个层次，自下而上分别是数据源、数据平台、数据中台和数据应用。

数据源包括多个相关的服务系统，如账户系统、埋点系统、CRM 系统和第三方系统等。这些系统为我们的数据仓库提供持续的数据，这些数据通过数据平台进行集成，并具备离线和实时的能力，将数据导入到数据仓库体系中。

在部分场景下，我们推进全域数据的中心化建设。在此基础上，再进行相应的主题域拆解，这是互联网行业常见的主题域划分，包括用户主题、交易主题、内容主题、营销社区等。此外，我们还进行了更多类似于分析项的体系化建设。

在数据应用层面，可以简单地分为 PC 端和移动端的数据应用。我们着重关注埋点分析看板，包括增长、运营、内容等方面的数据展示。我们可以看到数据的流转管道，即数据管道，已经扩展得非常庞杂。与传统的数据仓库不同，质量保障不再仅仅基于单一的 OLAP 系统，而可能涉及多层次、多组件、多团队甚至多部门之间的合作和沟通，以推进保障工作。

随着业务的发展，对数据质量保障的需求也日益增加。下图中展示了一些来自与我们合作频繁的团队的反馈，这些反馈涉及到日常合作中经常出现的问题。这进一步证明了数据质量保障的需求随着业务的发展而增加。

我们收集到的反馈包括但不限于以下几点：

首先，分析看板的页面显示数据没有展示透出，这可能会影响用户体验。

其次，分析师可能会反馈某天的数据指标为零是否合理，因为这可能会影响他们的业务决策。

此外，开发同学也有数据质量方面的需求，比如夜间的值班报警电话频繁响起，起夜率爆表等，这会严重影响同学们的正常作息。

基于以上情况，我们抽象出三个方面的核心保障痛点：

数据使用方，希望数据能够按预期时间产出，并且数据准确可信。在故障发生时，希望能够快速恢复，不影响正常使用。
作为数据建设方，我们需要根据业务发展的时间推演，确定哪些数据是用户真正关注的，优先进行强保障，而对于长尾部分可以适当降级。开发同学也希望了解用户对数据质量和时效性的具体要求。
管道方是与数据仓库协同配合的兄弟团队，他们对于流转到其管道中的数据也有保障需求。因为作为数据链路的上下游相关方，任何一个节点出现问题都可能导致数据不准确，数据质量不达标。他们的诉求更多是在极端情况下的恢复响应要求以及不同场景的保障要求。

总体目标是通过持续改善数据质量，减少事故纠错成本，降低数据使用风险，并提升业务服务满意度。

让我们进一步深入探讨，了解质量问题产生的根本原因。我们进行了一些梳理，将其分为四个部分：

技术原因。数据经过多个层次的加工才得到最终结果，因此不同链路的标准制定对于数据质量至关重要。这包括模型设计的合理性，是否充分理解数据的业务含义，并根据此进行相应的数据加工，以获得准确的结果。此外，数据采集和清洗过程是否符合标准规范也是关键。
业务原因。数据主要承载业务的表达。脱离了业务场景，数据往往就不再有任何价值。因此，如果对业务理解不到位，包括业务流程的变更没有及时了解，都会影响最终数据质量的展现。
管理原因。首先，流程管理是否足够完善是一个重要方面。其次，团队成员是否具备足够的质量保障意识也很关键。第三，奖惩机制的设立也是必要的。因为质量保障是一个严肃的话题，一旦出现问题，我们需要有明确的责任分配计划，以引起大家对此事的关注，并确保日常数据的持续保障。
推进方面的原因。一旦确立了相关标准，我们需要将这些准则明确地推进到各个工作的细节中，以确保历史相关问题不再重现。此外，长期的可持续优化策略对于数据质量的保障也非常重要。

根据以上对问题原因的梳理，我们总结了三个主要方向上的痛点：

首先是整体数据质量保障的范围和目标不够清晰。这体现在各个团队对需要保障的数据范围缺乏清晰的认识，有些链路甚至没有进行日常的保障。并且，保障分级不够准确，导致无法区分不同能力投入的保障需求。随着数据建设的推进，架构变得越来越复杂。保障目标没有拆解到相关团队，导致这些团队没有进行相应的保障工作，影响了数据保障的最终结果。
另一方面的痛点是无法衡量保障效果。我们上学时都对分数有着深刻的体验，分数可以衡量学习的好坏。同样的逻辑也适用于数据质量保障，但我们无法衡量我们的保障工作对整体目标的贡献。其次是当前保障推进到什么阶段，缺乏相应的指标来指导和持续优化，需要持续衡量的方法论。
第三个方面的痛点是整个保障机制的规范性还不够完善，大多是单点保障。然而，当前的发展趋势是数据上下游链路需要协同解决这些问题。

基于刚刚介绍的背景、痛点和发展趋势，我们总结出了四个重点的保障目标。

第一个保障目标是准确识别核心场景，并支持数字化的效果衡量，以提升待办事项的信息化水平。
第二个保障目标是确保数据满足四个基本原则：完整性、准确性、一致性和时效性。同时，还需要满足各个用户实际场景的定制化需求。
第三个保障目标是确保数据保障贯穿整个数据生命周期的全链路。包括事前、事中和事后，涵盖数据的生产、传输、加工、组装和服务等各个环节。
第四个保障目标是基于日常保障工作的经验，沉淀方法论，并推进数据中台相应的工具能力建设，支持在预防、响应、处理、恢复和复查等阶段高效地解决问题。

二、体系架构

基于上述目标，我们以质量数仓建设为基础，构建三大核心能力：完备的质量保障体系、数字化驱动持续优化，以及高效的故障处理能力。

1、质量数仓建设

首先，我们引入相关的保障服务数据，统一数据仓库的建设，并依托数据中台的能力快速构建数仓架构。完成数仓架构后，我们将以数仓质量数据为指引，描述相应的保障问题，并支持决策数据的使用。同时，数仓的数据将支持日常的数据检测和分析等工作，以消除事前的问题。数仓还有一个核心的保障工作，即与相关团队协商保障目标，并进行衡量和拆解。

整个架构可以分为四个层次，自下而上分别是数据源、数仓建设、分析项目建设和最终的应用。在质量数仓的数据源层，包括了告警服务、基线服务、DQC服务、血缘数据、事件管理和值班系统等相关的数据服务系统。我们将这些系统的数据统一导入到数仓中，并进行相应的分层建设。

在分层方面，我们进行了明细层、进度汇总层和高度汇总层的区分。在这些分层中，我们将保障效果的数据进行抽象，包括异常清单和告警情况，并进行相应的数据建设，最终呈现在看板上。这为数仓团队和横向团队提供了数据能力，包括质量分运营看板、实时保障看板和告警归因看板等一系列数据服务能力。

在质量数仓的基础之上，接下来是三个核心能力。

2、完备的质量保障体系

第一个核心能力是完备的质量保障体系。目标是确保数据满足用户要求。各方需要对数据质量负责，并按照标准监控数据质量。我们会沉淀规则库，为实现保障目标提供服务，并推进可持续改进计划。

这一核心能力可以进一步拆解为三个部分。

第一部分是构建监测体系。

在这个体系中，我们将通过数据资产的定级来触发加工链路的卡点校验，并进一步监控数据风险点。这包括常见的数据保障实体、基线任务和模型，并通过这些来衡量数据质量的效果。其次是构建质量分衡量机制，并支持从多维度的视角进行衡量。最后是制定保障规则，并识别各个数据资产的待优化项。在这个过程中，有两个重要的方面需要提及，第一个方面是卡点校验规则库，这个规则库主要涵盖完整性、一致性、有效性和及时性等与数仓传统卡点校验相关的内容，我们在此基础上将进一步扩展到埋点、集成、加工、组装、出仓和 API 服务等相关环节；第二个方面是建立事故归因知识库，这个知识库主要用于归因相关的问题，并结合告警和恢复工具的能力，提高用户解决问题的效率，降低异常成本。

第二部分是部门间的协同保障。

数据中台的链路已经相对复杂，因此如何与数据中台的上下游相关方协同合作，共同制定符合 SLA 保障标准的机制，并形成跨团队的保障机制，是非常重要的保障环节。

这里重点介绍夜间值班的情况。

夜间值班的流程包括：紧急跟进、原因定位、数据恢复和影响通知。数仓团队的值班同学会触发卡点校验的告警监控。一旦触发，我们会立即采取止损措施，并评估数据是否对业务产生潜在影响。如果有影响，我们会及时通知相关方，并将问题转交给兄弟团队进行跟进和数据恢复。恢复完成后，我们会再次通知相关业务方，并对整个事项进行归档。

第三部分是推进日常运营。

日常运营化是指周期性地同步基于质量数仓产出的保障核心指标和目标的情况，确保其达到标准。同时，我们会定期回顾过去一段时间的历史问题，并进行规则的沉淀和归类，以避免类似问题的重复发生。我们会定期确定保障项目的效果，推动代办人员进行相应事项的完善。

在推进过程中，我们对保障目标进行了抽象，并确定了衡量和提升的方法。基于当前中台的核心衡量维度，我们关注数据的完整性、一致性、准确性和告警响应度，以及监控的覆盖率、作业稳定性、时效性和链路保障率等方面。我们还基于八个维度构建了质量分，满分为 100 分，并将其拆分为多个维度。通过质量分，我们可以衡量当前保障工作的进展和目标。接下来，我们将基于质量分来分发待办事项。例如，对于模型监控覆盖率方面，我们会提醒相关人员进行相应的操作，如配置完整性检查和逐渐重复检查。

3、数字化驱动持续优化

第二大核心能力是数字化驱动的持续优化。在这一部分，我们主要关注在构建基于源数据的数仓体系后的决策判断。我们的推进策略按照以下链路进行管控：首先是构建衡量指标，然后进行现状分析的描述，接着基于数据发现问题并提出解决方案，最后持续跟进优化效果。整体目标是通过数字化的衡量来驱动质量保障，并持续提升保障效果。

4、高效的故障处理能力

第三大核心能力是高效的故障处理能力。根据过去的保障实践经验，质量问题是难以避免的。在面对质量保障问题时，我们需要快速响应，将问题最小化，甚至在短时间内实现快速恢复，以确保用户无感知。这是一个重要的方向。

基于此，我们进行了一些功能支持和方法论的设计。从数据开发的视角，提供了机械风险诊断、告警能力优化、故障恢复系统和规则配置系统等。另外，从底层服务的视角，致力于构建一键恢复的故障链路、分级全链路保障和统一运维值班机制。

目标是通过日常保障实践来沉淀方法论，持续打磨产品能力，提升数据质量标准。同时，我们也致力于优化故障响应效率，降低夜间值班的成本。

三、案例分享

接下来，分享B站在保障方面的一个实际案例。

以上是数据开发的正常流程，包括任务上线、日常跑批的监控覆盖以及可能触发的告警。在发生问题后，我们会进行相应的响应和数据恢复，并推动问题的归档。

在开发阶段，我们面临的问题是线上待保障的任务较多。目前，我们已经有超过五千个核心任务，但整个保障事项的监控覆盖率不足 50%。此外，我们还存在监控覆盖缺乏审批规则和发布流程相对不完善的问题。

在值班阶段，我们面临的问题是值班响应的 SOP 流程不完善，跟进效率较低。夜间故障信息同步链路也不完善。同时，我们的夜间值班率较高，达到了50%左右。这意味着每周大约有三到四天需要有同学进行夜间值班来响应故障。由于故障经常发生，恢复时间较长，人力投入也较大。

在复盘阶段，我们发现许多问题并不是由数仓的日常操作引起的，同时也有一些反复出现的保障问题。

总结起来，这些问题可以归结为三个方面：数据链路过长且组件过多，不知从何处着手进行保障；当前的保障指标表现不佳，能推进到什么程度心里没底；不知是否有推进套路可以借鉴。

在初始阶段，大家的保障意识薄弱。随着时间的推移，我们逐渐进入了起步阶段，推进人员开始意识到保障的重要性。随着保障工作逐步推进，形成了方法论，进而建立了相应的分级保障机制。之后逐渐进入了基于质量数仓的量化管理阶段。我们可以基于特定的指标对事项进行拆解，并衡量数据目标的达成情况，从而推动持续优化的工作。

整个推进思路按照以下三个步骤进行推演：数据链路的拆解、保障分级的建设以及全生命周期的覆盖。

在数据链路拆解环节，我们将中台链路简图进一步抽象成数仓的建设流程。包括从埋点数据转入数仓加工，数仓模型校验和数据服务构建，API 构建，最终将数据出仓给服务应用。在这个过程中，我们还可以抽象出保障的数据实体。当前的中台保障实体包括埋点、离线和实时项目任务，模型表、Kafka 主题，模型字段数据指标，数据基线以及数据基线 API 等相关实体。

保障分级建设。在许多公司和数仓建设的初期阶段，对保障的意识可能不够完善。随着业务的发展，大家逐渐认识到质量保障的重要性。在实施保障分级的链路中，我们按照以下方法论进行迭代推演：确定分级标准，评估数据现状，完成数据的分级，并基于分级推动持续优化。

预期的收益是能够梳理出整个核心保障链路的数量，并推进重要分级保障场景的覆盖率。通过这样的工作，我们可以明确讨论哪些数据是重要的，并与相关的上下游方制定相应的保障策略。刚刚我们也提到了保障分级建设的思路。

全生命周期的覆盖。前文提到了基于数据实体的抽象，针对这些抽象后的实体，我们将跟进相应的事前、事中和事后的保障机制。

事前阶段包括埋点数据的准备、开发阶段的监控标准以及发布阶段的准备工作。在事中阶段，我们会进行卡点校验、值班机制的执行以及事故的修复工作。在事后阶段，我们重点关注事件的反馈、保障的衡量，进行事后复盘，并沉淀到知识库中。

这里再介绍一个B 站保障中存在的痛点问题，即公司层面进行机房迁移工作时，对数仓保障施加了巨大压力。由于各个组件服务的混部部署，机房迁移会导致极大程度出现告警，并且一旦出现告警，由于基础服务的原因，会导致全链路的击穿。

因此，在多重原因复合的情况下，进行告警原因归类成为迫切需要解决的问题。项目挑战在于单次告警计算涉及全链路，并触发大量告警，同时涉及所有任务的 OWNER。在极端情况下，连续五周工作日的夜间值班率达到 80%以上。这种情况下，数据异常和修复成本都极高，峰值时达到单次事故 80+人天。

基于上述情况，我们首先将所有的告警梳理到数仓的相关链路中，并对其原因进行归类。通过原因的归类，进一步确定问题是由平台方、工具方还是数仓相关原因引起的。基于这个归类，我们建议优先推进解决这些主要问题，并与相关方对齐优化方案和规则的后续覆盖。

通过保障体系的建设和推进，我们的整体保障情况符合预期。

事件数在三个季度的优化过程中呈下降趋势，降低了 50%。事件捕获率趋近于 100%，数仓起夜天数也呈下降趋势，降低了55%。核心基线破线数逐步收敛，近三个季度中逐季累降。起夜人次相较于保障之前已经下降了59%。夜间耗时也下降了 86%。

结合保障分级的推进，我们也清楚梳理了核心场景的范围，并进行了相应的保障率的推进，达到了 100%。

在整个保障推进过程中，我们也发现了一些问题。

保障的入手比较困难，因为保障事项本身具有一定的学习成本，并且涉及的范围较广。同时，如何选择合适的推广路径也是一个较大的问题。
推进落地比较困难。目前，一些相关规范的推进仍然依赖人工的推动，需要有更好的方法来提高效率。
可视化效果不足。正如之前提到的，我们通过质量分来衡量保障情况，但还需要更好的可视化方式来展示结果。
工作仍然容易陷入"运动式治理"，缺乏可持续的效果。

我们在 B 站数据平台部门贡献了方法论，并开发了相应的治理平台。通过这个平台，我们可以衡量规则、代办事项以及未完成操作的同学，并嵌入到平台组件中，以支持快速点击、覆盖和响应。

四、未来展望

未来的工作主要分为两个方向。

第一个方向，持续扩大保障范围，丰富保障策略，继续践行数据化驱动的方法，在保障存量可控的基础上，持续提升增量覆盖优化。
第二个方向，理论结合实践，持续推进工具化能力迭代支持，完善沟通机制。

最后，随着质量保障工作的发展，我们希望从最初的手工操作阶段逐渐进入信息化阶段，进而推进到智能化阶段。在智能化阶段，随着保障方法论和规则库的沉淀丰富，通过产品化能力支持，最终做到质量保障可描述、好衡量、易操作。

五、问答环节

Q:数据质量分有八项规则构成，但每个表的规则、数量、规则重要性都不一样。怎么做到所有表的拉齐?

A:在B站，我们按照五个分级等级进行数据质量保障，重点关注线上数据，如 BOSS看板和公司级分析产品。基于此，我们制定了各个保障分级的规范标准。例如，针对线上服务的数据模型，我们制定了一系列质量规则。除了基础规则，如表组件的唯一性规则配置和表行数规则配置，我们还推进了基于该模型上游埋点数据的规则，如一致性校验和跨省校验。同时，针对最高优先级的分级场景，我们还配置了及时性规则，以验证线上服务的基线情况。对于较低级别的分级场景，我们仅配置基础规则，以确保基本模型的可用性。

Q：文中提到了一个实时任务是部署在一个系统平台的 Flink任务。如果不是在不同的平台维护，怎么拉齐评估整体的数据质量？

A:在过去的一段时间里，我们重点推进了解决一个问题，即在不同平台配置的情况下，我们无法获取相关信息的挑战。在B站内部，由于涉及跨部门的情况，不同部门的调度系统也存在不一致性。为了解决这个问题，我们的推进思路是将易购平台的原始数据信息同步到质量数仓中，基于相同的链路进行规范和代办事项的梳理。并按照规范的数据格式进行整理。整个链路可以复用，最终可以呈现类似于质量分和代办事项的结果。

Q：复盘的时候出现最多的是什么问题？有什么加速排查的工具吗？

A:第一个问题：在复盘过程中，最常见的问题取决于不同阶段。在保障的初级阶段，最常见的问题是告警爆炸或告警湮没的情况，即告警数量非常多。在这个阶段，我们面临的问题是如何从大量的告警中提取有效的告警。针对这个问题，我们的重点工作是：首先，如何有效地降低告警数量，同时确保现有规则的生效和保障结果不受影响；其次，针对无效告警的原因进行进一步分析，以不断调整保障规则的内容。有些规则内容可能会随着时间和迭代的过程进行更替。

第二个问题：我们正在与协同的产品团队和开发团队一起重点推进，即加速排查工具的开发。这是为了解决告警数量过多的问题。我们的目标是建立一个事故知识库，并基于该知识库进行合理的告警分发。通过这个知识库的分发，我们可以将告警合理地分发给相关的团队，从而减轻数仓层面的值班压力。这样，相关团队可以更快速地进行排查和处理。

你可能感兴趣的:(量子技术,/,元宇宙,/,人工智能,/,其他,汽车,/,芯片,/,医疗,/,信息技术,/,头条要事,B站)

知识库中的知识如何进行分类和标签管理？自不量力的A同学人工智能
知识库中的知识如何进行分类和标签管理？基于主题分类明确主题层级：首先确定主要的知识主题领域，如在一个企业知识库中，可以分为“人力资源”“市场营销”“技术研发”等大主题。然后在每个大主题下细分小主题，例如在“人力资源”主题下可以有“招聘”“培训”“绩效考核”等子主题。这样的层级分类有助于用户快速定位到自己需要的知识领域。参考行业标准和最佳实践：按照行业内公认的分类标准来划分知识。以医学知识库为例，可
AI编程工具领域：深度理解项目架构篇 xinxiyinhe AI编程 python 人工智能 AI编程人工智能
AI编程工具领域：深度理解项目架构篇在AI编程工具领域，能够读取项目目录并深度理解项目架构的工具主要通过代码索引、上下文感知和智能问答等功能实现。以下是基于最新信息的工具评估与分析：1.通义灵码（阿里云）核心能力：@workspace功能：基于RAG技术，支持本地代码库的索引和深度感知，可分析项目完整结构，生成文件解释、代码逻辑查询和整体修改建议。多语言支持：覆盖200+编程语言，兼容VSCode
数据湖：Apache Iceberg在腾讯的探索和实践学而知之@ 数据库腾讯大数据 java 编程语言
摘要：今天分享的是ApacheIceberg在腾讯内部的探索和实践。本文结合腾讯大数据技术分享内容和2020全球软件开发大会分享内容进行整理，主要内容包括：1、数据湖技术概述2、ApacheIceberg的简介3、腾讯为什么选择ApacheIceberg4、腾讯看点万亿数据下的业务痛点5、ApacheIceberg在看点实践6、ApacheIceberg读写和删除ApacheIceberg新一代数
深入了解 Ubuntu 中的 build-essential：开发者的必备工具 scoone Linux ubuntu linux 运维
摘要：本文将介绍Ubuntu系统中的build-essential包，包括其作用、包含的工具和库，以及如何在Ubuntu上安装和使用build-essential。正文：一、什么是build-essential？build-essential是Ubuntu和其他基于Debian的Linux发行版中的一个元包，它包含了编译软件所必需的工具和库。这个包主要面向开发人员，尤其是那些需要从源代码编译软件的
Git 修改分支名 scoone Git git 学习
在Git中修改分支名称，可以使用以下步骤：切换到要重命名分支之外的其他分支：gitcheckout重命名本地分支：gitbranch-m如果需要删除远程的旧分支并创建新分支：首先，删除远程旧分支：gitpushorigin--delete然后，推送新命名的本地分支到远程仓库：gitpushorigin如果其他人也在使用这个分支，需要通知他们更新本地分支：其他协作者需要执行以下命令来更新他们的本地分
人工智能（AI）系统化学习路线 xiaoyu❅ python 人工智能学习
一、为什么需要系统化学习AI？人工智能技术正在重塑各行各业，但许多初学者容易陷入误区：❌盲目跟风：直接学习TensorFlow/PyTorch，忽视数学与算法基础。❌纸上谈兵：只看理论不写代码，无法解决实际问题。❌方向模糊：对CV/NLP/RL等细分领域缺乏认知，难以针对性提升。正确的学习姿势：“金字塔式”分层学习（理论→算法→框架→应用→工程化），逐步构建完整的AI知识体系。二、人工智能学习路线
AI 时代，学习 Java 应如何入手？琢磨先生David 人工智能 java
一、Java的现状：生态繁荣与AI融合的双重机遇在2025年的技术版图中，Java依然稳坐企业级开发的“头把交椅”。根据行业统计，Java在全球企业级应用中的市场份额仍超过65%，尤其在微服务架构、大数据平台和物联网（IoT）领域占据核心地位。随着云原生技术的普及，Java生态正经历新一轮进化：轻量化框架通过无服务器架构优化，启动速度提升300%，内存占用降低50%，使得Java在容器化部署中更具
深度学习-130-RAG技术之基于Anything LLM搭建本地私人知识库的应用策略问题总结(一) 皮皮冰燃深度学习深度学习人工智能 RAG
文章目录1AnythingLLM的本地知识库1.1本地知识库应用场景1.2效果对比及思考1.3本地体现在哪些方面1.3.1知识在本地1.3.2分割后的文档在本地1.3.3大模型部署运行在本地2问错问题带来的问题2.1常见的问题2.2原因分析3为什么LLM不使用我的文件？3.1LLM不是万能的【omnipotent】3.2LLM不会自省【introspect】3.3AnythingLLM是如何工作的
代替Windows系统的最佳系统开发：开源、国产与跨平台的选择指南夏末之花 windows 开源
近年来，随着技术自主化和隐私安全需求的提升，越来越多的用户开始寻求Windows系统的替代方案。本文结合国内外热门操作系统及开发工具，分析其核心优势与适用场景，助你找到最适合的开发与日常使用平台。一、开源之王：Linux发行版1.Ubuntu与LinuxMint作为最受欢迎的Linux发行版，Ubuntu和LinuxMint以用户友好性著称，尤其适合从Windows迁移的用户。其内置的软件包管理器
3DMAX点云算法：实现毫米级BIM模型偏差检测（附完整代码）夏末之花人工智能
摘要本文基于激光雷达点云数据与BIM模型的高精度对齐技术，提出一种融合动态体素化与多模态特征匹配的偏差检测方法。通过点云预处理、语义分割、模型配准及差异分析，最终实现建筑构件毫米级偏差的可视化检测。文中提供关键代码实现，涵盖点云处理、特征提取与深度学习模型搭建。一、核心算法流程点云预处理与特征增强去噪与下采样：采用统计滤波与体素网格下采样，去除离群点并降低数据量。语义分割：基于PointNet++
LeetCode134☞加油站 fantasy_4 LeetCode刷题 python leetcode java 算法贪心算法
关联LeetCode题号134本题特点贪心局部最优解-部分差值如果小于0（消耗大于油站油量）就从下一个加油站开始，因为如果中间有小于0的情况当前站就不可能是始发站，整体最优解-整体差值如果小于0，那么就是不能有始发站本题思路classSolution:defcanCompleteCircuit(self,gas:List[int],cost:List[int])->int:curSum=0tota
Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构 MfvShell apache flink 架构 Flink
随着大数据技术的迅猛发展，构建实时湖仓体并进行联邦查询分析成为了许多企业的迫切需求。在这篇文章中，我们将探讨如何利用ApacheDoris整合Iceberg和FlinkCDC来构建这样一个架构，并提供相应的源代码示例。简介实时湖仓体是一种灵活、可扩展的数据架构，结合了数据湖和数据仓库的优势。ApacheDoris是一款开源的分布式SQL引擎，专注于实时分析和查询。Iceberg是一种开放式表格格式
C语言中，#define和typedef 定义int* 一个容易混淆的点阿龍1787 C++随记 c语言
前言首先来看一个代码：#include#include#defineint_ptrint*intmain(){intc=100;int_ptra,b;//等效于int*a,b;那么b就是int类型，不是int*类型a=&c;b=&c;//报错return0;}原意，我本来想让a和b都是int*类型，但是发现并不是。这段代码的主要问题在于宏定义和指针声明的使用方式上：当使用#defineint_pt
vscode通过remote-ssh连接远程开发机 Cachel wood 软件安装教程计算机基础 vscode ssh ide 前端前端框架运维编辑器
文章目录安装扩展注意事项：tips其他参数安装扩展安装VSCode和SSH-Remote扩展：首先，需要确保你已经在本地计算机上安装了VSCode，并且在扩展市场中搜索并安装了"Remote-SSH"扩展。配置SSH：在本地计算机上，打开VSCode的命令面板（使用快捷键"Ctrl+Shift+P"或"Cmd+Shift+P"）并输入"Remote-SSH:OpenConfigurationFil
基于python的ansys_基于python的感知机 weixin_39687990 基于python的ansys
一、1、感知机可以描述为一个线性方程，用python的伪代码可表示为：sum(weight_i*x_i)+bias->activation#activation表示激活函数，x_i和weight_i是分别为与当前神经元连接的其它神经元的输入以及连接的权重。bias表示当前神经元的输出阀值(或称偏置)。箭头(->)左边的数据，就是激活函数的输入2、定义激活函数f:deffunc_activator(
python ansys workbench联动_【干货】如何在ANSYS WORKBENCH中关联几何模型和有限元模型... weixin_39644377 python ansys workbench联动
原标题：【干货】如何在ANSYSWORKBENCH中关联几何模型和有限元模型我们都知道，通过诸如HPERMESH这样的有限元网格划分软件得到的模型，在传入ANSYS以后，只包含节点和单元信息。但是当我们在WB中使用模型操作时，有时候需要选择几何特征，如在圆孔面上施加圆柱支撑，而此时对象只有单元节点信息，并无体面线的几何信息，该怎么办呢？显然，处理此问题的有效途径，在于把有限元模型与该有限元模型对应
信创系统安全优化与持续改进策略有哪些？ weixin_37579147 系统安全安全
信创系统（信息技术应用创新系统）的安全优化与持续改进是保障国产化技术生态安全可靠运行的关键。以下从技术、管理、组织等多个维度提出系统性策略，并结合实际场景展开说明：一、技术层面的安全优化策略1.核心组件安全加固国产化组件漏洞管理：建立针对国产操作系统（如统信UOS、麒麟）、数据库（达梦、OceanBase）的漏洞扫描与修复机制，联合厂商建立漏洞情报共享平台。硬件层可信计算：采用基于国产芯片（如鲲鹏
python ansys workbench联动_如何在ANSYS WORKBENCH中关联几何模型和有限元模型 YUNYA麻麻 python ansys workbench联动
我们都知道，通过诸如HPERMESH这样的有限元网格划分软件得到的模型，在传入ANSYS以后，只包含节点和单元信息。但是当我们在WB中使用模型操作时，有时候需要选择几何特征，如在圆孔面上施加圆柱支撑，而此时对象只有单元节点信息，并无体面线的几何信息，该怎么办呢？显然，处理此问题的有效途径，在于把有限元模型与该有限元模型对应的几何模型进行关联，再一起导入到MECHANICAL中进行分析，则既能够既享
数据增强：扩充数据集提升模型泛化能力 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1.数据增强的重要性在机器学习领域，模型的泛化能力至关重要。一个泛化能力强的模型能够在未见数据上表现良好，而过拟合的模型则会在训练数据上表现出色，但在新数据上表现糟糕。数据增强是一种有效提升模型泛化能力的技术，它通过对现有数据进行各种变换，人为地扩充数据集，从而增加训练数据的数量和多样性。1.2.数据增强的应用场景数据增强广泛应用于各种机器学习任务中，包括：图像识别:对图像进行旋转
【商城实战(43)】探秘知名商城架构：解锁电商成功密码奔跑吧邓邓子商城实战架构微服务 spring boot 商城实战商城架构
【商城实战】专栏重磅来袭！这是一份专为开发者与电商从业者打造的超详细指南。从项目基础搭建，运用uniapp、ElementPlus、SpringBoot搭建商城框架，到用户、商品、订单等核心模块开发，再到性能优化、安全加固、多端适配，乃至运营推广策略，102章内容层层递进。无论是想深入钻研技术细节，还是探寻商城运营之道，本专栏都能提供从0到1的系统讲解，助力你打造独具竞争力的电商平台，开启电商实战
vue3+springboot电影院售票选座管理系统 qq_3166678367 spring boot 后端 java
目录本系统(已开发完成)->成品实现截图开发技术本系统支持的技术栈源码获取详细视频演示：文章底部获取博主联系方式！！！！本课题重点核心代码部分展示论文提纲来自指导老师帅的肯定视频演示/源码获取本系统(已开发完成)->成品实现截图开发技术关键技术实现：在Java的开发过程中，可以使用HTML、CSS、JavaScript等前端技术来实现系统的用户界面设计和交互功能。后端可以使用Java语言编写业务逻
weixin049校园外卖平台设计与实现+ssm(文档+源码)_kaic 开心毕设kaic_kaic 模拟退火算法散列表随机森林支持向量机启发式算法逻辑回归
校园外卖平台设计与实现摘要随着信息技术在管理上越来越深入而广泛的应用，管理信息系统的实施在技术上已逐步成熟。本文介绍了校园外卖平台的开发全过程。通过分析校园外卖平台管理的不足，创建了一个计算机管理校园外卖平台的方案。文章介绍了校园外卖平台的系统分析部分，包括可行性分析等，系统设计部分主要介绍了系统功能设计和数据库设计。本校园外卖平台有管理员，用户，商家。管理员功能有个人中心，用户管理，商家管理，菜
【算法学习之路】12.DFS 零零时算法学习之路深度优先算法学习 c++开发语言数据结构全排列
DFS前言一.DFS简介二.思路三.缺点四.三种类型五.题目1.2前言我会将一些常用的算法以及对应的题单给写完，形成一套完整的算法体系，以及大量的各个难度的题目，目前算法也写了几篇，题单正在更新，其他的也会陆陆续续的更新，希望大家点赞收藏我会尽快更新的！！！一.DFS简介1.深度优先搜索，是一种用于遍历或搜索树或图的算法。所谓深度优先，就是说每次搜尝试向更深的节点走。2.在搜索算法中，该DFS常常
2025年计算机毕业设计springboot 智慧社区管理系统 zhihao503 课程设计 spring boot 后端
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容选题背景关于智慧社区管理系统的研究，现有成果多聚焦于单一功能模块的数字化（如物业缴费或门禁系统），缺乏对多场景服务整合与用户体验优化的系统性研究。国外研究侧重物联网技术应用（如新加坡“智慧国”计划中的社区传感器网络），而国内研究更多关注管理平台的基础框架设计，但针对业主、物业、设备多方
《解锁元宇宙构建：AI与云原生区块链的协同奥秘》程序猿阿伟人工智能云原生区块链
在科技飞速发展的今天，元宇宙已从最初的概念设想逐渐步入人们的视野，成为全球瞩目的焦点。元宇宙，这个融合了虚拟与现实、跨越时空界限的数字世界，正以其独特的魅力和无限的潜力，引领着新一轮的科技革命和产业变革。而在这场变革的背后，AI与云原生区块链技术宛如两颗璀璨的明星，交相辉映，为元宇宙的构建提供了不可或缺的关键支撑。AI：赋予元宇宙“智慧灵魂”智能内容生成，丰富元宇宙的“物质基础”在元宇宙的广袤世界
Tsfresh + TA-Lib + LightGBM ：A 股市场量化投资策略实战入门船长@Quant Python 金融科技 python tsfresh TA-Lib LightGBM 量化技术策略开发
Tsfresh+TA-Lib+LightGBM：A股市场量化投资策略实战入门本项目以A股市场为研究对象，通过量化技术对市场数据进行分析，构建量化投资策略，并利用历史数据回测验证策略的有效性。项目旨在为量化技术初学者提供一个系统的学习框架，帮助读者掌握从数据获取到策略评估的全流程操作。文中内容仅限技术学习与代码实践参考，市场存在不确定性，技术分析需谨慎验证，不构成任何投资建议。适合量化新手建立系统认
Oracle中union用法邓伟林 Oracle Oracle union
Oracle中union用法一、union用于查询结果可能存在多张表中的数据，并剔除重复数据据。二、unionall用于查询结果可能存在多张表中的数据，并将所有数据返回。三、写法：selecta.name,a.idfrom(selectb.namename,b.ididfrombwhereb.id=‘1’unionselectc.namename,c.ididfromcwherec.id=‘1’u
从零实现B站视频下载器：Python自动化实战教程木觞清 #编程语言自动化运维
一、项目背景与实现原理1.1B站视频分发机制Bilibili的视频采用音视频分离技术，通过以下方式提升用户体验：动态码率适配（1080P/4K/HDR）分段加载技术（基于M4S格式）内容保护机制（防盗链/签名验证）1.2技术实现路线graphTDA[模拟浏览器请求]-->B[获取加密播放信息]B-->C[解析音视频地址]C-->D[多线程下载]D-->E[FFmpeg合并]二、代码逐层解析2.1请
从基础到实践（十九）：DC/DC由来和工作原理介绍硬件进化论嵌入式硬件单片机压力测试电脑智能手机数码相机智能手表
第一章DC/DC技术的起源与演进之路1.1电力革命的早期困境（1880s-1940s）在爱迪生与特斯拉的"电流战争"时期，直流供电系统暴露出传输损耗大的致命缺陷。尽管交流电最终成为电网主流，但直流电在终端设备供电的不可替代性催生了最早的电压转换需求。1930年代真空管收音机的普及使这一问题凸显：车载6V蓄电池需升压至200V以上供电子管工作，工程师们通过笨重的机械振动子式换流器（VibratorC
This robot has a joint named “gripper_finger_joint“ which is not in the gazebo model. 无码不欢的我 ROS
在B站上看古月居的课《ROS机械臂开发：从入门到实战》，在运行第9节的代码时，出现如下报错：Thisrobothasajointnamed"gripper_finger_joint"whichisnotinthegazebomodel.本人所运行环境为：ubuntu版本：20.04ROS版本：noetic错误分析：xacro的宏调用格式错误，正确格式为或者为：...修改方法：1.找到probot_
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，