百度Geek说

百度交易中台之内容分润结算系统架构浅析

作者 | 交易中台团队

导读

随着公司内容生态的蓬勃发展，内容产出方和流量提供方最关注的“收益结算”的工作，也就成为重中之重。本文基于内容分润结算业务为入口，介绍了实现过程中的重难点，比如千万级和百万级数据量下的技术选型和最终实现，满足了业务需求的同时，最终实现了高效，准确的资金结算，文章旨在抛砖引玉，希望能给读者带来思考和帮助。

全文5185字，预计阅读时间13分钟。

01 业务介绍

什么是内容分润平台呢？简单来说，百家号等平台负责内容的生产和引入，手百等渠道方负责内容的分发，凤巢等广告平台负责在此流量上进行变现。而分润平台，则是根据上述各方提供的数据，通过核心策略模型，赋予作者、媒体、小程序主和用户，合理的、差异化的、有竞争力的分润收益，以吸引更加优质的内容和流量的入驻和合作。通过这种多方相互协作模式，实现互惠共赢的目的。

1.1 三大功能点

针对上述的业务特点，结算系统需要包含三大功能，用于支撑内容分润业务的准确性、合规性、及时性。

功能一：结算模型

这是我们最关键的功能，它负责将出色的文章转化为作者的分润收益。该模型的输入数据包括数据中台生成的用户维度的日分润明细和日补贴明细，而输出则是每月的结算账单，这些账单会被发送到统一业务平台用于付款。在这个过程中，我们经历了一系列步骤，包括每日的计算、每月的总结、预提、计提和账单生成等，所有这些步骤都是按照不同的维度逐层计算和聚合的，最终实现了账单的付款。

功能二：C端内容交易平台

这个功能主要面向用户，旨在帮助作者及时查看他们的收益，并进一步激励他们的创作动力。作者只需登录平台，即可查看每日的预估收益、文章的分发情况、浏览量等数据，还可以查看每月实际的付款账单，提供发票等相关数据。

功能三：O端管理端平台

为了确保资金结算更加合规和准确，整个结算体系引入了运营管理和反作弊等不同角色。这些角色在管理端负责资金管控、发票审核、黑名单管理等各种操作，以确保整个过程的合规性。

1.2 名词解释

PALO：百度数据仓库，是基于开源ApacheDoris构建的企业级MPP云数据仓库，可有效地支持在线实时数据分析。

BNS（Baidu Naming Service）：是指百度名字服务。BNS提供服务名称或服务组名称到服务所有运行实例的映射，你可以根据一个名字（服务名或服务组）获取服务的信息，包括实例的主机名和IP、实例的运行状态、端口、负载、实例自定义配置标签以及其他实例自定义信息。用于满足服务交互中常见的资源定位、IP白名单维护、查询服务下的机器列表、负载均衡以及其他任何依赖于这些信息的开发、测试和运维需求。目前BNS已经在全百度各业务线中广泛使用，UB、RAL等框架的支持和各语言SDK也已经发布。

02 业务架构

2.1 架构分层介绍

图1是整个内容分润的业务架构。内容分润结算面向数据中台，业务方，用户（作者）和运营管理提供服务。

△图1.内容分润结算平台系统架构

2.2 关键汇总文件

对于数据中台，我们是直接下游，同时在整个内容分润流程的流程中，我们扮演的是最末端的角色。百家号、问一问、百度文库等业务会将作者的内容分发数据、广告贡献等给到数据中台，数据中台按照各种分润计算模型归一化数据结构，产出三份较为详细的明细文件，包括日分润明细，日内容分发明细，日补贴明细。

日分润明细：作者内容分发或流量贡献所获得的分润详情，明细中包括分润金额，文章分发渠道，父子账号等字段。

日补贴明细：基于运管管理的二次资金分配详情。

日内容分发明细：作者的内容分发贡献报表。

数据中台会将这些数据以离线文件的形式提供给我们，结算系统每日基于配置规则，进行离线计算，最终将数据进行降维汇总。后续每月月初，基于这些汇总数据，做二次汇聚产出用户收益账单。

2.3 服务提供方式

结算系统根据外部需求，提供多种接入方式。面对业务方，结算系统提供API、网页嵌入模式接入方式。若业务有其自建平台，可将结算系统提供的网页嵌入其平台内部，用于展示用户的收入信息或上传发票等。若无自建平台，也可API形式接入。新用户在业务侧申请入驻作者后，业务调用结算系统API完成用户注册，开通计费单元，维护财务信息等。后续作者在内容分润平台查看其收入，文章分发报表，重新维护财务信息等。若有重要变更或通知，系统通过站内信方式通知作者。

系统整体支持三种账号体系，面向作者提供两类百度常用账号登录方式，面向管理端提供内网账号登录方式，基于此账户体系做了灵活权限控制，不同用户登录管理端，看到的可操作菜单栏各不相同，避免出现越权操作。同时基于此账号体系，能灵活获取上下级，构建了自动化的审批流程。

结算系统的平稳、合规、高效运行离不开各类协同生态的合力支持。反作弊能力贯穿整个内容分润的始终，着力于打击黑产，识别作弊用户。OCR、发票平台为发票识别，发票鉴定提供了通用服务。财务的各类审核，业务的多维度监管则进一步为资金结算的合规安全保驾护航。各类角色、各个系统协同合作，促成了目前内容分润结算系统。

03 技术难点和细节

上文以整体的视角介绍了内容分润结算系统的架构设计，下面我们将枚举几种业务场景构建过程中的技术选型，来详细介绍该系统的技术落地。

3.1 千万级数据日度任务的技术选型

场景：每日上游会给我们产出明细数据，数据为细粒度，量级为大几千万级别，格式为AFS文件（离线文件），需要基于某些过滤规则和计算规则做二次汇聚，后续支持多维度查询，作者端展示报表。

3.1.1 DB批处理方案

最初任务是在物理机上通过sql批处理，任务串行执行，简单明了，同时成功同时失败。但随着数据量持续递增，串行执行可能面临着实效性问题。基于原始的DB思路，我们构建了基于DDBS（关系型分布式数据库系统）的解决方案，全部依赖于DB，因汇聚是基于用户维度，所以基于子账号uid计算shardingKey分表，过滤规则也落入库中，后续使用表之间连接过滤，相同分表中的同子用户数据汇聚。使用在线服务，按照分表规则，启动多线程执行任务，实时写入日汇总数据表。具体方案如图2。

△图2.基于DDBS的解决方案

3.1.2 离线计算

利用SPARK天然的分布式计算能力，采用离线计算方案，汇聚时使用SPARK计算。基于上游提供的离线文件，构建RDD1文件，后续基于一些过滤规则过滤数据和然后基于集合规则，使用reduceBykey聚合，产出新的RDD2文件。这个RDD2文件就是我们后续使用的日表数据。因有各类在线查询需求，需持久化到数据库中，又因产出的日表需支持各角色多维度查询，调研后采用PALO数据仓库，具体方案如图3所示。

△图3.基于SPARK+PALO+DB解决方案

对比两种方案后，我们最终选择方案二实施。方案二的优点比较突出：1.SPARK集群自带分布式计算能力，无需我们按照方案一方式自行实现分布式计算；2.数据存储于PALO，相比于传统的MYSQL，在大批量数据和多维度报表场景，PALO性能优势更加明显。3.方案一有一个最大也是我们最踩坑的性能问题，实时大批量写入DDBS数据库导致较高的主从延迟，影响了其他业务场景。

3.2 百万级数据的月度任务

场景：基于上述场景会产出月表，数据量大约在百万级别，遵循月度出账计算模型，产出最终的预提数据。日度任务和月度任务的最主要区别在于日度任务计算过程密集，月度任务过滤过程密集。

月度产出计提任务实际就是计算用户本月收入以及本月可结算的收入，可结算收入=以前累积未结算金额+本月收入。目前该任务输入的数据量相对较少，且以过滤为核心，因此此类任务未采用SPARK计算。而各类过滤规则与当前用户各种属性息息相关，因此任务围绕用户uid展开，采用以用户uid为底表，先通过各类策略过滤uid,后置再计算的方案。数据量虽然相对日度任务较少，但毕竟在百万级别，如果使用单一线程处理所有用户，速度会极其缓慢，所以必须拆分任务，使用并行计算的方式提升效率，而如何拆分任务，如何保障任务全部执行是月度任务模型需要考虑的核心问题。

3.2.1 幂等的分布式数据批处理框架master节点

我们设计了主从任务模型，用于支持上述任务拆分执行，主结点先置启动，用于数据备份、初始化出账任务，以及调度从节点。从结点则等待主结点启动子任务指令，启动后获取子任务执行。具体模型如下图4，5所示。

△图4.主节点生命周期

图5描述了主节点的生命周期，主节点收到出账指令后，优先做的是账户余额类表的数据备份，这个动作归因于我们月度任务的特殊性，月度任务产出的数据表在其他时间不会更新，即上个月出账结束后，账户余额类的相关表会在下一次出账完毕才更新。

备份表的环节非常重要：

1.是可以在月度任务结束后做数据总额验证工作；

2.是可以用于兜底，一旦月度任务产出数据异常，也可回退到备份数据，重新启动任务。

主节点任务的第二步则是确认出账任务的用户uid范围，我们系统为了既支持C端用户体系，也支持商家账号体系，重新设计了一套内部用户id，不论是用户账号还是商家账号的id均会唯一映射成一个内部uid，后文提到的该任务的uid均为内部uid。内部uid为自增id，因此查询数据库，即可获取到最大uid和最小uid，也就确定了我们本次任务的uid范围。在redis中设置两个key代表uid的最值。至此，出账任务的前置准备工作就完成了。主节点获取执行子任务配置的BNS，基于BNS解析出所有实例，发送子出账任务指令，子实例获取到指令后，启动N个线程执行任务，即假设有M个子实例，那最终就是M*N个线程同时执行任务。从主节点的任务可看出，该任务无其特殊性，即主节点实际和从结点是平等关系，任何实例都可成为主，也可成为从，这就为调度任务进一步提高了灵活性。

3.2.2 woker节点的任务流程

△图5.从节点生命周期

图5以上述实例中的一个线程作为示例，详细描述了线程启动后，执行的子任务的过程。首先获取目前的最大uid和最小uid，最大uid为主节点固定值，最小uid则是一个游标。若最小uid已经大于最大uid，则代表所有uid已经处理完毕，线程结束。若不满足上述条件，则继续执行任务，利用redis的incryBy指令，将最小uid向前移动N个数值，这N个uid就是本次子任务的执行范围。拿到uid后，先将uid变为N条任务批量落入Job表,并设置初始化状态。落库失败，引入报警机制。落库成功后，按照出账模型，启动过滤规则。所有被过滤的用户uid均批量写入job表，设置任务结束状态，并且标记过滤原因，便于后续运营查询。过滤规则执行完毕，剩余uid十不存一，此时我们利用sql计算本月用户结算金额。计算完毕，写入jobDB的临时产出表，设置job任务完结态，此时一轮子任务就执行完毕。线程继续重复执行上述过程，直至所有线程均结束，代表出账任务执行完毕。

3.2.3 出账确认任务

所有任务执行完毕后，主节点会收到出账任务确认指令。

△图6.出账确认任务

该任务的主要目的就是确认所有uid均执行完毕，无疏漏，具体如图6所示。上文提到，子任务执行时，都是先置落库job表的，确认任务的第一步：扫描job表，看是否有非完结态的任务，若有，则启动子任务，重新执行这批数据。确认任务第二步：获取job表中所有执行的uid数量和需要执行任务的uid数量，确认数量是否一致，若不一致，重新执行出账任务，任务基于uid和业务期间重入，已经被执行的任务会被跳过。多次兜底策略执行完毕后，数据总量校验一致后，会将临时月度产出数据写入正式DB，清理临时数据。之所以设置临时表：1.是为了数据校验工作，若数据校验异常，可快速清理该表，重新启动任务；2.若直接写入正式线上库，大量数据的并发写入会导致数据库的主从延迟，会影响其他线上实时业务场景。后置写入实现了另类的『读写分离』，任务过程中仅读正式表，任务完毕临时表往正式表写入数据。

04 总结

本文主要介绍了在构建结算系统过程中的几个技术重点和难点，而要维护整套系统的平稳运行，不仅有这些技术重点，也有看似微不足道但却环环相扣的细枝末节，保障每个环节不掉链子是运维工作的重要一环，后续我们将着力于提升运维效率，节省人力成本，向着运维自动化、智能化改造。另外目前的技术方案取决于我们的数据量级，未来业务蓬勃发展，业务架构也会持续迭代，期待我们向着更加完备的架构前进。

——END——

推荐阅读

小程序编译器性能优化之路

百度APP iOS端包体积50M优化实践(六)无用方法清理

基于异常上线场景的实时拦截与问题分发策略

极致优化 SSD 并行读调度

AI文本创作在百度App发文的实践

理解TCP连接中的进程阻塞与CPU调度机制 109702008 编程 #C语言网络 tcp/ip 网络人工智能
引言在计算机网络通信中，TCP连接的建立是一个经典的三次握手过程。当用户调用connect()函数发起连接时，内核会发送SYN报文并等待对方的SYN-ACK响应。此时，调用进程通常会进入阻塞状态，暂停执行直至连接成功或超时。这一机制看似简单，但其背后的内核实现却涉及进程调度、等待队列管理和CPU资源分配等复杂操作。本文将深入探讨阻塞状态的实现原理，并解析CPU在进程阻塞期间的行为。一、进程阻塞的实
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
kube-scheduler 抢占机制分享放大价值 kubernetes源码分析 kubernetes kube-scheduler 抢占
当pod调度失败后，会在PostFilter扩展点执行抢占流程，下面分析相关的代码实现抢占接口//PodNominatorabstractsoperationstomaintainnominatedPods.typePodNominatorinterface{//将pod加入抢占成功的node中AddNominatedPod(pod*PodInfo,nodeNamestring)//将pod从no
android查看so路径
之前遇到过一个问题，apk中有一个so无法确定其路径，是由哪个依赖引入的，网上查询一番后这里记录一下。build.gradle中添加如下任务//列出所有包含有so文件的库信息tasks.whenTaskAdded{task->if(task.name=='mergeDebugNativeLibs'){//如果是有多个flavor，则用mergeFlavorDebugNativeLibs的形式tas
Kimi Chat 1.5 与 2.0 架构升级对比 charles666666 人工智能 transformer 深度学习产品经理 chatgpt
1.5版的MoE架构优化KimiChat1.5采用了优化后的MoE架构，其核心在于“专家网络动态路由”。这一机制类似于快递系统智能选择最优路径，能够根据输入数据的特性动态分配计算资源。这种优化显著提升了模型的计算效率，同时降低了硬件资源的浪费。在实际应用中，这意味着开发者可以在相同的硬件配置下处理更复杂的任务，或者在有限的资源下实现更高的性能。2.0的混合专家系统创新点与1.5版相比，KimiCh
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
AI Agent开发学习系列 - langchain之Chains的使用(7)：用四种处理文档的预制链轻松实现文档对话 alex100 AI Agent 学习人工智能 langchain prompt 语言模型 python
在LangChain中，四种文档处理预制链（stuff、refine、mapreduce、mapre-rank）是实现文档问答、摘要等任务的常用高阶工具。它们的核心作用是：将长文档切分为块，分步处理，再整合结果，极大提升大模型处理长文档的能力。stuff直接拼接所有文档内容到prompt，一次性交给大模型处理。适合文档较短、token不超限的场景。refine递进式摘要。先对第一块文档生成初步答案
flutter知识点 ZhDan91 flutter
#时隔4年了#4年前用flutter开发海外项目和医疗项目。绘制界面的语法与html还是较类似的。把这些封印的记忆和技术回顾一下，最开始是开发Android出身的，所以开发起flutter来依旧是用的androidstudio开发工具。整理下用到的知识点：整理来源：flutter面试题——基础篇（1）-CSDN博客1、Dart是单线程的。在单线程中以消息循环来运行的。其中敖汉两个任务队列。一个是微
什么是RFM模型走过冬季学习笔记大数据数据分析
RFM模型是客户价值分析中一种经典且实用的量化模型，它通过三个关键维度评估用户价值，帮助企业识别最有价值的客户群体。名称RFM由三个核心指标的英文首字母组成：R（Recency）-最近一次消费时间定义：用户上一次发生交易行为距今的时间长度（如多少天前）。意义：衡量用户的活跃度和流失风险。R值越小（最近有消费），说明用户越活跃，流失风险越低；R值越大（很久没消费），用户流失风险越高。母婴场景示例：一
Java Web 之 Session 详解艾伦~耶格尔 java 开发语言后端前端 session
在JavaWeb开发中，Session就像网站的专属记忆管家，为每个用户保管着重要的信息和状态，确保用户在网站的旅程顺畅无阻。场景一：想象你去一家大型超市购物，推着购物车挑选商品。这个购物车就如同Session，它记录了你的购物信息，方便你在结账时一次性结算。场景二：你在玩一个在线游戏，登录账号后，你的游戏进度、等级、装备等信息都会被保存在Session中，即使你中途关闭游戏，下次登录时依然可以继
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
spring揭秘31-spring任务调度02-spring集成任务执行与调度-spring官方文档
文章目录【README】【1】spring任务执行器（TaskExecutor）抽象【1.1】TaskExecutor实现类（执行器）【1.2】使用TaskExecutor代码实践【2】spring任务调度抽象(TaskScheduler)【2.1】Trigger触发器接口【2.1.1】Trigger实现类【2.2】任务调度器(TaskScheduler)实现【3】任务调度与任务异步执行的注解支持
Qualcomm Hexagon DSP 与 AI Engine 架构深度分析：从微架构原理到 Android 部署实战观熵国产 NPU ×Android 推理优化人工智能架构 android
QualcommHexagonDSP与AIEngine架构深度分析：从微架构原理到Android部署实战关键词QualcommHexagon、AIEngine、HTA、HVX、HMX、Snapdragon、DSP推理加速、AIC、QNNSDK、Tensor编排、AndroidNNAPI、异构调度摘要HexagonDSP架构是QualcommSnapdragonSoC平台中长期演进的异构计算核心之一
浏览器的事件循环中的任务队列（消息队列）小吴在摸渝前端
在浏览器的事件循环中，任务队列是有优先级的。这些优先级决定了在一次事件循环中，哪些任务会被优先执行。以下是一些主要的任务队列及其优先级：微任务队列（优先级最高）：这个队列用于存放需要最快执行的任务。添加任务到微任务队列的主要方式是使用Promise和MutationObserver1。交互队列（优先级高）：这个队列用于存放用户操作后产生的事件处理任务，例如鼠标点击、页面滚动等。延时队列（优先级中）
浏览器的消息队列和事件循环机制（宏任务和微任务） jieyucx 前端性能优化前端浏览器消息队列 event loop 宏任务微任务
引言在当今互联网时代，我们常常使用浏览器来访问各种网页和应用程序。然而，你是否有想过浏览器是如何处理和执行我们在网页中触发的各种事件和任务的呢？这就涉及到浏览器的消息队列和事件循环机制。浏览器作为一个复杂的软件系统，需要高效地管理和执行各种任务，以保证用户能够流畅地使用网页和应用程序。而消息队列和事件循环机制就是浏览器用来处理这些任务的核心机制。在本文中，我们将深入探讨浏览器的消息队列和事件循环机
AI MCP教程之什么是 MCP？利用本地 LLM 、MCP、DeepSeek 集成构建您自己的 AI 驱动工具知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 mcp deepseek
介绍利用模型上下文协议(MCP)的工具吸引了我们的注意力—将AI变成触手可及的生产力引擎。它们巧妙、高效，让人难以抗拒。但如果您可以将这样的功能添加到自己的工具中，会怎么样呢？在本指南中，我将引导您构建一个具有本地运行的大型语言模型(LLM)和MCP集成的AI工具-让您以类似的方式自动执行利用MCP的工具您喜欢的任务。推荐文章《AnythingLLM教程系列之12AnythingLLM上的Olla
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
深入理解 Linux 中的 stat 函数与文件属性操作
在Linux系统编程中，获取和操作文件属性是一项基础且重要的任务。stat函数作为获取文件状态信息的核心接口，为我们提供了丰富的文件元数据。本文将详细解析stat函数的用法、结构体成员含义，以及与文件时间戳、权限相关的实用操作。一、stat函数：文件信息的"万能查询器"stat函数的原型非常简洁：intstat(constchar*pathname,structstat*statbuf)功能：通过
搜广推校招面经九十三 Y1nhl 搜广推面经机器学习人工智能 python 算法推荐算法 pytorch 搜索算法
字节懂车帝一面一、NDCG（NormalizedDiscountedCumulativeGain）的计算NDCG是信息检索和排序任务中常用的评价指标，用于衡量模型预测的排序质量与真实相关性排序的一致程度。1.1.DCG@k（DiscountedCumulativeGain）DCG@k=∑i=1krelilog⁡2(i+1)\text{DCG@k}=\sum_{i=1}^{k}\frac{rel_i
Ollama平台里最流行的embedding模型： nomic-embed-text 模型介绍和实践 skywalk8163 人工智能 embedding 人工智能服务器
nomic-embed-text模型介绍nomic-embed-text是一个基于SentenceTransformers库的句子嵌入模型，专门用于特征提取和句子相似度计算。该模型在多个任务上表现出色，特别是在分类、检索和聚类任务中。其核心优势在于能够生成高质量的句子嵌入，这些嵌入在语义上非常接近，从而在相似度计算和分类任务中表现优异。之所以选用这个模型，是因为在Ollama网站查找这个模型，发现
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
GPT实操——利用GPT创建一个应用狗木马深度学习 gpt-3 gpt
功能描述信息查询：用户可以询问各种问题，如天气、新闻、股票等，机器人会返回相关信息。任务执行：用户可以要求机器人执行一些简单的任务，如设置提醒、发送邮件等。情感支持：机器人可以与用户进行情感交流，提供安慰和支持。个性化设置：用户可以自定义机器人的回复风格和偏好。技术栈前端：React.js后端：Node.js+Express数据库：MongoDB自然语言处理：OpenAIGPT-3API其他工具：
Android开发中RxJava的使用与原理你过来啊你 android rxjava
RxJava是ReactiveExtensions在JVM上的实现，专为处理异步事件流和基于观察者模式的编程而设计。在Android开发中，它极大地简化了异步操作（如网络请求、数据库访问、UI事件处理）的管理、组合和线程调度，有效解决了回调地狱问题。一、RxJava核心概念Observable(可观察者)：数据源或事件源。它负责发出数据项(onNext)或事件（成功完成onComplete/发生错
Java多线程吴鹰飞侠 java 开发语言
多线程是指一个程序中有多个执行路径（线程），每个线程并发运行，彼此独立，执行不同的任务。一个线程是程序中的基本执行单位。创建和启动线程1.通过继承Thread类classMyThreadextendsThread{@Overridepublicvoidrun(){System.out.println("线程正在执行...");}}publicclassMain{publicstaticvoidma
【JS三兄弟谁是谁】搞懂 splice、slice、split，只需一杯奶茶的时间！ dorabighead 前端八股总结 javascript 前端开发语言
JavaScript有三兄弟，经常一起“切人”。他们名字相似、功能相关，但性格迥异，常被搞混。今天，就带你喝着奶茶，笑着剖析，帮你彻底搞懂：splice、slice、split到底是谁？干了啥？凭啥这么火？一、三兄弟登场：不同对象，不同任务名称作用对象是否修改原对象返回类型功能简述splice数组✅是被删除元素数组原地删除元素并可插入新元素slice数组/字符串❌否副本（子集）复制选中部分，原体不
运维笔记＜4＞ xxl-job打通 GeminiJM 运维 java xxl-job
新的一天，来点新的运维业务，今天是xxl-job的打通其实在非集群中，xxl-job的使用相对是比较简单的，相信很多人都有使用的经验这次我们的业务场景是在k8s集群中，用xxl-job来做定时调度加上第一次倒腾，也是遇到了不少问题，在这里做一些记录1.xxl-job的集群安装首先是xxl-job的集群安装先贴上xxl-jobsql初始化文件的地址：xxl-job/doc/db/tables_xxl
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
RidgeUI页面脚本开发系列:反应速度测试页面
简介大家好，欢迎学习ridgeui页面脚本开发系列:反应速度测试页面脚本开发反应速度测试是个很简单的应用，开始时显示红色屏幕内容，当变为绿色时，用户以最快速度点击页面，进而测算出反应时间。应用的分析虽然应用简单，但是从界面角度看，应用有5个不同的页面。分别是启动说明页、红色等待、绿色点击、反应结果页、提前点击结果页。页面脚本除了要进行反应时间的计时，还需要调度安排何时显示哪个页面。为此我们首先创建
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要