不一样的算法工程师

汽车之家推荐系统排序算法迭代之路

作者介绍：

李晨旭，汽车之家高级算法工程师。2014年加入汽车之家，先后从事搜索意图分析、文本挖掘、推荐排序等工作。在汽车之家海量资源和几亿用户这个平台上，积极尝试并落地最新的算法研究成果，也积极尝试在此基础上创新，并取得了一定的效果。

团队介绍：

汽车之家推荐团队负责汽车之家首页等多个场景的个性化推荐及效果提升，通过打造一个通用高效的推荐平台，在支持内部推荐场景的同时开始了对外技术成果输出，支持了上亿用户的体验提升。业界规模领先的大数据平台、GPU 集群和机器学习平台为团队提供基础支持。同时，团队积极跟进最新的研究成果，在实践的同时鼓励大胆创新，做出创新且效果领先的模型和架构。

导读：汽车之家的推荐系统紧随前沿技术，在支持内部多个推荐场景的同时，对外也有了一定的输出。未来我们期望汽车之家的推荐系统不只是前沿技术的应用者，更是推动者和创新者。本次分享的主题为汽车之家推荐系统排序算法迭代之路，主要包括：

汽车之家推荐系统

排序模型

特征及训练样本

未来计划的优化方向

01. 汽车之家推荐系统

1. 概述

汽车之家推荐系统上线已有近5年历史，主要给用户推荐个性化的汽车之家资源。推荐系统的上线是汽车之家 APP 生态内容以分类体系分发转变为个性化推荐的重要里程碑。汽车之家推荐的资源主要包括：专业编辑、汽车大V、论坛用户生产的文章、视频、图片，以及车系物品等，总量上亿。

推荐的目标是给用户推荐他喜爱的内容，做好推荐可以拆解为三个子目标：

一是对用户的理解

二是对资源的刻画

三是用户和资源的最佳匹配

再对上面三个目标进行拆解，用户理解包含用户属性、行为收集及行为的表示，资源的刻画包括自身的属性及外部赋给资源的特征，用户和资源的匹配有非常多的方法或模型，是推荐系统的核心工作，追求更好更优的匹配，是推荐系统不断演进的动力所在。

匹配又可以分为两部分，召回和排序，召回是尽可能多的找到用户喜欢的资源，排序是对找到的资源再做一次优选，召回和排序又可以进一步细分。

2. 架构

推荐系统要从海量的资源库里，快速找到用户潜在感兴趣的资源。主要有四个环节：

第一，收集资源；

第二，从所有资源中找到用户感兴趣的资源；

第三，对用户感兴趣的资源根据用户喜好程度进行排序；

第四，输出给用户最感兴趣的 n 个资源。

基于以上四个环节对推荐系统架构进行设计，一般由如下模块组成。

其中：

资源池：存储各种类型的海量资源，一般由数据库存储，如 mysql、hive、redis 等。

标签生成：标签是对资源更多维度的结构化刻画。比如：分类标签、关键词、质量分等。

索引：对资源的各类标签、关键词建立倒排索引，及相似向量检索引擎等。

过滤：对用户的曝光历史、负反馈等进行过滤。

召回：使用用户画像标签或用户 Embedding 到索引和向量库中获取相关的候选资源。

用户画像：用户属性及根据用户的历史行为给用户打的标签。

排序：通过模型对召回的每个候选资源进行预测打分。

特征/模型：排序依赖的用户特征、资源特征及模型。

运营：业务策略，包括提权、曝光占比控制、打散等业务策略。

输出：将排序及运营后的 topN 个资源打包返回给客户端。

02. 排序模型

1. 模型介绍

汽车之家首页推荐排序模型主要经历了 LR、XGBoost、FM、DeepFM、DeepFM Online Learning 这几个主要的演进过程，在这个过程中还实验了如 Wide&Deep、DCN、LSTM、GRU 等模型。

LR 模型是 CTR 预估领域早期最成功的模型，大多早期的工业推荐排序系统采取 LR 这种 "线性模型+人工特征组合引入非线性" 的模式。LR 模型具有训练快、上线快、可解释性强、容易上规模等优点，目前仍然有不少实际系统采取这种模式。同时 LR 模型也是之家推荐排序系统初期的验证模型和中后期的 baseline 模型。

XGBoost 模型在使用和 LR 相同的特征，上线后就取得了比较明显的效果，之后又增加了 user 和 item 的实时特征，实验组 CTR 得到了进一步的提升，总体上相对提升6%。在和对照组持续观察了3周后，XGBoost 的提升效果得到了验证，替换了 LR 成为线上的全量模型和 baseline 模型。之后还尝试了 XGBoost+LR，效果相比 XGBoost 没有明显提升。

FM 简洁优雅地实现了二阶特征组合。实现特征组合比较容易想到的是在 LR 的基础上加入二阶特征组合即可，即任意两个特征进行组合，将组合出的特征看作新特征，加到 LR 模型中。组合特征的权重在训练阶段学习获得。但这样对组合特征建模，泛化能力比较弱，尤其是在大规模稀疏特征存在的场景下。FM 模型也直接引入任意两个特征的二阶特征组合，但对于每个特征，学习一个大小为 k 的一维向量，两个特征 Xi 和 Xj 的特征组合的权重值，通过特征对应的向量 Vi 和 Vj 的内积来表示。这本质上是对特征进行 Embedding 化表征，和目前常见的各种实体 Embedding 本质思想是一样的。特征组合对于推荐排序是非常重要的，DNN 模型一样离不开特征组合这个特点，但 MLP 是种低效率地捕获特征组合的结构，所以排序相关的深度模型，基本都具有类似 FM 组合特征的部分。FM 模型实践阶段主要是增加了样本量由几千万到3亿，线上实验 CTR 对比 XGBoost 相对提升2%，因为后续 DeepFM 很快上线，FM 并没有推全。

Wide&Deep 是推荐领域取得较大成功的最早期深度模型，由 Google 于2016年提出。Wide&Deep 模型包括 Wide 部分和 Deep 部分，Wide 部分为 LR，输入为 one-hot 后的离散型特征和等频分桶后的连续性特征，这部分可以对样本中特征与目标较为明显的关联进行记忆学习；Deep 部分为 MLP，输入为 Embedding 后的离散型特征和归一化后的连续型特征，可以泛化学习到样本中多个特征之间与目标看不到的潜在关联。使用 Wide&Deep 的另一个优势在于 Wide 部分的存在，可以沿用之前浅层学习的成果，尤其是特征工程部分。Wide&Deep 上线后 CTR 相对提升3%，比同期上线的 DeepFM 低0.5%，线上主要使用了 DeepFM 模型。

DeepFM 将 Wide&Deep 的 Wide 部分 LR 替换成 FM 来避免人工特征工程。DeepFM 相比 Wide&Deep 模型更能捕捉低阶特征信息。同时，Wide&Deep 部分的 Embedding 层需要针对 Deep 部分单独设计，而在 DeepFM 中，FM 和 Deep 部分共享 Embedding 层，FM 训练得到的参数既作为 wide 部分的输出，也作为 MLP 部分的输入。DeepFM 支持 end-end 训练，Embedding 和网络权重联合训练，无需预训练和单独训练。DeepFM 上线后 CTR 相对提升3.49%，略好于同期上线的 Wide&Deep。在效果得到验证后推全了 DeepFM 模型，使其成为线上的全量模型和 baseline 模型。线上效果的提升带来的是推荐排序模型预测耗时的增加，为了保证不超过最大平响，在不明显提高模型 loss 的前提下，实验优化 Deep 部分的参数，包括减少 Embedding 的维度和隐藏层的神经元个数与层数等。通过部署模型上线后观察效果，模型预测的耗时随之减少，而且 CTR 也没有明显波动，依然明显高于对照组，说明深度学习的泛化能力较强，即便降低模型的神经网络配置，依然能较好地拟合样本。

与 Wide&Deep 和 DeepFM 类似，DCN 将 Wide 部分升级为 Cross 网络，Cross 网络一方面通过显式的高阶特征交叉，另一方面通过层与层之间拟合残差，能够更深入地挖掘出非线性特征组合与目标的关系，更快地达到稳定的拟合状态。在和 DeepFM 采用相同特征的情况下，实验 CTR 也和 DeepFM 持平。根据线上的迭代经验和业务特点，尝试优化了 DCN 的模型结构。在 DCN 原始的 Embedding and Stacking 层中，离散型特征在经过 Embedding 处理后，与连续型特征直接拼接在一起，统一输入进后面的网络，这样带来的不足是：虽然网络可以用显性和隐性的方式学习特征间的有效交叉，但缺少单个特征内部信息的挖掘，将这部分压力转移到了特征工程，从而增加了人工成本。基于充分利用每个特征，通过排序模型自适应学习到更多信息的考虑，尝试对所有特征分别进行扩展。在 DCN 的 Embedding and Stacking 层和网络层之间实验引入特征扩展层，将每个特征从原始的1维扩展到 n 维，与 Embedding 只对离散型特征处理不同，维度扩展也会处理连续性特征。扩展后的特征在伴随着维度增加的同时，会将更多自身信息输入到网络层参与高阶计算，与只使用原始特征相比，模型可以更深入利用已有特征，节约了特征工程的人工成本。通过离线实验，在采用相同特征的情况下，相较 DCN，基于特征扩展的 DCN 上线后实验 CTR 相对提升1%。

在上述模型迭代的同时，还实验了 LSTM、GRU 等模型，LSTM 和 GRU 都是基于序列的 next click 模型，模型的结构很简单，对于一个 Session 中的点击序列 X=[X1,X2,X3...Xn-1,Xn]，依次将 X1,X2,...,Xn-1 输入到模型中，预测下一个被点击的是哪一个 Item。首先，序列中的每一个物品 Xt 被转换为 one-hot，随后转换成其对应的 embedding，经过 N 层隐含单元后，再经过一个全联接层得到下一次每个物品被点击的概率。这些模型的 CTR 都暂未明显好于 DeepFM，所以都还在实验阶段，没有成为线上主要模型。

在 DeepFM 和其他深度模型的实践中，比较容易犯的错误是不考虑特征组成和样本数量，直接暴力增加模型复杂度，从而导致训练时间骤增、模型文件变大和线上的预测时间更久，最终引起推荐系统服务超时。如果特征数量少、特征工程完善和样本选取合理，使用简单的深度学习模型反而能够达到更好的效果。

2. 在线学习

在线学习利用实时收集的用户反馈，实时更新模型参数进行预测，实时反馈用户行为变化带来的影响。在线学习相对离线学习可以理解为数据集无限大，时间序列无限长，利用样本数据流逐条更新模型，在线学习是 DeepFM 上线后在模型更新方面做的优化。之前的模型更新从一周到一天，为了模型能更快的学习到用户的实时行为，我们将模型的更新周期做到了分钟级。

这里主要有两部分工作，一是 Label 及特征的实时获取，二是模型的实时更新。

对于 Label 及特征的实时获取是通过每次请求的唯一标识 id 使用服务端 dump 的特征和客户端的 Label ( 曝光、点击 ) 进行 join 生成，这里要注意的是 Label 必须和当次请求的特征 join，如果特征数据在 Label 之后有更新，则会产生特征穿越的问题。

模型的实时更新是将实时获取的样本累积到一个 batch 后，就进行迭代更新，更新后的模型每隔10分钟往线上推一次。累计10分钟在保证捕获用户实时行为实效性的前提下，既可以降低工程实现难度，又可以降低样本的抖动影响，对样本不均衡的情况可以采取采样策略进行处理。

3. 排序服务

排序服务是以 API 的形式提供，其中：

输入：

Deviceid:用户唯一标识，在服务内部通过此 id 获取用户的属性及行为特征。

Itemid:这是对用户待排序的资源 id，在服务内部会获取到这些资源属性、热度、标签等信息。

Pvid:当次请求的唯一标识，用于关联客户端和服务端的日志。

Model-name:模型名称，指定选用哪个模型进行排序，排序服务提供了多个模型供选择。

Model-version:模型版本，和 Model-name 搭配使用，指定同一个模型的哪个版本，这个参数主要用来进行模型迭代优化。

Debug:此参数用来输出排序过程中的一些中间结果。

输出：Itemid 及其打分。

排序服务中的多个模型有不同的更新策略，更新周期可配置。排序服务还依赖于特征服务获取用户和资源的特征，对应到不同模型还有不同的特征工程处理。

4. 模型更新

实验的小流量排序模型经过离线验证，线上可以定时直接热更新。线上的全量排序模型更新除了离线验证外，还要在推全之前有一个预上线实验验证，确保在预上线实验组上 CTR 等数据没问题，再将模型全部更新。

5. AB 实验

在机器学习领域中，AB 实验是验证模型最终效果的主要手段。进行 AB 实验的主要手段是进行用户分桶，即将用户分成实验组和对照组，对实验组的用户施以新模型，对照组的用户施以旧模型。在分桶的过程中，要注意样本的独立性和采样方式的无偏性，确保同一个用户每次只能分到同一个桶中，在分桶过程中选取 DeviceId 必须是完全随机的，这样才能保证桶中的样本是无偏的。实验组和对照组的划分必须是在相同的约束条件下随机选取 DeviceId。如下图 a、b、c 的划分都不正确，其中 a 中实际划分的用户超出了实验约束的用户群，b 中实验组用户正确，但是把剩余的所有用户作为对照组是不对的，c 中实验用户正确，对照组用户有所扩大也是不对的，只有 d 是正确的。

线上的 AB 主要有三部分，一是实验及其分桶的配置，二是分桶对应的代码逻辑，三是实验及分桶的效果数据。实验之间的流量是正交的，每个实验中多个分桶的流量是互斥的。如我们的排序模型设置了一个实验，多个分桶，有2%、5%、10%流量的三个对照组，模型上线时从2%开始逐步扩量进行效果对比验证。

6. 模型训练

推荐排序模型的训练主要基于之家机器学习平台 AutoPAI。汽车之家 AutoPAI 是一个支持可视化拖曳组件建模，支持上百种机器学习算法组件，支持多个深度学习框架，和 Hadoop、Spark 打通，支持分布式 GPU 训练深度学习模型的平台，并且支持在线开发、自动部署等功能。

我们的简单模型如 LR、XGBoost 可以直接在界面上拖动数据源、特征处理组件、模型组件、验证组件进行训练并保存模型，之后进行一键部署线上服务。深度模型支持在线开发、调试，之后将调试好的代码通过深度学习组件进行提交，选择 GPU 卡数进行训练，训练完成后可一键部署服务。

7. 可视化 Debug

对模型或策略单次请求效果的验证，一般上线后通过白名单进行验证，但这还是要进行代码或配置的上线，上线一方面是有风险，另一方面一般上线是多个实验多个功能一起上线，即使一个实验添加了白名单也有可能受到其他实验的影响。对此，我们基于代码 Debug 的思想，把调试放在程序正式发布前，我们做了推荐 Debug 系统，在实验上线前就可以通过 Debug 系统进行效果验证及中间环节验证。

我们的 Debug 平台最主要的推荐效果验证输入有两部分，一是推荐接口，二是实验配置。通过更改这两部分的参数，就可以模拟线上真实返回渲染，并可以输出这次请求整个链路的中间结果。Debug 平台还支持对索引、召回、排序等子模块的直接验证，可以查询资源特征、用户画像，用户曝光点击行为等。Debug 平台的上线极大的提高了我们的上线效率。

03. 特征及训练样本

1. 特征介绍

模型的输入一般包括：用户画像特征、item 特征，上下文特征，交叉特征、位置特征和序列 item 特征，其中：

用户画像特征有：用户自身属性，如性别、年龄、职业、地域等；用户行为，如不同时间窗口的浏览时长、点击、搜索、发贴、收藏、点赞等行为；基于行为所产生的兴趣偏好，如车系、标签偏好等；基于行为的衍生统计指标，如用户 ctr、活跃度等。

Item 特征有：item 自身属性，如标题、正文字数、图片个数等；基于 item 挖掘的特征，如内容分类、关键词、情感、内容专业度、内容丰富度、作者影响力等；item 被用户赋予的行为，如 uv、pv、ctr、收藏、点赞、回复等。

交叉特征有：item 标签与用户标签的匹配度。

2. 特征处理

直接使用原始特征不易于模型拟合，所以传入模型后还需要进一步处理，具体包括：异常值处理、归一化和等频分桶。

异常值处理：

训练样本中的特征一般都存在异常值，对于离散型特征，可以将其单独分配到 one-hot 的一个位置，不会存在全为0的情况，但对于连续型特征，通常会对其赋默认值，如果为0则该特征不会参与到结果计算，如果为平均值则可能不符合各个特征的物理含义。为了得到合理的默认值，排序模型通过在特征处理阶段，对每个连续型特征引入不为0的 weight 和 bias，默认值的计算方式为：weight x featurevalue + bias，weight 和 bias 通过模型训练学到，当出现异常值时，特征值默认等于 bias。通过离线实验，测试集的 loss 有明显下降，上线后的 CTR 也优于默认取0值或取平均值。

归一化：

连续型特征的值分布一般不统一，例如曝光量和 CTR，曝光量取值都大于1，且最大值可能会是几百万，而 CTR 的取值区间为0到1，如果直接输入到排序模型，分布不均的统计特征会导致训练波动，不但影响收敛速度，而且最终可能会无法拟合。常规的归一化方法包括：min-max、log 和 standard 等，通过离线实验观察测试集的 loss，其中 min-max 的效果最好。

等频分桶：

对于连续型特征，当线上的特征值出现异常变化的时候，可能会存在泛化性不好或者鲁棒性不足的问题。为此引入了等频分桶，即按样本特征的分布频率，为每个特征规定好多个取值分界线，根据原始特征值分到不同的桶中，再根据桶的编号进行 one-hot 处理。深度模型的 NN 部分使用连续特征时因为长尾分布对最大值做了限制，后来实验 NN 部分使用离散特征效果更好，也使用了离散特征。

3. 特征表达

我们的排序模型不仅引入了大规模的稀疏特征，而且实现了多种形式的向量表达。

如基于 item 内容分类的 Bert embedding，基于 item 图像和视频的 embedding，基于行为的 Graph embedding、LSTM embedding 等。

4. 特征生产

用户和资源的特征做到了离线加实时，离线特征存储了用户和资源最近三个月的行为，实时特征做到了秒级别的更新。特征生产系统架构如下：

5. 特征服务

特征服务是支持排序服务的基础服务，主要输出用户和资源的离线及实时特征。

6. 训练样本生成

排序服务在用户每次请求时调用特征服务，获取实时和历史特征，输入模型，并输入到一个 dump 队列再与客户端的曝光点击进行 join 生成模型实时训练更新的样本，流程如上图。

04. 未来计划的优化方向

模型目标：后续的优化目标不仅仅限于 CTR，而是综合点击、互动、时长等多个目标同时优化，这是未来目标优化的趋势。多目标模型的实现既可以每个目标独立建模优化然后进行融合，也可以通过共享参数的多目标网络实现。

模型表达能力：也就是网络结构的升级，如使用 Transformer 进行更好的特征抽取，自动化特征工程，AutoML 自动设计更好的网络模型，和推荐场景很吻合的强化学习等。

特征扩充及信息融合：主要有用户长短期兴趣更精准的 Embedding 表达，文本、图片、视频、互动行为等多模态信息的融合表达等。

汽车之家的推荐系统紧随前沿技术，在支持内部多个推荐场景的同时，对外也有了一定的输出。未来我们期望汽车之家的推荐系统不只是前沿技术的应用者，更是推动者和创新者。

你可能感兴趣的:(AI人工智能算法解析&落地实践)

android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
每日一题——第八十一题互联网打工人no1 C语言程序设计每日一练 c语言
打印如下图案:#includeintmain(){inti,j;charch='A';for(i=1;i<5;i++,ch++){for(j=0;j<5-i;j++){printf("");//控制空格输出}for(j=1;j<2*i;j++)//条件j<2*i{printf("%c",ch);//控制字符输出}printf("\n");}return0;}
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
每日一题——第八十三题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将输入的整形数字输出,输出1990，输出"1990"#include#defineMAX_INPUT1024intmain(){intarrr_num[MAX_INPUT];intnum,i=0;printf("请输入一个数字：");scanf_s("%d",&num);while(num!=0){arrr_num[i++]=num%10;num/=10;}printf("\"");for(
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
把握“三度”打造“三有”干部队伍辛德瑞拉卡卡卡
“胜败兴亡之分，不得不归咎于人事也”。干部队伍建设工作的好坏，关系到党和国家的发展全局。近日，新疆维吾尔自治区党委书记马兴瑞在部分党群单位走访调研时强调，要努力培养造就忠诚干净担当的高素质专业化干部队伍。各级组织部门应当在培养选拔干部、吸收优秀青年到党内来、培养造就优秀人才上下功夫，切实增强干部投身实践、解决问题、推进工作的能力，着力打造高素质专业化干部队伍。“天生我材必有用”，增强选育有“准度”
读书||陶新华《教育中的积极心理学》1—28 流水淙淙2022
读一本好书，尤如和一位高尚者对话，亦能对人的精神进行洗礼。但是若不能和实践结合起来，也只能落到空读书的状态。读书摘要与感想1、塞利格曼在《持续的幸福》一书中提出了幸福2.0理论，提出幸福由5个元素决定——积极情绪、投入的工作和生活、目标和意义、和谐的人际关系、成就感。2、人的大脑皮层在进行智力活动时，都伴有皮下中枢活动，对这些活动进行体验请假，并由此产生了情感解读。人的情绪情感体验总是优先于大脑的
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
23.3.27精进 07439acfb561
落地真经严格就是爱，放纵既是害正能量语录每一颗螺丝都有标准每一颗螺丝都是标维今日体验不要质疑你的付出，这些都会是一种积累，一种沉淀，它们会默默的铺路，只为让你成为更优秀的人。
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
每日一题——第八十八题互联网打工人no1 C语言程序设计每日一练 c语言
题目：输入一个9位的无符号整数，判断其是否有重复数字#include#include#includeintmain(){charnum_str[10];printf("请输入一个9位数的无符号数：");scanf_s("%9d",&num_str);if(strlen(num_str)!=9){printf("输入的不是一个9位无符号整数，请重新输入");}else{if(hasDuplicate
mac电脑命令行获取电量小米人er 我的博客 macos 命令行
在macOS上，有几个命令行工具可以用来获取电量信息，最常用的是pmset命令。你可以通过以下方式来查看电池状态和电量信息：查看电池状态：pmset-gbatt这个命令会返回类似下面的输出：Nowdrawingfrom'BatteryPower'-InternalBattery-0(id=1234567)95%;discharging;4:02remainingpresent:true输出中包括电
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
2021-08-09 杜永鹏
京❤️达总店：杜永鹏2021年8月9日落地真经严格就是爱，放纵既是害目标确认目标:产值目标165000台次目标100油卡目标10体验：在工作中遇到问题不要盲目的去干，要多方面考虑问题，找到问题的关键克服困难并解决问题！
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，