架构师小秘圈

算法在哈啰顺风车中的实践应用

导读：如果科技让出行更美好，可以推动出行的进化，那么AI算法模型的应用，就是其中一个最大的推动力。本次分享的主题为算法在哈啰顺风车中的实践应用，将首先介绍算法同学依托于什么样的算法平台来解决哪些具体的业务场景；其次，介绍匹配推荐引擎，包括引擎的架构，召回和精排模块的演进；再次，介绍交易生态治理算法，包括治理算法的架构和模型的演进；最后，介绍智能营销算法的架构和模型的演进。

01 业务介绍

首先介绍下哈啰的算法平台基础建设，给算法同学在业务中落地算法提供了有力的保障。

1. 平台基建

公司的机器学习平台是基于机器学习和深度学习计算框架进行二次开发，提供一站式的服务，为算法同学提供从数据预处理、模型训练、模型评估、模型在线预测的全流程开发和部署支持。为算法同学提供端到端的一站式服务，帮助我们脱离繁琐的工程化开发，把有限的精力聚焦于算法策略的迭代上面。

该平台底层依托于Hadoop/Yarn进行资源调度管理，集成了Spark ML、XGBoost、TensorFlow三种机器学习框架，同时支持CPU，GPU异构资源的使用
我们的特征服务平台：提供了离线特征能力和实时特征能力，将线下的特征应用到线上，也可以将实时计算的特征推送到线上
我们的模型服务平台：管理算法的版本以及算法版本所用的模型、特征和参数，并为机器学习和深度学习模型实时计算提供高可用在线预测服务
我们的AB实验平台：通过科学的分流和评估方法，能更快更好地验证算法的效果

其实最开始的时候，我们的特征和模型是跟业务强耦合的，导致每次模型迭代，服务端都要搞发布，迭代效率很低。所以后面我们就把特征和模型全部剥离出来，放到机器学习平台去。

有了机器学习平台的一站式解决方案，算法同学可以方便快速的进行顺风车业务算法的落地。下面介绍一下，顺风车业务算法的构成。

2. 顺风车业务

从我们平台的二轮用户转化或者广告外投的渠道通过智能营销算法拉新过来的车主在平台发布订单后，通过我们的匹配推荐系统进行乘客订单的推荐，然后车主接单后进入行程中，我们会有交易生态治理算法来为司乘的体验与安全保驾护航。

所以整个交易链路，涉及3块算法，第一块是匹配推荐引擎，第二块是交易生态治理算法，第三块是智能营销算法。

首先介绍一下我们的匹配推荐引擎。

02 匹配推荐引擎

此模块主要分3个部分来讲，从架构到召回模块演进到精排模块演进。

1. 架构

匹配推荐引擎的目标是最大化交易效率的同时能够兼顾长期留存。

我们首先介绍一下推荐引擎的架构。从数据层来讲，数据来自于3个方面，一个是客户端传下来的实时上下文数据，比如乘客订单的价格、起点距离等上下文特征。一个是flink任务计算的准实时数据，比如同一笔乘客订单被多少司机看到，所有这些看到的司机中跟这个乘客订单的平均顺路度，起点距离等。一个是离线计算的宽表特征，比如对于车主接单行为的画像特征。

从数据层到模型匹配层，模型层主要分为召回层、粗排、精排、重排4个阶段。

从模型层到业务层，针对每个子场景都定制一套自己的模型，我们的顺风车从2个大场景来说，分为车主侧和乘客侧；而车主侧又分为临时行程、常用路线、附近找单、跨城找单等接单渠道。

接下来主要讲一下召回模块和精排模块的演进。

2. 召回模块

召回模块面临4个挑战：

第1个挑战是需要实时计算的逻辑太多，非常耗时。我们是基于位置的服务，当车主发单后，需要外扩经纬度形成矩形框后，在矩形框内进行路径规划、顺路度等计算逻辑，这些都是需要实时计算的。特别是当跨城订单里程很长的时候，轨迹点特别多，耗时更加严重。

针对这个问题，我们的一个解法是添加了轨迹压缩算法，轨迹压缩率达到80%，一定程度上降低了计算的压力。

第2个挑战是订单有且只出现一次，离线无法直接建模，生产embeding。

电商的召回模型统统失效了，因为订单是昙花一现的，没法在车主完单序列中反复出现。所以必须想一种办法，来对问题进行转化。

我们的解法是通过一定编码转化后通过图召回来解决，具体细节后面会讲。

第3个挑战是用户决策单一，车主总是希望离它近，价格高，更顺路，出发时间匹配的订单进行决策。我们的解法是在召回侧就将这些核心要素抽取出来作为召回链路的补充

第4个挑战是顺风车低频用户比较多。对于个人来说，低频，但是对于一个网格里面的车主来说，就会变得不低频。所以我们解法是挖掘历史目的地进行网格召回。

我们召回模块的V1版本从大方向是区分同跨城订单+核心策略召回；V2版本是不分同跨城+分里程+核心要素召回，召回到了更多订单，改变了供需关系，发单到完单提升5%；V3版本补充了网格召回 + 图召回。

下面着重讲一下，我们是怎么转化数据来做图召回的。

图召回：

首先是对重要特征离散化之后，对每一笔订单进行编码。比如核心要素价格按照5块钱分桶，顺路度按照0.01分桶，起点距离和终点距离按照1km分桶等。最终分桶后每笔订单编码为14位的映射码。这样在车主完单序列中相似的订单就可以反复出现了。这种编码的好处是近似订单基本等价于一个编码，就类似于电商中的一个商品了。那此时就可以使用电商里面的embeding算法了。

编码完成后对车主历史完单序列映射到具体编码。

然后通过node2vec来生成同质性的图结构，转移概率的公式直接用的论文的，只不过这里有个比较巧的方式是，为了生成同质性的图结构，此时远离参数q要设置一个比较小的值来使得游走的网络结构具有同质性。

生成好的编码序列，可以使用skip-gram的方式来训练，同时通过负采样来加速模型的训练速度。

3. 精排模块

下面讲一下精排模型的迭代思路：

最开始业务冷启动上线时，直接按照顺路度排序。算法1.0是采用逻辑回归上线，AB实验接单量提升6%，效果不错。算法2.0部分场景使用pointwise 框架用lightgbm + LR算法，接单量相比1.0进一步提升5%；部分场景使用listwise框架通过将文档排序的思想迁移过来，比如点击得1分，接单得2分，完单得3分，采用lambdaRank模型排序，接单量相比1.0提升10%。此后我们开始探索深度模型，尝试了电商的精排模型，比如deepfm，xdeepfm，DIN，DIEN等，离线验证auc并没有2.0版本效果好。

我们开始分析为何电商模型在出行行业并没有好的表现：电商场景亿级别的离散稀疏特征，顺风车场景则连续特征居多。所以，关键点在于电商的离散特征很多，embedding技术能发现更多特征的隐式交叉。而在顺风车场景，连续特征非常多，如果我们能找到一种方式把连续特征转化为离散特征，那特征交叉会更有效。

所以我们的算法3.0是这样一个模型：

将连续特征灌入lightgbm后生成20颗树*50个叶子节点的1000维叶子编码的离散特征，达到升维的目的；然后再通过embedding达到降维的目的。
然后将原始的连续特征归一化之后、原生的离散特征、emdeding向量一起喂入金子塔结构的神经网络中。可以通过dropout,batchnorm来避免过拟合、梯度消失的问题
将神经网络的最后隐层的输出与最原生的离散特征一同进入sigmod函数中，来增加模型记忆能力。

其实这里面的深度模型结构可以替换成已经成熟的各种深度模型，核心逻辑是如何处理连续特征，有利于深度模型进行更有效的特征交叉。因为如果一个连续特征只占一个bit位，在神经网络的特征交叉中不能充分被表达。

这幅图是当时离线测试的结果，可以看到自研模型的离线auc有2个点的百分位提升。

03 交易生态治理算法

交易生态模块，目标是保证车主在行程前、行程中、行程后的履约体验和行程安全。此模块包含4个部分，交易链路、架构，模型演进和场景举例。

1. 链路

在行程前我们会预测一笔交易发生取消、投诉、或者恶性事件的概率来做匹配干预，差司机和挑剔乘客避免碰到一起引起不舒服的体验。同时在行程前我们会根据历史数据预测车主或者乘客可能会有哪种不好的行为比如线下交易，绕路接人等，在接单前对疑似用户进行教育与引导。

在行程中，我们会通过算法进行轨迹偏航实时检测、异常停留的实时检测等不同手段的监测算法，保护司乘的安全。

在行程后，我们通过判责算法来保证司乘的合法权益。

2. 架构

在交易生态治理算法的特征一部分来自于基础特征，包括时空特征（比如订单坐标，时间等）、订单特征（是否拼单，乘客数目，是否同跨城等）、以及离线的司乘行为特征。另外一部分来自于实时特征，比如实时的轨迹流、IM聊天信息、通话等。

而样本是我们比较头痛的一部分，样本需要人工打标，耗费人力。我们这边是通过大众评审和后台投诉样本来获取一些用户标记给我们的正样本。

有了特征和样本后，我们可以离线训练模型。这个模型也是在行程前、行程中、行程后根据不同的场景进行定制化开发。然后将模型通过机器学习平台部署和发布到线上去，来让算法服务于每个环节的履约体验。

交易生态的治理算法中，因为正样本非常珍贵，所以我们这边的模型演进也面临着一些挑战：

3. 模型演进

首先第一个挑战是，顺风车线下行为难以在平台搜集到，比如轨迹流的获取，乘客一般上车后就不再打开app,导致轨迹不能上报。那就需要针对不同的场景进行在合适的节点触发引导与宣传。

第二个挑战是，没有标记样本。这边通过3种方式来解决，第一是客服工单人工处理的样本作为标记样本；第二是大众评审，就是app界面发送问题，让用户来打标回答，目前应答率在30%左右。第三个是通过小样本学习的方式来扩充前两个手段的样本量。比如对于使用模型预测概率比较高的样本可直接填充为正样本，来增加正样本数量。

第三个挑战是：特征的来源比较多，有轨迹流，有IM聊天信息，语音等。这里我们通过多模态特征融合来解决这个问题。

对于同一任务，能够应用多种模态的数据，可以做出更鲁棒的预测并且模态之间可能会存在互补的信息。我们当前的融合还处于比较早期的方法，是在提取了各模态的特征后，进行融合，利用了每个模态低水平特征之间的相关性和相互作用，使用单一模型进行训练，上线复杂性和性能都可控。

第四个挑战是：算法需要较强的可解释性，增加说服力。因为我们这边很多后台的计算逻辑需要透传给用户，引导用户朝着好的方向去走。所以算法的输出需要很强的可解释性，不然没法引导用户的具体行为。我们通过模型来提炼出一些规则，我们这边是规则打底，同时结合可解释框架SHAP来分析每个特征对结果的贡献。

下面我们看一个轨迹偏航算法的迭代过程，来了解交易生态的模型迭代：

4. 具体场景轨迹偏航

顺风车行程过程中对可能出现异常的行程进行提前预警，这里面面临的挑战：

司机不按照导航走，增加了偏航的难度：由于动态事件，比如封闭，施工，事故等造成车主不按导航走
传统的轨迹偏航算法不适合我们目前的业务场景：我们业务是容许一定范围的偏航

v1版本我们通过计算路线规划内，乘客与车主上报的轨迹批次中，当前批次与上一个批次，方向夹角，距离等的变化，计算一个偏航得分，通过这种方式上线后，在app端内开一定的小流量当处于偏航预警时，push用户给一个反馈。这样我们就有了一定的样本积累，方便后续的模型迭代。

v2版本我们通过将v1版本的用户打标样本和客服工单处理的偏航样本作为正样本，通过lightgbm进行小样本学习。

v3版本在前两个版本的积累下，可以开更多的流量通过大众评审用户打标有更多的样本后，进入深度模型的训练。

在模型迭代上，我们下一步的思路是将多目标训练融合进来，比如将是否偏航和是否产生工单一起训练，提升模型的准确率与召回率。

下面讲最后一个模块，智能营销：

04 智能营销

这一部分主要包含4个部分，营销的架构，用户运营的生命周期，模型的演进，uplift模型。

1. 架构

从数据层来说，营销用到的数据主要是用户的基础画像数据，用户的行为特征，以及最近在我们平台的浏览点击行为特征。通过这些特征，我们离线训练机器学习或者深度模型后进而在线部署模型。然后通过CRM平台给不同的用户发放不同的权益。

2. 用户运营周期

对于平台的用户来说，一般都会经历拉新，促活，防流失，召回挽留等阶段。对于每个阶段来说，我们希望有对应的营销算法和触达手段来激发用户在平台的活跃度与忠诚度，同时也能提升公司的钱效，用好每一笔钱。

这里面涉及3个问题，第1个问题是：给什么样的人发券，即圈人阶段；第2个问题是：圈的人给什么样的权益，比如是5块钱还是10块钱；第3个问题是：通过什么样的文案来触达用户，这里面就涉及智能文案的问题。

接下来主要讲一下前两个问题的解法。因为智能文案是专门有一个团队做成平台化来提供给整个公司的业务线来使用。

3. uplift模型

我们最开始的v1版本是从response model开始。去预测用户的出行概率，然后根据出行概率来制定不同的发券策略。这里面会出现自然转化的用户也发放了优惠券，导致钱效不高。

其实对于用户来说，主要分为4大类，第一类是营销敏感的人群，这类人是下单犹豫不决，需要券来刺激一把。第二类是自然转化的用户，不管发没发券，这个人第二天都是有出行需要的。第三类是无动于衷，发不发券都没反应，第4类是发券可能会起反作用，比如券可能是站内push的方式来发送，用户可能觉得太烦了，直接app关闭推送功能。这4类人中我们要抓住的就是第一类人，营销活动的重点人群。

所以v2版本，我们通过v1版本发券积累的数据，来尝试了uplift增益模型，对发券和不发券对用户带来的增量进行建模，然后根据这个增量来实施发券策略。

这里面有个缺点是，发券的金额仍然没有做到用模型cover住，钱效仍然不是很高。

所以v3版本，我们通过预测不同券的核销概率，与使用不同券的增益值，来通过运筹优化的问题解决券金额发放千人千面的问题。

比如xij 代表第i个用户是否发放第j种券，那约束条件是：每个用户至多发一种劵，以及所有用户的发券总和不能超过实际预算，优化目标可以是所有用户的增益值最大，也可以是gmv最大或者roi最大等

运筹优化的求解主要是整数规划，整数规划目前采用谷歌的ortools来求解。但是优化器当求解参数上千万时，性能就出问题了，要算十个小时左右，这是不能接受的。目前的解决方案是分而治之，通过分城市来求解优化器，因为每个城市间的用户相对来说是相互独立的，互不干扰。

接下来我们主要讲一下uplift模型的3种范式。

首先S-Learner就是single-learner，把对照组和实验组放在一起建模，只是把干预相关的特征作为特征加到模型中去训练，本质还是对response进行拟合，所以对于因果效应并没有很好地学到。

而T-Learner就是two-learner,是用对照组和实验组分别建模得到两个模型,对每个样本计算两个模型的预测值之差作为HTE（异质因果效应）。两个模型误差累计比较大，因为对照组的模型无法学到实验组的pattern，实验组的模型也无法用到对照组的数据。两个模型完全隔离，也就导致两个模型可能各自有各自的偏差，从而导致预测产生较大的误差。

而x-learner就是交叉的意思，是融合了S-Learner，T-Learner。

首先分别对对照组和实验组进行建模得到两个模型，然后把对照组放进实验组模型预测，实验组放进对照组模型预测，预测值和实际值的差作为异质因果效应的近似。这一块跟T-Learner是一样的。

然后把获取到的异质因果效应D1,D0作为训练目标，再训练两个模型，

最后把这两个模型加权求和就是uplift值。

其实uplift模型除了meta-learning的模式外，还有tree-based,nn-based。

与 meta-learner 不同的是，uplift model 下的树模型通过对增量直接建模，对特征点进行分裂，将 X 划分到一个又一个 subspace 中，那划分准则与传统的决策树信息熵或者基尼系数不一样，这边主要是采用分布散度或者CTS分裂准则。

nn-based我们还没有尝试，他是将propensity score估计即倾向性得分和uplift score估计合并到一个网络实现。

从图中我们可以看到x-leaner的离线效果更好，auuc和gini 值都表现更好。同时从车主促活场景来看，确实比较更优异。所以在我们的营销场景，uplift增益模型使用的是x-leaner。

我们当前这一套uplift + 运筹优化的框架，相比之前的的response + 规则的框架来说，在ROI上提升了10%，所以说因果推断在营销场景是非常有效的，很值得全面拥抱因果推断。

分享嘉宾：

Epoch 老兵发新帖人工智能
在深度学习和机器学习中，Epoch（轮次或周期）是一个核心训练概念，指模型在整个训练数据集上完成一次完整遍历的过程。以下是关于Epoch的详细解析：一、核心定义基本含义Epoch表示模型将所有训练数据完整学习一次的过程。例如：若训练集有10,000个样本，则1个Epoch即模型用这10,000个样本训练一轮。与相关概念的关系Batch（批次）：数据集被分割成的小组（如每批32个样本）。Iterat
Python --- day 10 Opencv模块的使用 AnAn__kang python opencv 开发语言
系列文章目录前言今天博主带大家进入Opencv的学习，这是一个专门针对处理图像和视频的一个模块，大家以理解为主，增强自己的编程思维，再后续我们训练模型时会大批量的处理图片时会经常用到这个模块。1OpenCV介绍OpenCV（开放源代码计算机视觉库）是一个开源的计算机视觉和机器学习软件库。由一系列C++类和函数构成，用于图像处理、计算机视觉领域的算法实现。1.1OpenCV优势**开源免费：**完全
时序数据库在数据库领域的应用前景数据库管理艺术数据库时序数据库 struts ai
时序数据库在数据库领域的应用前景关键词：时序数据库、时间序列数据、物联网、监控系统、金融分析、大数据、实时分析摘要：本文深入探讨了时序数据库在现代数据管理中的关键作用和应用前景。我们将从时序数据的基本特性出发，分析时序数据库的核心架构和设计原理，比较主流时序数据库产品的技术特点，并通过实际案例展示其在物联网、金融科技、运维监控等领域的应用价值。文章还将提供时序数据库选型指南，探讨未来技术发展趋势，
时序数据库在数据库领域的行业应用数据库管理艺术数据库时序数据库 ai
时序数据库在数据库领域的行业应用关键词：时序数据库、数据库领域、行业应用、时间序列数据、实时分析摘要：本文深入探讨了时序数据库在数据库领域的行业应用。首先介绍了时序数据库的背景知识，包括其目的、适用读者、文档结构和相关术语。接着阐述了时序数据库的核心概念、架构和工作原理，通过Python代码详细讲解了核心算法。还介绍了相关的数学模型和公式，并举例说明。在项目实战部分，给出了开发环境搭建、源代码实现
Python --- Day3 推导式及常见语句和内置函数的学习！！！
系列文章目录前言相信各位伙伴们在前俩次的文章和Python的基础学习中大有收获，这次我们将进入推导式，常见语句和内置函数的学习！跟着博主一起成为一名Ai的算法工程师！一、推导式用更简洁的方式创建列表、字典和集合。是Python特有的一种表达式形式。1.1列表推导式a=[1,2,3,4]result=[x*2forxina]#创建一个新列表，元素是原列表每个元素的两倍1.2字典推导式a=['a','
生命3.0时代，面对人工智能时代的到来，我们可以做些什么笃定的沙丁鱼
生命的定义生命的定义有很多，最为人所熟知的是在生物学上的定义，即生命是蛋白质存在的一种形式。但是，这种定义可能不太适用于未来的智能机器和外星文明，我们不能将我们对未来生命的思考局限在过去遇到过的物种，所以需要将生命定义得更广阔一些：生命是一个能保持自身复杂性并能进行复制的过程。复制的对象并不是由原子组成的物质，而是能阐明原子是如何排列的信息，这种信息由比特组成。换句话说：我们可以将生命看作一种自我
深度学习图像分类数据集—百种病虫害分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：百种病虫害识别分类，训练集45095张，验证集7508张，测试集22619张具体类别为以下：insect_classes=["rice_leaf_roller","rice_leaf_caterpillar
机器学习数据预处理阶段为什么需要——归一化处理
参考：https://www.cnblogs.com/bjwu/p/8977141.html通常，在DataScience中，预处理数据有一个很关键的步骤就是数据的标准化。这里主要引用sklearn文档中的一些东西来说明，主要把各个标准化方法的应用场景以及优缺点总结概括，以来充当笔记。提升模型精度在机器学习算法的目标函数(例如SVM的RBF内核或线性模型的l1和l2正则化)，许多学习算法中目标函数
不正规不靠谱：假摩根士丹利内部群推荐绿色低碳减排平台骗局揭露!送一万体验资金做慈善全是假的! 易星辰分享普法
关于曝光网上摩根士丹利何晓斌宝丰能源节能减排在炒股群推荐智慧农业中粮仓平台骗局的文章，其内容主要揭示了近期频发的一种投资诈骗手段。以下是该骗局的主要特点和步骤：为什么明明跟老师对过视频，确认是本人，怎么还会被骗了?你有没有想过一个名人大咖怎么会有时间给你们一对一视频，其次我来给大家揭露一下，这个套路AI换脸骗局是一种利用人工智能技术，通过替换视频中的人脸来伪造身份或进行诈骗的行为。你的账户“余额”
48Days-Day03 | 删除公共字符，两个链表的第一个公共结点，mari和shiny TinaAmber 笔试训练48Days 链表 java 算法
删除公共字符删除公共字符_牛客题霸_牛客网算法思路直接哈希，把第二个字符塞集合里面，遍历第一个，只要在集合里面有的就跳过代码importjava.util.HashSet;importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannerscan=newScanner(System.in);Strin
李航老师-统计学习小三爷_df1b
三个准则1.作为入门选手，不要每章都看2.不要从零造轮子去实现算法，太浪费时间3.必须能手推公式章节目录##统计学习概论-统计学习的目的是对数据进行==预测与分析==-统计学习的前提是同类数据具有一定的统计规律性-统计学习的方法-监督学习(supervisedlearning)-非监督学习(unsupervisedlearning)-半监督学习(semi-supervisedlearning)-强
车辆云端威胁情报共享系统的多维解析与发展路径百态老人大数据人工智能
第一部分：内容本质提取原始内容描述了一个闭环网络安全体系：“车辆实时上传异常行为日志至安全运营中心（VSOC），云端通过机器学习分析攻击模式并下发全局防御策略”。其核心架构包含：数据采集层：车辆端持续收集异常行为日志数据，包含CAN总线通信模式、网络流量特征及驾驶行为数据传输层：通过V2X通信协议和OTA更新通道实现车云双向通信分析层：安全运营中心(VSOC)采用CNN-BiSRU等深度学习模型进
假冒朱民！通达OA社科院朱民ST-balance项目就是假的，被骗亏损真相揭秘，亲身亏损经历正义青天
通达OA社科院朱民ST-balance项目不正规——杀猪盘不能提现投票骗局曝光！随着互联网的普及，数字经济蓬勃发展，各种线上平台如雨后春笋般涌现。然而，在这些看似繁荣的平台中，不乏一些黑平台，它们以欺诈手段骗取用户的财产，给人们的财产安全带来严重威胁！因此，我们有必要提高警惕，防范黑平台诈骗。针对网上素未谋面的牛散大咖，经济学家等推荐网上投资理财、数字经济，数字体育市场，人工智能项目，数字低碳，慈
基于深度学习的语音识别：从音频信号到文本转录 Blossom.118 机器学习与人工智能深度学习语音识别音视频人工智能机器学习线性代数计算机视觉
前言语音识别（AutomaticSpeechRecognition,ASR）是人工智能领域中一个极具挑战性和应用前景的研究方向。它通过将语音信号转换为文本，为人们提供了更加自然和便捷的人机交互方式。近年来，深度学习技术在语音识别领域取得了显著进展，极大地提高了语音识别的准确率和鲁棒性。本文将详细介绍如何使用深度学习技术构建一个语音识别系统，从音频信号的预处理到模型的训练与部署。一、语音识别的基本概
过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶 Ryan_sz1
1、过拟合、欠拟合及其解决方案过拟合、欠拟合机器学习或者训练深度神经网络的时候经常会出现欠拟合和过拟合这两个问题，但是，一开始我们的模型往往是欠拟合的，也正是因为如此才有了优化的空间，我们需要不断的调整算法来使得模型的表达能拿更强。但是优化到了一定程度就需要解决过拟合的问题了。也就是说欠拟合是模型表达能力不够，达不到很好的表达效果。而过拟合是在训练集的范围内表达能力过强，导致完全拟合了训练集。解决
InPixio Photo Maximizer(图片无损放大软件) v5.3.8625 便携版
InPixioPhotoMaximizer是一款用于放大和增强照片的软件。它提供了一系列功能和特点，使用户能够通过增大分辨率和细节来改善照片的质量和清晰度。软件功能图像放大：通过使用高级算法，可以将照片放大到原始分辨率的4倍，而保持良好的清晰度和细节。细节增强：通过增加图像的细节和锐度，可以改善照片的质量，并使图像更加清晰和逼真。手动调整：用户可以使用软件的手动调整工具，根据自己的需求进行尺寸和细
【软考速通笔记】系统架构设计师⑱——大数据架构设计理论与实践小康师兄系统架构设计师笔记系统架构大数据 Lanbda Kappa 数据湖批处理
文章目录一、前言二、传统数据库遇到的问题2.1问题的根源2.2传统解决方法三、大数据基础3.1大数据处理技术3.2大数据利用过程3.3大数据处理系统面临的挑战3.4大数据具有的属性和特征四、Lanbda架构4.1批处理层4.2加速层4.3服务层五、Kappa架构5.1实时层5.2服务层六、Lambda和Kappa对比七、其他一、前言笔记目录大纲请查阅：【软考速通笔记】系统架构设计师——导读关注【小
数字人系统：AI界的超级巨星，你准备好了吗？优秘智能UMI 数字人人工智能深度学习计算机视觉机器学习自然语言处理语言模型图像处理
在这个日新月异的科技时代，每一个创新的火花都可能点燃一场变革的燎原之火。今天，我们要聊的，正是那颗在AI领域熠熠生辉的璀璨新星——优秘数字人系统。它不仅仅是技术的飞跃，更是对未来生活方式的深刻重塑，一场关于人机交互、智能共生的美好预演。技术原理：深度解析与智能构建的奥秘1.深度学习：智能的基石数字人系统的核心技术之一在于深度学习。深度学习是一种模仿人脑神经网络结构和功能的机器学习技术，通过构建多层
普通人想利用AI变现，这5个赛道不能错过！浮沉导师
随着人工智能技术的迅猛发展，越来越多的普通人开始关注如何利用AI实现变现。AI不仅改变了我们的工作方式，也创造了众多赚钱的机会。本文将介绍五个值得关注的AI赛道，帮助你抓住这些机会，实现收入增长。【高省】APP网购优惠券免费领，分享还能赚钱。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台。佣金更高，模式更好，终端用户不流失。0投资，稳定可靠，百度有几百万篇报道，期待你的加入。应用市场下载【高省
“专属私有云”或“行业公有云（逻辑隔离的公共云专区）”两种主流部署模式到底有什么区别？政务云不就应该是专属的私有云么？政务云是不是不能混用？
一、安全合规性要求分层，驱动部署模式分化核心敏感系统需物理隔离（专属私有云）涉及公民隐私、国家安全（如公安、财政、医保核心数据库）的系统，必须通过物理隔离的专属私有云保障绝对控制权。例如：浦东新区公安局的涉密数据采用自建私有云，确保数据完全自主管控3。某省地市政务云要求核心业务部署在信创私有云，满足等保三级和国密算法评估要求5。非敏感公共服务适用逻辑隔离（行业公有云）面向公众的服务（如社保查询、线
AI人工智能 Agent：金融投资中智能体的应用 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能Agent：金融投资中智能体的应用1.背景介绍在金融投资领域，人工智能（AI）技术的应用已经成为一种趋势。随着数据量的爆炸性增长和计算能力的提升，AI技术在金融市场中的应用变得越来越广泛和深入。智能体（Agent）作为AI技术的重要组成部分，能够在金融投资中发挥重要作用。智能体可以通过学习和适应市场环境，自动执行交易策略，优化投资组合，甚至预测市场趋势。2.核心概念与联系2.1智能体（
AES加密算法简要介绍 ° 安如少年初如梦662 Java学习记录后端前端
前言项目中需要在接口中添加加密，简单了解关于AES的有关知识，低质低创见谅。什么是AESAES（AdvancedEncryptionStandard，高级加密标准）是一种对称加密算法，被广泛应用于数据加密领域。它是由美国国家标准与技术研究院（NIST）于2001年发布，作为一种公开标准，用于保护电子数据的安全。值得一提的是微信小程序的加密传输就是用这个加密算法基本原理和加解密过程由于站内有很详细，
对话谷歌前 CEO Eric Schmidt：数字超智能将在十年内到来，AI 将创造更多更高薪的工作 AI科技大本营人工智能
责编|王启隆出品|CSDN（ID：CSDNnews）投稿或寻求报道|[email protected]科技巨擘、谷歌前CEOEricSchmidt最近做客PeterDiamandis的Moonshots播客，与主持人PeterDiamandis及DaveLondon展开了一场关于人工智能未来的深度对话。全世界都在为AI的飞速发展感到兴奋又焦虑时，这位曾经执掌谷歌帝国长达十年、亲眼见证并推动了这场技术
聚焦基础研究突破，北电数智联合复旦大学等团队提出“AI安全”DDPA方法入选ICML CSDN资讯人工智能安全数据要素大数据
近日，由北电数智首席科学家窦德景教授牵头，联合复旦大学和美国奥本大学等科研团队共同研发，提出一种DDPA（DynamicDelayedPoisoningAttack）新型对抗性攻击方法，为机器学习领域的安全研究提供新视角与工具，相关论文已被国际机器学习大会（ICML2025）收录。ICML由国际机器学习学会（IMLS）主办，聚焦深度学习、强化学习、自然语言处理等机器学习前沿方向，是机器学习与人工智
格灵深瞳视觉算法面试30问全景精解机＿长算法面试职场和发展
格灵深瞳视觉算法面试30问全景精解——AI感知×智能安防×场景创新：格灵深瞳视觉算法面试核心考点全览前言格灵深瞳（GREATVISION）作为国内领先的人工智能与计算机视觉企业，专注于智慧安防、智能交通、智慧零售等领域，推动视觉算法在大规模城市级场景的落地。格灵深瞳视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在复杂场景下的创新能力与工程实践。本文精选30个高质量面试问题，涵盖基
商汤科技视觉算法面试30问全景精解
商汤科技视觉算法面试30问全景精解——AI赋能×智能视觉×产业创新：商汤科技视觉算法面试核心考点全览前言商汤科技（SenseTime）作为全球领先的人工智能平台公司，专注于计算机视觉、深度学习和智慧城市、智能汽车、智能医疗等领域，推动人脸识别、目标检测、视频分析、自动驾驶等前沿技术的产业化落地。商汤视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、自动驾驶、智慧医疗等复
旷视科技视觉算法面试30问全景精解机＿长科技算法面试深度学习 YOLO
旷视科技视觉算法面试30问全景精解——AI赋能×智能安防×视觉创新：旷视科技视觉算法面试核心考点全览前言旷视科技（Megvii）作为全球领先的人工智能公司，专注于计算机视觉、深度学习和智能安防等领域，推动人脸识别、目标检测、视频分析、工业视觉等前沿技术的产业化落地。旷视视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、工业检测、智慧城市等复杂场景下的创新与工程能力。本文
蔚来汽车视觉算法面试30问全景精解
蔚来汽车视觉算法面试30问全景精解——智能电动×高阶辅助驾驶×视觉创新：蔚来汽车视觉算法面试核心考点全览前言蔚来汽车作为全球领先的智能电动汽车品牌，致力于通过AI与高阶辅助驾驶技术推动智能出行的未来。蔚来视觉算法团队专注于自动驾驶感知、智能座舱、车路协同、3D重建等领域，强调算法的工程落地、系统安全与创新突破。蔚来视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在自动驾驶、智能感知
深入解析Hadoop中的推测执行：原理、算法与策略码字的字节 hadoop布道师 hadoop 算法推测执行
Hadoop推测执行概述在分布式计算环境中，任务执行速度的不均衡是一个普遍存在的挑战。Hadoop作为主流的大数据处理框架，通过引入推测执行（SpeculativeExecution）机制有效缓解了这一问题。该技术本质上是一种乐观的容错策略，当系统检测到某些任务执行明显落后于预期进度时，会自动在其它计算节点上启动相同任务的冗余副本，最终选择最先完成的任务结果作为输出。核心设计动机推测执行的诞生源于
阿里云态势感知和安骑士有什么区别？阿腾云
阿里云态势感知和安骑士均是阿里云云盾安全产品，态势感知属于安全管理类的产品，安骑士数据服务器安全类产品，阿里云百科网来详细说下阿里云态势感知和安骑士之间的区别：态势感知和安骑士的区别简单来说，安骑士是检测云服务器漏洞的，态势感知提供安全类的大数据分析服务。态势感知：安全大数据分析平台，通过机器学习和结合全网威胁情报，发现传统防御软件无法覆盖的网络威胁，溯源攻击手段、并且提供可行动的解决方案。安骑士
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分

算法在哈啰顺风车中的实践应用

01

业务介绍

1. 平台基建

2. 顺风车业务

02

匹配推荐引擎

1. 架构

2. 召回模块

图召回：

3. 精排模块

03

交易生态治理算法

1. 链路

2. 架构

3. 模型演进

4. 具体场景轨迹偏航

04

智能营销

1. 架构

2. 用户运营周期

3. uplift模型

你可能感兴趣的:(算法,大数据,机器学习,人工智能,深度学习)