like_red

《Real-time Personalization using Embeddings for Search Ranking at Airbnb》学习笔记

2018年KDD的best paper读书笔记

0.写在开篇的唠唠叨叨
1.背景介绍

1.1 场景
1.2 论文内容

2.listing embedding

2.1 概述
2.2 数据处理
2.2 层层递进的构造listing embedding的过程
2.3 解决冷启动listing
2.4 这样构造listing embedding来代表listing是否有效？
2.5 离线测评
2.6 线上结果

3.user-type & listing-type embedding

3.1 问题引入——搜索阶段如何实现cross market的长期兴趣偏好的挖掘？
3.2 数据处理
3.3 层层递进的构造type embedding的过程

4.embedding的应用

4.1 embedding中所蕴含的信息检查
4.2 搜索排序

4.2.1 衍生embedding features
4.2.2 具体计算步骤
4.2.3 embedding思想在airbnb搜索系统上的测评

5.疑惑

0.写在开篇的唠唠叨叨

最近老大让我准备分享一下最近读的论文，其实自己有在《Real-time Personalization using Embeddings for Search Ranking at
Airbnb》这篇论文和多臂老虎机的几篇论文里面纠结，想着分享哪一个主题更好。最后分享这篇的原因完全是冲着best
paper的title，但是从需要和人进行分享的角度开始来读这篇论文之后，觉得作者的好多思路都好有意思，蛮适合实际的工程应用的。想法直观，结果有效，这算是我拜读这篇论文之后的最大感受吧。
这篇博客就是按照我自己分享的逻辑来记录的。
整篇论文中的listing就是指airbnb中的一个房源
这篇论文主要是推荐系统的排序算法，是基于已经有一个召回的结果来对房源进行排序展示。

1.背景介绍

1.1 场景

在Airbnb中用户通过搜索界面点击了一个房源之后，有两种方式继续浏览其他房源：

返回搜索结果页；
所查看房源详情页下的“相似房源”；

其实这两个部分都是需要涉及到使用推荐算法来对已经召回的房源进行排序展示的。所以这篇论文是对不同的需要排序的场景来进行构建embedding的。

1.2 论文内容

论文的写作思路就是从下面三个方面进行推进的

需要构造哪些embedding
如何构建embedding
如何应用embedding在这两个场景实现更加精准的实时个性化

这篇博客也是按照这个思路来记录。
首先回答第一个问题，需要构造哪些embedding。论文首先针对了房源详情页下面的“相似房源”这个应用场景提出了listing embedding，进一步为了更好的实现搜索页上的排序算法，又提出了user type & listing type embedding。所以可以概括为本文提出了两种embedding：
listing embedding + user-type & listing-type embedding

2.listing embedding

2.1 概述

以用户的点击行为作为序列，通过这种点击序列的上下文关系来挖掘用户点击这些房源之间的内部联系。
落脚于“当前”产生的点击行为，所以刻画的是用户的短期兴趣。
实现推荐当前点击的listing的相似房源，session内的个性化。
实验结果表明这种embedding方式能够提取到房源的价格、类型等特征。

2.2 数据处理

过滤噪声点击：被点击的listing的详情页停留时间小于三十秒的会被过滤。
划分session：用户连续两次点击之间的时间超过三十分钟，这个序列就会被划分开到两个不同的session中。

2.2 层层递进的构造listing embedding的过程

step1. 使用skip-gram构造最初的目标函数

$l_i$ 表示一个listing

step2. 采用negative sampling构造采样之后的目标函数

$v_l$ 表示位于当前作用center的这个listing的embedding向量
$v_c$ 表示center后面的这个输入listing的embedding向量
$(l, c)$ 表示当前的输入向量
$(l,c)\in D_p$ 表示当前的输入向量属于正样本
$(l,c)\in D_n$ 表示当前的输入向量属于负样本

由于前面两个基础目标函数，属于日常比较常用的，而且后面开始才是作者针对airbnb的实际场景提出的比较有意义的地方，所以前面两个公式这里就直接略过了，不做解释。

step3. 根据预定行为构造有导向于“booking”的目标函数
作者指出，用户一直浏览的最终的目的是为了产生“booking”这样下订单的行为，因此应当将“booking”了的listing当作这一段时间（我理解的就是上一个有booking行为到这个booking行为之内的所有session）的最后一个item。也就是将这个booking listing当作一个全局“global”的值。在这样的基础上，构造了下面的目标函数

$v_{l_b}$ 表示booking listing的embedding向量
注意蓝色框的地方就是添加进来的booking listing。
由于这个booking listing是作为“正例”样本，所以纳入到目标函数中的分母的指数是取“负”。
同时，这个booking listing纳入目标函数的前面并没有加 $\sum$ 这个求和符号，就是体现了“global”的效果，也就是在这个session里面，都需要考虑到这个booking listing作为正例。
这附图应该更容易理解到这个“global”的形式：

step4.根据房源地区进一步优化得到最终的目标函数
由于listing embedding是基于当前已经点击了一个房源，因此，此时用户是已经有一个地区倾向了；同时，listing embedding更多的就是为了解决airbnb的“相似房源”这个场景下的候选listing的排序，因此作者提出了在目标函数中在加入基于地区的采样。

$v_{m_n}$ 表示当前地区的listing的embedding向量
$(l,m_n)\in D_{m_n}$ 表示当前的输入向量属于目标地区中负样本
这里将与点击listing处于同一个地区的其他listing当作负样本，纳入目标函数中。所以纳入到目标函数中的分母的指数是取“正”。

2.3 解决冷启动listing

由于新的房源没有历史被点击的信息，所以这里会通过找到三个地理位置最接近、房源类别和价格区间相同的“老”房源，通过计算这些“老”房源的embedding的平均值来当作“新”房源的embedding值

2.4 这样构造listing embedding来代表listing是否有效？

作者用了三种方式来验证这样的embedding方式代表一个listing是有效的：

1. kmeans聚类

作者根据已有的用户点击数据计算了California的所有listing的listing embedding向量。
然后将这些listing embedding直接进行聚类。
最后根据聚类结果，绘制得到了这幅图。
从图中可以看到，地理位置接近的listing会被聚集在一起。
结论：说明这样计算得到的embedding能够提取地理位置上的信息

2. 分类计算平均余弦相似度

同样的,先根据已有的用户点击数据计算计算所有listing的listing embedding向量;
然后,根据listing本身的房源类型或价格区间进行分类;
最后计算分类之后的,所有listing embedding向量之间的平均余弦相似度,得到下面两个表。

从表中可以看到，每种类型都是对自己这个类型的房源embedding向量有最大的相似性
结论：说明listing embedding里面能够encode到房源的类型和价格区间这两种features

3.k-nearest
作者还计算了每个listing embedding的k近邻，并对比这个listing和k近邻；
为了展示这个结果，作者还做了一个可视化的工具来展示，这里给了一个截图。

可以从图中看到，输入一个listing embedding得到的k-nearst的房子风格都非常相似。
结论：说明embedding能够提取房源的建筑风格

2.5 离线测评

横坐标：处于book行为发生前点击的次数
纵坐标：book的listing在该模型下处所处的位置（值越低说明排序位置越高）

search ranking是原有的排序模型。
re-ranking：另外三个模型对应了前面用到的三种不同目标函数提取到的embedding在search ranking上的re-ranking。
- d32 regular：采用negative sampling进行训练的方式得到的embedding结果
- d32 booking global：在d32的基础上加上了“book”listing作为一个全局的上下文
- d32 booking global + market negative：在上一个模型的基础上又加入了房源的地区来作为负抽样

作者将listing ID embedding到32维的向量上进行的离线测评。
整个测评思路：比较不同的“模型”，对booking的房源所排的位置的结果比较。

基于整个点击序列往booking行为之前回溯，取一定次数之内的所有数据。这里作者就是取了booking前的17次点击行为内的listing。在原有的search ranking排序模型上，进行re-ranking，看处于“当前”的这个点击listing下，模型计算出来最后booking的房源的位置。（这里作者并没有仔细说如何进行的re-ranking，我自己猜测的是将search ranking的结果计算listing embedding的余弦相似度，然后根据整个余弦相似度进行排序，完成推荐）

最后从图中可以看到，re-ranking之后，booking listing的位置都往前排了。同时，也能看出来，采用“d32 booking global + market negative”这个方法构建目标函数得到的embedding，最后的位置也是最好的。

2.6 线上结果

应用场景：房源的详情页上的“相似房源”
应用方式：在同地区的候选listing中，计算当前点击listing的embedding值余弦相似度的k-nearest
效果：k=12，通过A\Btest发现，embedding方式能够提高21%的点击率，预订订单量增加了4.9%

3.user-type & listing-type embedding

3.1 问题引入——搜索阶段如何实现cross market的长期兴趣偏好的挖掘？

listing embedding不能够解决的问题：
- 需要基于当前的点击来计算
- 只提取了用户的短期兴趣
- 只能用于“相似房源”场景中
- 只针对同地区下的用户兴趣房源的挖掘
解决方案：
- 引入user和listing一起来构建embedding
- 不局限区域，利用用户所有的历史行为（但最终目标是为了能够让用户下订单，所以从“booking session”来入手）

BUT

直接将user和listing进行建模存在的问题：
- booking session远远少于click session
- 大量的用户历史book的量非常少，可能他们的booking session的长度只有1
- 大量的listing没怎么被book到，但是skip gram 中对物品出现频率是有要求的
- 对于用户而言，两次booking之间的时间间隔可能非常的长，但这期间，用户的长期兴趣可能已经改变了
解决方式：
- 针对前三个数据稀疏问题——将listing映射为listing-type
- 针对第四个问题——将用户映射为user-type

3.2 数据处理

step1. 从user和listing到user_type和listing_type
分别完成user和listing到user_type和listing_type上的映射

具体的映射方式，如下：

For example, for a user from San Francisco with MacBook laptop, English language settings, full profile with user photo, 83.4% average Guest 5 star rating from hosts, who has made 3 bookings in the past, where the average statistics of booked listings were $52.52 Price Per Night, $31.85 Price Per Night Per Guest, 2.33 Capacity, 8.24 Reviews and 76.1% Listing 5 star rating, the resulting user_type is $SF\_ lg_{1}\_dt_{1}\_fp_{1}\_pp_1\_nb_1\_ppn_2\_ppg3\_c2\_nr3\_l5s_3\_g5s_3$

这样就实现了将所有的用户和房源都进行了聚合。
作者还强调，用type来表示原有的user和listing，可以解决两个问题：

实时个性化的体现：即使时同一个listing或user会因为用户行为的发生，对应的type也会随着改变。
冷启动问题：用户层面上的前五个特征是通用的画像特征，对于新用户可以直接通过这五个特征完成映射。

step2. 获取booking session
只提取预定行为，按时间构造booking session

step3. 构造输入数据
按时间构造形如（user-type， listing-type）的二元组所构成的有序序列，表示该user_type预定了该listing_type。
作者指出，按照这样形式构造输入序列的原因是为了将user-type和listing-type都映射到同一个特征空间中。

3.3 层层递进的构造type embedding的过程

step1. 使用negative sampling构造最初的目标函数
同样的，在type embedding的构造过程中，用negative sampling作为最基础的目标函数。

user_type embedding
listing_type embedding

$v_c$ 表示当前输入 $v_c$ 表示作用在输入listing上的映射参数向量
$(l,m_n)\in D_{m_n}$ 表示当前的输入向量属于目标地区中负样本
前面提到了，以（user_type， listing_type）的形式输入数据进行模型训练，以此将user_type和listing_type的embedding映射到同一个特征空间中。所以这里的对于同一个样本 $v_c$ 的值是一样的。
step2. 将房东的拒绝行为(rejection)作为负采样的目标函数

book行为完成，除了用户主观上想要与预定之外，还包含了房东也要接受用户的book请求。实际情况中，也存在了用户发出了book request但是房东reject，导致订单没有完成的情况。
所以，作者指出为了刻画订单完成情况，减少未来发生reject现象，这里纳入了用户发出book request行为后是一位内房东reject导致此次book行为失败的情况。

我的理解是，把所有用户主观上想要book的记录也纳入了真实完成了booking的session中。如果这个订单真的完成了booking，那么这一对（user_type，listing_type）就是一个正例样本，如果被房东reject了，（user_type，listing_type）就是一个负例样本。

4.embedding的应用

4.1 embedding中所蕴含的信息检查

作者计算了用户当前所处的user_type与候选的listing的listing-type embedding之间的余弦相似度

这里给出了一个计算结果，对某一个属于 $SF\_lg_1\_dt_1\_fp_1\_pp_1\_nb_3\_ppn_5\_ppg_5\_c_4\_nr_3\_l_{5}s_3\_g_{5}s_3$ 这类的用户，得到余弦相似度比较高的几个listing type embedding，然后浏览了该用户历史上的订单情况，发现embedding能够概括用户的预定偏好=>该用户预定的房源基本都偏向于空间大，数量多，评论高的房源。

4.2 搜索排序

4.2.1 衍生embedding features

作者将embedding运用在在原有的排序算法上，衍生出embedding features实现了更好的排序效果

原有的排序模型：
- 算法：pairwise的支持lambda　rank的GBDT
- 特征：listing　features、user　features、query　features和cross　features
现在的排序模型：
- 算法：pairwise的支持lambda　rank的GBDT
- 特征：listing　features、user　features、query　features和cross　features，及新增embedding features
  
  表中前七行特征都是基于listing embedding做的衍生特征，是一个短期的兴趣刻画；
  最后一行UserTypeListingTypeSim基于type embedding做的特征，是一个长期兴趣的刻画。

前七行特征需要先根据用户行为计算得到一些基础的指标 $H_c$ 、 $H_s$ 、 $H_lc$ 、 $H_w$ 、 $H_i$ 、 $H_b$
$H_c$ ：clicked listing_ids 用户过去两周内点击过的listings id
$H_lc$ ：long-clicked listing_ids 过去两周内用户点击过，同时在详情页面上停留时长超过60s的listing id
$H_s$ ：skipped listing_ids 过去两周内用户直接忽略进而点击了陈列在它后面的listing
$H_w$ ：wishlisted listing_ids 过去两周内用户加入心愿单的listing
$H_i$ ：inquired listing_ids 过去两周内用户联系过房东但是没有成为book订单的listing
$H_b$ ：booked listing_ids 过去两周内用户预定过的listing

从这些基础指标 $H_*$ 的定义以及计算方式上可以看到，这些指标是会根据用户的行为不断发生改变的，所以作者也强调，embedding features的引入能够实现现有的排序算法实时更新。

4.2.2 具体计算步骤

step1：准备三类embedding值（listing embedding，user_type embedding、listing_type embedding）
step2：获取基础指标 $H_*$
step3：提取地区embedding
因为基础指标 $H_*$ 都是基于用户历史点击的listing计算到的，而这些listing可能位于不同的地区，所以这里先提取H*中所包含的所有地区，然后计算每个地区所有listing embedding的均值作为这个地区的embedding
step4：计算embedding features
- listing embedding层面：
  比如说，EmbClickSim，针对每一个候选的listing，计算候选listing的listing embedding与地区embedding之间的余弦相似度相似度，取最高值作为该listing的EmbClickSim取值
- type embedding层面：
  UserTypeListingTypeSim即计算每一个候选listing所在的listing type和当前用户所在的user-type的type embedding之间的相似度
step5：在原有的排序模型中加入embedding features进行计算

关于为什么要提取基础指标 $H_*$ ，并计算地区embedding，我的理解：因为需要了解到用户近期的一个行为偏好，因此需要提取近期的用户行为。同时，也需要用某种规则将近期的这些行为模式提取出来；又因为listing embedding里面其实是蕴含了地区之间的差异信息的，因此用地区来进行分组，使得组内方差变小，平均之后的embedding更具有代表性，所以才采用了计算每个地区的listing embedding值来代表用户对地区的偏好。

4.2.3 embedding思想在airbnb搜索系统上的测评

只存在离线测评，作者说在线测评的结果：several months later

原有features+embedding features共有104个，对数据进行拟合之后可以看到这些新生成的embedding features的重要度在104个特征中，重要性排名挺高的。这说明了embedding features对排序算法影响蛮大的。

另一方面，直接计算了新的排序模型在DCU等指标上的值，发现加入了embedding features之后的排序模型，在所有的指标上都有提升。

5.疑惑

5.1 booking session的长度
原文中有这样的一段话：

Specifically, we form a set $S_b$ consisting of $N_b$ booking sessions from N users, where each session $s_b=(u_{type_{1}}l_{type_{1}},......,u_{type_{M}}l_{type_{M}}) \in S_b$ is defined as a sequence of booking events, i.e. (user_type, listing_type) tuples ordered in time. Note that each session consists of bookings by same user_id, however for a single user_id their user_types can change over time, similarly to how listing_types for the same listing can change over time as they receive more bookings.

我理解的就是一个session就是一个用户的所有booking行为。当用户不断发生预定行为，他所对应user_type也在不断变化，同时listing也是因为用户们的预定行为一直在改变其listing_type。
对于一个有很多次预定行为的用户，他的session长度肯定大于1，但是对于历史上就只预定过一次的用户，预定长度还是1呀。

5.2 如何进行的训练
作者提出的将user_type和listing_type映射到同一个特征空间中，这个embedding是怎么实现的？
就从作者给出的加入了房东reject的session示意图中看，user_type和listing_type是平行放入了模型中，但是这样存在一个问题就是窗口在进行滑动的过程中，中心item有时候会是user_type有时候又会是listing_type，同时，中心item的前后就会变成不同时期的另一个type，比如说，当前的中心item是 $uset\_type_{i}$ 但是它前面一个item就会变成 $listing\_type_{i-1}$ 后面一个item就是 $listing\_type_{i+1}$ ，我感觉用这样的序列进行训练不是很合理呀。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
读书笔记|《遇见孩子，遇见更好的自己》5 抹茶社长
为人父母意味着放弃自己的过去，不要对以往没有实现的心愿耿耿于怀，只有这样，孩子们才能做回自己。985909803.jpg孩子在与父母保持亲密的同时更需要独立，唯有这样，孩子才会成为孩子，父母才会成其为父母。有耐心的人生往往更幸福，给孩子留点余地。认识到养儿育女是对耐心的考验。为失败做好心理准备，教会孩子控制情绪。了解自己的底线，说到底线，有一点很重要，父母之所以发脾气，真正的原因往往在于他们自己，
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
阅读《认知觉醒》读书笔记就看看书
本周阅读了周岭的《认知觉醒开启自我改变的原动力》，启发较多，故做读书笔记一则，留待学习。全书共八章，讲述了大脑、潜意识、元认知、专注力、学习力、行动力、情绪力及成本最低的成长之道。具体描述了大脑、焦虑、耐心、模糊、感性、元认知、自控力、专注力、情绪专注、学习专注、匹配、深度、关联、体系、打卡、反馈、休息、清晰、傻瓜、行动、心智宽带、单一视角、游戏心态、早起、冥想、阅读、写作、运动等相关知识点。大脑
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
粒子群优化 (PSO) 在三维正弦波函数中的应用 subject625Ruben 机器学习人工智能 matlab 算法
在这篇博客中，我们将展示如何使用粒子群优化（PSO）算法求解三维正弦波函数，并通过增加正弦波扰动，使优化过程更加复杂和有趣。本文将介绍目标函数的定义、PSO参数设置以及算法执行的详细过程，并展示搜索空间中的动态过程和收敛曲线。1.目标函数定义我们使用的目标函数是一个三维正弦波函数，定义如下：objectiveFunc=@(x)sin(sqrt(x(1).^2+x(2).^2))+0.5*sin(5
非对称加密算法————RSA理论及详情 hu19930613
转自：https://www.kancloud.cn/kancloud/rsa_algorithm/48484一、一点历史1976年以前，所有的加密方法都是同一种模式：（1）甲方选择某一种加密规则，对信息进行加密；（2）乙方使用同一种规则，对信息进行解密。由于加密和解密使用同样规则（简称"密钥"），这被称为"对称加密算法"（Symmetric-keyalgorithm）。这种加密模式有一个最大弱点
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
【加密算法基础——对称加密和非对称加密】 XWWW668899 网络安全服务器笔记
对称加密与非对称加密对称加密和非对称加密是两种基本的加密方法，各自有不同的特点和用途。以下是详细比较：1.对称加密特点密钥:使用相同的密钥进行加密和解密。发送方和接收方必须共享这个密钥。速度:通常速度较快，适合处理大量数据。实现:算法相对简单，计算效率高。常见算法AES(高级加密标准)DES(数据加密标准)3DES(三重数据加密标准)RC4(流密码)应用场景文件加密磁盘加密传输大量数据时的加密2.
【算法练习】IDEA集成leetcode插件实现快速刷 2401_84102892 2024年程序员学习算法 intellij-idea leetcode
============点击右侧边leetcode->设置->配置地址、用户名、密码、存放目录、文件模板用户名要登录后在账号信息里看模板代码1.codefilename!velocityTool.camelC
【加密算法基础——RSA 加密】 XWWW668899 网络服务器笔记 python
RSA加密RSA（Rivest-Shamir-Adleman）加密是非对称加密，一种广泛使用的公钥加密算法，主要用于安全数据传输。公钥用于加密，私钥用于解密。RSA加密算法的名称来源于其三位发明者的姓氏：R:RonRivestS:AdiShamirA:LeonardAdleman这三位计算机科学家在1977年共同提出了这一算法，并发表了相关论文。他们的工作为公钥加密的基础奠定了重要基础，使得安全通
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源