fengkuang

推荐算法面试集锦--算法模型

youtubeNet和sdm对比
两者均是基于用户历史行为序列进行召回，均采用ANN向量检索的方式。YoutubeNet网络结构更简单，SDM使用长短期兴趣网络结合的方式，采用多头attention机制，降低序列中不稳定点击的影响，增加不同兴趣点的挖掘，更有利于深入挖掘历史序列中的item之间的联系，做出更多多样性的探索。
在SDM实际的应用中，对于电商商品推荐的产品，在处理数据集样本的时候，历史长短期session的定义比较灵活，在数据量不是足够多的情况下，可以采用限制长、短期相对长度的方法构造所谓的session。序列前后是否去重对于离线测试的召回率影响较大。实际测试中发现推荐历史序列里的物品效果往往会更好。
深度学习面试50题：https://zhuanlan.zhihu.com/p/231171098
attention原理与作用
本质上是从关注全部到关注重点。

优点：参数少，速度快，效果好。
在计算attention时主要分为三步:

第一步是将query和每个key进行相似度计算得到权重，常用的相似度函数有点积，拼接，感知机等；
第二步一般是使用一个softmax函数对这些权重进行归一化；
最后将权重和相应的键值value进行加权求和得到最后的attention。通常key和value常常都是同一个，即key=value。

FM原理及应用：FM因子分解机的原理、公式推导、Python实现和应用
FM用于特征交叉的稀疏高维矩阵的因式分解训练，对于用户和物品冷启动样本比较友好。当交叉特征共现样本少的情况下，依然能对交叉特征进行有效学习训练。

FM模型重要的超参：

迭代次数
regParams（r0, r1, r2）
k 特征分解向量的维度
stepSize： weightsNew(i) = weightsOld(i) - thisIterStepSize * (gradient(i) + r1 * weightsOld(i))
optimizer：SGD，ALS，LBFGS

FM模型应用之召回：https://zhuanlan.zhihu.com/p/58160982
FM做统一召回与多路召回优缺点对比:

FM可将多路召回增减变成特征级别的增减，容易在下游排序模型中体现该特征，减少召回与排序迭代的不一致。但每次都要训练新模型，灵活度上不高

ESMM多目标排序模型：CVR预估的新思路：完整空间多任务模型
多目标网络结构的任务训练表达式：pCTCVR = pCVR * pCTR
适用于子任务具有链式依赖关系的多任务场景中，且ESMM提出的动机是为了解决推荐系统中的样本选择偏差(Sample Selection Bias,SSB)和数据稀疏性(Data Sparisity,DS)问题。ctr和cvr贡献底层embedding，对于cvr任务来说，也可以学习到ctr的信息，这对于两个很相关的任务一般是正向的。直接优化的是ctr和ctcvr，所以可以直接拿曝光全域的数据来做，而不是选取曝光点击的部分数据单独的去做cvr。典型的shared-bottom结构。多任务学习中有个问题就是如果子任务差异很大，往往导致多任务模型效果不佳。
GBDT与GBRT区别
GBDT用于解决二分类任务，GBRT用于解决回归问题。损失函数不同，前者是MSE，后者是交叉熵损失函数。GBRT可以用于解决分类任务，需要确定一个阈值来实现转化成分类标签。
xgb与GBDT区别

两者都属于boosting方法，但是基学习器不同，gbdt一般使用CART决策树(基于gini指数计算增益)或者ID3算法（采用entropy计算增益)、ID4.5（采用信息增益率），xgb除CART外还可以支持线性分类器，这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归（分类问题）或者线性回归（回归问题）。xgb采用的树节点分裂采用的增益计算根据目标函数倒推的融入一阶导、二阶导。
- 决策树ID3，ID4.5,CART
- xgb增益计算方法：
目标函数不同，xgb支持自定义，gbdt只有交叉熵损失，且xgb损失函数中加入了针对树节点数和叶子值L2正则项，降低树结构风险和经验风险，降低过拟合风险。xgb目标函数：
对缺失值的处理。对于特征的值有缺失的样本，xgboost可以自动学习出它的分裂方向。
工程优化，并行计算：
- 特征粒度：特征的值进行排序（因为要确定最佳分割点），xgboost在训练之前，预先对数据进行了排序，然后保存为block结构，后面的迭代中重复地使用这个结构，大大减小计算量。这个block结构也使得并行成为了可能，在进行节点的分裂时，需要计算每个特征的增益，最终选增益最大的那个特征去做分裂，那么各个特征的增益计算就可以开多线程进行。
- 近似直方图算法。树节点在进行分裂时，我们需要计算每个特征的每个分割点对应的增益，即用贪心法枚举所有可能的分割点。当数据无法一次载入内存或者在分布式情况下，贪心算法效率就会变得很低，所以xgboost还提出了一种可并行的近似直方图算法，用于高效地生成候选的分割点。

wide&deep模型原理及其应用
Wide&Deep模型的主要思路正如其名，是由单层的Wide部分和多层的Deep部分组成的混合模型。其中，Wide部分的主要作用是让模型具有较强的“记忆能力”；Deep部分的主要作用是让模型具有“泛化能力”，正是这样的结构特点，使模型兼具了逻辑回归和深度神经网络的优点-----能够快速处理并记忆大量历史行为特征，并且具有强大的表达能力，不仅在当时迅速成为业界争相应用的主流模型，而且衍生出了大量以Wide&Deep模型为基础结构的混合模型，影响力一直延续至今。
wide的部分和deep的部分使用其输出对数几率的加权和作为预测，然后将其输入到联合训练的一个共同的逻辑损失函数。注意到这里的联合训练和集成学习是有区别的。
LSTM模型原理及应用
LSTM是循环神经网络RNN的变种，包含三个门，分别是输入门，遗忘门和输出门。

LSTM 与 GRU区别

LSTM和GRU的性能在很多任务上不分伯仲；
GRU参数更少，因此更容易收敛，但是在大数据集的情况下，LSTM性能表现更好；
GRU 只有两个门（update和reset），LSTM 有三个门（forget，input，output），GRU 直接将hidden state 传给下一个单元，而 LSTM 用memory cell 把hidden state 包装起来。

LinUCB模型原理及应用
LinUCB(Linear Upper Confidence Bound)是一种context feature-based bandit算法。线性指的是它采用了线性奖赏函数。UCB就是以均值的置信上限为来代表它的预估值即. UCB思想是乐观地面对不确定性，以item回报的置信上限作为回报预估值的一类算法，其基本思想是：我们对某个item尝试的次数越多，对该item回报估计的置信区间越窄、估计的不确定性降低，那些均值更大的item倾向于被多次选择，这是算法保守的部分（exploitation)对某个item的尝试次数越少，置信区间越宽，不确定性较高，置信区间较宽的item倾向于被多次选择，这是算法激进的部分exploration。
LinUCB算法
总结一下LinUCB算法，有以下优点：
1）由于加入了特征，所以收敛比UCB更快（论文有证明）；
2）特征构建是效果的关键，也是工程上最麻烦和值的发挥的地方；
3）由于参与计算的是特征，所以可以处理动态的推荐候选池，编辑可以增删文章；
4）特征降维很有必要，关系到计算效率。
5）是一种在线学习算法。
HNSW算法原理及应用: HNSW原理及应用
HNSW(Hierarchical Navigable Small World)首先理解NSW小世界网络，小世界网络是介于随机图和正则图之间的一种网络结构。NSW算法基于六度分离理论将小世界的特性用于近邻检索，提出了基于图结构的检索方案。
在NSW的基础上，HNSW利用多层的图结构来完成图的构建和检索，使得通过将节点随机划分到不同的layer，从上层图到下层图的检索中，越往下层节点之间的距离越近, 随机性也越差，聚类系数越高。 HNSW通过从上到下的检索，完成了NSW中Long Link高速公路快速检索的作用，通过最后底层的近邻检索，完成局部最近邻的查找。
Logistic逻辑回归模型
逻辑回归是一种广义线性分类模型，假设因变量y遵循伯努利分布，自变量x遵循高斯分布，利用逻辑函数sigmoid引入非线性因素，通过极大似然的方法，运用梯度下降法来求解参数，轻松处理0/1二分类问题。
艺术图片情感多模态模型ArtEmis
- 共享卷积网络抽取特征向量
- 文本网络：原始模型采用一句英文描述作为标签；采用TimeDistributed层、BiLSTM、AttentionDecoder
- 图片网络：情感类别作为类别标签的多分类网络
YoutubeNet模型
原理：利用softmax将召回转化成一个多分类问题，学习user和item的向量，实现向量召回。
网络结构：
SDM深度序列召回模型
原理：目前在工业界中基于物品的协同过滤算放被广泛应用于召回。然而，这种方法无法有效的对用户动态的不断变化的偏好建模。SDM模型对用户短期会话（short-term sessions）和长期行为（long-term behaviors）建模，来捕捉用户动态偏好。
SDM提出了两个相应的组件来对用户行为序列建模：
- multi-head self-attention module：其用于捕捉多种类型的特征
- long-short term gated fusion module：其用户融合长短期特征
网络结构：
常用的embedding模型有哪些? 推荐系统 embedding 技术实践总结
- 词向量：word2vec, item2vec; DSSM, YoutubeNet, SDM
- hash embedding：通过哈希函数，简单粗暴的embedding方法
- Graph Embedding: Deep walk; EGES；Node2vec
如何评价embedding质量？
目前没有标准方案，embedding的获得来源于某种确定的模型，比如word2vec或者SDM，那么在线下测试的时候，通常还要跟向量召回的具体工具有关系（通常用faiss、HNSW等）。在召回阶段的话，可以通过构造测试集，对召回率进行对比。
CTR都有哪些模型？
CTR预估模型可粗糙的分为浅层模型和深层模型。一些代表包括：
- 浅层模型：LR, Degree-2 Polynomial, FM, FFM, FwFM以及本文的FvFM和FmFM
- 深层模型：FNN、PNN、Wide&Deep, DeepFM, xDeepFM, AutoInt等
FmFm模型原理及应用：优雅的浅层CTR模型FmFM(Field-matrixed FM, FwFM改进版)
FM, FwFM, FvFM模型都可以被统一到FmFM框架下。

Factorization Machines (FM)：对Poly2中的权重矩阵W做矩阵分解，为每个特征学一个k为的向量表示。两个向量的内积表示特征对的重要性。

优点：FM可以捕获特征交互，同时可以在稀疏场景下有效的学习。
缺点：FM忽略了这样一个事实: 当一个特性与来自其他域(Field)的特性交互时，它的行为可能会有所不同。

Field-aware Factorization Machines (FFM)：为每个特征学习n-1(n为feild个数)个向量表示，与来自不同域的特征交互时使用不同的向量表示。

优点：FFM可以捕获特征交互，考虑了Field信息。
缺点：参数量为O(m+mnk), 在实际的生产系统中，FFM中大量的参数是不可接受的。

Field-weighted Factorization Machines (FwFM)：显式地建模了不同的Field相互交互的强度。

优点：FwFM可以捕获特征交互，考虑了Field信息，相比FM仅仅增加了n*(n-1)/2个需要学习的参数(n一般仅为几十或几百)，仅用FFM 4%左右的参数便可达到相媲美的效果[2]。FwFM已经被部署到很多大厂的广告系统中。
缺点：FwFM仅用一个标量来表达域交互的强度，自由度不够、表达能力有限。

Field-matrixed Factorization Machines (FmFM): 相比于FwFM仅用一个标量r来建模域交互的强度，FmFM用了自由度更高的matrix。形式化描述为：

模型的计算过程可以分为三步：(对应下图由底向上)

Embedding Lookup: 从Embedding table中找到三个特征的向量；
Transformation: ，分别计算，获得两组对应的中间向量
Dot product: 最后通过简单的点积计算获得最后的交互项。

LFM、SVD、SVD++、FM原理及区别
LFM
(Latent Factor Model)隐语义模型，核心思想是通过隐含特征（Latent factor）联系用户和物品，该算法最早在文本挖掘领域中被提出用于找到文本的隐含语义。LFM 在建模过程中，假设有 M * 个用户、 N 个物品、 K 条用户对物品的行为记录，如果是 F 个隐类，那么它离线计算的空间复杂度是 (∗(+)) ，迭代 S次则时间复杂度为 (∗∗)。当 M(用户数量)和 N(物品数量)很大时LFM相对于ItemCF和UserCF可以很好地节省离线计算的内存，在时间复杂度由于LFM会多次迭代上所以和ItemCF、UserCF*没有质的差别。

同时，遗憾的是，LFM 无法进行在线实时推荐，即当用户有了新的行为后，他的推荐列表不会发生变化。而从 LFM的预测公式可以看到， LFM 在给用户生成推荐列表时，需要计算用户对所有物品的兴趣权重，然后排名，返回权重最大的 N 个物品。那么，在物品数很多时，这一过程的时间复杂度非常高，可达 (∗∗) 。因此， LFM 不太适合用于物品数非常庞大的系统，如果要用，我们也需要一个比较快的算法给用户先计算一个比较小的候选列表，然后再用LFM重新排名。另一方面，LFM 在生成一个用户推荐列表时速度太慢，因此不能在线实时计算，而需要离线将所有用户的推荐结果事先计算好存储在数据库中。
SVD
SVD也是对矩阵进行分解，但是和特征分解不同，SVD并不要求要分解的矩阵为方阵。假设我们的矩阵A是一个m×n的矩阵，那么我们定义矩阵A的SVD为：

其中 U是一个 m x m 的矩阵， $\Sigma$ 是一个 m x n 的矩阵，除了主对角线上的元素以外全为0，主对角线上的每个元素都称为奇异值，V 是一个 n x n的矩阵。 U和 V 都是酉矩阵，即满足 $\mathbf{U}^\mathsf{T}\mathbf{U}=I, \mathbf{V}^\mathsf{T}\mathbf{V}=I$

由于SVD可以实现并行化，因此更是大展身手。

SVD++
在实际应用中，会存在以下情况：相比于其他用户，有些用户给分就是偏高或偏低。相比于其他物品，有些物品就是能得到偏高的评分。
SVD++ 就是在 SVD 模型中融入用户对物品的隐式行为。我们可以认为评分=显式兴趣 + 隐式兴趣 + 偏见。

其中， $\Sigma{\mathbf{x}_u}$ 是指用户u看过的所有的电影的向量的和，N是看过的电影总和，除以N是为了平均，N开根号是为了两两内积方便。

我们先讨论了LFM然后引出MF然后SVD SVD++，以上这些LFM技术我们都可以认为是FM。

FM是指因子分解机，即将一个矩阵分解成两个矩阵相乘，具体到点击率预估处，我们使用FM做一层embedding（即WX），然后再内积进行二阶特征组合。
21. LDA模型原理及应用。
在机器学习领域，LDA是两个常用模型的简称：Linear Discriminant Analysis 和 Latent Dirichlet Allocation。这里指的是后者，LDA 在主题模型中占有非常重要的地位，常用来文本分类，推测文档的主题分布。
LDA涉及到的先验知识有：二项分布、Gamma函数、Beta分布、多项分布、Dirichlet分布、马尔科夫链、MCMC、Gibs Sampling、EM算法等。
Beta分布可以用Gamma函数表示；beta分布是二项分布的共轭先验分布，dirichlet分布是多项分布的共轭先验分布。
先验分布为Dirichlet分布+多向分布的数据知识 = 后验分布为dirichlet的分布

大学专业科普 | 计算机应用、视觉与算法鸭鸭鸭进京赶烤计算机应用
一、专业概述计算机应用专业是一门实践性很强的学科，专注于将计算机技术转化为实际应用，服务于各个行业和领域，为社会的数字化转型提供人才支撑。二、课程设置专业基础课程：包括计算机组成原理、操作系统、数据结构、计算机网络等，为学生构建坚实的理论基础。专业核心课程：聚焦于程序设计语言（如C、C++、Java、Python等）、数据库原理与应用、软件工程、Web前端开发等，使学生具备开发各类软件系统的能力。
【Python】Hydra 用法详解行码棋 #Python python 开发语言
Hydra官方文档Hydra（Python配置管理工具）1.引言在机器学习、深度学习和软件开发中，管理复杂的配置是一个常见的挑战。Hydra是一个强大的Python库，允许开发者轻松地管理和组织配置文件，支持动态参数覆盖、多层次配置和可组合配置等特性。2.安装HydraHydra可以通过pip直接安装：pipinstallhydra-core安装完成后，你可以使用hydra进行配置管理。3.基础用
【算法】动态规划斐波那契类型： 740. 删除并获得点数
740.删除并获得点数中等题目给你一个整数数组nums，你可以对它进行一些操作。每次操作中，选择任意一个nums[i]，删除它并获得nums[i]的点数。之后，你必须删除所有等于nums[i]-1和nums[i]+1的元素。开始你拥有0个点数。返回你能通过这些操作获得的最大点数。示例1：输入：nums=[3,4,2]输出：6解释：删除4获得4个点数，因此3也被删除。之后，删除2获得2个点数。总共获
【算法】动态规划斐波那契类型： 198. 打家劫舍等风来不如迎风去算法/数据结构算法 leetcode 动态规划
198.打家劫舍中等你是一个专业的小偷，计划偷窃沿街的房屋。每间房内都藏有一定的现金，影响你偷窃的唯一制约因素就是相邻的房屋装有相互连通的防盗系统，如果两间相邻的房屋在同一晚上被小偷闯入，系统会自动报警。给定一个代表每个房屋存放金额的非负整数数组，计算你不触动警报装置的情况下，一夜之内能够偷窃到的最高金额。示例1：输入：[1,2,3,1]输出：4解释：偷窃1号房屋(金额=1)，然后偷窃3号房屋(金
用户实体行为分析与数据异常访问联防方案 KKKlucifer 时序数据库
一、用户实体行为分析（UEBA）技术概述1.1定义与概念用户实体行为分析（UEBA）是一种高级网络安全方法，它利用机器学习和行为分析技术，对用户、设备、应用程序等实体在网络环境中的行为进行深入分析，以检测出异常行为和潜在的安全威胁。UEBA的核心在于通过建立行为基线，识别出偏离正常行为模式的活动，从而发现那些传统安全工具难以检测到的高级、隐藏和内部威胁。1.2工作原理UEBA系统通过收集来自多个数
题解：二叉树的中序遍历（94.二叉树的中序遍历）微白.. 算法数据结构 leetcode
题目描述给定一个二叉树的根节点root，返回它的中序遍历。解题思路二叉树的中序遍历是一种常见的树遍历方法。它按照访问左子树——根节点——右子树的顺序进行。本文将介绍三种实现二叉树中序遍历的方法：递归、迭代和Morris遍历，并详细分析每种方法的复杂度。方法一：递归思路与算法递归是最直观的中序遍历实现方式。中序遍历的特点是先遍历左子树，然后访问根节点，最后遍历右子树。因此，可以通过递归函数来实现这一
java opencv 数字识别算法_[机器学习]基于OpenCV实现最简单的数字识别后期小雨 java opencv 数字识别算法
本文将基于OpenCV实现简单的数字识别。这里以游戏AngryBirds为例，通过以下几个主要步骤对其中右上角的分数部分进行自动识别。1.学习分类器根据训练样本，选取模型训练产生数字分类器。这里的样本可以是通用的数字样本库(如NIST等)，也可以是针对应用场景而制作的专门训练样本。前者优在泛化性，后者强在准确率，当然常用做法是将这两者结合，即在通用数字库基础上做修改。另外这里由于模式并不复杂，计算
OpenCV CUDA模块设备层-----双曲正切函数tanh() 村北头的码农 OpenCV opencv 人工智能计算机视觉
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述OpenCV的CUDA模块（cudev）中的一个设备函数，用于在GPU上对uchar4类型的向量（如RGBA像素）进行双曲正切（hyperbolictangent）运算，并返回一个float4类型的结果。函数原型__device____forceinline__f
双指针题解——反转字符串【LeetCode】潮_ 我的学习记录双指针篇_刷题笔记开发语言数据结构算法 leetcode python
344.反转字符串一、算法逻辑（逐步通顺讲解每一步思路）该题要求将字符数组s原地反转，即不能使用额外数组，直接在输入数组上进行修改。✅1️⃣初始化双指针指针left指向起始位置（索引0）；指针right指向末尾位置（索引len(s)-1）；✅2️⃣使用双指针交换字符每次将s[left]与s[right]对换；然后将left向右移动一位，right向左移动一位；重复此过程，直到两个指针相遇或交叉（即
二叉树题解——二叉树的中序遍历【LeetCode】统一写法版本
94.二叉树的中序遍历一、算法逻辑（逐步通顺地讲解）这段代码的目标是实现中序遍历，即按照顺序：左子树→当前节点→右子树遍历整个二叉树，并返回节点值的列表。与常见的递归或传统栈方法不同，这里使用的是一种“统一写法”技巧，将“节点值访问”与“节点展开”分开处理，流程如下：1️⃣初始化结构使用一个栈保存待处理元素（可能是TreeNode或int）；初始栈中放入整棵树的根节点；结果数组rst用来保存最终遍
算法学习day6----双指针-最长不重复子序列阴暗老鼠人学习
Givenanintegersequenceoflengthn,pleasefindthelongestcontinuousintervalwithoutduplicatenumbersandoutputitslength.Thefirstlinecontainsanintegern.Thesecondlinecontainsnintegers(allwithintherangeof0to105)
刷题巩固-----DAY6（最长上升子序列和）一颗铜豌豆刷题巩固算法 c++
题目链接活动-AcWing本课程系统讲解常用算法与数据结构的应用方式与技巧。https://www.acwing.com/problem/content/1018/这道题是最后一道刷的lis题，下周开始刷背包九讲这道题的题目虽然有最长上升子序列，但是却不是用最长上升子序列的办法来做的，因为要求从一个上升子序列的和最大，感觉更像01背包的做法解题代码为#includeusingnamespacest
OpenCV CUDA模块设备层-----二值化阈值操作函数thresh_binary_func()
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述OpenCV的CUDA模块（cudev）中的一个设备和主机通用函数（host/devicefunction），用于创建一个二值化阈值操作函数对象（functor）。这个函数返回一个仿函数（functor），用于在GPU上执行二值化阈值处理（ThresholdBin
Keras环境复现代码（三） yanyiche_ keras 深度学习人工智能
DQN雅达利Breakout强化学习实验要求明确实验目的：学习和实现深度Q学习（DQN），这是一种结合了Q学习和深度神经网络的强化学习算法，用于解决复杂的决策问题。清楚实验原理：1、深度Q学习（DeepQ-Network）将卷积神经网络与Q学习结合，解决高维视觉输入的强化学习问题：2、经验回放：将状态转换存储到缓冲区，打破数据相关性，稳定训练。3、目标网络：定期更新目标Q值计算网络，减少训练中的目
Keras环境复现代码（二） yanyiche_ Keras 机器学习人工智能
PPOCartPole控制算法实践实验要求明确实验目的：学习和实现PPO算法，这是一种改进的策略梯度方法，通过限制策略更新的幅度来提高训练的稳定性。清楚实验原理：PPO算法是一种基于策略梯度的强化学习算法，它旨在解决传统策略梯度方法（如REINFORCE算法）在训练过程中可能出现的策略更新不稳定问题。PPO算法通过引入一种新的策略更新机制，限制每次更新的幅度，从而提高训练的稳定性和效率。PPO算法
基于开源AI大模型AI智能名片S2B2C商城小程序的流量转化与价值沉淀研究说私域开源人工智能小程序
摘要：在数字化商业生态中，公域流量转化已成为企业竞争的核心战场。本文以开源AI大模型AI智能名片S2B2C商城小程序为研究对象，结合服装、健康食品、快时尚等行业的实践案例，系统分析其通过技术赋能实现精准获客、用户留存与商业闭环的机制。研究发现，该系统通过“AI算法+用户行为分析”双轮驱动，将公域流量转化为高黏性私域用户，同时提出“尊重用户价值”的伦理框架，警示企业需警惕流量霸凌与数据滥用风险。研究
vLLM调度部署Qwen3 你好，此用户已存在人工智能 linux 大模型
vLLM介绍在之前的文章中，我们介绍了如何使用ollama部署qwen3，一般而言，ollama适合个人部署使用，在面对企业级的模型部署时，一般更建议使用vLLMvLLM（高效大语言模型推理库）是一个专为大语言模型（LLMs）优化推理速度的开源框架，由斯坦福大学系统研究组开发。其核心目标是通过创新的软件和算法设计，大幅提升LLM在生成文本时的吞吐量和效率，尤其适用于处理高并发的推理请求。从各种基准
Python 爬虫实战：从图片网站抓取图片并进行特征提取（2025 最新版） Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 github chrome 数据库
一、引言在当今的数字时代，图像数据在各个领域中扮演着至关重要的角色。无论是计算机视觉、机器学习，还是数据分析，图像数据的获取和处理都是基础。然而，获取大量高质量的图像数据并非易事。幸运的是，互联网上充斥着丰富的图像资源，只需借助合适的工具和技术，我们就能高效地从中获取所需的图像数据。本文将详细介绍如何使用Python构建一个完整的爬虫系统，从图片网站抓取图像，并对其进行特征提取。我们将涵盖从网页分
马拉车算法史诗：最长回文子串的镜城传奇一只咸鱼大王故事版本数据结构与算法算法最长回文子串数据结构 C++字符串
镜城传说：马拉车大师的觉醒——最长回文子串史诗之旅完整版·故事×技术×哲学×代码第一章：迷雾之城·字符串的混沌时代在遥远的东方，有一座被浓雾笼罩的城市——镜城（MirrorCity）。这里没有镜子，却有无数对称的影子。街道、建筑、甚至语言都崇尚对称之美。但随着时间推移，镜城的语言逐渐失传，人们只能依靠残存的铭文寻找真理之门的线索——而这些铭文中隐藏着一个秘密：“唯有找到最长回文者，方能开启真相之门
商品中心—14.库存分桶初始化的技术文档东阳马生架构商品中心商品系统库存系统
大纲1.库存分桶缓存初始化时涉及的数据表2.库存分桶架构的初始化+扣减+上下线+扩容+下线+预警补货流程3.商品库存⼊桶流程概览4.商品库存分桶缓存初始化请求处理5.商品库存分桶缓存初始化的加分布式锁处理+插入库存变更记录6.商品库存分桶元数据本地+远程缓存查询7.商品库存动态分桶算法实现8.基于分桶算法结果构建库存分桶元数据9.剩余库存写入中心桶缓存+分桶库存写入分桶缓存+分桶元数据写入本地缓存
揭秘自然语言处理在AI人工智能领域的奥秘 AI智能探索者 AI Agent 智能体开发实战人工智能自然语言处理 easyui ai
揭秘自然语言处理在AI人工智能领域的奥秘关键词：自然语言处理、AI人工智能、语言理解、语言生成、语义分析摘要：本文深入探讨了自然语言处理（NLP）在AI人工智能领域的奥秘。首先介绍了自然语言处理的背景，包括目的、预期读者、文档结构和相关术语。接着阐述了自然语言处理的核心概念与联系，通过文本示意图和Mermaid流程图进行展示。详细讲解了核心算法原理和具体操作步骤，并用Python源代码进行阐述。分
Java 编程之策略模式详解勤奋的知更鸟 Java java 策略模式设计模式
一、策略模式策略模式（StrategyPattern）是一种行为型设计模式，它将一组算法或行为封装成独立的类，使它们可以在运行时互相替换。这让你在使用它们时，无需关心内部实现，只要“调度策略”即可。外卖平台下单时，你可以选择专送、自取、商家送，每种方式都是不同的策略，但送达的目的相同。二、举例说明外卖的“配送方式”就是策略！在美团/饿了么平台点外卖时，配送方式多种多样：骑手专送：平台调度骑手商家自
基于深度学习的线上问诊系统设计与实现（Python+Django+MySQL）神经网络15044 深度学习算法神经网络 python 深度学习 django 机器学习人工智能算法目标检测
基于深度学习的线上问诊系统设计与实现（Python+Django+MySQL）一、系统概述本系统结合YOLOv8目标检测和ResNet50图像分类算法，构建了一个智能线上问诊平台。系统支持用户上传医学影像（皮肤照片/X光片），自动分析并生成诊断报告，同时提供医生审核功能。二、技术栈后端框架：Django4.2数据库：MySQL8.0深度学习：YOLOv8：皮肤病变区域检测ResNet50：肺炎X光
Django REST framework - 序列器关系 djangopython
简介数据结构而非算法是编程的核心。—RobPike关系字段用于表示模型间的关系。它们可以应用于ForeignKey、ManyToManyField和OneToOneField关系，以及反向关系和自定义关系（如GenericForeignKey）。注意：关系字段在relations.py中声明，但按照惯例，应从serializers模块导入，使用fromrest_frameworkimportser
后端Spring Data Elasticsearch的集群故障恢复 AI大模型应用实战 spring elasticsearch java ai
后端SpringDataElasticsearch的集群故障恢复关键词：SpringDataElasticsearch、集群故障恢复、分布式系统、故障处理、数据一致性摘要：本文围绕后端SpringDataElasticsearch的集群故障恢复展开深入探讨。首先介绍了相关背景，包括目的范围、预期读者等。接着阐述了核心概念与联系，详细讲解了核心算法原理及具体操作步骤，并结合数学模型和公式进行说明。通
Vue3 中 Excel 导出的性能优化与实战指南
文章目录Vue3中Excel导出的性能优化与实战指南引言：为什么你的导出功能会卡死浏览器？一、前端导出方案深度剖析1.1xlsx(SheetJS)-轻量级冠军1.2exceljs-功能强大的重量级选手二、后端导出方案：大数据处理的救星2.1为什么大数据需要后端处理？2.2Node.js流式导出实战三、生产环境性能优化全攻略3.1内存优化技巧对比3.2用户体验优化方案四、决策流程图：帮你选择最佳方案
LeetCode第300题_最长递增子序列 @蓝莓果粒茶算法 leetcode 算法职场和发展学习 c#游戏 python
LeetCode第300题：最长递增子序列文章摘要本文详细解析LeetCode第300题"最长递增子序列"，这是一道考察动态规划和二分查找的中等难度题目。文章提供了动态规划和贪心+二分查找两种实现方案，包含C#、Python、C++三种语言实现，配有详细的算法分析和性能对比。适合学习动态规划和二分查找的读者。核心知识点：动态规划、二分查找、贪心算法难度等级：中等推荐人群：具备基础算法知识，想要提升
LeetCode第301题_删除无效括号 @蓝莓果粒茶算法 leetcode 算法职场和发展 c#学习 python c++
LeetCode第301题：删除无效括号文章摘要本文详细解析LeetCode第301题"删除无效括号"，这是一道考察DFS和括号匹配的困难难度题目。文章提供了DFS和BFS两种实现方案，包含C#、Python、C++三种语言实现，配有详细的算法分析和性能对比。适合学习深度优先搜索和字符串处理的读者。核心知识点：DFS、BFS、括号匹配、字符串处理难度等级：困难推荐人群：具备基础算法知识，想要提升搜
Python binary search二分查找算法详解及源码猿来如此yyy Python算法详解及源码算法 python 排序算法开发语言数据库人工智能数据结构
二分查找算法是一种在有序数组中查找特定元素的常用算法。它的基本思想是将要查找的元素与数组的中间元素进行比较，如果相等，则返回该元素的索引；如果要查找的元素比中间元素小，则在数组的左半部分继续查找；如果要查找的元素比中间元素大，则在数组的右半部分继续查找。通过不断缩小查找范围，最终可以找到要查找的元素或确定该元素不存在于数组中。二分查找算法的优点是时间复杂度为O(logn)，效率较高。这是因为每一次
华为OD 机试 2025 B卷 - 最大报酬 (C++&Python&JAVA&JS&GO) 无限码力华为OD机试真题刷题笔记华为od 算法华为OD2025B卷华为OD机试2025B卷华为OD机考2025B卷
最大报酬2025B卷目录点击查看：华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解2025B卷100分题型题目描述小明每周上班都会拿到自己的工作清单，工作清单内包含n项工作，每项工作都有对应的耗时时间（单位h）和报酬，工作的总报酬为所有已完成工作的报酬之和，那么请你帮小明安排一下工作，保证小明在指定的工作时间内工作收入最大化。输入描述T代表工作时长（单位h，00），w代表该项工作的报酬
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发

推荐算法面试集锦--算法模型

你可能感兴趣的:(推荐系统,机器学习,大数据,推荐算法,算法,机器学习)