zenRRan

GitHub | 面试官的DL/NLP/推荐系统/ML/算法基础面试必看知识点总结

点击上方，选择星标或置顶，每天给你送干货！

阅读大概需要17分钟

跟随小博主，每天进步一丢丢

每日英文

All lay loads on a willing horse.

好马重负。

Recommender：云不见

作者：SladeSal、tcandzq

链接：https://github.com/sladesha/Reflection_Summary

编辑：深度学习自然语言处理公众号

这个仓库的作者是滴滴出行的员工SladeSal，同时也是互联网一线资深的面试官，他结合自己作为面试管的提问和自己的实习生tcandzq（拿到腾讯UGC，阿里算法中台，头条广告推荐offer）在参加2020届校招面试中遇到的各类算法问题，为大家写出了这份算法岗的面试知识点及个人理解的汇总。每个问题下面都有作者对这个问题的精炼总结，不罗嗦，简单易懂。非常感谢作者细致整理和无私分享。

本资源整理了300多道算法岗位相关的面试题目并给出了详细的答案，包含统计学基础概念、数学基础、数据预处理、机器学习、深度学习、自然语言处理（NLP）、推荐系统、风控、评价指标等相关问题，非常值得深入学习，温故而知新。

作者（SladeSal）有话说

部分内容为手记pdf内容，因为公式实在太多，手写比较快，笔记潦草，见谅，内容部分会引用第三方的观点，但是一定会结合自己的感受和体会，一定有存疑和不完善的地方，欢迎大家补充和质疑打脸。现在算法工程师的面试以下内容都不会直接提问，而是以项目交流的方式去挖掘在一个问题上的理论理解的深度，建议大家结合实际工作中的case去思考。

基础概念
数学
数据预处理
机器学习
深度学习
自然语言处理
推荐
风控
评价指标

一.基础概念

方差和偏差
- 解释方差
- 解释偏差
- 模型训练为什么要引入偏差和方差？请理论论证
- 什么情况下引发高方差
- 如何解决高方差问题
- 以上方法是否一定有效
- 如何解决高偏差问题
- 以上方法是否一定有效
- 遇到过的机器学习中的偏差与方差问题
- 就理论角度论证Bagging、Boosting的方差偏差问题
- 遇到过的深度学习中的偏差与方差问题
- 方差、偏差与模型的复杂度之间的关系

生成与判别模型
- 什么叫生成模型
- 什么叫判别模型
- 什么时候会选择生成/判别模型
- CRF/朴素贝叶斯/EM/最大熵模型/马尔科夫随机场/混合高斯模型
- 我的理解

先验概率和后验概率
- 写出全概率公式&贝叶斯公式
- 说说你怎么理解为什么有全概率公式&贝叶斯公式
- 什么是先验概率
- 什么是后验概率
- 经典概率题

频率概率
- 极大似然估计 - MLE
- 最大后验估计 - MAP
- 极大似然估计与最大后验概率的区别
- 到底什么是似然什么是概率估计

AutoML
- AutoML问题构成
- 特征工程选择思路
- 模型相关的选择思路
- 常见梯度处理思路
- AutoML参数选择所使用的方法
- 讲讲贝叶斯优化如何在automl上应用
- 以高斯过程为例，超参搜索的f的最优解求解acquisition function有哪些
- 高斯过程回归手记
- AutoSklearn详解手记
- AutoML常规思路手记

示例：

二.数学

数据质量
- 期望
- 方差
- 标准差
- 协方差
- 相关系数

最大公约数问题
- 辗转相除法
- 其他方法

牛顿法
- 迭代公式推导
- 实现它

拟牛顿法

概率密度分布
- 均匀分布
- 伯努利分布
- 二项分布
- 高斯分布
- 拉普拉斯分布
- 泊松分布

平面曲线的切线和法线
- 平面曲线的切线
- 平面曲线的法线

导数
- 四则运算
- 常见导数
- 复合函数的运算法则
- 莱布尼兹公式

微分中值定理
- 费马定理
- 拉格朗日中值定理
- 柯西中值定理

泰勒公式
- 泰勒公式

欧拉公式
- 欧拉公式

矩阵
- 范数
- 特征值分解，特征向量
- 正定性

概率论
- 条件概率
- 独立
- 概率基础公式
- 全概率
- 贝叶斯
- 切比雪夫不等式
- 抽球
- 纸牌问题
- 棍子/绳子问题
- 贝叶斯题
- 选择时间问题
- 0~1均匀分布的随机器如何变化成均值为0，方差为1的随机器
- 抽红蓝球球

示例：

三.数据预处理

数据平衡
- 为什么要对数据进行采样
- 是否一定需要对原始数据进行采样平衡
- 有哪些常见的采样方法
- 能否避免采样
- 你平时怎么用采样方法

异常点处理
- 统计方法
- 矩阵分解方法
- 特征值和特征向量的本质是什么
- 矩阵乘法的实际意义
- 密度的离群点检测
- 聚类的离群点检测
- 如何处理异常点

缺失值处理
- 是不是一定需要对缺失值处理
- 直接填充方法有哪些
- 模型插值方法有哪些？及方法的问题
- 如何直接离散化
- hold位填充方法有哪些
- 怎么理解分布补全
- random方法使用前提
- 总结

特征选择
- 为什么要做特征选择
- 从哪些方面可以做特征选择
- 既然说了两个方向，分别介绍一些吧

特征提取
- 为什么需要对数据进行变换
- 归一化和标准化之间的关系
- 连续特征常用方法
- 离散特征常用方法
- 文本特征
- 画一个最简单的最快速能实现的框架

示例：

四.机器学习

聚类
- 请问从EM角度理解kmeans
- 为什么kmeans一定会收敛
- kmeans初始点除了随机选取之外的方法

线性回归
- 损失函数是啥
- 最小二乘/梯度下降手推
- 介绍一下岭回归
- 什么时候使用岭回归
- 什么时候用Lasso回归

逻辑回归
- logistic分布函数和密度函数，手绘大概的图像
- LR推导，基础5连问
- 梯度下降如何并行化
- LR明明是分类模型为什么叫回归
- 为什么LR可以用来做CTR预估
- 满足什么样条件的数据用LR最好
- LR为什么使用sigmoid函数作为激活函数？其他函数不行吗
- 利用几率odds的意义在哪
- Sigmoid函数到底起了什么作用
- LR为什么要使用极大似然函数，交互熵作为损失函数？那为什么不选平方损失函数的呢
- LR中若标签为+1和-1，损失函数如何推导？
- 如果有很多的特征高度相关或者说有一个特征重复了100遍，会造成怎样的影响
- 为什么要避免共线性
- LR可以用核么？可以怎么用
- LR中的L1/L2正则项是啥
- lr加l1还是l2好
- 正则化是依据什么理论实现模型优化
- LR可以用来处理非线性问题么
- 为什么LR需要归一化或者取对数
- 为什么LR把特征离散化后效果更好？离散化的好处有哪些
- 逻辑回归估计参数时的目标函数逻辑回归的值表示概率吗
- LR对比万物
- LR梯度下降方法
- LR的优缺点
- 除了做分类，你还会用LR做什么
- 你有用过sklearn中的lr么？你用的是哪个包
- 看过源码么？为什么去看
- 谈一下sklearn.linear_model.LogisticRegression中的penalty和solver的选择
- 谈一下sklearn.linear_model.LogisticRegression中对多分类是怎么处理的
- 我的总结

决策树
- 常见决策树
- 简述决策树构建过程
- 详述信息熵计算方法及存在问题
- 详述信息增益计算方法
- 详述信息增益率计算方法
- 解释Gini系数
- ID3存在的问题
- C4.5相对于ID3的改进点
- CART的连续特征改进点
- CART分类树建立算法的具体流程
- CART回归树建立算法的具体流程
- CART输出结果的逻辑
- CART树算法的剪枝过程是怎么样的
- 树形结构为何不需要归一化
- 决策树的优缺点

贝叶斯
- 解释一下朴素贝叶斯中考虑到的条件独立假设
- 讲一讲你眼中的贝叶斯公式和朴素贝叶斯分类差别
- 朴素贝叶斯中出现的常见模型有哪些
- 出现估计概率值为 0 怎么处理
- 朴素贝叶斯的优缺点
- 朴素贝叶斯与 LR 区别

随机森林
- 解释下随机森林
- 随机森林用的是什么树
- 随机森林的生成过程
- 解释下随机森林节点的分裂策略
- 随机森林的损失函数是什么
- 为了防止随机森林过拟合可以怎么做
- 随机森林特征选择的过程
- 是否用过随机森林，有什么技巧
- RF的参数有哪些，如何调参
- RF的优缺点

集成学习
- 介绍一下Boosting的思想
- 最小二乘回归树的切分过程是怎么样的
- 有哪些直接利用了Boosting思想的树模型
- gbdt和boostingtree的boosting分别体现在哪里
- gbdt的中的tree是什么tree？有什么特征
- 常用回归问题的损失函数
- 常用分类问题的损失函数
- 什么是gbdt中的残差的负梯度
- 如何用损失函数的负梯度实现gbdt
- 拟合损失函数的负梯度为什么是可行的
- 即便拟合负梯度是可行的，为什么不直接拟合残差？拟合负梯度好在哪里
- Shrinkage收缩的作用
- feature属性会被重复多次使用么
- gbdt如何进行正则化的
- 为什么集成算法大多使用树类模型作为基学习器？或者说，为什么集成学习可以在树类模型上取得成功
- gbdt的优缺点
- gbdt和randomforest区别
- GBDT和LR的差异
- xgboost对比gbdt/boosting Tree有了哪些方向上的优化
- xgboost和gbdt的区别
- xgboost优化目标/损失函数改变成什么样
- xgboost如何使用MAE或MAPE作为目标函数
- xgboost如何寻找分裂节点的候选集
- xgboost如何处理缺失值
- xgboost在计算速度上有了哪些点上提升
- xgboost特征重要性是如何得到的
- xGBoost中如何对树进行剪枝
- xGBoost模型如果过拟合了怎么解决
- xgboost如何调参数
- XGboost缺点
- LightGBM对Xgboost的优化
- LightGBM亮点

FM/FFM

SVM
- 简单介绍SVM
- 什么叫最优超平面
- 什么是支持向量
- SVM 和全部数据有关还是和局部数据有关
- 加大训练数据量一定能提高SVM准确率吗
- 如何解决多分类问题
- 可以做回归吗，怎么做
- SVM 能解决哪些问题
- 介绍一下你知道的不同的SVM分类器
- 什么叫软间隔
- SVM 软间隔与硬间隔表达式
- SVM原问题和对偶问题的关系/解释原问题和对偶问题
- 为什么要把原问题转换为对偶问题
- 为什么求解对偶问题更加高效
- alpha系数有多少个
- KKT限制条件，KKT条件有哪些，完整描述
- 引入拉格朗日的优化方法后的损失函数解释
- 核函数的作用是啥
- 核函数的种类和应用场景
- 如何选择核函数
- 常用核函数的定义
- 核函数需要满足什么条件
- 为什么在数据量大的情况下常常用lr代替核SVM
- 高斯核可以升到多少维？为什么
- SVM和逻辑斯特回归对同一样本A进行训练，如果某类中增加一些数据点，那么原来的决策边界分别会怎么变化
- 各种机器学习的应用场景分别是什么？例如，k近邻,贝叶斯，决策树，svm，逻辑斯蒂回归
- Linear SVM 和 LR 有什么异同

示例：

五.深度学习

框架
- 为什么要用深度召回

dropout
- dropout如何作用的
- L1为什么在深度学习中不常用
- 用贝叶斯机率说明Dropout的原理
- 为什么有效

batch_normalization
- 你觉得bn过程是什么样的
- 手写一下bn过程
- 知道LN么？讲讲原理

bp过程

embedding

softmax

梯度消失/爆炸

残差网络
- 介绍残差网络
- 残差网络为什么能解决梯度消失的问题
- 残差网络残差作用
- 你平时有用过么？或者你在哪些地方遇到了

Attention
- Attention对比RNN和CNN，分别有哪点你觉得的优势
- 写出Attention的公式
- 解释你怎么理解Attention的公式的
- Attention模型怎么避免词袋模型的顺序问题的困境的
- Attention机制，里面的q,k,v分别代表什么
- 为什么self-attention可以替代seq2seq
- 维度与点积大小的关系是怎么样的，为什么使用维度的根号来放缩

示例：

六.自然语言处理

GloVe
- GolVe的损失函数
- 解释GolVe的损失函数
- 为什么GolVe会用的相对比W2V少

Word2Vec
- 从隐藏层到输出的Softmax层的计算有哪些方法
- 层次softmax流程
- 负采样流程
- word2vec两种方法各自的优势
- 怎么衡量学到的embedding的好坏
- word2vec和glove区别
- 你觉得word2vec有哪些问题

CRF
- 阐述CRF原理
- 线性链条件随机场的公式是
- CRF与HMM区别
- Bert+crf中的各部分作用详解

LDA
- 详述LDA原理
- LDA中的主题矩阵如何计算
- LDA的共轭分布解释下
- PLSA和LDA的区别
- 怎么确定LDA的topic个数
- LDA和Word2Vec区别？LDA和Doc2Vec区别
- LDA算法里面Dirichlet分布的两个参数alpha和beta怎样确定？trick?
- 使用过LDA，你有什么问题？
- 你用真实用过吗？对比过效果吗？
- 超参数\alpha \beta对训练的影响？
- LDA你会有哪些常规的预处理步骤
- LDA的最大似然不好求的原因？为什么不直接用EM？为什么LDA引入了一堆数学理论？

LSTM

Bert：实现/使用的代码
- Bert的双向体现在什么地方
- Bert的是怎样预训练的
- 在数据中随机选择 15% 的标记，其中80%被换位[mask]，10%不变、10%随机替换其他单词，原因是什么
- 为什么BERT有3个嵌入层，它们都是如何实现的
- bert的损失函数
- 手写一个multi-head attention
- 长文本预测如何构造Tokens
- 你用过什么模块？bert流程是怎么样的
- 知道分词模块：FullTokenizer做了哪些事情么
- Bert中如何获得词意和句意
- 源码中Attention后实际的流程是如何的
- 为什么要在Attention后使用残差结构
- 平时用官方Bert包么？耗时怎么样
- 你觉得BERT比普通LM的新颖点
- elmo、GPT、bert三者之间有什么区别

文本相似度计算
- 有哪些常用的方法

TextCNN
- 讲一下textcnn
- textCNN中核的作用
- max-pooling选择的目的
- textcnn和fasttext区别
- 如果你知道上面说的核心问题，那么有什么解决方案吗？
- 为什么卷积核都不大？且常见都都是奇数？
- 为什么不建议用句长作为核大小
- padding是不是对最后结果没有影响

示例：

七.推荐

DIN：实现/使用的代码
- 主要使用了什么机制
- activation unit的作用
- DICE怎么设计的
- DICE使用的过程中，有什么需要注意的地方

DeepFM：实现/使用的代码
- DNN与DeepFM之间的区别
- Wide&Deep与DeepFM之间的区别
- 你在使用deepFM的时候是如何处理欠拟合和过拟合问题的
- DeepFM怎么优化的
- 不定长文本数据如何输入deepFM
- deepfm的embedding初始化有什么值得注意的地方吗
- - Xavier初始化
  - He初始化

YoutubeNet：实现/使用的代码
- 变长数据如何处理的
- input是怎么构造的
- 最后一次点击实际如何处理的
- output的是时候train和predict如何处理的
- 如何进行负采样的
- item向量在softmax的时候你们怎么选择的
- Example Age的理解
- 什么叫做不对称的共同浏览（asymmetric co-watch）问题
- 为什么不采取类似RNN的Sequence model
- YouTube如何避免百万量级的softmax问题的
- serving过程中，YouTube为什么不直接采用训练时的model进行预测，而是采用了一种最近邻搜索的方法
- Youtube的用户对新视频有偏好，那么在模型构建的过程中如何引入这个feature
- 在处理测试集的时候，YouTube为什么不采用经典的随机留一法（random holdout），而是一定要把用户最近的一次观看行为作为测试集
- 整个过程中有什么亮点？有哪些决定性的提升

Wide&Deep

Neural Network全家桶

XDeepFM：实现/使用的代码
- 选用的原因，考虑使用的场景是什么
- 什么叫显示隐式？什么叫元素级/向量级？什么叫做高阶/低阶特征交互
- 简单介绍一下XDeepFm的思想
- 和DCN比，有哪些核心的变化
- 时间复杂度多少

Recall
- 召回层构造loss和精排层的差异？
- 离线评估有什么办法
- 负样本为什么不能用点击未展示
- 解释一下hard negative
- 什么样本是hard和easy的
- 如何处理hard部分

示例：

八.风控

孤立森林
评分卡

九.评价指标

二分类
多分类
回归指标
聚类指标
排序指标

下载一：中文版！学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套！

后台回复【五件套】
下载二：南大模式识别PPT

后台回复【南大模式识别】

说个正事哈

由于微信平台算法改版，公号内容将不再以时间排序展示，如果大家想第一时间看到我们的推送，强烈建议星标我们和给我们多点点【在看】。星标具体步骤为：

（1）点击页面最上方“深度学习自然语言处理”，进入公众号主页。

（2）点击右上角的小点点，在弹出页面点击“设为星标”，就可以啦。

感谢支持，比心。

投稿或交流学习，备注：昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

推荐两个专辑给大家：

专辑 | 李宏毅人类语言处理2020笔记

专辑 | NLP论文解读

专辑 | 情感分析


整理不易，还望给个在看！

你可能感兴趣的:(算法,编程语言,机器学习,人工智能,深度学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
粒子群优化 (PSO) 在三维正弦波函数中的应用 subject625Ruben 机器学习人工智能 matlab 算法
在这篇博客中，我们将展示如何使用粒子群优化（PSO）算法求解三维正弦波函数，并通过增加正弦波扰动，使优化过程更加复杂和有趣。本文将介绍目标函数的定义、PSO参数设置以及算法执行的详细过程，并展示搜索空间中的动态过程和收敛曲线。1.目标函数定义我们使用的目标函数是一个三维正弦波函数，定义如下：objectiveFunc=@(x)sin(sqrt(x(1).^2+x(2).^2))+0.5*sin(5
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓