Grateful_Dead424

金融风控实战——风控领域涉及到的算法和风控算法工程师需要具备的能力

一些简单的介绍

市面上算法相关的岗位，从大范围上分为两大类

1、研究驱动的算法工程师，这类算法工程师的门槛很高，分布在大型公司的研究院、创新实验室等部门，这类算法工程师主要是以研究新的算法或者是更好的优化方案或是算法的高性能实施等等为主，简单来说类似于高校的博士生，做研究，发paper；

2、业务驱动的算法工程师，这类算法工程师的占比相对来说高得多，目前我们在各大招聘网站上看到的绝大多数都是基于业务驱动的算法工程师，这类算法工程师主要以算法的应用并且为企业直接或间接带来利润为主要目的，也是我们大多数人关注的，想要入行的职位。

当然很多时候二者并不是完全独立的，即使基于业务驱动的算法工程师很多时候也要兼顾各种创新型的工作，研究驱动的算法也要了解一些业务知识

风控算法工程师的岗位基本上大部分是基于业务驱动的，但是实际上在风控算法工程师的领域还是有很多的细分，例如典型的信贷平台的各类评分卡，反欺诈；网络媒体的流量作弊检测；电商平台的刷单、买好评的黑产识别等等，这里主要针对金融领域的风控算法工程师进行展开，当然很多算法的理论是相通的，只是应用场景上有一些不同。

金融领域的风控整体来说相对于推荐、图像、nlp要好入门好转行；

风控领域的公司整体上的技术要求可能千差万别，有一些公司仅仅要求你对传统的机器学习那一套比较熟悉并且有一定的项目经验即可，而有一些待遇比较诱人的公司不仅需要你懂传统的ml，还要兼懂nlp、图算法、深度学习相关等等的领域，所以，入行不难，但是要深入成为优秀的风控算法工程师也是要走很多很多的弯路的，特别是头部公司的风控岗位，需要求职者对于机器学习、深度学习、大数据技术等都要有较为深入的理解与应用经验等。

我们戏称为“全栈算法工程师”

而风控算法的岗位分布的公司有：

1、银行、银行科技子公司等传统金融机构的算法部门，这类算法工程师面向的主要是银行业务的信贷、反欺诈等方向的建模工作；

2、互联网金融公司，例如拍拍贷、马上消费、趣店等以消费贷等信贷业务为主的互联网公司，这类公司自身是有信贷相关业务的，这类算法工程师面向的常见的业务之一是小额消费类贷款；

3、互联网科技公司，比较知名的例如猛犸、Datavisor以提供风控行业的解决方案——以产品或者人力或者二者兼有的方式，俗称乙方，这类公司一般没有自己的信贷业务，主要是以产品或者人力等形式为银行等大型机构提供相应的算法服务；

4、数据商，比如典型的百融，同盾，当然这类公司也常常有一些针对风控的场景设计的一些产品；

5、其它

当然实际情况会更复杂，可能同一个公司同时“身兼数职”，同时扮演多个角色。

不得不说，随着算法工程师行业的大量人才的涌入，算法岗的招聘标准越来越高，所需要掌握的算法知识也越来越广，在实际的业务中除了传统的一些常见的机器学习算法例如逻辑回归、gbdt等，许多场景下还需要我们熟悉更多领域的算法，包括了现在火热的图算法和图神经网络、知识图谱、迁移学习等等，下面大概介绍一下不同领域的算法在金融风控领域的一些应用以及这个领域需要具备的一些基本的技能。

可解释机器学习

特别是对于银业行来说，可解释性的需求是非常强烈的，毕竟是直接和白花花的银子打交道的，当然不仅仅是银行，很多时候我们都希望能够结合我们的先验知识与模型共同决策，业务对技术不熟悉，也不会单纯看模型的评估指标或者评估报告就回复“yes”，他们往往希望模型能够提供合理的逻辑上能够理解的解释，例如某个客户被A卡判定为不合格用户，我们需要知道具体是客户的哪些特征不符合模型的要求。

可解释性机器学习从早期的简单的feature importance，w权重等等逐渐过渡到了部份依赖图、shap等等更加先进的模型可解释的算法上，可以说，可解释机器学习已经成为了一个独立的研究领域。

下面列出一些常见的可解释机器学习的方法：

feature importance
逻辑回归本身的权重
部分依赖图
shap
Lime
permutation importance
null importance
等等

不同的可解释性算法从不同的角度对模型进行解释，例如shap基于shap values的思想，可以实现样本粒度的解释；部份依赖图通过固定特征，在单个特征上进行随机取值从而对特征贡献度进行解释；permutation importance基于特征随机排列对预测结果的影响对特征进行解释等等

图算法与图神经网络

理论上来说，当用户之间存在一定的社交关系，我们都可以通过图算法或者图神经网络对用户的社交关系进行特征提取与表示，例如最简单的，通过对社交网络的一些统计特征的计算，比如用户的度，用户所处社区的数量，用户的边数量等来对原始的特征进行补充，或者典型的deepwalk和node2vec对于用户隐式的社交关系的提取；page rank计算用户的“热门”程度；社区发现算法用于发现用户的团体关系等等

当然，图系列算法的功能不仅如此，在反欺诈、失联模型等图算法都有可以应用的地方；

下面简单罗列一些相关的算法：

pagerank
标签传播
Louvain Modularity
graph embedding系列包括deepwalk node2vec sdne等
GNN系列例如现在常常听到的GCN，Graphsage等

迁移学习

迁移学习分为浅层迁移学习与深度迁移学习，深度迁移学习已经在nlp和cv领域得到了非常广泛的应用，但是在传统的tabuar数据领域，迁移学习并没有取得那么辉煌的成就，但是实际上很多浅层的迁移学习算法对于特征分布偏移、项目的冷启动等问题都提供了不错的解决方案

下面简单罗列一些相关的算法：

kmm
tradaboost
kliep
基于模型推断样本权重的方法
对抗性验证
子空间映射的一系列降维算法，包括典型的自编码器
fine tuning
多任务学习

表征学习

当原始数据中存在大量关联性高的文本特征，我们需要一些nlp领域的知识来妥善的处理，这里实际上涉及到很多自然语言处理的基本知识，包括文本的预处理的流程，正则化的灵活应用,常见的文本特征的表达等等等

这里简单列举一些相关的算法：

tfidf
主题模型系列lsi、lda
word2vec，glove、doc2vec
lda2vec
bert，xlnet等

google上有很好的正则表达式的练习网站，感兴趣的可以去练练手

自动化机器学习

广义上来说，项目最终都需要落到自动化上，例如典型的场景，模型上线之后，特征工程的加工过程需要固化成代码，便于新数据到来的自动加工处理，除此之外，如何快速有效的完成繁琐重复的建模流程对于企业来说是比较重要的，自动化机器学习目前比较常见的分支有automl和autodl，automl和风控算法的相关性较大，包括自动化的特征衍生、自动化特征选择、自动化模型调参等等

这里简单列举一些相关的框架或算法

featuretools
gplearn
tsfresh
贝叶斯优化家族包括基于高斯过程、基于随机森林、基于gbdt的贝叶斯优化以及tpe（hyperot的核心）
前后项特征消除、rfe、boruta等
一些完整的大型的框架比如 automl、tpot等等
遗传算法系列

半监督学习

在拒绝推断中常常使用到半监督学习的思想，典型的场景A卡不断的筛选掉坏客户使得最终的用户样本集中基本都是好客户，后续的模型无法继续有效的迭代，因为坏客户基本“死光了”，从而导致新模型没有充分的坏客户数据进行训练，泛化性能越来越差。

除此之外，对于一些缺少足够标签的企业来说，半监督学习也是一种解决问题的思路，通过一些特定的方法来利用无标签数据。

这里简单列举一些相关的算法：

伪标签技术
pu learning系列算法
co training

序列模型

在B卡中较为常见，B卡中常常会有用户的消费数据，这些数据常常具有一定的序列相关性，除此之外，反欺诈场景中也会有用户的一些消费序列数据，我们可以使用序列模型例如LSTM或者attention的机制来对序列特征进行特征抽取作为原始特征的有力补充从而提高最终模型的泛化能力。
下面列举一些相关的算法：

最简单的时间窗统计；
LSTM GRU
引入attention机制的RNN

不均衡学习

类别分布不平衡是风控领域非常常见的问题，针对于类别分布不平衡我们需要使用一些不均衡学习的手段来妥善处理，大体上分为采样、损失函数的修改以及二者的结合，当然如果本身分类问题比较简单属于易分类问题我们也不太需要引入不均衡学习

简单列举一些常见的算法：

上下采样的方法，smote，adasyn，聚类采样，随机下采样；
集成采样，smoteboost，easysemble，cusboost等；
各种魔改损失函数，比如经典的二分类和多分类focal loss

我们需要知道，类别不均衡并不是模型效果不好的本质原因，分类问题的难度大例如类别分布重叠，子类别分布的情况，换句话说即使类别均衡的分布如果是困难的分类问题模型效果一样会比较渣。只不过类别不平衡的情况下更容易出现分类困难的问题

传统的机器学习算法

目前来说，评分卡而言常用的算法主要是两种，一个是逻辑回归，一个是gbdt系列的包括了xgb和lgb

除此之外还有一些其它的知识需要掌握，例如分箱系列的算法，包括决策树分箱、卡方分箱、自动分箱、等频分箱等，以及特征编码 woe编码，特征的过滤式指标，IV值，模型的评估指标ks auc psi等等

特征工程

在表格数据的建模项目中，特征工程占据了我们绝大部分的时间，这里包括了原始数据的特征清理，表关联等等前期需要做的准备工作，无论是工作中还是比赛里，结构化数据的重点往往是围绕着特征工程的好坏展开的，好的特征常常要好过各种各样前沿的算法，特征工程方面的技术太多了，这里简单列举一部分：

特征编码技术
特征交叉
过滤式、包裹式、嵌入式、混合式特征选择
缺失值处理技术包括了常值插补，极限值插补，多重插补等等
时间特征的展开，基于时间窗的各种统计
地理特征的经纬度编码
周期特征的cycle编码等

pu learning

pu learning，作为半监督学习的重要分支，主要解决one class的问题——即只有正类而没有反类或者说反类的数量极其稀少的情况，具体的应用场景和上面提到的半监督学习的应用场景类似，简单列举部分算法：

spy；
伪标签技术（和半监督的伪标签类似）
pu bagging

集成学习

集成学习的分类除了我们熟悉的同质和异质，实际上还有很多实现方式，包括了模型的多次随机初始化平均，nn的典型的snapshot算法，不同参数下训练的同质学习器的简单平均等，一般最为常用的就是简单平均的方法了。

当一个评分卡存在多个评分子模型的时候可能会使用到一些集成的方法

简单列举一些常见的集成方法

bagging
stacking
blending
voting
nn的snapshot

深度学习

目前比较少见使用深度学习来制作评分卡，但是在金融风控的其它领域，深度学习的地位还是很重要的，同时前面提到的lstm，表征学习中的word2vec都是典型的神经网络结构，如果对深度学习没有一个较好的了解，在理解一些nn相关的知识会比较困难，因此，对于深度学习还是需要掌握其基础知识的。

关于深度学习列举一些需要了解的：

BP；
sgd以及各类魔改的一阶优化算法，比如adam，rmsprop等；
梯度消失与梯度爆炸问题；
bn层；
dropout
三大网络架构，DNN、CNN、RNN以及经典的attention机制

对于应用来说，很多时候我们关注nn结构的前向传播过程足够，反向传播交给tf或者torch底层的自动微分框架完成即可

异常检测

大体上常见的有outliter detection和novelty detection，outlier detetion，outlier detection 分为global 和 local两种思想，global衡量全局异常性，即从全量数据上考虑样本的异常程度，例如GMM算法，isolation forest，local则衡量的是局部异常性，典型的如lof，之前做过一些简单的测试，可见：https://zhuanlan.zhihu.com/p/93779599 常见于一些缺乏标签或者是分类定义不明确且标签稀少的数据场景。

简单列举一些常见的算法

lof
聚类家族
高斯家族
isolation forest
onclass svm
自编码器
xgbod
集成异常检测

异常检测算法大都比较依赖于特征工程的设计，也就是我们常说的比较“吃特征”，

联邦学习

听起来思路挺简单，实现起来复杂，落地更复杂的领域。算法的原理大体上是变化不大的，主要是算法训练的过程中，包括了梯度的传输、数据的传输等都涉及到复杂的加密技术，并且需要有一定的基础设施的条件才有实现的可能，除此之外，金融数据的敏感与数据方的不信任等问题，目前要大面积推广还是存在比较多的困难。

一些流程性的工作介绍

从一个项目的角度来说，建模在整个项目的流程中只占据了一小部分，下面大概介绍一下评分卡A卡的整个项目的大体流程。

项目的确定：并不是所有公司都有足够的资源去构建评分卡的，缺少数据与标签是最主要的问题，除此之外，特征字段是否丰富，内部数据的产生是否稳定等都是前期需要考虑的重要问题；
数据的接入，除了公司自身所拥有的一些数据例如申请人的基本申请信息，很多机构往往还会选择购买一些第三方数据商的数据，尤其是早期的一些规模不大的公司本身就没多少历史数据，非常依赖于第三方的数据，例如典型的用户的多头借贷数据，运营商信息等等
样本的清理：一批新的申请人，并不是所有人都能进入评分卡模型的构建中，一般命中黑名单规则、法院记录、反欺诈引擎或者是机构或国家规定的一些硬性规定（例如用户的年龄太大或太小）的用户后续是不会纳入建模体系中的。
特征的清理，关联率低，业务认为无效的特征，数据来源不稳定的特征，偏移太大的特征等等，初期都会进行一些粗筛的工作；
确定标签，如果公司本身内部就拥有比较充足的标签用户，这一步很快就能完成，如果缺乏，则需要考虑一些别的方法例如购买其它机构的信用评级分，或者初期考虑先人审，积累足够数据之后再建模；
确定观察期和表现期，常见的vintage分析和滚动率分析来确定其时间长短，当然，并不绝对，一些公司直接使用固定的时间跨度来定义观察期与表现期；
构建A卡，数据挖掘，特征工程，模型构建，调参，测试，oot test，模型的解释性。。。。。这一部的整个过程和竞赛类似，特征工程和模型构建之间是不断交互进行的。
模型构建完毕，达到上线标准，准备上线，特征工程的规则的固化，预测用的api的撰写，不同机构采用的上线方式不尽相同，目前使用的方式是平台+api，java工程师传入数据，我们提供python的api接口，在api中完成特征转换与模型预测，最后将结果输出传回，模型以pkl的形式保存和读取；
模型监控，检测模型预测的好坏客户的分布变化情况，模型的ks auc的变动情况，预测结果的psi反应模型的稳定性，以及各种各样的调试与修改，比如常见的特征转换的bug，模型衰减等等，如果模型的效果衰减的比较厉害就要考虑rebuild了

python的熟练使用

pandas numpy

基本的pandas numpy 要熟练使用，算法工程师的工作过程中也会涉及到许多小型的开发工作，这个时候如何高效的写出高性能的代码就比较重要了，下面列举一些常用的方法：

数据类型的简化，object的内存占用要远大于category数据类型，float64远大于float16，一般来说float32的数据类型足够了，这样不但能大大减轻数据的内存占用，也能提高模型运算的效率；
高性能内置函数的使用，python的高性能编程拥有与C媲美的速度，使用上也比较简约，更人性化的是，很多运算的高效实现也做了很好的封装，例如pandas的eval和query，numpy的矢量化方法vector以及numexpr。
第三方数据处理框架的使用，如果有足够的gpu资源，并且涉及到非常多的矩阵运算，使用cudf和cupy可以非常高效快速的进行处理；
并行，multiprocessing和joblib，ppserver的官方文档太少，貌似很久没人维护，常用是这两种，joblib是skleran默认使用的并行库。
编译的层面进行优化，通过基于llvm的numba和编译成C的cython等，numba和cython本身也有并行功能；
python的各种高效的内置方法，包括列表解析，lambda，eval，不定参数，低内存占用的tuple，尽量避免深拷贝，使用查询而不是切片出子数据的方法来对dataframe进行操作、灵活的使用矩阵运算代替循环等等等等

基本的大数据框架的api的使用

hive使用的频率较多，hive本身的api的使用不难，和sql的语句差不多，这个看看工具书，自己试用一下就可以了；pyspark引入了dataframe之后使用的难度也很低了，常用pandas的很快能上手，这些东西难在工程优化和环境搭建的麻烦上。当然如果要深入高效的做一些开发性质的工作还是需要深入学习的。

数据库的基本操作

增删查改基本功，这些就不用多说了，google上有sql的训练教程，没事儿可以刷一刷，这个基本是必备技能；

主流框架的熟练应用

sklearn xgboost lightgbm torch tensorflow 不仅仅会简单的跑一些demo，xgb的自定义损失函数，各类参数的常用范围，各类参数的使用效果，sklearn api的开发等等，考虑到现在招聘的难度越来越大，torch或tf的使用也要熟悉熟悉，包括自定义层，自定义损失函数，灵活的网络结构的设计等等，项目的落地需要代码，好的代码需要大量的编程实践和api的熟悉。

一些学习方法的介绍

写blog，把学习的过程记录下来，经典的费曼学习法，非常有效；
打比赛，经常逛kaggle，kaggle最好的地方就是开源的kernel特别多，数据大都是工业的真实数据，kernel里的各种baline也有非常强的借鉴意义，tabular比赛中基本上常用的解决业务问题的思路都会有相应的代码实现；另外datawhale的公众号做的很不错，还有kaggle竞赛宝典，github上的各种top solution的代码，对于转行的人来说，没有数据，没有项目练手，比赛是最直接方便的，而且比赛的名次对于个人学习欲望的驱动是很强的,初期如果有大佬带能少走很多弯路。
看综述，最快的入门某个领域的方法，现有整体性的把握，然后再逐个击破或者研究某一个与自己相关的领域就行，比如序列模型的范围本身是很广的，有一个系统全面的认识，然后再去仔细研究其中的某个能用上的领域。
有空刷刷leetcode，用python或者C来刷，虽然很多传统的数据结构与算法python都已经封装的很好了，但是对于编程能力的提高，leetcode是非常简单快速暴力的
知乎上的各种大佬的专栏，houye、陈泽、浅梦、砍手豪等等，就搜索来说，国内的知乎基本上是机器学习相关知识最好的获取处之一，除此之外就是一些大佬的blog比如刘建平博客园和苏剑林的科学空间等等，谷歌上的towardscience，quora，StackOverflow等等，GitHub上的问答区等等
构建完善的知识体系——通过思维导图的方式
基本的数学基础，边缘概率分布、联合概率分布、条件概率分布等，微积分，偏导、梯度下降法等等，当然不需要太过深入的去研究，主要目的是算法的推导能看懂，自己能够理解的推导出来就可以了，《程序员的数学》系列是一个不错的选择，还有一些网络课程会系统性的教授这些基础。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
2021-01-24 9ce517ee104c
【打卡素材】《香帅金融学讲义》【标题】公司治理：怎样同床异梦地过下去【日期】2021.1.24【字数】公司本质上是一连串的合约关系。降低合同执行中的各种摩擦是公司正常有效运行的基础。协同各方的利益、制衡各方的权力是关键。为解决利益冲突问题、协同各方利益，进行权力制衡的机制设计就是公司治理机制。001什么是公司治理治理是管理的基础，治理机制越好，权、责、利就越清晰，管理的目标也就会更容易实现。002
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
springboot+vue项目实战一-创建SpringBoot简单项目苹果酱0567 面试题汇总与解析 spring boot 后端 java 中间件开发语言
这段时间抽空给女朋友搭建一个个人博客，想着记录一下建站的过程，就当做笔记吧。虽然复制zjblog只要一个小时就可以搞定一个网站，或者用cms系统，三四个小时就可以做出一个前后台都有的网站，而且想做成啥样也都行。但是就是要从新做，自己做的意义不一样，更何况，俺就是专门干这个的，嘿嘿嘿要做一个网站，而且从零开始，首先呢就是技术选型了，经过一番思量决定选择-SpringBoot做后端，前端使用Vue做一
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
GenVisR 基因组数据可视化实战(三) 11的雾
3.genCov画每个突变位点附件的coverage，跟igv有点相似。这个操作起来很复杂，但是图还是挺有用的。可以考虑。由于我的referencegenomebuild是hg38BiocManager::install(c("TxDb.Hsapiens.UCSC.hg38.knownGene","BSgenome.Hsapiens.UCSC.hg38"))library(TxDb.Hsapien
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
粒子群优化 (PSO) 在三维正弦波函数中的应用 subject625Ruben 机器学习人工智能 matlab 算法
在这篇博客中，我们将展示如何使用粒子群优化（PSO）算法求解三维正弦波函数，并通过增加正弦波扰动，使优化过程更加复杂和有趣。本文将介绍目标函数的定义、PSO参数设置以及算法执行的详细过程，并展示搜索空间中的动态过程和收敛曲线。1.目标函数定义我们使用的目标函数是一个三维正弦波函数，定义如下：objectiveFunc=@(x)sin(sqrt(x(1).^2+x(2).^2))+0.5*sin(5
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要