一个打码的小年轻

PU-Learning 原理介绍

解决问题

在实际分类场景中，经常会遇到类似这样的问题：只有已标记的正样本，以及未标记的样本。比如金融风控场景，只有部分用户被标记为欺诈用户，剩下的大量用户未被标记。虽然这其中大多数信用良好，但仍有少量可能为欺诈用户。

为了方便操作，我们可以将未标记的样本都作为负样本进行训练，但存在几个缺陷：

正负样本极度不平衡，负样本数量远远超过正样本，效果很差。
某些关键样本会干扰分类器的最优分隔面的选择，尤其是SVM。

如何辨别未标记样本中的正负样本，提升模型准确度，就成为一个值得思考的问题。PU Learning就是解决这种场景的一种学习方法。

基本概念

PU-Learning的目标与传统二分类问题一致，都是为了训练一个分类器用以区分正负样本。不同点在于：此时只有少数已标注的正样本，并没有负样本。

图2是一个典型的PU数据示例。s表示是否被标注。在PU问题中，如果某个样本被标注，则属于P集合，否则该样本标签未知，属于U集合。

事实上，这是因为：即使是领域专家，在很多案例中也难以保证判断的准确率。根据反证法的思想，专家对于判定为黑（正）的往往比较有信心，因为通常有证据可循，只要命中硬规则即可。然而要判定为白（负），则需要排除所有不可能，这在事实上是难以真正做到的，因为我们收集到的信息总是有限的。

为了维护一个充分可靠的P集合，我们要求专家在进行标注时，仅把具有充分信心的样本标注为1，保证P集合的正确性。而对于专家标注的0无法完全信任，因此会选择将标为0的样本重新放入U集合中，假装没有标注过。整个标注过程如图3所示。

根据PU问题的一般设定，只要一个样例被标注，那么其就是正样本。

Q：如何从U集合中拿样本？

可以采取某种打标机制（Labeling Mechanism）从U中选择样本。同时，最理想的情况是每次都是从U集合中的隐式的“P”集合中选择，再经专家标注验证后，加入显式的P集合中。这样可以节省很多成本，P集合也能得到快速扩充！

在信贷风控中，通常利用信用评分卡给客户打分，按信用分排序后，就可以进行拒绝或放贷。同样地，需要定义一个倾向评分模型（Propensity Score），用以预测U集合中样本被选中的可能性（倾向）。

基本假设

PU-Learning的问题设定：

一个是P集合，一个是U集合；
有标注即为正样本，即有标注和正样本是等价的；

Q：为什么有样本没有标注？

是负样本，按PU Learning的定义，对于专家标注的0无法完全信任，因此会选择将标为0的样本重新放入U集合中，假装没有标注过。
是正样本。只是没有被打标机制所选中，所以无法观察到其表现。

打标机制（Label Mechanism）

介绍构建选择模型时的一些假设

假设1：完全随机选择（Selected Completely At Random，SCAR）

有标签样本完全是从正样本分布中随机选择的，且与本身的特征属性无关。

如图5所示，从x和y两个维度观察，x轴和y轴都是无偏均匀采样。此时，倾向评分函数是常数，也就是说在所有样本上一视同仁，失去了排序性。

假设2：随机选择（Selected At Random，SAR）

有标签样本是从正样本分布中随机选择的，但与本身的特征属性有关。

如图6和图7所示，从x和y两个维度观察，虽然y轴上是均匀采样，但x轴上并不是，说明是有偏采样。造成这个现象的主要原因是——根据样本属性进行筛选。

假设3：概率差距（Probabilistic Gap，PG）

正负预测概率差距越大，被选中打标的概率也就越大。

数据假设（Data Assumptions）

对样本属性、标签等方面提出假设

假设4：负向性（Negativity）

假设U集合所有样本都属于负类。

尽管该假设不符合常理，但在实践中经常采用。主要原因在于：

已有P集合，只需要再有N集合，就可以直接归于成熟的二分类问题来解决。
作为EM算法中初始化的第一步，把U集合等同于N集合，然后不断迭代修正，最终收敛到一个稳态。

假设5：可分性（Separability）

始终存在一个分类器，能把正负两类然完全分开。

该假设主要是为了保证正负样本可分。在假设空间中，存在一个分界阈值，高于阈值预测为正样本，反之为负样本。

假设6：平滑性（Smoothness）

如果两个样本相似，那么预测概率评分也是基本一致的，不会存在跃变的情况。

该假设能保证可靠负样本是那些远离P集合中的所有样本。为此，很多人针对相似度（也就是距离）的衡量开展了各种研究。

PU-Learning的评估指标

准确率：表示预测为1的样本中，实际标签为1的样本的占比。
召回率：表示实际标签为1的样本里，预测为1的样本的占比。

两阶段技术（Two-step PU Learning）

基于可分性和平滑性假设，所有正样本都与有标签样本相似，而与负样本不同。

整体流程一般可分解为以下3个步骤：

step 1: 从U集合中识别出可靠负样本（Reliable Negative，RN）。
step 2: 利用P集合和RN集合组成训练集，训练一个传统的二分类模型
step 3: 根据某种策略，从迭代生成的多个模型中选择最优的模型。

Q：可靠负样本的定义是什么？

基于平滑性假设，样本属性相似时，其标签也基本相同。换言之，可靠负样本就是那些与正样本相似度很低的样本。那么，问题的关键就是定义相似度，或者说距离（distance）。

识别可靠负样本

1）间谍技术（The Spy Technique）

step 1：从P中随机选择一些正样本S，放入U中作为间谍样本（spy）。此时样本集变为P-S和U+S。其中，从P中划分子集S的数量比例一般为15%。
step 2：使用P-S作为正样本，U+S作为负样本，利用迭代的EM算法进行分类。初始化时，把所有无标签样本当作负类，训练一个分类器，对所有样本预测概率。
step 3：以spy样本分布的最小值作为阈值，U中所有低于这个阈值的样本认为是RN。

注意：spy样本需要有足够量，否则结果可信度低。

2）1-DNF技术

step 1：获取PU数据中的所有特征，构成特征集合F。
step 2：对于每个特征，如果其在P集合中的出现频次大于N集合，记该特征为正特征(Positive Feature，PF)，所有满足该条件的特征组成一个PF集合。
step 3：对U中的每个样本，如果其不包含PF集合中的任意一个特征，则将该样本加入RN。

训练分类器

在识别出可靠负样本后，进行分类器的训练：

# 样本准备：P 和 RN 组成训练集X_train; P给定标签1，RN给定标签0，组成训练集标签y_train
# 用 X_train 和 y_train 训练逻辑回归模型 model
model.fit(X_train, y_train) 

# 用 model 对 Q 进行预测（分类）得到结果 prob
Q = U - RN          # 无标签样本集U中剔除RN
prob = model.predict(Q) 

# 找出 Q 中被判定为负的数据组成集合 W
predict_label = np.where(prob < 0.5, 0, 1).T[0]
negative_index = np.where(predict_label == 0)
W = Q[negative_index]

# 将 W 和 RN 合并作为新的 RN，同时将 W 从 Q 中排除
RN = np.concatenate((RN, W))    # RN = RN + W
Q = np.delete(Q, negative_index, axis=0)  # Q = Q - W 

# 用新的 RN 和 P 组成新的 X_train，对应生成新的 y_train
# 继续训练模型，扩充 RN，直至 W 为空集，循环结束。
# 其中每次循环都会得到一个分类器 model ，加入模型集 model_list 中

最优模型选择

从每次循环生成的分类器中，制定选择策略，选出一个最佳分类器。

1）预测误差提升差

训练的目标肯定是让模型的预测误差最小，因此，当预测误差提升差小于0时，说明当前一轮i比i-1轮模型的误差开始升高。我们就选择i-1轮训练的模型。

图 10 - 模型迭代和选择过程

2）F1值提升比

当F1值提升比>1时，说明模型性能在提升。因此，选择最后一次提升的模型。

3）投票（Vote）

对每轮迭代生成的模型model，进行加权组合成最终模型。

4）最后（Last）

直接选用最后一次迭代生成的分类器。

5）假阴率（FNR > 5 %）

当超过已标注正样本的5%被错误预测为负类时，迭代停止。

用Python伪代码组织上述流程：

# 直接选用最后一次循环得到的分类器：
final_model = model_list[-1]

# 利用规则选出一个最佳分类器：
# 用最后一次循环得到的分类器 S-last 对 P 进行分类。
# 若分类结果中有超过8%条数据被判定为负，则选用第一次循环的分类器S-1。
# 否则继续选用 S-last 作为最终分类器
neg_predict = model_list[-1].predict(P)
neg_predict = np.where(neg_predict < 0.5, 0, 1).T[0]
if list(neg_predict).count(0) / neg_predict.shape[0] > 0.08:
    final_model = model_list[0]
else:
    final_model = model_list[-1]

# 对测试数据集进行分类
result = final_model.predict(X_test)

有偏学习（Biased PU Learning）

有偏PU Learning的思想是，把无标签样本当作带有噪声的负样本。那么，该如何把噪声考虑进PU问题模型学习过程？可以采取以下方式：

噪声引起误分类，因此对错误分类的正样本置于更高的惩罚。
基于适合PU问题的评估指标来调整模型参数。

Active Learning与PU Learning的对比

两者都是为了解决：针对有标签样本很少的情况，如何去训练一个二分类模型？

在Active Learning中，专家会多次标注，逐渐扩充L(Labeled)集合，active learner则会在多次学习L集合（包含正负样本）时不停提升自己的性能，我们称之为LU setting。在打标过程中，其有以下特点：

选择策略：在从U集合中选择样本时，选择策略与模型密切相关。例如，不确定性策略是选择模型最不确定的样本进行标注。
L集合产物：在模型迭代过程中，积累的L集合包括P(Positive)和N(Negative)，但其没有考虑到负样本的标注实际并不可靠这一问题。
人机交互：对人的依赖严重，需要人和模型之间交互频繁。

在PU Learning中，同样需要借助人工打标，Learner则在每次迭代的时候，基于PU数据进行学习，我们称之为PU setting。但差异点在于：

选择策略：在从U集合中选择样本时，选择策略与模型相关性低，主要依赖于样本自身之间的差异。例如，1-DNF技术致力于寻找正负样本显著差异的强特征集合。
L集合产物：积累的L集合只包括P(Positive)。在Two-step PU Learning中，可靠负样本RN只是在模型迭代过程中的一个虚拟产物，我们总是认为负样本的标签是不可靠的。
人机交互：依赖相对较少。作为半监督学习的一种，在初始化后，可以依赖EM算法自动迭代。

参考文献

《PU Learning在风控中的应用（理论篇）》：PU Learning在风控中的应用（理论篇） - 知乎；

你可能感兴趣的:(算法,python)

华为OD机试 - 字符串摘要（Python/JS/C/C++ 2023 B卷 100分）哪吒搬砖工逆袭Java架构师华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述给定一个字符串的摘要算法，请输出给定字符串的摘要值：去除字符串中
华为OD机试 - 疫情扩散时间计算 - 广度优先搜索（Python/JS/C/C++ 2024 C卷 200分）哪吒华为od 宽度优先 python
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述在一个地图中（地图有N*N个区域组成），有部分区域被感染病菌。感
华为OD机试 - 字符串统计（Python/JS/C/C++ 2024 C卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述给定两个字符集合，一个是全量字符集，一个是已占用字符集，已占用字
华为OD机试 - 服务器广播 - 并查集（Python/JS/C/C++ 2024 E卷 200分）哪吒华为od 服务器 python
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述服务器连接方式包括直接相连，间接连接。A和B直接连接，B和C直接
华为OD机试 - 单词搜索，找到它 - 回溯（Python/JS/C/C++ 2024 C卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述找到它是一个小游戏，你需要在一个矩阵中找到给定的单词。假设给定单
华为OD机试 - 乘坐保密电梯 - 回溯（Python/JS/C/C++ 2024 C卷 200分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述有一座保密大楼，你从0楼到达指定楼层m，必须这样的规则乘坐电梯：
华为OD机试 - 最长广播效应 - 广度优先搜索BFS（Python/JS/C/C++ 2024 C卷 200分）哪吒华为od 宽度优先 python
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述某通信网络中有N个网络结点，用1到N进行标识。网络中的结点互联互
华为OD机试 - 查找舆情热词（Python/JS/C/C++ 2024 C卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述网上新闻越来越多，希望对新闻进行热词处理并归类，方便获取信息，现
华为OD机试 - 考古问题 - 回溯、全排列问题（Python/JS/C/C++ 2024 C卷 200分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述考古问题，假设以前的石碑被打碎成了很多块，每块上面都有一个或若干
华为OD机试 - 机智的外卖员（Python/JS/C/C++ 2024 C卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述外卖员每天在大厦中送外卖，大厦共有L层（0<L<=10^5），
华为OD机试 - 最大社交距离 - TreeSet（Python/JS/C/C++ 2024 C卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述疫情期间需要大家保证一定的社交距离，公司组织开交流会议。座位一排
华为OD机试 - 机器人搬砖 - 二分查找（Python/JS/C/C++ 2024 C卷 100分）哪吒华为od 机器人 python
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述机器人搬砖，一共有N堆砖存放在N个不同的仓库中，第i堆中有bri
华为OD机试 - API集群负载统计（Python/JS/C/C++ 2024 D卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述某个产品的RESTfulAPI集合部署在服务器集群的多个节点上，
华为OD机试 - 园区参观路径 - 动态规划（Python/JS/C/C++ 2024 C卷 200分）哪吒华为od 动态规划 python
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述园区某部门举办了FamilyDay，邀请员工及其家属参加；将公司
华为OD机试 - 结队编程（Python/JS/C/C++ 2024 C卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述某部门计划通过结队编程来进行项目开发，已知该部门有N名员工，每个
华为OD机试 - 内存冷热标记（Python/JS/C/C++ 2024 C卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述现代计算机系统通常存在多级的存储设备，针对海量的wordload
华为OD机试 - 会议室占用时间段（Python/JS/C/C++ 2024 C卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述现有若干个会议，所有会议共享一个会议室，用数组表示各个会议的开始
华为OD机试 - 最多购买宝石数目 - 滑动窗口（Python/JS/C/C++ 2024 C卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述橱窗里有一排宝石，不同的宝石对应不同的价格，宝石的价格标记为ge
华为OD机试 - 剩余银饰的重量 - 优先队列（Python/JS/C/C++ 2024 D卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述有N块二手市场收集的银饰，每块银饰的重量都是正整数，收集到的银饰
华为OD机试 - 分月饼 - 回溯（Python/JS/C/C++ 2024 D卷 200分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述中秋节，公司分月饼，m个员工，买了n个月饼，m<=n，
华为OD机试 - 智能驾驶 - 广度优先搜索BFS（Python/JS/C/C++ 2024 C卷 200分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述有一辆汽车需要从m*n的地图的左上角（起点）开往地图的右下角（终
华为OD机试 - 密码解密（Python/JS/C/C++ 2024 C卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述给定一段“密文”字符串s，其中字符都是经过“密码本”映射的，现需
华为OD机试 - 螺旋数字矩阵 - 矩阵（Python/JS/C/C++ 2024 D卷 100分）哪吒华为od 矩阵 python
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述疫情期间，小明隔离在家，百无聊赖，在纸上写数字玩。他发明了一种写
华为OD机试 - 计算三叉搜索树的高度 - 二叉树（Python/JS/C/C++ 2024 D卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述定义构造三叉搜索树规则如下:每个节点都存有一个数，当插入一个新的
华为OD机试 - 智能成绩表 - 数组（Python/JS/C/C++ 2024 D卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述小明来到某学校当老师，需要将学生按考试总分或单科分数进行排名，你
华为OD机试 - 求幸存数之和（Python/JS/C/C++ 2024 D卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述给一个正整数列nums，一个跳数jump，及幸存数量left。运
华为OD机试 - 测试用例执行计划（Python/JS/C/C++ 2024 D卷 100分）哪吒华为od 测试用例 python
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述某个产品当前迭代周期内有N个特性（F1,F2,…,FN）需要进行
华为OD机试 - 可以组成网络的服务器 - 深度优先搜索（Python/JS/C/C++ 2024 D卷 200分）哪吒华为od 服务器深度优先
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述在一个机房中，服务器的位置标识在n*m的整数矩阵网格中，1表示单
华为OD机试 - 两个字符串间的最短路径问题 - 动态规划（Python/JS/C/C++ 2024 D卷 200分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述给定两个字符串，分别为字符串A与字符串B。例如A字符串为ABCA
华为OD机试 - 最大坐标值 - 线性扫描（Python/JS/C/C++ 2024 D卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述小明在玩一个游戏，游戏规则如下:在游戏开始前，小明站在坐标轴原点
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他