因吉

主动学习之Alipy包使用

Alipy包使用详解

引入

0.1 主动学习简介
0.2 主动学习示例
0.3 查询策略及评价
0.4 Alipy概述

1 高级封装

1.1 ToolBox

1.1.1 初始化ToolBox对象：
1.1.2 获取默认模型
1.1.3 划分数据
1.1.4 创建IndexCollection对象
1.1.5 获得Oracle或Repository 对象
1.1.6 获取State 或 StateIO 对象
1.1.7 获取预设查询策略对象
1.1.8 计算性能
1.1.9 获取停止标准
1.1.10 可视化实验结果
1.1.11 最终结果保存

1.2 智能实验
2 Alipy工具类

2.1 数据操作

引入

0.1 主动学习简介

在诸多实际问题中，未标记数据大量而已标记数据稀缺。由于人类专家的参与，标签的获取通常昂贵。因此，通过少量的标签实例来训练准确的预测模型至关重要。
　　主动学习的目的即是：
　　通过只查询最有价值的实例来减少人类专家在机器学习系统中注释实例的比例，并已成功地应用到各种实际任务中。
　　原文链接~~
　　
　　声明：此文为笔者学习Alipy包使用的历程，绝无半点侵权之意。

0.2 主动学习示例

常规的主动学习过程中，示例查询和模型更新迭代进行。以下是一个具体的例子：

图0-1　主动学习过程示例

上述过程伪代码如下：
　　输入：有标签的训练集(仅有少量实例) $L$
　　while：
　　　　查询算法选择一批被认为有价值的无标签数据
　　　　oracle根据其已有知识提供一些有监督的信息
　　　　新的有标签实例添加到标记集 $L$
　　　　更新模型
　　直到满足特定的停止标准(如，有限的查询数量或有限的成本预算)。

0.3 查询策略及评价

主动学习的研究方向之一是查询策略。学习者将根据特定的查询策略选择一些未标记的数据，并从oracle中查询其标签。在主动学习文献中，各种策略从不同方面进行评估，以此判断实例对模型改进的有用性。
　　那如何评估不同算法的性能呢？
　　通过构造学习曲线的方式直观有效，如将查询次数与准确率的关系进行绘制。对于不同的查询策略，由于会选择不同的数据进行查询，将会产生不同的学习曲线。

0.4 Alipy概述

Alipy提供了一个基于模块的主动学习框架，其目标是用各种工具功能支持实验实现。这些工具是以低耦合的方式设计的，以便用户可以根据自己的习惯来编程实验项目。支持的模块如下：

序列	模块名	功用
1	alipy.data_manipulate	数据划分
2	alipy.query_strategy	数据查询策略
3	alipy.index.IndexCollection	索引管理
4	alipy.metric	模型性能计算
5	alipy.experiment.state/alipy.experiment.state_io	保存每次查询后的中间结果并从断点恢复程序
6	alipy.experiment.stopping_criteria	获取停止标准
7	alipy.experiment.experiment_analyser	可视化实验结果
8	alipy.oracle	提供清洁、噪音或者代价敏感的oracle
9	alipy.utils.multi_thread	多次实验

支持以下算法：

序列	算法类型	具体算法
1	实例选择	Uncertainty (SIGIR 1994) , Graph Density (CVPR 2012) , QUIRE (TPAMI 2014)、
		SPAL (AAAI 2019) , Query By Committee (ICML 1998) , Random
		BMDR (KDD 2013) , LAL (NIPS 2017) , Expected Error Reduction (ICML 2001)…
2	多标签数据	AUDI (ICDM 2013) , QUIRE (TPAMI 2014) , Random
		MMC (KDD 2009) , Adaptive (IJCAI 2013) …
3	特征查询	AFASMC (KDD 2018) , Stability (ICDM 2013) , Random
4	不同代价	AL with Different Costs : HALC (IJCAI 2018) , Random
		Cost performance…
5	噪声oracle	AL with Noisy Oracles : CEAL (IJCAI 2017) , IEthresh (KDD 2009)
		All , Random…
6	特殊查询类型	AURO (IJCAI 2015) …
7	大规模任务	Subsampling…

1 高级封装

1.1 ToolBox

ToolBox是一个提供所有可用工具类的类，以下说明大致功用。

1.1.1 初始化ToolBox对象：

程序清单1-1： 初始化工具箱

from sklearn.datasets import *
from alipy import ToolBox
import warnings
warnings.filterwarnings("ignore")    #忽略警告

def test():
    data_set, label_set = load_iris(return_X_y=True)    #示例：导入iris数据集；返回实例集合与相应标签
    print("The data set:", data_set)
    print("The label set", label_set)
    alibox = ToolBox(X=data_set, y=label_set, query_type='AllLabels', saving_path='.')

if __name__ == '__main__':
    test()

运行结果(注：载入boston数据时会出现未知错误)：

...
 [5.9 3.  5.1 1.8]]
The label set [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]

引入的sklearn.datasets自带以下数据集(当然可以自行导入数据集)：

数据集名称	导入命令	用途
鸢尾花数据集	load_iris()	用于分类或聚类任务的数据集
手写数字数据集	load_digits()	用于分类任务或者降维任务的数据集
乳腺癌数据集	load_barest_cancer()	用于二分类任务的数据集
糖尿病数据集	load_diabetes()	用于回归任务的数据集
波士顿房价数据集	load_boston()	用于回归任务的数据集
体能训练数据集	load-linnerud()	用于多变量回归任务的数据集

查询类型有下：

AllLabels	PartLabels	Features

1.1.2 获取默认模型

Alipy默认模型为logistic回归模型，相应的获取、训练、测试方法如下：

程序清单1-2： 获取默认模型及预测

from sklearn.datasets import *
from alipy import ToolBox
import warnings
warnings.filterwarnings("ignore")    #忽略警告

def test():
    data_set, label_set = load_iris(return_X_y=True)    #示例：导入iris数据集；返回实例集合与相应标签
    # print("The data set:", data_set)
    # print("The label set", label_set)
    alibox = ToolBox(X=data_set, y=label_set, query_type='AllLabels', saving_path='.')    #一般使用‘AllLabels’

    de_model = alibox.get_default_model()    #获取默认模型
    de_model.fit(data_set, label_set)    #传入数据及标签
    pred = de_model.predict(data_set)    #标签预测
    print(pred)
    pred = de_model.predict_proba(data_set)    #获取概率输出
    # print(pred)

if __name__ == '__main__':
    test()

运行结果：

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 2 1 1 1
 1 1 1 1 1 1 1 1 1 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]

1.1.3 划分数据

ToolBox中有两种获取划分数据的方式：
　　1）使用alibox.split_AL()并指定参数来划分，即：

train_ind, test_ind, label_ind, unlabel_ind = alibox.split_AL(test_ratio=0.3, initial_label_rate=0.1, split_count=1)

参数说明：

参数名称	意义
test_ratio	测试集比例
initial_label_rate	测试集中带标签实例的比例
split_count	划分次数
train_ind	训练集
test_ind	测试集
label_ind	训练集中带标签实例
unlabel_ind	训练集中不带标签实例

2）方式2与方式1是类似的，需要注意的是返回值均为索引：

alibox.split_AL(test_ratio=0.3, initial_label_rate=0.1, split_count=10)

train_0, test_0, label_0, unlabel_0 = alibox.get_split(round=0)
train_1, test_1, label_1, unlabel_1 = alibox.get_split(round=1)

1.1.4 创建IndexCollection对象

alipy.index.IndexCollection是一个管理索引的工具类，可通过以下方式创建和使用该类：

程序清单1-3： IndexCollection类使用示例

from sklearn.datasets import *
from alipy import ToolBox
import warnings
warnings.filterwarnings("ignore")    #忽略警告

def test1():
    data_set, label_set = load_iris(return_X_y=True)
    alibox = ToolBox(X=data_set, y=label_set, query_type='AllLabels', saving_path='.')
    a = [1, 2, 3]
    a_ind = alibox.IndexCollection(a)    #这里的a可以是训练集索引或者其他
    print("index:", a_ind.index)    #索引输出
    a_ind.add(10)    #添加单个索引；注：索引不会重复
    print("add:", a_ind)
    a_ind.discard(1)     #删除已有索引
    print("discard", a_ind)
    a_ind.update([4, 5, 10])    #添加多个元素
    print("update", a_ind)
    a_ind.difference_update([4, 10])    #删除多个元素
    print("difference_update", a_ind)

运行结果：

index: [1, 2, 3]
add: [1, 2, 3, 10]
discard [2, 3, 10]
update [2, 3, 10, 4, 5]
difference_update [2, 3, 5]

1.1.5 获得Oracle或Repository 对象

1）获取clean oracle

clean_oracle = alibox.get_clean_oracle(query_by_example=False, cost_mat=None)

如按特征查询：query_by_example=True。

提供一个索引或一个索引列表，以便查询标签和相应代价(标签为初始化数据集所对应的标签)：

label, cost = clean_oracle.query_by_index([1])

如果在初始化时没有指定代价，则默认为1，否则可以设置代价矩阵；代价矩阵的形状应与标签矩阵的形状相同，以便进行代价敏感查询。
2）获取 repository

alibox.get_repository(round=0, instance_flag=False)

round即与之前split_count相对应。当然，若要保存当前所选实例的特征向量则设置：instance_flag=True。

程序清单1-4： clean oracle类使用示例

from sklearn.datasets import *
from alipy import ToolBox
import warnings
warnings.filterwarnings("ignore")    #忽略警告

def test2():
    data_set, label_set = load_iris(return_X_y=True)    #示例：导入iris数据集；返回实例集合与相应标签
    alibox = ToolBox(X=data_set, y=label_set, query_type='AllLabels', saving_path='.')    #一般使用‘AllLabels’
    clean_oracle = alibox.get_clean_oracle(query_by_example=False, cost_mat=None)
    label, cost = clean_oracle.query_by_index([1])
    print("label:", label)
    print("cost:", cost)

if __name__ == '__main__':
    test2()

运行结果：

label: [0]
cost: [1]

1.1.6 获取State 或 StateIO 对象

alipy.experiment.StateIO用于保存或者载入中间结果，几个重要功能如下：
　　1）以文件形式保存中间结果；
　　2）在任意次迭代中恢复工作台(标签集和非标签集)；
　　3）程序意外退出时从断点恢复程序；
　　4）输出主动学习过程：当前迭代次数、当前平均性能、当前代价等。
　　
　　对于每一次round，可如下保存：

saver = alibox.get_stateio(round=1)    #1作为示例

可设置相应参数如下：

st = alibox.State(select_index=select_ind, performance=accuracy, cost=cost, queried_label=queried_label)	#此处并为给出select_ind等的定义
saver.add_state(st)    #添加参数
saver.save()    #保存至文件，默认保存于当前文件夹

1.1.7 获取预设查询策略对象

Alipy支持的查询策略如下：

序号	策略名称
1	QueryInstanceQBC
2	QueryInstanceUncertainty
3	QueryRandom
4	QureyExpectedErrorReduction
5	QueryInstanceGraphDensity
6	QueryInstanceQUIRE

具体使用如下：

QBCStrategy = alibox.get_query_strategy(strategy_name='QueryInstanceQBC')

注意：QueryInstanceGraphDensity及QueryInstanceQUIRE需要额外指定参数！

1.1.8 计算性能

支持性能计算方法如下：

序号	性能计算方法名
1	accuracy_score
2	roc_auc_score
3	get_fps_tps_thresholds
4	hamming_loss
5	one_error
6	coverage_error
7	label_ranking_loss
8	label_ranking_average_precision_score

一个具体的例子如下：

程序清单1-5： 性能计算示例

from sklearn.datasets import *
from alipy import ToolBox
import warnings
warnings.filterwarnings("ignore")    #忽略警告

def test3():
    data_set, label_set = load_iris(return_X_y=True)    #示例：导入iris数据集；返回实例集合与相应标签
    alibox = ToolBox(X=data_set, y=label_set, query_type='AllLabels', saving_path='.')    #一般使用‘AllLabels’
    alibox.split_AL(test_ratio=0.3, initial_label_rate=0.1, split_count=10)
    de_model = alibox.get_default_model()
    de_model.fit(data_set, label_set)
    pred = de_model.predict(data_set)
    
    """新增"""
    acc = alibox.calc_performance_metric(y_true=label_set, y_pred=pred, performance_metric='accuracy_score')
    print("accuracy score:", acc)

if __name__ == '__main__':
    test3()

运行结果：

accuracy score: 0.96

1.1.9 获取停止标准

常用停止标准如下：

序号	命令名	代表意义
1	None	默认：没有未标记实例
2	num_of_queries	查询数量
3	cost_limit	代价限制
4	percent_of_unlabel	未标记实例比例
5	time_limit	时间限制

一个示例如下：

stopping_criterion = alibox.get_stopping_criterion(stopping_criteria='time_limit', value=1)

    for i in range(10):
        print(i)
        while not stopping_criterion.is_stop():
            pass

1.1.10 可视化实验结果

一个示例如下：

analyser = alibox.get_experiment_analyser(x_axis='time_limit')    #设置x轴名称
analyser.add_method(method_name='QBC', method_result=QBC_result)
analyser.plot_learning_curves()    #绘制

1.1.11 最终结果保存

一个示例如下：

alibox.save()
alibox = ToolBox.load('./al_settings.pkl')

1.2 智能实验

alipy.experiment.AlExperiment是一个封装了各种工具并实现了主循环的类。以下为一个具体示例：

程序清单1-6： 一次简单的实验

from sklearn.datasets import load_iris
from alipy.experiment.al_experiment import AlExperiment
import warnings
warnings.filterwarnings("ignore")    #忽略警告

def test5():
    data_set, label_set = load_iris(return_X_y=True)
    al = AlExperiment(data_set, label_set, stopping_criteria='num_of_queries', stopping_value=50)
    al.split_AL()
    al.set_query_strategy(strategy="QueryInstanceUncertainty", measure='least_confident')
    al.set_performance_metric('accuracy_score')
    al.start_query(multi_thread=True)    #开启多线程
    al.plot_learning_curve()

if __name__ == '__main__':
    test5()

运行结果：

|   7   |         50        |   00:00:04  |       0.909 ± 0.12       |
|   8   |         50        |   00:00:04  |       0.957 ± 0.04       |
|   9   |         50        |   00:00:04  |       0.698 ± 0.10       |
+-------+-------------------+-------------+--------------------------+

+--------------------------+-------------------+---------------------------+--------------+------------+
|         Methods          | number_of_queries | number_of_different_split | performance  | batch_size |
+--------------------------+-------------------+---------------------------+--------------+------------+
| QueryInstanceUncertainty |         50        |             10            | 0.843 ± 0.08 |     1      |
+--------------------------+-------------------+---------------------------+--------------+------------+

绘制结果：

图1-1　实验示例

2 Alipy工具类

接下来详细讲解具体工具类的用途。

2.1 数据操作

alipy.data_manipulate用于管理实验数据。

知识不等于力量放飞梦想的风筝
世法哲言四十五多少知识等力量如是，此论弗入于谛，知识乃识鉴之因，力量为施用之果，识施于用，其生之力得之积量，大海盈以百川之水，故为是积，积而弗施，青禾干之，农田裂口，知识藏而不用，其力何生，无量之积，故识鉴弗以力量等之。多少知识等于多少力量这句话，有很多前代名人，在他们的名言里都是这样说的，但南无始祖报身佛对这个问题，却有相反的看法。他认为，多少知识等于多少力量，这是绝对的错误。因为这种观点不是真
那些让你恶心的言论小陀弥
图片发自App1.有女朋友也没关系啊，可以找第三个嘛。（女同事和男同事说的，女同事已婚有娃，男同事准备结婚）2.怕什么，等到阵痛了打个电话让你老公来接去医院就好了。生完两天回来就好了，在家多无聊。（虽然工资照给，你别把生娃当成是拉屎好吗？拉屎还会便秘呢？何况生娃？）3.天生肠胃弱后，经历了几次因工作拖延而导致病情加重后连续一周多没法睡，痛到以为自己要死掉后决定离职修养。人事一句：我不信，生病离职是
庚子年二月初二梅红书
庚子鼠妖作怪，害我苍生千百！举国上下，心系荆楚大地；白衣战士如同天兵天将，医疗专家就是华佗再世；各级行政干部雷厉风行；各项信息技术醒人耳目；各地平民百姓积极配合；疫情面前，彰显民族精神；庚子二月初二，蛟龙抬头；驱世间戾气，还大地趋吉；祖国大地，春暖花香；百业待兴，国富民强；奉劝各位，不食野味；万物行自己千年轨迹；方能平安一生，幸福一世。
「乐夏」里说的“破圈”究竟是破的什么圈？吉他范儿
文章来源：哎呀音乐作者：南瓜今年在「乐夏」里知道一个词“破圈”……节目中旅行团乐队和周洁琼合作了一首歌「周末玩具」，结果投票让他们垫了底……看了几遍「周末玩具」的表演，觉得挺好的，人美歌甜，舞跳的也好，旅行团乐器的编配也不错，听后没有什么不适感，甚至因垂涎周洁琼的美色又看了一遍，结果呢，现场评委给了个最低分！这？？？为什么？凭什么？现场的专业人士说他们“破圈”了！这不是我们熟悉的旅行团，所以不给他
Python爬虫【四十五章】爬虫攻防战：异步并发+AI反爬识别的技术解密程序员_CLUB Python入门到进阶 python 爬虫人工智能
目录引言：当爬虫工程师遇上AI反爬官一、异步并发基础设施层1.1混合调度框架设计1.2智能连接池管理二、机器学习反爬识别层2.1特征工程体系2.2轻量级在线推理三、智能决策系统3.1动态策略引擎3.2实时对抗案例四、性能优化实战4.1全链路压测数据4.2典型故障处理案例五、总结：构建智能化的爬虫生态系统Python爬虫相关文章（推荐）引言：当爬虫工程师遇上AI反爬官在大数据采集领域，我们正经历着技
一天挣二三百的小本生意什么生意最挣钱小本生意日常购物技巧呀
零投资做什么可以日入300+？现如今，互联网发展越来越快速，人们的创业不再局限于一定需要有实体店面、实体公司，通过网络平台来创业已经成为了许多年轻人更快的一种变现方式，现在因互联网而兴起的行业、职业有很多，那么零投资无成本的创业项目有哪些赚钱呢？下面和小编来看看吧。1、淘宝类、返利赚钱项目全网佣金最高的「高省」APP分享商品及推广APP做团队赚佣金，适合新手小白（有导师一对一带）自用省，分享赚，高
2020年11月28日读书笔记龙套哥萨克海龙
今日阅读1小时，总计1431小时，第1377日阅读《危机与重构-唐帝国与其地方诸侯》第二章关中：有关空间的命题第一节异族威胁与空间的重构第二节派系危机与空间的崩溃对安史之乱爆发后关中政治课题的讨论，与其始于长安，不如始于灵武（灵州）。当长安在天宝十五载（756）六月因叛军攻破潼关而被玄宗放弃时，灵武则成为一个月后新任君主肃宗的龙翔之地。这一空间转换，不仅意味着帝国新旧权力更迭的开始，也标志着一个以
从孔子到儒商信州居士
刚出差回来，发现生意场上附庸风雅之风大盛，翻云覆雨地云雨起国学来，大概都要争当“儒商”了。因国学而从“乳上”到“儒商”，总不会是国学之福。试想，一旦流行，连真乳都难寻，就别说真儒了。流行的乳房，除了制造隆乳增乳扩乳的热闹，还能有什么？至于流行的儒学是什么？其命运不会比任何一个无论真假的乳房要好。国学也一样，真的举国都学了，这国学也就真的蜾穴了。但国学的兴盛是必然的，中国经济的发展，必然在学术上要有
管理好自己的健康，人生才能长赢初心在行动
吴妙|睿兮妈第三天阅读《终身学习》第一章总结——一直听到诺妈对这本书的推荐，对它非常期待。翻开这本书看了目录就知道它会带给我很大的帮助。作者选择健康问题作为第一章，是的，“身体是革命的本钱”。我们唯有保持健康的体魄才能做好接下来的每件事。第一天看就让我惊讶，首先作者的专研精神让我佩服。作者从四个方面来阐述他的观点——管理好自己的健康，人生才能长赢！1.在当今营养过剩的时代，营养不是我们的主要考虑因
股票分析新王牌：手把手教你搭建AI智能体，附核心提示词秘笈黑巧克力可减脂 AIGC 人工智能
导言华尔街的旧神像正在崩塌，而新神由代码铸就。一套精心设计的提示词，能让AI智能体在数据洪流中为你淘出真金。在金融市场的惊涛骇浪中，传统分析工具常显乏力。当某知名基金经理在2023年因未能及时识别新能源板块的估值泡沫而遭遇滑铁卢时，一家名不见经传的量化团队却凭借AI智能体提前预警，成功规避了30%的回撤。我们正站在投资分析范式变革的临界点：股票分析智能体已成为机构与个人投资者的新一代“核武器”。本
我的人生因爱而生丁浓芳
我是阅读推广人丁浓芳，我的人生因爱而生！当李疯老师提到让我们讲好人生态度的故事，这让我想起，小学五年级时，看到了一部电影，叫《少年犯》，记得最深刻的就是那个高墙内的一群少年，像迷途羔羊失去了方向，但是因为有一位感化官，通过不懈的努力，让那些问题少年改邪归正，且一个个走上了阳光道。从那以后我就立志长大以后也要做一个感化官或者老师，去帮助更多的人健康成长！这个根一直在我心里没有变，虽然没有考上一个老师
【世家弃女，腹黑相公宠不停】温——书妍傅问舟txt在线阅读全文！妞妞爱读书1
温时宁出生那日，府上百花一夜凋零。因大师一句‘刑克双亲，祸及全家’，还在襁褓里的婴孩便被送到几百里之外的庄子上。整整十六年，无人问津。温时宁幼时不知刑克双亲是什么意思，日日吵闹着要出去玩，后来被看管的婆子打骂了无数次后，便懂了，也老实了。她是灾星，人人避之。除了奶娘一家。奶娘柳氏是温家在当地找的，喂养了她两年，便也结下了深厚的情义。平日里给婆子们一点好处，出入便也没人管。只是温时宁出不去。四方的宅
万字长文，解读大模型技术原理（非常详细）零基础入门到精通，收藏这一篇就够了
大模型是指具有大规模参数和复杂计算结构的机器学习模型。本文从大模型的发展历程出发，对大模型领域的各个技术细节进行详细解读，供大家在了解大模型基本知识的过程中起到一定参考作用。一、大模型的定义大语言模型作为一个被验证可行的方向，其“大”体现在训练数据集广，模型参数和层数大，计算量大，其价值体现在通用性上，并且有更好的泛化能力。这些模型通常由深度神经网络构建而成，拥有数十亿甚至数千亿个参数。大模型的设
私域流量运营工具：用户资产的核动力引擎
品牌方的三大致命困局1.用户画像的碎片化黑洞某母婴品牌因企微/小程序数据割裂，将防过敏奶粉推给健康婴儿，引发37%客户退群（毕马威2024报告）。标签混乱导致营销ROI跌破1：0.8，千万级用户池沦为数字废墟。2.内容分发的重复劳动炼狱某美妆团队在公众号/企微/抖音重复编辑内容，单条发布耗时53分钟（有赞白皮书）。跨平台数据不通导致爆款复用率不足15%，创作灵感消耗在机械劳作中。3.裂变增长的失控
绩效系统的技术重构：用工程思维解决公平性与效率难题花海如潮淹重构
绩效系统的技术重构：用工程思维解决公平性与效率难题当你的绩效模块成为团队吐槽的“祖传屎山”，背后往往是技术债的集中爆发。本文从开发者视角拆解：如何用系统设计解决评分公平性、数据孤岛与流程低效三大顽疾。一、技术人眼中的绩效痛点graphTDA[绩效系统技术债]-->B[评分公平性]A-->C[数据整合]A-->D[流程效率]B-->B1(“案例：销售精英因黑盒评分离职”)C-->C1(“手动合并40
教学后记可以这样写 GaoJie_
作者：三吉Empowerment作为教师，大家知道教学后记是教案的一个重要组成部分，是一节课后，教师对教学设计和实施进行的总结复盘。写教学后记，有利于提高教师的教学水平，也有利于找到教学的规律，还能够捕捉到新的灵感，让今后的教学更加有生命力。在英语教学15年的过程中，对于教学后记，从无到有，从0到1。接下来，我结合自己的积累，谈谈教学后记遵循的三点要求：1.及时：每次上完课后，写教学后记，趁热打铁
中医对疾病的诊断：杏林悟道_3ddc
现代中医对疾病的诊断,一问寒热二问汗，三问饮食四便，五问头身六胸腹，七聋八渴伹当辫，九问旧疾十间因，妇女须问经带产。问寒热。发热重怕冷轻为外感风热，发热轻，怕冷重为外感风寒，发热不怕冷，口渴，便秘，为实热症，久病低热，胸部手足发热（五心烦热）为阴虚发热，冷一阵，热一阵，为寒热往来，可能是疟疾（打摆子）。问汗。有汗发热为表虚，无汗（少汗）发热为表实，清醒时经常出汗为自汗，睡中出汗，醒后止汗为盗汗，属
心系教师情暖校园——云岩区教育局党委节日慰问因疫情滞留教师聆听镜看
9月9日，云岩区教育局党委书记、局长林晓凤率队前往贵阳市第三十中学、贵阳市三桥小学、中国人民大学附属小学贵阳共建学校等地看望慰问30余名近期奋战在防疫一线滞留的学校行政及一线教师，向他们送去暖心慰问和节日祝福。贵阳市第三十中学校长李文黔、主任莫照华说，非常时期，特殊关爱，局长亲自为因工作滞留的我们送来方便面，我们很感动。我们将继续发挥不怕苦、不怕累的优良作风，坚守岗位、恪尽职守，以对人民群众生命安
TensorFlow为AI人工智能航空航天领域带来变革 AI原生应用开发人工智能 tensorflow python ai
TensorFlow为AI人工智能航空航天领域带来变革关键词：TensorFlow、人工智能、航空航天、机器学习、深度学习、神经网络、自主系统摘要：本文探讨了TensorFlow这一强大的机器学习框架如何推动航空航天领域的创新。我们将从基础概念入手，逐步深入分析TensorFlow在航天器导航、卫星图像处理、飞行器自主决策等关键应用场景中的实现原理。通过实际代码示例和架构图解，展示TensorFl
多语言文本分类在AI应用中的实践 AI原生应用开发人工智能分类数据挖掘 ai
多语言文本分类在AI应用中的实践关键词：多语言文本分类、自然语言处理、机器学习、深度学习、BERT、迁移学习、跨语言模型摘要：本文深入探讨多语言文本分类在AI领域的应用实践。我们将从基础概念出发，逐步讲解其核心原理、技术架构和实现方法，并通过实际案例展示如何构建一个高效的多语言文本分类系统。文章将涵盖从传统机器学习方法到最先进的深度学习技术，特别关注跨语言迁移学习在实际业务场景中的应用。背景介绍目
从零开始构建AI原生应用的认知架构 AI原生应用开发 AI-native 架构 ai
从零开始构建AI原生应用的认知架构关键词：AI原生应用、认知架构、机器学习、知识图谱、神经网络、智能决策、系统设计摘要：本文深入探讨如何从零开始构建AI原生应用的认知架构。我们将从基本概念出发，逐步解析认知架构的核心组件，包括知识表示、推理机制和学习能力等。通过生动的比喻和实际代码示例，帮助读者理解如何设计一个能够模拟人类认知过程的AI系统。文章还将介绍当前最先进的认知架构模型，并展望未来发展趋势
内心强大朴实李
每一次打击都能令内心更强大：生活不可能总是一帆风顺，碰上那些似乎不堪忍受的事情时，如果我们能借此动心忍性，把心灵提升到一个全新的高度，将会出现什么奇迹呢？遇事沉稳，勿扰内心：曾经提到过周五收到水费收费单问题，当我收到需交500多元的水费时，内心直接火爆气氛，直接受影响的当然是情绪，脑子中一片空白，啥也做不进去了，幸亏下午上班后立即去自来水公司解决。可是因周末原因必须等到周一才能彻底解决。周末这两天
【CTF】青少年CTF擂台挑战赛 2024 #Round 1 部分WriteUp_青少年ctf训练平台追光者(1)
给大家的福利零基础入门对于从来没有接触过网络安全的同学，我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。同时每个成长路线对应的板块都有配套的视频提供：因篇幅有限，仅展示部分资料网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以点击这里获取一个人可以走的很
读懂易经读懂中华文化（72）明夷卦爻辞有庆也
明夷卦爻辞及小象传：初九，明夷于飞，垂其翼。君子于行，三日不食，有攸往，主人有言。象曰：君子于行，义不食也。六二，明夷，夷于左股，用拯马壮，吉。象曰：六二之吉，顺以则也。九三，明夷于南狩，得其大首，不可疾贞。象曰：南狩之志，乃大得也。六四，入于左腹，获明夷之心，出于门庭。象曰：入于左腹，获心意也。六五，箕子之明夷，利贞。象曰：箕子之贞，明不可息也。上六，不明晦，初登于天，后入于地。象曰：初登于天，
记忆最后三个月，妻子在外风花雪月(傅初雪江黎)已完结小说全集_记忆最后三个月，妻子在外风花雪月(傅初雪江黎)都市言情必读_记忆最后三个月，妻子在外风花雪月(傅初雪江黎) 神书阁
记忆最后三个月，妻子在外风花雪月(傅初雪江黎)已完结小说全集_记忆最后三个月，妻子在外风花雪月(傅初雪江黎)都市言情必读_记忆最后三个月，妻子在外风花雪月(傅初雪江黎)主角：傅初雪江黎简介：暗恋校花的第三年，我洒脱的放弃了，跟一直追在我身后的傅初雪结了婚。五年婚姻，我为她掏心掏肺，她却开始夜不归宿，直到我在她的电脑里发现一段视频。“我根本不爱江黎，追他不过是为了证明校花再漂亮也抢不过我，嫁他更是因
2020-11-12 e62bab6019e8
北京出境旅行社可以新注册吗申请注册条件:1、国际旅行社的保护金央求胜过120万元(备案资原胜过150万元)2、备案资原胜过或者即是30万元3、旅行社经管允许两年以上，未因侵略乘客正当权力而被行政机闭罚款、罚款的，质保金可减去一半4、三个导游老师5、法人、股东、监事的证明文献6、固定的操纵场所和需要的操纵办法7、旅行社需在游览社指定的账户中存入20万元，3年内可结清10万元，没有得违规北京新曙光企业
MaisonMargiela玛丽珍鞋怎么买便宜？玛丽珍鞋的推荐款式和品牌直返APP抖音优惠券
MaisonMargiela玛丽珍鞋，作为时尚界的一款经典单品，融合了品牌独特的审美与复古风情，备受时尚爱好者的青睐。以下是对这款鞋的详细介绍：一、品牌背景MaisonMargiela，中文名称为马丁·马吉拉时装屋，是一个源自比利时的时尚品牌，以其解构主义的设计风格和对细节的关注而闻名。品牌擅长将传统与现代、经典与创新相结合，创造出独具一格的时尚单品。二、玛丽珍鞋的设计理念MaisonMargie
《某某》台剧【1080p超清中字】全12集未删减完整版某某电视剧夸克百度云迅雷资源（下载链接）小小编007
《某某》是一部由柳广辉执导，改编自木苏里同名小说的台剧，讲述了两位高中生因父母再婚成为“兄弟”，并发展出一段深切感情的故事。剧集在多个平台播出，包括Netflix、iQIYI、WeTV等，自2024年8月22日起每周三、四更新，共12集。某某全集资源：(尽快保存，随时失效)https://pan.quark.cn/s/57cc92e93fcc复制链接到浏览器打开(资源完全免费,搜集于网络公开资源)
Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring 论文阅读钟屿论文阅读计算机视觉人工智能
用于动态场景去模糊的深度多尺度卷积神经网络摘要针对一般动态场景的非均匀盲去模糊是一个具有挑战性的计算机视觉问题，因为模糊不仅来源于多个物体运动，还来源于相机抖动和场景深度变化。为了去除这些复杂的运动模糊，传统的基于能量优化的方法依赖于简单的假设，例如模糊核是部分均匀或局部线性的。此外，最近的基于机器学习的方法也依赖于在这些假设下生成的合成模糊数据集。这使得传统的去模糊方法在模糊核难以近似或参数化的
基于Paillier同态加密算法的金融数据安全共享机制研究【附数据】
金融数据分析与建模专家金融科研助手|论文指导|模型构建✨专业领域：金融数据处理与分析量化交易策略研究金融风险建模投资组合优化金融预测模型开发深度学习在金融中的应用擅长工具：Python/R/MATLAB量化分析机器学习模型构建金融时间序列分析蒙特卡洛模拟风险度量模型金融论文指导内容：金融数据挖掘与处理量化策略开发与回测投资组合构建与优化金融风险评估模型期刊论文✅具体问题可以私信或查看文章底部二维码
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR

主动学习之Alipy包使用

Alipy包使用详解

引入

0.1 主动学习简介

0.2 主动学习示例

0.3 查询策略及评价

0.4 Alipy概述

1 高级封装

1.1 ToolBox

1.1.1 初始化ToolBox对象：

1.1.2 获取默认模型

1.1.3 划分数据

1.1.4 创建IndexCollection对象

1.1.5 获得Oracle或Repository 对象

1.1.6 获取State 或 StateIO 对象

1.1.7 获取预设查询策略对象

1.1.8 计算性能

1.1.9 获取停止标准

1.1.10 可视化实验结果

1.1.11 最终结果保存

1.2 智能实验

2 Alipy工具类

2.1 数据操作

你可能感兴趣的:(机器学习,机器学习,主动学习,Alipy,Smale,因吉)