Dean0Winchester

深度学习---多标签分类问题

补充：

（1）、Guide To Multi-Class Multi-Label Classification With Neural Networks In Python

（2）、多标签分类（multilabel classification ）

1、使用caffe训练一个多标签分类/回归模型

2、keras解决多标签分类问题

3、keras: multi-label神经网络

前沿

本篇记录一下自己项目中用到的keras相关的部分。由于本项目既有涉及multi-class（多类分类），也有涉及multi-label（多标记分类）的部分，multi-class分类网上已经很多相关的文章了。这里就说一说multi-label的搭建网络的部分。之后如果有时间的时候，再说一说cross validation（交叉验证）和在epoch的callback函数中处理一些多标签度量metric的问题。

multi-label多标记监督学习

其实我个人比较喜欢把label翻译为标签。那可能学术上翻译multi-label多翻译为多标记。其实和多标签一个意思。

multi-class 和 multi-label的区别

multi-class是相对于binary二分类来说的，意思是需要分类的东西不止有两个类别，可能是3个类别取一个（如iris分类），或者是10个类别取一个（如手写数字识别mnist）。

而multi-label是更加general的一种情况了，它说为什么一个sample的标签只能有1个呢。为什么一张图片不是猫就是狗呢？难道我不能训练一个人工智能，它能告诉我这张图片既有猫又有狗呢？

其实关于多标签学习的研究，已经有很多成果了。
主要解法是
* 不扩展基础分类器的本来算法，只通过转换原始问题来解决多标签问题。如BR， LP等。
* 扩展基础分类器的本来算法来适配多标签问题。如ML-kNN, BP-MLL等。
这里不展开了。有兴趣的同学可以自己去研究一下。

keras的multi-label

废话不多说，直接上代码。这里假设大家是有keras的基础知识的，所以关键代码之外的代码请大家自行脑补。

def __create_model(self):
    from keras.models import Sequential
    from keras.layers import Dense
    model = Sequential()
    print("create model. feature_dim = %s, label_dim = %s" % (self.feature_dim, self.label_dim))
    model.add(Dense(500, activation='relu', input_dim=self.feature_dim))
    model.add(Dense(100, activation='relu'))
    model.add(Dense(self.label_dim, activation='sigmoid'))
    model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
    return model

稍微解说一下：
* 整个网络是fully connected全连接网络。
* 网络结构是输入层=你的特征的维度
* 隐藏层是500*100，激励函数都是relu。隐藏层的节点数量和深度请根据自己的数量来自行调整，这里只是举例。
* 输出层是你的label的维度。使用sigmoid作为激励，使输出值介于0-1之间。
* 训练数据的label请用0和1的向量来表示。0代表这条数据没有这个位的label，1代表这条数据有这个位的label。假设3个label的向量[天空,人,大海]的向量值是[1,1,0]的编码的意思是这张图片有天空，有人，但是没有大海。
* 使用binary_crossentropy来进行损失函数的评价，从而在训练过程中不断降低交叉商。实际变相的使1的label的节点的输出值更靠近1，0的label的节点的输出值更靠近0。

结语

有了这个结构，就可以run起来一个multi label的神经网络了。这个只是基础中的基础，关于multi-label的度量代码才是我们研究一个机器学习问题的核心。

4、解决多标签分类问题(包括案例研究)

一、

由于某些原因，回归和分类问题总会引起机器学习领域的大部分关注。多标签分类在数据科学中是一个比较令人头疼的问题。在这篇文章中，我将给你一个直观的解释，说明什么是多标签分类，以及如何解决这个问题。

1.多标签分类是什么?

让我们来看看下面的图片。

如果我问你这幅图中有一栋房子，你会怎样回答? 选项为“Yes”或“No”。

或者这样问，所有的东西(或标签)与这幅图有什么关系?

在这些类型的问题中，我们有一组目标变量，被称为多标签分类问题。那么，这两种情况有什么不同吗? 很明显，有很大的不同，因为在第二种情况下，任何图像都可能包含不同图像的多个不同的标签。

但在深入讲解多标签之前，我想解释一下它与多分类问题有何不同，让我们试着去理解这两组问题的不同之处。

2.多标签vs多分类

用一个例子来理解这两者之间的区别。

对于任何一部电影，电影的中央委员会会根据电影的内容颁发证书。例如，如果你看上面的图片，这部电影被评为“UA”(意思是“12岁以下儿童需在父母陪同下观看”)。还有其他类型的证书类，如“A”(仅限于成人)或“U”(不受限制的公开放映)，但可以肯定的是，每部电影只能在这三种类型的证书中进行分类。简而言之，有多个类别，但每个实例只分配一个，因此这些问题被称为多类分类问题。

同时，你回顾一下这张图片，这部电影被归类为喜剧和浪漫类型。但不同的是，这一次，每部电影都有可能被分成一个或多个不同的类别。

所以每个实例都可以使用多个类别进行分配。因此，这些类型的问题被称为多标签分类问题。

现在你应该可以区分多标签和多分类问题了。那么，让我们开始处理多标签这种类型的问题。

3.加载和生成多标签数据集

Scikit-learn提供了一个独立的库scikit-multilearn，用于多种标签分类。为了更好的理解，让我们开始在一个多标签的数据集上进行练习。scikit-multilearn库地址：http://scikit.ml/api/datasets.html

你可以从MULAN package提供的存储库中找到实际的数据集。这些数据集以ARFF格式呈现。存储库地址：http://mulan.sourceforge.net/datasets-mlc.html

因此，为了开始使用这些数据集，请查看下面的Python代码，将其加载到你的计算机上。在这里，我已经从存储库中下载了酵母（yeast）数据集。

import scipy
from scipy.io import arff
data, meta = scipy.io.arff.loadarff('/Users/shubhamjain/Documents/yeast/yeast-train.arff')
df = pd.DataFrame(data)

这就是数据集的样子。

在这里，Att表示属性或独立变量，class表示目标变量。

出于实践目的，我们有另一个选项来生成一个人工的多标签数据集。

from sklearn.datasets import make_multilabel_classification

# this will generate a random multi-label dataset
X, y = make_multilabel_classification(sparse = True, n_labels = 20,
return_indicator = 'sparse', allow_unlabeled = False)

让我们了解一下上面所使用的参数。

sparse（稀疏）:如果是True，返回一个稀疏矩阵，稀疏矩阵表示一个有大量零元素的矩阵。

n_labels:每个实例的标签的平均数量。

return_indicator:“sparse”在稀疏的二进制指示器格式中返回Y。

allow_unlabeled:如果是True，有些实例可能不属于任何类。

你一定会注意到，我们到处都使用了稀疏矩阵，而scikit-multilearn也建议使用稀疏格式的数据，因为在实际数据集中非常罕见。一般来说，分配给每个实例的标签的数量要少得多。

好了，现在我们已经准备好了数据集，让我们快速学习解决多标签问题的技术。

4.解决多标签分类问题的技术

基本上，有三种方法来解决一个多标签分类问题，即:

问题转换
改编算法
集成方法

4.1问题转换

在这个方法中，我们将尝试把多标签问题转换为单标签问题。这种方法可以用三种不同的方式进行:

二元关联（Binary Relevance）
分类器链（Classifier Chains）
标签Powerset（Label Powerset）

4.4.1二元关联（Binary Relevance）

这是最简单的技术，它基本上把每个标签当作单独的一个类分类问题。例如，让我们考虑如下所示的一个案例。我们有这样的数据集，X是独立的特征，Y是目标变量。

在二元关联中，这个问题被分解成4个不同的类分类问题，如下图所示。

我们不需要手动操作，multi-learn库在python中提供了它的实现。那么，让我们看看它在随机生成的数据上的实现。

# using binary relevance
from skmultilearn.problem_transform import BinaryRelevance
from sklearn.naive_bayes import GaussianNB

# initialize binary relevance multi-label classifier
# with a gaussian naive bayes base classifier
classifier = BinaryRelevance(GaussianNB())

# train
classifier.fit(X_train, y_train)

# predict
predictions = classifier.predict(X_test)

注意:在这里，我们使用了Naive Bayes的算法，你也可以使用任何其他的分类算法。

现在，在一个多标签分类问题中，我们不能简单地用我们的标准来计算我们的预测的准确性。所以，我们将使用accuracy score。这个函数计算子集的精度，这意味着预测的标签集应该与真正的标签集完全匹配。

那么，让我们计算一下预测的准确性。

from sklearn.metrics import accuracy_score
accuracy_score(y_test,predictions)

0.45454545454545453

我们的准确率达到了45%，还不算太糟。它是最简单和有效的方法，但是这种方法的惟一缺点是它不考虑标签的相关性，因为它单独处理每个目标变量。

4.1.2分类器链（Classifier Chains）

在这种情况下，第一个分类器只在输入数据上进行训练，然后每个分类器都在输入空间和链上的所有之前的分类器上进行训练。
让我们试着通过一个例子来理解这个问题。在下面给出的数据集里，我们将X作为输入空间，而Y作为标签。

在分类器链中，这个问题将被转换成4个不同的标签问题，就像下面所示。黄色部分是输入空间，白色部分代表目标变量。

这与二元关联非常相似，唯一的区别在于它是为了保持标签相关性而形成的。那么，让我们尝试使用multi-learn库来实现它。

# using classifier chains
from skmultilearn.problem_transform import ClassifierChain
from sklearn.naive_bayes import GaussianNB

# initialize classifier chains multi-label classifier
# with a gaussian naive bayes base classifier
classifier = ClassifierChain(GaussianNB())

# train
classifier.fit(X_train, y_train)

# predict
predictions = classifier.predict(X_test)

accuracy_score(y_test,predictions)

0.21212121212121213

我们可以看到，使用这个我们得到了21%的准确率，这比二元关联要低得多。可能是因为没有标签相关性，因为我们已经随机生成了数据。

4.1.3标签Powerset（Label Powerset）

在这方面，我们将问题转化为一个多类问题，一个多类分类器在训练数据中发现的所有唯一的标签组合上被训练。让我们通过一个例子来理解它。

在这一点上，我们发现x1和x4有相同的标签。同样的，x3和x6有相同的标签。因此，标签powerset将这个问题转换为一个单一的多类问题，如下所示。

因此，标签powerset给训练集中的每一个可能的标签组合提供了一个独特的类。让我们看看它在Python中的实现。

# using Label Powerset
from skmultilearn.problem_transform import LabelPowerset
from sklearn.naive_bayes import GaussianNB

# initialize Label Powerset multi-label classifier
# with a gaussian naive bayes base classifier
classifier = LabelPowerset(GaussianNB())

# train
classifier.fit(X_train, y_train)

# predict
predictions = classifier.predict(X_test)

accuracy_score(y_test,predictions)

0.5757575757575758

这使我们在之前讨论过的三个问题中得到了最高的准确性，57%。唯一的缺点是随着训练数据的增加，类的数量也会增加。因此，增加了模型的复杂性，并降低了精确度。

现在，让我们看一下解决多标签分类问题的第二种方法。

4.2改编算法

改编算法来直接执行多标签分类，而不是将问题转化为不同的问题子集。例如，kNN的多标签版本是由MLkNN表示的。那么，让我们快速地在我们的随机生成的数据集上实现这个。

from skmultilearn.adapt import MLkNN

classifier = MLkNN(k=20)

# train
classifier.fit(X_train, y_train)

# predict
predictions = classifier.predict(X_test)

accuracy_score(y_test,predictions)

0.69

很好，你的测试数据已经达到了69%的准确率。

在一些算法中，例如随机森林（Random Forest）和岭回归（Ridge regression），Sci-kit learn提供了多标签分类的内置支持。因此，你可以直接调用它们并预测输出。

如果你想了解更多关于其他类型的改编算法，你可以查看multi-learn库。地址：http://scikit.ml/api/api/skmultilearn.adapt.html#module-skmultilearn.adapt

4.3集成方法

集成总是能产生更好的效果。Scikit-Multilearn库提供不同的组合分类功能，你可以使用它来获得更好的结果。

对于直接实现，你可以查看：http://scikit.ml/api/classify.html#ensemble-approaches

5.案例研究

在现实世界中，多标签分类问题非常普遍。所以，来看看我们能在哪些领域找到它们。

5.1音频分类

我们知道歌曲会被分类为不同的流派。他们也被分类为，如“放松的平静”，或“悲伤的孤独”等等情感或情绪的基础。

来源：http://lpis.csd.auth.gr/publications/tsoumakas-ismir08.pdf

5.2图像分类

使用图像的多标签分类也有广泛的应用。图像可以被标记为不同的对象、人或概念。

5.3生物信息学

多标签分类在生物信息学领域有很多用途，例如，在酵母数据集中的基因分类。它还被用来使用几个未标记的蛋白质来预测蛋白质的多重功能。

5.4文本分类

谷歌新闻所做的是，将每条新闻都标记为一个或多个类别，这样它就会显示在不同的类别之下。
例如，看看下面的图片。

图片来源：https://news.google.com/news/headlines/section/topic/TECHNOLOGY.en_in/Technology?ned=in&hl=en-IN

同样的新闻出现在“Technology”,“Latest” 等类别中，因为它已经被分类为不同的标签。从而使其成为一个多标签分类问题。

二、

多标记分类和传统的分类问题相比较，主要难点在于以下两个方面：

(1)类标数量不确定，有些样本可能只有一个类标，有些样本的类标可能高达几十甚至上百个。

(2)类标之间相互依赖，例如包含蓝天类标的样本很大概率上包含白云，如何解决类标之间的依赖性问题也是一大难点。

对于多标记学习领域的研究，国外起步较早，起源于2000年Schapire R E等人提出的基于boost方法的文本多分类，著名的学者有G Tsoumakas、Eyke Hüllermeier、Jesse Read，Saso Dzeroski等等。在国内，南京大学的周志华和张敏灵和哈工大的叶允明等等学者在这一领域较都有很好研究成果。

目前有很多关于多标签的学习算法，依据解决问题的角度，这些算法可以分为两大类：一是基于问题转化（Problem Transformation）的方法，二是基于算法适应的方法和算法适应方法（Algorithm Adaptation）。基于问题转化的多标记分类是转化问题数据，使之适用现有算法；基于算法适应的方法是指针对某一特定的算法进行扩展，从而能够直接处理多标记数据，改进算法，适应数据。基于这两种思想，目前已经有多种相对成熟的算法被提出，如下图所示：

问题转化方法（Problem Transformation）：该类方法的基本思想是通过对多标记训练样本进行处理，将多标记学习问题转换为其它已知的学习问题进行求解。代表性学习算法LP[[1]]，Binary Relevance[[2]]，Calibrated Label Ranking[[3]]， Random k-labelsets[[4]]。总体来说，这类方法有考虑类标之间的联系，但是对于类标较多、数据量较大的数据集，这类方法的计算复杂度是一个很明显的缺陷。

算法适应方法与问题转化方法不同，问题转化方法是将多标记问题转化成一个或者多个单类标问题，算法适应方法是在多标记的基础上研究算法。近年来，用于多标记的算法适应的算法越来越多，代表性学习算法ML-kNN[[5]]，Rank-SVM[[6]]，LEAD[[7]]，CML。

对于分类策略，基于考察标记之间相关性的不同方式，已有的多标记学习算法的策略思路大致可以分为以下三类[[8]]：

a) “一阶（first-order）”策略：该类策略通过逐一考察单个标记而忽略标记之间的相关性，如将多标记学习问题分解为个独立的二类分类问题，从而构造多标记学习系统。该类方法效率较高且实现简单，但由于其完全忽略标记之间可能存在的相关性，其系统的泛化性能往往较低。

b) “二阶（second-order）”策略：该类策略通过考察两两标记之间的相关性，如相关标记与无关标记之间的排序关系，两两标记之间的交互关系等等，从而构造多标记学习系统。该类方法由于在一定程度上考察了标记之间的相关性，因此其系统泛化性能较优。

c) “高阶（high-order）”策略：该类策略通过考察高阶的标记相关性，如处理任一标记对其它所有标记的影响，处理一组随机标记集合的相关性等等，从而构造多标记学习系统。该类方法虽然可以较好地反映真实世界问题的标记相关性，但其模型复杂度往往过高，难以处理大规模学习问题。

[[1]] Madjarov G, Kocev D, Gjorgjevikj D, et al. An extensive experimental comparison of methods for multi-label learning[J]. Pattern Recognition, 2012, 45(9): 3084-3104.

[[2]] Boutell M R, Luo J, Shen X, Brown C M. Learning multi-label scene classification. Pattern Recognition, 2004, 37(9): 1757-1771.

[[3]] Fürnkranz J, Hüllermeier E, Loza Mencía E, Brinker K. Multilabel classification via calibrated label ranking. Machine Learning, 2008, 73(2): 133-153.

[[4]] Tsoumakas G, Vlahavas I. Random k-labelsets: An ensemble method for multilabel classification. In: Kok J N, Koronacki J, de Mantaras R L, Matwin S, Mladenič D, Skowron A, eds. Lecture Notes in Artificial Intelligence 4701, Berlin: Springer, 2007, 406-417.

[[5]] Zhang M-L, Zhou Z-H. ML-kNN: A lazy learning approach to multi-label learning. Pattern Recognition, 2007, 40(7): 2038-2048.

[[6]] Elisseeff A, Weston J. A kernel method for multi-labelled classification. In: Dietterich T G, Becker S, Ghahramani Z, eds. Advances in Neural Information Processing Systems 14 (NIPS’01), Cambridge, MA: MIT Press, 2002, 681-687.

[[7]] Zhang M-L, Zhang K. Multi-label learning by exploiting label dependency. In: Pro ceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’10), Washington, D. C., 2010, 999-1007.

[[8]] Zhang M L, Zhang K. Multi-label learning by exploiting label dependency[C]// ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2010:999-1008.

最新1区9+非肿瘤纯生信，逻辑清晰易懂，机器学习筛选关键基因的纯生信也可以发高水平期刊，抓紧上车！生信小课堂
影响因子：9.186关于非肿瘤生信，我们也解读过很多，主要有以下类型1单个疾病WGCNA+PPI分析筛选hub基因2单个疾病结合免疫浸润，热点基因集，机器学习算法等。3两种相关疾病联合分析，包括非肿瘤结合非肿瘤，非肿瘤结合肿瘤或者非肿瘤结合泛癌分析4基于分型的非肿瘤生信分析5单细胞结合普通转录组生信分析目前非肿瘤生信发文的门槛较低，欢迎大家！研究概述：本研究首先使用R语言在三个基因表达数据集中找到
人人皆有神功：AI如何改变程序员的江湖地位？ nbsaas-boot 人工智能大数据
在人类的历史中，每一次技术革命都重新洗牌了社会的力量结构：工业革命带来机器力量的爆发，信息时代成就了程序员的黄金时代。而如今，随着通用人工智能（AGI）和大模型技术的突飞猛进，我们正在步入一个**“人人皆有神功”的AI江湖时代**。当AI成为每个人的智能助手，编程是否还重要？程序员将何去何从？本文将以“武林江湖”的隐喻，探索AI时代的技术平权与社会重构。一、技术平权真的来了吗？过去，程序员之所以被
CPO：对比偏好优化—突破大型语言模型在机器翻译中的性能边界 AI专题精讲强化学习人工智能强化学习 AI技术应用
温馨提示：本篇文章已同步至"AI专题精讲"CPO：对比偏好优化—突破大型语言模型在机器翻译中的性能边界摘要中等规模的大型语言模型（LLMs），如参数量为7B或13B的模型，在机器翻译（MT）任务中展现出良好性能。然而，它们仍未能达到最先进的传统编码器-解码器翻译模型，或是如GPT-4（OpenAI,2023）等更大规模LLM的表现。在本研究中，我们致力于弥合这一性能差距。我们首先评估了在机器翻译任
大型语言模型的智能本质是什么 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力语言模型人工智能自然语言处理
大型语言模型的智能本质是什么基于海量数据的统计模式识别与生成系统，数据驱动的语言模拟系统，其价值在于高效处理文本任务（如写作、翻译、代码生成），而非真正的理解与创造大型语言模型（如GPT-4、Claude等）的智能本质可概括为基于海量数据的统计模式识别与生成系统，其核心能力源于对语言规律的深度学习，但缺乏真正的理解与意识。以下从本质特征、技术机制、典型案例及争议点展开分析：一、智能本质的核心特征统
C++ 固有的不可移植特性
为了支持底层编程，C++定义了一些固有的不可移植的特性，即因机器而异的特性，当将含有不可移植特性的程序从一台机器转移到另一台机器上时，通常需要重新编写该程序。1位域类可以将其非静态数据成员定义成位域，在一个位域中含有一定数量的二进制位。当一个程序需要向其他程序或硬件设备传递二进制数据时，通常会用到位域。位域在内存中的布局是与机器相关的且位域的类型必须是整型或枚举类型。typedefunsi
AI 浪潮下的锚与帆：工程师文化的变与不变 | 架构师夜生活腾讯云开发者人工智能
目录：一、那些让程序员焦虑的"假消息"二、我们理解的工程师文化三、AI到底改变了什么四、程序员需要学什么新技能五、80后程序员vs00后程序员六、最好的时代永远在前方引言公司食堂里，一个产品经理和一个程序员正在讨论一个让行业都焦虑的话题："AI来了，你们程序员还有什么用？我直接对着机器说需求，它就能给我做出来，我还要你干嘛？你还要给我排期！"产品经理显得有些得意。"你对它说的话它听得懂吗？它生成的
深度学习超参数优化（HPO）终极指南：从入门到前沿
摘要：在深度学习的实践中，模型性能的好坏不仅取决于算法和数据，更在一半程度上取决于超参数的精妙设置。本文是一篇关于超参数优化（HyperparameterOptimization,HPO）的综合性指南，旨在带领读者从最基础的概念出发，系统性地梳理从经典到前沿的各类优化方法，并最终落地于实用策略和现代工具。无论您是初学者还是资深从业者，都能从中获得宝贵的见解。第一部分：夯实基础——HPO的核心概念1
# 检测 COM 服务器在线状态胡八一、报错解决服务器 qt 运维
适用场景OPCDA／OPCAE等基于DCOM的工业软件巡检自动化部署脚本中批量验证远程COM组件是否可用Windows服务开机自检1.背景在工业控制与运维场景下，我们经常需要判断某台机器上的COM/DCOM服务器（例如OPCServer）是否存活，并在掉线时及时告警或自动重连。.NET自带的System.Type.GetTypeFromProgID/Activator.CreateInstance
Ansible：强大的自动部署工具
文章目录零、Ansible介绍一、安装ansible二、配置SSH密钥1.检查密钥是否存在2.两边的机器要互相有对方的密钥三、自动部署1.传输文件(1)inventory.ini(2)sync_blt.yml(3)执行命令2.安装软件(1)inventory.ini(2)install_efvs.yml(3)执行命令零、Ansible介绍Ansible是一个开源、易于使用的功能强大的IT自动化工具
深入TA-Lib：量化技术指标详解
深入TA-Lib：量化技术指标详解本文系统讲解TA-Lib技术指标分析，涵盖基础、数据处理、趋势与动量指标、均量线、布林线等，并结合Python代码与大数据、机器学习实战案例，助力读者掌握量化交易实战技巧。本文系统梳理了TA-Lib技术指标分析的核心内容，包括TA-Lib基础、数据处理、趋势与动量指标、均量线、布林线等关键技术指标分析方法，并结合Python代码示例与大数据、机器学习的融合实战案例
天文图像处理：星系分类与天体定位 xcLeigh 计算机视觉CV 图像处理分类人工智能 AI 计算机视觉
天文图像处理：星系分类与天体定位一、前言二、天文图像处理基础2.1天文图像的获取2.2天文图像的格式2.3天文图像处理的基本流程三、天文图像预处理3.1去噪处理3.2平场校正3.3偏置校正四、星系分类4.1星系的分类体系4.2基于特征提取的星系分类方法4.3基于深度学习的星系分类方法五、天体定位5.1天体坐标系统5.2基于星图匹配的天体定位方法5.3基于深度学习的天体定位方法六、总结与展望致读者一
深度学习——CNN（3）飘涯
前言：前面介绍了最基本的Lenet，下面介绍几种其他的网络结构CNN-AlexNet网络结构如下图：从图中可以看出，采用双gpu训练增加LRN归一化层：本质上，这个层也是为了防止激活函数的饱和的。采用dropout防止过拟合基于AlexNet进行微调，诞生了ZF-netCNN-GoogleNetGoogLeNet借鉴了NIN的特性，在原先的卷积过程中附加了11的卷积核加上ReLU激活。这不仅仅提升
AI 人工智能与 Copilot 的融合发展策略 AI天才研究院 AI人工智能与大数据人工智能 copilot ai
AI人工智能与Copilot的融合发展策略关键词：人工智能、Copilot、代码生成、人机协作、机器学习、自然语言处理、软件开发摘要：本文探讨了人工智能与Copilot技术的融合发展策略。我们将从技术原理、实现方法、应用场景等多个维度深入分析，提出一套完整的融合框架和发展路径。文章首先介绍背景和核心概念，然后详细讲解关键技术，包括自然语言处理、代码生成算法等，接着通过实际案例展示应用效果，最后讨论
抖音优惠券返利app哪个好?抖音返利机器人古楼
哎呀呀，抖音上的小伙伴们，你们是不是经常在抖音上看到一些优惠券和返利活动呀？告诉你们一个小秘密，抖音上真的有返利app哦！那么，哪个抖音优惠券返利app最好用呢？让我来给你们揭秘一下！【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。高省
#Datawhale组队学习#7月-强化学习Task1 fzyz123 Datawhale组队学习强化学习人工智能 AI
这里是Datawhale组织的组队学习《强化学习入门202507》，Datawhale是一个开源的社区。第一章绪论1.1为什么要学习强化学习？强化学习（ReinforcementLearning,RL）是机器学习中专注于智能体（Agent）如何通过与环境交互学习最优决策策略的分支。与监督学习依赖静态数据集、无监督学习聚焦数据内在结构不同，强化学习的核心在于序贯决策：智能体通过试错探索环境，根据行动
微算法科技技术突破：用于前馈神经网络的量子算法技术助力神经网络变革 MicroTech2025 量子计算算法神经网络
随着量子计算和机器学习的迅猛发展，企业界正逐步迈向融合这两大领域的新时代。在这一背景下，微算法科技（NASDAQ:MLGO）成功研发出一套用于前馈神经网络的量子算法，突破了传统神经网络在训练和评估中的性能瓶颈。这一创新性的量子算法以经典的前馈和反向传播算法为基础，借助量子计算的强大算力，极大提升了网络训练和评估效率，并带来了对过拟合的天然抗性。前馈神经网络是深度学习的核心架构，广泛应用于图像分类、
图机器学习（13）——图相似性检测
图机器学习（13）——图相似性检测0.前言1.基于图嵌入的方法2.基于图核的方法3.基于GNN的方法4.应用0.前言图机器学习(machinelearning,ML)方法能广泛应用于各类任务，其应用场景涵盖从药物设计到社交网络推荐系统等多个领域。值得注意的是，由于这类方法在设计上具有通用性，同一算法可用于解决不同问题。学习图之间相似性的定量度量是一个关键问题。事实上，这是网络分析的重要步骤，同时也
Mac 下 python 安装 virtualenv 出错 stay_f_h
如果是安装了anaconda的机器，直接用pipinstallvirtualenv可能会由于版本的问题出错，建议使用sudocondainstallvirtualenv安装。
A*算法详解
A*算法详解一、A*算法基础概念1.1算法定位1.2核心评估函数1.3关键数据结构二、A*算法的核心步骤三、启发函数设计3.1网格地图中的启发函数3.2启发函数的选择原则三、Java代码实现四、启发函数的设计与优化4.1启发函数的可采纳性4.2启发函数的效率影响4.3常见启发函数对比五、A*算法的应用场景与拓展5.1典型应用5.2算法拓展六、A*算法的优缺点优点缺点从游戏中的角色寻路到机器人导航，
vLLM快速入门：开启高效推理与部署之旅
在如今这个人工智能飞速发展的时代，语言模型的应用已经深入到我们生活的方方面面，从智能聊天机器人到文本生成工具，都离不开强大的语言模型技术支持。而vLLM作为一个专注于高效推理和部署的开源项目，正在为研究人员和开发人员提供一种全新的解决方案，让语言模型的使用变得更加便捷、高效。初识vLLM：背景与意义vLLM（VeryLargeLanguageModelInference）是一个专注于大型语言模型推
英伟达Triton 推理服务详解 leo0308 基础知识机器人 Triton 人工智能
1.TritonInferenceServer简介TritonInferenceServer（简称Triton，原名NVIDIATensorRTInferenceServer）是英伟达推出的一个开源、高性能的推理服务器，专为AI模型的部署和推理服务而设计。它支持多种深度学习框架和硬件平台，能够帮助开发者和企业高效地将AI模型部署到生产环境中。Triton主要用于模型推理服务化，即将训练好的模型通过
Java 大视界 -- Java 大数据机器学习模型在金融市场情绪指数构建与投资决策支持中的应用（339）青云交大数据新视界 Java 大视界 java 大数据机器学习金融情绪指数投资决策量化策略情绪分析
Java大视界--Java大数据机器学习模型在金融市场情绪指数构建与投资决策支持中的应用（339）引言：正文：一、Java构建的金融市场情绪数据采集与预处理体系1.1多源异构数据接入引擎1.2数据采集延迟测试报告1.3情绪数据预处理管道二、Java驱动的金融市场情绪指数构建模型2.1多维度情绪指数计算框架2.2情绪指数与投资决策的映射模型三、Java在金融投资决策支持中的实战应用3.1量化私募情绪
Java NLP炼金术：从词袋到深度学习，构建AI时代的语言魔方墨夶 Java学习资料人工智能 java 自然语言处理
一、JavaNLP的“三剑客”：框架与工具链1.1ApacheOpenNLP：传统NLP的“瑞士军刀”目标：用词袋模型实现文本分类与实体识别代码实战：文档分类器的“炼成术”//OpenNLP文档分类器（基于词袋模型）importopennlp.tools.doccat.*;importopennlp.tools.util.*;publicclassDocumentClassifier{//训练模型
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
C++ 设计模式：抽象工厂（Abstract Factory）冀晓武 C++设计模式 c++设计模式抽象工厂模式
链接：C++设计模式链接：C++设计模式-工厂方法链接：C++设计模式-原型模式链接：C++设计模式-建造者模式抽象工厂（AbstractFactory）是一种创建型设计模式，它提供一个接口，用于创建一系列相关或相互依赖的对象，而无需指定它们的具体类。抽象工厂模式通常用于创建一组相关的产品对象，例如不同类型的机器人和它们的配件。1.问题分析在某些情况下，我们需要创建一组相关或相互依赖的对象，但我们
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要