xuchaoxin1375

ML@sklearn@分类问题和基本概念@二进制编码预处理

文章目录

分类问题
- - classifier和estimator
- 不同类型的分类问题的比较
- 基本术语和概念
- - samples
  - targets
  - outputs( output variable )
- Target Types
- - type_of_target函数
  - - demos
    - - multiclass-multioutput
      - continuous-multioutput
      - mulitlabel-indicator vs multiclass-multioutput
  - 数量名词
  - - n_features
    - n_outputs
    - n_samples
    - n_targets
  - binary
  - multi-output multi-class
  - multi-label
  - multi-output
  - 多标签@多类别@多输出的例子
  - label indicator matrix@One-Hot@1-of-k编码
  - 其他
- api源码查看
- sklearn processing
- - one-vs-all
- 特征二元化(独热编码)
- - OneHotEncoder
- 标签进行二元化
- - LabelBinarizer
  - LabelBinarizer模块的一些重要特点和用法
  - methods
  - - 二进制矩阵
  - fit(y)
  - - binary
    - multiclass
    - multilabel-indicator
  - transform(y)
  - fit_transform(y)
  - demos
  - inverse_transform

分类问题

分类问题是机器学习中的一种重要问题，其目标是将数据分为不同的类别或标签。在分类问题中，我们需要使用一些已知类别的训练数据来训练分类模型，然后用该模型对未知数据进行分类预测。
分类问题可以分为两类：单标签分类问题和多标签分类问题。在单标签分类问题中，每个样本只有一个标签，需要将其分为两个或多个类别；而在多标签分类问题中，每个样本可以属于多个类别，需要同时预测多个标签。
在分类问题中，我们通常使用监督学习算法，如决策树、逻辑回归、支持向量机、神经网络等来进行建模和预测。在建模过程中，我们需要选择合适的特征和模型，使用训练数据来拟合模型，并使用评估指标（如准确率、召回率、精确率、F1得分等）来评估模型的性能。
分类问题在实际应用中具有广泛的应用，如文本分类、图像分类、音频分类、信用评级等。

classifier和estimator

在机器学习中，分类器（classifier）和估计器（estimator）都是指用于构建模型的算法或类。它们的主要区别在于，分类器是一种用于分类任务的算法或类，而估计器则是一种用于预测任务的算法或类。
具体来说，分类器用于将样本分到不同的类别中，例如二元分类、多类分类、多标签分类等。常见的分类器包括朴素贝叶斯、决策树、支持向量机、随机森林等。
而估计器则用于预测数值型的目标变量，例如线性回归、岭回归、K近邻回归等。估计器可以用于回归任务、聚类任务、降维任务等。
需要注意的是，Scikit-learn中的估计器（estimator）是一个更广泛的概念，它包括了分类器、回归器、聚类器、降维器等不同类型的算法或类。

不同类型的分类问题的比较

A classifier supports modeling some of binary, multiclass, multilabel, or multiclass multioutput targets. Within scikit-learn, all classifiers support multi-class classification, defaulting to using a one-vs-rest strategy over the binary classification problem.
一个分类器可以支持建模一些二元分类（binary）、多类分类（multiclass）、多标签分类（multilabel）或者多输出多类分类（multiclass multioutput）的目标数据。在scikit-learn中，所有的分类器都支持多类别分类（multi-class classification），默认使用一对多（one-vs-rest）策略来解决二元分类问题。

基本术语和概念

Glossary of Common Terms and API Elements — scikit-learn 1.2.2 documentation
通用术语表和API元素-scikit-learn中文社区

samples

We usually use this term as a noun to indicate a single feature vector.
- Elsewhere a sample is called an instance, data point, or observation.
n_samples indicates the number of samples in a dataset, being the number of rows in a data array X.
在机器学习中，我们通常将“samples”这个术语用作名词，表示单个特征向量。
- 在其他地方，样本也被称为实例、数据点或观察。
n_samples表示数据集中样本的数量，即数据数组X中的行数。

targets

The dependent variable in supervised (and semisupervised) learning, passed as y to an estimator’s fit method.
Also known as:
- dependent variable,
- outcome variable,
- response variable,
- ground truth ,
- label.
Scikit-learn works with targets that have minimal structure: a class from a finite set, a finite real-valued number, multiple classes, or multiple numbers. See Target Types.
在监督学习（和半监督学习）中，目标变量是传递给估计器的“fit”方法的y参数，表示依赖变量。目标变量也被称为因变量、结果变量、响应变量、实际值或标签。
Scikit-learn与具有最小结构的目标变量一起工作：来自有限集的类别、有限的实数值、多个类别或多个数字。请参见目标类型（Target Types）。
举个例子，假设我们有一个数据集，其中每个样本都有一组特征，例如一些数值或文本，以及一个目标变量，如商品的价格。在这种情况下，我们将价格视为目标变量，并将其作为y传递给监督学习算法的拟合方法。算法将使用特征来预测价格，并将这些预测与实际价格进行比较，以评估算法的性能。在这里，价格是我们的响应变量/目标变量/基本事实/标签。

outputs( output variable )

Individual scalar/categorical variables per sample in the target.
For example, in multilabel classification each possible label corresponds to a binary output.
Also called responses, tasks or targets. See multiclass multioutput and continuous multioutput.
例如，在多标签分类中，每个可能的标签对应一个二进制输出。
- 假设我们有一个数据集，其中每个样本可以被分为多个类别。例如，一篇文章可能属于多个主题，如科技、体育和政治等。在这种情况下，我们可以将每个主题视为一个二元分类问题，其中每个主题都是一个二元输出变量，如果该文章属于该主题，则对应的变量为1，否则为0。
- 我们可以将这些二元变量放在一个矩阵中，每行对应一个样本，每列对应一个主题，这就是多标签指示矩阵。在这里，每个单独的标签都是目标中的一个标量/分类变量，每个样本都有自己的一组这些变量作为响应/任务/目标。
这些变量也被称为响应、任务或目标。请参见多类多输出和连续多输出。

Target Types

target types|document
注意类型兼容

type_of_target函数

sklearn.utils.multiclass.type_of_target — scikit-learn documentation
- Determine the type of data indicated by the target. Note that this type is the most specific type that can be inferred. For example: binary is more specific but compatible with multiclass. multiclass of integers is more specific but compatible with continuous. multilabel-indicator is more specific but compatible with multiclass-multioutput.
确定目标指示的数据类型。需要注意的是，这个类型是可以推断出的最具体的类型。
- 例如：二元类型更具体，但与多类类型兼容。整数的多类类型更具体，但与连续类型兼容。多标签类型更具体，但与多类多输出类型兼容。
target_typestr,One of:
- ‘continuous’: y is an array-like of floats that are not all integers, and is 1d or a column vector.
- ‘continuous-multioutput’: y is a 2d array of floats that are not all integers, and both dimensions are of size > 1.
- ‘binary’: y contains <= 2 discrete values and is 1d or a column vector.
- ‘multiclass’: y contains more than two discrete values, is not a sequence of sequences, and is 1d or a column vector.
- ‘multiclass-multioutput’: y is a 2d array that contains more than two discrete values, is not a sequence of sequences, and both dimensions are of size > 1.
- ‘multilabel-indicator’: y is a label indicator matrix, an array of two dimensions with at least two columns, and at most 2 unique values.
- ‘unknown’: y is array-like but none of the above, such as a 3d array, sequence of sequences, or an array of non-sequence objects.
target_typestr是用于描述目标数据类型的字符串，包括以下七种类型：

‘continuous’：y是一个浮点数数组，不全是整数，可以是1维数组或列向量。

‘continuous-multioutput’：Y 是一个2d 浮点数组，它不全是整数，而且两个维度的大小都大于1

‘binary’：y包含<=2个离散值，可以是1维数组或列向量。

‘multiclass’：y包含多于两个离散值，不是一个序列的序列，可以是1维数组或列向量。

‘multiclass-multioutput’：y是一个大小大于1的2维数组，包含多于两个离散值，不是一个序列的序列。

‘multilabel-indicator’：y是一个标签指示矩阵，一个大小为2的二维数组，其中至少有两列，最多有两个唯一值。

‘unknown’：y是类数组的数据类型，但不属于上述任何一种类型，例如3维数组、序列的序列或非序列对象的数组。

demos

multiclass-multioutput

type_of_target(np.array([[1, 2], [3, 1]]))

continuous-multioutput

type_of_target(np.array([[1.5, 2.0], [3.0, 1.6]]))

mulitlabel-indicator vs multiclass-multioutput

def unique_matrix(rng=10,u=2,m=3,n=4):
    """ 
    #调整unique value来控制target_type
    #如果unique<=2,则结果是multilabel-indicator
    #如果unique>2,则结果是multilabel-multioutput
    #m,n随便调,只要保证都大于0即可
    examples:
    --------
    >>>unique_matrix()
    @u=3,m=3,n=4
    array([[6, 8, 6, 2],
        [8, 6, 8, 8],
        [6, 6, 8, 2]])
  
    """
    l=range(rng) 
    c=np.random.choice(l,u,replace=False)
    print(f"@{u=},{m=},{n=}")
    M=np.random.choice(c,size=(m,n))
    print(M,'@{M2}')
    print(type_of_target(M),"@{type_of_target(M)}")

    return M

```
unique_matrix()
unique_matrix(u=3,m=6)
```

@u=2,m=3,n=4
[[8 8 9 8]
 [9 9 9 8]
 [9 9 8 8]] @{M2}
multilabel-indicator @{type_of_target(M)}
@u=3,m=6,n=4
[[0 1 1 3]
 [1 0 0 1]
 [3 1 3 1]
 [3 3 0 3]
 [0 1 1 1]
 [1 1 0 1]] @{M2}
multiclass-multioutput @{type_of_target(M)}

数量名词

n_features

The number of features.

n_outputs

The number of outputs in the target.

n_samples

The number of samples.

n_targets

Synonym for n_outputs.

binary

A classification problem consisting of two classes. A binary target may be represented as for a multiclass problem but with only two labels. A binary decision function is represented as a 1d array.

Semantically, one class is often considered the “positive” class. Unless otherwise specified (e.g. using pos_label in evaluation metrics), we consider the class label with the greater value (numerically or lexicographically) as the positive class: of labels [0, 1], 1 is the positive class; of [1, 2], 2 is the positive class; of [‘no’, ‘yes’], ‘yes’ is the positive class; of [‘no’, ‘YES’], ‘no’ is the positive class. This affects the output of decision_function, for instance.

Note that a dataset sampled from a multiclass y or a continuous y may appear to be binary.

type_of_target will return ‘binary’ for binary input, or a similar array with only a single class present.

二元分类问题由两个类别组成。一个二元目标可以表示为多类问题，但只有两个标签。二元决策函数表示为1维数组。
从语义上讲，通常将一个类别视为“正类”。
- 除非另有说明（例如在评估指标中使用pos_label），否则我们认为具有更大值（按数字或字典顺序）的类标签是正类：
- 在标签[0，1]中，1是正类；在[1，2]中，2是正类；
- 在[“no”，“yes”]中，“yes”是正类；
- 在[“no”，“YES”]中，“no”是正类。
- 这会影响decision_function的输出,例如说。
请注意，从多类y或连续y中抽样的数据集可能看起来是二元的。
type_of_target将返回“binary”用于二元输入，或类似的数组仅包含一个类别。

multi-output multi-class

A classification problem where each sample’s target consists of n_outputs outputs, each a class label, for a fixed int n_outputs > 1 in a particular dataset.
Each output has a fixed set of available classes, and each sample is labeled with a class for each output.
An output may be binary or multiclass, and in the case where all outputs are binary, the target is multilabel.
Multiclass multioutput targets are represented as multiple multiclass targets, horizontally stacked into an array of shape (n_samples, n_outputs).

XXX: For simplicity, we may not always support string class labels for multiclass multioutput, and integer class labels should be used.

multioutput provides estimators which estimate multi-output problems using multiple single-output estimators. This may not fully account for dependencies among the different outputs, which methods natively handling the multioutput case (e.g. decision trees, nearest neighbors, neural networks) may do better.

type_of_target will return ‘multiclass-multioutput’ for multiclass multioutput input.
一个分类问题，其中每个样本的标签都由n_outputs个输出组成，每个输出是一个标签类别，与特定数据集中的固定的、整数型的、大于1的n_outputs相对应。
每个输出都有一组固定的可用类，每个样本在每个输出下都标记有一个类。
输出可以是二分类或多分类的，并且在所有输出都是二分类的情况下，目标是多标签的。(多输出问题退化为多标签问题)
多分类多输出的标签被表示为多个分类型目标，它们可以被水平堆叠成（n_samples，n_outputs）形状的数组。为简单起见，我们在多分类多输出问题中可能并不总是支持字符串类标签，应该使用整数类标签。
multioutput提供了使用多个单输出估算器来估计多输出问题的估算器。这可能无法完全说明不同输出之间的依赖关系，那些本来就能够处理多输出情况的算法（例如决策树，最近邻算法，神经网络等）可能会做得更好。
按我的理解是这样的,例如,我们对一批学习资料进行分类

科目(subject)	适用阶段(stage)	媒介(medium)
math	Elementary school	ebook
Chinese	Junior high school	pbook
english	High school
	University

n_outputs=3,3个output变量分别是subject,stage,medium
这3个output构成一个target向量
multi-output指的是n_outputs=3>1
multi-class指的是
- 记各个output的可能取的离散值个数为 $n_i$
- 则 $max(n_1,n_2,n_3)\geqslant{2}$

multi-label

A multiclass multioutput target where each output is binary. This may be represented as a 2d (dense) array or sparse matrix of integers, such that each column is a separate binary target, where positive labels are indicated with 1 and negative labels are usually -1 or 0. Sparse multilabel targets are not supported everywhere that dense multilabel targets are supported.
Semantically, a multilabel target can be thought of as a set of labels for each sample. While not used internally, preprocessing.MultiLabelBinarizer is provided as a utility to convert from a list of sets representation to a 2d array or sparse matrix. One-hot encoding a multiclass target with preprocessing.LabelBinarizer turns it into a multilabel problem.
type_of_target will return ‘multilabel-indicator’ for multilabel input, whether sparse or dense.
多标签分类（multi-label classification）是一种特殊的多输出多类分类（multiclass multioutput）问题，其中每个输出都是二元的。多标签分类可以使用一个二维数组或者稀疏矩阵来表示，每一列表示一个不同的二元目标，其中正类标签用1表示，负类标签通常用-1或0表示。稀疏多标签目标并不是在所有支持密集多标签目标的地方都被支持。
从语义上讲，多标签目标可以被视为每个样本的标签集合。虽然在内部没有被使用，但是可以使用preprocessing.MultiLabelBinarizer将多标签目标从列表集合的表示方式转换为二维数组或稀疏矩阵。使用preprocessing.LabelBinarizer对多类别目标进行one-hot编码可以将其转换为多标签问题。
对于多标签输入，type_of_target函数将返回’multilabel-indicator’。

multi-output

A target where each sample has multiple classification/regression labels. See multiclass multioutput and continuous multioutput. We do not currently support modelling mixed classification and regression targets.
- multi-output中的output指的就是包含多个标签的target的分量
多输出（multi-output）是指每个样本具有多个分类/回归标签的目标数据(target)。与多类别多输出（multiclass multioutput）和连续多输出（continuous multioutput）类似。

多标签@多类别@多输出的例子

多标签（Multilabel）、多类别（Multiclass）和多输出（Multioutput）分类是机器学习中的三种不同分类问题。让我们分别了解它们之间的关系和区别，并给出一些例子。

多类别分类 (Multiclass Classification)

多类别分类是指一个样本只能属于一个类别。这是一个典型的分类问题，比如手写数字识别。在这种情况下，我们有10个类别（0到9），但一个样本只能属于其中一个类别。

例子：预测图片中的动物是猫、狗还是鸟。

多标签分类 (Multilabel Classification)

多标签分类是指一个样本可以属于多个类别。在这种情况下，每个样本都可能有不止一个标签。

例子：给一篇文章打标签，可能的标签包括：“科技”、“政治”、“经济”、“娱乐"等。一篇文章可能既涉及"科技”，又涉及"政治"，所以可以被同时打上这两个标签。

多输出分类 (Multioutput Classification)

多输出分类是指有多个输出变量，每个输出变量都有多个类别。这可以看作是多个多类别分类问题的组合。

例子：预测一个人的职业和教育水平。在这个问题中，有两个输出变量：职业（如医生、律师、教师等）和教育水平（如高中、大学、研究生等）。每个输出变量都有多个类别，因此这是一个多输出分类问题。

关系：

多类别分类是最基本的分类问题，每个样本只属于一个类别。
多标签分类是多类别分类的扩展，允许每个样本属于多个类别。
多输出分类可以看作是多个多类别分类问题的组合，每个输出变量都是一个多类别分类问题。

简而言之，多类别分类关注单一标签，多标签分类关注多个标签，而多输出分类关注多个输出变量，每个变量可以有多个类别。

label indicator matrix@One-Hot@1-of-k编码

multilabel indicator matrices
- The format used to represent multilabel data, where each row of a 2d array or sparse matrix corresponds to a sample, each column corresponds to a class, and each element is 1 if the sample is labeled with the class and 0 if not.多标签指示矩阵是用于表示多标签数据的格式，其中2维数组或稀疏矩阵的每一行对应一个样本，每一列对应一个类别，每个元素都是1，表示该样本带有该类别的标签，否则为0
Label indicator是一种用于表示多分类问题中标签的方法，通常在机器学习中使用。在Label indicator中，每个样本的标签被表示为一个向量，向量的长度等于类别数，每个元素表示该样本是否属于该类别。
如果一个样本属于某个类别，则该类别对应的向量元素取值为1，否则为0。
因此，Label indicator也被称为One-Hot编码或One-of-K编码。
例如
- 在一个3类分类问题中，如果一个样本属于第2类，则该样本的Label indicator为[0, 1, 0]。如果一个样本同时属于第1类和第3类，则该样本的Label indicator为[1, 0, 1]。
使用Label indicator的好处是，可以将多分类问题中的标签转化为一个简单的向量形式，方便模型训练和预测。同时，Label indicator也可以避免标签值之间的大小关系对模型带来的影响，因为在Label indicator中，每个类别被视为独立的二元变量。
sklearn中的type_of_target函数将要求稍微放宽,只要是包含的元素只有两种就行,而不要求必须是0或1
- ‘multilabel-indicator’: y is a label indicator matrix, an array of two dimensions with at least two columns, and at most 2 unique values.

其他

二分类、多分类、单标签分类、多标签分类是分类问题的不同类型，它们之间的关系如下：

二分类问题Binary classification problem：将数据分为两个类别，通常是正类和负类。每个样本只能属于其中一个类别，因此是单标签分类问题的一种。
多分类问题Multiclass classification problem：将数据分为三个或更多个类别。每个样本只能属于其中一个类别，因此是单标签分类问题的一种。
单标签分类问题Single-label classification problem：每个样本只有一个标签，即只能属于一个类别。既可以是二分类问题，也可以是多分类问题。
多标签分类问题Multilabel classification problem：每个样本可以属于多个类别，因此需要同时预测多个标签。可以看作是多个二分类问题的组合，每个类别对应一个二分类问题。

api源码查看

某些时候,查看文档还是不太清楚某些行为,搜索引擎也搜不到满意的资料,就可以尝试查看源码了
例如,我从LabelBinarizer的fit方法的处理过程那里遇到了些困惑(处理二进制矩阵的时候)
- 查看源码文件,发现了type_of_target函数,这个函数是用来分析输入的参数对应的分类问题具体是哪一种类型的

sklearn processing

sklearn.Processing
sklearn.preprocessing是Scikit-learn库（也称为sklearn）中的一个模块，提供了一系列数据预处理工具，用于在机器学习模型训练之前对数据进行处理和转换。该模块包含了许多常用的数据预处理方法，例如标准化、缩放、二值化、编码、填充等等。

以下是sklearn.preprocessing模块中常用的一些类和函数：
- StandardScaler：用于将数据进行标准化处理，即将数据按照均值为0、方差为1的标准正态分布进行缩放。
- MinMaxScaler：用于将数据进行缩放处理，即将数据缩放到指定的范围内，通常是[0, 1]或[-1, 1]。
- MaxAbsScaler：用于将数据进行缩放处理，即将数据缩放到[-1, 1]的范围内。
- RobustScaler：用于将数据进行缩放处理，对异常值具有更强的鲁棒性，适合处理存在离群点的数据。
- LabelEncoder：用于将标签数据进行编码，将每个类别映射为一个整数值。
- OneHotEncoder：用于将标签数据进行编码，将每个类别映射为一个二进制向量。
- Imputer：用于填充缺失值，可以使用均值、中位数、众数等方法进行填充。
- Binarizer：用于将数值型数据进行二值化处理，将大于阈值的值设置为1，小于等于阈值的值设置为0。
除了上述方法外，sklearn.preprocessing模块还提供了许多其他的数据预处理工具，可以根据具体需求进行选择和使用。这些工具可以帮助我们在机器学习模型训练之前对数据进行处理和转换，提高模型的准确性和可靠性。

one-vs-all

“one-vs-all”（一对多）是一种多类别分类的策略。在这种策略中，对于每个类别，我们将其与其他所有类别分开，形成一个二元分类问题。也就是说，我们训练一个分类器来区分当前类别和其他所有类别的样本，这样就可以得到每个类别对应的二元分类器。
在预测时，对于一个新的样本，我们分别使用每个二元分类器进行预测，然后选择置信度最高的那个分类器对应的类别作为预测结果。这种策略通常被用于一些二元分类器无法直接扩展到多类别分类的情况下，例如支持向量机等算法。

特征二元化(独热编码)

OneHotEncoder

OneHotEncoder
Specifies a methodology to use to drop one of the categories per feature. This is useful in situations where perfectly collinear features cause problems, such as when feeding the resulting data into an unregularized linear regression model. 使用一种方法来删除每个特征中的一个类别。这在存在完全共线特征导致问题的情况下非常有用，例如将结果数据输入到非正则化线性回归模型中。简而言之，这种技术可以用来解决特征之间存在高度相关性（共线性）导致的问题。在某些机器学习算法中，这种问题可能会导致模型过拟合或者性能下降。通过删除每个特征中的一个类别，可以减少共线性，从而提高模型的泛化能力，并使结果更易于解释。
在机器学习和数据分析中，通常需要对数据进行预处理和转换，以使其适用于特定的算法或任务。其中一个常见的预处理步骤是将类别数据编码为数值形式，以便于计算机处理。

为了将类别数据编码为数值形式，需要确定每个特征的类别，即将每个类别映射到唯一的数值。这通常需要使用训练数据集中的样本来确定类别，然后将该映射应用于整个数据集。
例如，如果有一个特征表示颜色，可能有多个不同的类别，如红色、蓝色、绿色等。为了在机器学习算法中使用这个特征，需要将每个颜色类别映射到一个数值，如红色对应0，蓝色对应1，绿色对应2等。可以使用训练数据集中的颜色样本来确定这个映射，并将其应用于整个数据集。

标签进行二元化

LabelBinarizer

sklearn.preprocessing.LabelBinarizer — scikit-learn documentation
Binarize labels in a one-vs-all fashion.

Several regression and binary classification algorithms are available in scikit-learn. A simple way to extend these algorithms to the multi-class classification case is to use the so-called one-vs-all scheme.

At learning time, this simply consists in learning one regressor or binary classifier per class. In doing so, one needs to convert multi-class labels to binary labels (belong or does not belong to the class). LabelBinarizer makes this process easy with the transform method.

At prediction time, one assigns the class for which the corresponding model gave the greatest confidence. LabelBinarizer makes this easy with the inverse_transform method.
用一对多的方法对标签进行二元化。

scikit-learn中提供了多种回归和二元分类算法。将这些算法扩展到多类别分类情况的一种简单方法是使用所谓的一对多方案。

在学习时，这个方案就是针对每个类学习一个回归器或二元分类器。为了做到这一点，需要将多类别标签转换为二元标签（属于或不属于该类）。LabelBinarizer提供了transform方法使这个过程变得容易。

在预测时，我们会将样本分配给相应模型给出的置信度最高的类别。LabelBinarizer提供了inverse_transform方法使这个过程变得容易。
scikit-learn中的LabelBinarizer模块是一种用于将标签数据进行二值化处理的工具。
在机器学习领域中，经常需要将标签数据转化为二进制表示形式，以便于对其进行处理和分析。LabelBinarizer模块就是用来实现这一功能的。

LabelBinarizer模块的一些重要特点和用法

LabelBinarizer可以将多类别标签数据转化为二进制形式。例如，假设有一个包含三种类别标签的数据集，LabelBinarizer可以将其转化为一个包含三列的二进制数组，其中每一列表示一种类别的存在或不存在。
LabelBinarizer可以适用于多种类型的标签数据。无论是字符串类型的标签，还是数值型的标签，都可以使用LabelBinarizer进行二值化处理。
LabelBinarizer可以通过fit_transform()方法进行拟合和转换操作。拟合操作会对标签数据进行处理并生成一个二进制编码矩阵，转换操作则会将标签数据转化为对应的二进制编码。
LabelBinarizer还提供了inverse_transform()方法，用于将二进制编码矩阵转化为原始的标签数据。这一方法在进行预测时非常有用，可以将机器学习模型输出的结果转化为原始的标签数据。
LabelBinarizer还提供了一些其他的参数和属性，例如sparse_output参数可以控制输出的稠密或稀疏性，classes_属性可以查看标签的类别信息等。

综上所述，LabelBinarizer模块是一个非常实用的工具，可以方便地将标签数据进行二值化处理，适用于多种类型的标签数据，并提供了许多实用的方法和属性。

methods

methods(https links)	Descriptoins
`fit`(y)	Fit label binarizer.
`fit_transform`(y)	Fit label binarizer/transform multi-class labels to binary labels.
`get_params`([deep])	Get parameters for this estimator.
`inverse_transform`(Y[, threshold])	Transform binary labels back to multi-class labels.
`set_output`(*[, transform])	Set output container.
`set_params`(**params)	Set the parameters of this estimator.
`transform`(y)	Transform multi-class labels to binary labels.

二进制矩阵

只包含0和1的矩阵通常被称为二进制矩阵（binary matrix），也可以称为布尔矩阵（Boolean matrix）。这种类型的矩阵通常用于表示图形、网络或逻辑关系等问题。
在Python中，可以使用NumPy库来创建二进制矩阵。例如要得到一个5x3的二进制进制矩阵，可以使用以下代码
- ```
M=np.random.randint(0,2,size=(5,3))
print(M)
```

fit(y)

Fit label binarizer.
Parameters:
- y:ndarray of shape (n_samples,) or (n_samples, n_classes)
- Target values. The 2-d matrix should only contain 0 and 1, represents multilabel classification.
Returns:
- self:object
- Returns the instance itself.
参数y是目标值，用于多标签分类任务。对于二元分类问题，y可以是一个形状为(n_samples,)的一维数组，其中每个元素表示一个样本的标签，取值为0或1，表示该样本属于或不属于某个类别。对于多类别分类问题，y可以是一个形状为(n_samples, n_classes)的二维数组，其中n_samples表示样本数，n_classes表示类别数，每个元素表示一个样本在对应类别上的标签，取值为0或1，表示该样本属于或不属于该类别。
当一个样本属于多个类别时，对应的元素取值为1，否则为0。因此，参数y的二维数组可以被看做是多个二元分类问题的组合，每个类别对应一个二元分类问题。
在多标签分类问题中，一个样本可以同时属于多个类别，与传统的单标签分类问题不同，因此需要使用多标签分类算法进行处理。

eg:

>>> from sklearn import preprocessing
>>> lb = preprocessing.LabelBinarizer()
>>> lb.fit([1, 2, 6, 4, 2])
LabelBinarizer()
>>> lb.classes_
array([1, 2, 4, 6])
>>> lb.transform([1, 6])
array([[1, 0, 0, 0],
       [0, 0, 0, 1]])

>>> import numpy as np
>>> lb.fit(np.array([[0, 1, 1], [1, 0, 0]]))
LabelBinarizer()
>>> lb.classes_
array([0, 1, 2])
>>> lb.transform([0, 1, 2, 1])
array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 1],
       [0, 1, 0]])

binary

lb = preprocessing.LabelBinarizer()
bool_seq=['yes', 'no', 'no', 'yes']
lf=lb.fit(bool_seq)

classes=lf.classes_
print(f'{classes=}')
lb = preprocessing.LabelBinarizer()
lbft=lb.fit_transform(['yes', 'no', 'no', 'yes'])
print(lbft,'@{lbft}')
# 
print(f'{lb.y_type_=}')

classes=array(['no', 'yes'], dtype=')
[[1]
 [0]
 [0]
 [1]] @{lbft}
lb.y_type_='binary'

multiclass

from sklearn.preprocessing import LabelBinarizer

# 三分类
# labels中含有4个样本的标签(label)
labels = ['cat', 'dog', 'bird', 'dog']
lb = LabelBinarizer()#实例化二元预处理对象
# 使用fit_transfrom(labels)拟合后直接转换labels
binary_labels = lb.fit_transform(labels)

# 打印结果
print(lb.y_type_,'@{lb.y_type}')
print(binary_labels,'@{binary_labels}')

# 通常会排序去重后再编码,这里排序labels只是为了放便对比
l=list(set(labels))
l.sort()
# print(l)
ord=len(l)
m=[list(range(ord)),l]
m=np.array(m,dtype=')
print(m)

multiclass @{lb.y_type}
[[0 1 0]
 [0 0 1]
 [1 0 0]
 [0 0 1]] @{binary_labels}
[['0' '1' '2']
 ['bird' 'cat' 'dog']]

multilabel-indicator

import numpy as np
# np.random.seed(0)
M=np.random.randint(0,2,size=(5,8))
print(M)

lb = LabelBinarizer()
#lb拟合二进制矩阵M(是5个样本的标签,每个标签是二进制向量,且向量长度为8,说明该分类问题包含8个标签)
#每个向量中可能包含k个1(k可能大于1),说明对应的样本被打上了k个标签
lb.fit(M)
print(f'{lb.classes_=}')

N=np.random.randint(0,2,size=(5,8))
print()
print(N,'@N')
R=lb.transform(N)
print(R,'@{R}')
print(f'{np.array_equal(N,R)=}')
print()
v=[0, 1, 4,7,9]
print(v,'@{v}')
lb.transform(v)
print(lb.transform(v),'@{lb.transform(v)}')

lb.y_type_

[[0 0 1 0 1 1 1 1]
 [1 1 0 1 0 0 0 0]
 [0 1 1 0 0 0 0 1]
 [0 0 0 1 0 1 0 1]
 [0 1 0 0 1 1 0 0]]
lb.classes_=array([0, 1, 2, 3, 4, 5, 6, 7])

[[0 1 1 1 1 0 1 1]
 [0 1 0 1 0 0 0 0]
 [0 0 1 0 0 1 1 1]
 [1 1 0 1 0 0 1 0]
 [0 1 0 1 1 1 1 0]] @N
[[0 1 1 1 1 0 1 1]
 [0 1 0 1 0 0 0 0]
 [0 0 1 0 0 1 1 1]
 [1 1 0 1 0 0 1 0]
 [0 1 0 1 1 1 1 0]] @{R}
np.array_equal(N,R)=True

[0, 1, 4, 7, 9] @{v}
[[1 0 0 0 0 0 0 0]
 [0 1 0 0 0 0 0 0]
 [0 0 0 0 1 0 0 0]
 [0 0 0 0 0 0 0 1]
 [0 0 0 0 0 0 0 0]] @{lb.transform(v)}
'multilabel-indicator'

貌似如果将一维数组v传递给lb.transform,会将处理为单标签
- 例如,outputs=n,(标签号0,1,2,...,n-1)那么v中大等于n的值被转换为0向量
如果传递二进制矩阵,则会原样输出)

transform(y)

Transform multi-class labels to binary labels.
The output of transform is sometimes referred to by some authors as the 1-of-K coding scheme.
- Parameters:
  - y{array, sparse matrix} of shape (n_samples,) or (n_samples, n_classes)
  - Target values. The 2-d matrix should only contain 0 and 1, represents multilabel classification. Sparse matrix can be CSR, CSC, COO, DOK, or LIL.
- Returns:
  - Y{ndarray, sparse matrix} of shape (n_samples, n_classes)
  - Shape will be (n_samples, 1) for binary problems. Sparse matrix will be of CSR format.

fit_transform(y)

Fit label binarizer/transform multi-class labels to binary labels.

The output of transform is sometimes referred to as the 1-of-K coding scheme.

Fit label binarizer/transform multi-class labels to binary labels指的是将多类标签转换为二进制标签的过程，通过将每个类别转换为一个二进制向量，其中只有一个元素为1，其他元素为0。这个过程可以使用Scikit-learn中的LabelBinarizer类来实现。

LabelBinarizer类可以将多类标签转换为二进制标签，其中每个类别对应一个二进制向量。该类还可以用于反转转换，将二进制标签转换回多类标签。

输出的二进制标签有时也称为1-of-K编码方案，其中K表示类别的数量。在这种编码方案下，每个样本的标签都是一个K维的二进制向量，其中只有一个元素为1，其他元素为0，用于表示该样本所属的类别。

demos

以下是几个使用LabelBinarizer的示例：

将字符串类型的标签数据进行二值化处理：

from sklearn.preprocessing import LabelBinarizer

labels = ['cat', 'dog', 'bird', 'dog']
lb = LabelBinarizer()
binary_labels = lb.fit_transform(labels)

# 通常会排序去重后再编码,这里排序labels只是为了放便对比
l=list(set(labels))
l.sort()
# print(l)
ord=len(l)
m=[list(range(ord)),l]
m=np.array(m,dtype=')
print(m)
# 
print(binary_labels)

[['0' '1' '2']
 ['bird' 'cat' 'dog']]
[[0 1 0]
 [0 0 1]
 [1 0 0]
 [0 0 1]]

在上述示例中，将字符串类型的标签数据进行了二值化处理，其中每一行表示一个样本，每一列表示一个类别，1表示该样本属于该类别，0表示不属于该类别。

将数值型的标签数据进行二值化处理：

from sklearn.preprocessing import LabelBinarizer

labels = [1, 2, 3, 2]
lb = LabelBinarizer()
binary_labels = lb.fit_transform(labels)

print(binary_labels)
# 输出：array([[1, 0, 0],
#             [0, 1, 0],
#             [0, 0, 1],
#             [0, 1, 0]])

在上述示例中，将数值型的标签数据进行了二值化处理，其中每一行表示一个样本，每一列表示一个类别，1表示该样本属于该类别，0表示不属于该类别。

inverse_transform

将机器学习模型输出的结果转化为原始的标签数据：inverse_transform方法
- In the case when the binary labels are fractional (probabilistic), inverse_transform chooses the class with the greatest value. Typically, this allows to use the output of a linear model’s decision_function method directly as the input of inverse_transform.
  
  在二元标签为分数（概率）的情况下，inverse_transform方法会选择具有最大值的类别。通常，这允许直接将线性模型decision_function方法的输出作为inverse_transform方法的输入。
  
  这句话的意思是，在二元标签不仅仅是0和1，而是以概率或分数的形式表示（例如，在逻辑回归中），标签编码器的inverse_transform方法会选择概率值最高的类别来将编码标签映射回其原始形式。
  
  例如，如果我们有一个二元分类问题，标签以概率的形式表示，例如[0.2, 0.8]，其中第一个值表示负类的概率，第二个值表示正类的概率，如果我们使用sklearn.preprocessing模块中的LabelEncoder对它们进行编码，得到的编码标签可能是[0, 1]。要将标签解码回其原始形式，我们可以使用标签编码器的inverse_transform方法，它将选择具有最高概率值的类别（在本例中是概率为0.8的第二类），将其映射回原始标签值（在本例中是正类）。
  
  inverse_transform方法的这个性质允许我们直接将线性模型的decision_function方法的输出（产生连续得分或概率）作为inverse_transform方法的输入，避免在解码之前将得分或概率舍入为二元标签的需求。
- ```
from sklearn.preprocessing import LabelBinarizer

labels = ['cat', 'dog', 'bird', 'dog']
lb = LabelBinarizer()
binary_labels = lb.fit_transform(labels)
print(binary_labels,'@{binary_labels}')
#随机构造二进制形式的m个样本标签
m=6
v=np.random.randint(0,2,size=(m,3))
print(v,'@{v}')
label_str1 = lb.inverse_transform(binary_labels)
label_str2=lb.inverse_transform(v)
print(label_str1,'@{label_str1}')
print(label_str2,'@{label_str2}')
# 输出：array(['dog'])
```
- ```
[[0 1 0]
 [0 0 1]
 [1 0 0]
 [0 0 1]] @{binary_labels}
[[0 1 0]
 [1 0 1]
 [0 1 0]
 [1 0 0]
 [0 1 0]
 [1 1 1]] @{v}
['cat' 'dog' 'bird' 'dog'] @{label_str1}
['cat' 'bird' 'cat' 'bird' 'cat' 'bird'] @{label_str2}
```
在上述示例中，将机器学习模型输出的结果转化为了原始的标签数据，即将[0, 1, 0]转化为’dog’。

你可能感兴趣的:(机器学习,sklearn,分类)

数学：机器学习的理论基石每天五分钟玩转人工智能机器学习人工智能
一、数学：机器学习的理论基石机器学习是一种通过数据学习模式和规律的科学。其核心目标是从数据中提取有用的信息，以便对未知数据进行预测和分类。为了实现这一目标，机器学习需要一种数学框架来描述和解决问题。数学在机器学习中起着至关重要的作用，它提供了一种数学模型来描述数据和模式，以及一种数学方法来优化模型。数学在机器学习中的应用非常广泛，涵盖了线性代数、概率论、统计学、微积分、优化等多个领域。这些数学方法
【机器学习：二十六、决策树】 KeyPan 机器学习机器学习决策树人工智能算法深度学习数据挖掘
1.决策树概述决策树是一种基于树状结构的监督学习算法，既可以用于分类任务，也可以用于回归任务。其主要通过递归地将数据划分为子集，从而生成一个具有条件结构的树模型。核心概念节点（Node）：每个节点表示一个特定的决策条件。根节点（RootNode）：树的起点，包含所有样本。分支（Branch）：每个分支代表一个条件划分的结果。叶节点（LeafNode）：终止节点，表示最终的决策结果。优点直观可解释：
SQL数据分析（简单版）编程星空扩展知识 sql 数据库
一、常见数据库分类（1）关系型数据库采用关系模型组织数据的数据库，以行和列的形式存储数据，形成数据表，一组数据表组成了数据库（2）非关系型数据库非关系型数据库在严格意义上不是一种数据库，应该是一种数据结构化存储方法的集合，可以是文档或者键值对等。二、数据库常用功能（1）表数据表是数据库中存储数据的基本组成单位，例如用户信息表、订单表、采购表等。（2）查询查询是数据库中应用最多的对象之一，最常用的功
机器学习数学基础-极值和最值华东算法王（原聪明的小孩子小孩哥解析宋浩微积分机器学习算法人工智能
极值和最值极值和最值是数学中关于函数变化的重要概念，它们描述了函数在某些点附近或在整个定义域内的“最大”或“最小”行为。理解极值和最值对优化问题、函数分析、物理建模等领域有重要的应用。1.极值（LocalExtrema）极值是指函数在某个区间内的某一点取得的局部最大值或最小值。(1)局部最大值（LocalMaximum）一个函数在某点(x=c)取得局部最大值，意味着存在一个包含(c)的小区间，使得
17-7 向量数据库之野望7 - PostgreSQL 和pgvector 拉达曼迪斯II AIGC学习数据库管理工具 AI创业数据库 postgresql 人工智能机器学习 AIGC 搜索引擎
PostgreSQL是一款功能强大的开源对象关系数据库系统，它已将其功能扩展到传统数据管理之外，通过pgvector扩展支持矢量数据。这一新增功能满足了对高效处理高维矢量数据日益增长的需求，这些数据通常用于机器学习、自然语言处理(NLP)和推荐系统等应用。https://github.com/mazzasaverio/find-your-opensource-project什么是pgvector？
基于Damo-YOLO和DyHead检测头的YOLOv8优化：多尺度目标检测的创新方案【YOLOv8】步入烟尘 YOLO系列创新涨点超专栏 YOLO 目标检测人工智能 YOLOv8
本专栏专为AI视觉领域的爱好者和从业者打造。涵盖分类、检测、分割、追踪等多项技术，带你从入门到精通！后续更有实战项目，助你轻松应对面试挑战！立即订阅，开启你的YOLOv8之旅！专栏订阅地址：https://blog.csdn.net/mrdeam/category_12804295.html文章目录基于Damo-YOLO和DyHead检测头的YOLOv8优化：多尺度目标检测的创新方案【YOLOv8
提升YOLOv8性能：用Swin Transformer替换Backbone的详细实现与分析【YOLOv8】步入烟尘 YOLO系列创新涨点超专栏 YOLOv8 YOLO 目标跟踪
本专栏专为AI视觉领域的爱好者和从业者打造。涵盖分类、检测、分割、追踪等多项技术，带你从入门到精通！后续更有实战项目，助你轻松应对面试挑战！立即订阅，开启你的YOLOv8之旅！专栏订阅地址：https://blog.csdn.net/mrdeam/category_12804295.html文章目录YOLOv8改进|主干篇|SwinTransformer替换Backbone（附代码+详细修改步骤+
渗透测试术语--必要基础大象只为你跟我学网安知识网络安全
一、前言了解和记住渗透测试术语是网络安全技术人员必要的基础，能帮助我们有效沟通和合作、全面理解渗透测试流程、设计和规划渗透测试活动、安全漏洞识别和利用和规避法律和道德风险。我整理一部分术语，自己归为8个分类方便记忆。共整理了56个术语，每个术语都有简要的含义解释。二、渗透测试术语1、攻击介质1.1、漏洞硬件、软件、协议的缺陷，可以通过未授权的方式访问、破坏系统。1.2、木马获取用户权限的程序或者代
【MySQL】Mysql数据库导入导出sql文件、备份数据库、迁移数据库程序员洲洲数据库数据库 mysql 导入导出sql sql文件备份迁移
本文摘要：本文提出了xxx的实用开发小技巧。作者介绍：我是程序员洲洲，一个热爱写作的非著名程序员。CSDN全栈优质领域创作者、华为云博客社区云享专家、阿里云博客社区专家博主。同时欢迎大家关注其他专栏，我将分享Web前后端开发、人工智能、机器学习、深度学习从0到1系列文章。同时洲洲已经建立了程序员技术交流群，如果您感兴趣，可以私信我加入我的社群，也可以直接vx联系（文末有名片）v：bdizztt随时
python读取文件路径中有中文_转 python 读取中文文件名/中文路径 weixin_39845406
原博文2015-03-1322:22−python直接读取中文路径的文件时失败，可做如下处理：inpath='D:/work/yuanxx/在线导航/驾车导航/walk_log/20130619_172355.txt'uipath=unicode(ipath,"utf8")然后用"uipath"经...相关推荐2015-12-1421:45−前言：需要对某目录下的文件进行分类，目录是中文名字就会报
《电子制作从零开始》第3章：电源电路制作请向我看齐 LeetCode leetcode
第3章：电源电路制作3.1直流电源基础直流电源的分类与工作原理分类：电池类直流电源：这是最常见的直流电源之一，如干电池、蓄电池等。干电池是通过化学能直接转换为电能，它的优点是携带方便、使用简单，像普通的碱性干电池，电压一般为1.5V，适用于小型电子设备，如遥控器、手电筒等。蓄电池则可以通过充电将电能储存起来，反复使用，例如铅酸蓄电池，常用于汽车、UPS（不间断电源）等设备中，它能够提供较大的电流和
MYSQL数据库（二） python小桦数据库 mysql oracle
SQL分类：分类全称解释DDLDataDefinitionLanguage数据定义语言，用来定义数据库对象（数据库，表，字段）DMLDataManipulationLanguage数据操作语言，用来对数据库表中的数据进行增删改DQLDataQueryLanguage数据查询语言，用来查询数据库中表的记录DCLDataControlLanguage数据控制语言，用来创建数据库用户，控制数据库的访问权
嵌入式硬件篇---PWM&电机&舵机 Ronin-Lotus 嵌入式硬件篇嵌入式硬件 c语言学习单片机 stm32 51单片机硬件工程
文章目录前言第一部分:电机1.按照工作电源分类直流电机交流电机2.按照结构原理分类同步电机异步电机有刷电机无刷电机3.按照电机的使用目的驱动电机执行电机直驱电机编码器额外小知识:第二部分：PWM1.实质2.面积等效原理3.实例舵机舵机按转动角度分1.小角度舵机（0-90°）2.中角度舵机（0-180°）3.大角度舵机（0-360°）舵机按控制方式分1.数字舵机2.模拟舵机总结前言本文简单介绍了电机
pythonnumpy库离线安装_linux Python2.7 离线安装pip、numpy、scipy、sklearn等 weixin_39974932
服务器是离线的，只能离线安装安装pip1.先安装setuptools下载地址：https://pypi.python.org/pypi/setuptools#downloads将下载后的文件解压，进入到解压后的文件所在的目录执行命令：pythonsetup.pyinstall2安装pip下载地址：https://pypi.python.org/pypi/pip#downloads将下载后的文件解压
【Python机器学习】无监督学习——K-均值聚类算法 zhangbin_237 Python机器学习机器学习算法 python kmeans k-means 均值算法
聚类是一种无监督的学习，它将相似的对象归到同一簇中，它有点像全自动分类。聚类方法几乎可以应用于所有的对象，簇内的对象越相似，聚类的效果越好。K-均值聚类算法就是一种典型的聚类算法，之所以称之为K-均值是因为它可以发现k个不同的簇，且每个簇的中心采用簇中所含值的均值计算而成。簇识别给出聚类结果的含义，假定有一些数据，现在将相似数据归到一起，簇识别会告诉我们这些簇到底都是些什么。聚类与分类的最大不同在
【Python】已解决：WARNING: pip is configured with locations that require TLS/SSL, however the ssl module i 屿小夏 python pip ssl
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
机器学习特征重要性之feature_importances_属性与permutation_importance方法一叶_障目机器学习 python 数据挖掘
一、feature_importances_属性在机器学习中，分类和回归算法的feature_importances_属性用于衡量每个特征对模型预测的重要性。这个属性通常在基于树的算法中使用，通过feature_importances_属性，您可以了解哪些特征对模型的预测最为重要，从而可以进行特征选择或特征工程，以提高模型的性能和解释性。1、决策树1.1.sklearn.tree.Decision
机器学习-期末测试难以触及的高度机器学习 python 人工智能
机器学习-期末测试线性回归1.代码展示#coding=UTF-8#拆分训练集和测试集importmatplotlib.pyplotaspltfromsklearn.model_selectionimporttrain_test_split#是线性回归类是sklearn写好的根据梯度下降法fromsklearn.linear_modelimportLinearRegressionimportpand
机器学习的介绍 2201_75874206 机器学习人工智能
目录1.机器学习的定义2.机器学习的原理3.机器学习的方法4.机器学习的分类5.机器学习的评估6.机器学习的应用场景7.机器学习与人工智能的关系结论机器学习在自然语言处理中的最新应用和技术是什么？如何评估机器学习模型的性能，除了交叉验证、MSE和RMSE外，还有哪些其他重要的指标？在金融风险管理中，机器学习如何帮助预测市场趋势和信用风险？市场趋势预测信用风险评估机器学习与人工智能之间的关系在未来发
Kaggle欺诈检测：使用生成对抗网络（GAN）解决正负样本极度不平衡问题 Loving_enjoy 论文深度学习计算机视觉人工智能
###Kaggle欺诈检测：使用生成对抗网络（GAN）解决正负样本极度不平衡问题####引言在金融领域中，欺诈检测是一项至关重要的任务。然而，欺诈交易数据往往呈现出正负样本极度不平衡的特点，这给机器学习模型的训练带来了挑战。传统的分类算法在面对这种不平衡数据时，往往会导致模型对多数类（正常交易）过拟合，而对少数类（欺诈交易）的识别能力较差。为了解决这个问题，生成对抗网络（GAN）提供了一种有效的手
【虚拟化】系统虚拟化的主要功能和分类 TrustZone_ 虚拟化
1.3系统虚拟化的主要功能和分类系统虚拟化向下管理硬件资源，向上提供硬件抽象。本节主要介绍系统虚拟化的基本功能（包括CPU、内存和I/O虚拟化），并根据Hypervisor与物理资源和操作系统交互方式的不同，介绍了两种基本的虚拟化分类。然后简要介绍三种虚拟化的实现方式，从而帮助读者在整体上了解虚拟化不同实现方式对功能和性能的影响。1.3.1虚拟化基本功能系统虚拟化架构如图1-4所示（以经典的“一虚
一文读懂：无监督学习与有监督学习的区别与应用码上飞扬学习
在机器学习的世界里，无监督学习和有监督学习是两个最为常见且重要的概念。理解这两者的区别和应用场景，不仅有助于我们选择合适的算法和模型，还能帮助我们更好地解决实际问题。那么，什么是无监督学习和有监督学习呢？本文将带你详细了解这两种学习方式的定义、区别以及典型应用。目录无监督学习是什么？有监督学习是什么？无监督学习与有监督学习的主要区别无监督学习的典型应用有监督学习的典型应用如何选择合适的学习方法？1
Spark Livy 指南及livy部署访问实践 house.zhang 大数据-Spark 大数据
背景：ApacheSpark是一个比较流行的大数据框架、广泛运用于数据处理、数据分析、机器学习中，它提供了两种方式进行数据处理，一是交互式处理：比如用户使用spark-shell，编写交互式代码编译成spark作业提交到集群上去执行；二是批处理，通过spark-submit提交打包好的spark应用jar到集群中进行执行。这两种运行方式都需要安装spark客户端配置好yarn集群信息，并打通集群网
迅为RK3562开发板专为3562编写10大分类2900+页文档 mucheni rk3562 3562
iTOP-3562开发板采用瑞芯微RK3562处理器，内部集成了四核A53+MaliG52架构，主频2GHZ，内置1TOPSNPU算力，RK809动态调频。支持OpenGLES1.1/2.0/3.2、0penCL2.0、Vulkan1.1内嵌高性能2D加速硬件。内置独立NPU,算力达1TOPS,可用于轻量级人工智能应用。支持几乎全格式的H.264解码，支持1080p@60fps的解码，支持4K@3
用TensorFlow.NET搭建一个全连接神经网络 chiyong7717 人工智能 c#python
在本文中，我们将学习如何在C＃中构建神经网络模型计算图。与线性分类器相比，神经网络的关键优势在于它可以分离不可线性分离的数据。我们将实现此模型来对MNIST数据集的手写数字图像进行分类。我们要构建的神经网络的结构如下。MNIST数据的手写数字图像有10个类（从0到9）。该网络具有2个隐藏层：第一层具有200个隐藏单元（神经元），第二层具有10个神经元（称为分类器层）。让我们一步一步地用代码来实现：
C#遇见TensorFlow.NET：开启机器学习的全新时代墨夶 C#学习资料1 机器学习 c#tensorflow
在当今快速发展的科技世界里，机器学习（MachineLearning,ML）已经成为推动创新的重要力量。从个性化推荐系统到自动驾驶汽车，ML的应用无处不在。对于那些习惯于使用C#进行开发的程序员来说，将机器学习集成到他们的项目中似乎是一项具有挑战性的任务。但随着TensorFlow.NET的出现，这一切变得不再困难。今天，我们将一起探索如何利用这一强大的工具，在熟悉的.NET环境中轻松构建、训练和
计算机考试电子邮件怎么回复,计算机基础知识电子邮件使用技巧集锦(二) csp1223 计算机考试电子邮件怎么回复
计算机基础知识电子邮件使用技巧集锦(二)分类：计算机等级|更新时间：2013-01-07|来源：转载11、用ISP邮箱提高发信速度现在免费电子邮件大都支持SMTP和POP3协议，故在设置服务帐号时“工具”→“选项”→“邮件服务器”中的“发送邮件服务器SMTP”和“接受邮件服务器POP3”均填相同的服务器，如海南建恒电子邮局都填“www.88998.com”，但在使用中发现用此服务器发送邮件速度较慢
v0.24.0 新特性支持标签分类，内置实现多种策略后端java
开源项目敏感词核心https://github.com/houbb/sensitive-word敏感词控台https://github.com/houbb/sensitive-word-admin版本特性大家好，我是老马。敏感词标签分类一直是大家比较想要的一个功能特性，v0.24.0了开始内置支持标签分类，同时实现了多种策略。快速开始maven引入com.github.houbbsensitive
【数据结构】—— 顺序表的实现与优化：空间管理与增容策略酷酷的崽798 数据结构数据结构 c语言
文章目录顺序表的基本概念与结构顺序表的分类静态顺序表动态顺序表顺序表问题与思考插入与删除的时间复杂度增容的开销如何解决空间浪费问题？顺序表作为一种常见的线性数据结构，广泛应用于各种编程任务中。它通过连续的物理内存存储数据元素，提供了高效的随机访问功能。在这篇博客中，我们将深入探讨顺序表的结构、分类、实现方法以及它的一些问题与优化策略，尤其是如何解决空间浪费和增容问题。顺序表的基本概念与结构顺序表（
深入探索Python编程技术：从入门到精通的全方位学习指南小码快撩 python 开发语言
引言在当今信息技术飞速发展的时代，Python以其简洁优雅、功能强大、易于上手的特点，成为了众多开发者和初学者首选的编程语言。无论是数据科学、机器学习、Web开发、自动化脚本编写，还是桌面应用开发，Python都能发挥其独特优势，帮助开发者高效完成任务。本文旨在为Python学习者提供一个全面的学习路径与关键知识点概述，助您快速掌握这门强大的编程语言。一、基础语法1.变量定义与数据类型示例代码：#
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默