ChessyJ1018

auto-sklearn简析

一. auto-sklearn简介
- - 0. 什么是sklearn
  - 1. 什么是auto-sklearn
  - 2. auto-sklearn可以auto到什么程度？
  - 3. auto-sklearn有什么特点
  - 4. 怎么使用auto-sklearn
二. 主要功能分析与建模
- - 1. 从一个简单的示例出发
  - 2. 需求建模
  - 3. 实际执行流程
三. 核心流程设计分析
- - 1. 类间关系
  - 2. 时序图
四. 高级设计意图分析
- - 1. 策略模式
  - 2. 代理模式
五. 结语

这是笔者在中国科学院大学上王伟老师的面向对象程序设计一课时的作业要求——对auto-sklearn进行分析以考察面向对象思想在其中的应用。
因此，本文的重点不是auto-sklearn的介绍与分析，也不是具体源码实现的解析与算法设计的讨论，而是对需求建模、主要功能流程设计、类及类间关系、面向对象设计原则及设计模式的分析。总而言之，是对面向对象思想的探讨。

一. auto-sklearn简介

0. 什么是sklearn

但凡接触过机器学习的人对sklearn(scikit-learn)一定不陌生，它是基于Python语言的机器学习工具，是机器学习中常用的第三方模块，它对常用的机器学习方法进行了封装，包括回归、降维、分类、聚类等方法。

sklearn具有广泛的应用，其功能非常强大，但此处不会做过多展开，如果读者希望进一步了解sklearn，这里提供sklearn的中文官网供参考：Introduction·sklearn。

1. 什么是auto-sklearn

auto-sklearn 提供了开箱即用的监督型自动机器学习。从名字可以看出，auto-sklearn 是基于机器学习库 scikit-learn 构建的，可为新的数据集自动搜索学习算法，并优化其超参数。因此，它将机器学习使用者从繁琐的任务中解放出来，使其有更多时间专注于实际问题。当前版本为 0.6.0，具体信息请查看官网auto-sklearn。

2. auto-sklearn可以auto到什么程度？

我们以机器学习的分类模型为例，常规的机器学习框架如图中的灰色部分，导入数据后，在经过数据预处理和特征预处理后，通过分类器输出预测值，如果结果不尽人意，需要手动调整超参数并重新选择合适的模型。
而自动的部分就如图绿框所示，在ML-framework左边新增meta-learning，在右边新增build-ensemble，并使用贝叶斯优化自动调超参数。meta-learning是用于初始化贝叶斯优化器的元学习，它可以去学习样本数据的模样，一旦找到相似的数据集，就可以根据经验来推荐好用的分类器，比如文本数据用什么模型比较好，很多离散的数据用什么模型比较好。build-ensemble是优化过程中的自动模型集成，可以根据贝叶斯优化找到最佳的分类器组合，往往能提高预测的准确性。

3. auto-sklearn有什么特点

（1）优点

支持设置单次训练时间和总体训练时间，使得工具既能限制训练时间，又能充分利用时间和算力
支持切分训练/测试集的方式，也支持使用交叉验证，从而减少了训练模型的代码量和程序的复杂程度
支持加入扩展模型以及扩展预测处理方法，使训练具有多样性和灵活性

（2）缺点

输出携带的信息较少，想进一步训练只能重写代码
不支持深度学习
适用范围有限，只适用于tabular data上的监督学习，对非数值型的数据不太友好

4. 怎么使用auto-sklearn

对于给定的数据集，我们如何利用auto-sklearn来对它进行自动化的机器学习呢？上手的方法非常简单，设置好以下几种关键的参数即可。

训练时间和内存的使用量的设置，其中时间包括所有模型训练时间的总和以及单个模型训练的最长时间，单位是秒；
训练后模型的存储，参数默认为训练完成后删除训练的暂存目录和输出目录，使用以下参数，可指定其暂存目录及是否删除；
数据的切分，使用resampling_strategy参数可设置训练集与测试集的切分方法，这里展示了设置五折交叉验证的方法；
模型的选择，可以通过这个参数支持指定备选的机器学习模型，或者从所有模型中去掉一些机器学习模型。

以下是两个简单示例：

（1）回归任务

# -*- encoding: utf-8 -*-
"""
==========
Regression
==========

The following example shows how to fit a simple regression model with
*auto-sklearn*.
"""
import sklearn.datasets
import sklearn.metrics

import autosklearn.regression


############################################################################
# Data Loading
# ============

X, y = sklearn.datasets.load_boston(return_X_y=True)

X_train, X_test, y_train, y_test = \
    sklearn.model_selection.train_test_split(X, y, random_state=1)

############################################################################
# Build and fit a regressor
# =========================

automl = autosklearn.regression.AutoSklearnRegressor(
    time_left_for_this_task=120,
    per_run_time_limit=30,
    tmp_folder='/tmp/autosklearn_regression_example_tmp',
    output_folder='/tmp/autosklearn_regression_example_out',
)
automl.fit(X_train, y_train, dataset_name='boston')

############################################################################
# Print the final ensemble constructed by auto-sklearn
# ====================================================

print(automl.show_models())

###########################################################################
# Get the Score of the final ensemble
# ===================================

predictions = automl.predict(X_test)
print("R2 score:", sklearn.metrics.r2_score(y_test, predictions))

（2）分类任务

# -*- encoding: utf-8 -*-
"""
==============
Classification
==============

The following example shows how to fit a simple classification model with
*auto-sklearn*.
"""
import sklearn.datasets
import sklearn.metrics

import autosklearn.classification


############################################################################
# Data Loading
# ============

X, y = sklearn.datasets.load_breast_cancer(return_X_y=True)
X_train, X_test, y_train, y_test = \
    sklearn.model_selection.train_test_split(X, y, random_state=1)

############################################################################
# Build and fit a regressor
# =========================

automl = autosklearn.classification.AutoSklearnClassifier(
    time_left_for_this_task=120,
    per_run_time_limit=30,
    tmp_folder='/tmp/autosklearn_classification_example_tmp',
    output_folder='/tmp/autosklearn_classification_example_out',
)
automl.fit(X_train, y_train, dataset_name='breast_cancer')

############################################################################
# Print the final ensemble constructed by auto-sklearn
# ====================================================

print(automl.show_models())

###########################################################################
# Get the Score of the final ensemble
# ===================================

predictions = automl.predict(X_test)
print("Accuracy score:", sklearn.metrics.accuracy_score(y_test, predictions))

二. 主要功能分析与建模

1. 从一个简单的示例出发

以下是官网给出一个最简单的多分类示例：

"""
==========================
Multi-label Classification
==========================

This examples shows how to format the targets for a multilabel classification
problem. Details on multilabel classification can be found
`here `_.
"""
import numpy as np

import sklearn.datasets
import sklearn.metrics
from sklearn.utils.multiclass import type_of_target

import autosklearn.classification


############################################################################
# Data Loading
# ============

# Using reuters multilabel dataset -- https://www.openml.org/d/40594
X, y = sklearn.datasets.fetch_openml(data_id=40594, return_X_y=True, as_frame=False)

# fetch openml downloads a numpy array with TRUE/FALSE strings. Re-map it to
# integer dtype with ones and zeros
# This is to comply with Scikit-learn requirement:
# "Positive classes are indicated with 1 and negative classes with 0 or -1."
# More information on: https://scikit-learn.org/stable/modules/multiclass.html
y[y == 'TRUE'] = 1
y[y == 'FALSE'] = 0
y = y.astype(np.int)

# Using type of target is a good way to make sure your data
# is properly formatted
print(f"type_of_target={type_of_target(y)}")

X_train, X_test, y_train, y_test = sklearn.model_selection.train_test_split(
    X, y, random_state=1
)

############################################################################
# Building the classifier
# =======================

automl = autosklearn.classification.AutoSklearnClassifier(
    time_left_for_this_task=60,
    per_run_time_limit=30,
    # Bellow two flags are provided to speed up calculations
    # Not recommended for a real implementation
    initial_configurations_via_metalearning=0,
    smac_scenario_args={'runcount_limit': 1},
)
automl.fit(X_train, y_train, dataset_name='reuters')

############################################################################
# Print the final ensemble constructed by auto-sklearn
# ====================================================

print(automl.show_models())

############################################################################
# Print statistics about the auto-sklearn run
# ===========================================

# Print statistics about the auto-sklearn run such as number of
# iterations, number of models failed with a time out.
print(automl.sprint_statistics())

############################################################################
# Get the Score of the final ensemble
# ===================================

predictions = automl.predict(X_test)
print("Accuracy score", sklearn.metrics.accuracy_score(y_test, predictions))

实现过程注释里面给的很清晰，分为了几个部分，数据加载(data loading)，创建分类器(build the classifier)，得出结果(get the score)，而其中的核心过程创建分类器用到的方法基本来自于对象automl，包括automl.fit()，automl.show_models()，automl.sprint_statistics()，automl.predict()，而这个对象在这里被创建为类AutoSklearnClassifier的一个实例。
正如我们一开始就讲到，文章的重点是面向对象思想，而非项目本身。所以我们试图通过选择简单的分析样例来避开项目自身的实现复杂性，避开诸多细节，只接触核心流程。

2. 需求建模

首先，我们对上述示例进行需求建模：

【用例名称】
多分类自动化机器学习
【场景】
who：训练集、测试集、分类模型、预测结果
where：内存空间
when：运行时间
【用例描述】

载入数据集

进行数据预处理
2.1 若数据集没有划分训练集和测试集，按一定规则划分
2.2 若有归一化需求，则将数据进行归一化

创建合适的分类器

进行训练，自动化调参

打印最终模型及其相关参数

对测试集数据进行分类预测，得到预测结果的正确率

【用例价值】
完成多分类的机器学习任务
【约束和限制】
输入数据为数值型

寻找其中的动词和名词：

【动词】载入、预处理、划分、归一化、创建、训练、预测、打印模型
【名词】数据集、训练集、测试集、分类器、预测结果

数据集(包括训练集和测试集)为一系列数值，没有必要抽象成类，从而我们得到应该抽象出来的类及其方法和属性：

【类】分类器(AutoSklearnClassifier)
【属性】训练需要的相关信息，包括训练时间，模型存储等
【方法】训练、预测、打印模型

而这与之前得到的对象automl的性质正好相对应起来了。

3. 实际执行流程

1. 完成自动化机器学习任务的最核心过程就是模型的训练过程了，在代码中体现为对automl对象的fit()方法的调用，其具体执行流程如下：
fit()方法是AutoSklearnClassifier这个类下声明的第一个方法：

class AutoSklearnClassifier(AutoSklearnEstimator):

    def fit(self, X, y,
            X_test=None,
            y_test=None,
            feat_type=None,
            dataset_name=None):
        """Fit *auto-sklearn* to given training set (X, y).

        Fit both optimizes the machine learning models and builds an ensemble
        out of them. To disable ensembling, set ``ensemble_size==0``.

        """
        # Before running anything else, first check that the
        # type of data is compatible with auto-sklearn. Legal target
        # types are: binary, multiclass, multilabel-indicator.
        target_type = type_of_target(y)
        supported_types = ['binary', 'multiclass', 'multilabel-indicator']
        if target_type not in supported_types:
            raise ValueError("Classification with data of type {} is "
                             "not supported. Supported types are {}. "
                             "You can find more information about scikit-learn "
                             "data types in: "
                             "https://scikit-learn.org/stable/modules/multiclass.html"
                             "".format(
                                    target_type,
                                    supported_types
                                )
                             )

        # remember target type for using in predict_proba later.
        self.target_type = target_type

        super().fit(
            X=X,
            y=y,
            X_test=X_test,
            y_test=y_test,
            feat_type=feat_type,
            dataset_name=dataset_name,
        )

        return self
	......

2. 在这个方法中，通过调用super().fit()实现函数主体过程，而在python语法中，与java类似的，使用super关键字表示调用父类的方法，即此处通过调用父类的fit()方法来实现该类(指AutoSklearnClassifier)的相同方法，相当于该类继承使用其父类的同名方法。
其父类的fit()方法定义如下：

def fit(self, **kwargs):

        # Handle the number of jobs and the time for them
        if self.n_jobs is None or self.n_jobs == 1:
            self._n_jobs = 1
        elif self.n_jobs == -1:
            self._n_jobs = joblib.cpu_count()
        else:
            self._n_jobs = self.n_jobs

        # Automatically set the cutoff time per task
        if self.per_run_time_limit is None:
            self.per_run_time_limit = self._n_jobs * self.time_left_for_this_task // 10

        seed = self.seed
        self.automl_ = self.build_automl(
            seed=seed,
            ensemble_size=self.ensemble_size,
            initial_configurations_via_metalearning=(
                self.initial_configurations_via_metalearning
            ),
            tmp_folder=self.tmp_folder,
            output_folder=self.output_folder,
        )
        self.automl_.fit(load_models=self._load_models, **kwargs)

        return self

3. 在这个过程中，首先调用了该类(指AutoSklearnClassifier的父类)的build_automl()方法创建了一个自动化机器学习器，该方法代码如下：

def build_automl(
        self,
        seed: int,
        ensemble_size: int,
        initial_configurations_via_metalearning: int,
        tmp_folder: str,
        output_folder: str,
        smac_scenario_args: Optional[Dict] = None,
    ):

        backend = create(
            temporary_directory=tmp_folder,
            output_directory=output_folder,
            delete_tmp_folder_after_terminate=self.delete_tmp_folder_after_terminate,
            delete_output_folder_after_terminate=self.delete_output_folder_after_terminate,
            )

        if smac_scenario_args is None:
            smac_scenario_args = self.smac_scenario_args

        automl = self._get_automl_class()(
            backend=backend,
            time_left_for_this_task=self.time_left_for_this_task,
            per_run_time_limit=self.per_run_time_limit,
            initial_configurations_via_metalearning=initial_configurations_via_metalearning,
            ensemble_size=ensemble_size,
            ensemble_nbest=self.ensemble_nbest,
            max_models_on_disc=self.max_models_on_disc,
            seed=seed,
            memory_limit=self.memory_limit,
            include_estimators=self.include_estimators,
            exclude_estimators=self.exclude_estimators,
            include_preprocessors=self.include_preprocessors,
            exclude_preprocessors=self.exclude_preprocessors,
            resampling_strategy=self.resampling_strategy,
            resampling_strategy_arguments=self.resampling_strategy_arguments,
            n_jobs=self._n_jobs,
            dask_client=self.dask_client,
            get_smac_object_callback=self.get_smac_object_callback,
            disable_evaluator_output=self.disable_evaluator_output,
            smac_scenario_args=smac_scenario_args,
            logging_config=self.logging_config,
            metadata_directory=self.metadata_directory,
            metric=self._metric,
            scoring_functions=self._scoring_functions
        )

        return automl

可见其通过调用_get_automl_class()方法创建了AutoML类的一个实例，即上一段提到的自动化机器学习器(对应代码中的self.automl_对象)

4. 在build_automl()创建了self.automl_对象之后，调用了self.automl_.fit()，即类AutoML的fit()方法，完成学习和训练过程。
可见这个用户表面上调用的fit()函数实际上经过了三层不同的类的fit()方法的迭代，最终运行的是类AutoML的fit()方法，而这个最终版的fit()方法代码量较大，在这里就不再展示，感兴趣的读者可以直接进入官方github网站的automl.py文件进行更深入的研究。
实际上，这也是我觉得该项目的设计中略不合理的地方，一个如此长的函数给代码的维护和阅读带来了及其不良的体验，也会带来大量代码的高度耦合，这并不是良好的程序设计风格。就面向对象程序设计而言，这也不符合封装和模块化的思想以及高内聚、低耦合的要求。

三. 核心流程设计分析

1. 类间关系

在上一节的分析中，我们提及了AutoSklearnClassifier及其父类，还有AutoML这三个类，它们以及其他相关类的类间关系如下图：

AutoSklearnEstimator automl_ : NoneType time_left_for_this_task : int per_run_time_limit : NoneType tmp_folder : NoneType output_folder : NoneType n_jobs : NoneType ...... build_automl() fit() predict(X, batch_size, n_jobs) refit(X, y) score(X, y) show_models() sprint_statistics() AutoSklearnClassifier target_type fit(X, y, X_test, y_test, feat_type, dataset_name) predict(X, batch_size, n_jobs) AutoSklearnRegressor fit(X, y, X_test, y_test, feat_type, dataset_name) predict(X, batch_size, n_jobs) AutoML models_ : NoneType, list precision : int fit(X, y, task, X_test, y_test, feat_type, dataset_name) get_models_with_weights() predict(X, batch_size, n_jobs) refit(X, y) score(X, y) show_models() sprint_statistics() AutoMLClassifier fit(X, y, X_test, y_test, feat_type, dataset_name) predict(X, batch_size, n_jobs) AutoMLRegressor fit(X, y, X_test, y_test, feat_type, dataset_name)

与分类器相类似的，机器学习任务中另一种非常重要的模型是回归器(regressor)，因此回归器将作为与分类器相并列的一个类AutoSklearnRegressor而存在，它们的父类AutoSklearnEstimator与类AutoML相关联，从而能够在其自身的fit()方法中调用类AutoML的fit()方法。
类AutoML下也实现了子类AutoMLClassifier和AutoMLRegressor，通过vscode工具查看引用发现这两个类下的fit()方法除了其自身没有被其他任何地方引用，这让我有些纳闷。

事实上，这两个子类的fit()方法也是通过super关键字调用super().fit()实现对类AutoML的fit()方法的最终调用的，因此这两个类的功能与之前提到的AutoSklearnRegressor和AutoSklearnClassifier两个类相比确实有一些重复，所以这也是我认为不太合理的地方，不知道是不是开发者为了提高代码的兼容性而故意保留的冗余部分。

2. 时序图

根据之前的分析可以画出执行流程的时序图如下：

四. 高级设计意图分析

1. 策略模式

策略模式的目的是，针对一组算法，将每一个算法封装到具有共同接口的独立的类中，从而使得它们可以相互替换，在auto-sklearn或sklearn这样的机器学习库中，策略模式的应用是非常常见且典型的。
比如，对于机器学习中的几个关键过程，分类(classification)，回归(regression)，数据预处理(data-preprocessing)，和特征预处理(feature-preprocessing)，每一个过程都有很多种不同的算法或方法来实现，如分类模型有adaboost、decision_tree、k_nearest_neighbors等等，在这个项目中，每一种算法被封装成一个独立的类，这些类均继承于一个与它们具有相同功能的抽象的类，这个类作为所有支持的算法的公共接口。components部分的base模块生成的类图如下：

其中AutoSklearnClassificationAlgorithm、AutoSklearnPreprocessingAlgorithm和AutoSklearnRegressionAlgorithm即为几个公共接口(Strategy)，Context使用这个接口来调用某ConcreteStrategy定义的算法，而ConcreteStrategy即为各种具体的算法。包括了ConcreteStrategy部分的简略类图如下(为降低复杂性略去了类IterativeComponent和类IterativeComponentWithSampleWeight，且由于算法种类过多只展示部分算法，重点是表达设计思想)：

AutoSklearnComponents «interface» AutoSklearnClassificationAlgorithm «interface» AutoSklearnPreprocessingAlgorithm «interface» AutoSklearnRegressionAlgorithm BaseEstimator AdaboostClassifier BernoulliNB DecisionTree GaussianNB KNearestNeighborsClassifier

AutoSklearnComponents «interface» AutoSklearnClassificationAlgorithm «interface» AutoSklearnPreprocessingAlgorithm «interface» AutoSklearnRegressionAlgorithm BaseEstimator PCA RandomTreesEmbedding SelectClassificationRates LibLinear_Preprocessor

AutoSklearnComponents «interface» AutoSklearnClassificationAlgorithm «interface» AutoSklearnPreprocessingAlgorithm «interface» AutoSklearnRegressionAlgorithm BaseEstimator ARDRegression KNearestNeighborsRegressor GaussianProcess LibSVM_SVR LibLinear_SVR

通过策略模式使得架构清晰且符合开闭原则，我们可以很容易增加新的算法或修改原有算法。与此同时，该项目还很好地利用了其他项目的策略模式，从图中可以看到有一个新的类BaseEstimator，这个类与类AutoSklearnComponents的定义相关，但是通过查询它并不存在于本项目的开源代码中，通过vscode检索工具最终发现它出现在了sklearn源码的base模块，如果把类BaseEstimator也看作sklearn的一个接口，那么类AutoSklearnComponents相当于对sklearn中预测器(类BaseEstimator)的一种实现。

2. 代理模式

代理模式的意图为为其他对象提供一种代理以控制对这个对象的访问，其典型的实现方法就是增加中间层，使得代理可以代替实体实现相关功能。
通过前几节的分析，可以发现auto-sklearn的核心设计模式就是代理模式。最终要访问的实体类是AutoML，而类AutoSklearnEstimator相当于它的代理，这个类中并没有fit()方法真正的具体实现，但通过调用它我们却可以得到我们想要的功能和结果，这或许与传统意义上的代理模式略有不同，但其核心思想是相通的。创建一个类AutoML的实例需要比较大的开销，所以这里先创建一个消耗相对较小的对象来表示，真实对象只在需要时才会被真正创建。这应该属于虚拟代理。

五. 结语

所有的分析到这里就结束了，作为一个面向对象编程领域的小白，一个学期下来收获很多，在报告中提出了一些自己不成熟的见解，感谢各位读者的耐心阅读和体谅，有机会也希望与大家共同交流学习~

你可能感兴趣的:(学习笔记,机器学习)

C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python学习笔记5|条件语句和循环语句 iamecho9 Python从0到1学习笔记 python 学习笔记
一、条件语句条件语句用于根据不同的条件执行不同的代码块。1、if语句基本语法：if布尔型语句1:代码块#语句1为True时执行的代码示例：age=int(input("请输入你的年龄:"))ifage>=18:print("你已成年")2、if-else语句如果if条件不成立，则执行else代码块：if布尔型语句1:代码块#语句1为True时执行的代码else:代码块#语句1为False时执行的代
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
5G标准学习笔记14 - CSI--RS概述刘孬孬沉迷学习 5G 学习笔记信息与通信
5G标准学习笔记14-CSI–RS概述大家好~，这里是刘孬孬，今天带着大家一起学习一下5GNR中一个非常非常重要的参考信号------------------CSI-RS信号，CSI-RS不是持续发送，UE只能在网络明确配置了CSI-RS的情况下才能使用其进行信道测量。前言对于CSI-RS，肯定还离不开前面所说的CSI（channelstateinformation），前面也讲过CSI对于MIMO
5G标准学习笔记06-基于AI/ML波束管理刘孬孬沉迷学习 5G 学习笔记
5G标准学习笔记06-基于AI/ML波束管理前言前面对于孬孬学习了波束管理的概述，下面要进一步来看一下传统波束管理和现在3GPP中推动的AL/ML波束管理之前的区别联系。一、传统波束管理方法流程传统BM流程主要包括以下步骤：波束扫描（BeamSweeping）：gNB通过顺序发送多个窄波束（SSB或CSI-RS），覆盖整个服务区域，UE测量每个波束的信号质量（如L1-RSRP或L1-SINR）。波
5G标准学习笔记03- CSI 反馈增强概述刘孬孬沉迷学习 5G 笔记学习
5G标准学习笔记03-CSI反馈增强概述大家好，最近在研究AI/ML3gpp标准NR空口的有关内容，后面可能会给大家介绍一下对应的有关内容AI/ML在3GPP标准中的研究进展在AI/ML在NR空口的应用中，对应标准主要聚焦了3个case进行讨论研究分别是：CSI反馈增强；波束管理；定位精度增强；这三个内容可能比较涉及RAN1/2的具体内容，后面会基于这个进行一定的介绍。今天主要是主要介绍CSI反馈
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图宁儿数据安全 #机器学习学习笔记 matplotlib
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图一、绘制混淆矩阵热图代码解析1.1、导入必要的库importmatplotlib.pyplotaspltfromsklearn.metricsimportconfusion_matriximportseabornassnsmatplotlib.pyplot：Python中最常用的绘图库，用于创建各种图表confusion_matr
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
LLaMA 学习笔记 AI算法网奇深度学习基础人工智能深度学习
目录LLaMA模型结构：模型微调手册：推理示例：指定位置加载模型测试ok：模型下载：llama-stack下载modelscope下载LLaMA优化技术RMSNormSwiGLU激活函数旋转位置编码（RoPE）LLaMA模型结构：llama3结构详解-CSDN博客模型微调手册：大模型微调LLaMA详细指南（准备环境、数据、配置微调参数+微调过程）_llama微调-CSDN博客显存占用：FP16/B
BOOT_KEY按键（学习笔记）小高Baby@ 学习笔记
先来让我们了解一下GPIO是什么吧，它在单片机中也有很重要的作用，接下来我们来看看吧。esp32C3是QFN32封装（一种集成电路（IC）封装类型），GPIO引脚一共有22个，从GPIO-0到GPIO-21。从理论上来说，所有的IO引脚都可以复用为任何外设功能，但有些引脚用作连接芯片内部FLASH或者外部FLASH功能时，官方不建议用作其它用途。esp32c3的GPIO，可以用作输入、输出，可以配
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
Kotlin学习笔记 qq_26907861
1.Val和Varval:用于声明不可变量,不可变是指引用不可变;var:用于声明可变的变量;packagehello//可选的包头funmain(args:Array){//包级可见的函数，接受一个字符串数组作为参数vala="不可变的变量"//不可变的变量varn=2//可变println(a)println(n)}2.fun函数Kotlin中的函数可以这样声明:fun函数名(参数列表):返回
WPF学习笔记（2）——x名称空间详解上幽冥宇少 WPF C#WPF学习笔记初学者 C#VS2013
先说一些基本的，.NET的模块称为程序集（Assembly）。一般情况下，用VS创建的是解决方案（Solution），一个解决方案就是一个完整的程序。解决方案中包含若干个项目（Project），每个项目是可以独立编译的，他的编译结果是一个程序集。常见的程序集是以.exe为扩展名的可执行程序或者是以.dll为扩展名的动态链接库，大多数情况下，我们说“引用其他程序集”的时候，说的是动态链接库。因为.N
初学者的指针学习笔记（1）近津薪荼学习笔记
1.内存和地址1.1内存像学生宿舍一样，被分成许多个房间，每个房间都有自己的房号，每个房间能住8个学生内存被分成许多个单元（小为1Byte），每个单元都有自己的编号，每个单元里能住8个小比特（bite）c语言中，指针就是该单元内存的编号也就是地址，我们可以通过指针快速找到我们要访问的内存1.2编址计算机中的内存编址，是通过硬件设计来完成的，也就是说他被做出来的时候各个内存单元的地址就已经确定了。计
初学者关于自定义类型结构体的学习笔记近津薪荼学习笔记数据结构
1.结构的特殊声明//匿名结构体类型struct{inta;charb;floatc;}x;struct{inta;charb;floatc;}a[20],*p;p=&x;不可取，本质上是两个不同类型的结构体上述代码的声明方式，该结构体类型，如果不重命名的话，只能用一次（声明时顺便创建变量）2.结构体的自引用structNode{intdata;structNodenext;};上述代码，结构体中
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
【大模型与机器学习解惑】什么是A/B测试，为何进行A/B测试？
以下内容将围绕机器学习中的A/B测试展开，从概念与背景到实施细节、示例代码、优化思路和未来建议，并在最后给出一个整体的“输出目录”供参考。目录什么是机器学习的A/B测试为何要进行A/B测试A/B测试的实施流程示例代码与详细解释优化方向与未来建议结语1.什么是机器学习的A/B测试A/B测试（也常被称作对照试验、SplitTest）最早多用于互联网产品的功能或界面迭代中，指的是将用户或样本随机分为两组
Xilinx系FPGA学习笔记（三）Vivado的仿真及ILA使用贾saisai FPGA学习 fpga开发学习笔记
系列文章目录文章目录系列文章目录前言仿真验证（类似modelsim）ILA在线调试工具添加ILAILA的例化ILA的使用前言接着学习vivado的使用方法仿真验证（类似modelsim）首先类似添加.v文件的方法，在File-AddSource中选择Addorcreatesimulationsources或者直接在Sources里面选就行然后就编写testbench，类似之前介绍的modelsim
学习笔记day1
Linux基础Linux到底是什么？Linux主要指的是内核（主机中的CPU）,它也是我们系统的大脑Ubuntu跟Linux的关系：Ubuntu是Linux系统的一个分支。为什么要选⽤Linux?开源的，用户可以根据自己的喜好和需求来定制系统。性免费，企业可以减少开发成本。安全性可移植性高Linux跟我们⽇常使⽤的windows的区别？操作习惯不⼀样：windows是以图形交互为主；Linux操作
详解LLMOps，将DevOps用于大语言模型开发
大家好，在机器学习领域，随着技术的不断发展，将大型语言模型（LLMs）集成到商业产品中已成为一种趋势，同时也带来了许多挑战。为了有效应对这些挑战，数据科学家们转向了一种新型的DevOps实践LLM-OPS，专为大型语言模型的开发和维护而设计。本文将介绍LLM-OPS的核心思想，并分析这一策略如何帮助数据科学家更高效地运用DevOps的优秀实践，从而在语言模型的开发和部署过程中，提升工作效率和成果的
搜广推校招面经九十一
美团机器学习/数据挖掘算法工程师_二面一、介绍一下ESMM模型，是否有进行过函数推导传统的转化率建模方式：只用发生点击（click=1）的样本来训练CVR模型。CVR定义如下：CVR=P(y=1∣x,z=1)CVR=P(y=1|x,z=1)CVR=P(y=1∣x,z=1)y=1表示用户发生了转化（如购买）z=1表示用户点击了广告这样做的问题：样本选择偏差（SampleSelectionBias,S
python 计算生态概览的概述
文章目录前言python计算生态库的介绍1.网络爬虫2.数据分析3.文本处理4.数据可视化5.机器学习6.图形用户界面7.游戏开发8.网络应用开发前言python计算生态概览的解释Python计算生态概览是对Python作为一门强大而广泛使用的编程语言所拥有的庞大软件集合的整体描述和概述。这个生态体系不仅包含了Python的标准库（stdlib），即随Python解释器安装的基本模块，还涵盖了极其
Google机器学习实践指南(模型预测偏差) AI_Auto 人工智能机器学习人工智能
Google机器学习（31）-模型预测偏差预测偏差：模型为何总是"猜不准"的真相揭秘你的模型预测准确率高达95%，却总是与实际情况差那么一点点？这可能是预测偏差在作祟！本文将带你深入探索这个被忽视的模型"隐形杀手"。一、什么是预测偏差？一个生活化案例想象一下，你网购了一个智能体重秤，连续一周称重显示都是60kg。但你去健身房用专业设备测量，实际是62kg。这种系统性的测量偏差，就是预测偏差在现实中
【机器学习|学习笔记】用 Python 结合 graphviz 生成 ID3、C4.5、CART 三种决策树的结构示意图。
【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图文章目录【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图用Python结合graphviz生成ID3、C4.5、CART三种
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本