数学工具构造器

调研AutoGluon数据处理与Tabular-NN

文章目录

剥开果壳，直击AG技术核心
超参搜索与模型训练
TabularNN

TabularNN 的 model-specific 特征处理
对于每种特征构造一个ColumnTransformer
TabularNN的网络结构

可以参考一下这篇博客：AutoGluon Tabular 表数据全流程自动机器学习 AutoML ，不过这位博主虽然有所总结，但是没有深入代码层面。

剥开果壳，直击AG技术核心

hyperparams = {'NN': {'num_epochs': 10, 'activation': 'relu', 'dropout_prob': ag.Real(0.0,0.5)}, 
               'GBM': {'num_boost_round': 1000, 'learning_rate': ag.Real(0.01,0.1,log=True)} }

进入autogluon.task.tabular_prediction.tabular_prediction.TabularPrediction#fit，映入眼帘的是

learner = Learner(path_context=output_directory, label=label, problem_type=problem_type, objective_func=eval_metric, stopping_metric=stopping_metric,
                  id_columns=id_columns, feature_generator=feature_generator, trainer_type=trainer_type,
                  label_count_threshold=label_count_threshold, random_seed=random_seed)
learner.fit(X=train_data, X_test=tuning_data, scheduler_options=scheduler_options,
            hyperparameter_tune=hyperparameter_tune, feature_prune=feature_prune,
            holdout_frac=holdout_frac, num_bagging_folds=num_bagging_folds, num_bagging_sets=num_bagging_sets, stack_ensemble_levels=stack_ensemble_levels,
            hyperparameters=hyperparameters, ag_args_fit=ag_args_fit, excluded_model_types=excluded_model_types, time_limit=time_limits_orig, save_data=cache_data, save_bagged_folds=save_bagged_folds, verbosity=verbosity)

Learner:autogluon.utils.tabular.ml.learner.default_learner.DefaultLearner#__init__

Learner encompasses full problem, loading initial data, feature generation, model training, model prediction

进入autogluon.utils.tabular.ml.learner.default_learner.DefaultLearner#fit

X, y, X_test, y_test, holdout_frac, num_bagging_folds = 
self.general_data_processing(X, X_test, holdout_frac, num_bagging_folds)

进入当前代码文件的general_data_processing函数

首先看到的就是这个代码，先mark一下。不会爆内存？

X = copy.deepcopy(X)

label的缺失值

missinglabel_inds = [index for index, x in X[self.label].isna().iteritems() if x]

处理缺失值的方法是drop

X = X.drop(missinglabel_inds, axis=0)

mark一下当前代码文件的get_problem_type函数。 ~~problem type有MULTICLASS_LIMIT，BINARY，REGRESSION 三种类型~~

其实是4种。还有一个闻所未闻的softclass。详情见autogluon/utils/tabular/ml/constants.py:5

处理完标签，就开始处理特征了。

如果定义了X_test，就叠起来一起做特征工程。这个操作属于基操，不过要小心数据泄露。

X_super = pd.concat([X, X_test], ignore_index=True)
。。。处理。。。
X = X_super.head(len(X)).set_index(X.index)
X_test = X_super.tail(len(X_test)).set_index(X_test.index)

好，开始看数据处理

X = self.feature_generator.fit_transform(X, banned_features=self.submission_columns, drop_duplicates=False)

self.feature_generator来自autogluon.utils.tabular.features.auto_ml_feature_generator.AutoMLFeatureGenerator
进入之。

mark代码文件下get_feature_types函数，用于解析date特征与text特征，值得借鉴。

在minimize_categorical_memory_usage函数中，是用这种神奇的方法做OrdinalEncoding的（传入前已经将object处理成了category）

for column in cat_columns:
    new_categories = list(range(len(X_features[column].cat.categories.values)))
    X_features[column].cat.rename_categories(new_categories, inplace=True)

出栈，回到autogluon/utils/tabular/ml/learner/default_learner.py:66

self.trainer_type
<class 'autogluon.utils.tabular.ml.trainer.auto_trainer.AutoTrainer'>

进入autogluon.utils.tabular.ml.trainer.auto_trainer.AutoTrainer#train函数

处理超参数（看不出个所以然来）

self.hyperparameters = self._process_hyperparameters(hyperparameters=hyperparameters, ag_args_fit=ag_args_fit, excluded_model_types=excluded_model_types)

获取模型

models = self.get_models(hyperparameters=self.hyperparameters, hyperparameter_tune=hyperparameter_tune, level=0)

获取模型的get_models函数调用了autogluon.utils.tabular.ml.trainer.model_presets.presets.get_preset_models

level_key = default

怀疑model是kwargs

model
{'num_epochs': 10, 'activation': 'relu', 'dropout_prob': Real: lower=0.0, upper=0.5, 'AG_args': {'model_type': 'NN'}}

果然，autogluon/utils/tabular/ml/trainer/model_presets/presets.py:129

model_names_set.add(name)
model_params = copy.deepcopy(model)
model_params.pop(AG_ARGS)

model_init就是模型实例了

model_init = model_type(path=path, name=name, problem_type=problem_type, objective_func=objective_func, stopping_metric=stopping_metric, num_classes=num_classes, hyperparameters=model_params)

进入autogluon.utils.tabular.ml.models.abstract.abstract_model.AbstractModel#__init__

mark一下TabularNN的所在地为autogluon.utils.tabular.ml.models.tabular_nn.tabular_nn_model.TabularNeuralNetModel

进入autogluon.utils.tabular.ml.trainer.abstract_trainer.AbstractTrainer#stack_new_level
有是个数据处理？每太看懂

X_train_init = self.get_inputs_to_stacker(X, level_start=0, level_end=level, fit=True)

return self.train_multi(X_train=X_train_init, y_train=y, X_test=X_test, y_test=y_test, models=models, hyperparameter_tune=hyperparameter_tune, feature_prune=feature_prune, level=level, stack_name=stack_name, kfolds=kfolds, n_repeats=n_repeats, time_limit=time_limit)

进入当前代码文件的train_multi
套娃进入train_multi_initial
套娃进入train_multi_fold
套娃进入train_single_full

超参搜索与模型训练

hpo_models, hpo_model_performances, hpo_results = model.hyperparameter_tune(X_train=X_train, X_test=X_test, Y_train=y_train, Y_test=y_test, scheduler_options=(self.scheduler_func, self.scheduler_options), verbosity=self.verbosity)

model(autogluon.utils.tabular.ml.models.lgb.lgb_model.LGBModel)自带一个hyperparameter_tune方法，

self.scheduler_func
<class 'autogluon.scheduler.fifo.FIFOScheduler'>
self.scheduler_options
{'resource': {'num_cpus': 12, 'num_gpus': 0}, 'searcher': 'random', 'search_options': {}, 'checkpoint': None, 'resume': False, 'num_trials': 5, 'time_out': 27.0, 'reward_attr': 'validation_performance', 'time_attr': 'epoch', 'visualizer': 'none', 'dist_ip_addrs': []}

我们先来看LGBM（同时也是优先级最高的模型。paper一直说自己的tabularNN多么牛x，但实际上也没设为最高优先级，口嫌体正直）

进入autogluon.utils.tabular.ml.models.lgb.lgb_model.LGBModel#hyperparameter_tune

这段代码在check min_data_in_leaf 这个超参

if isinstance(params_copy['min_data_in_leaf'], Int):
    upper_minleaf = params_copy['min_data_in_leaf'].upper
    if upper_minleaf > X_train.shape[0]:  # TODO: this min_data_in_leaf adjustment based on sample size may not be necessary
        upper_minleaf = max(1, int(X_train.shape[0] / 5.0))
        lower_minleaf = params_copy['min_data_in_leaf'].lower
        if lower_minleaf > upper_minleaf:
            lower_minleaf = max(1, int(upper_minleaf / 3.0))
        params_copy['min_data_in_leaf'] = Int(lower=lower_minleaf, upper=upper_minleaf)

超参搜索（HPO）与训练就有意思了：

先在hyperparameter_tune函数的最后调用一个scheduler.run()
按F7进入之。
run函数的最后是个循环，不断调用self.schedule_next()。
按F7进入之。
config在这里是随机推荐的：（AG实现了其他的推荐器，如skopt等）

config = self.searcher.get_config(**extra_kwargs)

schedule_next函数的最后是这样一段代码：

task = self._create_new_task(config, resources=resources)
self.add_job(task, **extra_kwargs)

task
Task (task_id: 0,
	fn: <function lgb_trial at 0x7f4de2db31e0>,
	args: {args: {'util_args': {'dataset_train_filename': 'dataset_train.bin', 'dataset_val_filename': 'dataset_val.b.., config: {'feature_fraction': 1.0, 'learning_rate': 0.0316227766, 'min_data_in_leaf': 20, 'num_leaves': 31}, },
	resource: DistributedResource(
	Node = Remote REMOTE_ID: 0, 
	<Remote: 'inproc://192.168.1.106/2563/1' processes=1 threads=12, memory=16.68 GB>
	nCPUs = 12, CPU_IDs = {[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]}))
type(task)
<class 'autogluon.core.task.Task'>

最后估计要调autogluon.utils.tabular.ml.models.lgb.hyperparameters.lgb_trial.lgb_trial

进入autogluon/utils/tabular/ml/models/lgb/hyperparameters/lgb_trial.py:19，打断点F9

args.keys()
dict_keys(['util_args', 'num_boost_round', 'num_threads', 'objective', 'verbose', 'boosting_type', 'two_round', 'learning_rate', 'feature_fraction', 'min_data_in_leaf', 'num_leaves', 'seed_value', 'task_id'])

简单扫了一眼，num_boost_round， learning_rate， feature_fraction， min_data_in_leaf， num_leaves 都是LGBM常见的超参。参数中混杂了一些其他的参数，如task_id。

进入autogluon.utils.tabular.ml.models.abstract.model_trial.prepare_inputs

一波操作骚的可以

type(args["util_args"])
<class 'autogluon.utils.edict.EasyDict'>
args["util_args"].model
<autogluon.utils.tabular.ml.models.lgb.lgb_model.LGBModel object at 0x7f4db0840860>

最后调用了一个autogluon.utils.tabular.ml.models.abstract.model_trial.fit_and_save_model函数。

看的头晕眼花，还是不管LGBM和莫名其妙的流程了，直接看tabularNN吧

TabularNN

在autogluon/scheduler/fifo.py:235打一断点，待LGBM的5次trial都执行完之后， Run To Cursor 到 autogluon/scheduler/fifo.py:300，打印

task.fn
<function tabular_nn_trial at 0x7f616248f730>

按两次shift键查询tabular_nn_trial，进入autogluon.utils.tabular.ml.models.tabular_nn.tabular_nn_trial.tabular_nn_trial，在函数内打一断点。（Run To Cursor并不会执行到该函数，AG和HpBandSter差不多，worker和master在两个进程/线程）

重新运行代码，跑到tabular_nn_trial函数

train_dataset = TabularNNDataset.load(util_args.train_path)

train_dataset.feature_groups
{'vector': ['age', 'fnlwgt', 'education-num', 'hours-per-week', 'capital-gain', 'capital-loss', 'sex'], 'embed': ['workclass', 'education', 'marital-status', 'occupation', 'relationship', 'race', 'native-country'], 'language': []}

TabularNN 的 model-specific 特征处理

首先关注TabularNN的数据处理（我对data skew的处理很感兴趣）

在autogluon.utils.tabular.ml.models.tabular_nn.tabular_nn_model.TabularNeuralNetModel#generate_datasets的autogluon/utils/tabular/ml/models/tabular_nn/tabular_nn_model.py:452打一断点，按F7进入

发现TabularNN并没有实现自己的preprocess函数，而用的是父类的函数。

进入当前代码文件的process_train_data。这个函数才是预处理的关键

首先就是获取特征类型了，进入_get_types_of_features，一共有5种特征类型：

types_of_features = {'continuous': [], 'skewed': [], 'onehot': [], 'embed': [], 'language': []}

# continuous = numeric features to rescale
# skewed = features to which we will apply power (ie. log / box-cox) transform before normalization
# onehot = features to one-hot encode (unknown categories for these features encountered at test-time are encoded as all zeros). We one-hot encode any features encountered that only have two unique values.
for feature in self.features:
    feature_data = df[feature] # pd.Series
    num_unique_vals = len(feature_data.unique())
    if num_unique_vals == 2:  # will be onehot encoded regardless of proc.embed_min_categories value
        types_of_features['onehot'].append(feature)
    elif feature in continuous_featnames:
        if np.abs(feature_data.skew()) > skew_threshold:
            types_of_features['skewed'].append(feature)
        else:
            types_of_features['continuous'].append(feature)
    elif feature in categorical_featnames:
        if num_unique_vals >= embed_min_categories: # sufficiently many categories to warrant learned embedding dedicated to this feature
            types_of_features['embed'].append(feature)
        else:
            types_of_features['onehot'].append(feature)
    elif feature in language_featnames:
        types_of_features['language'].append(feature)
return types_of_features

skew_threshold =0.99 ， embed_min_categories = 4

对于每种特征构造一个ColumnTransformer

在识别完特征之后，会开始构造ColumnTransformer
直接放代码了：

impute_strategy = median ， max_category_levels = 100

def _create_preprocessor(self, impute_strategy, max_category_levels):
    """ Defines data encoders used to preprocess different data types and creates instance variable which is sklearn ColumnTransformer object """
    if self.processor is not None:
        Warning("Attempting to process training data for TabularNeuralNetModel, but previously already did this.")
    continuous_features = self.types_of_features['continuous']
    skewed_features = self.types_of_features['skewed']
    onehot_features = self.types_of_features['onehot']
    embed_features = self.types_of_features['embed']
    language_features = self.types_of_features['language']
    transformers = [] # order of various column transformers in this list is important!
    if len(continuous_features) > 0:
        continuous_transformer = Pipeline(steps=[
            ('imputer', SimpleImputer(strategy=impute_strategy)),
            ('scaler', StandardScaler())])
        transformers.append( ('continuous', continuous_transformer, continuous_features) )
    if len(skewed_features) > 0:
        power_transformer = Pipeline(steps=[
            ('imputer', SimpleImputer(strategy=impute_strategy)),
            ('quantile', QuantileTransformer(output_distribution='normal')) ]) # Or output_distribution = 'uniform'
            # TODO: remove old code: ('power', PowerTransformer(method=self.params['proc.power_transform_method'])) ])
        transformers.append( ('skewed', power_transformer, skewed_features) )
    if len(onehot_features) > 0:
        onehot_transformer = Pipeline(steps=[
            # TODO: Consider avoiding converting to string for improved memory efficiency
            ('to_str', FunctionTransformer(self.convert_df_dtype_to_str)),
            ('imputer', SimpleImputer(strategy='constant', fill_value=self.unique_category_str)),
            ('onehot', OneHotMergeRaresHandleUnknownEncoder(max_levels=max_category_levels, sparse=False))]) # test-time unknown values will be encoded as all zeros vector
        transformers.append( ('onehot', onehot_transformer, onehot_features) )
    if len(embed_features) > 0: # Ordinal transformer applied to convert to-be-embedded categorical features to integer levels
        ordinal_transformer = Pipeline(steps=[
            ('to_str', FunctionTransformer(self.convert_df_dtype_to_str)),
            ('imputer', SimpleImputer(strategy='constant', fill_value=self.unique_category_str)),
            ('ordinal', OrdinalMergeRaresHandleUnknownEncoder(max_levels=max_category_levels))]) # returns 0-n when max_category_levels = n-1. category n is reserved for unknown test-time categories.
        transformers.append( ('ordinal', ordinal_transformer, embed_features) )
    if len(language_features) > 0:
        raise NotImplementedError("language_features cannot be used at the moment")
    return ColumnTransformer(transformers=transformers) # numeric features are processed in the same order as in numeric_features vector, so feature-names remain the same.

用了QuantileTransformer 而没用PowerTransformer，但是变量名申明的却是power_transformer，发生了什么

一个一个看：

连续值与偏斜值都填充median
连续值用SimpleImputer做Z-score，偏斜值用QuantileTransformer(output_distribution='normal') 将分布处理为正态分布。
低基数的onehot特征用的是OneHotMergeRaresHandleUnknownEncoder
高基数的embed特征用的是OrdinalMergeRaresHandleUnknownEncoder

自研Encoder参数：max_levels=max_category_levels(100)，研究一下这两个自研 Encoder

感觉写的挺烂的。max_levels=max_category_levels(100)的思路和auto-sklearn 2.0的Category Coalescence 、Minority Coalescer神似。只不过ASKL采取的是ratio或者说fraction的思想（Minimum percentaage samples∈[0.0001, 0.5]）,而AG采取的是指定一个数的思想，并且是写死的（max_category_levels = 100）

self.feature_arraycol_map = self._get_feature_arraycol_map(max_category_levels=max_category_levels)

OrderedDict of feature-name -> list of column-indices in df corresponding to this feature

{'age': [0], 'fnlwgt': [1], 'education-num': [2], 'hours-per-week': [3], 'capital-gain': [4], 'capital-loss': [5], 'sex': [6, 7], 'workclass': [8], 'education': [9], 'marital-status': [10], 'occupation': [11], 'relationship': [12], 'race': [13], 'native-country': [14]}

单独搞了个函数算特征处理的一对多关系，脱裤子放屁。

TabularNN的网络结构

TabularNN数据处理的代码就是这些了，看训练的代码吧

autogluon.utils.tabular.ml.models.abstract.model_trial.fit_and_save_model
autogluon.utils.tabular.ml.models.abstract.abstract_model.AbstractModel#fit
autogluon.utils.tabular.ml.models.tabular_nn.tabular_nn_model.TabularNeuralNetModel#_fit

进入get_net

self.model = EmbedNet(train_dataset=train_dataset, params=params, num_net_outputs=self.num_net_outputs, ctx=self.ctx)

params
{'num_epochs': 10, 'epochs_wo_improve': 20, 'seed_value': None, 'proc.embed_min_categories': 4, 'proc.impute_strategy': 'median', 'proc.max_category_levels': 100, 'proc.skew_threshold': 0.99, 'network_type': 'widedeep', 'layers': None, 'numeric_embed_dim': None, 'activation': 'relu', 'max_layer_width': 2056, 'embedding_size_factor': 1.0, 'embed_exponent': 0.56, 'max_embedding_dim': 100, 'y_range': None, 'y_range_extend': 0.05, 'use_batchnorm': True, 'dropout_prob': 0.25, 'batch_size': 512, 'loss_function': None, 'optimizer': 'adam', 'learning_rate': 0.0003, 'weight_decay': 1e-06, 'clip_gradient': 100.0, 'momentum': 0.9, 'lr_scheduler': None, 'base_lr': 3e-05, 'target_lr': 1.0, 'lr_decay': 0.1, 'warmup_epochs': 10, 'use_ngram_features': False}

进入EmbedNet的构造函数

train_dataset.getNumCategoriesEmbeddings()的意义在于统计每个cat feature的基数

getEmbedSizes计算Embed后各个cat feature的维度

mark一下，调研MLBox的EntityCoding

def getEmbedSizes(train_dataset, params, num_categs_per_feature):  
    """ Returns list of embedding sizes for each categorical variable.
        Selects this adaptively based on training_datset.
        Note: Assumes there is at least one embed feature.
    """
    max_embedding_dim = params['max_embedding_dim']
    embed_exponent = params['embed_exponent']
    size_factor = params['embedding_size_factor']
    embed_dims = [int(size_factor*max(2, min(max_embedding_dim, 
                                      1.6 * num_categs_per_feature[i]**embed_exponent)))
                   for i in range(len(num_categs_per_feature))]
    return embed_dims

autogluon.utils.tabular.ml.models.tabular_nn.tabular_nn_model.TabularNeuralNetModel#set_net_defaults

vector_dim = train_dataset.dataset._data[train_dataset.vectordata_index].shape[1]  # total dimensionality of vector features
prop_vector_features = train_dataset.num_vector_features() / float(train_dataset.num_features) # Fraction of features that are numeric
min_numeric_embed_dim = 32
max_numeric_embed_dim = params['max_layer_width']
params['numeric_embed_dim'] = int(min(max_numeric_embed_dim, max(min_numeric_embed_dim,
params['layers'][0]*prop_vector_features*np.log10(vector_dim+10) )))

params['layers']
[256, 128]

autogluon/utils/tabular/ml/models/tabular_nn/tabular_nn_model.py:328

self.model
EmbedNet(
  (numeric_block): NumericBlock(
    (body): Dense(8 -> 160, Activation(relu))
  )
  (embed_blocks): HybridSequential(
    (0): EmbedBlock(
      (body): Embedding(7 -> 4, float32)
    )
    (1): EmbedBlock(
      (body): Embedding(14 -> 7, float32)
    )
    (2): EmbedBlock(
      (body): Embedding(6 -> 4, float32)
    )
    (3): EmbedBlock(
      (body): Embedding(14 -> 7, float32)
    )
    (4): EmbedBlock(
      (body): Embedding(7 -> 4, float32)
    )
    (5): EmbedBlock(
      (body): Embedding(6 -> 4, float32)
    )
    (6): EmbedBlock(
      (body): Embedding(6 -> 4, float32)
    )
  )
  (output_block): WideAndDeepBlock(
    (deep): FeedforwardBlock(
      (body): HybridSequential(
        (0): BatchNorm(axis=1, eps=1e-05, momentum=0.9, fix_gamma=False, use_global_stats=False, in_channels=194)
        (1): Dropout(p = 0.25, axes=())
        (2): Dense(194 -> 256, Activation(relu))
        (3): BatchNorm(axis=1, eps=1e-05, momentum=0.9, fix_gamma=False, use_global_stats=False, in_channels=256)
        (4): Dropout(p = 0.25, axes=())
        (5): Dense(256 -> 128, Activation(relu))
        (6): BatchNorm(axis=1, eps=1e-05, momentum=0.9, fix_gamma=False, use_global_stats=False, in_channels=128)
        (7): Dropout(p = 0.25, axes=())
        (8): Dense(128 -> 2, linear)
      )
    )
    (wide): Dense(194 -> 2, linear)
  )
)

你可能感兴趣的:(automl)

【神经网络搜索】NasBench301 使用代理模型构建Benchmark *pprp* 神经网络搜索 AutoML NAS工具箱神经网络人工智能深度学习
【GiantPandaCV导语】本文介绍的是NAS中的一个benchmark-NASBench301,由automl.org组织发表，其核心思想是针对表格型基准存在的不足提出使用代理模型拟合架构与对应准确率。Paper:NAS-Bench-301andThecaseforsurrogatebenchmarksforNeuralArchitectureSearchCode:https://githu
Java 大数据自动化机器学习（AutoML）：框架与应用案例（36）青云交大数据新视界 Java 大视界大数据自动化机器学习 AutoML 应用案例金融风控框架电商推荐 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、本博客的精华专栏：
AI编程时代，程序员不得不懂的产品设计思维！！用户故事是什么?该如何写用户故事？小南AI学院人工智能敏捷开发
0.AI编程时代，你会被淘汰吗？亲爱的码农朋友们，听到AI工具写代码越来越强的消息，是不是有点慌了？ChatGPT、Copilot、AutoML，Cursor一个个名字看起来像是在“抢饭碗”的大佬。AI编程时代已经来临，单纯写代码的技能，可能会被逐渐边缘化！未来，你不仅是码农，更要成为产品经理式的码农！因为在未来，会写代码只是“入场券”，而能解决问题才是“通行证”。不会思考产品、不会理解用户、不会
【论文笔记】AutoML: A survey of the state-of-the-art（下篇） pip install USART 学习笔记论文阅读记录论文阅读算法深度学习
目录4.ModelGeneration模型生成4.1SearchSpace搜索空间4.1.1Entire-structuredsearchspace基于整个架构的4.1.2Cell-basedsearchspace基于Cell的空间4.1.3Hierarchicalsearchspace层次化的空间4.1.3Morphism-basedsearchspace基于“态射”的空间4.2网络优化方法（搜
NAS(Neural Architecture Search) 神经结构搜索 hxxjxw
Neuralarchitecturesearch(NAS)，神经结构搜索，是强化学习的一个重要应用方向，也是AutoML的一个非常火的研究方向.NAS的原理是给定一个称为搜索空间的候选神经网络结构集合，用某种策略从中搜索出最优网络结构
AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.04.15-2024.04.25 小小帅AIGC VLM论文时报人工智能语言模型自然语言处理 VLM 视觉语言模型多模态计算机视觉
文章目录~1.AutoGluon-Multimodal(AutoMM):SuperchargingMultimodalAutoMLwithFoundationModels2.FusionofDomain-AdaptedVisionandLanguageModelsforMedicalVisualQuestionAnswering3.CatLIP:CLIP-levelVisualRecognitio
AutoML原理与代码实例讲解 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AutoML原理与代码实例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着数据量的爆炸式增长和算法的日益复杂，机器学习在各个领域的应用越来越广泛。然而，机器学习模型的开发过程往往需要大量的专业知识和经验。数据预处理、特征工程、模型选择、参数调优等步骤都需要人工进行，这使得机器学习模型的开发变得复杂且耗时。为了解决这
遗传算法与深度学习实战（1）——进化深度学习盼小辉丶遗传算法与深度学习实战深度学习人工智能遗传算法
遗传算法与深度学习实战（1）——进化深度学习0.前言1.进化深度学习1.1进化深度学习简介1.2进化计算简介2.进化深度学习应用场景3.深度学习优化3.1优化网络体系结构4.通过自动机器学习进行优化4.1自动机器学习简介4.2AutoML工具5.进化深度学习应用5.1模型选择：权重搜索5.2模型架构：架构优化5.3超参数调整/优化5.4验证和损失函数优化5.5增强拓扑的神经进化小结系列链接0.前言
Python自动化机器学习库之evalml使用详解 Rocky006 python 人工智能开发语言
概要数据科学是当今科技领域中不可或缺的一部分，而机器学习是数据科学的核心。然而，构建和部署机器学习模型常常需要大量的时间和精力，涉及到数据预处理、特征工程、模型选择、超参数调优等一系列复杂任务。为了简化这个过程，使其更加高效，EvalML库应运而生。EvalML是一款用于自动化机器学习（AutoML）的Python库，它可以自动完成机器学习工作流程的各个阶段。本文将详细介绍EvalML的功能和用法
【AutoML】AutoKeras 数据清洗与简单提纯 kida_yuan Python python 数据处理 automl
从上一章节可知，数据已经从4个数据源获取过来并已全部入库。目前数据库共分出11张表，如下图：mysql>usephw2_industry_bot;ReadingtableinformationforcompletionoftableandcolumnnamesYoucanturnoffthisfeaturetogetaquickerstartupwith-ADatabasechangedmysql
Scikit-Learn 高级教程——自动化机器学习 Echo_Wish Python 笔记 Python算法机器学习 scikit-learn 自动化
PythonScikit-Learn高级教程：自动化机器学习自动化机器学习是通过自动搜索和选择最佳模型及其超参数的过程，以简化机器学习任务的一种方法。Scikit-Learn中提供了AutoML工具，本篇博客将详细介绍如何使用AutoML来自动化机器学习任务。1.安装AutoML包首先，确保你已经安装了相应的AutoML包。Scikit-Learn提供了一些AutoML工具，其中一种常用的是TPO
使用强化学习进行神经网络结构搜索的代码以及修改 ThreeS_tones DRL 神经网络人工智能深度学习
目录代码一（UsingTensorFlow）：代码二（UsingTensorFlow）：代码三（UsingPyTorch）：参考：本人在网上找了三个相关的代码，但是都有问题，这里记录一下修改哪些地方之后可以跑通。代码一（UsingTensorFlow）：代码地址：https://github.com/wallarm/nascell-automl这个代码有详细的说明：TheFirstStep-by-
NAS with RL（Using TensorFlow） ThreeS_tones DRL tensorflow 人工智能 python
目录代码一：train.pynet_manager.pycnn.pyreinforce.py代码二：train.pycontroller.pymodel.pymanager.pynascell.py代码一：代码地址：nascell-automl-master修改后代码（需要新建几个python文件）：train.pyimportnumpyasnpimporttensorflow.compat.v1
XGBoost系列8——XGBoost的未来：从强化学习到AutoML theskylife 数据挖掘人工智能机器学习数据挖掘 XGboost python
目录写在开头1.XGBoost在强化学习中的应用1.1构建强化学习问题1.2XGBoost与深度强化学习的对比1.3实际任务中的成功案例2.XGBoost与AutoML的结合2.1XGBoost在自动特征工程中的应用2.2超参数优化和自动模型选择2.3实际案例：XGBoost与AutoML的成功结合3.基于XGBoost的前瞻性研究与发展趋势3.1模型的可解释性提升3.2对非结构化数据的更好适应3
机器学习没那么难，Azure AutoML帮你简单3步实现自动化模型训练 AI普惠大师云计算 azure microsoft 机器学习自动化人工智能
在MachineLearning这个领域，通常训练一个业务模型的难点并不在于算法的选择，而在于前期的数据清理和特征工程这些纷繁复杂的工作，训练过程中的问题在于参数的反复迭代优化。AutoML是AzureDatabricks的一项功能，它自动的对数据进行清理和特征工程并使用数据尝试多种算法和参数来训练最佳机器学习模型。使用这种自动化模型训练可以满足以下业务问题的模型训练：1、分类问题：AutoML可
通俗科普文：贝叶斯优化与SMBO、高斯过程回归、TPE（附新书）科技州与数据州
以下文章来源于SimpleAI，作者郭必扬贝叶斯优化是AutoML中的重要概念，近年来变得很火热。作为一种重要的基于先验的调参/策略选择技术，贝叶斯的应用范围也很广。但这个概念对于初次接触的同学可能较难理解，经过数天的论文研读、博客/教程/代码查阅，我总结了这篇科普文，也手绘了一些示意图，希望尽量在一篇文章内、通俗易懂地讲清楚什么是贝叶斯优化。本文目录：理清基本概念的关系各种超参数调节方法的对比G
DeepCamera - 将相机转换为AI-Powered with Embedded / Android / Pi等。 Android征途
什么是SharpAIDeepCameraARMGPU上的深度学习视频处理监控，用于人脸识别以及更多方法。将数码相机变成AI供电的相机。使用ARMGPU/NPU的边缘AI生产级平台，利用AutoML。面向开发人员/儿童/家庭/中小企业/企业/云的第一个世界级EdgeAI全栈平台，由社区烘焙。用于深度学习边缘计算设备的完整堆栈系统，特别是使用图像刻录或Androidapk安装的shell设置。移动数据
automl框架:AutoGluon介绍李白唱着歌去镇上
automl框架:AutoGluon介绍原理大部分automl框架是基于超参数搜索技术，例如基于贝叶斯搜索的hyperopt技术等AutoGluon则依赖融合多个无需超参数搜索的模型，三个臭皮匠顶个诸葛亮stacking:在同一份数据上训练出多个不同类型的模型，这些模型可以是KNN、tree、核方法等，这些模型的输出进入到一个线性模型里面得到最终的输出，就是对这些输出做加权求和，这里的权重是通过训
NAS入门（学习笔记）清风2022 学习笔记 NAS AutoML Zero-shot 深度学习人工智能
文章目录AutoMLNAS初期NAS当前NAS框架One-ShotNAS权重共享策略Zero-ShotNASZen-NASNASWOTEPENAS参考资料AutoML深度学习使特征学习自动化AutoML使深度学习自动化自动化机器学习(automatedmachinelearning)是一种自动化的数据驱动方法,并做出一系列决策。按模型类型划分，分为以下两类：ClassicalML：传统机器学习模型
AutoKeras 缘起性空、 keras 人工智能深度学习 python
简介AutoKeras是一个开源的，基于Keras的自动机器学习（AutoML）库。它是一个用于自动化机器学习的开源软件库，提供自动搜索深度学习模型的架构和超参数的功能。相比于传统的机器学习方法，AutoKeras可以自动处理特征工程、模型选择、超参数调优等步骤，大大减少了繁琐的手动操作。AutoKeras旨在简化机器学习模型的开发过程，其基于Keras构建，并提供了一套高级API，使得模型的训练
详解数据科学自动化与机器学习自动化澳鹏Appen 人工智能与机器学习计算机视觉训练数据机器学习自动化人工智能
过去十年里，人工智能（AI）构建自动化发展迅速并取得了多项成就。在关于AI未来的讨论中，您可能会经常听到人们交替使用数据科学自动化与机器学习自动化这两个术语。事实上，这些术语有着不同的定义：如今的自动化机器学习，即AutoML，特指模型构建自动化。但是，数据科学家的工作内容并不仅止于此。简单地说，数据科学家从数据中获取信息，以解决现实世界中的问题；机器学习只是数据科学家的众多工作方法之一。从数据预
我们如何在Pinterest Ads中使用AutoML，多任务学习和多塔模型 weixin_26726011 机器学习 python 人工智能 tensorflow 深度学习
ErnestWang|SoftwareEngineer,AdsRanking欧内斯特·王|软件工程师，广告排名PeoplecometoPinterestinanexplorationmindset,oftenengagingwithadsthesamewaytheydowithorganicPins.WithinadsourmissionistohelpPinnersgofrominspirati
谷歌15个人工智能开源免费项目！开发者：懂了喜欢打酱油的老鸟人工智能谷歌15个人工智能开源免费项目
2019-11-2114:37:20关于人工智能的开源项目，相信开发者们已经目睹过不少了，Github上也有大把的资源。不过笔者今天说的并非来自Github，而是来自科技“大厂”Google发布的一些涉及到机器学习、深度学习、神经网络等优质的人工智能开源项目，精心挑选了一部分推荐给大家学习。下面就来看一看。1、AdaNet：快速灵活的AutoML，可自主学习。AdaNet是一个基于TensorFl
如何通过 Al 的能力提升编程的效率？向上的车轮笔记人工智能
通过人工智能（AI）的技术，可以提升编程效率和能力。以下是一些建议和方法：代码自动生成：使用AI技术，可以根据程序员的需求和输入，自动生成代码。这可以提高编程效率，减少编写代码所需的时间。例如，使用AutoML（自动机器学习）技术，可以根据需求自动生成相应的代码。importrandomclassAnimal:def__init__(self,name,speed):self.name=names
AutoML 和神经架构搜索初探 linjingyg 架构神经网络人工智能
来自CMU和DeepMind的研究人员最近发布了一篇有趣的新论文，称为可微分网络结构搜索（DARTS），它提供了一种神经网络结构搜索的替代方法，这是目前机器学习领域的一个大热门。神经网络结构搜索去年被大肆吹捧，Google首席执行官SundarPichai和GoogleAI负责人JeffDean宣称，神经网络结构搜索及其所需的大量计算能力对于机器学习的大众化至关重要。科技媒体争相报道了谷歌在神经网
Azure 机器学习 - 使用受保护工作区时的网络流量流 TechLead KrisChang azure 机器学习人工智能 microsoft
目录环境准备入站和出站要求方案：从工作室访问工作区方案：从工作室使用AutoML、设计器、数据集和数据存储方案：使用计算实例和计算群集方案：使用联机终结点入站通信出站通信方案：使用AzureKubernetes服务方案：使用Azure机器学习管理的Docker映像当Azure机器学习工作区和关联的资源在Azure虚拟网络中受保护时，资源之间的网络流量会发生改变。在没有虚拟网络的情况下，网络流量将通
实用机器学习-学习笔记雨浅听风吟机器学习学习人工智能
文章目录3.5多层感知机3.5.1手动提取特征到学习特征3.5.2线性方法到多层感知机3.5.3代码实现4.2过拟合和欠拟合4.2.1模型选择4.2.2总结9.1模型调参9.1.1思考与总结9.1.2基线baseline9.1.3SGDADAM9.1.4训练代价9.1.5AUTOML9.1.6要多次调参管理9.1.7复现实验的困难9.2超参数的优化9.2.1超参数的范围9.2.2超参数优化的算法黑
如何在 Azure 中使用自动机器学习进行模型训练嵌入式杂谈 azure 机器学习 microsoft
自动机器学习（AutomatedMachineLearning，简称为AutoML）是一种通过自动化流程来简化模型训练和调优的技术。在Azure机器学习平台中，AutoML提供了丰富的功能和工具，使我们能够快速地训练和优化机器学习模型。本文将介绍如何在Azure中使用自动机器学习进行模型训练，并提供一些实用的技巧和注意事项。一、数据准备：在开始之前，我们需要准备用于训练的数据集。Azure机器学习
AI调参师会被取代吗？对话AutoML初创公司探智立方喜欢打酱油的老鸟人工智能 AI调参师探智立方 AutoML
1955年，约翰·麦卡锡（JohnMcCarthy）、马文·闵斯基（MarvinMinsky）、克劳德·香农（ClaudeShannon）等人聚在一起，为第二年即将召开的具有重要历史意义的“达特矛斯会议”列了一份AI研究议题，排在首位的就是“AutomaticComputers”——自动编程计算机。作为AI的开山鼻祖，他们在这份纲领里写道：“我们相信，如果精心挑选一批科学家，在一起工作一个夏天，
论文笔记系列-Neural Network Search ：A Survey aiwanghuan5017 人工智能数据结构与算法
论文笔记系列-NeuralNetworkSearch：ASurvey论文笔记NASautomlsurveyreviewreinforcementlearningBayesianOptimizationevolutionaryalgorithm注:本文主要是结合自己理解对原文献的总结翻译，有的部分直接翻译成英文不太好理解，所以查阅原文会更直观更好理解。本文主要就SearchSpace、SearchS
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。