若石之上

详解Hugging Face Transformers的TrainingArguments

前言：

TrainingArguments是Hugging Face Transformers库中用于训练模型时需要用到的一组参数，用于控制训练的流程和效果。

使用示例：

from transformers import Trainer,TrainingArguments
training_args = TrainingArguments(output_dir="result")
trainer = Trainer(model=model,args=training_args,compute_metrics=compute_metrics,
                  train_dataset=tokenized_emotions["train"]
                  ,eval_dataset=tokenized_emotions["validation"])

具体参数介绍：

1、output_dir (`str`):

模型预测和检查点输出的目录

2、overwrite_output_dir (`bool`, *optional*, defaults to `False`)

如果该参数为True，在输出目录output_dir已经存在的情况下将删除该目录并重新创建。默认值是False

3、do_train (`bool`, *optional*, defaults to `False`)

是否进行训练。Trainer没有直接使用此参数，它应用在我们写的training/evaluation脚本。

4、do_eval (`bool`, *optional*)

是否对验证集进行评估，evaluation_strategy如果不是no的话，应该设置为true，Trainer没有直接使用此参数，它应用在我们写的training/evaluation脚本。

5、do_predict (`bool`, *optional*, defaults to `False`)

是否在测试集上进行预测，Trainer没有直接使用此参数，它应用在我们写的training/evaluation脚本。

6、evaluation_strategy (`str` or [`~trainer_utils.IntervalStrategy`], *optional*, defaults to `"no"`):

训练期间采用的评估策略，可选的值有：

"no"：训练期间不进行评估
"steps"`：每一个`eval_steps`阶段之后都进行评估
"epoch"：每一个epoch之后进行评估

7、prediction_loss_only (`bool`, *optional*, defaults to `False`):

当执行评估和预测的时候，是否仅仅返回损失

8、per_device_train_batch_size (`int`, *optional*, defaults to 8):

每一个GPU/TPU 或者CPU核心训练的批次大小

9、per_device_eval_batch_size (`int`, *optional*, defaults to 8):

每一个GPU/TPU 或者CPU核心评估的批次大小

10、gradient_accumulation_steps (`int`, *optional*, defaults to 1):

在执行向后/更新过程之前，用于累积梯度的更新步骤数。

11、eval_accumulation_steps (`int`, *optional*):

在将结果移动到CPU之前，累积输出张量的预测步骤数。如果如果未设置，则在移动到CPU之前，整个预测都会在GPU/TPU上累积（速度更快需要更多的内存）。

12、eval_delay (`float`, *optional*):

在执行第一次评估之前要等待的epoch或step，具体取决于evaluation_strategy。

13、learning_rate (`float`, *optional*, defaults to 5e-5):

`AdamW`优化器初始化的学习率

14、weight_decay (`float`, *optional*, defaults to 0):

在`AdamW`优化器中，除了bias和LayerNorm权重，如果weight_decay不是零，则应用于所有层

15、adam_beta1 (`float`, *optional*, defaults to 0.9):

`AdamW`优化器的beta1超参

16、adam_beta2 (`float`, *optional*, defaults to 0.999):

`AdamW`优化器的beta2超参

17、adam_epsilon (`float`, *optional*, defaults to 1e-8):

`AdamW`优化器的epsilon超参

18、max_grad_norm (`float`, *optional*, defaults to 1.0):

最大梯度范数（用于梯度剪裁）

19、num_train_epochs(`float`, *optional*, defaults to 3.0):

要执行的训练epoch的次数（如果不是整数，将执行停止训练前的最后一个epoch的小数部分百分比）。

20、max_steps (`int`, *optional*, defaults to -1):

如果设置为正数，则表示要执行的训练step的次数。覆盖`num_train_epochs'。在使用有限可迭代数据集的情况下，训练可能在所有数据还没训练完成时因达到设定的步数而停止

21、lr_scheduler_type (`str` or [`SchedulerType`], *optional*, defaults to `"linear"`):

选择什么类型的学习率调度器来更新模型的学习率。可选的值有：

"linear"
"cosine"
"cosine_with_restarts"
"polynomial"
"constant"
"constant_with_warmup"

22、warmup_ratio (`float`, *optional*, defaults to 0.0):

线性预热从0达到`learning_rate`时，每步学习率的增长率

23、warmup_steps (`int`, *optional*, defaults to 0):

线性预热从0达到`learning_rate`时，预热阶段的步数，它会覆盖`warmup_ratio`的设置

24、log_level (`str`, *optional*, defaults to `passive`):

设置主进程上使用的日志级别。可选择的值：

'debug'
'info'
'warning'
'error'
'critical'
'passive' （不设置任何值，由应用进行设置）

25、log_level_replica (`str`, *optional*, defaults to `passive`):

控制训练过程中副本节点的日志级别，设置参数和log_level一样

26、log_on_each_node (`bool`, *optional*, defaults to `True`):

在多节点分布式训练中，是每个节点使用“log_level”进行一次日志记录，还是仅在主节点

27、logging_dir (`str`, *optional*):

日志目录，默认记录在：*output_dir/runs/**CURRENT_DATETIME_HOSTNAME***

28、logging_strategy (`str` or [`~trainer_utils.IntervalStrategy`], *optional*, defaults to `"steps"`):

训练期间采用的日志策略，可选的值有：

"no"：训练期间不记录日志
"steps"`：每一个`logging_steps`阶段之后都记录日志
"epoch"：每一个epoch之后记录日志

29、logging_first_step (`bool`, *optional*, defaults to `False`):

global_step 表示训练的全局步数。当训练开始时，global_step 被初始化为 0，每次更新模型时，global_step 会自动递增。是否打印日志和评估第一个`global_step`

30、logging_steps (`int`, *optional*, defaults to 500):

如果 `logging_strategy="steps"`，则两个日志中更新step的数量

31、logging_nan_inf_filter (`bool`, *optional*, defaults to `True`):

是否在日志中过滤掉 `nan` 和 `inf` 损失，如果设置为 `True`，每步的损失如果是 `nan`或者`inf`将会被过滤，将会使用平均损失记录在日志当中。

32、save_strategy (`str` or [`~trainer_utils.IntervalStrategy`], *optional*, defaults to `"steps"`):

训练过程中，checkpoint的保存策略，可选择的值有：

"no"：训练过程中，不保存checkpoint
"epoch"：每个epoch完成之后保存checkpoint
"steps"：每个`save_steps`完成之后checkpoint

33、save_steps (`int`, *optional*, defaults to 500):

如果`save_strategy="steps"，则两个checkpoint 保存的更新步骤数

34、save_total_limit (`int`, *optional*):

如果设置了值，则将限制checkpoint的总数量，`output_dir`里面超过数量的老的checkpoint将会被删掉

35、save_on_each_node (`bool`, *optional*, defaults to `False`):

当进行多节点分布式训练，是否在每个节点上保存模型和checkpoint还是仅仅在主节点上保存。当不同节点使用相同的存储时，不应激活此选项，因为文件将以相同的名称保存到每个节点

36、no_cuda (`bool`, *optional*, defaults to `False`):

当有CUDA可以使用时，是否不使用CUDA

37、seed (`int`, *optional*, defaults to 42):

训练开始时设置的随机种子，为了确保整个运行的可再现性，可使用`~Trainer.model_init`函数来初始化模型的随机初始化参数。

38、data_seed (`int`, *optional*):

数据采样器的随机种子，它将用于数据采样器的可重现性，其独立于模型种子。

39、jit_mode_eval (`bool`, *optional*, defaults to `False`):

是否使用PyTorch jit trace来进行推理

40、use_ipex (`bool`, *optional*, defaults to `False`):

当PyTorch 的intel扩展可用时，是否使用

41、bf16 (`bool`, *optional*, defaults to `False`):

是否使用bf16 16位 (mixed) 精度训练替代32位训练. 要求Ampere或者更高的NVIDIA架构，或者使用CPU训练.

42、fp16 (`bool`, *optional*, defaults to `False`):

是否使用bf16 16位 (mixed) 精度训练替代32位训练.

43、fp16_opt_level (`str`, *optional*, defaults to 'O1'):

`fp16`训练时, Apex AMP 优化级别选择，可选择的值有： ['O0', 'O1', 'O2', 'O3']Apex 是 NVIDIA 开发的一个混合精度训练和优化工具库，主要用于加速深度学习模型的训练过程。

44、fp16_backend (`str`, *optional*, defaults to `"auto"`):

此参数已经废弃，使用`half_precision_backend`替代

45、half_precision_backend (`str`, *optional*, defaults to `"auto"`):

半精度计算的后端实现，必须是这几个值：

"auto"：具体是使用CPU/CUDA AMP 还是APEX依赖于PyTorch版本检测
"cuda_amp"
"apex"
"cpu_amp"

46、bf16_full_eval (`bool`, *optional*, defaults to `False`):

是否使用完整的bfloat16评估而不是32位。这将更快并节省内存，但可能会造成指标的损伤。

47、fp16_full_eval (`bool`, *optional*, defaults to `False`):

是否使用完整的float16评估而不是32位。这将更快并节省内存，但可能会造成指标的损伤。

48、tf32 (`bool`, *optional*):

是否启用TF32 模式，可以在Ampere 和更新的GPU架构上使用，默认值依赖于PyTorch的`torch.backends.cuda.matmul.allow_tf32`的默认值。

49、local_rank (`int`, *optional*, defaults to -1):

分布式训练中进程的编号。在分布式训练中，每个进程（一般对应支持多线程的 GPU 卡）都会有一个特定的 local_rank，用于标识该进程对应的 GPU 编号。local_rank 的起始编号为 0，后续的编号依次递增。

50、xpu_backend (`str`, *optional*):

xpu分布式训练中的后端，只能是 `"mpi"` 或者 `"ccl"`其中之一

51、tpu_num_cores (`int`, *optional*):

当使用TPU训练时，TPU核心数 (自动通过启动脚本传递)

52、dataloader_drop_last (`bool`, *optional*, defaults to `False`):

是否删除最后一个不完整的批次（如果数据集的长度不能被批次大小整除）

53、eval_steps (`int`, *optional*):

如果 `evaluation_strategy="steps"`，两个评估之间更新step的数量Number of update steps，如果没有设置，则使用与 `logging_steps`一样的值。

54、dataloader_num_workers (`int`, *optional*, defaults to 0):

数据加载的子进程数量（用于PyTorch ）. 0表示数据由主进程加载

55、past_index (`int`, *optional*, defaults to -1):

有些模型比如[TransformerXL](../model_doc/transformerxl)或者[XLNet](../model_doc/xlnet)使用过去隐藏状态进行预测。如果这个参数设置为正数，则 `Trainer`使用相应的输出（通常是索引2）作为过去的状态，并将其作为 `mems`参数提供给模型的下一个训练step

56、run_name (`str`, *optional*):

运行描述符。通常用于[wandb](https://www.wandb.com/)以及[mlflow](https://www.mlflow.org/)日志记录。

57、disable_tqdm (`bool`, *optional*):

是否禁用在Jupyter Notebooks中由`~notebook.NotebookTrainingTracker`生成的tqdm进度条和指标表格。如果日志级别设置为warn或者更低的基本则默认值为`True`，否则为`False`

58、remove_unused_columns (`bool`, *optional*, defaults to `True`):

是否自动删除模型forward方法不使用的列 (`TFTrainer`暂时还没有实现该功能)

59、label_names (`List[str]`, *optional*):

我们的输入字典的key列表相一致的标签，最终都将默认为`["labels"]`，除非使用`XxxForQuestionAnswering`系列的模型，该系列的模型最终默认为`["start_positions", "end_positions"]`

60、load_best_model_at_end (`bool`, *optional*, defaults to `False`):

是否在训练结束时加载训练期间发现的最佳模型。当设置为“True”时，参数“save_strategy”需要与“evaluation_strategy”相同，并且在这种情况下， "steps"和 `save_steps` 必须是`eval_steps`的整数倍.

61、metric_for_best_model (`str`, *optional*):

与`load_best_model_at_end`一起使用，指定用于比较两个不同模型。必须是评估返回的度量的名称，带或不带前缀“eval_”。如果没有设定且`load_best_model_at_end=True`，则默认使用 `"loss"`，如果我们设置了这个值，则`greater_is_better`需要设置为 `True`。如果我们的度量在较低时更好，请不要忘记将其设置为“False”。

62、greater_is_better (`bool`, *optional*):

与`load_best_model_at_end` 和 `metric_for_best_model`一起使用，说明好的模型是否应该有更好的度量值。默认值：

`True`：如果`metric_for_best_model`设置了值，并且该值不是`"loss"` 或者 `"eval_loss"`
`False`：如果`metric_for_best_model`没有设置值，或者该值是`"loss"`或者 `"eval_loss"`.

63、ignore_data_skip (`bool`, *optional*, defaults to `False`):

当恢复训练时，是否跳过之前训练时epoch和batch加载的数据，如果设置为`True`, 训练将会更快的开始，但是也不会产生与中断训练生成的相同的结果。

64、sharded_ddp (`bool`, `str` or list of [`~trainer_utils.ShardedDDPOption`], *optional*, defaults to `False`):

是否启用分片式分布式数据并行（Sharded Distributed Data Parallel，简称ShardedDDP），以加快训练速度和效率。可选项有：

`"simple"`:
`"zero_dp_2"`
`"zero_dp_3"`
`"offload"`

如果入参是字符串，它将会使用空格进行分隔，如果入参是了bool，它将被转换为空“False”的列表和["simple"]的“True”列表。

65、fsdp (`bool`, `str` or list of [`~trainer_utils.FSDPOption`], *optional*, defaults to `False`):

使用PyTorch 分布式并行训练(仅仅用在分布式训练)。可选项：

`"full_shard"`
`"shard_grad_op"
"offload"
"auto_wrap"：使用 `default_auto_wrap_policy`自动递归

66、fsdp_min_num_params (`int`, *optional*, defaults to `0`):

用于指定使用 Fully Sharded Data Parallel （FSDP）时，最小可分片的参数数量。（仅在传递“fsdp”字段时有用）

67、deepspeed (`str` or `dict`, *optional*):

使用[Deepspeed](https://github.com/microsoft/deepspeed)。这是一个实验性功能，其API可能

在未来发展。

68、label_smoothing_factor (`float`, *optional*, defaults to 0.0):

要使用的标签平滑因子。它的取值范围在 0 到 1 之间。当 label_smoothing_factor 的值为 0 时，表示不使用标签平滑技术，此时模型接受到完整的 one-hot 标签，当 label_smoothing_factor 的值大于 0 时，表示使用标签平滑技术，此时真实标签将是一个加权平均值，其中每个标签的概率都等于 (1-label_smoothing_factor)/num_classes，其中 num_classes 表示标签的数量。

69、debug (`str` or list of [`~debug_utils.DebugOption`], *optional*, defaults to `""`):

启用一个或多个调试功能。这是一个实验特性。可选项有：

`"underflow_overflow"`:检测模型的输入/输出中的溢出，并报告导致事件的最后一帧
`"tpu_metrics_debug"`：在TPU上打印度量

这些选项通过空格进行分隔。

70、optim (`str` or [`training_args.OptimizerNames`], *optional*, defaults to `"adamw_hf"`):

可以使用的优化器：

adamw_hf
adamw_torch
adamw_apex_fused
adafactor

71、adafactor (`bool`, *optional*, defaults to `False`):

此参数已经废弃，使用 `--optim adafactor` 替代

72、group_by_length (`bool`, *optional*, defaults to `False`):

是否将训练数据集中长度大致相同的样本分组在一起（以最大限度地减少所应用的填充并提高效率）。仅在应用动态填充时有用。

73、length_column_name (`str`, *optional*, defaults to `"length"`):

预计算列名的长度，如果列存在，则在按长度分组时使用这些值，而不是在训练启动时计算这些值。例外情况是：`group_by_length`设置为true，且数据集是`Dataset`的实例

74、report_to (`str` or `List[str]`, *optional*, defaults to `"all"`):

报告结果和日志的integration列表，支持的平台有：`"azure_ml"`, `"comet_ml"`, `"mlflow"`, `"tensorboard"` 和`"wandb"`. 使用 `"all"`则报告到所有安装的integration，配置为`"none"`则不报报告到任何的integration。

75、ddp_find_unused_parameters (`bool`, *optional*):

使用分布式训练时，通过`find_unused_parameters`把该值传递给`DistributedDataParallel`。如果使用梯度checkpoint，则默认为false，否则为true。

76、ddp_bucket_cap_mb (`int`, *optional*):

使用分布式训练时，传递给“DistributedDataParallel”的标志“bucket_cap_mb”的值`

77、dataloader_pin_memory (`bool`, *optional*, defaults to `True`):

当设置为True 时，在数据加载过程中，batch 数据会被放入 CUDA 中固定的固定内存，从而避免了从主内存到 GPU 内存的冗余拷贝开销，提升了数据读取的效率。

78、skip_memory_metrics (`bool`, *optional*, defaults to `True`):

是否跳过将内存探查器报告添加到度量中。默认情况下会跳过此操作，因为它会降低训练和评估速度。

79、push_to_hub (`bool`, *optional*, defaults to `False`):

每次当模型保存的时候，是否把模型推送到Hub

80、resume_from_checkpoint (`str`, *optional*):

我们模型的有效checkpoint的文件夹的路径。此参数不是由直接给[`Trainer`]使用，它用于我们写的训练和评估脚本。

81、hub_model_id (`str`, *optional*):

与本地的 *output_dir*保持同步的仓库名称。它可以是将会推送到我们的命名空间里的一个非常简单的模型ID . 否则它将需要完整的仓库名称，比如 `"user_name/model"`,它允许我们推送到一个我们是一个组织的成员之一（`"organization_name/model"`）的仓库。默认设置为`user_name/output_dir_name`，其中*output_dir_name* 是`output_dir`的值.

82、hub_strategy (`str` or [`~trainer_utils.HubStrategy`], *optional*, defaults to `"every_save"`):

定义推送到hub的内容的范围以及何时推送到hub，可能的值有：

`"end"`：当`~Trainer.save_model`方法被调用的时候，会推送模型，推送它的配置、tokenizer（如果传给了`Trainer`）和model card 的草稿。
`"every_save"`：在每次模型保存的时候，都会推送，推送它的配置、tokenizer（如果传给了`Trainer`）和model card 的草稿。推送是异步的，不会影响模型的训练，如果模型保存的非常频繁，则新的推送只会在旧的推送完成之后进行推送，最后的一个推送是在模型训练完成之后
`"checkpoint"`：类似于 `"every_save"`，只是最后一个 checkpoint会被推送到名字为 last-checkpoint的子目录，它将方便我们使用 `trainer.train(resume_from_checkpoint="last-checkpoint")`重新开始训练。
`"all_checkpoints"`: 类似于 `"checkpoint"` ，只是所有的checkpoints都推送，就像它们出现在输出目录一样 (这样你就可以在最终的仓库里面获取每一个checkpoint)

83、hub_token (`str`, *optional*):

用于将模型推送到Hub的token。默认将使用`huggingface-cli login`获得的缓存文件夹中的令牌

84、hub_private_repo (`bool`, *optional*, defaults to `False`):

如果为True， Hub repo将会被设置为私有的

85、gradient_checkpointing (`bool`, *optional*, defaults to `False`):

如果为True，则使用梯度检查点以节省内存为代价降低向后传递速度。

86、include_inputs_for_metrics (`bool`, *optional*, defaults to `False`):

是否将输入传递给“compute_metrics”函数。这适用于需要在Metric类中进行评分计算的输入、预测和参考的度量

87、auto_find_batch_size (`bool`, *optional*, defaults to `False`)

是否通过指数衰减自动找到适合内存的batch size，避免CUDA内存不足错误.需要安装 accelerate (`pip install accelerate`)

88、full_determinism (`bool`, *optional*, defaults to `False`)

如果为 `True`，则使用`enable_full_determinism`替代`set_seed`来确保在分布式训练下获得可重复的结果

89、torchdynamo (`str`, *optional*):

用于设置TorchDynamo后端编译器的token。可能的选择是[“eager”，“nvfuser]。这是一个实验性API，可能会更改。

90、ray_scope (`str`, *optional*, defaults to `"last"`):

Ray Tune 是一个开元的分布式超参数优化库，可以用于自动搜索最佳的超参数配置，以及并行化训练作业。使用Ray进行超参搜索的范围

我训练模型时关注的参数：

output_dir
num_train_epochs
lr_scheduler_type
load_best_model_at_end
metric_for_best_model
greater_is_better
optim
group_by_length
length_column_name

你可能感兴趣的:(人工智能,Hugging,Face,Transformers,Training,Argument,eval)

OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
COCO 格式的数据集转化为 YOLO 格式的数据集 QYQY77 YOLO python
"""--json_path输入的json文件路径--save_path保存的文件夹名字，默认为当前目录下的labels。"""importosimportjsonfromtqdmimporttqdmimportargparseparser=argparse.ArgumentParser()parser.add_argument('--json_path',default='./instances
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
Golang语言基础知识点总结最帅猪猪侠 golang 开发语言后端
Golang语言基础知识点小总结1.go语言有两大类型：值类型：数值类型，bool，string，数组，struct结构体变量直接存储值，内存通常在栈中分配,修改值,不会对源对象产生影响引用类型：指针，slice切片，管道chan，map，interface变量存储的是一个地址，这个地址对应的空间才真正存储数据值，内存通常在堆上分配，当没有任何变量引用这个地址时，该地址对应的数据空间就成为一个垃圾
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
python画图|同时输出二维和三维图西猫雷婶 python 开发语言
前面已经学习了如何输出二维图和三维图，部分文章详见下述链接：python画图|极坐标下的3Dsurface-CSDN博客python画图|垂线标记系列_如何用pyplot画垂直x轴的线-CSDN博客有时候也需要同时输出二位和三维图，因此有必要学习一下。【1】官网教程首先我们打开官网教程，链接如下。https://matplotlib.org/stable/gallery/mplot3d/mixed
spring security中几大组件的作用和执行顺序阿信在这里 java spring
springsecurity中几大组件的作用和执行顺序在SpringSecurity中，AuthenticationProvider、GroupPermissionEvaluator、PermissionEvaluator、AbstractAuthenticationProcessingFilter、DefaultMethodSecurityExpressionHandler和ManageSecu
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
SPI机制我们仍未知道那天所看见的猫的名
1、SPI机制：ServiceProviderInterface：服务提供发现机制，类型IOCJavaSPI实现：ServiceLoader定义接口A；实现接口A的实现类，B和C；在/META-INF/services/下创建文件，文件名为A类的全名称，内容为B和C的类全名调用：ServiceLoaderload=ServiceLoader.load(A.class);Interatori=loa
Linux使用mjpg-streamer进行图像传输 —你的鼬先生 Linux驱动 linux 树莓派图像传输
图像传输是一项在Linux操作系统中比较常见的一个操作，在视频图传时，一般是采用MJPG-streamer来进行图像传输，本文就以树莓派为例子，来示范一个图像传输。1.树莓派的摄像头激活首先更新树莓派sudoapt-getupdatesudoapt-getupgrade随后打开树莓派的配置界面，选择InterfaceOptionsudoraspi-config在InterfaceOption选择C
ComfyUI AnimateDiff-Lightning 教程 jayli517 ComfyUI AIGC
介绍项目主页：https://huggingface.co/ByteDance/AnimateDiff-Lightning在线测试（有墙）：https://huggingface.co/spaces/ByteDance/AnimateDiff-Lightning国内镜像：https://hf-mirror.com/ByteDance/AnimateDiff-LightningAnimateDiff
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
超越免费奔向自由的路上
在这个互联时代，由于社会的进步，我们亨受了很多免费的东西，比如免费的电脑操作软件，免费的杀毒软件，免费的搜索服务，雅虎的杨致远和费罗首创让互联网成为一个开放，免费的工具。后来微软用免费的方式压浏览器市场打败了当时一家独大的网景公司，一时之间，免费成了趋势，互联网传播的本质，起到了一个巨大的复印件的作用。免费带来的一个结果是迅速形成垄断，造就了googlefacebook和阿里巴巴这样的经典掉板，然
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY NODEXY@2014.8.12 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa