「已注销」

wav2ec 训练心得

本文记录了跑Fairseq的wav2ec的主要过程，希望对诸君有用。

基本结论

代码经过修改是可以跑起来的，这与2020年12月的尝试结果不同。
“预训练"这个词具有歧义，Fairseq向导里给的预训练模型是经过finetune的模型而不是原始的audiopretraing的模型，直接使用将导致循环加载，无法使用，这是两次尝试失败的核心原因。
大厂的代码质量也是靠不住的。

以下是基本过程.

文章目录

wav2ec 训练心得
基本结论
1. 预训练例子
- 1.1 数据准备
- - Tips 1：魔改支持模块
  - Tips 2 : 魔改支持多进程加载数据
- 1.2 初始训练
- - Tips 3：断掉了也不用怕，可以继续训练
2. 训练和测试语音识别模型
- - Fine-tune a pre-trained model with CTC:
- 2.1 准备数据
- 2.2 微调模型
- - Bug 1: 数据参数传递问题
  - Bug2：模拟多GPU的参数传递问题
  - Bug 3 ：对预训练模型的理解问题
  - - Bug3.1. remove_pretraining_modules错误
    - Bug3.1. normalize错误
  - Bug4 : Numpy版本问题
  - Bug 5: 3090和2080Ti同时使用带来的问题

1. 预训练例子

1.1 数据准备

#原始命令
$ python examples/wav2vec/wav2vec_manifest.py /path/to/waves --dest /manifest/path --ext $ext --valid-percent $valid
#魔改之后可以使用模块的写法
python -m fairseq.examples.wav2vec.wav2vec_manifest /data/Corpus/BostenAI/BSTPlan0 --dest ~/Documents/Projects/Fairseq/Corpus/BSTPlan0 --ext wav --valid-percent 0.1

Tips 1：魔改支持模块

要使用这种模块模式的话，需要给wav2ec增加一个 _init_.py文件。由于官方向导是–editable 安装，需要卸载，去掉–editable 再装一次

#关于pip install --editable ./的作用是创建一个链接，这个技巧真好用，居然没有直接安装，而是进行连接
~/anaconda3/envs/lSrv09/lib/python3.9/site-packages/fairseq.egg-link
#内容是：
~/Documents/workspace/fairseq
.

#一个可以用的例子
python ~/Documents/workspace/fairseq/examples/wav2vec/wav2vec_manifest.py  \
/data/Corpus/BostenAI/BSTPlan0 \
--dest ~/Documents/Projects/Fairseq/Corpus/BSTPlan0 \
--ext wav --valid-percent 0.1

Tips 2 : 魔改支持多进程加载数据

很难想象，这个wav2vec_manifest居然是单进程的程序，这个忍不了,自己写了并行版本，但是发现硬盘是主要瓶颈，就不贴代码了，丑！
居然把HDD搞出坏道了！

1.2 初始训练

#安装之后有fairseq-hydra-train
fairseq-hydra-train \
    task.data=/data/Temp/SLR12/ \
    --config-dir ~/Documents/workspace/fairseq/examples/wav2vec/config/pretraining \
    --config-name d1 \
    --restore_file checkpoint_last.pt \
    --tensorboard_logdir outputs  --save_dir

Tips 3：断掉了也不用怕，可以继续训练

fairseq-hydra-train     task.data=/data/Temp/SLR12/  checkpoint.finetune_from_model=~/Documents/Projects/Fairseq/outputs/2021-03-03/18-48-53/checkpoints/checkpoint_last.pt  common.tensorboard_logdir=~/Documents/Projects/Fairseq/tensorboard  --config-dir ~/Documents/workspace/fairseq/examples/wav2vec/config/pretraining     --config-name d1

Notes 关键参数说明：

1.覆盖参数必须写在配置文件的前面；
2.加载历史文件是checkpoint.finetune_from_model
3.打开TensorBoard是 common.tensorboard_logdir

执行之后的结果：

2021-03-04 15:54:23 | INFO | fairseq.checkpoint_utils | loading pretrained model from ~/Documents/Projects/Fairseq/outputs/2021-03-03/18-48-53/checkpoints/checkpoint_last.pt: optimizer, lr scheduler, meters, dataloader will be reset
2021-03-04 15:55:03 | INFO | fairseq.trainer | loaded checkpoint ~/Documents/Projects/Fairseq/outputs/2021-03-03/18-48-53/checkpoints/checkpoint_last.pt (epoch 103 @ 0 updates)
2021-03-04 15:55:03 | INFO | fairseq.optim.adam | using FusedAdam
2021-03-04 15:55:04 | INFO | fairseq.trainer | loading train data for epoch 1
2021-03-04 15:55:04 | INFO | fairseq.data.audio.raw_audio_dataset | loaded 28219, skipped 24 samples
2021-03-04 15:55:04 | WARNING | fairseq.logging.progress_bar | tensorboard not found, please install with: pip install tensorboardX
2021-03-04 15:55:04 | INFO | fairseq.trainer | begin training epoch 1
2021-03-04 15:55:27 | INFO | fairseq.trainer | NOTE: overflow detected, setting loss scale to: 64.0
2021-03-04 15:55:40 | INFO | fairseq.trainer | NOTE: overflow detected, setting loss scale to: 32.0
2021-03-04 15:55:52 | INFO | fairseq.trainer | NOTE: overflow detected, setting loss scale to: 16.0
2021-03-04 15:56:04 | INFO | fairseq.trainer | NOTE: overflow detected, setting loss scale to: 8.0
2021-03-04 15:56:46 | INFO | fairseq.trainer | NOTE: overflow detected, setting loss scale to: 4.0

2. 训练和测试语音识别模型

准备实现向导的基本例子

Fine-tune a pre-trained model with CTC:

Fine-tuning a model requires parallel audio and labels file, as well as a vocabulary file in fairseq format.
A letter vocabulary can be downloaded here.
An example script that generates labels for the Librispeech dataset from the tsv file produced by wav2vec_manifest.py can be used as follows:

split=train
$ python libri_labels.py /path/to/tsv --output-dir /output/dir --output-name $split

Fine-tuning on 100h of Librispeech with letter targets:

$ fairseq-hydra-train \
    distributed_training.distributed_port=$PORT \
    task.data=/path/to/data \
    model.w2v_path=/path/to/model.pt \
    --config-dir /path/to/fairseq-py/examples/wav2vec/config/finetuning \
    --config-name base_100h

There are other config files in the config/finetuning directory that can be used to fine-tune on other splits.
You can specify the right config via the --config-name parameter.

Note: you can simulate 24 GPUs by using k GPUs and adding command line parameters (before --config-dir)
distributed_training.distributed_world_size=k +optimization.update_freq='[x]' where x = 24/k

Decoding with a language model during training requires wav2letter python bindings.
If you want to use a language model, add +criterion.wer_args='[/path/to/kenlm, /path/to/lexicon, 2, -1]' to the command line.

基本结论：例子可以跑起来，但是问题不少

Notes：需要重点说明几点：

1.网上下载的预训练模型是经过CTC预训练的版本，因此不能用官方的向导加载。！！！！！重要！！！！！

2.正确运行需要魔改代码，在参数解析阶段ast存在严重问题。

2.1 准备数据

按照向导的例子创建数据集，finetuning好像使用dev-other数据集，需要用脚本创建train.tsv,train.ltrd等文件，没有就手动创建

#声明变量 ，标准例子
split=train
$ python ~/Documents/workspace/fairseq/examples/wav2vec/libri_labels.py ~/Documents/Projects/Fairseq/Corpus/BSTPlan1 --output-dir ~/Documents/Projects/Fairseq/Corpus/BSTPlan1 --output-name $split
#经过魔改之后的安装路径无关的例子
#创建train.tsv
$ python -m fairseq.examples.wav2vec.libri_labels ~/Documents/Projects/Fairseq/Corpus/BSTPlan1/train.tsv --output-dir ~/Documents/Projects/Fairseq/Corpus/BSTPlan1 --output-name train
#创建train.tltr
$ python -m fairseq.examples.wav2vec.libri_labels /data/Cache/SLR12/train.tsv --output-dir ~/Documents/Projects/Fairseq/Corpus/SLR21 --output-name train

2.2 微调模型

正确可用的微调脚本：

#Fine-tuning on 100h of Librispeech with letter targets: 
#There are other config files in the config/finetuning directory that can be used to fine-tune on other splits.
$ CUDA_VISIBLE_DEVICES=2  fairseq-hydra-train   task.data=/data/Cache/SLR12/dev-other/ \
    common.tensorboard_logdir=~/Documents/Projects/Fairseq/tensorboard \
    model.w2v_path=~/Documents/Research/fairseq/model/wav2vec_vox_960h_pl.pt.zip \
    distributed_training.distributed_world_size=1 optimization.update_freq=[24] \
    distributed_training.device_id=2 \
    --config-dir ~/Documents/workspace/fairseq/examples/wav2vec/config/finetuning \
    --config-name vox_960h
#参数说明
#task.data 数据目录
#common.tensorboard_logdir 启用Tensorboard谁用谁知道
#model.w2v_path 预训练模型的路径
#CUDA_VISIBLE_DEVICES=2 见Bug说明，3090和2080Ti的问题
#optimization.update_freq=[24]  这里是[24]而不是'[24]',当然魔改后'[24]'应该也没问题

NOTES:以下bug调试过程可能存在各种过程性bug，正确脚本可能根本不出现

Bug 1: 数据参数传递问题

问题表现：

Traceback (most recent call last):
  File "~/anaconda3/envs/lSrv09/lib/python3.9/site-packages/fairseq_cli/hydra_train.py", line 38, in hydra_main
    distributed_utils.call_main(cfg, pre_main)
  File "~/anaconda3/envs/lSrv09/lib/python3.9/site-packages/fairseq/distributed_utils.py", line 334, in call_main
    main(cfg, **kwargs)
  File "~/anaconda3/envs/lSrv09/lib/python3.9/site-packages/fairseq_cli/train.py", line 69, in main
    task.load_dataset(valid_sub_split, combine=False, epoch=1)
  File "~/anaconda3/envs/lSrv09/lib/python3.9/site-packages/fairseq/tasks/audio_pretraining.py", line 137, in load_dataset
    self.datasets[split] = FileAudioDataset(
  File "~/anaconda3/envs/lSrv09/lib/python3.9/site-packages/fairseq/data/audio/raw_audio_dataset.py", line 158, in __init__
    with open(manifest_path, "r") as f:
FileNotFoundError: [Errno 2] No such file or directory: '/data/Cache/SLR12/dev_other.tsv'

主要原因没有生成数据集文件，生成对应的配置文件：

#生成/data/Cache/SLR12/dev_other.tsv
python -m fairseq.examples.wav2vec.wav2vec_manifest_parallel /data/Cache/SLR12/dev-other/LibriSpeech/dev-other --dest /data/Cache/SLR12/dev-other --ext flac --valid-percent 0
#生成ltr
python -m fairseq.examples.wav2vec.libri_labels /data/Cache/SLR12/dev-other/dev_other.tsv --output-dir /data/Cache/SLR12/dev-other/ --output-name dev_other

再次出现问题，拷贝资源dict.ltr.txt，当然也可以用脚本生成，我就偷了个懒。

FileNotFoundError: [Errno 2] No such file or directory: '/data/Cache/SLR12/dev_other/dict.ltr.txt'
Set the environment variable HYDRA_FULL_ERROR=1 for a complete stack trace.

Bug2：模拟多GPU的参数传递问题

按照官网的说明：

是会出现如下问题：

Traceback (most recent call last):
  ....
  File "~/anaconda3/envs/lSrv09/lib/python3.9/site-packages/fairseq/models/wav2vec/wav2vec2_asr.py", line 281, in __init__
    state = checkpoint_utils.load_checkpoint_to_cpu(cfg.w2v_path, arg_overrides)
  File "~/anaconda3/envs/lSrv09/lib/python3.9/site-packages/fairseq/checkpoint_utils.py", line 237, in load_checkpoint_to_cpu
    state = _upgrade_state_dict(state)
  File "~/anaconda3/envs/lSrv09/lib/python3.9/site-packages/fairseq/checkpoint_utils.py", line 468, in _upgrade_state_dict
    state["cfg"] = convert_namespace_to_omegaconf(state["args"])
  File "~/anaconda3/envs/lSrv09/lib/python3.9/site-packages/fairseq/dataclass/utils.py", line 335, in convert_namespace_to_omegaconf
    overrides, deletes = override_module_args(args)
  File "~/anaconda3/envs/lSrv09/lib/python3.9/site-packages/fairseq/dataclass/utils.py", line 278, in override_module_args
    _override_attr(k, FairseqConfig.__dataclass_fields__[k].type, args)
  File "~/anaconda3/envs/lSrv09/lib/python3.9/site-packages/fairseq/dataclass/utils.py", line 224, in _override_attr
    val = ast.literal_eval(val)
  File "~/anaconda3/envs/lSrv09/lib/python3.9/ast.py", line 105, in literal_eval
    return _convert(node_or_string)
  File "~/anaconda3/envs/lSrv09/lib/python3.9/ast.py", line 104, in _convert
    return _convert_signed_num(node)
  File "~/anaconda3/envs/lSrv09/lib/python3.9/ast.py", line 78, in _convert_signed_num
    return _convert_num(node)
  File "~/anaconda3/envs/lSrv09/lib/python3.9/ast.py", line 69, in _convert_num
    _raise_malformed_node(node)
  File "~/anaconda3/envs/lSrv09/lib/python3.9/ast.py", line 66, in _raise_malformed_node
    raise ValueError(f'malformed node or string: {node!r}')
ValueError: malformed node or string: <ast.Name object at 0x7fad3c167640>

主要原因是ast这个库和Fairseq中的typing.Optional语法出了bug。

追踪过程：1.进行追踪,得到信息如下,说明这个传递参数有问题,改为[24]也有问题

>>> Error merging override optimization.update_freq='[24]'
Invalid value assigned : str is not a subclass of ListConfig or list.
	full_key: optimization.update_freq
	reference_type=OptimizationConfig
	object_type=OptimizationConfig

进一步追踪，Fairseq的传递参数有问题：

>>> field_type
typing.Optional[fairseq.dataclass.constants.Choices]
#追踪到fairseq/dataclass/utils.py，
        if (
            isinstance(val, str)
            and not val.startswith("${")  # not interpolation
            and field_type != str
            and (not inspect.isclass(field_type) or not issubclass(field_type, Enum))  # not choices enum
        ):
            # upgrade old models that stored complex parameters as string
            val = ast.literal_eval(val)
            
#发现这里的断言不过 ，not inspect.isclass(field_type) 为True，导致计算异常
#分析原因是inspect不认识typing.Optional
#魔改如下：~/Documents/workspace/fairseq/fairseq/dataclass/utils.py
def interpret_dc_type(field_type):
    if isinstance(field_type, str):
        raise RuntimeError("field should be a type")

    if field_type == Any:
        return str

    typestring = str(field_type)
    if re.match(r"(typing.|^)Union\[(.*), NoneType\]$", typestring):
        return field_type.__args__[0]
    #此处是改动，加入typing.Optional的识别   
    #linger>>>>
    if re.match(r"(typing.|^)Optional\[*(.*)?\]$", typestring):
        return field_type.__args__[0]        
    #linger<<<<
    return field_type

Bug 3 ：对预训练模型的理解问题

这里是官方文档不理解导致的，参考Fine-tune a pre-trained model with CTC节。此节没有明确说明model.w2v_path是什么，我直接使用了网上预训练的模型，导致循环引用错误。

循环引用导致加载问题，在去年的测试中坑了我很久，这次也坑了我7天来调试，这真是师傅的那一手啊！大厂的文档工作也是坑啊。具体循环分析不写了，累!

Bug3.1. remove_pretraining_modules错误

# torch.nn.modules.module.ModuleAttributeError: 'Wav2VecCtc' object has no attribute 'remove_pretraining_modules
# 既然这样，就给他加一个空函数好了
# fairseq/fairseq/models/wav2vec/wav2vec2_asr.py   的 Wav2VecCtc
    def remove_pretraining_modules(self):
        """Linger fix the bug torch.nn.modules.module.ModuleAttributeError: 'Wav2VecCtc' object has no attribute 'remove_pretraining_modules """
        pass

Note: 需要说明这样修改没有意义，这其实是重新加载和初次加载的模型问题

Bug3.1. normalize错误

在使用我自己预训练的模型代替网上下载的，将导致配置错误如下：

omegaconf.errors.ConfigAttributeError: Key 'normalize' is not in struct
	full_key: task.normalize
	reference_type=Any
	object_type=dict

没办法，直接屏蔽检查代码吧，或者加个配置吧

Bug4 : Numpy版本问题

  File "~/Documents/workspace/fairseq/fairseq/data/data_utils.py", line 303, in batch_by_size
    from fairseq.data.data_utils_fast import (
  File "fairseq/data/data_utils_fast.pyx", line 1, in init fairseq.data.data_utils_fast
ValueError: numpy.ndarray size changed, may indicate binary incompatibility. Expected 88 from C header, got 80 from PyObject
#Numpy 版本问题
pip install --upgrade numpy

Bug 5: 3090和2080Ti同时使用带来的问题

曾经出现过如下的错误，在使用CUDA_VISIBLE_DEVICES=2 后消除，分析是3090和2080Ti同时使用带来的问题，毕竟3090在0槽

#错误提示信息
File "~/anaconda3/envs/lSrv08/lib/python3.8/site-packages/fairseq/models/wav2vec/wav2vec2.py", line 460, in forward
    unmasked_features = features.clone()
RuntimeError: CUDA error: no kernel image is available for execution on the device
#使用如下的命令后消除
CUDA_VISIBLE_DEVICES=2 fairseq-hydra-train   task.data=/data/Cache/SLR12/dev-other/     common.tensorboard_logdir=~/Documents/Projects/Fairseq/tensorboard     model.w2v_path=~/Documents/Projects/Fairseq/outputs/2021-03-04/15-54-15/checkpoints/checkpoint_last.pt     distributed_training.distributed_world_size=1 optimization.update_freq=[24]     distributed_training.device_id=2     --config-dir ~/Documents/workspace/fairseq/examples/wav2vec/config/finetuning     --config-name vox_100h

至此，向导中的CTC Finetune例子算是运行起来了

Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
从零搭建Pytorch模型教程（七）单机多卡和多机多卡训练 AI大模型探索者 pytorch 人工智能 python transformer 深度学习 ai 机器学习
前言本文主要介绍单机多卡训练和多机多卡训练的实现方法和一些注意事项。其中单机多卡训练介绍两种实现方式，一种是DP方式，一种是DDP方式。多机多卡训练主要介绍两种实现方式，一种是通过horovod库，一种是DDP方式。单机单卡训练前面我们已经介绍了一个完整的训练流程，但这里由于要介绍单机多卡和多机多卡训练的代码，为了能更好地理解它们之间的区别，这里先放一个单机单卡也就是一般情况下的代码流程。impo
PyTorch基础知识讲解（一）完整训练流程示例苏雨流丰机器学习 pytorch 人工智能 python 机器学习深度学习
文章目录Tutorial1.数据处理2.网络模型定义3.损失函数、模型优化、模型训练、模型评价4.模型保存、模型加载、模型推理Tutorial大多数机器学习工作流程涉及处理数据、创建模型、优化模型参数和保存训练好的模型。本教程向你介绍一个用PyTorch实现的完整的ML工作流程，并提供链接来了解这些概念中的每一个。我们将使用FashionMNIST数据集来训练一个神经网络，预测输入图像是否属于以下
用 pytorch 从零开始创建大语言模型（零）：汇总墨绿色的摆渡人用 pytorch 从零开始创建大语言模型 pytorch 语言模型人工智能
用pytorch从零开始创建大语言模型（零）：汇总本系列官方代码库：https://github.com/rasbt/LLMs-from-scratch/tree/main官方书籍：BuildaLargeLanguageModel(FromScratch)本系列文章：用pytorch从零开始创建大语言模型（一）：理解大型语言模型用pytorch从零开始创建大语言模型（二）：待更新用pytorch从
TensorFlow和Pytorch在功能上的区别以及优势 Honeysea_70 #算法 tensorflow pytorch 人工智能
功能上的区别1.计算图TensorFlow：使用静态计算图（StaticGraph）。在运行模型之前，需要先构建完整的计算图，然后通过会话（Session）运行图。优点是性能优化更高效，适合大规模分布式训练和生产环境部署。缺点是调试相对复杂，因为计算图的构建和运行是分离的。PyTorch：使用动态计算图（DynamicGraph）。计算图是动态构建和执行的，每次迭代都会重新构建图。优点是调试方便，
AI进化论：从图灵测试到智能革命的临界点 A达峰绮人工智能数据处理经验分享 AIGC AI人工智能
智能觉醒的起源密码（1943-2010）在曼彻斯特维多利亚大学的实验室里，1948年"Baby"计算机完成人类首个存储程序运行实验时，艾伦·图灵正在构思《计算机器与智能》。这篇划时代论文提出的"模仿游戏"测试，为人工智能奠定了哲学基础。1956年达特茅斯会议上，麦卡锡正式提出"人工智能"概念，当时学界乐观预测"二十年内机器将完成人类所有工作"。神经网络的发展轨迹充满戏剧性：1958年罗森布拉特发明
【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？努力毕业的小土博^_^ AI算法题库人工智能算法计算机视觉深度学习神经网络
【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？前言数据级别的多尺度模型架构上的多尺度表示FPN代码示例（PyTorch）说明其他多尺度处理方法总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校
【大模型书籍PDF】从零开始大模型开发与微调：基于PyTorch与ChatGLM （推荐）_从零开始大模型开发与微调 pdf 喝不喝奶茶丫 pytorch 人工智能语言模型大模型转行大模型 AI大模型微调
今天又来给大家推荐一本大模型方面的书籍。本书使用PyTorch2.0作为学习大模型的基本框架，以ChatGLM为例详细讲解大模型的基本理论、算法、程序实现、应用实战以及微调技术，为读者揭示大模型开发技术。本书配套示例源代码、PPT课件。（书籍分享）
大语言模型学习路线：从入门到实战大模型官方资料语言模型学习人工智能产品经理自然语言处理搜索引擎
大语言模型学习路线：从入门到实战在人工智能领域，大语言模型（LargeLanguageModels,LLMs）正迅速成为一个热点话题。本学习路线旨在为有基本Python编程和深度学习基础的学习者提供一个清晰、系统的大模型学习指南，帮助你在这一领域快速成长。本学习路线更新至2024年02月，后期部分内容或工具可能需要更新。适应人群已掌握Python基础具备基本的深度学习知识学习步骤本路线将通过四个核
树莓派4B arm平台aarch64 pip安装pytorch 纬领网络 pytorch arm 深度学习
比如你要安装torch1.7.1的版本，你执行下面这行命令pip3installtorch==1.7.1torchvision==0.8.2torchaudio==0.7.2-fhttps://torch.kmtea.eu/whl/stable-cn.html
深度学习与目标检测系列(六) 本文约(4.5万字) | 全面解读复现ResNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch 人工智能 ResNet 残差连接残差网络
文章目录解读Abstract—摘要翻译精读主要内容Introduction—介绍翻译精读背景RelatedWork—相关工作ResidualRepresentations—残差表达翻译精读主要内容ShortcutConnections—短路连接翻译精读主要内容DeepResidualLearning—深度残差学习ResidualLearning—残差学习翻译精读ResNet目的以前方法本文改进本质
深度学习与目标检测系列(三) 本文约(4万字) | 全面解读复现AlexNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch AlexNet 人工智能
文章目录解读Abstract-摘要翻译精读主要内容1.Introduction—前言翻译精读主要内容：本文主要贡献：2.TheDataset-数据集翻译精读主要内容：ImageNet简介：图像处理方法：3.TheArchitecture—网络结构3.1ReLUNonlinearity—非线性激活函数ReLU翻译精读传统方法及不足本文改进方法本文的改进结果3.2TrainingonMultipleG
python arm64_PyTorch-aarch64 人类0663号 python arm64
PyTorch源码编译步骤：1、源码编译环境：操作系统：debian9.12交换空间：1GPython版本：3.5硬件：CPU：RK3399(aarch64)内存：4G2、下载依赖包：下载pytorch及其依赖包时，默认从github上下载，如果网络不好、容易断开时，可在gitee上找到对应包克隆链接，然后修改对应配置文件，进行下载。需要细致耐心。3、编译主要参数：设置最大作业数：exportMA
Pytorch使用手册-DCGAN 指南（专题十四） AI专题精讲 Pytorch入门到精通 pytorch 人工智能 python
1.Introduction本教程将通过一个示例介绍DCGANs（深度卷积生成对抗网络）。我们将训练一个生成对抗网络（GAN），在给它展示大量真实名人照片后，它能够生成新的“名人”图片。这里的大部分代码来源于PyTorch官方示例中的DCGAN实现，而本文档将对该实现进行详细解释，并阐明这种模型的运行机制及其背后的原因。无需担心，你不需要事先了解GAN的知识，但初次接触的读者可能需要花一些时间来理
使用 Milvus 进行向量数据库管理与实践 qahaj milvus 数据库 python
技术背景介绍在当今的AI与机器学习应用中，处理和管理大量的嵌入向量是一个常见的需求。Milvus是一个开源向量数据库，专门用于存储、索引和管理深度神经网络以及其他机器学习模型生成的大规模嵌入向量。它的高性能和易用性使其成为处理向量数据的理想选择。核心原理解析Milvus的核心功能体现在其强大的向量索引和搜索能力。它支持多种索引算法，包括IVF、HNSW等，使其能够高效地进行大规模向量的相似性搜索操
物理学不存在了？诺贝尔物理学奖颁给了人工智能资讯新鲜事人工智能
2024年10月8日，瑞典皇家科学院宣布，将2024年诺贝尔物理学奖授予美国普林斯顿大学教授约翰·J·霍普菲尔德（JohnJ.Hopfield）和加拿大多伦多大学教授杰弗里·E·辛顿（GeoffreyE.Hinton），以表彰他们“在人工神经网络机器学习方面的基础性发现和发明”。辛顿在接受电话采访时表示：“完全没想到”。实话实说，在结果出来前，大家也都没想到。因为在外界预测里，今年的诺贝尔物理学奖
计算机视觉技术探索：美颜SDK如何利用深度学习优化美颜、滤镜功能？美狐美颜sdk 美颜SDK 美颜API 直播美颜SDK 计算机视觉深度学习直播美颜SDK 美颜sdk 第三方美颜sdk 美颜api
时下，计算机视觉+深度学习正在重塑美颜技术，通过智能人脸检测、AI滤镜、深度美肤、实时优化等方式，让美颜效果更加自然、精准、个性化。那么，美颜SDK如何结合深度学习来优化美颜和滤镜功能？本文将深入解析AI在美颜技术中的应用，并探讨其未来发展趋势。一、深度学习如何赋能美颜SDK？1.AI人脸检测与关键点识别：精准捕捉五官在美颜过程中，首先需要精准检测人脸位置和五官特征点，确保美颜效果不会失真。深度学
深度学习模型性能全景评估与优化指南 niuTaylor 深度学习人工智能
深度学习模型性能全景评估与优化指南一、算力性能指标体系1.核心算力指标对比指标计算方式适用场景硬件限制TOPS(TeraOperationsPerSecond)每秒万亿次整数运算量化模型推理NVIDIAJetsonNano仅支持FP16/FP32TFLOPS(TeraFLoating-pointOPerationsperSecond)TFLOPS=Cores×FLOPs/Cycle×Frequen
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
腾讯云大模型知识引擎与DeepSeek：打造懒人专属的谷歌浏览器翻译插件大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 腾讯云云计算
摘要：随着人工智能技术的飞速发展，越来越多的前沿技术和工具已走入日常生活。翻译工具作为跨语言沟通的桥梁，一直处于技术创新的风口浪尖。本文探讨了腾讯云大模型知识引擎与DeepSeek结合谷歌浏览器插件的可能性，旨在为用户提供一种便捷、高效的翻译体验。通过应用深度学习、自然语言处理和知识图谱技术，该插件不仅能实时翻译网页内容，还能根据上下文进行智能推荐，实现精准的语境转换。本文将详细阐述其设计思路、技
【猫狗分类】Pytorch VGG16 实现猫狗分类1-数据清洗+制作标签文件努力的小巴掌 pytorch分类项目 pytorch 分类人工智能
Pytorch猫狗分类用Pytorch框架，实现分类问题，好像是学习了一些基础知识后的一个小项目阶段，通过这个分类问题，可以知道整个pytorch的工作流程是什么，会了一个分类，那就可以解决其他的分类问题，当然了，其实最重要的还是，了解她的核心是怎么工作的。那首先，我们的第一个项目，就做猫狗的分类。声明：整个数据和代码来自于b站，链接：使用pytorch框架手把手教你利用VGG16网络编写猫狗分类
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（二）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（二）5.跨模态检索系统应用场景5.1图文匹配系统的实际应用应用领域具体场景优势电子商务商品图像搜索、视觉购物用户可以上传图片查找相似商品或使用文本描述查找商品智能媒体内容推荐、图片库搜索通过内容的语义理解提供更精准的推荐和搜索社交网络基于内容的帖子推荐理解用户兴趣，提供更相关的内容推荐教育技术多模态教学资源检索教师和学生可以更
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（一）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（一）引言：跨越感知的边界欢迎来到我们的PyTorch学习旅程第28天！今天我们将步入AI世界中最激动人心的领域之一：多模态学习。想象一下，如果你的模型既能"看"又能"读"，并且能够理解图像与文字之间的联系，这将为我们打开怎样的可能性？今天我们将专注于构建图文匹配系统，学习如何使用CLIP（ContrastiveLanguage
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
【深度学习】DeepSeek模型介绍与部署 Nerous_ 深度学习深度学习人工智能
原文链接：DeepSeek-V31.介绍DeepSeek-V3，一个强大的混合专家(MoE)语言模型，拥有671B总参数，其中每个token激活37B参数。为了实现高效推理和成本效益的训练，DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了充分验证。此外，DeepSeek-V3首次提出了无辅助损失的负载平衡策略，并设置了多to
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
【DNN量化工具】QKeras 工具简介 kanhao100 笔记 dnn 人工智能神经网络
QKeras工具简介QKeras是一个用于量化深度学习模型的Keras扩展库，旨在使深度学习模型的量化（即将模型的浮点权重转换为低精度格式）变得简单而高效。QKeras主要目标是优化模型的存储和推理速度，特别适用于需要在资源受限的设备（如移动设备和嵌入式系统）上运行深度学习模型的场景。QKeras的主要特点量化支持：QKeras提供了对不同类型量化的支持，包括权重量化和激活量化。用户可以根据需求选
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st

wav2ec 训练心得

wav2ec 训练心得

基本结论

文章目录

1. 预训练例子

1.1 数据准备

Tips 1：魔改支持模块

Tips 2 : 魔改支持多进程加载数据

1.2 初始训练

Tips 3： 断掉了也不用怕，可以继续训练

2. 训练和测试语音识别模型

Fine-tune a pre-trained model with CTC:

2.1 准备数据

2.2 微调模型

Bug 1: 数据参数传递问题

Bug2：模拟多GPU的参数传递问题

Bug 3 ：对预训练模型的理解问题

Bug3.1. remove_pretraining_modules错误

Bug3.1. normalize错误

Bug4 : Numpy版本问题

Bug 5: 3090和2080Ti同时使用带来的问题

你可能感兴趣的:(Fairseq,深度学习,神经网络,pytorch)

Tips 3：断掉了也不用怕，可以继续训练