colourmind

声纹识别之说话人验证speaker verification

一、speaker verification简介

二、主流方案和模型

1、Ecapa_TDNN模型

2、WavLm

三、代码实践

1、Ecapa_TDNN方案

a、模型结构

b、loss

c、数据处理

d、模型训练和评估

e、说话人验证推理

2、WavLm预训练方案

a、模型结构和loss

b、数据处理

c、模型训练

d、推理和评估

四、demo演示

五、总结

写在最前面，最近几个月并没有在写博客上投入时间，主要是其他事情比较多也比较忙。2022年8月以后就开始准备婚礼、看房、买房，举行婚礼和看车等等，工作上也在做项目和打一些比赛，并没有什么值得写的。由于工作需要接触到了语音领域的声纹识别，对语音识别进行了一些预研，因此在这里开一篇博客，聊一聊speaker verification学习历程。

一、speaker verification简介

Speaker Verification——说话人验证属于声纹识别领域范畴——给定两个音频，判定它们是不是同一个人所说。这里有两种不同的类型，一种是基于文本有关的，一种是基于文本无关的。基于文本有关的——每次检验的是否是同一个人说话，需要受检者说出限定范围的文本；而基于文本无关的则不需要，可以随意说话。前者相对容易一点，后者相对困难一点。Speaker Verification核心之处在于模型能够提炼出不同人声音的特征，且要有很好的区分度。

如上图所示，要判定Enrollment和Evaluation两个音频是不是同一个说话人，一般而言，可以把两个音频直接输入模型，训练一个分类模型，让模型来判定是不是同一个类别；也可以提前把Enrollment用训练好的模型提取出一个多维向量；等到Evaluation需要验证的时候，用模型同样提取响应特征向量，计算两个向量的向量度，根据阈值判定。在实际应用过程中，为了满足高效率，大多采用后者，提前把被检音频提取向量存储到对应的库中，然后检测音频实时抽取向量，计算向量，根据设定的阈值判定是否为同一个人。

在实际应用之前，需要对训练好的模型和整体的Speaker Verification系统进行评价。模型端评价根据建模的任务，一般采取F1值或者ACC、Recall等来评价。而评价实际的Speaker Verification系统，则有自己的一套评价体系和指标。主要是如下的评价指标：

FAR(False Accept Rate 错误接受率)

FRR(False Reject Rate错误拒绝率)

EER(Equal Error Rate 等错误率

FRR = Nfr/Ntarget 其中Nfr是指应该通过而被拒绝测试用例的数量，Ntarget 是指所有应该通过测试用例的总数

FAR = Nfa/Nnotarget 其中Nfa是指不应该通过也通过的测试用例的数量，Nnotarget 是指所有不应该通过测试用例的总数

EER 是指FAR==FRR时的错误率。它说话人确认系统中常用的性能评价指标

这个没有考虑错误接受以及错误拒绝不同的影响，因此为了把它们不同的影响也考虑起来，设计不同的权重，同时也把受检者是真是假的先验概率考虑进来，得到一个新的指标dcf。

PT真实说话人出现的先验概率，PI假的说话人出现的先验概率；越严格的系统PI/PT的值越大。比较常见的比值是1:99、1:999。

通过不断的调整阈值，DCF是会变化的，取最小的dcf的时候对应的阈值，会使得整个系统有最佳的表现。

二、主流方案和模型

speaker verification发展了很多年，有许多的方案。传统的一些方案，主要是利用信号处理方式，把时序信号转换为频域信号，然后再通过一些手段进行区分。看一张计算方案的演进图(摘抄自知乎问答——声纹识别算法有哪几种)：

其中可能涉及到的声学特征有MFCC、FBank和Spectrogram等，以及对它的一些数据增强。时至2022年了，大家更加关注端到端的方案，使用神经网络自动提取声学特征。比较主流的是Ecapa_TDNN模型，它于2020年被提出，通过引入SE (squeeze-excitation)模块以及通道注意机制，该方案在国际声纹识别比赛（VoxSRC2020）中取得了第一名；同时在2022年的FFSVC说话人验证任务中，该模型也被作为baseline。另外就是预训练模型，在语音领域也有很多类似文本领域Bert的预训练模型，其中个人认为效果最好的就是WavLm模型。

1、Ecapa_TDNN模型

先看整体结构图：

可以看到ecapa_tdnn由conv1D+BN、SE-Res2Block、ASP+BN、FC+BN以及AAM-softmax等模块构成。其中SE-Res2Block能是模型学习到音频数据中更多的全局信息，这个比之前的d-vector效果更好。

SE-Res2Block：

SE-Res2Block主要是Res2Block模块中引入了SE-Block模块——这是一个通道注意力模块，比较经典在各种网络中都表现的比较不错。

2、WavLm

它是微软亚洲研究院与微软 Azure 语音组使用Transformer模型架构和Denoising Masked Speech Modeling 框架直接对音频时序数据进行类似Bert的掩码预训练，使用了海量的音频数据进行了预训练，在语音任务上取得了很好的效果。

模型网络结构如图所示，特征抽取采用CNN网络层，然后特征编码采用transformer-block层，具体的模型细节这里就不分析了，可以把它看做为一个音频领域的bert，实现细节稍有不同，具体的实现可以去看huggingface的实现——WavLm和WavLmModel等。

三、代码实践

1、Ecapa_TDNN方案

a、模型结构

代码参考了百度的paddleSpeech中paddle版本和SpeechBrain中pytorch版本代码，并做了一些删减，同时也参考了一些个人的实现VoiceprintRecognition-Pytorch，对它们的代码进行了综合考量，得到下面的Ecapa_TDNN模型结构代码

import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.nn import Parameter

class TDNNBlock(nn.Module):
    """An implementation of TDNN."""
    def __init__(self, in_channels, out_channels, kernel_size, dilation, groups=1,padding=0):
        super(TDNNBlock, self).__init__()
        self.conv = nn.Conv1d(in_channels=in_channels,out_channels=out_channels,kernel_size=kernel_size, dilation=dilation,groups=groups,padding=padding)
        self.activation = nn.ReLU()
        self.bn = nn.BatchNorm1d(out_channels)

    def forward(self,x):
        x = self.conv(x)
        x = self.activation(x)
        x = self.bn(x)
        return x

class Res2NetBlock(torch.nn.Module):
    """An implementation of Res2NetBlock w/ dilation.
    Example
    -------
    inp_tensor = torch.rand([8, 120, 64]).transpose(1, 2)
    layer = Res2NetBlock(64, 64, scale=4, dilation=3)
    out_tensor = layer(inp_tensor).transpose(1, 2)
    out_tensor.shape
    torch.Size([8, 120, 64])
    """

    def __init__(
            self, in_channels, out_channels, scale=8, kernel_size=3, dilation=1,padding =0
    ):
        super(Res2NetBlock, self).__init__()
        assert in_channels % scale == 0
        assert out_channels % scale == 0
        in_channel = in_channels // scale
        hidden_channel = out_channels // scale
        self.blocks = nn.ModuleList(
            [
                TDNNBlock(
                    in_channel,
                    hidden_channel,
                    kernel_size=kernel_size,
                    dilation=dilation,
                    padding = padding
                )
                for i in range(scale - 1)
            ]
        )
        self.scale = scale

    def forward(self, x):
        y = []
        for i, x_i in enumerate(torch.chunk(x, self.scale, dim=1)):
            if i == 0:
                y_i = x_i
            elif i == 1:
                y_i = self.blocks[i - 1](x_i)
            else:
                y_i = self.blocks[i - 1](x_i + y_i)
            y.append(y_i)
        y = torch.cat(y, dim=1)
        return y

class SEBlock(nn.Module):
    """
    省略了mask
    """
    def __init__(self, in_channels, se_channels, out_channels):
        super(SEBlock,self).__init__()
        self.conv1 = nn.Conv1d(in_channels=in_channels, out_channels=se_channels, kernel_size=1)
        self.relu = nn.ReLU(inplace=True)
        self.conv2 = nn.Conv1d(in_channels=se_channels, out_channels=out_channels, kernel_size=1)
        self.sigmoid = nn.Sigmoid()

    def forward(self,x):
        s = x.mean(dim=2, keepdim=True)
        s = self.relu(self.conv1(s))
        s = self.sigmoid(self.conv2(s))
        out = s * x
        return out


class SERes2NetBlock(nn.Module):
    def __init__(self,in_channels,
        out_channels,
        res2net_scale=8,
        se_channels=128,
        kernel_size=1,
        dilation=1,
        groups=1,
        padding = 0):
        super(SERes2NetBlock, self).__init__()
        self.out_channels = out_channels
        self.tdnn1 = TDNNBlock(
            in_channels,
            out_channels,
            kernel_size=1,
            dilation=1,
            groups=groups,
        )
        self.res2net_block = Res2NetBlock(
            out_channels, out_channels, res2net_scale, kernel_size,padding, dilation
        )
        self.tdnn2 = TDNNBlock(
            out_channels,
            out_channels,
            kernel_size=1,
            dilation=1,
            groups=groups,
        )
        self.se_block = SEBlock(out_channels, se_channels, out_channels)

        self.shortcut = None
        if in_channels != out_channels:
            self.shortcut = nn.Conv1d(
                in_channels=in_channels,
                out_channels=out_channels,
                kernel_size=1,
            )

    def forward(self, x):
        """ Processes the input tensor x and returns an output tensor."""
        residual = x
        if self.shortcut:
            residual = self.shortcut(x)

        x = self.tdnn1(x)
        x = self.res2net_block(x)
        x = self.tdnn2(x)
        x = self.se_block(x)

        return x + residual


class AttentiveStatsPool(nn.Module):
    def __init__(self, in_dim, bottleneck_dim):
        super(AttentiveStatsPool,self).__init__()
        # Use Conv1d with stride == 1 rather than Linear, then we don't need to transpose inputs.
        self.linear1 = nn.Conv1d(in_dim, bottleneck_dim, kernel_size=1)  # equals W and b in the paper
        self.linear2 = nn.Conv1d(bottleneck_dim, in_dim, kernel_size=1)  # equals V and k in the paper

    def forward(self, x):
        # DON'T use ReLU here! In experiments, I find ReLU hard to converge.
        alpha = torch.tanh(self.linear1(x))
        alpha = torch.softmax(self.linear2(alpha), dim=2)
        mean = torch.sum(alpha * x, dim=2)
        residuals = torch.sum(alpha * x ** 2, dim=2) - mean ** 2
        std = torch.sqrt(residuals.clamp(min=1e-9))
        return torch.cat([mean, std], dim=1)


class ECAPATDNN(nn.Module):
    def __init__(self,
        input_size,
        lin_neurons=192,
        channels=[512, 512, 512, 512, 1536],
        kernel_sizes=[5, 3, 3, 3, 1],
        dilations=[1, 2, 3, 4, 1],
        attention_channels=128,
        res2net_scale=8,
        se_channels=128,
        groups=[1, 1, 1, 1, 1],
        paddings = [0,2,3,4,0]):

        super(ECAPATDNN, self).__init__()
        assert len(channels) == len(kernel_sizes)
        assert len(channels) == len(dilations)

        self.emb_size = lin_neurons

        self.channels = channels
        self.blocks = nn.ModuleList()
        self.blocks.append(
            TDNNBlock(
                input_size,
                channels[0],
                kernel_sizes[0],
                dilations[0],
                groups[0]
            )
        )

        for i in range(1,len(channels) -1):
            self.blocks.append(
                SERes2NetBlock(
                    channels[i-1],channels[i],res2net_scale, se_channels, kernel_sizes[i],dilations[i],groups[i],paddings[i]
                )
            )

        self.mfa = TDNNBlock(
            channels[-1],
            channels[-1],
            kernel_sizes[-1],
            dilations[-1],
            groups[-1]
        )

        self.asp = AttentiveStatsPool(channels[-1],attention_channels)

        self.asp_bn = nn.BatchNorm1d(channels[-1] * 2)
        self.fc = nn.Conv1d(
            in_channels=channels[-1] * 2,
            out_channels=lin_neurons,
            kernel_size=1,
        )

    def forward(self,x):
        xl = []
        for layer in self.blocks:
            x = layer(x)
            xl.append(x)

        # Multi-layer feature aggregation
        x = torch.cat(xl[1:], dim=1)

        x = x.data

        x = self.mfa(x)

        # Attentive Statistical Pooling
        x = self.asp(x)
        x = self.asp_bn(x)

        x = x.unsqueeze(2)
        # Final linear transformation
        x = self.fc(x)

        return x

class SpeakerIdentificationModel(nn.Module):
    def __init__(self,backbone,num_class=1,dropout=0.1):
        super(SpeakerIdentificationModel, self).__init__()
        self.backbone = backbone
        if dropout > 0:
            self.dropout = nn.Dropout(dropout)
        else:
            self.dropout = None

        input_size = self.backbone.emb_size

        # the final layer  nn.Linear 采用不同的权重初始化
        self.weight = Parameter(torch.FloatTensor(num_class, input_size), requires_grad=True)
        nn.init.xavier_normal_(self.weight, gain=1)

    def forward(self,x):
        x = self.backbone(x)
        if self.dropout is not None:
            x = self.dropout(x)
        logits = F.linear(F.normalize(x.squeeze(2)),weight=F.normalize(self.weight,dim=-1))

        return logits

b、loss

这部分代码摘抄自VoiceprintRecognition-Pytorch

Additive Angular Margin Loss（加性角度间隔损失函数）结合KLDivLoss(KL散度loss)得到最后的AAMloss

import math

import torch
import torch.nn as nn
import torch.nn.functional as F


class AdditiveAngularMargin(nn.Module):
    def __init__(self, margin=0.0, scale=1.0, easy_margin=False):
        """The Implementation of Additive Angular Margin (AAM) proposed
       in the following paper: '''Margin Matters: Towards More Discriminative Deep Neural Network Embeddings for Speaker Recognition'''
       (https://arxiv.org/abs/1906.07317)

        Args:
            margin (float, optional): margin factor. Defaults to 0.0.
            scale (float, optional): scale factor. Defaults to 1.0.
            easy_margin (bool, optional): easy_margin flag. Defaults to False.
        """
        super(AdditiveAngularMargin, self).__init__()
        self.margin = margin
        self.scale = scale
        self.easy_margin = easy_margin

        self.cos_m = math.cos(self.margin)
        self.sin_m = math.sin(self.margin)
        self.th = math.cos(math.pi - self.margin)
        self.mm = math.sin(math.pi - self.margin) * self.margin

    def forward(self, outputs, targets):
        cosine = outputs.float()
        sine = torch.sqrt(1.0 - torch.pow(cosine, 2))
        phi = cosine * self.cos_m - sine * self.sin_m
        if self.easy_margin:
            phi = torch.where(cosine > 0, phi, cosine)
        else:
            phi = torch.where(cosine > self.th, phi, cosine - self.mm)
        outputs = (targets * phi) + ((1.0 - targets) * cosine)
        return self.scale * outputs


class AAMLoss(nn.Module):
    def __init__(self, margin=0.2, scale=30, easy_margin=False):
        super(AAMLoss, self).__init__()
        self.loss_fn = AdditiveAngularMargin(margin=margin, scale=scale, easy_margin=easy_margin)
        self.criterion = torch.nn.KLDivLoss(reduction="sum")

    def forward(self, outputs, targets):
        targets = F.one_hot(targets, outputs.shape[1]).float()
        predictions = self.loss_fn(outputs, targets)
        predictions = F.log_softmax(predictions, dim=1)
        loss = self.criterion(predictions, targets) / targets.sum()
        return loss

c、数据处理

这部分代码功能是对wav或者mp3数据进行语音特征处理，比如fbank(melspectrogram)、spectrogram以及梅尔倒谱系数mffcc等等

import random
import torch
from torch.utils.data import Dataset
import torchaudio
from tqdm import tqdm

class AudioDataReader(Dataset):
    def __init__(self, data_list_path,
                 feature_method='melspectrogram',
                 mode='train',
                 sr=16000,
                 chunk_duration=3,
                 min_duration=0.5,
                 label2ids = {},
                 augmentors=None):
        super(AudioDataReader, self).__init__()
        assert data_list_path is not None
        with open(data_list_path,'r',encoding='utf-8') as f:
            self.lines = f.readlines()[0:]
        self.feature_method = feature_method
        self.mode = mode
        self.sr = sr
        self.chunk_duration = chunk_duration
        self.min_duration = min_duration
        self.augmentors = augmentors
        self.label2ids = label2ids
        self.audiofeatures = self.getaudiofeatures()

    def load_audio(self, audio_path,
                   feature_method='melspectrogram',
                   mode='train',
                   sr=16000,
                   chunk_duration=3,
                   min_duration=0.5,
                   augmentors=None):
        """
        加载并预处理音频
        :param audio_path: 音频路径
        :param feature_method: 预处理方法melspectrogram(Fbank)梅尔频谱/MFCC梅尔倒谱系数/spectrogram声谱图
        :param mode: 对数据处理的方式，包括train，eval，infer
        :param sr: 采样率
        :param chunk_duration: 训练或者评估使用的音频长度
        :param min_duration: 最小训练或者评估的音频长度
        :param augmentors: 数据增强方法
        :return:
        """

        wav, sample_rate = torchaudio.load(audio_path)  # 加载音频返回的是张量
        num_wav_samples = wav.shape[1]
        # 数据太短不利于训练
        if mode == 'train':
            if num_wav_samples < int(min_duration * sr):
                raise Exception(f'音频长度小于{min_duration}s，实际长度为：{(num_wav_samples / sr):.2f}s')
                # print(f'音频长度小于{min_duration}s，实际长度为：{(num_wav_samples / sr):.2f}s')
                # return None

        # 对小于训练长度的复制补充
        num_chunk_samples = int(chunk_duration * sr)
        if num_wav_samples < num_chunk_samples:
            times = int(num_chunk_samples / num_wav_samples) - 1
            shortages = []
            temp_num_wav_samples = num_wav_samples
            shortages.append(wav)
            if times >= 1:
                for _ in range(times):
                    shortages.append(wav)
                    temp_num_wav_samples += num_wav_samples

                shortages.append(wav[:,0:(num_chunk_samples - temp_num_wav_samples)])

            else:
                shortages.append(wav[:,0:(num_chunk_samples - num_wav_samples)])

            wav = torch.cat(shortages, dim=1)

        # 裁剪需要的数据
        if mode == 'train':
            # 随机裁剪
            num_wav_samples = wav.shape[1]
            num_chunk_samples = int(chunk_duration * sr)
            if num_wav_samples > num_chunk_samples + 1:
                start = random.randint(0, num_wav_samples - num_chunk_samples - 1)
                end = start + num_chunk_samples
                wav = wav[:,start:end]
                # # 对每次都满长度的再次裁剪
                # if random.random() > 0.5:
                #     wav[:random.randint(1, sr // 4)] = 0 #加入了静音数据
                #     wav = wav[:-random.randint(1, sr // 4)]
            # 数据增强
            if augmentors is not None:
                for key, augmentor in augmentors.items():
                    if key == 'specaug':
                        continue
                    wav = wav.numpy()
                    #转换为numpy,然后做增强
                    wav = augmentor(wav)
                wav = torch.from_numpy(wav)
        elif mode == 'eval':
            # 为避免显存溢出，只裁剪指定长度
            num_wav_samples = wav.shape[1]
            num_chunk_samples = int(chunk_duration * sr)
            if num_wav_samples > num_chunk_samples + 1:
                wav = wav[:,0:num_chunk_samples]

        if feature_method == "melspectrogram":
            # 梅尔频谱 Fbank
            features = torchaudio.transforms.MelSpectrogram(sample_rate=sr, n_fft=400, n_mels=80, hop_length=160, win_length=400)(wav)
        elif feature_method == "spectrogram":
            # 声谱图
            features = torchaudio.transforms.Spectrogram( n_fft=400, win_length=400, hop_length=160)(wav)
        elif feature_method == "MFCC":
            features = torchaudio.transforms.MFCC(sample_rate=sr, n_fft=400, n_mels=80, hop_length=160, win_length=400)(wav)
        else:
            raise Exception(f'预处理方法 {feature_method} 不存在！')

        # 数据增强
        if mode == 'train' and augmentors is not None:
            for key, augmentor in augmentors.items():
                if key == 'specaug':
                    features = augmentor(features)

        # 需要归一化
        features = torch.nn.LayerNorm(features.shape[-1])(features).squeeze(0)

        return features


    def getaudiofeatures(self):
        res = []
        for line in tqdm(self.lines,desc= self.mode + ' load all audios',ncols=100):
            temp = []
            try:
                audio_path, label = line.replace('\n', '').split('\t')
                label = self.label2ids[label]
                features = self.load_audio(audio_path=audio_path, feature_method=self.feature_method, mode=self.mode,
                                           sr=self.sr, chunk_duration=self.chunk_duration,
                                           min_duration=self.min_duration,
                                           augmentors=self.augmentors)
                label = torch.as_tensor(label, dtype=torch.long)
                temp.append(features)
                temp.append(label)
                res.append(temp)
            except Exception as e:
                print(e+',load audio data exception')

        return res

    @property
    def input_size(self):
        if self.feature_method == 'melspectrogram':
            return 80
        elif self.feature_method == 'spectrogram':
            return 201
        else:
            raise Exception(f'预处理方法 {self.feature_method} 不存在！')


    def __getitem__(self, item):
       return self.audiofeatures[item][0], self.audiofeatures[item][1]


    def __len__(self):
        return len(self.audiofeatures)

值得注意的是没有在__getitem__()函数中读取音频加载数据，而是直接全部加载到内存中，如果数据量过大还是要在_getitem__()函数中读取音频加载数据，减小内存消耗，当然训练速度会减慢。

d、模型训练和评估

数据集采用公共数据集：zhvoice: Chinese voice corpus中的zhstcmds数据

"zhstcmds": {
        "character_W": 111.9317,
        "duration_H": 74.53628,
        "n_audio_per_speaker": 120.0,
        "n_character_per_sentence": 10.909522417153998,
        "n_minute_per_speaker": 5.230616140350877,
        "n_second_per_audio": 2.6153080701754385,
        "n_speaker": 855,
        "sentence_W": 10.26,
        "size_MB": 767.7000274658203
    }

总计104963条数据，随机切分，验证集10000条，训练集94963条数据。

训练代码如下

from models.loss import AAMLoss
from models.ecapa_tdnn import SpeakerIdentificationModel,ECAPATDNN
# from models.ecapa_tdnn import SpeakerIdetification,EcapaTdnn
from tools.log import Logger
from tools.progressbar import ProgressBar
from data_utils.reader import AudioDataReader
from data_utils.noise_perturb import NoisePerturbAugmentor
from data_utils.speed_perturb import SpeedPerturbAugmentor
from data_utils.volum_perturb import VolumePerturbAugmentor
from data_utils.spec_augment import SpecAugmentor

from torch.utils.data import DataLoader
import torch
import os
from torch.optim import AdamW
from torch.optim.lr_scheduler import CosineAnnealingLR
import argparse

import random
import numpy as np
from torch.utils.tensorboard import SummaryWriter
from datetime import datetime
import yaml
import torch.nn as nn

def parse_args():
    parser = argparse.ArgumentParser()
    parser.add_argument("--train_datas_path", type=str, default='./data/train_audio_paths.txt', help="train text file")
    parser.add_argument("--val_datas_path", type=str, default='./data/val_audio_paths.txt', help="val text file")
    # parser.add_argument("--train_datas_path", type=str, default='./data/train_audio_paths_small.txt', help="train text file")
    # parser.add_argument("--val_datas_path", type=str, default='./data/val_audio_paths_small.txt', help="val text file")
    parser.add_argument("--log_file", type=str, default="./log_output/speaker_identification.log", help="log_file")
    parser.add_argument("--model_out", type=str, default="./output/", help="model output path")
    parser.add_argument("--batch_size", type=int, default=64, help="batch size")
    parser.add_argument("--epochs", type=int, default=30, help="epochs")
    parser.add_argument("--lr", type=float, default=1e-3, help="epochs")
    parser.add_argument("--random_seed", type=int, default=100, help="random_seed")
    parser.add_argument("--device", type=str, default='1', help="device")
    args = parser.parse_args()
    return args

def training(args):
    os.environ['CUDA_VISIBLE_DEVICES'] = args.device
    logger = Logger(log_name='SI',log_level=10,log_file=args.log_file).logger
    logger.info(args)
    label2ids = {}

    id = 0
    with open(args.train_datas_path,'r',encoding='utf-8') as f:
        lines = f.readlines()
        for line in lines:
            line = line.strip('\n')
            if line.split('\t')[-1] not in label2ids:
                label2ids[line.split('\t')[-1]] = id
                id += 1

    with open(args.val_datas_path,'r',encoding='utf-8') as f:
        lines = f.readlines()
        for line in lines:
            line = line.strip('\n')
            if line.split('\t')[-1] not in label2ids:
                label2ids[line.split('\t')[-1]] = id
                id += 1


    augmentors = {}
    with open("augment.ymal",'r', encoding="utf-8") as fp:
        configs = yaml.load(fp, Loader=yaml.FullLoader)
    augmentors['noise'] = NoisePerturbAugmentor(**configs['noise'])
    augmentors['speed'] = SpeedPerturbAugmentor(**configs['speed'])
    augmentors['volume'] = VolumePerturbAugmentor(**configs['volume'])
    augmentors['specaug'] = SpecAugmentor(**configs['specaug'])

    augmentors = None

    time_srt = datetime.now().strftime('%Y-%m-%d')

    save_path = os.path.join(args.model_out,time_srt)
    if not os.path.exists(save_path):
        os.makedirs(save_path)

    logger.info(save_path)


    device = "cuda:0" if torch.cuda.is_available() else "cpu"


    train_dataset = AudioDataReader(feature_method='melspectrogram',data_list_path=args.train_datas_path,mode='train', label2ids=label2ids, augmentors=augmentors)
    train_dataloader = DataLoader(train_dataset,shuffle=True,batch_size=args.batch_size )

    val_dataset = AudioDataReader(feature_method='melspectrogram', data_list_path=args.val_datas_path, mode='eval', label2ids = label2ids,augmentors=augmentors)
    val_dataloader = DataLoader(val_dataset, shuffle=True, batch_size=args.batch_size)


    num_class = len(label2ids)
    logger.info('num_class:%d'%num_class)

    ecapa_tdnn = ECAPATDNN(input_size=train_dataset.input_size)
    model = SpeakerIdentificationModel(backbone=ecapa_tdnn, num_class=num_class).to(device)



    # ecapa_tdnn = EcapaTdnn(input_size=train_dataset.input_size)
    # model = SpeakerIdetification(backbone=ecapa_tdnn, num_class=num_class).to(device)


    # logger.info(model)

    loss_function = AAMLoss()

    optimizer = AdamW(lr=args.lr,params=model.parameters())
    scheduler = CosineAnnealingLR(optimizer,T_max=args.epochs)

    logger.info("***** Running training *****")
    logger.info("  Num examples = %d" % len(train_dataloader))
    logger.info("  Num Epochs = %d" % args.epochs)

    writer = SummaryWriter('./runs/' + time_srt + '/')
    best_acc = 0
    total_step = 0

    unimproving_count = 0

    for epoch in range(args.epochs):
        pbar = ProgressBar(n_total=len(train_dataloader), desc='Training')
        model.train()
        total_loss = 0
        for step, batch in enumerate(train_dataloader):
            batch = [t.to(device) for t in batch]
            audio = batch[0]
            speakers = batch[1]
            output = model(audio)

            loss = loss_function(output, speakers)


            optimizer.zero_grad()
            # loss.backward(retain_graph=True)
            loss.backward()
            optimizer.step()


            total_step += 1

            writer.add_scalar('Train/Learning loss', loss.item(), total_step)

            total_loss += loss.item()
            pbar(step, {'loss': loss.item()})

        val_acc = evaluate(model, val_dataloader, device)

        if best_acc < val_acc:
            best_acc = val_acc
            save_path = os.path.join(save_path,"ecapa_tdnn.bin")
            torch.save(model.state_dict(),save_path)

            is_improving = True
            unimproving_count = 0
        else:
            is_improving = False
            unimproving_count += 1

        if is_improving:
            logger.info(f"Train epoch [{epoch+1}/{args.epochs}],batch [{step+1}],Best_acc: {best_acc},Val_acc:{val_acc}, lr:{scheduler.get_lr()[0]}, total_loss:{round(total_loss,4)}. Save model!")
        else:
            logger.info(f"Train epoch [{epoch+1}/{args.epochs}],batch [{step+1}],Best_acc: {best_acc},Val_acc:{val_acc}, lr:{scheduler.get_lr()[0]}, total_loss:{round(total_loss,4)}.")


        writer.add_scalar('Val/val_acc', val_acc, total_step)
        writer.add_scalar('Val/best_acc', best_acc, total_step)

        writer.add_scalar('Train/Learning rate', scheduler.get_lr()[0], total_step)
        scheduler.step()

        if unimproving_count >= 5:
            logger.info('unimproving %d epochs, early stop!'%unimproving_count)
            break


def evaluate(model,val_dataloader,device):
    total = 0
    correct_total = 0

    model.eval()
    with torch.no_grad():
        pbar = ProgressBar(n_total=len(val_dataloader), desc='evaluate')
        for step, batch in enumerate(val_dataloader):
            batch = [t.to(device) for t in batch]
            audio = batch[0]
            speakers = batch[1]
            output = model(audio)
            total += speakers.shape[0]
            preds = torch.argmax(output,dim=-1)
            correct = (speakers==preds).sum().item()
            pbar(step, {})
            correct_total += correct

    acc = correct_total/total
    model.train()
    return acc


def set_seed(seed):
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    np.random.seed(seed)
    random.seed(seed)
    torch.backends.cudnn.deterministic = True


def collate_fn(batch):
    features,labels = zip(*batch)
    return features

if __name__ == '__main__':
    args = parse_args()
    set_seed(args.random_seed)
    training(args)

训练过程中采用的评估指标直接是分类准确率，日志如下：

验证集分类准确率是0.9503

e、说话人验证推理

使用上述训练好的Ecapa_TDNN模型对经过数据处理后的音频数据抽取向量特征，计算相似度，通过设定的阈值来判定是否为同一个说话人，当然这里的阈值就需要经过构建的验证数据集进行搜索得到最佳阈值。

from models.ecapa_tdnn import SpeakerIdentificationModel,ECAPATDNN
from tools.log import Logger
from tools.progressbar import ProgressBar
from data_utils.reader import AudioDataReader
from data_utils.noise_perturb import NoisePerturbAugmentor
from data_utils.speed_perturb import SpeedPerturbAugmentor
from data_utils.volum_perturb import VolumePerturbAugmentor
from data_utils.spec_augment import SpecAugmentor
from torch.utils.data import DataLoader
import torch
import os
import argparse
import numpy as np
import yaml
from tqdm import tqdm
import matplotlib.pyplot as plt
import time
import random
random.seed(100)

def parse_args():
    parser = argparse.ArgumentParser()
    parser.add_argument("--train_datas_path", type=str, default='./data/train_audio_paths.txt', help="train text file")
    parser.add_argument("--val_datas_path", type=str, default='./data/val_audio_paths.txt', help="val text file")
    parser.add_argument("--log_file", type=str, default="./log_output/speaker_identification_evaluate.log", help="log_file")
    parser.add_argument("--batch_size", type=int, default=64, help="batch size")
    parser.add_argument("--random_seed", type=int, default=100, help="random_seed")
    parser.add_argument("--device", type=str, default='0', help="device")
    args = parser.parse_args()
    return args

def evaluate(args):
    os.environ['CUDA_VISIBLE_DEVICES'] = args.device
    logger = Logger(log_name='SI',log_level=10,log_file=args.log_file).logger
    logger.info(args)
    label2ids = {}

    id = 0
    with open(args.train_datas_path,'r',encoding='utf-8') as f:
        lines = f.readlines()
        for line in lines:
            line = line.strip('\n')
            if line.split('\t')[-1] not in label2ids:
                label2ids[line.split('\t')[-1]] = id
                id += 1

    with open(args.val_datas_path,'r',encoding='utf-8') as f:
        lines = f.readlines()
        for line in lines:
            line = line.strip('\n')
            if line.split('\t')[-1] not in label2ids:
                label2ids[line.split('\t')[-1]] = id
                id += 1

    augmentors = {}
    with open("augment.ymal",'r', encoding="utf-8") as fp:
        configs = yaml.load(fp, Loader=yaml.FullLoader)
    augmentors['noise'] = NoisePerturbAugmentor(**configs['noise'])
    augmentors['speed'] = SpeedPerturbAugmentor(**configs['speed'])
    augmentors['volume'] = VolumePerturbAugmentor(**configs['volume'])
    augmentors['specaug'] = SpecAugmentor(**configs['specaug'])

    augmentors = None

    device = "cuda:0" if torch.cuda.is_available() else "cpu"

    val_dataset = AudioDataReader(feature_method='melspectrogram', data_list_path=args.val_datas_path, mode='eval', label2ids = label2ids,augmentors=augmentors)
    val_dataloader = DataLoader(val_dataset, shuffle=True, batch_size=args.batch_size)

    num_class = 875
    logger.info('num_class:%d'%num_class)

    ecapa_tdnn = ECAPATDNN(input_size=val_dataset.input_size)
    model = SpeakerIdentificationModel(backbone=ecapa_tdnn, num_class=num_class).to(device)
    weights = torch.load('./output/2022-11-07/ecapa_tdnn.bin')
    model.load_state_dict(weights)
    model.eval()

    logger.info("***** Running evaluate *****")
    logger.info("  Num examples = %d" % len(val_dataset))

    pbar = ProgressBar(n_total=len(val_dataloader), desc='extract features')
    model.eval()
    labels = []
    features = []
    with torch.no_grad():
        for step, batch in enumerate(val_dataloader):
            batch = [t.to(device) for t in batch]
            audio = batch[0]
            speakers = batch[1]
            output = model.backbone(audio)

            labels.append(speakers)
            features.append(output.squeeze(2))
            pbar(step,info={'step':step})

    labels = torch.cat(labels)
    features = torch.cat(features)

    scores_pos = []
    scores_neg = []
    y_true_pos = []
    y_true_neg = []
    for i in tqdm(range(features.shape[0]),desc='两两计算相似度',ncols=100):
        query = features[i]
        inside = features[i:,:]

        temp = (labels[i] == labels[i:]).detach().long()
        pos_index = torch.nonzero(temp==1)
        neg_index = torch.nonzero(temp==0)
        pos_label = torch.take(temp,pos_index).squeeze(1).detach().cpu().tolist()
        neg_label = torch.take(temp, neg_index).squeeze(1).detach().cpu().tolist()

        cos = torch.cosine_similarity(query, inside, dim=-1)
        pos_score = torch.take(cos,pos_index).squeeze(1).detach().cpu().tolist()
        neg_score = torch.take(cos,neg_index).squeeze(1).detach().cpu().tolist()

        y_true_pos.extend(pos_label)
        y_true_neg.extend(neg_label)
        scores_pos.extend(pos_score)
        scores_neg.extend(neg_score)

    print('len(y_true_neg)',len(y_true_neg))
    print('len(y_true_pos)',len(y_true_pos))

    print('len(scores_pos)', len(scores_pos))
    print('len(scores_neg)', len(scores_neg))

    if len(y_true_pos) * 99 < len(y_true_neg):
        indexs = random.choices(list(range(len(y_true_neg))),k=len(y_true_pos)*99)
        scores = scores_pos
        y_true = y_true_pos
        for index in indexs:
            scores.append(scores_neg[index])
            y_true.append(y_true_neg[index])

    else:
        scores = scores_pos + scores_neg
        y_true = y_true_pos + y_true_neg

    print('len(scores)', len(scores))
    print('len(y_true)', len(y_true))


    scores = torch.tensor(scores,dtype=torch.float32)
    y_true = torch.tensor(y_true,dtype=torch.long)

    # choice_best_threshold(scores, y_true)

    choice_best_threshold_dcf(scores, y_true)

def choice_best_threshold_dcf(scores, y_true):
    thresholds = []
    fars = []
    frrs = []
    dcfs = []
    precisions = []
    recalls = []
    f1s = []

    max_precision = 0

    max_recall = 0

    max_f1 = 0
    f1_threshold = 0

    min_dcf = 1
    d_threshold = 0

    cfr = 1
    cfa =1

    err = 0.0
    err_threshold = 0
    diff = 1

    for i in tqdm(range(100), desc='choice_best_threshold', ncols=100):

        threshold = 0.01 * i
        thresholds.append(threshold)

        y_preds = (scores > threshold).long()

        tp = ((y_true == 1) * (y_preds == 1)).sum().item()
        fp = ((y_true == 0) * (y_preds == 1)).sum().item()

        tn = ((y_true == 0) * (y_preds == 0)).sum().item()
        fn = ((y_true == 1) * (y_preds == 0)).sum().item()

        pos = tp + fn
        neg = tn + fp

        precision = tp / (tp + fp+1e-13)
        recall = tp / (tp + fn+1e-13)
        f1 = 2 * precision * recall / (precision + recall + 1e-13)

        far = fp / (fp + tn + 1e-13)
        frr = fn / (tp + fn + 1e-13)

        dcf = cfa* far *(neg/(neg+pos)) + cfr* frr *(pos/(pos+neg))

        precisions.append(precision)
        recalls.append(recall)
        f1s.append(f1)

        fars.append(far)
        frrs.append(frr)
        dcfs.append(dcf)

        if max_precision < precision:
            max_precision = precision


        if max_recall < recall:
            max_recall = recall


        if max_f1 < f1:
            max_f1 = f1
            f1_threshold = threshold


        if min_dcf > dcf:
            min_dcf = dcf
            d_threshold = threshold

        if abs(far-frr) < diff:
            err = (far+frr)/2
            diff = abs(far-frr)
            err_threshold = threshold


    print(pos + neg)
    print('threshold:%.4f err:%.4f'%(err_threshold, err))
    print("d_threshold:%.4f, min_dcf%.4f"%(d_threshold, min_dcf))
    print("f1_threshold:%.4f, max_f1%.4f" % (f1_threshold, max_f1))

    start = time.time()
    plt.figure(figsize=(30,30),dpi=80)
    plt.title('2D curve ')

    plt.plot(thresholds, frrs, label='frr')
    plt.plot(thresholds, fars, label='far')
    plt.plot(thresholds, dcfs, label='dcf')

    plt.plot(thresholds, precisions, label='pre')
    plt.plot(thresholds, recalls, label='recall')
    plt.plot(thresholds, f1s, label='f1')
    plt.legend(loc=0)

    plt.scatter(d_threshold, min_dcf, c='red', s=100)
    plt.text(d_threshold, min_dcf, " min_dcf(%.4f,%.4f)"%(d_threshold, min_dcf))

    plt.scatter(err_threshold,err,c='blue',s=100)
    plt.text(err_threshold,err," err(%.4f,%.4f)"%(err_threshold,err))

    plt.scatter(f1_threshold, max_f1, c='yellow', s=100)
    plt.text(f1_threshold, max_f1, " f1(%.4f,%.4f)"%(f1_threshold, max_f1))


    plt.xlabel('threshold')
    plt.ylabel('frr f dcf recall or precision')
    plt.xticks(thresholds[::2])
    plt.yticks(thresholds[::2])
    end = time.time()
    print('plot time is', end - start)

    plt.savefig('ecapatdnn_2d_curve_voiceprint_dcf.png')
    plt.show()
    print("finish")


def choice_best_threshold(scores,y_true):
    best_precision_threshold = 0
    precision_best = 0
    precision_recall = 0
    precision_f1 = 0
    tp_1 = 0
    fp_1 = 0
    fn_1 = 0
    tn_1 = 0

    best_recall_threshold = 0
    recall_best = 0
    recall_precision = 0
    recall_f1 = 0
    tp_2 = 0
    fp_2 = 0
    fn_2 = 0
    tn_2 = 0


    best_f1_threshold = 0
    f1_best = 0
    f1_precision = 0
    f1_recall = 0
    tp_3 = 0
    fp_3 = 0
    fn_3 = 0
    tn_3 = 0

    fars = []#误接受率
    frrs = []#误拒识率
    far_min = 1
    frr_min = 1
    thresholds = []
    err = None
    tp_4 = 0
    fp_4 = 0
    fn_4 = 0
    tn_4 = 0

    diff = 1


    for i in tqdm( range(100),desc='choice_best_threshold',ncols=100):
        threshold = 0.01 * i
        thresholds.append(threshold)

        y_preds = (scores > threshold).long()

        tp = ((y_true == 1)*(y_preds==1)).sum().item()
        fp = ((y_true == 0)*(y_preds==1)).sum().item()

        tn = ((y_true==0)*(y_preds==0)).sum().item()
        fn = ((y_true==1)*(y_preds==0)).sum().item()

        precision = tp /(tp+fp)
        recall = tp/(tp+fn)
        f1 = 2*precision*recall/(precision+recall + 1e-13)


        far = fp/(fp+tn)
        frr = fn/(tp+fn)


        fars.append(far)
        frrs.append(frr)




        if precision > precision_best:
            precision_best = precision
            best_precision_threshold = threshold
            precision_recall = recall
            precision_f1 = f1
            tp_1 = tp
            fp_1 = fp
            fn_1 = fn
            tn_1 = tn



        if recall > recall_best:
            recall_best = recall
            best_recall_threshold = threshold
            recall_precision = precision
            recall_f1 = f1
            tp_2 = tp
            fp_2 = fp
            fn_2 = fn
            tn_2 = tn

        if f1 > f1_best:
            f1_best = f1
            f1_precision = precision
            f1_recall = recall
            best_f1_threshold = threshold
            tp_3 = tp
            fp_3 = fp
            fn_3 = fn
            tn_3 = tn

        if abs(far-frr) < diff:
            diff = abs(far-frr)
            err = (far+frr)/2
            far_min = far
            frr_min = frr
            tp_4 = tp
            fp_4 = fp
            fn_4 = fn
            tn_4 = tn

    print(f"tp:{tp_4} fp{fp_4} tn{tn_4} fn{fn_4}")
    print("frr_min:%.4f,far_min:%.4f,err:%.4f"%(frr_min,far_min,err))
    print("precision:%.4f recall:%.4f"%(tp_4 /(tp_4+fp_4), tp_4/(tp_4+fn_4)))
    print('*'*50)
    print(f"tp:{tp_1} fp{fp_1} tn{tn_1} fn{fn_1}")
    print('best_precision_threshold:%.4f, precision_best:%.4f precision_recall:%.4f precision_f1:%.4f'%(best_precision_threshold,precision_best,precision_recall, precision_f1))
    print('*' * 50)
    print(f"tp:{tp_2} fp{fp_2} tn{tn_2} fn{fn_2}")
    print('best_recall_threshold:%.4f, recall_best:%.4f recall_precision:%.4f recall_f1:%.4f' % (
    best_recall_threshold, recall_best, recall_precision, recall_f1))
    print('*' * 50)
    print(f"tp:{tp_3} fp{fp_3} tn{tn_3} fn{fn_3}")
    print("frr:%.4f,far:%.4f"%(fn_3/(fn_3+tp_3),fp_3/(fp_3+tn_3)))
    print('best_f1_threshold:%.4f, f1_best:%.4f f1_precision:%.4f f1_recall:%.4f' % (
    best_f1_threshold, f1_best, f1_precision, f1_recall))

    print('*' * 50)

    # print(fars[0],"--",frrs[0])
    # print(fars[-1], "--", frrs[-1])
    #
    # plt.figure(figsize=(20,20),dpi=80)
    # plt.title('2D curve ')
    # plt.plot(fars, frrs)
    # plt.plot(thresholds,thresholds)
    # plt.scatter(err,err,c='red',s=100)
    # plt.text(err,err,(err,err))
    #
    # plt.xlabel('far')
    # plt.ylabel('frr')
    # plt.xticks(thresholds[::2])
    # plt.yticks(thresholds[::2])
    # plt.show()
    # plt.savefig('2d_curve_voiceprint_det.png')



def set_seed(seed):
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    np.random.seed(seed)
    random.seed(seed)
    torch.backends.cudnn.deterministic = True


def collate_fn(batch):
    features,labels = zip(*batch)
    return features

if __name__ == '__main__':
    args = parse_args()
    set_seed(args.random_seed)
    evaluate(args)

采用far和frr以及errdct等评价指标来获取最佳threshold：

可以看到最小dcf对应的相似度阈值是0.4500。

2、WavLm预训练方案

a、模型结构和loss

from transformers import WavLMModel, WavLMPreTrainedModel
from transformers.modeling_outputs import XVectorOutput
from transformers.pytorch_utils import torch_int_div
import torch.nn as nn
import torch
from typing import Optional, Tuple, Union

_HIDDEN_STATES_START_POSITION = 2


class TDNNLayer(nn.Module):
    def __init__(self, config, layer_id=0):
        super().__init__()
        self.in_conv_dim = config.tdnn_dim[layer_id - 1] if layer_id > 0 else config.tdnn_dim[layer_id]
        self.out_conv_dim = config.tdnn_dim[layer_id]
        self.kernel_size = config.tdnn_kernel[layer_id]
        self.dilation = config.tdnn_dilation[layer_id]

        self.kernel = nn.Linear(self.in_conv_dim * self.kernel_size, self.out_conv_dim)
        self.activation = nn.ReLU()

    def forward(self, hidden_states):
        hidden_states = hidden_states.unsqueeze(1)
        hidden_states = nn.functional.unfold(
            hidden_states,
            (self.kernel_size, self.in_conv_dim),
            stride=(1, self.in_conv_dim),
            dilation=(self.dilation, 1),
        )
        hidden_states = hidden_states.transpose(1, 2)
        hidden_states = self.kernel(hidden_states)

        hidden_states = self.activation(hidden_states)
        return hidden_states

class AMSoftmaxLoss(nn.Module):
    def __init__(self, input_dim, num_labels, scale=30.0, margin=0.4):
        super(AMSoftmaxLoss, self).__init__()
        self.scale = scale
        self.margin = margin
        self.num_labels = num_labels
        self.weight = nn.Parameter(torch.randn(input_dim, num_labels), requires_grad=True)
        self.loss = nn.CrossEntropyLoss()

    def forward(self, hidden_states, labels = None):
        weight = nn.functional.normalize(self.weight, dim=0)
        hidden_states = nn.functional.normalize(hidden_states, dim=1)
        cos_theta = torch.mm(hidden_states, weight)
        if labels is not None:
            psi = cos_theta - self.margin
            labels = labels.flatten()
            onehot = nn.functional.one_hot(labels, self.num_labels)
            logits = self.scale * torch.where(onehot.bool(), psi, cos_theta)
            loss = self.loss(logits, labels)
            return loss,cos_theta
        else:
            return cos_theta

class WavLm(WavLMPreTrainedModel):
    def __init__(self,config):
        super(WavLm, self).__init__(config)
        self.wavlm = WavLMModel(config)
        num_layers = config.num_hidden_layers + 1  # transformer layers + input embeddings
        if config.use_weighted_layer_sum:
            self.layer_weights = nn.Parameter(torch.ones(num_layers) / num_layers)
        self.projector = nn.Linear(config.hidden_size, config.tdnn_dim[0])

        tdnn_layers = [TDNNLayer(config, i) for i in range(len(config.tdnn_dim))]
        self.tdnn = nn.ModuleList(tdnn_layers)

        self.feature_extractor = nn.Linear(config.tdnn_dim[-1] * 2, config.xvector_output_dim)
        self.classifier = nn.Linear(config.xvector_output_dim, config.xvector_output_dim)

        self.objective = AMSoftmaxLoss(config.xvector_output_dim, config.num_labels)

        self.init_weights()


    def forward(self,input_values: Optional[torch.Tensor],
        attention_mask: Optional[torch.Tensor] = None,
        output_attentions: Optional[bool] = None,
        output_hidden_states: Optional[bool] = None,
        return_dict: Optional[bool] = None,
        labels: Optional[torch.Tensor] = None,):

        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
        output_hidden_states = True if self.config.use_weighted_layer_sum else output_hidden_states

        outputs = self.wavlm(
            input_values,
            attention_mask=attention_mask,
            output_attentions=output_attentions,
            output_hidden_states=output_hidden_states,
            return_dict=return_dict,
        )

        if self.config.use_weighted_layer_sum:
            hidden_states = outputs[_HIDDEN_STATES_START_POSITION]
            hidden_states = torch.stack(hidden_states, dim=1)
            norm_weights = nn.functional.softmax(self.layer_weights, dim=-1)
            hidden_states = (hidden_states * norm_weights.view(-1, 1, 1)).sum(dim=1)
        else:
            hidden_states = outputs[0]

        hidden_states = self.projector(hidden_states)

        for tdnn_layer in self.tdnn:
            hidden_states = tdnn_layer(hidden_states)

        # Statistic Pooling
        if attention_mask is None:
            mean_features = hidden_states.mean(dim=1)
            std_features = hidden_states.std(dim=1)
        else:
            feat_extract_output_lengths = self._get_feat_extract_output_lengths(attention_mask.sum(dim=1))
            tdnn_output_lengths = self._get_tdnn_output_lengths(feat_extract_output_lengths)
            mean_features = []
            std_features = []
            for i, length in enumerate(tdnn_output_lengths):
                mean_features.append(hidden_states[i, :length].mean(dim=0))
                std_features.append(hidden_states[i, :length].std(dim=0))
            mean_features = torch.stack(mean_features)
            std_features = torch.stack(std_features)
        statistic_pooling = torch.cat([mean_features, std_features], dim=-1)

        output_embeddings = self.feature_extractor(statistic_pooling)
        logits = self.classifier(output_embeddings)

        loss = None
        if labels is not None:
            loss, cos_theta = self.objective(logits, labels)
        else:
            cos_theta = self.objective(logits, labels)

        logits = cos_theta

        if not return_dict:
            output = (logits, output_embeddings) + outputs[_HIDDEN_STATES_START_POSITION:]
            return ((loss,) + output) if loss is not None else output

        return XVectorOutput(
            loss=loss,
            logits=logits,
            embeddings=output_embeddings,
            hidden_states=outputs.hidden_states,
            attentions=outputs.attentions,
        )


    def _get_tdnn_output_lengths(self, input_lengths: Union[torch.LongTensor, int]):
        """
        Computes the output length of the TDNN layers
        """

        def _conv_out_length(input_length, kernel_size, stride):
            # 1D convolutional layer output length formula taken
            # from https://pytorch.org/docs/stable/generated/torch.nn.Conv1d.html
            return (input_length - kernel_size) // stride + 1

        for kernel_size in self.config.tdnn_kernel:
            input_lengths = _conv_out_length(input_lengths, kernel_size, 1)

        return input_lengths

    def _get_feat_extract_output_lengths(
        self, input_lengths: Union[torch.LongTensor, int], add_adapter: Optional[bool] = None
    ):
        """
        Computes the output length of the convolutional layers
        """

        add_adapter = self.config.add_adapter if add_adapter is None else add_adapter

        def _conv_out_length(input_length, kernel_size, stride):
            # 1D convolutional layer output length formula taken
            # from https://pytorch.org/docs/stable/generated/torch.nn.Conv1d.html
            return torch_int_div(input_length - kernel_size, stride) + 1

        for kernel_size, stride in zip(self.config.conv_kernel, self.config.conv_stride):
            input_lengths = _conv_out_length(input_lengths, kernel_size, stride)

        if add_adapter:
            for _ in range(self.config.num_adapter_layers):
                input_lengths = _conv_out_length(input_lengths, 1, self.config.adapter_stride)

        return input_lengths

b、数据处理

import random
import torch
from torch.utils.data import Dataset
import torchaudio
from tqdm import tqdm

class AudioDataReader(Dataset):
    def __init__(self, data_list_path,
                 mode='train',
                 sr=16000,
                 chunk_duration=3,
                 min_duration=0.5,
                 label2ids = {},
                 augmentors=None):
        super(AudioDataReader, self).__init__()
        assert data_list_path is not None
        with open(data_list_path,'r',encoding='utf-8') as f:
            self.lines = f.readlines()[0:]
        self.mode = mode
        self.sr = sr
        self.chunk_duration = chunk_duration
        self.min_duration = min_duration
        self.augmentors = augmentors
        self.label2ids = label2ids
        self.audiofeatures = self.getaudiofeatures()


    def handle_features(self,wav,sr,mode,chunk_duration,min_duration):
        num_wav_samples = wav.shape[1]
        # 数据太短不利于训练
        if mode == 'train':
            if num_wav_samples < int(min_duration * sr):
                raise Exception(f'音频长度小于{min_duration}s，实际长度为：{(num_wav_samples / sr):.2f}s')
                # print(f'音频长度小于{min_duration}s，实际长度为：{(num_wav_samples / sr):.2f}s')
                # return None

        # 对小于训练长度的复制补充
        num_chunk_samples = int(chunk_duration * sr)
        if num_wav_samples < num_chunk_samples:
            times = int(num_chunk_samples / num_wav_samples) - 1
            shortages = []
            temp_num_wav_samples = num_wav_samples
            shortages.append(wav)
            if times >= 1:
                for _ in range(times):
                    shortages.append(wav)
                    temp_num_wav_samples += num_wav_samples

                shortages.append(wav[:, 0:(num_chunk_samples - temp_num_wav_samples)])

            else:
                shortages.append(wav[:, 0:(num_chunk_samples - num_wav_samples)])

            wav = torch.cat(shortages, dim=1)

        # 裁剪需要的数据
        if mode == 'train':
            # 随机裁剪
            num_wav_samples = wav.shape[1]
            num_chunk_samples = int(chunk_duration * sr)
            if num_wav_samples > num_chunk_samples + 1:
                start = random.randint(0, num_wav_samples - num_chunk_samples - 1)
                end = start + num_chunk_samples
                wav = wav[:, start:end]
                # # 对每次都满长度的再次裁剪
                # if random.random() > 0.5:
                #     wav[:random.randint(1, sr // 4)] = 0 #加入了静音数据
                #     wav = wav[:-random.randint(1, sr // 4)]

        elif mode == 'eval':
            # 为避免显存溢出，只裁剪指定长度
            num_wav_samples = wav.shape[1]
            num_chunk_samples = int(chunk_duration * sr)
            if num_wav_samples > num_chunk_samples + 1:
                wav = wav[:, 0:num_chunk_samples]

        return wav


    def getaudiofeatures(self):
        res = []
        for line in tqdm(self.lines,desc= self.mode + ' load all audios',ncols=100):
            temp = []
            try:
                audio_path, label = line.replace('\n', '').split('\t')
                label = self.label2ids[label]
                wav, sample_rate = torchaudio.load(audio_path)  # 加载音频返回的是张量
                wav = self.handle_features(wav,sr=self.sr,mode=self.mode,chunk_duration=self.chunk_duration,min_duration=self.min_duration)
                features = wav[:,0:self.sr*self.chunk_duration].squeeze(0)
                attention_mask = torch.ones_like(features,dtype=torch.long)
                label = torch.as_tensor(label, dtype=torch.long)
                temp.append(features)
                temp.append(attention_mask)
                temp.append(label)
                res.append(temp)
            except Exception as e:
                print(e+',load audio data exception')

        return res


    def __getitem__(self, item):
       return self.audiofeatures[item][0], self.audiofeatures[item][1], self.audiofeatures[item][2]


    def __len__(self):
        return len(self.audiofeatures)

和Ecapa_TDNN的不同就是直接采用时域数据而不是采用语音特征分析后的频域信息，代码就是训练和验证样本的长度进行了控制，比较简单。

c、模型训练

from transformers import Wav2Vec2Config
from models.wavlm import WavLm
from tools.log import Logger
from tools.progressbar import ProgressBar
from data_utils.wavlm_reader import AudioDataReader

from torch.utils.data import DataLoader
import torch
import os
from torch.optim import AdamW
from torch.optim.lr_scheduler import CosineAnnealingLR
import argparse

import random
import numpy as np
from torch.utils.tensorboard import SummaryWriter
from datetime import datetime
from torch.nn.utils.rnn import pad_sequence

def parse_args():
    parser = argparse.ArgumentParser()
    parser.add_argument("--train_datas_path", type=str, default='./data/train_audio_paths.txt', help="train text file")
    parser.add_argument("--val_datas_path", type=str, default='./data/val_audio_paths.txt', help="val text file")
    # parser.add_argument("--train_datas_path", type=str, default='./data/train_audio_paths_small.txt', help="train text file")
    # parser.add_argument("--val_datas_path", type=str, default='./data/val_audio_paths_small.txt', help="val text file")
    parser.add_argument("--log_file", type=str, default="./log_output/speaker_identification_wavlm.log", help="log_file")
    parser.add_argument("--model_out", type=str, default="./output/wavlm/", help="model output path")
    parser.add_argument("--batch_size", type=int, default=32, help="batch size")
    parser.add_argument("--epochs", type=int, default=30, help="epochs")
    parser.add_argument("--lr", type=float, default=1e-5, help="epochs")
    parser.add_argument("--random_seed", type=int, default=100, help="random_seed")
    parser.add_argument("--device", type=str, default='0', help="device")
    args = parser.parse_args()
    return args

def training(args):
    os.environ['CUDA_VISIBLE_DEVICES'] = args.device
    logger = Logger(log_name='SI',log_level=10,log_file=args.log_file).logger
    logger.info(args)
    label2ids = {}

    config = Wav2Vec2Config.from_pretrained('./pretrained_models/torch/wavlm-base-plus-sv/')

    id = 0
    with open(args.train_datas_path,'r',encoding='utf-8') as f:
        lines = f.readlines()
        for line in lines:
            line = line.strip('\n')
            if line.split('\t')[-1] not in label2ids:
                label2ids[line.split('\t')[-1]] = id
                id += 1

    with open(args.val_datas_path,'r',encoding='utf-8') as f:
        lines = f.readlines()
        for line in lines:
            line = line.strip('\n')
            if line.split('\t')[-1] not in label2ids:
                label2ids[line.split('\t')[-1]] = id
                id += 1

    time_srt = datetime.now().strftime('%Y-%m-%d')

    save_path = os.path.join(args.model_out,time_srt)
    if not os.path.exists(save_path):
        os.makedirs(save_path)

    logger.info(save_path)


    device = "cuda:0" if torch.cuda.is_available() else "cpu"


    train_dataset = AudioDataReader(data_list_path=args.train_datas_path,mode='train', label2ids=label2ids)
    train_dataloader = DataLoader(train_dataset,shuffle=True,batch_size=args.batch_size, collate_fn=collate_fn)

    val_dataset = AudioDataReader(data_list_path=args.val_datas_path, mode='eval', label2ids = label2ids)
    val_dataloader = DataLoader(val_dataset, shuffle=True, batch_size=args.batch_size, collate_fn=collate_fn)


    num_class = len(label2ids)
    logger.info('num_class:%d'%num_class)


    config.num_labels = num_class
    model = WavLm.from_pretrained('./pretrained_models/torch/wavlm-base-plus-sv/', config=config, ignore_mismatched_sizes=True).to(device)

    model.eval()



    # ecapa_tdnn = EcapaTdnn(input_size=train_dataset.input_size)
    # model = SpeakerIdetification(backbone=ecapa_tdnn, num_class=num_class).to(device)


    # logger.info(model)


    optimizer = AdamW(lr=args.lr,params=model.parameters())
    scheduler = CosineAnnealingLR(optimizer,T_max=args.epochs)

    logger.info("***** Running training *****")
    logger.info("  Num examples = %d" % len(train_dataloader))
    logger.info("  Num Epochs = %d" % args.epochs)

    writer = SummaryWriter('./runs/' + time_srt + '/')
    best_acc = 0
    total_step = 0

    unimproving_count = 0

    for epoch in range(args.epochs):
        pbar = ProgressBar(n_total=len(train_dataloader), desc='Training')
        model.train()
        total_loss = 0
        for step, batch in enumerate(train_dataloader):
            batch = [t.to(device) for t in batch]
            wav = batch[0]
            mask = batch[1]
            speakers = batch[2]
            inputs = {
                "input_values": wav,
                "attention_mask": mask
            }
            output = model(**inputs,labels=speakers)
            loss = output.loss

            optimizer.zero_grad()
            # loss.backward(retain_graph=True)
            loss.backward()
            optimizer.step()


            total_step += 1

            writer.add_scalar('Train/Learning loss', loss.item(), total_step)

            total_loss += loss.item()
            pbar(step, {'loss': loss.item()})

        val_acc = evaluate(model, val_dataloader, device)

        if best_acc < val_acc:
            best_acc = val_acc

            model.save_pretrained(save_path)

            is_improving = True
            unimproving_count = 0
        else:
            is_improving = False
            unimproving_count += 1

        if is_improving:
            logger.info(f"Train epoch [{epoch+1}/{args.epochs}],batch [{step+1}],Best_acc: {best_acc},Val_acc:{val_acc}, lr:{scheduler.get_last_lr()[0]}, total_loss:{round(total_loss,4)}. Save model!")
        else:
            logger.info(f"Train epoch [{epoch+1}/{args.epochs}],batch [{step+1}],Best_acc: {best_acc},Val_acc:{val_acc}, lr:{scheduler.get_last_lr()[0]}, total_loss:{round(total_loss,4)}.")


        writer.add_scalar('Val/val_acc', val_acc, total_step)
        writer.add_scalar('Val/best_acc', best_acc, total_step)

        # writer.add_scalar('Train/Learning rate', scheduler.get_lr()[0], total_step)
        writer.add_scalar('Train/Learning rate', scheduler.get_last_lr()[0], total_step)
        scheduler.step()

        if unimproving_count >= 5:
            logger.info('unimproving %d epochs, early stop!'%unimproving_count)
            break


def evaluate(model,val_dataloader,device):
    total = 0
    correct_total = 0

    model.eval()
    with torch.no_grad():
        pbar = ProgressBar(n_total=len(val_dataloader), desc='evaluate')
        for step, batch in enumerate(val_dataloader):
            batch = [t.to(device) for t in batch]
            wav = batch[0]
            mask = batch[1]
            speakers = batch[2]
            inputs = {
                "input_values": wav,
                "attention_mask": mask
            }
            output = model(**inputs)
            logits = output.logits
            total += speakers.shape[0]
            preds = torch.argmax(logits,dim=-1)
            correct = (speakers==preds).sum().item()
            pbar(step, {})
            correct_total += correct

    acc = correct_total/total
    return acc


def set_seed(seed):
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    np.random.seed(seed)
    random.seed(seed)
    torch.backends.cudnn.deterministic = True


def collate_fn(batch):
    features, attention_mask, labels = zip(*batch)
    features = pad_sequence(features, batch_first=True, padding_value=0.0)
    attention_mask = pad_sequence(attention_mask, batch_first=True, padding_value=0)
    labels = torch.stack(labels, dim=-1)
    return features, attention_mask, labels

if __name__ == '__main__':
    args = parse_args()
    set_seed(args.random_seed)
    training(args)

结果如下：

分类准确率：0.9684

d、推理和评估

同样采用far frr err dcf 以及f1 recall和precision等指标来评估

from transformers import WavLMForXVector
from tools.log import Logger
from tools.progressbar import ProgressBar
from data_utils.wavlm_reader import AudioDataReader
from torch.utils.data import DataLoader
import torch
import os
import argparse
import random
import numpy as np
from tqdm import tqdm
import matplotlib.pyplot as plt
from torch.nn.utils.rnn import pad_sequence
import time

def parse_args():
    parser = argparse.ArgumentParser()
    parser.add_argument("--train_datas_path", type=str, default='./data/train_audio_paths.txt', help="train text file")
    parser.add_argument("--val_datas_path", type=str, default='./data/val_audio_paths.txt', help="val text file")
    # parser.add_argument("--train_datas_path", type=str, default='./data/train_audio_paths_small.txt', help="train text file")
    # parser.add_argument("--val_datas_path", type=str, default='./data/val_audio_paths_small.txt', help="val text file")
    parser.add_argument("--log_file", type=str, default="./log_output/speaker_identification_evaluate.log", help="log_file")
    parser.add_argument("--batch_size", type=int, default=64, help="batch size")
    parser.add_argument("--random_seed", type=int, default=100, help="random_seed")
    parser.add_argument("--device", type=str, default='0', help="device")
    args = parser.parse_args()
    return args

def evaluate(args):
    os.environ['CUDA_VISIBLE_DEVICES'] = args.device
    logger = Logger(log_name='SI',log_level=10,log_file=args.log_file).logger
    logger.info(args)
    label2ids = {}

    id = 0
    with open(args.train_datas_path,'r',encoding='utf-8') as f:
        lines = f.readlines()
        for line in lines:
            line = line.strip('\n')
            if line.split('\t')[-1] not in label2ids:
                label2ids[line.split('\t')[-1]] = id
                id += 1

    with open(args.val_datas_path,'r',encoding='utf-8') as f:
        lines = f.readlines()
        for line in lines:
            line = line.strip('\n')
            if line.split('\t')[-1] not in label2ids:
                label2ids[line.split('\t')[-1]] = id
                id += 1

    device = "cuda:0" if torch.cuda.is_available() else "cpu"
    val_dataset = AudioDataReader( data_list_path=args.val_datas_path, mode='eval', label2ids = label2ids)
    val_dataloader = DataLoader(val_dataset, shuffle=True, batch_size=args.batch_size,collate_fn=collate_fn)

    num_class = 875
    logger.info('num_class:%d'%num_class)
    model = WavLMForXVector.from_pretrained('./output/wavlm/2022-11-11/').to(device)
    model.eval()

    logger.info("***** Running evaluate *****")
    logger.info("  Num examples = %d" % len(val_dataset))

    pbar = ProgressBar(n_total=len(val_dataloader), desc='extract features')
    model.eval()
    labels = []
    features = []
    with torch.no_grad():
        for step, batch in enumerate(val_dataloader):
            batch = [t.to(device) for t in batch]
            wav = batch[0]
            mask = batch[1]
            speakers = batch[2]
            inputs = {
                "input_values": wav,
                "attention_mask": mask
            }
            output = model(**inputs)
            labels.append(speakers)
            features.append(output.embeddings)
            pbar(step,info={'step':step})

    labels = torch.cat(labels)
    features = torch.cat(features)

    scores_pos = []
    scores_neg = []
    y_true_pos = []
    y_true_neg = []
    for i in tqdm(range(features.shape[0]), desc='两两计算相似度', ncols=100):
        query = features[i]
        inside = features[i:, :]

        temp = (labels[i] == labels[i:]).detach().long()
        pos_index = torch.nonzero(temp == 1)
        neg_index = torch.nonzero(temp == 0)
        pos_label = torch.take(temp, pos_index).squeeze(1).detach().cpu().tolist()
        neg_label = torch.take(temp, neg_index).squeeze(1).detach().cpu().tolist()

        cos = torch.cosine_similarity(query, inside, dim=-1)
        pos_score = torch.take(cos, pos_index).squeeze(1).detach().cpu().tolist()
        neg_score = torch.take(cos, neg_index).squeeze(1).detach().cpu().tolist()

        y_true_pos.extend(pos_label)
        y_true_neg.extend(neg_label)
        scores_pos.extend(pos_score)
        scores_neg.extend(neg_score)

    print('len(y_true_neg)', len(y_true_neg))
    print('len(y_true_pos)', len(y_true_pos))

    print('len(scores_pos)', len(scores_pos))
    print('len(scores_neg)', len(scores_neg))

    if len(y_true_pos) * 99 < len(y_true_neg):
        indexs = random.choices(list(range(len(y_true_neg))), k=len(y_true_pos) * 99)
        scores = scores_pos
        y_true = y_true_pos
        for index in indexs:
            scores.append(scores_neg[index])
            y_true.append(y_true_neg[index])

    else:
        scores = scores_pos + scores_neg
        y_true = y_true_pos + y_true_neg

    print('len(scores)', len(scores))
    print('len(y_true)', len(y_true))


    scores = torch.tensor(scores,dtype=torch.float32)
    y_true = torch.tensor(y_true,dtype=torch.long)

    choice_best_threshold_dcf(scores, y_true)

def choice_best_threshold_dcf(scores, y_true):
    thresholds = []
    fars = []
    frrs = []
    dcfs = []
    precisions = []
    recalls = []
    f1s = []

    max_precision = 0

    max_recall = 0

    max_f1 = 0
    f1_threshold = 0

    min_dcf = 1
    d_threshold = 0

    cfr = 1
    cfa =1

    err = 0.0
    err_threshold = 0
    diff = 1

    for i in tqdm(range(100), desc='choice_best_threshold', ncols=100):

        threshold = 0.01 * i
        thresholds.append(threshold)

        y_preds = (scores > threshold).long()

        tp = ((y_true == 1) * (y_preds == 1)).sum().item()
        fp = ((y_true == 0) * (y_preds == 1)).sum().item()

        tn = ((y_true == 0) * (y_preds == 0)).sum().item()
        fn = ((y_true == 1) * (y_preds == 0)).sum().item()

        pos = tp + fn
        neg = tn + fp

        precision = tp / (tp + fp+1e-13)
        recall = tp / (tp + fn+1e-13)
        f1 = 2 * precision * recall / (precision + recall + 1e-13)

        far = fp / (fp + tn + 1e-13)
        frr = fn / (tp + fn + 1e-13)

        dcf = cfa* far *(neg/(neg+pos)) + cfr* frr *(pos/(pos+neg))

        precisions.append(precision)
        recalls.append(recall)
        f1s.append(f1)

        fars.append(far)
        frrs.append(frr)
        dcfs.append(dcf)

        if max_precision < precision:
            max_precision = precision


        if max_recall < recall:
            max_recall = recall


        if max_f1 < f1:
            max_f1 = f1
            f1_threshold = threshold


        if min_dcf > dcf:
            min_dcf = dcf
            d_threshold = threshold

        if abs(far-frr) < diff:
            err = (far+frr)/2
            diff = abs(far-frr)
            err_threshold = threshold


    print(pos + neg)
    print('threshold:%.4f err:%.4f'%(err_threshold, err))
    print("d_threshold:%.4f, min_dcf%.4f"%(d_threshold, min_dcf))
    print("f1_threshold:%.4f, max_f1%.4f" % (f1_threshold, max_f1))

    start = time.time()
    plt.figure(figsize=(30,30),dpi=80)
    plt.title('2D curve ')

    plt.plot(thresholds, frrs, label='frr')
    plt.plot(thresholds, fars, label='far')
    plt.plot(thresholds, dcfs, label='dcf')

    plt.plot(thresholds, precisions, label='pre')
    plt.plot(thresholds, recalls, label='recall')
    plt.plot(thresholds, f1s, label='f1')
    plt.legend(loc=0)

    plt.scatter(d_threshold, min_dcf, c='red', s=100)
    plt.text(d_threshold, min_dcf, " min_dcf(%.4f,%.4f)"%(d_threshold, min_dcf))

    plt.scatter(err_threshold,err,c='blue',s=100)
    plt.text(err_threshold,err," err(%.4f,%.4f)"%(err_threshold,err))

    plt.scatter(f1_threshold, max_f1, c='yellow', s=100)
    plt.text(f1_threshold, max_f1, " f1(%.4f,%.4f)"%(f1_threshold, max_f1))


    plt.xlabel('threshold')
    plt.ylabel('frr f dcf recall or precision')
    plt.xticks(thresholds[::2])
    plt.yticks(thresholds[::2])
    end = time.time()
    print('plot time is', end - start)

    plt.savefig('wavlm_2d_curve_voiceprint_dcf.png')
    plt.show()
    print("finish")


def set_seed(seed):
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    np.random.seed(seed)
    random.seed(seed)
    torch.backends.cudnn.deterministic = True


def collate_fn(batch):
    features,attention_mask,labels = zip(*batch)
    features = pad_sequence(features,batch_first=True,padding_value=0.0)
    attention_mask = pad_sequence(attention_mask, batch_first=True, padding_value=0)
    labels = torch.stack(labels,dim=-1)
    return features, attention_mask, labels

if __name__ == '__main__':
    args = parse_args()
    set_seed(args.random_seed)
    evaluate(args)

结果如下

threshold=0.69 dcf 和f1值都处于最佳状态而且f1=0.9765 err和dcf值都非常低，明显wavLm模型在该数据集上的效果要优于Ecapa_TDNN。

四、demo演示

花了接近两周下班后的时间以及周末可以去学习了一下vue2.0和vue3.0，看的是b站尚硅谷的视频，做了一个speaker verification的前端demo(vue3.0)。先看看整体页面效果：

大体上说说demo的实现方案：

1、后端直接使用python+flask非常简单。

2、前端采用vue3.0+html+css做一些简单的页面也非常容易(不过完全不懂前端的话学习起来还是需要一点时间的)。

3、算法端python+torch，模型使用了WavLm和Ecapa_TdNN模型。

五、总结

关于这个声纹识别，本文章只是简单的做了一个尝试和验证一下主流的模型方案的效果。并没有考虑实际业务场景，比方说音频的背景是否有噪声、跨设备、跨距离、录音代替真人实时说话问题、以及如何优化、上线需要注意那些问题都没有讨论。这里面还有很多值得学习的地方，本人水平有限，后续再来学习。

关于预训练模型WavLM和CNN组网模型，个人认为WavLm应该是更加主流，个人更看好WavLm，如果有相应的音频数据，继续预训练+微调应该能解决一些特定领域的问题，前提是要有大规模的数据。

参考文章：

Speaker Verification——学习笔记

说话人确认系统性能评价指标EER和minDCF

ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation in TDNN Based Speaker Verification

通用模型、全新框架，WavLM语音预训练模型全解

WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing

你可能感兴趣的:(语音领域,语音识别,人工智能)

知识库中的知识如何进行分类和标签管理？自不量力的A同学人工智能
知识库中的知识如何进行分类和标签管理？基于主题分类明确主题层级：首先确定主要的知识主题领域，如在一个企业知识库中，可以分为“人力资源”“市场营销”“技术研发”等大主题。然后在每个大主题下细分小主题，例如在“人力资源”主题下可以有“招聘”“培训”“绩效考核”等子主题。这样的层级分类有助于用户快速定位到自己需要的知识领域。参考行业标准和最佳实践：按照行业内公认的分类标准来划分知识。以医学知识库为例，可
AI编程工具领域：深度理解项目架构篇 xinxiyinhe AI编程 python 人工智能 AI编程人工智能
AI编程工具领域：深度理解项目架构篇在AI编程工具领域，能够读取项目目录并深度理解项目架构的工具主要通过代码索引、上下文感知和智能问答等功能实现。以下是基于最新信息的工具评估与分析：1.通义灵码（阿里云）核心能力：@workspace功能：基于RAG技术，支持本地代码库的索引和深度感知，可分析项目完整结构，生成文件解释、代码逻辑查询和整体修改建议。多语言支持：覆盖200+编程语言，兼容VSCode
软件设计师之树与二叉树：非线性数据结构的深度探索一杯年华@编程空间软考中级数据结构
软件设计师之树与二叉树：非线性数据结构的深度探索在软件开发领域，数据结构是程序设计的核心基础，其中树和二叉树作为重要的非线性数据结构，在众多场景中都有着广泛应用。我写这篇博客，就是希望和大家一起学习进步，深入解析树和二叉树的相关知识，用通俗易懂的语言结合图表和Java代码示例进行讲解，帮助大家更好地掌握这些内容。一、树的定义与基本概念树的定义树是由n（n≥0）个结点组成的有限集合。当n=0时，为空
人工智能（AI）系统化学习路线 xiaoyu❅ python 人工智能学习
一、为什么需要系统化学习AI？人工智能技术正在重塑各行各业，但许多初学者容易陷入误区：❌盲目跟风：直接学习TensorFlow/PyTorch，忽视数学与算法基础。❌纸上谈兵：只看理论不写代码，无法解决实际问题。❌方向模糊：对CV/NLP/RL等细分领域缺乏认知，难以针对性提升。正确的学习姿势：“金字塔式”分层学习（理论→算法→框架→应用→工程化），逐步构建完整的AI知识体系。二、人工智能学习路线
AI 时代，学习 Java 应如何入手？琢磨先生David 人工智能 java
一、Java的现状：生态繁荣与AI融合的双重机遇在2025年的技术版图中，Java依然稳坐企业级开发的“头把交椅”。根据行业统计，Java在全球企业级应用中的市场份额仍超过65%，尤其在微服务架构、大数据平台和物联网（IoT）领域占据核心地位。随着云原生技术的普及，Java生态正经历新一轮进化：轻量化框架通过无服务器架构优化，启动速度提升300%，内存占用降低50%，使得Java在容器化部署中更具
AXI总线之相关应用逾越TAO fpga开发硬件工程笔记
AXI总线作为现代SoC设计的核心互连协议，其应用场景极为广泛，覆盖移动设备、AI加速器、FPGA、存储控制器等多个领域。以下是AXI在不同应用中的关键角色及具体实现案例：一、移动处理器与SoC应用场景：智能手机、平板电脑的SoC（如高通骁龙、苹果A系列、华为麒麟）中，AXI用于连接多核CPU、GPU、ISP（图像信号处理器）、DDR控制器等模块。典型案例：ARMCortex-A系列多核集群：AX
数据增强：扩充数据集提升模型泛化能力 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1.数据增强的重要性在机器学习领域，模型的泛化能力至关重要。一个泛化能力强的模型能够在未见数据上表现良好，而过拟合的模型则会在训练数据上表现出色，但在新数据上表现糟糕。数据增强是一种有效提升模型泛化能力的技术，它通过对现有数据进行各种变换，人为地扩充数据集，从而增加训练数据的数量和多样性。1.2.数据增强的应用场景数据增强广泛应用于各种机器学习任务中，包括：图像识别:对图像进行旋转
数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
信息收集综合只不过是胆小鬼罢了信息收集 php web安全安全
1《应用服务器资产分析与角色定性详解》在网络安全领域，对应用服务器的资产分析与角色定性是至关重要的工作。通过对服务器的操作系统、IP资产、端口资产等方面进行详细分析，可以更好地了解服务器的特性与用途，从而为网络安全防护提供有力支持。本文将从多个维度深入探讨应用服务器的资产分析与角色定性方法。一、操作系统分析1.Web大小写敏感性在分析应用服务器的操作系统时，Web大小写敏感性是一个重要的参考因素。
Node.js系列（4）--微服务架构实践一进制ᅟᅠ ‌‍‎‏ Node.js 架构 node.js 微服务
Node.js微服务架构实践引言微服务架构已成为构建大规模Node.js应用的主流选择。本文将深入探讨Node.js微服务架构的设计与实现，包括服务拆分、服务治理、通信机制等方面，帮助开发者构建可扩展的微服务系统。微服务架构概述Node.js微服务架构主要包括以下方面：服务拆分：业务领域划分与服务边界服务治理：服务注册、发现与负载均衡通信机制：同步与异步通信方案数据管理：分布式事务与数据一致性可观
使用TensorFlow、OpenCV和Pygame实现图像处理与游戏开发 UwoiGit tensorflow opencv pygame
在本篇文章中，我们将介绍如何结合使用TensorFlow、OpenCV和Pygame来进行图像处理和游戏开发。这三个工具在机器学习、计算机视觉和游戏开发领域都非常流行，并且它们的结合可以提供强大的功能和无限的创造力。我们将逐步介绍如何安装和配置这些工具，并提供相关的源代码示例。安装TensorFlowTensorFlow是一个基于数据流图的开源机器学习框架，提供了丰富的工具和库来构建和训练各种深度
innovus命令每日精要 | setCheckMode：数字后端物理设计的必备神器数字后端物理设计知识库 innovus 命令每日精要后端性能优化
在数字后端物理设计的领域中，确保设计数据的完整性和正确性是至关重要的。今天，我们要深入探讨的是Innovus中的一个强大命令——setCheckMode。这个命令就像是你的设计流程中的“健康卫士”，能够在各个阶段帮你揪出潜在的数据问题，避免因小失大，让错误在流程中扩散。检查模式核心功能大揭秘1.设计数据完整性检查：全面扫描，无死角-all选项就像是给你的设计做一次“全身CT”，开启所有检查选项，确
金融领域股票价格预测：线性回归原理、实现与应用 ZhShy23 python 机器学习入门实战 #机器学习 #Python学习金融线性回归机器学习
金融领域股票价格预测：线性回归原理、实现与应用一、线性回归原理线性回归是一种用于建立自变量和因变量之间线性关系的统计模型。在股票价格预测中，我们可以将一些可能影响股票价格的因素（如成交量、市场指数等）作为自变量，股票价格作为因变量，通过线性回归模型来建立它们之间的关系。线性回归的基本方程为：[y=\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_nx_n+\ep
MMScan数据集：首个最大的多模态3D场景数据集，包含层次化的语言标注数据集
2024-10-24，由上海人工智能实验室联合多所高校创建了MMScan，这是迄今为止最大的多模态3D场景数据集，包含了层次化的语言标注。数据集的建立，不仅推动了3D场景理解的研究进展，还为训练和评估多模态3D感知模型提供了宝贵的资源。一、研究背景：随着大型语言模型（LLMs）的兴起和与其他数据模态的融合，多模态3D感知因其与物理世界的连接而受到越来越多的关注，并取得了快速进展。然而，现有的数据集
工业相机的主要参数及计算 51camera 工业相机
工业相机是机器视觉系统中的关键组件，其本质是将光信号转变为有序的电信号，进而实现数字图像的获取，广泛应用于工业生产、检测、测量等领域。其成像原理与小孔成像类似，但更为复杂。当被摄物体反射的光线通过工业镜头折射后，会投射到相机的感光传感器上，这个感光传感器通常是电荷耦合器件（CCD）或互补金属氧化物半导体（CMOS）。dalsanano系列工业相机1、工作原理图像采集：通过镜头收集被拍摄物体反射或透
【AI大模型】RAG如何让生成AI更智能？最新方法与优劣深度解析健忘的派大星人工智能语言模型 ai AI大模型 agi RAG 程序员
前言近年来，人工智能技术突飞猛进，尤其是生成式AI，简直像是开了挂一样，各种惊艳的表现让人直呼“未来已来”。根据IDC的研究，生成式AI的市场规模在2022年已经达到了107亿美元，而到2026年，这个数字预计会飙升至326亿美元！不过，尽管生成式AI很强大，但它也并非完美无缺——比如生成内容的质量、准确性和可靠性，依然有提升的空间。这时候，检索增强生成（RAG）技术登场了！RAG的核心思路很简单
HarmonyOS TEXT 语音搜索场景学习和总结 harmonyos
在HarmonyOS中实现语音搜索功能时，涉及到麦克风权限的申请、音频数据的采集、编码和传输等多个步骤。以下是对上述代码的详细解析和补充说明：麦克风权限的申请与检查在HarmonyOS中，使用麦克风需要申请ohos.permission.MICROPHONE权限。在代码中，通过GRPermissionsUtils.checkPermissions方法来检查和申请权限。如果权限被授予，则可以继续进行
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算【超级详细版】 AI筑梦师计算机视觉算法深度学习人工智能机器学习计算机视觉 python
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算1.引言1.1研究背景在计算机视觉、模式识别、医学影像分析和自动驾驶等领域，形状匹配是核心任务之一。然而，现实世界的形状往往存在可变性（Variability），主要体现在以下几个方面：形变（Deformation）：物体可能由于柔性材料、外力作用或生物运动发生非刚性形变。尺度变化（ScaleVariation）：目标形状在不同场景下可能大
数据分析 SQL 面试全攻略，看这篇就够了！程功学数据分析 sql 面试
数据分析SQL面试八股文（含答案）已经打包好，看文末领取在数据分析领域，SQL技能堪称基石，也是众多企业在招聘数据分析岗位时重点考察的内容。今天，就为大家深度剖析数据分析SQL面试的要点，助力大家顺利通关。一、常见面试题型大揭秘（一）简单查询这类题目通常要求考生从单表中检索数据。例如，给定一个“员工信息表”，包含员工编号、姓名、年龄、部门等字段，题目可能是“查询年龄大于30岁的员工姓名和部门”。解
机器人触觉的意义越来越胖的GuanRunwei 触觉传感机器人触觉传感人工智能
机器人触觉的重要性触觉在机器人领域至关重要，尤其是在自主操作、精细操控、人机交互等方面。虽然视觉和语音技术已高度发展，但机器人在现实世界中的操作仍然受限，因为：视觉有局限性：仅凭视觉，机器人难以判断物体的材质、温度、表面摩擦力等信息。例如，看起来像金属的物体，可能是塑料镀层。接触与力控制是核心问题：无论是抓取、操作工具，还是进行柔性物体（如布料）操作，触觉信息比视觉更直接。例如，手术机器人需要触觉
A Survey of Large Language Models大模型综述论文章节总结 WhyteHighmore 论文语言模型人工智能自然语言处理论文笔记
ASurveyofLLM人大译ASurveyofLargeLanguageModels这篇论文全面回顾了大型语言模型(LLM)的最新进展，重点关注其发展背景、关键发现和主流技术。文章主要围绕LLM的四个主要方面展开：1引言自从1950年图灵测试被提出以来，人类一直在探索机器掌握语言智能的方法。语言本质上是一种受语法规则支配的复杂、精细的人类表达系统，这使得开发能够理解和掌握语言的强大人工智能(AI
AI：对比ChatGPT这类聊天机器人，人形机器人对人类有哪些不一样的影响？ InnoLink_1024 AGI 人工智能机器学习 chatgpt 人工智能机器人
人形机器人与像ChatGPT这样的聊天机器人相比，虽然都属于人工智能技术的应用，但由于其具备的物理形态和与环境的互动能力，它们对人类的影响会有很大的不同。下面从多个角度进行对比，阐述它们各自对人类的不同影响：1.物理交互与虚拟交互人形机器人：具有物理形态，能够在物理世界中与人类进行直接交互。例如，搬运物品、进行日常家务、提供身体上的帮助（如扶持老人、帮助走路等），以及进行非语言的沟通（如手势、面部
芯片：CPU和GPU有什么区别？ InnoLink_1024 AGI 人工智能人工智能 ai agi gpu算力
CPU（中央处理器）和GPU（图形处理单元）是计算机系统中两种非常重要的处理器，它们各自有不同的设计理念、架构特点以及应用领域。下面是它们之间的一些主要差异：1.设计目的与应用领域CPU：设计目的是为了处理广泛的计算任务，包括操作系统管理、应用程序运行和基本的输入输出处理等。它处理的是复杂的、通用的计算任务，通常包括控制逻辑、内存管理等。GPU：设计目的是为了处理图形和并行计算任务。最初是为图形渲
QILSTE H4-108LB高亮蓝光LED灯珠发光二极管LED QILSTE QILSTE LED灯珠发光二极管LED
#H4-108LB：高亮蓝光LED的参数解析与应用挑战在电子设备的照明领域，H4-108LB型号的高亮蓝光LED以其独特的光电特性占据一席之地。这款LED产品尺寸仅为1.6×0.8×0.4mm，却蕴含着复杂的参数设计，使其在众多应用场景中表现出色。然而，要真正理解其性能优势，就必须深入剖析其参数的复杂性。##一、尺寸与封装：紧凑与透明的结合H4-108LB的外观尺寸为1.6×0.8×0.4mm，这
A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS——大型语言模型的训练后优化综述——第9部分——应用王金-太想进步了语言模型人工智能自然语言处理
应用尽管预训练为大型语言模型（LLMs）赋予了强大的基础能力，但在部署于专业领域时，LLMs仍经常遇到持续的限制，包括上下文长度受限、容易产生幻觉（hallucination）、推理能力欠佳和固有的偏见。在现实世界的应用中，这些不足显得尤为重要，因为在这些场景中，精确性、可靠性和伦理一致性是至关重要的。这些问题引发了一些根本性的探讨：(1)如何系统地提高LLM的表现以满足特定领域的需求？(2)在实
深入自制Shell：解锁Linux进程控制的实践密码 A charmer Linux linux 服务器运维
亲爱的读者朋友们，此文开启知识盛宴与思想碰撞。快来参与讨论，点赞、收藏⭐、分享，共创活力社区。在上一篇文章《Linux进程控制：创建、终止、等待与程序替换全解析》中，我们系统地学习了Linux进程控制相关知识，从进程的创建、终止，到进程等待与程序替换，每一个环节都为我们深入理解Linux系统的运行机制提供了关键线索。而现在，我们将沿着这条知识脉络，深入到自主Shell命令行解释器的实现领域，进一步
开源的 AntDesignVue 表单设计器使用教程低代码研究员 FormCreate 开源 FormCreate vue.js 表单设计器 ant-design-vue
FcDesigner版是一款基于Vue3.0的低代码可视化表单设计器工具，通过数据驱动表单渲染。可以通过拖拽的方式快速创建表单，提高开发者对表单的开发效率，节省开发者的时间。并广泛应用于在政务系统、OA系统、ERP系统、电商系统、流程管理等领域。源码地址:Github|Gitee|文档|在线演示本项目采用Vue3.0和AntDesignVue进行页面构建，内置多语言解决方案，支持二次扩展开发，支持
DeepSeek从入门到精通「清华团队」 YuKeeHgg DeepSeek 人工智能 ai
由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余梦珑博士后及其团队撰写文档的核心内容围绕DeepSeek的技术特点、应用场景、使用方法以及如何通过提示语设计提升AI使用效率等方面展开，帮助用户从入门到精通DeepSeek的使用。「文末附下载方式」第一部分：DeepSeek基础概念1.1DeepSeek简介定义：专注通用人工智能（AGI）的中国科技公司，主攻大模型研发与应用。核心产品：开源
DeepSeek行业应用案例——教育未来智慧谷 DeepSeek 人工智能大数据 AI教育
一、简介在数字化浪潮汹涌澎湃的当下，DeepSeek以其强大的技术实力，如同一股创新的洪流，席卷众多行业，为各领域带来了前所未有的变革与突破。本案例集初步收录了40多个来自农业、制造业、汽车行业、手机行业、智能家居、物流、云服务、办公、网络安全、金融、医疗、教育等多个关键行业的应用案例。从助力农业实现病虫害精准预测与智能灌溉，到推动制造业生产故障预警与产品质量提升；从优化汽车智能交互体验与智能驾驶
DeepSeek行业应用案例——制造业篇未来智慧谷人工智能深度学习大数据自然语言处理
一、简介在数字化浪潮汹涌澎湃的当下，DeepSeek以其强大的技术实力，如同一股创新的洪流，席卷众多行业，为各领域带来了前所未有的变革与突破。本案例集初步收录了40多个来自农业、制造业、汽车行业、手机行业、智能家居、物流、云服务、办公、网络安全、金融、医疗、教育等多个关键行业的应用案例。从助力农业实现病虫害精准预测与智能灌溉，到推动制造业生产故障预警与产品质量提升；从优化汽车智能交互体验与智能驾驶
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi