colourmind

说话人性别识别——语音检测初探

一、任务背景和分析

二、特征抽取

librosa

wave

torchaudio

三、数据集

commonvoice [ 中文]

四、模型训练

1、频域信号+LSTM+2DCNN

2、频域信号+2DCNN

3、时域信号+1DCNN

一、任务背景和分析

公司有项目需求，需要识别语音信号是男女性别以及是否是彩铃等。之前一直是做文本相关的NLP相关项目，为此也开始慢慢涉足语音领域了。语音领域和文本NLP领域是不一样的，我猜测——目前语音领域相关的预训练模型还不成熟，端到端的方案还不足以满足商用的需求，比如ASR或者SST语音自动识别的方案HUBERT和wav2vec等——否则大家都开始使用起来了，目前应该是采用一些比较传统的方案。

ASR任务目前对我们公司来说，自研还是非常困难的，就直接使用生态伙伴科大讯飞的算法；项目需求区分男女声和彩铃的声音，其实这个任务还是比较简单的，并没有语音识别或者声纹识别中那么复杂。在数据质量和场景简单的情况下，应该能取得不错的效果。

语音信号是时域信号，目前基于时域信息对语音进行分析的貌似不是特别多，没有比较好的模型直接提取到合适的特征；一般而言都是通过传统的信号处理方案来做的，把语音时域信号转化为时域信号后就能得到很多特征，比如：MFCC、Fbank、bark谱、基频、能量幅度、短时过零率之类的——详见语音特征小结。

区分男女性别以及彩铃信号这样的任务，主要的关键点在哪里呢？主要能找到区分它们三者的特征，就可以使用深度学习的模型或者机器学习的模型，或者直接使用规则来做。需要找到什么样的特征呢？

录了自己和女同事的音频，得到时序和频谱图(上图女，下图男)。感觉就从频谱图上直接看，还是看不出来的。一般而言男女声音的音高也就是频率是不一样的，但是也有重叠的部分；同时彩铃一般含有音乐的声音，它和人说话也有很大不同，音色不同，这个感觉在数理上反映也是频率的不同——据个人不完全理解这里的不同应该就是频率的分布不一样了，所以具体什么样的特征能区分开来也不是十分清楚的。那这个时候就得想到了深度学习的方案了，让模型自己去抽取相应的特征，也不需要管什么频率具体的分布，谱质心、谱对比度、基音周期等等特征，直接抽取语音信号的Fbank、Mfcc等特征，它们具体的区别，我不是专业的不清楚——知乎高赞问答解释如下语音信号提取声学特征时，MFCC和PLP的区别是什么？，喂入模型中即可！

另一方面这是一个简单的分类任务，它们3个类直接本来就存在天然的差异，也不需要太复杂的模型，应该就能搞定。

所以基本的方案就是

1、抽取Mfcc或者Fbank特征

2、Mfcc或者Fbank特征喂入模型(CNN/Lstm/LSTM+CNN)

3、分类得出结果。

当然也可以采用语音领域的预训练方案，wvNet或者wav2Vec这样的预训练+finetune的方案，这个方案比较新还没来得及学习，后续会学习，然后验证。

二、特征抽取

librosa

由于librosa库提供的特征提取API比较丰富，便选择了该库进行Mfcc和Fbank的提取。这里没啥好聊的，原理部分mfcc和fbank计算过程比较复杂详见——语音信号处理之（四）梅尔频率倒谱系数（MFCC）和语音识别特征处理(MFCC,Fbank,PNCC)

，而我就当个调包侠吧(原理部分就多去看几遍吧)。主要对提取特征的API的一些参数和遇到的坑进行一些总结吧

librosa.load(wav_path, sr=sr)——音频文件加载

把字节流的音频文件加载为基于sr抽样率的采样点数据，浮点数float32，numpy.array

注意点，mp3格式的文件需要调用其他的库，需要pip install；sr不设置会已默认的sr=22050

librosa.util.frame(wav, frame_length=frame_length, hop_length=hop_length)——分帧

设置帧长和帧移，这不是时间单位，而是采样点个数。比如采样率16000，1s内采样16000个数据点；frame_length 30ms应该就是480个采样点frame_length=480

fbank = librosa.feature.melspectrogram(y=wav, sr=sr, n_fft=frame_length, hop_length=hop_length, center=False,n_mels=128) fbank = fbank.T fbank = librosa.power_to_db(fbank)——梅尔频谱

n_fft短时傅里叶窗口长度，和帧长是一致的；n_mels采用多少个mel滤波器，最后得到的特征就是多少维度的；center参数需要进入源码去看，如果为True，表示音频会做padding，会使得帧D[:, t]的中心为信号 y[t * hop_length]；而center=False的时候，不采用padding；要使得分帧后抽取特征再把特征cat起来和不分帧直接抽取特征的结果一致的话，就得采用center=False。

librosa.feature.mfcc(y=wav, sr=sr, n_mfcc=13, n_fft=frame_length, hop_length=hop_length, center = False, win_length = frame_length)——mel倒谱系数

librosa.feature.spectral_centroid(y=wav, sr=sr, n_fft=frame_length, hop_length=hop_length,center = False)——频谱中心

librosa.feature.spectral_contrast(y=wav, sr=sr, n_fft=frame_length, hop_length=hop_length, n_bands=4,center = False)——频谱对比度

librosa.core.piptrack(y=wav, sr=sr, S=None, n_fft=frame_length, hop_length=hop_length,center = False)

wave

读取语音的字节流和librosa中提取特征的不同

def read_wave(path):
    """Reads a .wav file.
    Takes the path, and returns (PCM audio data, sample rate).
    """
    with contextlib.closing(wave.open(path, 'rb')) as wf:
        num_channels = wf.getnchannels()
        assert num_channels == 1
        sample_width = wf.getsampwidth()
        assert sample_width == 2
        sample_rate = wf.getframerate()
        assert sample_rate in (8000, 16000, 32000, 48000)
        pcm_data = wf.readframes(wf.getnframes())
       
        params = wf.getparams()
        nchannels, sampwidth, framerate, nframes = params[:4]

        return pcm_data, sample_rate

wave读出来的是16bit的字节流，pcm编码数据，形如：

一般而言，采样率sr = 16000的话，1s音频采样数据点就为16000个，而得到的pcm字节流就是32000个。这个时候需要分别存储模型是小端模式还是大端模式，可以把16bit的byte转化为int型和float型，神经网络中需要处理float32型数据。处理就是把2个长度的byte传化为1个int或者float:

#把bytes转化为int
for k in range(0,int(len(frame_byte)/2)):
     pcmInt.append(int.from_bytes(frame_byte[k * 2:k * 2 + 2], byteorder='little', signed=True))
# 再转化为float32
feature = np.array(pcmInt)/0x7fff

使用struct.unpack()转化——把16进制的2个byte字节流转化为float

pcmFloat = []
for k in range(0, int(len(frame_byte) / 2)):
    pcmFloat.append(struct.unpack('h', frame_byte[index * 2:index * 2 + 2])[0] / ((2 ** 15) - 1))

最后一种直接把一长串的16进制字节流转化为short int型，然后再做除法，得到最后的float32型数据np.frombuffer()：

feature = np.frombuffer(frame_byte, ctypes.c_short)/0x7fff

以上3中方法，其中最后一种最好，CPU占用最少。

torchaudio

torchaudio 支持以 wav 和 mp3 格式加载声音文件

metadata = torchaudio.info(SAMPLE_WAV_PATH)//查看音频信息
waveform, sample_rate = torchaudio.load(SAMPLE_WAV_SPEECH_PATH)//加载音频返回的是张量
torchaudio提供了Spectrogram,MelSpectrogram,MFCC等特征的提取
specgram = torchaudio.transforms.Spectrogram()(waveform)
specgram = torchaudio.transforms.MelSpectrogram()(waveform)

三、数据集

由于是前期预研，验证方案的可行性，数据集采用了公共数据集

commonvoice [ 中文]

四、模型训练

1、频域信号+LSTM+2DCNN

尝试的特征分为频域信号的MFCC和Fbank；模型层面首先采用的是LSTM和二维卷积以及残差二维卷积网络的组合。测试出来后的效果还可以，这里采用二维卷积网络的原因就是直接凭直觉把一帧一帧的语音信号，组合为一个语音图像，就类似图像分类，所以采用了这个网络。

简单的看看具体的流程：

MFCC

语音信号——》分帧——》过VAD——》判定is_speech,并用循环链表判定人声起始和结束点——》合并所有的frames注意去掉重复的——》librosa抽取各种特征包含{mffc、基音周期、谱质心和谱对比度}——》lstm+ nn.Linear

Fbank+CNN+resCNN+RNN(LSTM)

FBank

语音信号——》分帧——》过VAD——》判定is_speech,并用循环链表判定人声起始和结束点——》合并所有的frames注意去掉重复的——》librosa抽取各种特征包含{Fbank、基音周期、谱质心和谱对比度}——》lstm+ nn.Linear

Fbank+CNN+resCNN+RNN(LSTM)

以上方案的准确率有细微差别，大致在下面数据附近，当然也和采用的帧数有关

Test_acc:0.943867 Test_recal:0.857778 Test_f1:0.826552

模型代码如下：

class GenderRecogiCnnLstmModel(nn.Module):
    def __init__(self,n_class=2,rescnn_layers = 1,rnn_layers = 1,n_feats=128,dropout=0.1):
        super(GenderRecogiCnnLstmModel,self).__init__()
        self.cnn = nn.Conv2d(in_channels=1,out_channels=4,kernel_size=3,stride=1,padding=3//2)
        # n residual cnn layers with filter size of 32
        self.rescnn_layers = nn.Sequential(*[
            Residual2DCNN(4, 4, kernel=3, stride=1, dropout=dropout, n_feats=n_feats)
            for _ in range(rescnn_layers)
        ])
        self.rnn_layers = nn.Sequential(
            *[  nn.LSTM(input_size=n_feats if i==0 else n_feats*2,hidden_size=n_feats,batch_first=True,bidirectional=True)
                for i in range(rnn_layers)
            ]
        )
        self.classifier = nn.Sequential(
            nn.Linear(n_feats * 2, n_feats),  # birnn returns rnn_dim*2
            nn.GELU(),
            nn.Dropout(dropout),
            nn.Linear(n_feats, n_class)
        )

    def forward(self,embeddings,mask):
        # embeddings [B,L,D]
        x = embeddings.unsqueeze(1).permute(0,1,3,2)# [B,1,D,L]
        x = self.cnn(x) #[]
        x = self.rescnn_layers(x)
        x = x.view(x.shape[0],-1,x.shape[-2])
        x,_ = self.rnn_layers(x)
        # x = self.pooling(x, mask)
        x = torch.mean(x,dim=1)
        out = self.classifier(x)
        out = torch.softmax(out, dim=-1)
        return out


    def pooling(self,embedding,mask):
        embedding_mask = mask.unsqueeze(-1).expand(embedding.size()).float()
        t = embedding * embedding_mask
        sum_embeddings = torch.sum(t,dim=1)

        sum_mask = embedding_mask.sum(dim=1)

        # 限定每个元素的最小值是1e-9，保证分母不为0
        sum_mask = torch.clamp(sum_mask, min=1e-9)

        # output_vectors = []
        # output_vectors.append(sum_embeddings / sum_mask)
        #
        # output_vectors = torch.cat(output_vectors, 1)

        output_vectors = sum_embeddings / sum_mask

        return output_vectors
class Residual2DCNN(nn.Module):
    """Residual CNN inspired by https://arxiv.org/pdf/1603.05027.pdf
            except with layer norm instead of batch norm
        """
    def __init__(self, in_channels, out_channels, kernel, stride, dropout, n_feats):
        super(Residual2DCNN, self).__init__()
        self.cnn1 = nn.Conv2d(in_channels, out_channels, kernel, stride, padding=kernel // 2)
        self.cnn2 = nn.Conv2d(out_channels, out_channels, kernel, stride, padding=kernel // 2)
        self.dropout1 = nn.Dropout(dropout)
        self.dropout2 = nn.Dropout(dropout)
        self.layer_norm1 = CNNLayerNorm(n_feats)
        self.layer_norm2 = CNNLayerNorm(n_feats)

    def forward(self, x):
        residual = x  # (batch, channel, feature, time)
        x = self.layer_norm1(x)
        x = F.gelu(x)
        x = self.dropout1(x)
        x = self.cnn1(x)
        x = self.layer_norm2(x)
        x = F.gelu(x)
        x = self.dropout2(x)
        x = self.cnn2(x)
        x += residual
        return x  # (batch, channel, feature, time)

class CNNLayerNorm(nn.Module):
    """Layer normalization built for cnns input"""

    def __init__(self, n_feats):
        super(CNNLayerNorm, self).__init__()
        self.layer_norm = nn.LayerNorm(n_feats)

    def forward(self, x):
        # x (batch, channel, feature, time)
        x = x.transpose(2, 3).contiguous()  # (batch, channel, time, feature)
        x = self.layer_norm(x)
        return x.transpose(2, 3).contiguous()  # (batch, channel, feature, time)

2、频域信号+2DCNN

由于上述方案中的模型比较复杂，训练和推理速度有点慢，又尝试了一维卷积+残差卷积的组合，不采用lstm。

Fbank+CNN+resCNN
当然语音信号的前期处理，分帧VAD等操作都是需要的，另外一个就是调整帧数，到底需要采取多少帧，这个和线上业务以及性能要求有关系。
Test_acc:0.944560 Test_recal:0.937778 Test_f1:0.840637

模型代码如下：

class GenderReco1DCnnModel(nn.Module):
    def __init__(self,n_class=2,n_feats=128,dropout=0.2):
        super(GenderReco1DCnnModel,self).__init__()
        self.layerNorm = nn.LayerNorm(n_feats)
        self.cnn = nn.Sequential(
            nn.Conv1d(in_channels=n_feats,out_channels=64,kernel_size=8,stride=4,padding=2),
            nn.ReLU(),
            nn.Conv1d(in_channels=64,out_channels=32,kernel_size=4,stride=2,padding=2),
            nn.ReLU(),
            nn.Conv1d(in_channels=32, out_channels=16, kernel_size=2, stride=1,padding=2),
            nn.ReLU(),
        )

    def forward(self,embeddings,mask):

        x = embeddings[:, 0:100, :]  # embeddings [B,n,D]
        x = self.layerNorm(x)
        x = x.permute(0,2,1)
        x = self.cnn(x)  # []

        x = x.view(x.shape[0],-1,x.shape[1])
        x = torch.mean(x, dim=1)


        out = self.classifier(x)
        out = torch.softmax(out, dim=-1)

        return out

3、时域信号+1DCNN

实验的过程中发现，在上线的过程中，语音信号是流式的传输且需要单机支持并发5000路，在提取MFCC或者Fbank特征的时候CPU瓶颈是支持不了的。方案应该采取消耗资源更低的提取特征的方案，可以尝试时域信号，也就是直接把语音信号波形图经过处理后作为模型输入，同样是需要对信号进行分帧，vad检测等。分帧以后，可以把一帧一帧看做一个语音单位，那么就有点类型TextCNN的情形，可以借鉴一维卷积网络来做。

时域信号+CNN+resCNN(一维卷积)

模型网络很简单，如下

class GenderRecoTimeDomainVoiceModel(nn.Module):
    def __init__(self, n_class=2, rescnn_layers=10, n_feats=128, dropout=0.1):
        super(GenderRecoTimeDomainVoiceModel, self).__init__()
        self.layerNorm = nn.LayerNorm(n_feats)
        self.cnn = nn.Conv1d(in_channels=n_feats,out_channels=64,kernel_size=8,stride=4,padding=2)
        # n residual cnn layers with filter size of 32
        self.rescnn_layers = nn.Sequential(*[
            Residual1DCNN(64, 64, kernel=3, stride=1, dropout=dropout, n_feats=25)
            for _ in range(rescnn_layers)
        ])
        self.classifier = nn.Sequential(
            nn.Linear(64, 64),  # birnn returns rnn_dim*2
            nn.GELU(),
            nn.Dropout(dropout),
            nn.Linear(64, n_class)
        )

    def forward(self, embeddings):
        # embeddings [B,L,D]
        x = embeddings[:, 0:100, :]  # embeddings [B,n,D]
        x = x.view(x.shape[0],-1,480)
        x = self.layerNorm(x)
        x = x.permute(0, 2, 1)
        x = self.cnn(x)  # []
        x = self.rescnn_layers(x)
        x = x.permute(0, 2, 1)
        x = torch.mean(x, dim=1)
        out = self.classifier(x)
        return out

最后的结果

基本满足上线准确率需求，同时这个方案，经过工程化的优化，已经实现了单机5000路的并发。

以上就是本人第一个语音项目的探索，很简单，学习到了一定的语音领域的知识，后面再接再厉，好好学习ASR和TTS相关知识，争取成为NLP和语音算法工程师！

计算机视觉与深度学习：使用深度学习训练基于视觉的车辆检测器（MATLAB源码-Faster R-CNN） ZhShy23 javascript 深度学习
在人工智能领域，计算机视觉是一个重要且充满活力的研究方向。它使计算机能够理解和分析图像和视频数据，从而做出有意义的决策。其中，目标检测是计算机视觉中的一项关键技术，它旨在识别并定位图像中的多个目标对象。车辆检测作为目标检测的一个重要应用，在自动驾驶、智能交通系统等领域有着广泛的应用前景。本文将介绍如何使用MATLAB和深度学习技术，特别是FasterR-CNN模型，来训练一个车辆检测器。文章目录一
利用双分支CycleGAN进行图像数据的高效增强 jizhi-dataset 人工智能
随着人工智能技术的快速发展，图像数据处理变得越来越重要。为了提高图像数据的质量和可用性，我们需要采用高效的数据增强方法。双分支CycleGAN网络作为一种先进的图像处理技术，为我们提供了一种全新的解决方案。本文将详细介绍双分支CycleGAN的工作原理，并展示其在图像数据增强方面的实际效果。同时，我们也将讨论在实际应用过程中可能遇到的挑战以及如何解决这些问题。，，CycleGAN是一种用于图像到图
揭秘AIP智能体平台：构建未来AI基础设施的新引擎大东（AIP内容运营专员）人工智能
在人工智能的浪潮中，科技正在改变我们生活的方方面面。从智能推荐到自动驾驶，从个性化广告到实时风险控制，AI的触角无处不在。但这些令人瞩目的成果背后，究竟是什么在支撑着AI的飞速发展？答案是——人工智能平台。人工智能平台是连接计算资源、开发工具和行业应用的重要桥梁，支撑着从模型开发到行业场景落地的每一个环节。它不仅为开发者提供高效便捷的工具，还为企业创造了无限的创新可能。本文将带你深入了解人工智能平
【Python】已解决：WARNING: pip is configured with locations that require TLS/SSL, however the ssl module i 屿小夏 python pip ssl
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
《鸿蒙Next应用商店：人工智能开启智能推荐与运营新时代》人工智能深度学习
在科技飞速发展的当下，鸿蒙Next系统的出现为操作系统领域带来了新的变革与机遇，而人工智能技术的融入更是让其应用商店的智能化推荐和运营迈向了一个全新的高度。用户画像精准构建在鸿蒙Next系统中，应用商店可以借助系统强大的权限管理和数据收集能力，全方位收集用户的多维度数据。通过对用户在应用商店内的浏览历史、下载记录、搜索关键词，以及在其他鸿蒙应用中的使用行为等多源数据进行汇总和分析，利用人工智能算法
机器学习的介绍 2201_75874206 机器学习人工智能
目录1.机器学习的定义2.机器学习的原理3.机器学习的方法4.机器学习的分类5.机器学习的评估6.机器学习的应用场景7.机器学习与人工智能的关系结论机器学习在自然语言处理中的最新应用和技术是什么？如何评估机器学习模型的性能，除了交叉验证、MSE和RMSE外，还有哪些其他重要的指标？在金融风险管理中，机器学习如何帮助预测市场趋势和信用风险？市场趋势预测信用风险评估机器学习与人工智能之间的关系在未来发
智能家居语音识别模块兢兢业业的打野单片机嵌入式硬件
#include#include"stm32f10x.h"#include"usart.h"#include"user_common.h"#include"SNR1806/snr1806.h"#ifndefNULL#defineNULL0#endifstaticu8gRevDataBuf[30]={0};LD3322Handle_tgs_Ld3322Handle={.bl_rev_cmd_flg=
迅为RK3562开发板专为3562编写10大分类2900+页文档 mucheni rk3562 3562
iTOP-3562开发板采用瑞芯微RK3562处理器，内部集成了四核A53+MaliG52架构，主频2GHZ，内置1TOPSNPU算力，RK809动态调频。支持OpenGLES1.1/2.0/3.2、0penCL2.0、Vulkan1.1内嵌高性能2D加速硬件。内置独立NPU,算力达1TOPS,可用于轻量级人工智能应用。支持几乎全格式的H.264解码，支持1080p@60fps的解码，支持4K@3
工业场景将成为AI大模型的重要战场！零基础入门AI大模型，看这篇就够了！大模型扬叔人工智能工业多模态大模型
前言2024年，各大公司推出强大理解能力的多模态大模型，将引领人工智能（AI）技术创新和应用，工业场景将成为多模态大模型的最佳实践场地。随着GPT-4o、Gemini1.5Pro、LLaVA1.6的发布，基于Transformer架构和海量数据训练的多模态大模型再次点燃通用人工智能（AGI），其对文本、图像等多模态输入的支持和强大的理解能力也象征着人工智能迈向通用人工智能（AGI）的新阶段。随着工
人工智能学习路线全链路解析 power-辰南大模型算法实战工程人工智能学习机器学习
一、基础准备阶段（预计2-3个月）（一）数学知识巩固与深化线性代数（约1个月）：矩阵基础：回顾矩阵的定义、表示方法、矩阵的基本运算（加法、减法、乘法），理解矩阵乘法不满足交换律等特性，通过练习题加深对运算规则的掌握，例如计算简单的矩阵乘法式子、求矩阵的转置等。向量空间与线性变换：学习向量空间的概念，包括向量的线性组合、线性相关与线性无关，掌握线性变换的定义、几何意义以及如何用矩阵表示线性变换，借助
透过生活小故事，轻松理解大模型开发的五种核心方法 java
大家好，我是大圣，今天聊一下大模型开发的几种方法。大模型开发常用方法前言人工智能的世界听起来复杂神秘，但其实它与我们的日常生活有着许多相似之处。即使你对大模型开发一无所知，也能通过生活中的简单故事，理解其中的奥秘。本文将以贴近生活的五个场景，通俗易懂地讲解大模型开发中的五种核心方法：提示词工程和外部函数、Agent设计、RAG设计（检索增强生成）、微调以及预训练。让我们一同走进这些故事，揭开大模型
AI绘画工具介绍编程小郭 ai作画
市面上AI绘画工具众多，它们利用深度学习和图像处理技术，为用户提供了丰富的创作体验和可能性。以下是对几款主流AI绘画工具的详细介绍及横向对比：一、主流AI绘画工具介绍Midjourney简介：Midjourney是一个独立的研究实验室，专注于人工智能绘图，被广泛应用于设计、艺术创作、广告制作等领域。特点：以其强大的图像生成能力和跨界融合的创新特点著称，能够根据文本描述和视觉输入生成兼具故事性与视觉
文心一言vsGPT-4全面对比编程小郭文心一言 chatgpt java python 人工智能 ai
文心一言和GPT-4都是当前非常先进的人工智能语言模型，它们各自具有独特的特点和优势。以下是对这两款工具的全面比较：文心一言是由百度开发的一款大型人工智能语言模型，它基于强大的深度学习技术和海量的数据资源，具备出色的语言理解和生成能力。文心一言在中文处理方面尤为出色，能够准确理解中文语境和语义，生成流畅、自然的中文文本。文心一言还具备丰富的知识库和推理能力，能够回答各种问题，提供有用的信息和建议。
最近，大模型岗位爆了。。。 IT猫仔人工智能学习 ai
重磅消息，国资委打响了国内AI第一枪！宣布央企将把发展AI放在全局统筹地位上，并加快建设一批智能算力中心。这意味着传统行业又迎来了一次大洗牌，这个过程需要大量AI人才！！现在国内头部人工智能公司已经开始用AI数字人助力各行各业，央企+交互数字人将成今年一整年的趋势。除此之外，知名大厂也都在布局AI市场。懂AI的程序员年薪已经翻到80w-96w!风口之下，与其焦虑被行业淘汰，不如先人一步掌握AI大模
Kimi终于开源了，联手清华开源大模型推理架构Mooncake 吴脑的键客人工智能架构人工智能
在人工智能迅速发展的时代，大型模型的智能化水平不断提升，但随之而来的推理系统效率挑战也越来越明显。如何应对高推理负载、降低推理成本、缩短响应时间，已成为业界共同面对的重要问题。Kimi公司联合清华大学的MADSys实验室，推出了基于KVCache的Mooncake推理系统设计方案，该方案于2024年6月正式发布。Mooncake推理系统通过创新的PD分离架构和以存换算为中心的理念，显著提升了推理的
基于深度学习的认知架构的AI SEU-WYL 深度学习dnn 人工智能深度学习架构
基于深度学习的认知架构的AI是一类模仿人类认知过程的人工智能系统，旨在模拟人类感知、学习、推理、决策等复杂的认知功能。认知架构的目的是创建一个能够理解和处理复杂环境、实现自我学习和适应的AI系统。结合深度学习技术，这类AI可以更好地应对动态和复杂的任务需求。1.基于深度学习的认知架构的组成一个典型的基于深度学习的认知架构包含多个关键模块：感知模块：负责从外部环境中获取数据，处理和提取特征。深度学习
人工智能：人形机器人的开发需要哪些技能？ InnoLink_1024 机器学习 AGI 人工智能人工智能机器人 ai
人形机器人的开发需要多学科、多领域的专业技能，具体如下：机械工程技能机械设计与建模：熟练掌握计算机辅助设计（CAD）软件，如SolidWorks、AutoCAD等，能够创建精确的3D模型，进行结构分析，并为制造准备详细的图纸。材料与制造工艺：了解各种材料的性质、接合技术以及制造工艺，如铣削、车削、3D打印等，根据机器人的应用场景和性能要求，选择合适的材料和制造工艺。运动学与动力学分析：深入理解运动
人工智能：人形机器人的开发需求会创造哪些热门的就业岗位？ InnoLink_1024 机器学习 AGI 人工智能人工智能机器人 ai
人形机器人的开发需求会创造以下热门的就业岗位：研发设计类机械结构工程师：负责设计人形机器人的机械本体结构，包括关节、骨架、外壳等，需要对机械原理、力学知识有深入理解，熟悉使用CAD、SolidWorks等设计软件。电子电气工程师：设计和开发人形机器人的电子电路系统，包括传感器电路、控制电路、电源电路等，需要掌握电子技术、电路设计、PCB绘制等技能。算法工程师：运动控制算法工程师：负责移动机器人运动
Python-玩转数据-数据分析之分析思维人猿宇宙数据分析 python big data
一、说明当下时代的社会生产发展，人们都开始习惯于用数据来说明某个观点和反映事物的内在规律或享用自动化和人工智能带来的便利。但这些轻松快捷的方便背后，都是相关工作者的专业流程作为源源不断的支撑。二、大数据思维自从几年前大数据开始兴起，大数据思维已经逐渐被更动的人接受，随着其进一步发展，产生了巨大的生产效果。三、数据驱动的生产力作为一个数据工程师，仅仅知道跑数据是不够的，还需要通过数据发现生产环节出现
【深入解析】棋类游戏算法：Minimax, Negamax, 蒙特卡洛树搜索与AlphaZero wit_@ ai python negamax
深入解析棋类游戏算法：Minimax,Negamax,蒙特卡洛树搜索与AlphaZero在人工智能领域，棋类游戏一直是测试和展示智能算法的经典舞台。从最早的Minimax算法到如今的AlphaZero，这些算法通过不同的方式解决了棋局中的决策问题，让计算机能够在复杂的棋局中做出合理甚至超越人类的决策。本文将详细解析几种经典的棋类游戏算法：Minimax，Negamax，蒙特卡洛树搜索（MCTS）以
什么是AI显卡，英伟达与AMD显卡的全面对比 wit_@ 人工智能 python 算法 deep learning 大数据网络
什么是AI显卡？AI显卡是专门为人工智能计算任务设计和优化的图形处理器（GPU）。相比传统显卡，AI显卡具备更强的计算能力、更高的并行处理效率以及针对深度学习、数据科学等领域的特殊硬件支持。在人工智能领域，尤其是深度学习中，训练和推理任务需要处理大量的矩阵运算，这正是GPU擅长的领域。AI显卡通过高度并行的架构，可以显著提升训练速度和模型性能，同时降低功耗和延迟。常见的AI显卡用途包括：深度学习模
详解AI大模型的主要指标与国内常见大模型对比分析 wit_@ 人工智能 AIGC 语言模型 ai 大数据服务器
AI大模型的主要指标与国内常见大模型对比分析随着人工智能技术的快速发展，大模型（LargeAIModels）在自然语言处理、计算机视觉和多模态任务中取得了突破性进展。对于选择和评价AI大模型，不仅需要关注其功能，还要理解其关键指标和性能表现。本文将详细分析AI大模型的主要评价指标，并对国内常见大模型进行具体对比，提供实际数值和深度解析。一、AI大模型的主要指标AI大模型的性能和实用性通常通过以下指
Python人工智能在气象中的应用，包括：天气预测、气候模拟、降雨量和降水预测、气象数据分析、气象预警系统 xiao5kou4chang6kai4 气象气候预报天气预测气候模拟.降雨量和降水预测气象数据分析气象预警系统 python
Python人工智能在气象中有多种应用，包括：天气预测、气候模拟、降雨量和降水预测、气象数据分析、气象预警系统Python是功能强大、免费、开源，实现面向对象的编程语言，在数据处理、科学计算、数学建模、数据挖掘和数据可视化方面具备优异的性能，这些优势使得Python在气象、海洋、地理、气候、水文和生态等地学领域的科研和工程项目中得到广泛应用。可以预见未来Python将成为的主流编程语言之一。人工智
chatgpt赋能python：Python群发微信消息：解决方案 suimodina ChatGpt python chatgpt 微信计算机
Python群发微信消息：解决方案肆无忌惮的群发微信消息，是否是你目前所需的解决方案？如果是，那么你来对地方了。Python是一门十分强大的编程语言，广泛用于各种人工智能、计算机视觉、机器学习等领域。Python可以用于开发各种应用程序，它也可以用于批量处理和发送微信消息。本文将概述如何用Python发送微信消息。我们将介绍用Python实现微信消息的流程和步骤，并提供一些有关如何使用Python
利用Langchain与Minimax进行自然语言处理的精彩指南 afTFODguAKBF langchain 自然语言处理 easyui python
#引言在人工智能的浪潮中，自然语言处理（NLP）成为了企业和个人用户的重要工具。Minimax作为一家中国初创企业，专注于提供优秀的语言模型服务。本篇文章将介绍如何使用Langchain库与Minimax进行交互，帮助开发者充分利用这一强大的AI工具。#主要内容##1.Minimax简介Minimax专注于自然语言处理，为企业和个人用户提供高效的语言模型服务。其API能处理多种自然语言任务，例如文
ChatGPT4.0最新功能和使用技巧，助力日常生活、学习与工作！ WangYan2022 教程人工智能 chatgpt 数据分析 ai绘画 AI写作
熟练掌握ChatGPT4.0在数据分析、自动生成代码等方面的强大功能，系统学习人工智能（包括传统机器学习、深度学习等）的基础理论知识，以及具体的代码实现方法，同时掌握ChatGPT4.0在科研工作中的各种使用方法与技巧，以及人工智能领域经典机器学习算法（BP神经网络、支持向量机、决策树、随机森林、变量降维与特征选择、群优化算法等）和热门深度学习方法（卷积神经网络、迁移学习、RNN与LSTM神经网络
人工智能OpenCV计算机视觉技术 yzx991013 OpenCV基础全集 opencv 计算机视觉人工智能
5.3cand可调节边缘检测完整代码：importcv2importnumpyasnp#载入图像，并处理可能的读取错误img_original=cv2.imread('./image/lena.jpg')ifimg_originalisNone:print("无法读取图像文件")raiseSystemExit#创建可调整大小的窗口cv2.namedWindow('Canny',cv2.WINDOW
python中tensorflow_python机器学习TensorFlow框架弦歌缓缓
TensorFlow框架关注公众号“轻松学编程”了解更多。一、简介TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统，其命名来源于本身的运行原理。Tensor(张量)意味着N维数组，Flow(流)意味着基于数据流图的计算，TensorFlow为张量从流图的一端流动到另一端的计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统
python火柴人毕业设计山语山 python 课程设计开发语言
1.引言火柴人（StickFigure）是一种极简风格的图形，通常由简单的线段和圆圈组成，却能生动地表达人物的姿态和动作。火柴人不仅广泛应用于动画、漫画和涂鸦中，还可以作为图形学、人工智能等领域的教学和研究工具。本文旨在介绍如何使用Python实现火柴人的设计与绘制，通过编程的方式，让读者了解火柴人背后的基本原理和实现方法。2.准备工作在开始实现火柴人之前，你需要确保已经安装了Python环境，并
ChatGPT原理及其应用场景编程小郭 chatgpt 人工智能 ai
ChatGPT的原理及应用场景一、ChatGPT的原理ChatGPT，全名ChatGenerativePre-trainedTransformer，是OpenAI研发的一款聊天机器人程序，其背后依托的是人工智能技术和自然语言处理（NLP）的深厚功底。其工作原理可以从以下几个方面进行解析：GPT系列模型基础ChatGPT基于GPT（GenerativePre-trainedTransformer）技
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。

说话人性别识别——语音检测初探

一、任务背景和分析

二、特征抽取

librosa

wave

torchaudio

三、数据集

commonvoice [ 中文]

四、模型训练

1、频域信号+LSTM+2DCNN

2、频域信号+2DCNN

3、时域信号+1DCNN

你可能感兴趣的:(#,speaker性别识别,语音识别,人工智能)