shichaog

WebRTC之beamforming算法

我的书：

购买链接：

京东购买链接

淘宝购买链接

当当购买链接

坐标问题

这里以笔记本为例进行说明，当笔记本按如下方式打开：

首先是键盘和液晶屏呈90度，然后鼠标上方，也就是液晶屏上方正中间是camera，把平行于键盘的面看成是xy平面，把液晶屏所在的面看成是xz平面，所有平面的原点都在Camera的位置。

方位角：从原点开始，Camera的右侧是0度，逆时针方向是正，也就是液晶屏和键盘交界的那条线的左边是x正方向（靠esc键盘），右边是负半轴，正中间，也就是Camera的位置是原点，x的正方向向着ThinkPad的小红点转，这时得到的角度是正值，转到红点方向正好是90度。

俯仰角：把和xy平面（平行于键盘，但是原点在Camera位置）线，从图中鼠标到Camera的方向称为z轴的正向，从x的正半轴方向向z的正方向转动是俯仰角的正方向。

最后的一个参数radius，是声源到Camera的直线距离。

可执行测试程序的编译

gsc@gsc-250:~/webrtc-checkout/src/webrtc/modules/audio_processing$ 目录下的"audio_processing_tests.gypi" 文件的153 行，如下：

该文件是gypi（generated your project included）格式的文件，语法类似json和python。编译的目标是nonlinear_beamformer_test。该文件编译的源文件是

beamformer/nonlinear_beamformer_test.cc

查找该目标的所在位置：

如果需要修改源文件，并编译生成nonlinear_beamformer_test这个测试文件，参考下面的文章，写这篇博文时，ＷｅｂＲＴＣ的版本是２０１６年５月１日，下面链接中网盘里的版本比这里的稍早。

http://blog.csdn.net/shichaog/article/details/50246155

执行该可执行测试文件如下，该文件编译生成方法见上面链接博文。

关键数据结构

class NonlinearBeamformer
  : public Beamformer,
    public LappedTransform::Callback {
 public:
  static const float kHalfBeamWidthRadians;

  explicit NonlinearBeamformer(
      const std::vector& array_geometry,
      SphericalPointf target_direction =
          SphericalPointf(static_cast(M_PI) / 2.f, 0.f, 1.f));

  // Sample rate corresponds to the lower band.
  // Needs to be called before the NonlinearBeamformer can be used.
  void Initialize(int chunk_size_ms, int sample_rate_hz) override;

  // Process one time-domain chunk of audio. The audio is expected to be split
  // into frequency bands inside the ChannelBuffer. The number of frames and
  // channels must correspond to the constructor parameters. The same
  // ChannelBuffer can be passed in as |input| and |output|.
  void ProcessChunk(const ChannelBuffer& input,
                    ChannelBuffer* output) override;

  void AimAt(const SphericalPointf& target_direction) override;

  bool IsInBeam(const SphericalPointf& spherical_point) override;

  // After processing each block |is_target_present_| is set to true if the
  // target signal es present and to false otherwise. This methods can be called
  // to know if the data is target signal or interference and process it
  // accordingly.
  bool is_target_present() override { return is_target_present_; }

 protected:
  // Process one frequency-domain block of audio. This is where the fun
  // happens. Implements LappedTransform::Callback.
  void ProcessAudioBlock(const complex* const* input,
                         size_t num_input_channels,
                         size_t num_freq_bins,
                         size_t num_output_channels,
                         complex* const* output) override;

 private:
  FRIEND_TEST_ALL_PREFIXES(NonlinearBeamformerTest,
                           InterfAnglesTakeAmbiguityIntoAccount);

  typedef Matrix MatrixF;
  typedef ComplexMatrix ComplexMatrixF;
  typedef complex complex_f;

  void InitLowFrequencyCorrectionRanges();
  void InitHighFrequencyCorrectionRanges();
  void InitInterfAngles();
  void InitDelaySumMasks();
  void InitTargetCovMats();
  void InitDiffuseCovMats();
  void InitInterfCovMats();
  void NormalizeCovMats();

  // Calculates postfilter masks that minimize the mean squared error of our
  // estimation of the desired signal.
  float CalculatePostfilterMask(const ComplexMatrixF& interf_cov_mat,
                                float rpsiw,
                                float ratio_rxiw_rxim,
                                float rmxi_r);

  // Prevents the postfilter masks from degenerating too quickly (a cause of
  // musical noise).
  void ApplyMaskTimeSmoothing();
  void ApplyMaskFrequencySmoothing();

  // The postfilter masks are unreliable at low frequencies. Calculates a better
  // mask by averaging mid-low frequency values.
  void ApplyLowFrequencyCorrection();

  // Postfilter masks are also unreliable at high frequencies. Average mid-high
  // frequency masks to calculate a single mask per block which can be applied
  // in the time-domain. Further, we average these block-masks over a chunk,
  // resulting in one postfilter mask per audio chunk. This allows us to skip
  // both transforming and blocking the high-frequency signal.
  void ApplyHighFrequencyCorrection();

  // Compute the means needed for the above frequency correction.
  float MaskRangeMean(size_t start_bin, size_t end_bin);

  // Applies both sets of masks to |input| and store in |output|.
  void ApplyMasks(const complex_f* const* input, complex_f* const* output);

  void EstimateTargetPresence();

  static const size_t kFftSize = 256;
  static const size_t kNumFreqBins = kFftSize / 2 + 1;

  // Deals with the fft transform and blocking.
  size_t chunk_length_;
  std::unique_ptr lapped_transform_;
  float window_[kFftSize];

  // Parameters exposed to the user.
  const size_t num_input_channels_;
  int sample_rate_hz_;

  const std::vector array_geometry_;
  // The normal direction of the array if it has one and it is in the xy-plane.
  const rtc::Optional array_normal_;

  // Minimum spacing between microphone pairs.
  const float min_mic_spacing_;

  // Calculated based on user-input and constants in the .cc file.
  size_t low_mean_start_bin_;
  size_t low_mean_end_bin_;
  size_t high_mean_start_bin_;
  size_t high_mean_end_bin_;

  // Quickly varying mask updated every block.
  float new_mask_[kNumFreqBins];
  // Time smoothed mask.
  float time_smooth_mask_[kNumFreqBins];
  // Time and frequency smoothed mask.
  float final_mask_[kNumFreqBins];

  float target_angle_radians_;
  // Angles of the interferer scenarios.
  std::vector interf_angles_radians_;
  // The angle between the target and the interferer scenarios.
  const float away_radians_;

  // Array of length |kNumFreqBins|, Matrix of size |1| x |num_channels_|.
  ComplexMatrixF delay_sum_masks_[kNumFreqBins];
  ComplexMatrixF normalized_delay_sum_masks_[kNumFreqBins];

  // Arrays of length |kNumFreqBins|, Matrix of size |num_input_channels_| x
  // |num_input_channels_|.
  ComplexMatrixF target_cov_mats_[kNumFreqBins];
  ComplexMatrixF uniform_cov_mat_[kNumFreqBins];
  // Array of length |kNumFreqBins|, Matrix of size |num_input_channels_| x
  // |num_input_channels_|. ScopedVector has a size equal to the number of
  // interferer scenarios.
  ScopedVector interf_cov_mats_[kNumFreqBins];

  // Of length |kNumFreqBins|.
  float wave_numbers_[kNumFreqBins];

  // Preallocated for ProcessAudioBlock()
  // Of length |kNumFreqBins|.
  float rxiws_[kNumFreqBins];
  // The vector has a size equal to the number of interferer scenarios.
  std::vector rpsiws_[kNumFreqBins];

  // The microphone normalization factor.
  ComplexMatrixF eig_m_;

  // For processing the high-frequency input signal.
  float high_pass_postfilter_mask_;

  // True when the target signal is present.
  bool is_target_present_;
  // Number of blocks after which the data is considered interference if the
  // mask does not pass |kMaskSignalThreshold|.
  size_t hold_target_blocks_;
  // Number of blocks since the last mask that passed |kMaskSignalThreshold|.
  size_t interference_blocks_count_;
};

源文件

前问说道nonlinear_beamformer_test.cc文件，该文件所采用的算法是非线性波束形成算法，这里非线性是针对频域而言的。

该文件处理流程比较清晰，首先根据读入的wav文件，获得采样率和通道数（麦克风个数），然后获得麦克的物理位置，

从输出可以看出，输入信号采样率是１６ｋ，三通道，输出信号的采样率是１６ｋ，一个通道，将三个通道合成为了一个通道。根据这个可执行程序，就可以一步步打印相关的中间执行结果，这有利于更好的弄懂ｗｅｂＲＴＣ的ｂｅａｍｆｏｒｍｉｎｇ算法。

激励麦克风阵列声源产生

该算法涉及的信号处理方法比较多，此外还有矩阵相关的知识，如果不是信号处理专业出身，估计比较难自己看懂。闲话不说，接着往下看。

在上面截图中有一个out2.wav的文件，该文件是输入测试激励文件。该文件使用一路麦克风采集而来，外加ｍａｔｌａｂ处理而成，这样可以软硬件并行话。

[y,Fs] = audioread('test.wav')；
y_left=y(:, 1)；
y_right=y(:,1)；
X=[y_left y_right y_left]；
audiowrite('out2.wav',X,Fs);

之所以y_left和ｙ_right表达式一样，是因为这里的ｔｅｓｔ.wav是单声道音源。Ｘ那行将其组成三路，模拟三个麦克风的输入，最后一行将其写入到ｏｕｔ2.wav文件中，该ｗａｖ文件用于测试。
有了测试程序和测试输入激励，接下来就方便一步步分析了。

测试源程序：

由编译规则，可以知道，编译的源文件是nonlinear_beamformer_test.cc

下面的英文节选部分PPT内容，是用以指导麦克风阵列设计

SNR :Microphone Array Evaluation Criteria

SNR（signal to noise ratio）
SNR(dB)=10lg(Ps/Pn),
Ps=signal power, Pn=noise power.
If SNR=0, then Ps=Pn,
If SNR=3dB, then Ps=2Pn

Major factors influence SNR

Input ambient noise,(human,animal, home appliance…)

Number of Microphones

Microphone aperture

Electric factors(LED high freqency noise, TEM, audio, subwoofer)

Mechanical structure of Pebble

Influence of microphone self,(temperature drift, consistency, lifetime)

SNR vs ASR intelligibility

every 4 - 5dB improvement of the Signal to Noise Ratio (SNR) may raise the speech intelligibility by 50%--- Development of a directional hearing instrument based on array technology，1993

Number of Microphones

Output SNR =N*SNR

Input ambient noise

Microphone aperture-1

d ≤ λ /2 = c/2f=343000/(2*4000)=42.857mm

Microphone aperture-2

Min=L;
Echo:75mm,f<4.573KHz

Microphone aperture-3

Distance between microphone vs spatial resolution.
6mic/8cm,3d-20°

Microphone aperture-conclusion

6mic/80mm
Aliasing and spectral leakage < 4.287K Hz
Spatial resolution 20°(3dB)

程序相关定义变量的意义

chunk_length:每个通道采样点个数。

window：回调函数callback使用的参数，window 的长度应当和block_length等长。
block_length：一个block的长度（以采样点数计算）。后面的FFT处理是以block为单位进行的。
shift_amount：也是以采样点数计算，重叠变换法中移位的点数。

callback：输入通道的每一个block应该调用的处理函数。

chunk_length:每个channel的采样点数，一个channel对应于一路麦克风。

new LappedTransform(num_input_channels_,
                                              1,
                                              chunk_length_,
                                              window_,
                                              kFftSize,
                                              kFftSize / 2,
                                              this));

重叠变换法：

  LappedTransform(size_t num_in_channels,
                  size_t num_out_channels,
                  size_t chunk_length,
                  const float* window,
                  size_t block_length,
                  size_t shift_amount,
                  Callback* callback);

Blocker的主要是处理接收到的音频帧长不等于变换的长度。例如，多数FFT变换为了使效率最高，通常做2的指数为长度做FFT的变换。但是如果我们接收到20ms采样率为48K是音频数据，则有960（48000*0.02）帧frame。但960并不是2的指数倍。Blocker允许我们在不限制变换长度（对于读是block_size_，对于接收音频size是chunk_size_）的前提下指定变换算法以及通过Process()回调函数完成的其它的一些处理。
Blocker负责处理如下问题：
   当处理chunk的边缘潜在的不连续问题时阻塞audio
   在送入process之前对块进行加窗
   在返回一个处理chunk之前，对处理的block进行加窗处理，并采用重叠相加法进行重组chunk。

在使用blocker时：
   1.实现一个BlockerCallback对象|bc|
   2.例化一个Blocker对象|b|，将|bc|传递给|b|
   3.当接收到audio数据时，调用b.ProcessChunk()获得处理过的audio

modules/audio_processing/beamformer/nonlinear_beamformer.h:170:  ComplexMatrixF uniform_cov_mat_[kNumFreqBins];

LappedTransform::BlockThunk::ProcessBlock:

首先对每一个channel做FFT变换，

NonlinearBeamformer::Initialize
f(k)=k*(fs/n)====>f(k)=k*(16000/256)=k*125Hz（每个点）

  static const size_t kFftSize = 256;
  static const size_t kNumFreqBins = kFftSize / 2 + 1;

256点FFT,原始模拟信号最高频率8KHz,采样率为16KHz;n的范围是０,1,2,...,255;16KHz的频率被分成了256份。每一份是62.5Hz,这就意味这８K范围的信号只需要关注前１２８个点，即62.5Hz*128=8KHz.

hold_target_blocks_ = kHoldTargetSeconds * 2 * sample_rate_hz / kFftSize;

NonlinearBeamformer::NonlinearBeamformer
{
//x1 y1 z1 x2 y2 z2
const int kChunksPerSecond = 100;
const int kChunkSizeMs = 1000 / kChunksPerSecond;

num_input_channels_:是输入麦克风阵列的个数。
array_geometry_:是坐标的平均值，x1'=(x1+x2+...+xn)/N-x1,以此类推。
array_normal_：似乎是在求解正规矩阵，如果是正规矩阵，分线阵和面阵两种情况，如果是线阵则正规矩阵取前两个麦克风计算所得向量（x2-x1,y2-y1,z2-z1）,
min_mic_spacing_:所有两个麦克风之间距离的最小值。
target_angle_radians_:球坐标下声源方位角的弧度值。
away_radians_：声源和干扰源分辨的角度（弧度单位），min(pi,  max(kMinAwayRadians = 0.2f,kAwaySlope = 0.008f*pi/min_mic_spacing_));
window_:WindowGenerator::KaiserBesselDerived(kKbdAlpha, kFftSize, window_),凯撒贝塞尔窗函数，参考公式。
}

NonlinearBeamformer::Initialize｛
const int kChunksPerSecond = 100;
const int kChunkSizeMs = 1000 / kChunksPerSecond;
首先是传递给该函数的两个参数的意义。
chunk_size_ms：表示的意义是1ms对应的chunk大小，chunk是频域一次处理数据量的大小。
sample_rate_hz：输入信号的采样率，16k

chunk_length_ =(sample_rate_hz / (1000.f / chunk_size_ms))=　16000/(1000/10)=1600;
sample_rate_hz_ = 16k;（由输入音源决定）
high_pass_postfilter_mask_ = 1.f;
is_target_present_ = false;
// 超过kMaskTargetThreshold，则将被认为是声音而非干扰，每当后置滤波器有大的改变，则其也要被跟新。
const float kMaskTargetThreshold = 0.01f;
// 如果mask小于|kMaskTargetThreshold|，则其后kHoldTargetSeconds时间内的数据将被认为是干扰。
const float kHoldTargetSeconds = 0.25f;
hold_target_blocks_ = kHoldTargetSeconds * 2 * sample_rate_hz / kFftSize;=0.25()*2*16000=8000;
interference_blocks_count_＝hold_target_blocks_;
//重叠变换法reset.
 lapped_transform_.reset(new LappedTransform(num_input_channels_,
                                              1,
                                              chunk_length_(1600),
                                              window_(凯撒贝塞尔窗函数),
                                              kFftSize(256),
                                              kFftSize / 2,
                                              this));
  for (size_t i = 0; i < kNumFreqBins(256); ++i)[
	time_smooth_mask_[i] = 1.f;
    	final_mask_[i] = 1.f;
    	float freq_hz = (static_cast(i) / kFftSize) * sample_rate_hz_;
    	wave_numbers_[i] = 2 * M_PI * freq_hz / kSpeedOfSoundMeterSeconds;

  ]

NonlinearBeamformer::InitLowFrequencyCorrectionRanges
low_mean_start_bin_ = kLowMeanStartHz = 200;
low_mean_end_bin_ = int kLowMeanEndHz = 400;

NonlinearBeamformer::InitDiffuseCovMats()
for (size_t i = 0; i < kNumFreqBins; ++i)[
uniform_cov_mat_:坐标的协方差矩阵，和array_geometry_以及wave_numbers_有关，其还做了０介贝塞尔。使用第一个元素先归一化然后乘以(1 - kBalance)；
]		

｝

Deinterleave：原来是通道一然后通道２...;现在变成通道１第一个点，通道２第一个点.....

//每一个chunck会处理一次，其内部将数据进行分块block，将它们变换到频域，对每一个block调用callback回调函数进行处理，
//并且将去block的时域结果存在第二个参数中，其lapped_transform_的实现在Lapped_transform.cc文件。

NonlinearBeamformer::ProcessChunk()
{

old_high_pass_mask = high_pass_postfilter_mask_;保存前一次mask值。
lapped_transform_->ProcessChunk(input.channels(0), output->channels(0));//使用重叠变换法处理一帧数据。
	｜
	-------  blocker_.ProcessChunk(in_chunk, chunk_length_, num_in_channels_,
                        num_out_channels_, out_chunk);
			frame_offset_：初始值是０，构造函数默认将其设置为０．

frames	[0.0 	0.1     ...]
	[1.0  	1.1	...]


}

NonlinearBeamformer::Initialize
			|
			|
			------LappedTransform(num_input_channels_,
                                              1,
                                              chunk_length_(1600),
                                              window_(凯撒贝塞尔),
                                              kFftSize,
                                              kFftSize / 2,
                                              this));
					|
					|
					----- blocker_(chunk_length_(1600),
               						block_length_（kFftSize）,
               						num_in_channels_,
               						num_out_channels_,
               						window(kaiserbesselderived),
               						shift_amount(kFftSize / 2),
               						&blocker_callback_(LappedTransform)),
						|
						|
						-----LappedTransform::BlockThunk::ProcessBlock()
								fft_->Forward,对每一行（路）麦克风做FFT变换。（重叠变换法）
								block_processor_->ProcessAudioBlock　核心函数（重中之重）
								fft_->Inverse，逆FFT返回时域。

void NonlinearBeamformer::ProcessAudioBlock(const complex_f* const* input,　	//麦克风阵列FFT结果输入
                                            size_t num_input_channels,　		//num_input_channels_
                                            size_t num_freq_bins,		//等于kNumFreqBins，kFftSize / 2＋１
                                            size_t num_output_channels,		//1
                                            complex_f* const* output)


LappedTransform* const parent_;

webRTC中apm是audio processing module的简称。其原型定义如下

RERL:residual echo return loss
ERL:echo return loss
ERLE:echo return loss enhancement

计算机视觉：卷积核每天五分钟玩转人工智能计算机视觉计算机视觉深度学习人工智能机器学习卷积神经网络
本文重点卷积神经网络（ConvolutionalNeuralNetwork，CNN）是一种深度学习模型，广泛应用于图像识别、自然语言处理、语音识别等领域。在卷积神经网络中，卷积核是网络的核心组件之一。通过不断堆叠卷积层和池化层，可以逐渐提取出更高级别的特征，从而实现更复杂的任务。卷积神经网络中的卷积核可以通过反向传播算法进行训练和优化，使其能够自适应地学习输入数据中的特征。因此，卷积神经网络在图像
【深度学习】常见模型-卷积神经网络（Convolutional Neural Networks, CNN） IT古董人工智能深度学习机器学习深度学习 cnn 人工智能
卷积神经网络（CNN）概念简介卷积神经网络（ConvolutionalNeuralNetworks,CNN）是一种专门用于处理数据具有网格状拓扑结构（如图像、语音）的深度学习模型。它通过卷积操作从输入数据中提取局部特征，并逐层构建更复杂的特征表示，广泛应用于图像分类、目标检测、语音识别等领域。关键组成部分卷积层（ConvolutionalLayer）使用卷积核（滤波器）在输入上滑动，提取局部特征。
# AI计算模式神经网络模型深度神经网络多层感知机卷积神经网络循环神经网络长短期记忆网络图像识别、语音识别、自然语言轻量化模型和模型压缩大模型分布式并行 EwenWanW AGI 人工智能神经网络 dnn
AI计算模式AI技术发展至今，主流的模型是深度神经网络模型。近20年来，神经网络模型经过多样化的发展，模型总体变得越来越复杂和庞大，对硬件设备的计算速度、存储能力、通信速度的要求越来越高。尽管学者已经提出了许多方法优化模型结构，降低模型的参数量，但是伴随着人们对AI能力的要求越来越高，模型变得更大是不可避免的。原先单CPU可进行模型的训练与推理，如今需要使用GPU、TPU等设备，并通过分布式并行的
xiaozhi-esp32 - 基于 ESP32 的 AI 聊天机器人小众AI AI开源开源人工智能 AI编程
xiaozhi-esp32是一款基于ESP-IDF开发框架的开源硬件项目，旨在利用低成本硬件打造个人专属的AI聊天机器人。它通过WebSocket或UDP协议与LLM、TTSAPI服务连接，实现实时语音交互功能，无需在设备上运行LLM，支持中文在内的多国语言、语音识别用户身份、自定义提示词和音色等功能，兼容多款ESP32开发板。3500Stars545Forks19Issues12贡献者MITLi
通过手机控制家用电器的一个程序的设计（一） zhumin726 智能家居智能家居
一、概述设计一款安卓平台上的家庭智能控制软件，通过语音识别指令控制家用电器。该软件结合离线语音识别技术、红外线和WIFI通讯技术，实现对家电的智能控制，如开关机、调温度、调频道等操作。二、主要功能模块离线语音识别模块功能：识别用户的语音指令。技术：使用离线语音识别API，如PocketSphinx或Kaldi。操作流程：用户说出指令→语音数据被传输到离线语音识别引擎→引擎返回文本指令。命令解析模块
帮助应用实现实时语音与文本的相互转换 harmonyos
课程简介本课程是【HarmonyOS主题课：HarmonyOSSDK开放能力】的第10课。本课程专为助力应用实现实时语音与文本相互转换而设。课程将深入讲解CoreSpeechKit这一基础语音服务，详细阐述其语音识别（SpeechRecognizer）能力，使开发者能精准掌握语音转文本的技术要点与应用方式。同时全面剖析文本转语音（TextToSpeech）功能，包括其原理、参数设置及优化策略。通过
FunASR语言识别的环境安装、推理山山而川_R FunASR r语言 xcode 开发语言
目录一、环境配置1、创建虚拟环境2、安装环境及pytorch官网：pytorch下载地址3、安装funasr之前，确保已经安装了下面依赖环境:python代码调用（推荐）4、模型下载5、启动funasr服务二、客户端连接2.1html连接三、推理识别模型1、实时语音识别2、非实时语音识别一、环境配置源码地址：FunASRFunASR/README_zh.mdatmain·alibaba-damo-
深度学习模型开发文档 Ares代码行者深度学习
深度学习模型开发文档1.简介2.深度学习模型开发流程3.数据准备3.1数据加载3.2数据可视化4.构建卷积神经网络(CNN)5.模型训练5.1定义损失函数和优化器5.2训练过程6.模型评估与优化6.1模型评估6.2超参数调优7.模型部署8.总结参考资料1.简介深度学习是人工智能的一个分支，利用多层神经网络从数据中提取特征并进行学习。它被广泛应用于图像识别、自然语言处理、语音识别等领域。本文将以构建
AI人工智能深度学习算法：高并发场景下深度学习代理的性能调优 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1深度学习代理的兴起近年来，随着人工智能技术的飞速发展，深度学习在各个领域都取得了显著的成果。特别是在自然语言处理、图像识别、语音识别等领域，深度学习模型的性能已经超越了传统方法。为了更好地将深度学习技术应用于实际场景，深度学习代理应运而生。深度学习代理是一种将深度学习模型封装起来，并提供对外接口的服务。它可以接收来自客户端的请求，将请求数据输入到深度学习模型中进行推理，并将推理结
PyTorch 基础数据集：从理论到实践的深度学习基石那年一路北 Pytorch理论+实践深度学习 pytorch 人工智能
一、引言深度学习作为当今人工智能领域的核心技术，在图像识别、自然语言处理、语音识别等众多领域取得了令人瞩目的成果。而在深度学习的体系中，数据扮演着举足轻重的角色，它是模型训练的基础，如同建筑的基石，决定了模型的性能和泛化能力。PyTorch作为当下最流行的深度学习框架之一，为开发者提供了丰富且强大的工具来处理数据集。本文将深入探讨PyTorch中的基础数据集，从深度学习中数据的重要性出发，详细介绍
傅里叶变换在语音识别中的关键作用从零开始学习人工智能语音识别人工智能
在语音识别中，傅里叶变换起着至关重要的作用，主要体现在以下几个方面：一、时域到频域的转换语音信号的特点语音信号是一种时域信号，它随时间变化。例如，当我们说话时，声带的振动产生声波，这些声波在空气中传播，其振幅随时间不断变化。这种时域信号包含了丰富的信息，如音调、音色等，但这些信息在时域中并不是很容易直接提取。傅里叶变换能够将时域信号转换为频域信号。在频域中，语音信号被分解为不同频率成分的组合。以一
智能家居语音识别模块兢兢业业的打野单片机嵌入式硬件
#include#include"stm32f10x.h"#include"usart.h"#include"user_common.h"#include"SNR1806/snr1806.h"#ifndefNULL#defineNULL0#endifstaticu8gRevDataBuf[30]={0};LD3322Handle_tgs_Ld3322Handle={.bl_rev_cmd_flg=
使用vue3实现语音交互的前端页面 Rverdoser 交互前端
要在Vue3中实现语音交互的前端页面，你可以使用WebSpeechAPI。以下是一个简单的例子，展示了如何在Vue3组件中集成语音识别（speechrecognition）和语音合成（speechsynthesis）功能。首先，确保你的项目中安装了vue3。npminstallvue@next然后，创建一个Vue组件：开始录音开始播放import{ref}from'vue';constSpeech
Java语音识别：开启人机交互的新篇章苏-言语音识别人机交互人工智能
语音识别思路：首先使用工具类开始录音并存储再调用百度语音识别API接口进行语音内容的识别导入依赖：com.alibabafastjson1.2.83com.squareup.okhttp3okhttp4.9.3ws.schildjave-all-deps3.5.0com.baidu.aipjava-sdk4.16.19编写语音合成工具类：/***录音，存储为WAV文件*@authoradmin_7
LLMs，即大型语言模型 maopig AI 语言模型人工智能自然语言处理
LLMs，即大型语言模型，是一类基于深度学习的人工智能模型，它们通过海量的数据和大量的计算资源进行训练，可以理解和生成自然语言。LLMs的核心架构是Transformer，其关键在于自注意力机制，使得模型能够同时对输入的所有位置进行“关注”，从而更好地捕捉长距离的语义依赖关系。LLMs在众多领域都有广泛的应用，如自然语言理解（NLU），语言生成，以及语音识别和合成等。例如，它们能够理解人类的语言
whisper.cpp 学习笔记法号：行颠机器学习 whisper 学习笔记
whisper.cppwhisper.cpp学习笔记whisper介绍源码下载源码编译支持的模型优化/加速生成库文件使用whispe.cpp的demo参考文献whisper.cpp学习笔记whisper介绍whisper是基于OpenAI的自动语音识别（ASR）模型。他可以识别包括英语、普通话等在内多国语言。whisper分为whisper（python版本）和whisper.cpp（C/C++版
神经架构搜索在大模型效率优化中的应用 AI大模型应用之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
神经架构搜索，大模型，效率优化，自动机器学习，深度学习1.背景介绍近年来，深度学习模型取得了令人瞩目的成就，在图像识别、自然语言处理、语音识别等领域展现出强大的能力。然而，随着模型规模的不断扩大，训练和部署这些大模型也带来了巨大的挑战。计算资源消耗巨大:大模型的训练需要大量的计算资源，例如高性能GPU和TPU，这导致训练成本高昂，难以普及。内存占用量大:大模型的参数量庞大，需要大量的内存进行存储和
GPT Notes 3.2.1.2 | 最强GPT解锁会员版无需登录无限制使用星图软件库软件分享 gpt 软件工程
GPTNotes是一款功能强大的AI智能软件，提供无需登录的永久会员体验，满足用户在工作和学习中的各种需求。它支持语音识别，帮助用户轻松撰写文章、解答问题，并具备语音转文字、图片识别等几十种AI功能。打开即享会员特权，不受限使用所有功能，无需特别网络要求，可直接开启悬浮窗口模式，随时提问而不打断工作流，极大提高效率。大小：68.7M下载地址：百度网盘：https://pan.baidu.com/s
语音识别技术有哪些应用场景？不想秃头的程序语音识别人工智能
语音识别技术，作为人工智能领域的重要分支，已经深入到我们日常生活的方方面面。以下是一些常见的应用场景：智能助理智能助理如Siri、GoogleAssistant以及Alexa等，都基于语音识别技术来实现用户交互。用户可以通过语音命令来拨打电话、查询信息、设置提醒等。这些助理软件能够理解多种语言和方言，并能够在复杂的环境噪声中准确识别用户的指令。智能家居在智能家居领域，语音识别被用于控制各种智能设备
微软 Azure AI 服务免费试用及申请：语音识别、文本转语音、基于视觉、语言处理、文档分析等10大场景全云在线allcloudonline microsoft azure 人工智能
为方便企业认识和快速上手AzureAI服务，我们总结了一套包括语音识别、文本转语音、基于视觉、语言处理场景、文档分析场景等全面的预构建模型和演示，旨在解决各种用例。这些模型易于访问，可帮助企业无缝实施AI驱动的解决方案，如下是已整理并编录的AzureAI服务中提供的预构建演示，希望这可以帮助您将AI无缝融入您的产品和服务中。微软AzureAI服务可以合规、稳定地提供企业用户使用ChatGPT的可能
基于人工智能的智能语音助手人工智能发烧友人工智能
语音助手的自然语言处理模块是语音助手系统的关键组成部分。通过这个模块，系统能够识别用户的意图并做出相应的回应。我们可以使用NLP技术来解析文本输入，并将其转换为系统可以理解的命令或指令。在本项目中，我们将结合语音识别、自然语言处理和语音合成技术，构建一个功能简化的语音助手。一、项目背景与需求分析1.1项目目标本项目旨在创建一个语音助手系统，它可以：1.语音识别：从用户的语音输入中提取文本信息。2.
【ShuQiHere】探索人工智能核心：机器学习的奥秘 ShuQiHere 人工智能机器学习
【ShuQiHere】什么是机器学习？机器学习（MachineLearning,ML）是人工智能（ArtificialIntelligence,AI）中最关键的组成部分之一。它使得计算机不仅能够处理数据，还能从数据中学习，从而做出预测和决策。无论是语音识别、自动驾驶还是推荐系统，背后都依赖于机器学习模型。机器学习与传统的编程不同，它不再依赖于人类编写的固定规则，而是通过数据自我改进模型，从而更灵活
机器学习，深度学习，AGI，AI的概念和区别我就是全世界人工智能机器学习深度学习
1.人工智能（AI）的定义与范围1.1AI的基本概念人工智能（AI）是指通过计算机系统模拟人类智能的技术和科学。AI的目标是创建能够执行通常需要人类智能的任务的系统，如视觉识别、语音识别、决策制定和语言翻译。AI的核心在于其能够处理和分析大量数据，从中提取有用的信息，并根据这些信息做出决策或预测。AI的发展可以追溯到20世纪50年代，当时科学家们开始探索如何使机器能够执行复杂的任务。随着计算能力的
Python 实时语音识别 TEDxPY python学习 python资源语音识别 Python人工智能实时语音识别百度语音API
Python实时语音识别语音识别语音识别API语音识别步骤效果展示代码下载最近自己想接触下语音识别，经过一番了解和摸索，实现了对语音识别API的简单调用，正好写文章记录下。目前搜到的帖子里，有现成的调用百度语音API来对音频文件进行识别的；也有通过谷歌语音服务来实现了实时语音识别的。由于我这谷歌语音一直调用不成功，就将二者结合，简单实现了通过百度语音API来进行实时语音识别。语音识别语音识别技术就
深度神经网络详解：原理、架构与应用阿达C 活动 dnn 计算机网络人工智能神经网络机器学习深度学习
深度神经网络（DeepNeuralNetwork，DNN）是机器学习领域中最为重要和广泛应用的技术之一。它模仿人脑神经元的结构，通过多层神经元的连接和训练，能够处理复杂的非线性问题。在图像识别、自然语言处理、语音识别等领域，深度神经网络展示了强大的性能。本文将深入解析深度神经网络的基本原理、常见架构及其实际应用。一、深度神经网络的基本原理1.1神经元和感知器神经元是深度神经网络的基本组成单元。一个
本地搭建 Whisper 语音识别模型实现实时语音识别研究一只老虎人工智能编程开发算法研究 whisper 语音识别人工智能
目录摘要关键词1.引言2.Whisper模型简介3.环境准备4.系统架构与实现4.1模型加载4.2实时音频输入处理4.3实时转录处理4.4程序实现的框架4.5代码实现5.实验与结果6.讨论7.结论参考文献摘要语音识别技术近年来发展迅速，广泛应用于智能家居、智能客服、语音助手等领域。Whisper是由OpenAI开发的一种开源语音识别模型，具有高效的转录能力。本研究旨在探讨如何在本地环境中搭建Whi
如何从0到1本地搭建whisper语音识别模型 MaxCode-1 搭建本地gpt whisper
文章目录环境准备1.系统要求2.安装依赖项1：安装Python和虚拟环境2：安装Whisper3：下载Whisper模型4：进行语音识别5：提高效率和精度6：开发和集成Whisper是OpenAI发布的一个强大的语音识别模型，它可以将语音转换为文本，支持多语言输入，并且可以处理各种音频类型。以下是一个从0到1的本地搭建Whisper模型进行语音识别教程环境准备1.系统要求操作系统：Linux、Ma
FunASR 语音识别系统概述瑞雪兆我心语音识别人工智能
FunASR（AFundamentalEnd-to-EndSpeechRecognitionToolkit）是一个基础的语音识别工具包，提供多种功能，包括语音识别（ASR）、语音端点检测（VAD）、标点恢复（PR）、语言模型（LM）、说话人分离等。项目源地址1语音识别（ASR）参考语音交互：聊聊语音识别-ASR（万字长文）语音识别技术（AutomaticSpeechRecognition,ASR）
使用PyTorch实现的DeepSpeech模型: 强大的语音识别利器毕艾琳
使用PyTorch实现的DeepSpeech模型:强大的语音识别利器deepspeech.pytorchSpeechRecognitionusingDeepSpeech2.项目地址:https://gitcode.com/gh_mirrors/de/deepspeech.pytorch在今天的数字化世界中，语音识别技术已成为人机交互的关键组成部分。deepspeech.pytorch是一个由Sea
使用matlab的热门问题七十二五值得关注 matlab 开发语言青少年编程算法经验分享
MATLAB广泛应用于科学计算、数据分析、信号处理、图像处理、机器学习等多个领域，因此热门问题也涵盖了这些方面。以下是一些可能被认为当前最热门的MATLAB问题：深度学习与神经网络：如何使用MATLAB的深度学习工具箱（DeepLearningToolbox）来构建和训练神经网络？如何利用MATLAB进行图像识别、语音识别或自然语言处理等深度学习应用？数据分析与可视化：如何使用MATLAB进行大数
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end