长歌承闲

【数字视音频处理】复习笔记 (。・∀・)ノ゛

============ 语音部分 ============

· 语音技术引言

语音链：
发音-传递-感知

-
语音产生数字模型（公式要求理解）

-
重要假设：
语音根据声带是否振动分为两类

· 语音分析

时域分析：
直接对语音的时域波形进行分析。简单直观，清晰易懂，运算量小，物理意义明确。但很难反映语音感知特性，且易受环境变化影响
主要参数有：音量，过零率，音高/基音周期
-
频域分析：
将语音的时域波形转换到频域进行分析。具有明显的物理意义和声学特性，且不易受环境变化影响
主要参数有：共振峰，音高/基音周期，梅尔倒谱系数MFCC，线性预测倒谱系数LPCC
-
音量：代表声音的强度，又称力度，强度或能量，可由一帧内的语音采样点振幅大小来类比。有两种计算方式：

特点：
1. 一般而言，浊音的音量大于清音，清音的音量又大于噪音
2. 是一个相对性的指标，受到麦克风的设定的影响很大
3. 通常用在端点检测，检测浊音的声母或韵母的开始及结束位置
4. 在计算前最好先减去语音信号的平均值，避免语音的直流偏移导致的误差
-
过零率：
指一个短时帧内，离散采样信号值由正到负和由负到正变化的次数，这个量大概能够反映信号在短时帧内的平均频率
-
端点检测：
目标是检测语音开始和结束的位置。端点检测出错会在语音识别上造成不良后果：
False Rejection：
将Speech误认为Silence/Noise，造成语音识别率下降
False Acceptance：
将Silence/Noise误认为Speech，造成语音识别率下降
算法流程：
1. 计算信号前100毫秒的能量与过零率的均值与方差（假设这段时间里没有语音）
2. 寻找整段录音中最大的能量值
3. 根据步骤1和2确定能量阈值，如选取整个语音区间的一些百分比的峰值，基于清音的过零率分布确定过零率的阈值
4. 寻找一个超过高阈值ITU的能量区间En
5. 在En从下穿过ITL的地方找到一个假定存在的起始点N1，在En从上穿过ITL的地方找到一个假定存在的终止点N2
6. 通过比较Zn和IZCT往回移动N1，找到Zn超过IZCT的第一个点，相似地，往后移动N2，找到Zn超过IZCT的最后一个点
简易理解版本：
先通过能量找到浊音（一般的发声规律是清音 - 浊音 - 清音），从浊音向外扩展找到清音边缘（清音通过过零率检测）。发清音时，会出现过零率递增，结束后会出现过零率递减
-
蛤？

· 语音识别

语音识别的性能评价：

特征参数：
静态参数：MFCC （Mel-Frequency Cepstrum Coefficients）
Mel频率的目的：模拟人耳对不同频率语音的感知
人类对不同频率语音有不同的感知能力：

Mel频率的定义：

MFCC的计算流程：

DFT离散傅里叶变换：从时域信号变成频域信号
Mel-频率变换：将频率变换为Mel-频率
对数能量：应用：对噪音和谱估计误差有更好的鲁棒性
倒谱参数：离散傅里叶变换（倒谱维数：前12维）
帧能量
倒谱均值归一化CMN：目的是消除信道带来的影响，应用：T通常为整个词的特征帧数
-
语音识别模型：
动态时间规整 DTW
矢量量化 VQ
隐马尔科夫模型 HMM
神经网络 TDNN
模糊逻辑算法
-
语音识别模式匹配的问题：时间校准，即解决同一个人在不同时刻说同一句话，发同一个音的时间长度不同的问题。方法一是线性时间规整，即依赖于端点检测，对整个语音均匀地伸长或缩短，但这样无法精确对准，因此有了
动态时间规整 DTW：
将时间规整与距离测度结合起来，采用优化技术，以最优匹配为目标，寻找最优的时间规整函数w(i)，从而实现大小(长短)不同的模式的比较
适用场合：特定人，基元较少的场合，多用于孤立词识别
问题：运算量较大，过分依赖端点检测，太依赖于说话人原来的发音，不能对样本进行动态训练，没有充分利用语音信号的时序动态特性
-
VQ就是将某一区域内的矢量归位某一类
矢量量化的基本要素：聚类和量化



-
一阶马尔科夫假设：当前状态qt只与前面相邻的一个状态qt-1有关，与其它状态无关

马尔科夫链：

MM->HMM：
HMM根据观察输出函数是基于VQ，连续密度还是二者的综合，又分为DHMM（离散），CDHMM（连续密度），SCHMM（半连续）

HMM的三个基本问题：

两个基本假定：
1. 当前状态只与前一状态有关
2. 当前状态下的输出只与当前状态有关
总结：
HMM是描述说话人发音的统计模型，高斯混合密度分布刻画了语音状态（如音素）以及语音状态之间的时序变迁的统计规律
基本算法：
评估：给定观测向量Y和模型，利用前向后相算法计算得分
匹配：给定观测向量Y，用Viterbi算法确定一个优化的状态序列
训练：用Baum-Welch算法重新估计参数，使得分最大

· 说话人识别

？？讲了啥啊？？？

============ 音乐部分 ============

· 音乐基本要素：
音高：
指各种不同高低的声音，由发音体的振动频率决定
音强：
即音的强弱（响亮）程度，由发音时发音体振幅大小决定
音长：
指声音的长短，由发音体的振动时间决定
音色：
即声音的感觉特性，由发音体所产生的谐波决定。发音物体的性质，形状不同，所产生的的谐波也不同，因而音色也不同

· 音乐的表示

音乐的音乐领域表示：
乐谱（五线谱）
音乐的计算机表示：
1. 乐谱版面描述语言：
用于编辑，排版乐谱的人（如MuTex）
2. 数字音乐接口（MIDI）：
用于电子设备，是一种发声指令而不是具体音频信号
3. 音频信号表示（PCM/MP3）

· 音乐合成的流程：

作曲作词 - 编曲 - 录音 - 混音

· 音乐合成主要技术：

软件编辑：
Overture，SONAR，Au
语言编程：
OpenAL（跨平台音效制作）
Nyquist（LISP语言）
Matlab
Flash Action Script

· 音乐分析：探究音乐喷泉，蓝巨星的原理

· 音乐的表现形式：

节奏：
节奏是指组织起来的音的长短关系，音乐的骨架。节拍是指时值相等的强拍和弱拍有规律地交替出现
旋律：
旋律是指长短，高低，强弱不同的一连串乐音有组织地进行。旋律又是曲调，它是音乐的基础和灵魂
和声：
和声包括“和弦”和“和声进行”。和弦通常是由三个或三个以上的乐音按一定的法则纵向（同时）重叠而形成的音响组合。和弦的横向组织就是和声进行

· 音乐分析-节奏识别：

一般的节奏识别框架：

节奏检测：中科院声学所的节奏识别框架：

· 节奏识别-节奏特征提取：

时域分析
频域分析

· 音乐分析-旋律识别：

音准评分：
1. 旋律评分：
求取演唱者演唱旋律，并与歌曲原旋律对比，匹配越好给分越高
2. 抢拍与慢拍：
分析演唱者抢拍与慢拍情况，并酌情给予减分
3. 节奏分析：
分析演唱者的节奏感是否与歌曲的节奏一致，节奏感越好给分越多
4. 演唱情绪分析：
分析演唱者演唱的情绪，如果演唱者演唱的情绪与歌曲的意境相符，会有相应的加分
5. 声音圆润饱满度：
分析演唱者演唱的声音是否圆润，是否饱满，越圆润越饱满给分越多
6. 语音识别：
分析演唱者演唱的歌词是否与歌曲的歌词相符，错误率越少给分越多

· 音乐分析-音乐检索：

乐纹样例检索：
乐纹：
可以代表一段音乐重要声学特征的基于内容的紧致数字签名
乐纹的主要特性：
鲁棒性：在经受比较严重的音频信号处理后仍能被识别出来
区分性：不同歌曲之间的指纹有较大的差异，而同一音乐的不同版本之间指纹有较小差异
乐纹索引：
通过特征点对索引技术构建乐纹库

· 音乐检索-哼唱检索
哼唱检索-系统框架：

人声中旋律抽取 - 形成音高序列 - 与库做匹配 - 输出结果

中科院声学所旋律检索用的框架：

· 旋律表示：三层表示

· 音乐检索-哼唱检索

旋律特征提取：
基频提取，音符切分，轮廓点提取

============ 视频部分 ============
· 基本概念

镜头检测：给定一个包含N个镜头的视屏V，找出每个镜头开始和结束的位置
镜头过渡的四种分类：
硬边界Hard cuts：迅速的场景变换
消隐Fades：淡入淡出
溶解Dissolves：前一个淡出同时后一个淡入
擦除Wipe：一条线在屏幕上移动，另一个场景跟着线移动
-
镜头边缘检测算法的实质及核心问题：
如何找到一种或几种良好视频图像特征，通过判断相邻图像帧之间的特征是否发生了剧烈变化来检测镜头边缘
首先需要定义特征
然后需要基于这样的特征来定义相似度函数
几个关键问题：
自适应阈值
渐变镜头数学模型
算法：
绝对帧间差法
图像像素差法
图像数值差法
颜色直方图法
压缩域差法
矩不变量法
边界跟踪法
运动矢量法
-
镜头，关键帧，场景，组：
帧：视频流中的基本组成单元，是独立图像。视频流数据就是由连续图像帧构成的
镜头：视频流数据中最小的物理数据单元。是摄像机拍下的不间断帧序列，是视频流数据进一步结构化的基础结构层。属于同一组镜头的图像帧之间特征保持稳定
关键帧：关键帧是可以用来代表镜头内容的图像，用来表示各镜头的特征，进行进一步的结构化。为什么要提取关键帧：视频流的图像帧之间存在时间和空间冗余度。可以通过关键帧来建立索引，方便查询视频内容
场景：语义上相关和时间上相邻的若干组镜头组成了一个场景。场景是视频所蕴含的高层抽象概念和语义的表达，可以用属于这个场景的若干镜头对应的关键帧来表示
组：介于物理镜头和语义场景之间的结构
镜头切分 - 相似镜头成组 - 镜头组与镜头组之间的联系

-
视频目录生成构造：
分为基于预定模型构造和基于通用模型构造。前者需要领域知识，后者基于普遍规律
步骤：
1. 镜头边缘检测
2. 关键帧提取
3. 时空特征提取（定义镜头特征）：镜头可以表示成包含时间，空间信息的五元组
4. 时间可适性成组

5. 场景结构构造
-
镜头空间特征和时间特征的区别：
时间特征是基于镜头中的所有帧得到的
空间特征是基于镜头中的关键帧得到的
如何匹配镜头之间的相似度：
镜头相似的概念：
视觉相似性：具有相似的空间特征
时间局部性：相似镜头在时间上会尽可能接近
注意：这里仅仅使用关键帧来代表镜头，即使镜头里面还有其他图像帧；相似镜头属于同一个组；通常状况下可以使用每个镜头的聚类质心之间的距离来描述两个镜头之间的相似性
方法：
1. 先计算镜头间的颜色相似度。1减去直方图交，值越小相似度越大

2. 引入一个时间引力，帧在时间上的距离越远，时间引力就越小
3. 两个值相乘，取最大值 ↓

4. 定义运动相似度：

5. 总相似度：颜色相似度和运动相似度按权重相加

· 视频压缩

为什么需要视频压缩？
不压缩的视频数据量很大，且在时间，空间，颜色上有冗余
视频压缩的流程？

有损压缩和无损压缩
有损压缩：压缩后的数据相对原始数据发生变化，但是非常接近。相比无损压缩，有更高的压缩率
YUV色彩模型
人眼对亮度变化更敏感
Y表示明亮度，也就是灰阶值；U和V表示的是色度，作用是描述影像色彩及饱和度，用于指定像素的颜色
YUV色彩模型来源于RGB模型，特点是将亮度和色度分离开，从而适合于图像处理领域
压缩中量化的概念和方法
量化：把无穷连续的幅值变成有限离散的幅值，量化的bits越多，则表示数据的精度越高。这是模拟到数字的量化过程，无穷到有限的过程。这个量化也即把无穷的数据压缩成有限的数据，得以保存模拟信号
量化在有损数据的压缩中起着相当重要的作用。很多情况下，量化可以被当做将有损数据压缩同无损数据压缩相区别的标志之一，量化的目的通常是为了减少数据量
量化表的使用方法
因为人眼对亮度的感知高于色度，JPEG压缩时使用了两个量化表 - 色度量化表和亮度量化表
视频数据在时序上的压缩方法有哪些？
1. 差分编码：检测相应的像素和区域的位移
2. 运动补偿：
基本思想：有很多运动的图像序列由一个或多个动态的前景和一个静态的背景组成，我们用JPEG的方式编码第一帧，用这一帧作为参考帧，逐块检测第二张图片，比较参考图像中的每一块，对于每一个在参考图中有相同块的块，we only send a special code instead of whole code。对于其他块我们照常编码
主要步骤：
运动估计（运动向量搜索）
基于运动补偿的预测
预测错误的残差（derivation of the prediction error）
视频压缩中的I，B，P帧的定义，区别，特点：
I帧是靠尽可能去除图像空间冗余信息来压缩传输数据量的帧内编码图像，被当做独立的图片。对于I帧，用类似JPEG的方法压缩，I帧只解决了空间冗余问题
P帧表示的是这一帧跟之前一个关键帧（或P帧）的差别，解码时要用之前缓存的画面叠加上本帧定义的差别来生成最终画面（也就是差别帧，P帧没有完整画面数据，只有与前一帧的差别数据）。时间冗余信息的剔除是包含在对P帧的压缩上
B帧是双向差别帧，记录的是本帧与前后帧的差别（具体情况比较复杂，有四种情况）。换言之，要解码B帧，不仅要取得之前的缓存画面，还需要解码之后的画面，通过前后画面与本帧数据叠加来取得最终画面。B帧压缩率高，但解码时CPU会比较累
一般来说，I的压缩率最低，B最高。可以使用B来节省大量空间，节省出来的空间可以用来多保存一些帧，这样在相同码率下可以提供更好的画质
-
MPEG2的可扩展性：
可伸缩编码：base layer提供基本信息，enhancement layer提供更好的细节

1. SNR可扩展性：加强层提供了更高的SNR
2. 空间可扩展性：可以生成不同分辨率的图片（就是可以传给你低清视频）
3. 时间可扩展性：支持更高的帧率（可以把帧拆开放）
4. Hybrid可扩展性：可以组合任意两种或更多种可扩展性
5. Data Partitioning：把DCT系数分成不同的部分，比如低频一部分高频一部分，方便在噪声信道上传播

· 需要知道细节的算法：

镜头边缘检测算法：
1. 绝对帧间差法：判断相邻图像帧之间的特征的绝对差是否大
计算相邻两个图像帧中所有像素的色彩亮度之和，两帧的差别就定义为各自对应的像素亮度差之和
2. 图像像素差法：判断相邻图像中像素点发生变化的有多少
首先统计两幅图像中对应像素变化超过阈值的像素点的个数，然后，将变化的像素点个数与第二个预定的阈值比较，如超过范围则认为这两帧中发生了较大变化
3. 图象数值差法
将图像分成若干块子区域，然后在这些区域中分别比较对应像素数值上的差别
4. 颜色直方图法
相同的直方图相似度为1，越不相似值越小
5. 双阈值法
双阈值采用两个阈值，Tb，类似于普通判断镜头切分的阈值，Ts，较低的阈值，用以判断特殊效果，采用简单的直方图差法来判断相邻帧的差别（直方图的差之和）
如果差别大于Tb，则认为是镜头切分点，在Tb和Ts之间的，标注为可能的渐变的开端，然后该帧和后续帧比较（称为累计比较），渐变的过程中，累计比较差会逐渐增加，如果帧间差减少到小于Ts，而累计差超过Tb，为渐变的结束。
如果相邻帧差低于Ts，而累计差还低于Tb，就放弃渐变开始点，寻找下一个可能的渐变。
关键：同时满足两个不同的阈值条件，不仅识别普通的镜头突变，也能识别渐变
6.压缩域差法
不对图像解压，而是直接用JPEG压缩图像帧的DCT系数作为帧相似度的衡量标准。
好处是直接从原始视频数据流中提取特征，从而加快检测速度。由于使用压缩域对视频进行编码，每个压缩域系数保留了原始图像帧中或图像帧间最重要特性，所以压缩域系数可以有效分析视频数据
-
渐变镜头的数学模型：

灰度均值：

灰度方差：

-
关键帧提取算法：
1. 基于镜头边界法
将切分得到的镜头中的第一幅图像和最后一幅图像作为镜头关键帧
2. 基于颜色特征法
（先随机选一个关键帧，比如说第一帧）镜头当前帧与最后一个判断为关键帧的图像，如有较多特征发生改变，则当前帧为新的关键帧
3. 基于运动分析法
摄像机运动造成图像变化。分为两类：
由相机焦距变化造成 - 选择首位两帧为关键帧
由相机角度变化造成 - 如当前帧与上一关键帧重叠小于30%则选为关键帧
4. 基于聚类的关键帧提取
K-means，聚类质心作为关键帧

-
镜头的时间特征如何定义（一种方法）：
直方图的交

镜头的空间特征如何定义（一种方法）：

-
离散信源的熵定义：

霍夫曼编码的具体方法：

Run-length编码：
网上的：

PPT上的：（这应该是计算前面有多少个0吧……）

-
运动补偿中子块之间匹配的具体方法（一种方法）：

简易理解法：把大的图像下采样变小，然后顺序搜索，找到块以后再放大更精细地找
-
如何利用YUV色彩模型压缩视频数据：
人类视觉系统对于亮度更加敏感，对于色度采用比亮度低的分辨率进行采样是一种简单而有效的压缩方式
UV可以下采样

· 大致理解流程的算法

视频目录构造的基本流程：
镜头边缘检测 - 关键帧提取 - 时空特征提取 - 时间可适性成组 - 场景结构构造
时间可适性成组：组里包含了相似的镜头：
1. 先计算镜头间的颜色相似度
2. 再计算镜头间的运动相似度
3. 最后计算总相似度
-
时间时序结构图构造的主要步骤

1. 视频解码
2. 视频切分
3. 关键帧提取
4. 视频聚类分析
5. 构造时序图
6. 按照时序图浏览
-
静态图像压缩JPEG方法基本流程：

-
给出一种简单的视频压缩方案：
YUV色彩空间压缩？
I帧使用JPEG式编码？
P帧做差量化游程编码？运动补偿？
-
视频数据空间压缩的方法：
I帧使用JPEG式编码？
其它帧做差编码压缩？
-
运动补偿方法的步骤：
1. 计算运动向量
2. 计算视频之间的残差
3. 对残差进行编码传输

怎么下载网页的视频 666z 音视频
内容来自b站痕继痕迹博主，本人只是部分总结（），有些未整，因为感觉不好用1.用网站-Parsevideo网址:https://pv.vlogdownloader.com/在不登录的情况下可以解析5条网站，登录了是10条-硕鼠网址:http://www.flvcd.com/-视频鱼网址:http://shipinyu.com/可以完全免费使用如果有很想下载却下载不了的视频，可以人工付费下载-一个国外
跨语言语义理解与生成：多语言预训练方法及一致性优化策略网罗开发 AI 大模型人工智能深度学习负载均衡
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
运用先进的智能算法和优化模型，进行科学合理调度的智慧园区开源了 AI服务老曹开源人工智能安全运维音视频
智慧园区场景视频监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒，省去繁琐重复的适配流程，实现芯片、算法、应用的全流程组合，从而大大减少企业级应用约95%的开发成本。充分利用现有的摄像头设备，无需大规模更换，降低成本同时提升系统的实施效率。用户只需在界面上进行简单的操作，就可以实现全视频的接入及布控。项目搭建地址基础项目搭建地址：本项目基于AI场
GO语言并发编程之channel 新青年579 golang 数据库后端
前言入职公司三四个月，本质上做的都是CMS(内容系统管理)的内容，这类系统一般用于创建、管理和发布内容，通常包括但不限于文本、图像、视频等。，但是内容管理系统的读取操作可能相对较多，但更新、发布内容、审核等操作的频率较低，因此在大部分时间内并不会造成高并发压力。但是我们以后肯定会接触到高并发场景的业务的，我们先对GO语言中的channel有一个了解吧。Channel是什么？Channel（通道）是
《Cell》期刊作者提交指南 TigerZ 生信宝库科研技能程序人生
❝写在前面在投稿论文前，阅读目标期刊的政策要求是非常必要的。本文为《Cell》期刊提供给作者的提交指南，包含了提交论文的相关信息和政策要求。本着自己学习、分享他人的态度，分享学习笔记，希望能对大家有所帮助。目录1期刊介绍（Aboutthejournal）2编辑评估时间表（Editorialevaluationtimeline）3CellPress期刊之间的关系（Relationshipbetwee
DeepSpeed Chat大模型训练【训练类ChatGPT 的大模型】 u013250861 #LLM/训练人工智能深度学习
第1章：DeepSpeed-Chat模型训练实战本章内容介绍如何使用微软最新发布的DeepSpeedChat来训练类ChatGPT的大模型。通过本章内容，你将了解：DS-Chat是什么？如何准备运行环境ChatGPT训练的基本知识DS-Chat的使用方法【观看视频解说】1DeepSpeed-Chat是什么？【观看视频解说】DeepSpeed-Chat是微软最新公布的一套工具，用于训练类ChatGP
鸿蒙初学者学习手册(HarmonyOSNext_API14)_组件截图（@ohos.arkui.componentSnapshot (组件截图) ）余多多_zZ harmonyos 学习华为鸿蒙鸿蒙系统
前言：这个模块可以截取组件的图片，无论组件是否已加载。截图只能拍到组件本身的大小区域。如果组件或其子组件画得超出了自己的区域，超出的部分不会出现在截图中。截图不会拍到与当前组件平级的（兄弟）组件。模块简介和注意：-XComponent场景建议：如果你正在开发一个视频播放器，应该直接从视频画面获取图片，而不是使用组件的截图功能。-组件截图注意事项：如果有一个按钮，但按钮周围有空白，截图时会显示这些空
HarmonyOS Next智能语音助手的语音合成与模型优化实战 harmonyos
本文旨在深入探讨基于华为鸿蒙HarmonyOSNext系统（截止目前API12）构建智能语音助手过程中语音合成与模型优化技术的实战应用，基于实际开发经验进行总结。主要作为技术分享与交流载体，难免错漏，欢迎各位同仁提出宝贵意见和问题，以便共同进步。本文为原创内容，任何形式的转载必须注明出处及原作者。一、语音助手功能需求与架构规划（一）功能需求梳理语音指令识别需求智能语音助手需要准确识别用户的语音指令
C语言结构体学习笔记 BUG 劝退师 c语言 c语言学习笔记
C语言结构体学习笔记目录结构体基本概念结构体变量定义结构体初始化结构体数组结构体指针共用体枚举类型typedef自定义类型总结结构体基本概念1.什么是结构体？结构体：一种用户自定义的数据类型，用于将多个不同类型的变量组合成一个整体。用途：表示复杂数据（如学生信息：学号、姓名、成绩等）。2.结构体定义struct结构体名{数据类型成员1;数据类型成员2;//可以嵌套结构体struct子结构体名子成员
video标签获取视频某一帧用来当作封面外派叙利亚音视频 java 前端
//1000代表视频的第1000帧
微信扫二维码挪车小程序开发制作功能 dh13122250525 微信小程序
微信扫二维码挪车小程序开发制作功能微信扫码挪车是一种全新的挪车服务，实现“微信扫码，隐号通话”。用户只需要通过微信扫描对方车主置于车内的挪车码，即可通过匿名电话和短信联络对方车主挪车，同时对双方的电话信息进行有效的保护。扫一下挪车，二维码代替了电话号码，只需要用手机扫描二维码，即可直接联系到车主挪车，在整个过程中，不需要知道车主联系电话或其他任何联系方式，平台会以微信、短信、语音通话等方式通知车主
探索AI音乐创作的未来：八款顶尖AI音乐生成工具（本期介绍国外-国内另外专题介绍）带娃的IT创业者 AIGC 程序员创富人工智能音视频 ai
探索AI音乐创作的未来：八款顶尖AI音乐生成工具（本期介绍国外-国内另外专题介绍）在科技飞速发展的今天，人工智能（AI）已经渗透到我们生活的方方面面，其中音乐创作也不例外。AI音乐生成工具不仅为专业音乐人提供了新的创作方式，也让普通人能够轻松创作出高质量的音乐作品。本文将介绍八款知名的AI音乐生成工具，帮助你了解它们的特点和优势。1.SunoSuno是一款AI驱动的音乐生成器，能够快速创建高质量的
“傻瓜”学计量——主成分分析法PCA（原理+实操） nn坚持学stata+matlab 计量算法机器学习人工智能学习笔记学习方法经验分享
提纲：1.PCA原理2.视频推荐：PCA原理spass操作stata操作+matlab实操1.背景在一些领域中，需要对大量数据进行观测。但是可能会带来变量之间具有相关性、分别对每个指标分析带来的偏误等问题。因此，要寻找一个合理的方法，在减少需要分析的直白的同时，尽量减少原指标包含的信息缺失。通常做法是对有关联性的变量进行合并，这样就可以用较少的综合指标分别代表存在于各个变量中的各类信息。常用的方法
python 自动化数据提取之正则表达式_python 正则提取(2) m0_60607245 程序员 python 学习面试
一、Python所有方向的学习路线Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。二、Python必备开发工具工具都帮大家整理好了，安装就可直接上手！三、最新Python学习笔记当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理
Mysql学习笔记-Mysql基础进阶少年无为 Mysql Mysql 数据库多表查询数据库备份 Mysql查询
#知识点1.DQL:查询语句1.排序查询2.聚合函数3.分组查询4.分页查询2.约束3.多表之间的关系4.范式5.数据库的备份和还原#DQL:查询语句1.排序查询*语法：orderby子句*orderby排序字段1排序方式1，排序字段2排序方式2...*排序方式：*ASC：升序，默认的。*DESC：降序。*注意：*如果有多个排序条件，则当前边的条件值一样时，才会判断第二条件。2.聚合函数：将一列数
嵌入式学习DAY28 --- 线程、同步和互斥问题、如何实现同步和互斥？楼台的春风嵌入式学习多线程 c语言嵌入式 linux ubuntu
嵌入式入门学习笔记，遇到的问题以及心得体会！DAY28概述：一、线程二、同步和互斥问题三、如何实现同步四、如何实现互斥笔记：一、线程1、什么是线程：（1）线程是轻量级的进程（2）线程存在于进程内，不能独立存在（3）线程参与CPU调度，进程是系统资源分配最小单位，线程是系统调度的最小单位（4）在单核CPU中，多线程并发属于伪并发，但是不牵扯虚拟地址空间的切换，所以开销比进程间切换要小很多（5）在多核
spring boot基于知识图谱的阿克苏市旅游管理系统python-计算机毕业设计 QQ1963288475 spring boot 知识图谱旅游 python vue.js django flask
目录功能和技术介绍具体实现截图开发核心技术：开发环境开发步骤编译运行核心代码部分展示系统设计详细视频演示可行性论证软件测试源码获取功能和技术介绍该系统基于浏览器的方式进行访问，采用springboot集成快速开发框架，前端使用vue方式，基于es5的语法，开发工具IntelliJIDEAx64，因为该开发工具，内嵌了Tomcat服务运行机制，可不用单独下载Tomcatserver服务器。由于考虑到
接入DeepSeek后，智慧园区安全调度系统的全面提升 Guheyunyi 安全数据分析 python 智慧城市人工智能信息可视化
随着人工智能技术的快速发展，智慧园区的安全管理正逐步向智能化、自动化方向迈进。DeepSeek作为先进的人工智能解决方案，为智慧园区安全调度系统注入了强大的技术动力。通过接入DeepSeek，智慧园区安全调度系统在多个方面实现了显著提升，进一步增强了园区的安全性、管理效率和用户体验。1.智能化监控：从被动到主动传统的监控系统主要依赖人工查看视频画面，容易出现漏检或误判。接入DeepSeek后，智慧
《揭秘AI语音助手：从“听”到“说”的智能之旅》人工智能深度学习
在当今数字化时代，AI语音助手已成为我们生活和工作中的得力伙伴。无论是苹果的Siri、亚马逊的Alexa，还是国内的小爱同学、小度等，它们能轻松执行指令，如查询天气、播放音乐，甚至陪我们聊天解闷。但你是否想过，这些语音助手是如何听懂我们的话语，又如何给出恰当回应的呢？今天，就让我们深入探索AI语音助手背后的技术原理。自动语音识别（ASR）：让机器“听懂”人类语言自动语音识别（AutomaticSp
FakeApp 技术浅析（一）爱研究的小牛 AIGC—深度伪造虚拟现实人工智能 AIGC 深度学习机器学习
FakeApp是一款早期的深度伪造（Deepfake）工具，最初于2018年发布，用于生成和编辑换脸视频。尽管FakeApp已经不再更新，但它在深度伪造技术的发展中起到了重要作用。1.技术背景与理论基础1.1生成对抗网络（GANs）生成对抗网络（GANs）是深度学习领域中的一种重要模型，由生成器（Generator）和判别器（Discriminator）组成。生成器负责生成逼真的数据（如图像、视频
探索单片机世界的音乐之旅 —— 51单片机简易电子琴项目解析蔡松宽
探索单片机世界的音乐之旅——51单片机简易电子琴项目解析电子琴.rar项目地址:https://gitcode.com/open-source-toolkit/67c65项目概况：旋律与科技的融合在浩瀚的电子海洋里，51单片机始终是那座引领初学者进入嵌入式开发殿堂的桥梁。51单片机实战之简易电子琴项目，正是专为此而生的一盏明灯。它不仅是技术实践的绝佳示例，更是每一位电子爱好者发掘硬件音乐潜能的钥匙
嵌入式音视频开发（二）ffmpeg音视频同步云雨歇音视频 ffmpeg
系列文章目录嵌入式音视频开发（零）移植ffmpeg及推流测试嵌入式音视频开发（一）ffmpeg框架及内核解析嵌入式音视频开发（二）ffmpeg音视频同步嵌入式音视频开发（三）直播协议及编码器文章目录系列文章目录前言一、音视频同步1.1基础概念1.2三种同步方法二、音视频同步的实现2.1时间基的转换问题2.2音频为基准2.2.1实现思路2.2.2代码大纲2.3外部时钟同步2.3.1实现思路2.3.2
国内大厂面试一般流程——扫盲 weixin_49526058 面试职场和发展
中国大型互联网企业的面试流程通常分为若干轮，具体轮数和考察内容可能因公司、岗位及招聘需求有所不同，但一般来说，大致可以分为以下几轮：1.简历筛选考察内容：主要看简历是否符合岗位要求，关注工作经历、项目经验、技术栈、学历背景等。如果简历突出，通常会进入下一轮面试。2.电话/视频初面（HR面）考察内容：HR面试主要是了解你的基本情况、动机和软技能。一般会问一些关于简历的问题，了解你对公司的了解、为什么
深度学习之目标检测的常用标注工具铭瑾熙人工智能机器学习深度学习深度学习目标检测目标跟踪
1LabelImgLabelImg是一款开源的图像标注工具，标签可用于分类和目标检测，它是用Python编写的，并使用Qt作为其图形界面，简单好用。注释以PASCALVOC格式保存为XML文件，这是ImageNet使用的格式。此外，它还支持COCO数据集格式。2labelmelabelme是一款开源的图像/视频标注工具，标签可用于目标检测、分割和分类。灵感是来自于MIT开源的一款标注工具Label
RealtimeSTT：实时语音转文本的开源神器，轻松实现高效语音处理 AI云极【开源系列】语音识别开源
在语音技术飞速发展的时代，实时语音转文本（Speech-to-Text，简称STT）技术已逐渐成为语音助手、在线会议记录、字幕生成等应用的核心功能。今天要为大家推荐的是一款开源的实时语音转文本工具——RealtimeSTT，它功能强大且易于集成，为开发者提供了快速构建实时语音处理应用的能力。项目地址：GitHub-RealtimeSTT一、什么是RealtimeSTT？RealtimeSTT是一款
TK群发器：提升TikTok营销效率的智能工具 @ V:ZwaitY09 矩阵 tiktok
随着短视频平台TikTok的快速发展，许多企业和内容创作者都将其作为重要的营销渠道。但随着平台的竞争加剧，如何高效管理多个账号、提升曝光度和互动率，成为了营销者的一大挑战。为了解决这一问题，TK群发器应运而生。它通过智能化的操作方式，帮助用户精准高效地进行多账号管理和内容群发，极大提高了营销效率。TK群发器的主要功能：多账号精准群发：TK群发器支持同时管理多个TikTok账号，用户可以通过该工具实
侯捷 C++ 课程学习笔记：C++ 面向对象开发的艺术孤寂大仙v c++c++学习笔记
在侯捷老师的C++系列课程中，《C++面向对象开发》这门课程让我对面向对象编程有了更深入的理解。面向对象编程（OOP）是现代软件开发中最重要的编程范式之一，而C++作为支持OOP的语言，提供了强大的工具和特性。侯捷老师通过系统的讲解和实战案例，帮助我掌握了如何在C++中高效地使用面向对象技术。以下是我对这门课程的学习笔记和心得体会。一、课程核心内容：C++面向对象开发的关键特性![侯捷老师的课程详
语聊房软件开发流程与基础功能 ALLSectorSorft java html5 javascript
开发一款语聊房软件需要系统的规划和多领域技术整合。以下是关键流程、基础功能及示例代码：---一、开发流程1.需求分析-明确目标用户（社交/游戏/教育）-竞品分析（Clubhouse/Discord/狼人杀）-核心功能优先级排序2.技术选型-实时语音：声网Agora（推荐）/腾讯云TRTC/WebRTC-即时通讯：Socket.io/Sendbird/Firebase-后端框架：Node.js/Sp
J-Link系列下载器的烧录问题彻底解决 1zero10 单片机单片机
1.确保成功安装好keil5方法:按照此链接中课程1.1准备安装环境进行操作【铁头山羊stm32入门教程【新版】-哔哩哔哩】https://b23.tv/wb5XUGo2.安装J-link驱动2-1从jlink官网下载最新版本驱动2-2按照此链接视频中jlink对应部分进行操作【STM32常用程序烧录方法，KeilIDE，ST-Link，Jlink-OB，DAPLink，串口（Uart）-哔哩哔哩
鸢尾花分类项目 GUI 编织幻境的妖分类数据挖掘人工智能
1.机器学习的定义机器学习是一门人工智能的分支，专注于开发算法和统计模型，使计算机能够在没有明确编程的情况下从数据中自动学习和改进。通过识别数据中的模式和规律，机器学习系统可以做出预测或决策。常见的应用包括图像识别、语音识别、推荐系统等。2.为什么使用鸢尾花数据集（Irisdataset）鸢尾花数据集是一个经典的多类分类问题数据集，由英国统计学家和遗传学家RonaldFisher在1936年引入。
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key

【数字视音频处理】复习笔记 (。・∀・)ノ゛

你可能感兴趣的:(语音,视频,音乐,学习笔记)