XIao_MinK

音乐处理原理第一章：音乐表示

标题

乐谱表示
符号表示
- MIDI表示
- 计分表示
- 光学音乐识别
音频表示
- 波和波形
- 频率和音调
- 动态、强度和响度
- 音色
总结
一些习题

Fundamentals of Music Processing Audio, Analysis, Algorithms, Applications. Meinard Müller 学习笔记

乐谱表示

符号表示

MIDI表示

模拟按击电子琴状态：每一次按键可以用音符编号，key velocity，通道和时间戳表示。

midi音调pitch编号note number：0 ~ 127的数，总共128个音调，表示 $\mathrm{C^-1 \sim G^{\#}9}$ 之间音调。
key velocity：0 ~ 127的整数，决定音量大小或声音衰减速度
通道channel：0 ~ 15的整数，音声通道
时间戳timestamp：一个整数，表示要等待多少个时钟脉冲数/滴答数。

MIDI把四分之一音符划分成若干个时钟脉冲数/滴答数，个数记作PPQN(pulses per quarter note, 或者TPQN, ticks per quarter note, 或PPQ, TPQ)。每一MIDI文件头部都要设置PPQN作为接下来MIDI序列计算timestamp标准。PPQN 默认为120，即一个四分之一音符为120个时钟脉冲/滴答数。
MIDI也可以设置一个绝对时间的四分之一音符。例如可以设置0.6秒一个四分之一音符，这样可以换算成一个时钟脉冲/滴答数为5毫秒。还有一个计量单位是BPM(beats per minute)，0.6秒一个四分之一音符即为100BPM（一分钟打100下四分之一音符）。

计分表示

MusicXML，每一个音符属性都用一个标签表示，例如表示一个 $\mathrm{E^b4}$ 音调：

<note>
  <pitch>
  <step>Estep>
  <alter>-1alter>
  <octave>4octave>
  pitch>
note>

光学音乐识别

对乐谱电子图片进行扫描识别

音频表示

波和波形

声音本质是气压振动，波形图反映了声音传播时气压相对于平均气压的变化，波峰指声音传播时气压最高点，波谷指声音传播时气压最低点。气压高低即空气分子疏密程度，分子越密集，气压越高。

频率和音调

周期Period
波是周期运动。在波形图中，从一个波峰到另一个波峰时间记为一个周期。
频率Frequency
- 频率f = 1 / 周期T，单位Hz
- 人耳接受频率为20Hz - 20kHz
- 频率越高，音调越高
振幅Amplitude
指波峰到均值的差值。（不是波峰和波谷差值）
相位Phase
波形图在时间0时的值。

把正弦波认为是最基础的声波，正弦波产生的声音叫谐波音（harmonic sound）或纯音（pure tone）。国际标准把440Hz的正弦波记为音调A4。
从听觉感知上，如果两个音调频率成2倍数关系，那么这两个音调听起来是相似的。例如A3(220Hz)，A4(440Hz)，A5(880Hz)三个音听起来很相似。另外人类感觉到A4的认知距离和A4到A5的认知距离是一样的，所以人类对音调感知本质上是对数关系。
结合MIDI的音调编号和十二平均律，可以推算每个音调对应的频率(A4的MIDI编号是69)：
$F_{pitch}(p) = 2^{(p-69)/12} \cdot 440 \mathrm{Hz}$
每个半音相差频率是一个常数：
$\frac{F_{pitch}(p+1)}{F_{pitch}(p)} = \sqrt[12]{2}$
更一般，可以用cent最为划分音程一个基础单位：一个八度划分成1200个cent，即每个半音100个cent。一个cent音调变化太小，经验表明，成年人可以准确识别出25cent的音调差异，受过训练的人甚至可以识别10cent音调差异。
现实世界则是用分音，泛音来表示音调。

分音partial
一整根弦/空气柱的振动作为基音，称第一分音。然后对这个弦/空气柱进行整数划分，二分之一长为第二分音，三分之一长为第三分音，以此类推。
泛音harmonic
泛音则是各种分音的整数倍
陪音overtone
除了基音之外的分音
偏差音inharmonicity
乐器的泛音频率和基本频率差值

例如一个分音/陪音 $\omega$ 的频率为65.2Hz(C2)，那么它的泛音列频率为 $\omega, 2\omega,3\omega,4\omega...$ 等等。其中2次幂倍数的泛音是高八音度： $\omega$ 为C2， $2\omega$ 为C3， $4\omega$ 为C4； $3\omega$ 和G3相似(纯五度)，如图：

音调频率cent差值	0	0	+2	0	-14	+2	-31	0	+4	-14	-49	+2	+41	-31	-12	0
音调	$\mathrm{C2}$	$\mathrm{C3}$	$\mathrm{G3}$	$\mathrm{C4}$	$\mathrm{E4}$	$\mathrm{G4}$	$\mathrm{B^b4}$	$\mathrm{C5}$	$\mathrm{D5}$	$\mathrm{E5}$	$\mathrm{F^\#5}$	$\mathrm{G5}$	$\mathrm{A^b5}$	$\mathrm{B^b5}$	$\mathrm{B5}$	$\mathrm{C6}$
泛音	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16

注：泛音 $3\omega$ 比G3的频率高2个cent。

动态、强度和响度

响度loudness，本质指声音强度** intensity**，响度范围即为动态dynamics（音量范围）。
声音功率指单位时间内声源传给空气的能量，而声音强度则指单位面积上的声音功率，单位 $W/m^2$ 。人类感知最小的声音强度记为听阈(threshold of hearing,TOH)：
$I_{TOH} = 10^{-12}W/m^2$
人类感知最大的声音强度记为痛阈(threshold of pain,TOP) ：
$I_{TOP} = 10W/m^2$
实践中，声音强度用分贝衡量：
$10\cdot log_{10}(\frac{I}{I_{TOH}}) \\ I_{TOH} : 0dB \\ I_{TOP} : 130dB \\ dB(2I) - dB(I) \approx 3$

根据分贝公式，2倍声音强度的分贝值比原声音强度分贝值大差值约等于3。
另外人会随便感知声音频率的不同，TOH和TOP也会跟着变化，一般随着频率的升高而降低。

音色

ADSR模型
把发声时间内波形的波峰（波谷）连成一条曲线，那么根据根据曲线起伏可以划分为A(attack)-D(delay)-S(sustain)-R(release)四个阶段（类比弹钢琴上一个键的过程）。而相同音调的不同音色表现的ADSR曲线是不一样的（尽管它们都可以达到该音调的频率和振幅）。
tremolo/vibrato
都属于颤音，tremolo相当于调幅，vibrato相当于调频。调制有两个必要参数：调制速率和调制幅度。

总结

转录

翻译

合成

识别

音频

符号

乐谱

通过把现实世界乐谱翻译成符号，再由计算机将符号转录成音频播放。

一些习题

任意半音频率比值，或任意频率的半音距离:
$\frac{F_{pitch}(p+k)}{F_{pitch(p)}} = 2^{k/12} \\ distance(k) = 12\cdot log_2{\frac{\omega_1}{\omega_2 }}$
假设一个八度有17个音调，并设一个音调编号p=100，它的频率为1000Hz。音调编号共有256个，记为0~255。那么在这个模型中，p=83，p=66，p=49的音调编号对应频率为多少，相邻两个音调差多少个cent?
$此刻任意音调频率比值为：\frac{F_{pitch}(p+k)}{F_{pitch(p)}} = 2^{k/17} \\ 带入F_{pitch}(100)=1000\mathrm{Hz}得：F_{pitch}(p) = 2^{(k-100)/17} \cdot 1000\mathrm{Hz} \\故：F_{pitch}(83) = 500\mathrm{Hz}，F_{pitch}(66) = 250\mathrm{Hz}，F_{pitch}(49) = 125\mathrm{Hz} \\ 一个八度共有1200个cent，故相邻音调递增的cent=1200/17 \approx 71$
写一个简单程序，转换音调和MIDI音调编号。
写一个简单程序，计算C2的16个泛音的频率，并找到距离它们最近的音调。同理计算 $\mathrm{B^b4}$ 。

def pitch_sharp():
    return 'C', 'C#', 'D', 'D#', 'E', 'F', 'F#', 'G', 'G#', 'A', 'A#', 'B'


def pitch_flat():
    return 'C', 'Db', 'D', 'Eb', 'E', 'F', 'Gb', 'G', 'Ab', 'A', 'Bb', 'B'


def to_pitch(num):
    index, bias = num % 12, str(num // 12 - 1)
    result_s, result_f = pitch_sharp()[index] + bias, pitch_flat()[index] + bias
    return set((result_s, result_f))


def check_pitch(pitch):
    if pitch[1] == '#':
        return pitch_sharp().index(pitch[:2]), pitch[2:]
    elif pitch[1] == 'b':
        return pitch_flat().index(pitch[:2]), pitch[2:]
    else:
        return pitch_sharp().index(pitch[:1]), pitch[1:]


def to_num(pitch):
    index, bias = check_pitch(pitch)
    return (int(bias) + 1) * 12 + index

def cent_round(cent):
    return round(cent % 100 if cent % 100 < 50 else cent % 100 - 100)


def gen_harmonic(pitch, n):
    i_ = 1
    while i_ <= n:
        diff_cent_ = math.log2(i_) * 1200
        yield cent_round(diff_cent_), to_pitch(round(diff_cent_ / 100) + to_num(pitch))
        i_ = i_ + 1
# gen_harmonic('Bb4', 16) output:
# diff: 0 , pitch: {'A#4', 'Bb4'}
# diff: 0 , pitch: {'Bb5', 'A#5'}
# diff: 2 , pitch: {'F6'}
# diff: 0 , pitch: {'A#6', 'Bb6'}
# diff: -14 , pitch: {'D7'}
# diff: 2 , pitch: {'F7'}
# diff: -31 , pitch: {'G#7', 'Ab7'}
# diff: 0 , pitch: {'A#7', 'Bb7'}
# diff: 4 , pitch: {'C8'}
# diff: -14 , pitch: {'D8'}
# diff: -49 , pitch: {'E8'}
# diff: 2 , pitch: {'F8'}
# diff: 41 , pitch: {'Gb8', 'F#8'}
# diff: -31 , pitch: {'G#8', 'Ab8'}
# diff: -12 , pitch: {'A8'}
# diff: 0 , pitch: {'Bb8', 'A#8'}

五度相生律Pythagorean tuning，由毕达哥拉斯提出，只使用3:2的比率生成音调频率。毕达哥拉斯音阶Pythagorean scale是只由纯五度(3:2)和八度(2:1)构造的音阶。现对C2操作，频率不断乘3/2，如果产生的频率高于C3频率，则除以2。以此类推，能产生13个频率值（包括最初的C2）。最后一个频率值最接近C2，它和C2的差值被称做毕达哥拉斯逗号Pythagorean comma。用程序模拟过程，并计算距离它们最近的十二音律平均音调和对应差值

def diff_cent(w1, w2):
    return 1200 * math.log2(w1 / w2)


def pythagorean(new_freq, freq, idx):
    return 1.5 * new_freq if 1.5 * new_freq / freq < 2 else 0.75 * new_freq


def gen_tuning(pitch, func):
    i_, n, freq_ = 1, 12, to_freq(pitch)
    new_freq_ = freq_
    while i_ <= n:
        new_freq_ = func(new_freq_, freq_, i_)
        diff_cent_ = diff_cent(new_freq_, freq_)
        new_pitch_ = to_pitch(round(diff_cent_ / 100) + to_num(pitch))
        yield new_freq_ / freq_, new_pitch_, to_freq(tuple(new_pitch_)[0]) / freq_, cent_round(diff_cent_)
        i_ = i_ + 1
# gen_tuning('C2', pythagorean) output:
# pythagorean ratio: 1.5  pitch: {'G2'}  frequency ratio: 1.4983070768766817  diff cent: 2
# pythagorean ratio: 1.125  pitch: {'D2'}  frequency ratio: 1.1224620483093728  diff cent: 4
# pythagorean ratio: 1.6875000000000002  pitch: {'A2'}  frequency ratio: 1.681792830507429  diff cent: 6
# pythagorean ratio: 1.265625  pitch: {'E2'}  frequency ratio: 1.2599210498948734  diff cent: 8
# pythagorean ratio: 1.8984375  pitch: {'B2'}  frequency ratio: 1.887748625363387  diff cent: 10
# pythagorean ratio: 1.423828125  pitch: {'Gb2', 'F#2'}  frequency ratio: 1.414213562373095  diff cent: 12
# pythagorean ratio: 1.06787109375  pitch: {'C#2', 'Db2'}  frequency ratio: 1.0594630943592953  diff cent: 14
# pythagorean ratio: 1.6018066406250002  pitch: {'G#2', 'Ab2'}  frequency ratio: 1.5874010519681994  diff cent: 16
# pythagorean ratio: 1.2013549804687502  pitch: {'Eb2', 'D#2'}  frequency ratio: 1.189207115002721  diff cent: 18
# pythagorean ratio: 1.8020324707031254  pitch: {'Bb2', 'A#2'}  frequency ratio: 1.7817974362806788  diff cent: 20
# pythagorean ratio: 1.3515243530273442  pitch: {'F2'}  frequency ratio: 1.3348398541700344  diff cent: 22
# pythagorean ratio: 1.013643264770508  pitch: {'C2'}  frequency ratio: 1.0  diff cent: 23

毕达哥拉斯逗号为23

三分损益法：先三分损一再三分益一循环；第六次之后调转，先三分益一再三分损一。

def chinese_harmonic(new_freq, freq, idx):
    return 1.5 * new_freq if (idx % 2 != 0) ^ (idx > 6) else 0.75 * new_freq
# gen_tuning('C2', chinese_harmonic) output:
# chinese ratio: 1.5  pitch: {'G2'}  frequency ratio: 1.4983070768766817  diff cent: 2
# chinese ratio: 1.125  pitch: {'D2'}  frequency ratio: 1.1224620483093728  diff cent: 4
# chinese ratio: 1.6875000000000002  pitch: {'A2'}  frequency ratio: 1.681792830507429  diff cent: 6
# chinese ratio: 1.265625  pitch: {'E2'}  frequency ratio: 1.2599210498948734  diff cent: 8
# chinese ratio: 1.8984375  pitch: {'B2'}  frequency ratio: 1.887748625363387  diff cent: 10
# chinese ratio: 1.423828125  pitch: {'F#2', 'Gb2'}  frequency ratio: 1.414213562373095  diff cent: 12
# chinese ratio: 1.06787109375  pitch: {'Db2', 'C#2'}  frequency ratio: 1.0594630943592953  diff cent: 14
# chinese ratio: 1.6018066406250002  pitch: {'Ab2', 'G#2'}  frequency ratio: 1.5874010519681994  diff cent: 16
# chinese ratio: 1.2013549804687502  pitch: {'Eb2', 'D#2'}  frequency ratio: 1.189207115002721  diff cent: 18
# chinese ratio: 1.8020324707031254  pitch: {'A#2', 'Bb2'}  frequency ratio: 1.7817974362806788  diff cent: 20
# chinese ratio: 1.3515243530273442  pitch: {'F2'}  frequency ratio: 1.3348398541700344  diff cent: 22
# chinese ratio: 2.027286529541016  pitch: {'C3'}  frequency ratio: 2.0  diff cent: 23

结果表明五度相生律和三分损益法是一样的调律。

Android 开源组件和第三方库汇总 gyyzzr Android Android 开源框架
转载1、github排名https://github.com/trending,github搜索：https://github.com/search2、https://github.com/wasabeef/awesome-android-ui目录UIUI卫星菜单节选器下拉刷新模糊效果HUD与Toast进度条UI其它动画网络相关响应式编程地图数据库图像浏览及处理视频音频处理测试及调试动态更新热更新
ThinkSound V2版 - 一键给无声视频配音，为AI视频生成匹配音效支持50系显卡一键整合包下载昨日之日2006 ai语音音视频人工智能
ThinkSound是阿里通义实验室开源的首个音频生成模型，它能够让AI像专业“音效师”一样，根据视频内容生成高度逼真、与视觉内容完美契合的音频。ThinkSound可直接应用于影视后期制作，为AI生成的视频自动匹配精准的环境噪音与爆炸声效；服务于游戏开发领域，实时生成雨势变化等动态场景的自适应音效；同时可以无障碍视频生产，为视障用户同步生成画面描述与环境音效。今天分享的ThinkSoundV2版
cvc降噪和主动降噪_音频知识：CVC降噪和ANC主动降噪的区别和应用汪国 cvc降噪和主动降噪
原标题：音频知识：CVC降噪和ANC主动降噪的区别和应用降噪，对于需要长时间戴耳机的人群来讲，起到了很好的保护作用。然而在购买蓝牙耳机时总会听到商家在宣传耳机所具备的CVC、ANC降噪功能，尽管听过很多商家描述，有些小伙伴依然不是很明白这两者之间的区别以及应用。现在简单和大家介绍这两个看不懂的降噪名词。CVC降噪(ClearVoiceCapture)是通话软件降噪技术。工作原理是是通过耳机内置的消
被动降噪的概念及编程实现 CodeByte 人工智能算法 javascript 编程
被动降噪是指通过编程技术和算法，对输入的数据进行处理，以减少或消除其中的噪声。噪声可以是各种形式的干扰，例如来自传感器、通信信号或其他外部源的干扰。在本文中，我们将探讨被动降噪的意义以及如何使用编程来实现这一目标。被动降噪的意义：噪声对数据的准确性和可靠性产生负面影响。在许多应用领域，例如图像处理、音频处理和信号处理中，噪声的存在可能导致数据质量下降，使得后续的分析和处理变得困难。因此，被动降噪技
音频被动降噪技术悟空胆好小音频相关音视频
音频被动降噪技术音频被动降噪技术是一种通过物理结构和材料设计来减少或隔离外部噪声的降噪方式，其核心原理是通过物理屏障或吸声材料来阻断或吸收声波，从而降低环境噪声对听觉体验的影响。以下将从技术原理、应用场景、优缺点及与其他降噪技术的对比等方面进行详细分析。一、被动降噪技术的原理被动降噪技术（PassiveNoiseCancellation,PNC）主要依赖于耳机的物理结构和材料设计，通过以下几种方式
AnythingLLM教程系列之 09 AnythingLLM 支持自定义音频转录提供程序知识大胖 NVIDIA GPU和大语言模型开发教程 llama3 anythingllm llm
什么是AnythingLLM?AnythingLLM是最易于使用的一体化AI应用程序，可以执行RAG、AI代理等操作，且无需任何代码或基础设施难题。您需要为您的企业或组织提供一款完全可定制、私有且一体化的AI应用程序，该应用程序基本上是一个具有许可的完整ChatGPT，但具有任何LLM、嵌入模型或矢量数据库。如何安装《无需任何代码构建自己的大模型知识库：AnythingLLM最易于使用的一体化AI
UnrealEngine5游戏引擎实践（C++) KENYCHEN奉孝 C++服务器 c++游戏引擎
目录目录目录UnrealEngine是什么？UnrealEngine5简介核心技术特性应用场景扩展兼容性与生态系统UnrealEngine安装下载EpicGamesLauncher启动UnrealEngine选择安装版本和路径选择组件开始安装验证安装配置项目模板（可选）更新和插件管理UE游戏引擎动作捕捉与动画系统程序化生成与AI技术物理与破坏系统音频与本地化技术性能优化导入静态网格体材质实例创建与
chatgpt赋能python：Python音频降噪处理：使用Python减少噪音并提升声音质量
Python音频降噪处理：使用Python减少噪音并提升声音质量在日常生活中，使用音频通信是非常普遍的。但是，由于各种原因，我们可能会遇到许多噪音干扰，从而降低语音质量并影响通信的效果。为了解决这个问题，我们可以使用Python来降噪音。什么是音频降噪处理？我们每天听到的声音都是由许多不同频率的声音波形组成的。噪音是指在声音中添加了其他频率的声音波形。这些声音可以是来自电器的嗡嗡声、风扇或其他背景
Java实现项目1——弹射球游戏 lemon_sjdk Java实战项目 java 游戏 windows
项目：弹射球游戏项目描述：类似于乒乓球的游戏，游戏可以播放背景音乐，可以更换背景图，当小球碰到下面的挡板后会反弹，当小球碰到方块后会增加分数，当小球掉落会导致游戏失败，按下esc键游戏会暂停，音乐会停止播放，运行时会新建一个music文件夹，文件夹内放入任何音频文件都将作为背景音乐播放项目代码packageorg.example;importcom.google.common.base.Throw
全球DeepFake攻防挑战赛&DataWhale AI 夏令营——图像赛道 czijin 人工智能 deep learning
全球DeepFake攻防挑战赛&DataWhaleAI夏令营——图像赛道赛题背景随着人工智能技术的迅猛发展，深度伪造技术（Deepfake）正成为数字世界中的一把双刃剑。这项技术不仅为创意内容的生成提供了新的可能性，同时也对数字安全构成了前所未有的挑战。Deepfake技术可以通过人工智能算法生成高度逼真的图像、视频和音频内容，这些内容看起来与真实的毫无二致。然而，这也意味着虚假信息、欺诈行为和隐
使用Python实现WebRTC MznkCloud python webrtc 开发语言 WebRTC
WebRTC是一种开放的实时通信协议，它允许浏览器之间进行音频、视频和数据的实时传输。在本文中，我们将使用Python来实现一个基本的WebRTC应用程序，以便展示如何在浏览器之间建立实时通信。WebRTC的实现通常涉及两个主要组件：信令服务器和媒体服务器。信令服务器用于建立连接和交换元数据，而媒体服务器用于传输音频、视频和数据流。我们将使用Python中的Flask框架作为我们的信令服务器，并使
【论文阅读】Transfer Learning for Automatic Modulation Recognition Using a Few Modulated Signal Samples
摘要：这封信提出了一种用于自动调制识别（AMR）的迁移学习模型，该模型仅具有少量调制信号样本。传输模型以音频信号UrbanSound8K作为源域进行训练，然后以一些调制信号样本为目标域进行微调。为了提高分类性能，信噪比（SNR）被用作一个功能来促进信号的分类。仿真结果表明，迁移模型在分类精度方面具有显著优势。这篇文章的核心内容是提出了一种基于迁移学习（TransferLearning）的自动调制识
DMA技术与音频数据的存储和播放曹小满2579 Android基础音视频 Android
基本概念采样率：每秒采集的采样点次数。如480000HZ，就是我们常见的48KHZ采样点(Sample)：每一个采样点代表一个时间点的声音幅度值。对于立体声，每个采样点包含了两个声道(左声道，右声道)的数据。帧：一帧就是一个时刻采集的数据，如果音频是立体声则会产生2个采样点，如果是更复杂的比如5.1，则会产生更多的采样点。例如PCM数据是48KHZ，16bit的，立体声，则一秒的PCM数据有48K
ASMR助眠软件：开启宁静夜晚，拥抱甜美梦境东风西巷智能手机软件需求 android
在快节奏的现代生活中，睡眠问题已成为许多人面临的难题。无论是工作压力、生活琐事还是电子设备的干扰，都可能让我们难以入睡。为了帮助那些受困于失眠和睡眠障碍的用户，ASMR助眠软件应运而生。它通过多种舒缓的声音和精心设计的音频内容，为用户提供了一个放松身心、安然入睡的环境，成为改善睡眠质量的贴心伴侣。软件特色多样化的音乐库ASMR助眠软件内含多种类型的声音素材，涵盖白噪音、自然音效及轻音乐等，满足不同
芯谷科技--双运算放大器D4558 Silicore_Emma 科技运算放大器音频放大音频设备医疗仪器
在现代电子系统中，运算放大器作为信号处理的核心元件，其性能直接影响到整个系统的稳定性和精度。D4558双运算放大器，凭借其卓越的性能和广泛的应用适配性，为工程师提供了可靠的信号处理解决方案。产品简介D4558是一款由两个高性能运算放大器组成的集成电路，具有高增益、低噪声、高输入阻抗、优秀的通道分离度、宽工作电压范围和内部频率补偿等特点。它支持双电源或单电源工作模式，主要应用于音频信号放大、有源滤波
【AI大模型前沿】OmniAudio：阿里通义实验室的空间音频生成模型，开启沉浸式体验新时代寻道AI小兵 AI大模型 -前沿技术追踪人工智能音视频开源 AIGC 语言模型
系列篇章No.文章1【AI大模型前沿】深度剖析瑞智病理大模型RuiPath：如何革新癌症病理诊断技术2【AI大模型前沿】清华大学CLAMP-3：多模态技术引领音乐检索新潮流3【AI大模型前沿】浙大携手阿里推出HealthGPT：医学视觉语言大模型助力智能医疗新突破4【AI大模型前沿】阿里QwQ-32B：320亿参数推理大模型，性能比肩DeepSeek-R1，免费开源5【AI大模型前沿】TRELLI
MAXCC可编程中控集成音频处理器功能全解析 geffen1688 中控主机 3d web3 css3 avs3
格芬MAXCC可编程中控集成音频处理器功能全解析一、技术架构与核心功能格芬MAXCC可编程中控矩阵一体机（如GF-MIXCC系列）通过高度集成化设计，将中控系统、音频矩阵、视频矩阵及环境控制功能融为一体，其音频处理能力尤为突出：音频矩阵与混音功能8进8出音频矩阵：支持Dante网络音频传输，采样率达24bit/48KHz，配备高性能A/DD/A转换器和32-bit浮点DSP处理器，确保音频信号的高
无缝矩阵支持音频分离带画面分割功能的全面解析 geffen1688 分类分布式
一、技术原理与实现方式1. 音频分离技术核心功能：HDMI无缝矩阵通过硬件或软件实现音频加嵌与分离功能，支持多设备音频的独立处理与增强。实现方式：音频加嵌：将外部音频信号（如麦克风、调音台）嵌入HDMI信号中传输，适用于家庭影院、会议系统等场景。音频分离：将HDMI信号中的音频独立输出至外部设备（如音响、音频处理器），支持多通道数字音频的交叉切换。技术支撑：采用32bitARM核心芯片（
ESP32 S3音频开发
1.音频硬件框架Codec：音频编解码芯片，一种低功耗单声道音频编解码器，包含单通道ADC、单通道DAC、低噪声前置放大器、耳机驱动器、数字音效、模拟混音和增益功能。它通过I2S和I2C总线与ESP32-S3-WROOM-1模组连接，以提供独立于音频应用程序的。PA：音频功率放大器，用于放大来自音频编解码芯片的音频信号，以驱动扬声器。2.音频软件框架ESP32提供了几个简单的高级API，可以参考例
ESP32-S3 I2S音频开发实战指南薛慕昭音视频
目录前言I2S简介TDM通信模式(标准)PDM通信模式.对比总结为什么要学习I2SPCM原始数据I2S录制声音I2S播放声音WAV音频WAV文件头结构（44字节）解析wav格式数据struct.unpack的基本用法格式化字符串(fmt)示例1：解析单个值示例2：解析多个值示例3：解析混合类型示例4：解析字符串示例5：解析WAV文件头注意事项总结实操演练保存wav格式数据结语前言在智能硬件和物联网
SAiD：基于扩散的音频驱动语音动画
SAiD：基于扩散的音频驱动语音动画SAiDSAiD:Blendshape-basedAudio-DrivenSpeechAnimationwithDiffusion项目地址:https://gitcode.com/gh_mirrors/said/SAiDSAiD是一个基于扩散的音频驱动语音动画的开源项目，它通过音频信号控制面部表情，实现逼真的语音动画效果。项目介绍SAiD（Speech-driv
【亲测免费】探索AudioSlicer：智能音频分割工具秦贝仁Lincoln
探索AudioSlicer：智能音频分割工具去发现同类优质开源项目:https://gitcode.com/项目介绍AudioSlicer是一个基于Python的轻量级工具，专门用于切割.wav音频文件。它通过检测静音段将音频拆分成多个独立样本，并生成一个.json文件，详细记录了每个切片的时间范围。该项目灵感源自AndrewPhillipDoss的工作，现在正向着人工智能适应的方向发展，有望实现
ESP32设备驱动——使用I2S播放音频的物联网应用 JmwvOverflow 音视频物联网
在物联网应用中，使用嵌入式设备进行音频播放是一个常见的需求。ESP32是一款功能强大的嵌入式开发板，它集成了Wi-Fi和蓝牙功能，适用于物联网应用。本文将介绍如何在ESP32上使用I2S（Inter-ICSound）接口来播放音频。I2S是一种串行音频接口，用于高质量音频数据的传输。ESP32的I2S接口可以直接与音频编解码器、数字信号处理器（DSP）等设备连接，实现音频的输入和输出。下面我们将逐
ESP32播放网络音乐与麦克风接收魔法少女郭德纲* 单片机 iot 物联网
本文使用esp32结合MAX98357音频放大器模块播放网络音乐,同时用INMP441模块作为语音输入进行测试第一部分：播放网络音乐需要用到esp32开发板、MAX98357模块、喇叭、连接线一、准备工作库安装1，首先到GITHUB下载「ESP32-audioI2S」https://github.com/schreibfaul1/ESP32-audioI2S/2，解压。3，把解压的文件放进Ardu
深入了解视频播放器工作原理与实现你一身傲骨怎能输独立游戏开发者宝典视频播放器
下面我会用通俗易懂的方式，结合技术细节，带你深入了解视频播放器的工作原理与实现。内容分为两部分：视频播放器的整体工作流程（原理）主要技术模块的实现思路和常用方案一、视频播放器的整体工作原理我们可以把视频播放器比作一个“放映机”，它的主要任务是：把存储在本地或网络上的视频文件，经过一系列处理，最终在屏幕上流畅地播放出来，并同步音频。1.获取视频源本地播放：直接读取本地文件（如MP4、MKV等）。网络
Python MoviePy详解：从入门到实战的视频编辑指南 detayun Python python 音视频开发语言
一、MoviePy核心特性与优势MoviePy是一个基于Python的开源视频编辑库，其核心设计理念是基于时间的函数式组合。与传统视频编辑软件不同，它将视频视为可动态计算的函数集合，每个视频剪辑（Clip）本质上是一个时间函数F(t)，返回指定时间点的图像帧或音频样本。这种设计赋予了开发者极大的灵活性：动态内容生成通过定义make_frame函数，可实现完全程序化的视频生成。例如：defgener
Python PyDub详解：音频处理从未如此简单 detayun Python python 音视频开发语言
引言在Python生态中，PyDub以其简洁的设计和强大的功能，成为音频处理领域的后起之秀。这个由罗伯特·约翰逊主导开发的开源库，通过封装FFmpeg/Libav底层能力，为开发者提供了"不愚蠢"的音频处理方式。本文将带您系统掌握PyDub的核心用法，从环境搭建到高级应用，解锁音频处理的无限可能。安装与配置快速安装pipinstallpydub依赖管理FFmpeg安装指南：Windows：通过FF
如何选择优质的在线培训系统 web_liyu 大数据
在互联网+快速发展的时代背景下，在线培训以其高效便捷的特点，成为众多企业的首选培训方式。市面上所广泛使用的在线培训系统大多结合了在线教学评估与传统模式，涵盖了视频、音频、动画、文档等多种形式，使得管理者能够高效地组织培训工作，而学习者则可以随时随地进行学习和参加考试，最终构建出一套完整的教学评估体系。企业如何选择在线培训系统？面对琳琅满目的在线培训系统，企业如何做出明智的选择？一个优质的在线培训系
数据集全解析：从基础概念到实践应用的完整指南
数据集全解析：从基础概念到实践应用的完整指南一、数据集的本质与核心价值1.1数据集的定义与范畴数据集（Dataset）是按照特定格式组织的一组数据的集合，它可以是结构化数据（如关系型数据库中的表格）、半结构化数据（如JSON、XML文件）或非结构化数据（如图像、文本、音频、视频等）。从表现形式看，数据集可以是一个文件（如CSV、Excel表格）、一个数据库表，也可以是分布式存储的海量数据集合（如H
使用Java实现MP3音乐播放器
原文链接：http://www.cnblogs.com/haoxia/archive/2009/06/03/1495419.html使用Java实现MP3音乐播放器JavaSound是一个小巧的低层API，支持数字音频和MIDI数据的记录/回放。在JDK1.3.0之前，JavaSound是一个标准的Java扩展API，但从Java2的1.3.0版开始，JavaSound就被包含到JDK之中。由于J
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本