音频书籍

python全栈-前端

无序列表ul自定义列表表格table表格属性单元格合并表单Forminput标签HTML5新增type属性HTML5新增常用属性实体字符块元素与行内元素/内联元素容器元素divHTML5新增布局标签视频音频视频音频

兆。·2025-03-25 15:34

AI视频自动剪辑的核心原理

视频自动剪辑的核心原理是通过算法分析视频内容（画面、音频、元数据等），结合预设规则或机器学习模型，自动完成素材筛选、剪辑、转场等操作。

xinxiyinhe·2025-03-25 14:24

书籍-《机器学习：从经典方法到深度网络、Transformer和扩散模型（第三版）》

书籍：MachineLearning:FromtheClassicstoDeepNetworks,Transformers,andDiffusionModels，3rdEdition作者：SergiosTheodoridis

·2025-03-25 13:51

Android15音频进阶之指定音区设备(一百一十二)

简介：CSDN博客专家、《Android系统多媒体进阶实战》一书作者新书发布：《Android系统多媒体进阶实战》优质专栏：Audio工程师进阶系列【原创干货持续更新中……】优质专栏：多媒体系统工程师系列【原创干货持续更新中……】优质视频课程：AAOS车载系统+AOSP14系统攻城狮入门视频实战课

Android系统攻城狮·2025-03-25 11:01

MediaPipe：实时多媒体处理框架

它提供了一套工具和库，使开发者能够轻松地处理和分析视频、音频和图像数据。MediaPipe具有高度可扩展性和灵活性，适用于各种应用领域，包括计算机视觉、增强现实、虚拟现实和音频处理等。

KsClang·2025-03-25 05:16

web前端录制canvas视频和video的声音，并合并成一个文件进行下载

该方法通常用于从、或元素中捕获实时视频流或音频流，以便进行进一步的处理，如直播、录制或分析‌。captureStream()方法能够实时捕获视频流，适用于直播、实时监控等场景。

不怕麻烦的鹿丸·2025-03-25 01:49

大模型微调方法之Delta-tuning

本次讨论的1大模型业务分类当前的大模型行业可谓百花齐放，自然语言处理（naturallanguageprocessing,NLP）、计算机视觉（computervision,CV）、音频处理（audioprocessing

空白II·2025-03-24 20:09

从阅读空间到知识孵化器，AI时代智慧图书馆何为？

AI时代智慧图书馆的新角色知识资源整合与挖掘者在AI时代，信息爆炸式增长，图书馆不再仅仅是纸质书籍的收

技能咖·2025-03-24 19:35

技术书籍推荐(001):电子书免费下载

[0000]CodeLikeaProinRust(英文版)免费电子书PDF下载下载地址：http://t-book.sunlogging.com/2025/03/19/book/book_0000/书籍简介

·2025-03-24 15:12

操作系统笔记-番外-操作系统经典书籍推荐

最近整理以前的笔记，有人问关于操作系统的书籍。

VioletCherry·2025-03-24 12:04

利用ffmpeg库实现音频AAC编解码

AAC‌（AdvancedAudioCoding）是一种音频编码技术，出现于1997年，基于MPEG-2的音频编码技术。AAC具有高效的数据压缩能力和较高的音质，适用于各种音频应用场景。

byxdaz·2025-03-24 06:14

P2P通信：WebRTC的原理与实现

它提供了一种直接的点对点（P2P）通信方式，使得浏览器之间可以实时传输音频、视频和数据。本文将详细介绍WebRTC的原理和实现，并提供相应的源代码示例。

幻想彩虹中的绚丽光华·2025-03-24 05:36

WebRTC解析：使用WebRTC实现实时通信

它提供了一组API和协议，使开发者能够在网页上实现音频、视频和数据的实时传输。本文将详细介绍WebRTC的基本原理和使用方法，并提供一些示例代码。

FdviAutoit·2025-03-24 05:02

深入浅出 WebRTC 通信原理：从点对点到多人会议的全方位解析

它允许浏览器或移动设备通过直接的点对点（P2P）连接进行音频、视频和数据的实时传输。它使得不依赖中间服务器的实时通信成为可能，尤其适用于视频聊天、文件共享、音频会议等场景。在本文中，我们将深入介绍从

ADFVBM·2025-03-24 05:01

基于Streamlit实现的音频处理示例

基于Streamlit实现的音频处理示例，包含录音、语音转文本、文件下载和进度显示功能，整合了多个技术方案：一、环境准备#安装依赖库pipinstallstreamlitstreamlit-webrtcaudio-recorder-streamlitopenai-whisperpython-dotx

大霸王龙·2025-03-24 01:26

When Large Language Models Meet Speech: A Survey on Integration Approaches

文章将语音与LLMs集成方法分为基于文本、基于潜在表示和基于音频令牌三大类。

UnknownBody·2025-03-23 17:46

ubuntu环境使用海康威视SDK获取视频流

include#include#include#include"HCNetSDK.h"#include"iniFile.h"#include"PlayM4.h"//解码回调视频为YUV数据(YV12)，音频为

Joemt·2025-03-23 17:16

Ubuntu实时读取音乐软件的音频流

文章目录一.前言二.开发环境三.具体操作四.实际效果一.前言起因是这样的，我需要在Ubuntu中，实时读取正在播放音乐的音频流，然后对音频进行相关的处理。

冬瓜~·2025-03-23 17:14

《MySQL 入门教程》第 30 篇数据库索引

文章目录30.1创建索引30.2查看索引30.3修改索引30.4删除索引数据库索引（Index）就像书籍后面的关键字索引，按照关键字进行排序，并且提供了指向具体内容的页码。

不剪发的Tony老师·2025-03-23 13:14

一本写给算法初学者的入门算法书籍

曾经也放出豪言壮语，决心要刷遍力扣上的所有算法题目。然而现实就很快啪啪的打脸。不知道多少人和我有过一样的经历。在读到《Hello算法》的序中，作者靳宇栋给了我们一个“台阶”。随后就表达了针对我们的现状，他特地写了《Hello算法》这本书，代表广大算法初学者表示感激涕零。《Hello算法》为什么适合入门动画图解、一键运行的数据结构与算法教程全书采用动画图解，内容清晰易懂、学习曲线平滑，引导初学者探索

遇码·2025-03-23 10:50

C# 调用 VITS，推理模型将文字转wav音频调试 -数字人分支

Microsoft.ML.OnnxRuntime.OnnxRuntimeException:[ErrorCode:InvalidArgument]Inputname:'input_name'isnotinthemetadata在Microsoft.ML.OnnxRuntime.InferenceSession.LookupInputMetadata(StringnodeName)位置D:\a\_w

未来之窗软件服务·2025-03-23 08:40

一文说清预训练与微调：AI的双重训练法则

在这一阶段，模型通过学习海量的书籍、文章和网页，识别出语言的语法、句法和词汇规律。这就如同一名学生接受通识教育，他并没有专注于某一门学科，而是获取了多方面的知识。

TGITCIC·2025-03-23 07:02

使用AI识别语音和B站视频并通过GPT生成思维导图

语音生成思维导图直接发送语音：对AI脑图公众号直接发送语音（如使用语音说厦门三天两夜的旅行攻略），AI脑图会自动识别语音内容然后根据内容要求生成思维导图上传语音文件：支持多种音频格式，上传完成后AI脑图会识别音频内容

·2025-03-23 06:05

使用AI识别语音和B站视频并通过GPT生成思维导图

语音生成思维导图直接发送语音：对AI脑图公众号直接发送语音（如使用语音说厦门三天两夜的旅行攻略），AI脑图会自动识别语音内容然后根据内容要求生成思维导图上传语音文件：支持多种音频格式，上传完成后AI脑图会识别音频内容

·2025-03-23 06:04

Python预训练模型实现俄语音频转文字

Python预训练模型实现俄语音频转文字使用CommonVoice8.0、Golos和MultilingualTEDx的训练和验证分割对俄语的facebook/wav2vec2-xls-r-1b进行了微调

啥都鼓捣的小yao·2025-03-23 05:03

RK3568平台（音频篇）音频ALSA框架

一.ALSA框架简介ALSA表示先进linux声音架构（AdvancedLinuxSoundArchiecture），它由一系列的内核驱动、应用程序编程接口（API）以及支持linux下声音的应用程序组成、ALSA项目发起的原有是linux下的声卡驱动（OSS）没有获得积极的维护，而且落后于新的声卡技术。JaroslavKysela早先写了一个声卡驱动，并由此开始了ALSA项目，随后，更多的开发者

嵌入式_笔记·2025-03-23 05:02

郭老二·2025-03-23 05:31

C++基础系列【26】排序和查找算法

博主介绍：程序喵大人35-资深C/C++/Rust/Android/iOS客户端开发10年大厂工作经验嵌入式/人工智能/自动驾驶/音视频/游戏开发入门级选手《C++20高级编程》《C++23高级编程》等多本书籍著译者更多原创精品文章

程序喵大人·2025-03-22 23:15

华为OD机试 - 书籍叠放 - 逻辑分析（Python/JS/C/C++ 2024 B卷 200分）

一、题目描述书籍的长、宽都是整数对应(l,w)。如果书A的长宽度都比B长宽大

哪吒·2025-03-22 21:02

SQL优化思想——不优化或许是最好的优化⓵哈哈，其实我几乎什么都没做

引言熟悉我的朋友知道我擅长SQL优化，出版过近80万字的技术书籍——《收获，不止SQL优化》，十余次印刷，反响热烈，在此，感谢支持我的读者。接下来，我将站在SQL优化思想的角度，给大家做一个系列分享。

梁敬彬·2025-03-22 20:59

嵌入式音频框架alsa学习之pcm状态

/**PCMstate*/typedefenum_snd_pcm_state{/**Open*/SND_PCM_STATE_OPEN=0,/**Setupinstalled*/SND_PCM_STATE_SETUP,/**Readytostart*/SND_PCM_STATE_PREPARED,/**Running*/SND_PCM_STATE_RUNNING,/**Stopped:underru

Liu-Eleven·2025-03-22 16:00

android音频概念解析

音频硬件接口（我们可以理解为ASOC的声卡）官方代码里叫audiohardwareinterface也称为module，定义在services/audiopolicy/config/audio_policy_configuration.xml

yyc_audio·2025-03-22 16:57

用 pytorch 从零开始创建大语言模型（零）：汇总

用pytorch从零开始创建大语言模型（零）：汇总本系列官方代码库：https://github.com/rasbt/LLMs-from-scratch/tree/main官方书籍：BuildaLargeLanguageModel

墨绿色的摆渡人·2025-03-22 11:12

【大模型书籍PDF】从零开始大模型开发与微调：基于PyTorch与ChatGLM （推荐）_从零开始大模型开发与微调 pdf

今天又来给大家推荐一本大模型方面的书籍。

喝不喝奶茶丫·2025-03-22 10:06

B+树深入解析：为什么数据库索引都爱用这个结构？

传统目录柜（类似二叉树）的问题：目录卡片过多导致柜子太高，查找时需要频繁上下梯子（磁盘IO）热门书籍的目录卡片被翻烂（节点频繁修改）找某个范围的书籍（如TP311.1到TP311.9）需要反复开柜门B+

程序猿小白菜·2025-03-22 07:37

Python实战：开发经典猜拳游戏（石头剪刀布）

判断胜负逻辑2.5主循环与交互3.代码运行效果示例第二部分：功能扩展与优化1.添加计分系统2.支持多轮游戏与退出选择3.增加图形化界面（可选）第三部分：进一步学习方向1.深化游戏功能2.学习相关知识3.书籍与资源推荐适合人群

藍海琴泉·2025-03-22 06:23

向量检索、检索增强生成（RAG）、大语言模型及相关系统架构——典型面试问题及简要答案

答案要点：向量检索是将文本、图像、音频等数据映射为向量，在高维向量空间中基于相似度或距离进行搜索。

快撑死的鱼·2025-03-22 05:13

从零开始：使用原生JS打造简易飞机大战游戏

本文还有配套的精品资源，点击获取简介：在本教程中，我们将探讨如何利用原生JavaScript的特性，包括事件处理、DOM操作、定时器和音频处理，来构建一个基础的“飞机大战”游戏。

西域情歌·2025-03-22 02:45

书籍-《优化与最优控制简明教程》

书籍：OptimizationandOptimalControlinaNutshell作者：SudathRohanMunasinghe出版：Springer编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载

·2025-03-22 01:03

鸿蒙开发秘籍：用AvPlayer解锁录音朗读新玩法

鸿蒙开发秘籍：用AvPlayer解锁录音朗读新玩法一、引言家人们，在鸿蒙应用开发这个超广阔的领域里，音频处理可是相当重要的一环！它让应用的功能更丰富，用户体验也更好啦。

柳中仙·2025-03-22 00:04

04.文本标签

2）页面组成元素①一个静态页面绝大部分由以下四种元素组成：文本图片超链接音频和视频②思考：符合以下特点的网页是静态还是动态页面？

龙哥带你学编程·2025-03-22 00:28

Webrtc音频技术（未完）

一、概述1、架构上图中发送方（或叫上行、TX）将从MIC采集到的语音数据先做前处理，然后编码得到码流，再用RTP打包通过UDPsocket发送到网络中给对方。接收方（或叫下行、RX）通过UDPsocket收语音包，解析RTP包后放入jitterbuffer中，要播放时每隔一定时间从jitterbuffer中取出包并解码得到PCM数据，做后处理后送给播放器播放出来。二、NetEQ1、简介netEQ是

会头痛的可达鸭·2025-03-21 23:56

MTK ADSP

MTK音频硬件概念AFE：音频前端硬件audiofrontendhwAFEMEMIF(FE):PCMDMA,memoryread/writeAudiointerconnection:connectionfabricforaudiosubmodule

yyc_audio·2025-03-21 23:20

OpenAI 发布新一代 STT/TTS 模型，10 行代码构建 Voice Agent；声网推出对话式 AI 开发套件丨日报

本期编辑：@qqq、@鲍勃01有话题的技术1、OpenAI推出全新一代音频模型今日凌晨，Open

·2025-03-21 16:18

自动语音识别（ASR）：技术、应用与未来

2.ASR的工作原理ASR的核心流程通常包括以下几个步骤：语音信号采集：通过麦克风或其他设备获取音频数据。预处理：去除噪

ajie1117·2025-03-21 16:17

基于流程的记事梳理rm -i学习步骤

书架上摆满了各种书籍（文件），你想要扔掉一些不再需要的书。普通的清理方式就像直接使用rm命令，可能会不小心把一些本不想扔掉的书也一起扔掉了。

鸭梨山大哎·2025-03-21 12:15

Marker可以快速且准确地将PDF转换为markdown格式。

支持多种文档类型（针对书籍和科学论文进行了优化）支持所有语言移除页眉/页脚/其他杂质格式化表格和代码块提取并保存图像以及markdown将大多数方程转换为latex支持在GPU、CPU或MPS上运行工作原理

星霜笔记·2025-03-21 11:34

数智读书笔记系列021《大数据医疗》：探索医疗行业的智能变革

一、书籍介绍《大数据医疗》由徐曼、沈江、余海燕合著，由机械工业出版社出版。

Allen_Lyb·2025-03-21 10:55

Visual C++从入门到精通第三版 PDF 下载

这本书是一本非常适合初学者的入门书籍，内容涵盖了从C++基础知识到Visual

范武心Lucinda·2025-03-21 10:54

无人机喊话系统：空中扩音器的科技密码！

一、技术核心：空中声波系统的三重架构1.声源处理中枢支持双模输入：麦克风实时采集与数字音频导入搭载DSP数字信号处理器，实现动态降噪（信噪比＞70dB）自适应EQ调节，针对不同场景优化频响曲线（如灾害现场增强低频穿透力

云卓SKYDROID·2025-03-21 10:54

推荐频道

音频书籍

python全栈-前端

AI视频自动剪辑的核心原理

书籍-《机器学习：从经典方法到深度网络、Transformer和扩散模型（第三版）》

Android15音频进阶之指定音区设备(一百一十二)

MediaPipe：实时多媒体处理框架

web前端录制canvas视频和video的声音，并合并成一个文件进行下载

大模型微调方法之Delta-tuning

从阅读空间到知识孵化器，AI时代智慧图书馆何为？

技术书籍推荐(001):电子书免费下载

操作系统笔记-番外-操作系统经典书籍推荐

利用ffmpeg库实现音频AAC编解码

P2P通信：WebRTC的原理与实现

WebRTC解析：使用WebRTC实现实时通信

深入浅出 WebRTC 通信原理：从点对点到多人会议的全方位解析

基于Streamlit实现的音频处理示例

When Large Language Models Meet Speech: A Survey on Integration Approaches

ubuntu环境使用海康威视SDK获取视频流

Ubuntu实时读取音乐软件的音频流

《MySQL 入门教程》第 30 篇 数据库索引

一本写给算法初学者的入门算法书籍

C# 调用 VITS，推理模型 将文字转wav音频调试 -数字人分支

一文说清预训练与微调：AI的双重训练法则

使用AI识别语音和B站视频并通过GPT生成思维导图

使用AI识别语音和B站视频并通过GPT生成思维导图

Python预训练模型实现俄语音频转文字

RK3568平台（音频篇）音频ALSA框架

【视频】m3u8相关操作

C++基础系列【26】排序和查找算法

华为OD机试 - 书籍叠放 - 逻辑分析（Python/JS/C/C++ 2024 B卷 200分）

SQL优化思想——不优化或许是最好的优化⓵哈哈，其实我几乎什么都没做

嵌入式音频框架alsa学习之pcm状态

android音频概念解析

用 pytorch 从零开始创建大语言模型（零）：汇总

【大模型书籍PDF】从零开始大模型开发与微调：基于PyTorch与ChatGLM （推荐）_从零开始大模型开发与微调 pdf

B+树深入解析：为什么数据库索引都爱用这个结构？

Python实战：开发经典猜拳游戏（石头剪刀布）

向量检索、检索增强生成（RAG）、大语言模型及相关系统架构——典型面试问题及简要答案

从零开始：使用原生JS打造简易飞机大战游戏

书籍-《优化与最优控制简明教程》

鸿蒙开发秘籍：用AvPlayer解锁录音朗读新玩法

04.文本标签

Webrtc音频技术（未完）

MTK ADSP

OpenAI 发布新一代 STT/TTS 模型，10 行代码构建 Voice Agent；声网推出对话式 AI 开发套件丨日报

自动语音识别（ASR）：技术、应用与未来

基于流程的记事梳理rm -i学习步骤

Marker可以快速且准确地将PDF转换为markdown格式。

数智读书笔记系列021《大数据医疗》：探索医疗行业的智能变革

Visual C++从入门到精通第三版 PDF 下载

无人机喊话系统：空中扩音器的科技密码！

《MySQL 入门教程》第 30 篇数据库索引

C# 调用 VITS，推理模型将文字转wav音频调试 -数字人分支