音频直播第12页

MKV视频封装软件 MKVToolNix v88.0 中文免安装版

MKVToolNix支持跨平台操作，几乎兼容所有主流操作系统，能够将多种视频编码、多达16条音频和不同语言的字幕封装到一个MKV文件中。使用说明：1、将压缩文件解压到固定位置，不要随意移动。

MAS1102·2025-02-08 21:15

使用Python进行语音识别：将音频转为文字

在Python中，我们可以使用一些库和工具来实现语音识别，并将音频转换为文本。本文将介绍如何使用Python进行语音识别的过程，并提供相应的源代码。

WmqApps·2025-02-08 18:52

微信小程序框架探究和解析

微信小程序框架解析PPT--渠宏伟微信小程序框架详解（直播分享）小程序底层框架实

极乐叔·2025-02-08 07:27

Python：谈谈常规滤波器(带通、低通、高通、带阻)的用法

滤波器通常用于音频、视频和图像处理等领域。

我不是哆啦A梦·2025-02-08 07:27

罗永浩的“最后一次创业”：从AR到AI大模型的战略转型

从锤子科技到直播带货，再到如今的“最后一次创业”——细红线，他的每一次转型都引发广泛关注。而这次，他将目光投向了AI大模型，并正全力冲刺一款软硬件一体的AI写代码工具，这无疑是科技行业的一次重大事件。

·2025-02-08 06:03

OpenHarmony 4.0 Release发布，同步升级API 10

200多个HDI接口，硬件适配更加便捷；优化图形框架和方舟编译器（ArkCompiler），用户交互体验得到进一步提升；ArkUI组件定制化能力和组件动效能力也得到进一步增强；分布式硬件支持的范围扩大到音频和

·2025-02-08 02:56

使用 sndpeek 识别说话者

使用sndpeek识别说话者让计算机帮助您识别电话会议、podcast和新闻直播中的说话者级别：中级NathanHarrington([email protected]),程序员,IBM2008

simo110·2025-02-08 01:54

Licode简介及与SRS对比

Licode是一个开源的WebRTC通信框架，专注于多人实时音视频互动（如视频会议），而SRS是一个通用的流媒体服务器，支持直播、低延迟流分发等场景。

Ryan-S·2025-02-08 00:14

为了实现对不同说话人的处理，可以加入一些专门的层和技术，来区分和识别说话人的特征。

1.说话人分离（SpeakerSeparation）概念：说话人分离是指在多说话人的音频中，将不同说话人的声音分开。这通常需要模型识别每个说话人的独特音频特征。

苏西月·2025-02-07 23:12

OpenHarmony 4.0 Release发布，同步升级API 10

200多个HDI接口，硬件适配更加便捷；优化图形框架和方舟编译器（ArkCompiler），用户交互体验得到进一步提升；ArkUI组件定制化能力和组件动效能力也得到进一步增强；分布式硬件支持的范围扩大到音频和

锐湃·2025-02-07 23:40

【专题】2024年直播、短视频：抖音、小红书、快手行业报告汇总PDF合集分享（附原数据表）

p=38697在当今数字化飞速发展的时代，直播、短视频行业已然成为了大众生活与商业运作中不容忽视的重要力量，正不断重塑着信息传播与消费的格局。2024年，这一领域更是呈现出多元且复杂的发展态势。

·2025-02-07 22:50

AudioLM音频生成模型简介

AudioLM音频生成模型是一种先进的音频生成技术，它广泛应用于语音合成、音乐生成等领域。

低配天才·2025-02-07 18:09

直播预告｜2024中服云工业物联网案例巡礼暨年终总结

致尊敬的合作伙伴、业界同仁及广大观众朋友们在这个辞旧迎新的美好时刻，中服云特此举办线上年终总结直播活动，旨在回顾过去一年中服云在工业物联网领域的卓越成就，分享最新案例，展望未来的发展蓝图。

·2025-02-07 17:38

免费音视频转文字工具：本地使用，内置Whisper模型，精准提取文案

这款内置Whisper模型的工具，支持音频、视频转文字，精准度高，速度快，适用于会议记录、课程字幕、采访整理等多种场景！

2501_90520495·2025-02-07 12:02

比分网站开发全流程/快速搭建比分网直播站/用现代技术实现高效架构

近年来，电竞和体育比分网站的需求日益增长。用户希望实时了解比分、赛程以及比赛动态，而一个功能齐全、界面友好的比分网站能够满足这些需求。本文将从技术选型出发，介绍如何利用Vue、Java和Flutter快速搭建一个比分网站，涵盖前端、后端和移动端开发。一、项目需求分析在开始开发之前，需要明确网站的核心功能需求：实时比分更新：提供比赛的实时比分、进展和统计。赛程与赛事信息：展示比赛时间、参赛队伍和赛事

Tina0898·2025-02-07 09:38

Android SDK 提供的3套音频播放的API之窥探AudioTrack

1、publicAudioTrack(intstreamType,intsampleRateInHz,intchannelConfig,intaudioFormat,intbufferSizeInBytes,intmode)2、AudioTrack.BuilderAndroidM(6.0)之后舍弃了publicAudioTrack(intstreamType,intsampleRateInHz,i

大厂在职_QKT·2025-02-07 08:01

C++课程--设计设计思想、方法与模式（李建忠老师）

【干货回顾】李建忠老师在Boolan直播间和大家畅聊《C++软件设计与模式的道法术》，精辟囊括了《软件设计思想、方法与模式》C++课程的主要内容，以下为本期直播干货重点：讲师介绍李建忠Boolan首席软件专家

Boolan博览·2025-02-07 07:22

2024年技术总结与2025年最有潜力的技术发展方向

从文本生成到图像、音频、视频生成，这些技术被广泛应用于教育、娱乐、医

Allen-Steven·2025-02-07 02:23

DeepSeek R1和V3区别

其优势在于高效的多模态处理能力（文本、图像、音频、视频）和较低的训练成本（

@Rocky·2025-02-06 23:02

国标GB28181摄像机接入EasyGBS国标GB28181网页直播平台：GB/T28181—2016标准中的视音频回放控制协议

国标GB28181摄像机接入EasyGBS国标GB28181网页直播平台，是基于GB/T28181—2016标准的视音频回放控制协议实现的。

EasyGBS·2025-02-06 20:45

国标GB28181公网直播EasyGBS国标GB28181网页直播平台：GB/T28181—2016标准中的历史视音频的回放基本要求

国标GB/T28181-2016标准中的历史视音频回放功能是公共安全视频监控联网系统的重要组成部分，其基本要求和实现流程在多个证据中得到了详细描述。

EasyGBS·2025-02-06 20:14

使用国标流媒体服务器查看监控摄像头视频流如何正确使用UDP及TCP协议？

近期也有不少用户用https接入国标流媒体服务器，是一种十分实用的视频监控网页直播。有位开发者为了进行测试，在自己的现场环

EasyGBS·2025-02-06 20:14

iOS项目开发中实现IM消息体自动解析

引言在现代直播项目中，IM（即时消息）功能是用户互动的重要组成部分。无论是直播间的聊天、弹幕消息，还是系统通知和互动提示，都需要通过IM消息传递给用户。

胖虎1·2025-02-06 18:32

茶思屋直播|构建多元共生的生态空间：TinyEngine生态的融合之道

低代码引擎使能开发者定制低代码平台。它是低代码平台的底座，提供可视化搭建页面等基础能力，既可以通过线上搭配组合，也可以通过cli创建个人工程进行二次开发，实时定制出自己的低代码平台。适用于多场景的低代码平台开发，如：资源编排、服务端渲染、模型驱动、移动端、大屏端、页面编排等。11月21日17点，华为云前端工程师，云计算用户体验部体验技术团队TinyEngine项目成员姚赟老师，将为大家带来#茶思一

·2025-02-06 17:15

Ubuntu22.04如何设置linux-lowlatency核心

在Ubuntu上设置linux-lowlatency内核可以帮助减少系统延迟，适合需要低延迟环境的任务（如音频处理、实时应用等）。

狂爱代码的码农·2025-02-06 16:45

Mac 酷*.kgma(免费解密)+.flac转换.mp3

于是在网上淘啦一个蓝牙音频接收器-给音响加个蓝牙和插U盘的功能。其实主要是用U盘功能，因为老家没有宽带，手机信号也不好。那么就需要下载歌曲到U盘啦！

HH思️️无邪·2025-02-06 15:12

游戏开发领域 - 游戏引擎 UE 与 Unity

游戏引擎游戏引擎是用于开发电子游戏的软件框架，它提供图形渲染、物理模拟、音频处理、动画系统、脚本编写等功能，帮助开发者高效创建电子游戏但是，游戏引擎也不仅限于游戏开发，还广泛应用于其他领域，例如，影视、

我命由我12345·2025-02-06 12:21

使用 Swift 完成FFmpeg音频录制、播放和视频格式转换应用

使用Swift构建音频录制、播放和视频格式转换应用在这篇博客中，我们介绍如何用ffmpeg在swift上实现音频录制、音频播放、通过ffmpeg命令实现视频格式转换音频录制：通过AVAudioRecorder

陈皮话梅糖@·2025-02-06 11:09

音频基础知识集合

采样率（SampleRate）采样率（采样频率）即每秒内进行采样的次数。单位是Hz。采样率越高，数字波形的形状就越接近原始模拟波形，声音的还原就越真实。如44100HZ,48000HZ等。位深（BitDepth）采样位数（又称位宽，位深，位深度），采样位数的含义是用多少个点来描述声音信号的强度。采样位数反应了采样系统对声音的辨析度，位数越高，对声音的记录就越精细。常见的有8位，16位，24位和32

超开心~·2025-02-06 10:36

音视频开发成长之路与音视频知识点总结

在现实生活中，音视频发挥着越来越重要的作用，如视频会议、直播、短视频、播放器、语音聊天等。所以从事音视频开发是一件有意义的事情，机遇和挑战并存。

Linux服务器开发·2025-02-06 10:36

AIGC从入门到实战：基于大模型的人工智能应用的涌现和爆发

AIGC借助深度学习模型，能够生成逼真的图像、视频、音频、文本等内容，为人类的创造力和生产力带来了革命性的改变。1.2大模型：AIGC的基石AIGC的核心驱动力在于大规模预训练模型（简称“大模型”）。

AI天才研究院·2025-02-06 01:00

大模型高级工程师实践 - 将课程内容转为视频

通过整合之前生成的文字、音频、PPT，我们能够制作出引人入胜的科普课程视频，使表达更加生动且多样化。本节课程将介绍如何利用音视频处理工具ffmpeg和moviepy，快速将课程内容转化为视频。

MichaelIp·2025-02-05 21:57

Java 技术全栈深度探索：从基础到企业级应用实践

从RPC框架、注册中心等分布式核心组件，到数据中台、服务容错等企业级架构要点；从Spring生态剖析到电商、直播答题等多类型项目实战；涵盖容器云、监控、测试、CI&CD平台实践以及问题定位与安全分析等运维保障内容

智界工具库·2025-02-05 19:43

LLM 算法工程师的速成指南：微调、强化学习微调与偏好微调

OpenAI近期在直播中，提到了两个新的概念：①强化学习微调（ReinforcementFine-Tuning）：仅需少量高质量数据（数十到数千个），模型即可通过强化学习处理复杂任务。

大模型玩家·2025-02-05 16:24

DirectX：DirectX概述与历史_2024-07-20_04-53-32.Tex

它包括一系列的组件，每个组件负责不同的多媒体处理任务，如图形渲染、音频处理、输入设备控制等。

chenjj4003·2025-02-05 13:59

【知识图谱增强】大模型应用架构：融合智能与数据的新纪元！

1.引言最近OpenAI连续12天进行12场直播，发布新品。其中第八天介绍了ChatGPT搜索功能项全体用户开放。

大模型入门教程·2025-02-05 10:36

Azure openai speech to text -Whisper “code“:“404“,“message“: “Resource not found“

i'mtryingtotranscribeaaudiofilebyusingwhisperthroughAzureopenaikey,endpoints,deployment我正在尝试通过使用AzureOpenAI的密钥、端点和部署来转录音频文件

营赢盈英·2025-02-05 04:53

FFmpeg简介

文章目录一、FFmpeg介绍二、FFmpeg组成三、FFmpeg包含类库说明2.1类库说明2.2常用结构一、FFmpeg介绍FFmpeg是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序

i胡说·2025-02-05 03:15

将音频mp3文件添加背景音乐

你可以使用Python的pydub库来合成两个音频文件，并调整背景音乐的音量，使朗诵的声音更强。以下是实现的Python代码：步骤读取朗诵音频文件（speech.mp3）。

MonkeyKing.sun·2025-02-05 02:43

Android Audio基础（20）——AudioTrack音频控制

AudioTrack是应用用于播放音频数据的类，可以使用set方法设置音频参数，然后使用start来启动播放。而pause和stop则是用于控制播放过程的方法。

yyc_audio·2025-02-04 20:56

【Numpy核心编程攻略：Python数据处理、分析详解与科学计算】2.20 傅里叶变换：从时域到频域的算法实现

2.20傅里叶变换：从时域到频域的算法实现目录《傅里叶变换：从时域到频域的算法实现》2.20.1FFT算法原理2.20.2复数数组存储优化2.20.3频域滤波案例2.20.4音频处理案例2.20.5与CUFFT

精通代码大仙·2025-02-04 13:37

【声音场景分类--论文阅读】

1.基于小波时频图特征在声音场景分类基于小波时频图特征在声音场景分类任务中的表现2.增强增强高效音频分类网络https://arxiv.org/pdf/2204.11479v5https://github.com

繁华落尽，寻一世真情·2025-02-04 12:21

JavaSE-IO

文件的基础知识基本概念文件：保存文字，视频，音频，图片等内容文件流：文件在程序中以流的形式来操作Java程序（内存）---输出流-->文件（磁盘）Java程序（内存）<-输入流----文件（磁盘）个人理解

无敌的小周·2025-02-04 06:05

Diffusion--人工智能领域的革命性技术

扩散模型是一类生成式模型，它通过逐步去噪的方式，从随机噪声中生成高质量的数据，近年来在图像、音频、视频等多个领域取得了显著进展。1.发展历史扩散模型的概念源于物理学中的扩散过程，即粒子在介质中的随机

油泼辣子多加·2025-02-04 04:20

TensorFlow实现卷积神经网络CNN

一、卷积神经网络CNN简介卷积神经网络（ConvolutionalNeuralNetwork，CNN）最初是为解决图像识别等问题设计的，CNN现在的应用已经不限于图像和视频，也可用于时间序列信号，比如音频信号和文本数据等

红叶骑士之初·2025-02-03 23:40

音视频多媒体编解码器基础-codec

因为数据类型不同所以编解码算法不同，分为图像、视频和音频三大类；因为流程不同，可以分为编码和解码两部分；因为编码器实现不同，分为硬编码和软编码；因为编解码硬件位置不同，可以分为片内、片外和独立编解码模块三类

硬件学长森哥·2025-02-03 22:04

python：如何播放 .spx 声音文件

whereffmpegD:\FFmpeg\64\ffmpeg.exepipinstallpyaudiopipinstallwave编写play_spx.py如下#-*-coding:utf-8-*-"""播放*.spx音频文件

belldeep·2025-02-03 22:00

A deep multimodal fusion method for personality traits prediction

本文提出了一种新的深度多模态融合方法，用于从多种数据模态（包括文本、音频和视觉输入）预测人格特质。研究方法模型架构：视觉特征提取：使用预训练模型ViT-B16和VGG16。

m0_59933522·2025-02-03 21:20

36.FFmpeg学习笔记 - ffplay源码解读4之解码线程

在stream_component_open函数中，分别创建了一个视频解码线程和音频解码线程：staticintstream_component_open(VideoState*is,intstream_index

whoyouare888·2025-02-03 20:19

K-Lite Codec Pack 是一个广泛使用的音频和视频编解码器（Codec）集合包

概述K-LiteCodecPack是一个广泛使用的音频和视频编解码器（Codec）集合包，它允许Windows用户轻松播放各种多媒体格式文件。

byco·2025-02-03 19:12

推荐频道

音频直播

MKV视频封装软件 MKVToolNix v88.0 中文免安装版

使用Python进行语音识别：将音频转为文字

微信小程序框架探究和解析

Python：谈谈常规滤波器(带通、低通、高通、带阻)的用法

罗永浩的“最后一次创业”：从AR到AI大模型的战略转型

OpenHarmony 4.0 Release发布，同步升级API 10

使用 sndpeek 识别说话者

Licode简介及与SRS对比

为了实现对不同说话人的处理，可以加入一些专门的层和技术，来区分和识别说话人的特征。

OpenHarmony 4.0 Release发布，同步升级API 10

【专题】2024年直播、短视频：抖音、小红书、快手行业报告汇总PDF合集分享（附原数据表）

AudioLM音频生成模型 简介

直播预告｜2024中服云工业物联网案例巡礼暨年终总结

免费音视频转文字工具：本地使用，内置Whisper模型，精准提取文案

比分网站开发全流程/快速搭建比分网直播站/用现代技术实现高效架构

Android SDK 提供的3套音频播放的API之窥探AudioTrack

C++课程--设计设计思想、方法与模式（李建忠老师）

2024年技术总结与2025年最有潜力的技术发展方向

DeepSeek R1和V3区别

国标GB28181摄像机接入EasyGBS国标GB28181网页直播平台：GB/T28181—2016标准中的视音频回放控制协议

国标GB28181公网直播EasyGBS国标GB28181网页直播平台：GB/T28181—2016标准中的历史视音频的回放基本要求

使用国标流媒体服务器查看监控摄像头视频流如何正确使用UDP及TCP协议？

iOS项目开发中实现IM消息体自动解析

茶思屋直播|构建多元共生的生态空间：TinyEngine生态的融合之道

Ubuntu22.04如何设置linux-lowlatency核心

Mac 酷*.kgma(免费解密)+.flac转换.mp3

游戏开发领域 - 游戏引擎 UE 与 Unity

使用 Swift 完成FFmpeg音频录制、播放和视频格式转换应用

音频基础知识集合

音视频开发成长之路与音视频知识点总结

AIGC从入门到实战：基于大模型的人工智能应用的涌现和爆发

大模型高级工程师实践 - 将课程内容转为视频

Java 技术全栈深度探索：从基础到企业级应用实践

LLM 算法工程师的速成指南：微调、强化学习微调与偏好微调

DirectX：DirectX概述与历史_2024-07-20_04-53-32.Tex

【知识图谱增强】大模型应用架构：融合智能与数据的新纪元！

Azure openai speech to text -Whisper “code“:“404“,“message“: “Resource not found“

FFmpeg简介

将音频mp3文件添加背景音乐

Android Audio基础（20）——AudioTrack音频控制

【Numpy核心编程攻略：Python数据处理、分析详解与科学计算】2.20 傅里叶变换：从时域到频域的算法实现

【声音场景分类--论文阅读】

JavaSE-IO

Diffusion--人工智能领域的革命性技术

TensorFlow实现卷积神经网络CNN

音视频多媒体编解码器基础-codec

python：如何播放 .spx 声音文件

A deep multimodal fusion method for personality traits prediction

36.FFmpeg学习笔记 - ffplay源码解读4之解码线程

K-Lite Codec Pack 是一个广泛使用的音频和视频编解码器（Codec）集合包

AudioLM音频生成模型简介