语音通话第2页

【sklearn 01】人工智能概述

深度学习目前在语音、图像等领域取得很好的效果

@金色海岸·2025-03-17 20:41

第三篇从入门到专业：SQL标准语法详解与高效编码规范指南

目录一、SQL的"普通话"——标准SQL1.1为什么需要标准SQL？

随缘而动，随遇而安·2025-03-17 20:08

AI 大模型应用数据中心建设：高性能计算与存储架构

这些AI大模型在自然语言处理、计算机视觉、语音识别等领域展现出强大的应用潜力，但也对计算资源和数据存储提出了极高的要求。传统的计算架构难以满足AI大

AI智能涌现深度研究·2025-03-17 12:10

一个简单的语音识别实现---百度在线语音识别REST API SDK（Python）简单使用

百度在线语音识别RESTAPISDK（Python）简单使用首先申请开发者权限注册开发者信息完成注册创建新应用下载SDK并查看key在应用管理中，选择查看key，记录AppID、APIKey、SecretKey

DerrickOzil·2025-03-17 12:09

AI大模型从入门到精通，2025终极指南！好卷啊，又不能躺平，只能悄悄卷你们了！

这些模型通常具有高度的准确性和泛化能力，可以应用于各种领域，如自然语言处理、图像识别、语音识别等。为什么要学AI大模型？

大模型教程·2025-03-17 10:30

FireRedASR：精准识别普通话、方言和歌曲歌词！小红书开源工业级自动语音识别模型

微信公众号｜搜一搜：蚝油菜花大家好，我是蚝油菜花，今天跟大家分享一下FireRedASR这个小红书开源的工业级自动语音识别模型。

蚝油菜花·2025-03-17 07:39

语音识别后处理代码

importreimportdifflibimportosfromdatetimeimportdatetime,timedeltadefextract_snippets_no_duplicates(input_file,output_file,window=150):"""从输入文本文件中提取包含目标字符（A、B、C、D、"开始"、"结束"）前后`window`个字符范围的文本。提取时扩展到完整的

hitsz_syl·2025-03-17 07:07

一周热点：微软攻克语音输入、文本输出难题-Phi-4-multimodal

以下是对该模型的详细解释：模型概述微软Phi-4-multimodal是一个能够同时处理文本、图像和语音的多模态大型语言模型。

数据分析能量站·2025-03-16 22:57

豆包AI的详细介绍

二、主要功能及示例智能对话功能描述：豆包AI能够理解和解析自然语言，用户可以通过语音或者文字的方式输入问题，它

古龙飞扬·2025-03-16 21:50

Twilio发送短信

简介Twilio为将来的商业沟通提供强大支持，并使开发人员能够将语音、VoIP和消息传送嵌入到应用程序中。

五彩的颜色·2025-03-16 18:27

Android 百度语音合成工具类封装：内存泄漏防护与简化调用

适配高版本Android系统使用ApplicationContext避免内存泄漏默认回调支持，调用更简洁线程安全与资源释放优化完整代码：BaiduTTSManager.java：importandroid.content.Context;importandroid.os.Handler;importandroid.os.Looper;importandroid.util.Log;importand

tangweiguo03051987·2025-03-16 16:44

AI笔记——语音识别

摘要：语音识别（AutomaticSpeechRecognition,ASR）是人工智能领域的一项重要技术，它将人类的语音信号转换成文字。

Yuki-^_^·2025-03-16 15:07

自动语音识别（ASR）模型全览

适用场景：早期电话语音识别（嵌入式设备）、孤立词识别（工业控制终端）

u013250861·2025-03-16 15:05

记一次联想ThinkBook 16P G5 IRX ，麦克风无声音问题的解决

1、微信语音麦克风无声音在电脑上微信电话，麦克风的功能没有，或者说你要录个屏给客户，发现讲不了话，也是比较的麻烦。2、联系客服建议升级声卡驱动，然后更新了以后，一个样没什么区别。

花花鱼·2025-03-16 06:59

Assembly语言的自然语言处理

从语音识别、机器翻译到情感分析等，NLP正在改变我们与信息之间的互动方式。不过，当前主流的NLP研究通常是用高级编程语言（如Python、Ja

花韵婷·2025-03-16 05:57

NPU的应用场景：从云端到边缘

NPU的应用场景非常广泛，主要包括以下几个方面：1.云计算与数据中心AI推理服务：在云端提供高效的AI推理服务，例如图像识别、语音识别。

绿算技术·2025-03-16 02:29

NPU的工作原理：神经网络计算的流水线

2.数据输入·输入数据（如图像、语音）通过接口传输到NPU。3.计算执行·NPU根据模型结构，依次执行卷积、池化、全连接等计算任务。·矩阵乘法单元和卷积加速器并行工作，高效完成计算。

绿算技术·2025-03-16 02:28

谷歌Gemini 3大模型发布，AI领域再掀波澜！

从智能语音助手到图像识别技术，从自动驾驶汽车到医疗诊断辅助系统，AI正以前所未有的速度改变着我们的生活和工作方式。在这

广拓科技·2025-03-15 19:14

小狐狸AI数字人源码独立SAAS部署全开源+搭建环境教程

声音核心功能亮点：1:1真人级克隆技术声音克隆：上传3分钟音频，AI深度学习声纹特征，复刻语气、情感、方言形象克隆：通过照片/视频建模，生成动态3D数字人，表情自然，动作流畅智能口型同步引擎AI算法精准匹配唇形与语音

kaui52066·2025-03-15 18:34

uniapp vue3项目用原生h5 audioContext实现语音文件倍速播放，可适应h5和安卓app

前言uniapp项目要做类似微信的聊天语音播放功能，可以切换语音，可以点击切换播放/停止播放状态，还可以倍速播放。

努力做大神·2025-03-15 10:33

吴恩达机器学习笔记复盘（二）监督学习和无监督学习

语音识别，输入音频剪辑，输出文本记录。机器翻译，输入一种语言文本，输出其他语言的相应翻译。在线广告，输入广告和用户信息，预测用户是否点击广告，为公司带来大量

wgc2k·2025-03-15 09:21

cv君独家视角 | AI内幕系列七：EfficientViT模型：基于多尺度线性注意力模块，实现高效的高分辨率密集预测

通过一系列精心策划的文章，我们将带您深入了解AI的各个领域，从计算机视觉到文本语音等多模态领域，从基础理论到前沿技术，从行业应用到未来趋势。

cv君·2025-03-15 09:19

Python中用SpeechRecognition库和 vosk模型来识别语音

Python中的SpeechRecognition库是一个比较好用的语音识别模块，提供了将语音识别成文字的方法，支持中文识别。

老菜鸟YDZ·2025-03-15 04:01

pjsip dtmf发送和接收（pjsua）

交互式语音应答（IVR）系统DTMF广泛用于IVR系统，用户

小gpt&·2025-03-15 00:00

云原生周刊：基于 KubeSphere LuBan 架构打造DeepSeek 插件

·2025-03-14 22:37

人工智能概念

近邻算法深度学习是实现这一目标的工具，模仿人脑，使用多层神经网络进行学习算法：多层感知器、卷积神经网络、循环神经网络、长短期记忆网络大模型指参数量巨大的深度学习模型人工智能应用：自然语言处理、图像识别与生成、语音识别

zhangpeng455547940·2025-03-14 19:13

DeepSeek 与其他 AI 模型的对比：优势与特色分析

多模态能力：DeepSeek支持多种输入和输出形式，如图像和语音。行业适配性：DeepSeek提供了针对不同行业的优化方案。三、与BERT系列的对比生成能力：Dee

CarlowZJ·2025-03-14 14:00

在Android Studio中通过CMake实现交叉编译生成动态so文件

aux_source_directoryinclude_directorieslink_directoriesadd_librarytarget_link_libraries将CMake配置文件依赖到Gradle中交叉编译生成动态库参考NDK工具链最近项目上需要将微信语音

H.ZWei·2025-03-14 08:52

EasyRTC实现海思设备与Web浏览器小程序双向通话，收到浏览器端发来的音频应该如何解码播放音频

最近我们在调试EasyRTC双向通话时（海思设备与浏览器），发现很多对接的开发者不知道怎么用海思SDK去播放浏览器传过来的音频数据；EasyRTC在浏览器端采样的音频参数为：8000采样，编码格式G711A

EasyRTC·2025-03-14 05:29

WebRTC技术在音视频处理上的难点剖析：EasyRTC嵌入式视频通话SDK的优化策略

在实时通信领域，WebRTC技术因其开源、高效、低延迟等特性而备受瞩目。然而，尽管WebRTC技术已经相对成熟，但在实际应用中仍然面临诸多挑战。一、网络相关问题（一）网络延迟与稳定性在网络基础设施薄弱或带宽有限的地区，实时通信质量会大打折扣。此外，不同网络运营商之间的差异以及网络拥塞高峰时段，也会导致延迟飙升、丢包率增加。EasyRTC解决方案：EasyRTC通过优化网络传输技术，采用先进的智能路

Black蜡笔小新·2025-03-14 05:54

uinapp前端技术带动陪玩软件市场，语音陪玩系统源码开发打造你自己的市场

此外，陪玩软件还提供了如语音互动、礼物打赏，在线接单，社交直播等功能，方便玩家畅玩游戏。跨平台开发：uniapp支持一次开发，多端发布，包括iOS、Android、Web以及各种小程序等平台。

·2025-03-14 04:41

【自学笔记】讯飞星火基础知识点总览-持续更新

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录讯飞星火基础知识点总览一、讯飞星火简介二、核心功能1.语音识别2.自然语言处理3.知识图谱4.星火API三、基础概念1.AI模型2

Long_poem·2025-03-14 02:08

EasyRTC支持嵌入式智能硬件与微信小程序实时通话

视频物联网设备又是特别受人关注的设备，因为他们具备有看得见的属性，像智能家居里面的摄像头、可视门铃、智能猫眼、宠物机器人等等，在这些场景中现在存在几个比较大的弊端：来一种设备就要安装一种设备的App；单向的实时视频效果可以，但是双向的通话效果一般

xiejiashu·2025-03-13 15:24

泛IPC场景中微信小程序与智能硬件VoIP端到端视频通话实际就是WebRTC视频通话

最近智能硬件（IPC摄像机、智能门铃、智能猫眼、宠物机器人、陪护机器人、带屏可视音箱、带屏台灯等等）与微信/小程序视频通话的功能火起来了，视乎传统硬件终于开始走出了向WebRTC突破的一步，相信未来WebRTC

xiejiashu·2025-03-13 15:24

EasyRTC实现基于WebRTC技术实现的即时通信类应用

WebRTC简介WebRTC，名称源自网页即时通信（英语：WebReal-TimeCommunication）的缩写，是一个支持网页浏览器进行实时语音对话或视频对话的API。

xiejiashu·2025-03-13 15:24

图像识别技术与应用

第一节课这节课了解了这门专业的就业职位：工资是怎么样的岗位职责和任职要求看到了人类工业文明的演变了解了人工智能的研究、开发、模拟、延伸、理论、方法和技术看到了生活方式的转变比如智能语音闹钟控制系统、自动驾驶和人脸识别考勤智能购物

超帅的好吧·2025-03-13 13:36

有哪些好用的AI视频加工创作网站

-网址：https://www.synthesia.io2.Fliki-特点：文本转视频，AI语音配音，内置数百万素材库。-适用：快速将

皮皮虾1234·2025-03-13 10:11

【Python】构建智能语音助手：使用Python实现语音识别与合成的全面指南

随着人工智能技术的迅猛发展，语音助手已成为人们日常生活中不可或缺的一部分。从智能手机到智能家居设备，语音交互提供了便捷高效的人机交互方式。

蒙娜丽宁·2025-03-13 02:41

声音克隆一键本地化部署 GPT-SoVITS

文章目录GPT-SoVITS介绍1：GPT-SoVITS安装2：GPT-SoVITS使用2.1人声伴奏分离，去混响去延时工具2.2语音切分工具2.3语音降噪工具2.4中文批量离线ASR工具2.5语音文本校对标注工具

博客胡·2025-03-12 18:48

AI视频生成工具清单（附网址与免费说明）

AI视频生成工具清单（附网址与免费说明）1.Synthesia网址：https://www.synthesia.io是否免费：免费试用（生成视频带水印）核心功能：✅120+AI虚拟主播✅支持70种语言语音合成

远方2.0·2025-03-12 18:46

基于HarmonyNext的实时音视频通信实战指南

本文将深入探讨如何在HarmonyNext平台上使用ArkTS实现实时音视频通信，并通过一个实战案例来详细讲解如何实现一个简单的音视频通话应用。环境准备在开始之前，确保你已经安装了以下

·2025-03-12 17:43

Phi-4-multimodal：图、文、音频统一的多模态大模型架构、训练方法、数据细节

Phi-4-Multimodal是一种参数高效的多模态模型，通过LoRA适配器和模式特定路由器实现文本、视觉和语音/音频的无缝集成。

余俊晖·2025-03-12 12:40

情感识别（Emotion Recognition）

情感识别（EmotionRecognition）是通过分析人类的多模态数据（如面部表情、语音、文本等）来识别和理解其情感状态的技术。它在人机交互、心理健康、市场分析等领域有广泛应用。

路野yue·2025-03-12 08:10

【AI深度学习网络】Transformer时代，RNN（循环神经网络）为何仍是时序建模的“秘密武器”？

循环神经网络（RecurrentNeuralNetwork,RNN）是一种专门处理序列数据（如文本、语音、时间序列）的深度学习模型。

arbboter·2025-03-12 02:18

深度解析短视频开源项目 MoneyPrinterTurbo 使用教程

它提供了一整套完整的工作流，结合了图像处理、文本转语音(TTS)、视频编辑等功能，帮助用户快速制作符合社交媒体平台（如TikTok、InstagramReels、YouTubeShorts）要求的短视频

非著名架构师·2025-03-12 02:47

多模态大模型：技术原理与实战模型压缩实战

ZenandtheArtofComputerProgramming关键词：多模态大模型，技术原理，模型压缩，实战，TensorFlow，PyTorch，模型压缩方法，应用场景1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，多模态大模型在图像识别、语音识别

AGI大模型与大数据研究院·2025-03-12 01:16

2025年工业智能对讲机有多智能？数据采集+AI不在话下！

但传统设备仅能实现基础语音传输的局限性，已难以满足现代工业对效率与智能化的需求。

AORO_BEIDOU·2025-03-11 22:18

esp32手把手DIY AI小智语音助手教程 (三) 配置ESP32设备 Wi-Fi连接网络

esp32手把手DIYAI小智语音助手教程(三)配置ESP32设备Wi-Fi连接网络1.WI-FI网络配置1）启动设备在bin固件下载/烧录后，将设备保持接通电源，按下开发板上的RST按钮复位重启设备（

代码简单说·2025-03-11 22:44

【花雕动手做】基于ESP32S3和通义千问大模型AI语音聊天机器人

开源项目1、核心功能：该项目利用ESP32S3开发板，结合通义千问大模型，实现了一个AI语音聊天机器人。用户可以通过语音与机器人进行交互，机器人能够理解用户的语音指令并给出相应的语音回答。

驴友花雕·2025-03-11 22:44

推荐频道

语音通话

【sklearn 01】人工智能概述

第三篇 从入门到专业：SQL标准语法详解与高效编码规范指南

AI 大模型应用数据中心建设：高性能计算与存储架构

一个简单的语音识别实现---百度在线语音识别REST API SDK（Python）简单使用

AI大模型从入门到精通，2025终极指南！好卷啊，又不能躺平，只能悄悄卷你们了！

FireRedASR：精准识别普通话、方言和歌曲歌词！小红书开源工业级自动语音识别模型

语音识别后处理代码

一周热点：微软攻克语音输入、文本输出难题-Phi-4-multimodal

豆包AI的详细介绍

热门AI创作助手推荐【第一期】

Twilio发送短信

Android 百度语音合成工具类封装：内存泄漏防护与简化调用

AI笔记——语音识别

自动语音识别（ASR）模型全览

记一次联想ThinkBook 16P G5 IRX ，麦克风无声音问题的解决

Assembly语言的自然语言处理

NPU的应用场景：从云端到边缘

NPU的工作原理：神经网络计算的流水线

谷歌Gemini 3大模型发布，AI领域再掀波澜！

小狐狸AI数字人源码独立SAAS部署全开源+搭建环境教程

uniapp vue3项目用原生h5 audioContext实现语音文件倍速播放，可适应h5和安卓app

吴恩达机器学习笔记复盘（二）监督学习和无监督学习

cv君独家视角 | AI内幕系列七：EfficientViT模型：基于多尺度线性注意力模块，实现高效的高分辨率密集预测

Python中用SpeechRecognition库和 vosk模型来识别语音

pjsip dtmf发送和接收（pjsua）

云原生周刊：基于 KubeSphere LuBan 架构打造DeepSeek 插件

人工智能概念

DeepSeek 与其他 AI 模型的对比：优势与特色分析

在Android Studio中通过CMake实现交叉编译生成动态so文件

EasyRTC实现海思设备与Web浏览器小程序双向通话，收到浏览器端发来的音频应该如何解码播放音频

WebRTC技术在音视频处理上的难点剖析：EasyRTC嵌入式视频通话SDK的优化策略

uinapp前端技术带动陪玩软件市场，语音陪玩系统源码开发打造你自己的市场

【自学笔记】讯飞星火基础知识点总览-持续更新

EasyRTC支持嵌入式智能硬件与微信小程序实时通话

泛IPC场景中微信小程序与智能硬件VoIP端到端视频通话实际就是WebRTC视频通话

EasyRTC实现基于WebRTC技术实现的即时通信类应用

图像识别技术与应用

有哪些好用的AI视频加工创作网站

【Python】构建智能语音助手：使用Python实现语音识别与合成的全面指南

声音克隆一键本地化部署 GPT-SoVITS

AI视频生成工具清单（附网址与免费说明）

基于HarmonyNext的实时音视频通信实战指南

Phi-4-multimodal：图、文、音频统一的多模态大模型架构、训练方法、数据细节

情感识别（Emotion Recognition）

【AI深度学习网络】Transformer时代，RNN（循环神经网络）为何仍是时序建模的“秘密武器”？

深度解析短视频开源项目 MoneyPrinterTurbo 使用教程

多模态大模型：技术原理与实战 模型压缩实战

2025年工业智能对讲机有多智能？数据采集+AI不在话下！

esp32手把手DIY AI小智语音助手教程 (三) 配置ESP32设备 Wi-Fi连接网络

【花雕动手做】基于ESP32S3和通义千问大模型AI语音聊天机器人

第三篇从入门到专业：SQL标准语法详解与高效编码规范指南

多模态大模型：技术原理与实战模型压缩实战