android-语音

深度学习的前沿与挑战：从基础到最新进展

.卷积神经网络（CNN）2.循环神经网络（RNN）3.生成对抗网络（GAN）4.变分自编码器（VAE）5.自注意力机制与Transformer深度学习的应用1.计算机视觉2.自然语言处理（NLP）3.语音识别与合成

Jason_Orton·2025-02-27 03:09

python系列&deep_study系列：使用python操作麦克风录制讲话，实时语音识别转换为文字

使用python操作麦克风录制讲话，实时语音识别转换为文字使用python操作麦克风录制讲话，实时语音识别转换为文字项目步骤VoskPyaudio完整代码使用python操作麦克风录制讲话，实时语音识别转换为文字在这个项目中

坦笑&&life·2025-02-27 02:57

大模型之二十七-语音识别Whisper实例浅析

Whisper简介Whisper是OpenAI于2022年9月开源的一个多语种识别模型，目前支持99种语言，是目前性能最好的开源多语种识别ASR大模型，第一版版使用了68万小时标注好的语料预训练模型，而large-v3的标注数据超过了500万小时，其paper中并没透露使用语料的详细来源，估计是爬了一些版权数据，在Huggingface上提到模型有很强的泛化能力，能够在未经特定训练的情况下处理新的

shichaog·2025-02-27 01:55

使用Python和Vosk库实现语音识别

使用Python和Vosk库实现语音识别在人工智能和机器学习领域，语音识别技术正变得越来越重要。Python作为一种强大的编程语言，拥有丰富的库和框架，可以方便地实现语音识别功能。

车载testing·2025-02-27 01:22

Python+whisper/vosk实现语音识别

Whisper-large-v3-turbo模型二、vosk1、Vosk介绍2、vosk安装3、使用vosk三、总结一、Whisper1、Whisper介绍Whisper是一个由OpenAI开发的人工智能语音识别模型

唯余木叶下弦声·2025-02-27 01:50

RK3568笔记七十八：PCM转WAV

一、简介最近看到Deepseek大模型，网上也有很多使用ESP32的小智智能语音功能，所以想在RK3568上实现类型的功能。

殷忆枫·2025-02-27 00:48

深度学习：从神经网络到智能应用

无论是语音识别、图像识别，还是自动驾驶、自然语言处理，深度学习都在推动着技术的发展和行业的变革。那

Jason_Orton·2025-02-27 00:43

全市场大模型分类及对比分析报告

大模型凭借其强大的计算能力和海量数据处理能力，在自然语言处理（NLP）、计算机视觉（CV）、语音识别等领域取得了显著成果。

早退的程序员·2025-02-26 13:53

【物联网项目】基于ESP8266设计的家庭灯光与火情智能监测系统（完整工程资料源码等）

主要模块如HC-SR501人体红外传感器模块、光敏电阻传感器模块、火焰传感器模块、LD3320语音识别模块、DHT11温湿度传感器模块等。使用Arduino开发软件进行烧录程序

阿齐Archie·2025-02-26 13:20

脑洞打开话题：deepseek这么火，什么时候能完全代替人类？

以下是关于AI何时可能完全代替人类的一些分析和思考：1.技术层面的限制尽管AI在某些特定任务上已经超越了人类（如图像识别、语音识别、围棋等），但要完全代替人类，AI需要在以下几个方面取得突破：通用人工智能

噔噔噔噔@·2025-02-26 10:29

python 语音转文本中文——DeepSpeech

DeepSpeech简介与音频转文本实践DeepSpeech是由Mozilla开发的一种开源语音识别引擎，基于深度学习技术，采用端到端架构，可以高效地将语音转换为文本。

drebander·2025-02-26 00:51

【2025最新】ChatGPT国内直连中文版镜像网站

两者对比项目官网镜像支付手段国际支付国内支付封禁策略网站检测，可能随时封禁采用更灵活的绕过策略，不易封禁价格每月140元订阅费用+每年70元虚拟卡一个月低至19.99元随用性需要固定订阅灵活选择，满足多种需求语音功能必须下载

J19109690198·2025-02-25 16:29

实战分享：如何基于源码开发一款优质的陪玩系统H5小程序APP公众号

功能需求：根据目标用户群体的需求，确定陪玩系统的核心功能，如实时语音互动、直播间与聊天室、

·2025-02-25 11:00

AI生成内容带来的核心挑战引发人机共治的必要提前

一、AI生成内容带来的核心挑战信息真实性危机斯坦福研究显示，AI生成虚假信息的速度是人类创作的6倍，如近期AI伪造的"拜登紧急状态"语音导致金融市场波动医疗领域已出现AI生成的伪科学内容，某健康论坛中23%

临水逸·2025-02-25 05:08

Deepseek 在电饭煲上应用会带来哪些影响？

例如，用户可以通过语音或触控界面直接与电饭煲交互，输入烹饪需求，电饭煲通过联网搜索或内置算法快速生成最佳烹饪方案并执行。这种智能化的控制方式能够提升用户体验，使烹饪过程更加便捷和高效。个性化推荐与优

百态老人·2025-02-25 05:03

2024年Android-高级面试题总结

5.执行所有字段定义处的初始化，从基类开始。6.执行构造器。(在第一行会执行基类的构造器)4.对象的销毁是按照创建的逆序来进行的。5.final的方法和类都不允许覆盖和继承。private默认实现了final。6.简述内部类的特点7.形式参数可被视为localvariable，也就是说形式参数相当于在方法中定义了一个局部变量a，当传入c时，只是将c指向的对象给a8.finally语句块是在tr

2401_86964130·2025-02-25 04:00

android开发适配深色模式,手机不支持深色模式，如何用软件解决深色模式的问题？（附有系统全局深色模式实现方法...

本帖最后由巷子口的你于2020-8-807:57编辑1.92允许通过设置为助手应用来饮捷切频深色模式(设置入口一般为系统默认应用-助手和语音输人,MIU需要设置为语音助手)提醒:稳定模式一股不用开启,OPPO

weixin_39755853·2025-02-25 03:19

神经网络与深度学习入门：理解ANN、CNN和RNN

shandianfk_com·2025-02-25 03:49

python 实现信号高通、低通、带通滤波处理代码，并画出滤波后的时域频域图

FIR滤波器常用于语音信号的低通、带通和高通滤波，特别是在需要无失真、稳定的频率响应和易于设计的情况下。FIR高通、低通、带通滤波：高通滤波：保留高频信号，衰减低频信号。低通滤波：保留低频

luthane·2025-02-25 00:03

HarmonyOS Next智能相册应用中的AI识图与语音识别实战

本文旨在深入探讨基于华为鸿蒙HarmonyOSNext系统（截止目前API12）构建智能相册应用中AI识图与语音识别技术的实战应用，基于实际开发经验进行总结。

·2025-02-24 23:19

docker安装Open WebUI详解-遇到的坑OSError: We couldn‘t connect to ‘https://huggingface.co‘ to load this file

OpenWebUI的功能丰富，包括代码高亮、数学公式支持、网页浏览、预设提示词、本地RAG集成、对话标记、模型下载、聊天记录查看以及语音支持等。

坚定信念，勇往无前·2025-02-24 22:16

模型蒸馏：让 AI 模型 “轻装上阵”，开启无限可能

无论是手机上精准的语音助手，还是购物平台个性化的推荐系统，又或是医疗领域辅助诊断的智能工具，大模型都展现出了令人惊叹的能力。然而，这位“超级智者”却有着不为人知的烦恼。

东锋1.3·2025-02-24 21:39

【带你 langchain 双排系列教程】0. 走进大模型与 LangChain 的奇妙世界

它们正在改变着我们的生活和工作方式，从智能聊天机器人到自动文本生成，从图像识别到语音助手，大模型的应用无处不在。而LangChain作为构建大模型应用的强大框架，为我们打开了通往这一奇妙世界的大门。

夜里慢慢行456·2025-02-24 18:50

live2d + edge-tts 优雅的实现数字人讲话 ~

后来了解了live2d技术，常在博客网页上见到的看板娘就是live2d技术实现的~说下demo的技术实现，核心采用live2d的模型[含有开口说话的动作]+文本转语音接口1、文本转语音接口这个接口采用前面分享过的

RoronoaV587·2025-02-24 14:20

AI知识架构之AIGC

文本方面，如文章写作、对话生成；图像领域，包括绘画、设计图生成；音频上，可进行音乐创作、语音合成；视频方面，则

heardlover·2025-02-24 13:17

举世无双语音合成系统 VITS 发展历程（2024.3 PAVITS）

VITS经典项目:FaceBook开源，1000+语言，mms-meta/MMSwenet社区，onnx和android，wenet-e2e/wetts手写模型，huakunyang/SummerTTS30+语言，rhasspy/piperVITS流式推理：

u013250861·2025-02-24 13:10

适用于呼叫中心质检的离线ASR模型

以下是适用于中文呼叫中心质检的离线语音转文字（STT）模型及工具，根据性能、中文支持、部署灵活性等维度整理：1.开源模型与框架1.1WeNet(出门问问&西北大学)特点：端到端语音识别框架，专为中文优化

狂爱代码的码农·2025-02-24 08:07

funasr 麦克风实时流语音识别；模拟vad检测单独输出完整每句话

对于最后一个语音片段的输入，需要将is_final=True设置为强制输出最

loong_XL·2025-02-24 08:06

探索未来之声：趣玩语音识别新篇章——FunASR

探索未来之声：趣玩语音识别新篇章——FunASR去发现同类优质开源项目:https://gitcode.com/在这个数字时代，语音识别技术如同开启智能交互的金钥匙，而【FunASR】正是这把钥匙中的璀璨明珠

乌芬维Maisie·2025-02-24 07:32

AI 机器人外呼 —— 开启智能外呼新纪元

精准语音识别：融合前沿语音技术，无论是字正腔圆的普通话，还是极具地域特色的各地方言，亦或

yoloGina·2025-02-24 07:28

数字人｜通过语音和图片来创建高质量的视频

简介arXiv上的计算机视觉领域论文：AniPortrait:Audio-DrivenSynthesisofPhotorealisticPortraitAnimationAniPortrait：照片级真实感肖像动画的音频驱动合成核心内容围绕一种新的人像动画合成框架展开。研究内容提出AniPortrait框架：用于生成由音频和参考肖像图像驱动的高质量动画。实现方法：分2个阶段实现第一阶段，从音频中提

产品媛Gloria Deng·2025-02-24 07:57

金融大模型应用的机遇与挑战

大模型也在从单一自然语言处理模态向语音、图像等多模态大模型演进。目前国内外推出了众多的大模型，国内就不下上百款，也因此被称为“百模大战”或“千模大战”。

Python程序员罗宾·2025-02-24 03:34

【开源】基于SSM框架“大学生艺术节”管理系统（计算机毕业设计）+万字毕业论文+远程部署+ppt+代码讲解 ssm284

10年计算机开发经验，主营业务：源码获取、项目二开、语音辅导、远程调试、毕业设计、课程设计、毕业论文、BUG修改一、系统环境运行环境:最好是javajdk1.8，我们在这个平台上运行的。

计算机毕业设计_gzs·2025-02-24 01:22

GPU与FPGA加速：硬件赋能AI应用

从语音识别和计算机视觉,到自然语言处理和推荐系统,AI已广泛应用于各个领域。然而,训练和部署AI模型需要大量计算资源,这对传统的CPU架构提出了巨大挑战。

AI天才研究院·2025-02-24 01:20

手撸 chatgpt 大模型:单词向量化编码和绝对位置编码算法

在深度学习中，所有无法通过传统数据结构描述的对象都会被用一个向量表示，例如图像、语音、单词、音频等。最初，向量中的各个字段会被初始化为随机数，然后通过大量的数据和深度学习模型来训练这些向量。

coding 迪斯尼·2025-02-24 00:11

程序员/设计师/编辑必看：高效办公工具如何缩短50%工作时间

针对程序员、编辑、设计师等文字工作者，多屏幕、全键盘、多功能鼠标及语音输入等工具可显著提升工作效率。

涛涛讲AI·2025-02-23 19:38

人工智能（AI）：科技新纪元的领航者

从智能手机上的语音助手到自动驾驶汽车、LLM

r_martian·2025-02-23 19:06

Day11-04.案例-文件上传-阿里云OSS-准备

云服务：通过互联网对外提供的各种各样的服务，比如像语音服务，短信服务，邮件服务，视频直播服务，文字识别服务，对象存储服务等等。

我以为心都空了·2025-02-23 14:00

短时傅里叶变换（STFT）与逆变换（ISTFT）

引言短时傅里叶变换（Short-TimeFourierTransform,STFT）是一种将信号分解为时间和频率成分的技术，广泛应用于音频处理、语音分析和音乐信息检索等领域。

niuguangshuo·2025-02-23 09:22

数字人源头厂商-源码出售源码交付-OEM系统贴牌

搭建数字人源码系统，是融合多领域前沿技术的复杂工程，涵盖图形学、人工智能、语音处理等。本文将深入剖析数字人源码搭建的技术开发细节，为开发者提供全面且深入的技术指南。

余~~18538162800·2025-02-23 08:16

清影2.0（AI视频生成）技术浅析（五）：音频处理技术

清影2.0的音频处理技术是其视频生成平台的重要组成部分，主要用于生成与视频内容相匹配的音频，包括文本转语音（TTS）、音效合成和背景音乐合成。

爱研究的小牛·2025-02-23 08:42

英伟达（NVIDIA）芯片全解析：专业分类、应用场景与真实案例

你每天使用的智能手机、AI语音助手、自动驾驶汽车，甚至是电影特效背后，都有英伟达（NVIDIA）的芯片在默默工作。

嵌入式Jerry·2025-02-23 06:31

Opus编解码

最近项目中用到了语音编码opus，在网上搜了一下，资料非常少，而且没有一个完整的教程，现在简单记录下来opus的使用方法。

行走在软件开发路上的人·2025-02-23 06:28

微服务即时通信系统---（一）项目介绍

目录框架与微服务拆分设计微服务架构设计思想入口网关子服务HTTP通信WEBSOCKET通信用户管理子服务好友管理子服务文件管理子服务消息存储子服务消息转发子服务语音识别子服务项目所使用到的技术栈/框架/

YangZ123123·2025-02-22 23:11

深入探索Mozilla的DeepSpeech：语音识别的新里程碑

深入探索Mozilla的DeepSpeech：语音识别的新里程碑项目地址:https://gitcode.com/gh_mirrors/de/DeepSpeech项目简介是一个开源的语音识别引擎，基于深度学习技术

温宝沫Morgan·2025-02-22 18:28

人工智能基础：从零开始讲解AI的基本概念、发展历程及其核心技术

一碗黄焖鸡三碗米饭·2025-02-22 16:42

数字人源码源头搭建技术全攻略，支持OEM

搭建数字人源码系统是一项综合性的技术工程，融合了计算机图形学、人工智能、语音处理等多学科前沿技术。本文将深入剖析数字人源码搭建的技术细节，为开发者提供详尽的技术开发指南。

余18538162800）·2025-02-22 16:39

超越实验室：打造真正在现实世界中奏效的 AI (泛化性与鲁棒性)

海棠AI实验室·2025-02-22 00:20

深度学习模型：原理、架构与应用

深度学习（DeepLearning）是机器学习中的一个分支，基于人工神经网络的发展，尤其是多层神经网络的研究，使其在语音识别、图像处理、自然语言处理等领域取得了显著进展。

一ge科研小菜菜·2025-02-21 22:00

edge-tts微软文本转语音库

Edge-TTS是一个Python库,比较好用，直接pip安装。pipinstalledge-tts输入edge-tts，输出提示信息，安装完成。usage:edge-tts[-h][-tTEXT][-fFILE][-vVOICE][-l][--rateRATE][--volumeVOLUME][-OOVERLAPPING][--write-mediaWRITE_MEDIA][--write-su

caridle·2025-02-21 10:47

推荐频道