语音tts

uniapp vue3项目用原生h5 audioContext实现语音文件倍速播放，可适应h5和安卓app

前言uniapp项目要做类似微信的聊天语音播放功能，可以切换语音，可以点击切换播放/停止播放状态，还可以倍速播放。

努力做大神·2025-03-15 10:33

吴恩达机器学习笔记复盘（二）监督学习和无监督学习

语音识别，输入音频剪辑，输出文本记录。机器翻译，输入一种语言文本，输出其他语言的相应翻译。在线广告，输入广告和用户信息，预测用户是否点击广告，为公司带来大量

wgc2k·2025-03-15 09:21

cv君独家视角 | AI内幕系列七：EfficientViT模型：基于多尺度线性注意力模块，实现高效的高分辨率密集预测

通过一系列精心策划的文章，我们将带您深入了解AI的各个领域，从计算机视觉到文本语音等多模态领域，从基础理论到前沿技术，从行业应用到未来趋势。

cv君·2025-03-15 09:19

Python中用SpeechRecognition库和 vosk模型来识别语音

Python中的SpeechRecognition库是一个比较好用的语音识别模块，提供了将语音识别成文字的方法，支持中文识别。

老菜鸟YDZ·2025-03-15 04:01

pjsip dtmf发送和接收（pjsua）

交互式语音应答（IVR）系统DTMF广泛用于IVR系统，用户

小gpt&·2025-03-15 00:00

云原生周刊：基于 KubeSphere LuBan 架构打造DeepSeek 插件

·2025-03-14 22:37

人工智能概念

近邻算法深度学习是实现这一目标的工具，模仿人脑，使用多层神经网络进行学习算法：多层感知器、卷积神经网络、循环神经网络、长短期记忆网络大模型指参数量巨大的深度学习模型人工智能应用：自然语言处理、图像识别与生成、语音识别

zhangpeng455547940·2025-03-14 19:13

DeepSeek 与其他 AI 模型的对比：优势与特色分析

多模态能力：DeepSeek支持多种输入和输出形式，如图像和语音。行业适配性：DeepSeek提供了针对不同行业的优化方案。三、与BERT系列的对比生成能力：Dee

CarlowZJ·2025-03-14 14:00

2024 睿抗机器人开发者大赛CAIP-编程技能赛-本科组（国赛）

RC-u1大家一起查作弊在今年的睿抗比赛上，有同学的提交代码如下：publicasfiasfgwef12(){inttsadflas=3;intmasf11233=2;int[]wasdf1213=newint

小竹子14·2025-03-14 11:10

在Android Studio中通过CMake实现交叉编译生成动态so文件

aux_source_directoryinclude_directorieslink_directoriesadd_librarytarget_link_libraries将CMake配置文件依赖到Gradle中交叉编译生成动态库参考NDK工具链最近项目上需要将微信语音

H.ZWei·2025-03-14 08:52

uinapp前端技术带动陪玩软件市场，语音陪玩系统源码开发打造你自己的市场

此外，陪玩软件还提供了如语音互动、礼物打赏，在线接单，社交直播等功能，方便玩家畅玩游戏。跨平台开发：uniapp支持一次开发，多端发布，包括iOS、Android、Web以及各种小程序等平台。

·2025-03-14 04:41

【自学笔记】讯飞星火基础知识点总览-持续更新

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录讯飞星火基础知识点总览一、讯飞星火简介二、核心功能1.语音识别2.自然语言处理3.知识图谱4.星火API三、基础概念1.AI模型2

Long_poem·2025-03-14 02:08

EasyRTC实现基于WebRTC技术实现的即时通信类应用

WebRTC简介WebRTC，名称源自网页即时通信（英语：WebReal-TimeCommunication）的缩写，是一个支持网页浏览器进行实时语音对话或视频对话的API。

xiejiashu·2025-03-13 15:24

图像识别技术与应用

第一节课这节课了解了这门专业的就业职位：工资是怎么样的岗位职责和任职要求看到了人类工业文明的演变了解了人工智能的研究、开发、模拟、延伸、理论、方法和技术看到了生活方式的转变比如智能语音闹钟控制系统、自动驾驶和人脸识别考勤智能购物

超帅的好吧·2025-03-13 13:36

有哪些好用的AI视频加工创作网站

-网址：https://www.synthesia.io2.Fliki-特点：文本转视频，AI语音配音，内置数百万素材库。-适用：快速将

皮皮虾1234·2025-03-13 10:11

【Python】构建智能语音助手：使用Python实现语音识别与合成的全面指南

随着人工智能技术的迅猛发展，语音助手已成为人们日常生活中不可或缺的一部分。从智能手机到智能家居设备，语音交互提供了便捷高效的人机交互方式。

蒙娜丽宁·2025-03-13 02:41

《Unity开发实战》——1.5节把Unity中创建的资源另存为Prefab

本节书摘来自华章社区《Unity开发实战》一书中的第1章，第1.5节把Unity中创建的资源另存为Prefab，作者（爱尔兰）MattSmith（巴西）ChicoQueiroz，更多章节内容可以访问云栖社区

weixin_33859504·2025-03-13 00:28

声音克隆一键本地化部署 GPT-SoVITS

文章目录GPT-SoVITS介绍1：GPT-SoVITS安装2：GPT-SoVITS使用2.1人声伴奏分离，去混响去延时工具2.2语音切分工具2.3语音降噪工具2.4中文批量离线ASR工具2.5语音文本校对标注工具

博客胡·2025-03-12 18:48

AI视频生成工具清单（附网址与免费说明）

AI视频生成工具清单（附网址与免费说明）1.Synthesia网址：https://www.synthesia.io是否免费：免费试用（生成视频带水印）核心功能：✅120+AI虚拟主播✅支持70种语言语音合成

远方2.0·2025-03-12 18:46

Phi-4-multimodal：图、文、音频统一的多模态大模型架构、训练方法、数据细节

Phi-4-Multimodal是一种参数高效的多模态模型，通过LoRA适配器和模式特定路由器实现文本、视觉和语音/音频的无缝集成。

余俊晖·2025-03-12 12:40

情感识别（Emotion Recognition）

情感识别（EmotionRecognition）是通过分析人类的多模态数据（如面部表情、语音、文本等）来识别和理解其情感状态的技术。它在人机交互、心理健康、市场分析等领域有广泛应用。

路野yue·2025-03-12 08:10

【AI深度学习网络】Transformer时代，RNN（循环神经网络）为何仍是时序建模的“秘密武器”？

循环神经网络（RecurrentNeuralNetwork,RNN）是一种专门处理序列数据（如文本、语音、时间序列）的深度学习模型。

arbboter·2025-03-12 02:18

深度解析短视频开源项目 MoneyPrinterTurbo 使用教程

它提供了一整套完整的工作流，结合了图像处理、文本转语音(TTS)、视频编辑等功能，帮助用户快速制作符合社交媒体平台（如TikTok、InstagramReels、YouTubeShorts）要求的短视频

非著名架构师·2025-03-12 02:47

多模态大模型：技术原理与实战模型压缩实战

ZenandtheArtofComputerProgramming关键词：多模态大模型，技术原理，模型压缩，实战，TensorFlow，PyTorch，模型压缩方法，应用场景1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，多模态大模型在图像识别、语音识别

AGI大模型与大数据研究院·2025-03-12 01:16

2025年工业智能对讲机有多智能？数据采集+AI不在话下！

但传统设备仅能实现基础语音传输的局限性，已难以满足现代工业对效率与智能化的需求。

AORO_BEIDOU·2025-03-11 22:18

esp32手把手DIY AI小智语音助手教程 (三) 配置ESP32设备 Wi-Fi连接网络

esp32手把手DIYAI小智语音助手教程(三)配置ESP32设备Wi-Fi连接网络1.WI-FI网络配置1）启动设备在bin固件下载/烧录后，将设备保持接通电源，按下开发板上的RST按钮复位重启设备（

代码简单说·2025-03-11 22:44

【花雕动手做】基于ESP32S3和通义千问大模型AI语音聊天机器人

开源项目1、核心功能：该项目利用ESP32S3开发板，结合通义千问大模型，实现了一个AI语音聊天机器人。用户可以通过语音与机器人进行交互，机器人能够理解用户的语音指令并给出相应的语音回答。

驴友花雕·2025-03-11 22:44

08.03.01.tiptop webserver接口篇（增加接口案例测试单表数据）

本页目录：1、制作xml2、配置2、测试注册服务接口案例：/u1/topprod/tiptop/aws/4gl/aws_ttsrv2_service.4glCreateCustomerData接口案例代码

DKLi1717·2025-03-11 21:40

08.03.02.tiptop webserver接口篇（增加接口案例测试多表数据）

本页目录：1、制作xml2、配置2、测试注册服务接口案例：/u1/topprod/tiptop/aws/4gl/aws_ttsrv2_service.4glCreateQuotationData接口案例代码

DKLi1717·2025-03-11 21:40

ESP32 小智 AI 机器人入门教程从原理到实现（自己云端部署）

简介：本教程将指导初学者使用ESP32微控制器开发一个简单的语音对话机器人“小智”。我们将介绍所需的基础原理、硬件准备、软件环境搭建，以及如何编写代码实现语音唤醒和与云端大模型的对接。

与光同尘大道至简·2025-03-11 18:11

计算机网络：电路交换，报文交换，分组交换

特点1.建立连接（尝试占用通信资源）2.通信（一直占用通信资源）3.释放连接（归还通信资源）优点：•实时性强（如语音通话、视频会议）。•数据传输顺序和完整性有保障。

LG.YDX·2025-03-11 10:42

智能语音交互新标杆：WT2003HX语音芯片赋能扫地机器人产品升级

在这一背景下，广州唯创电子推出的WT2003HX系列语音芯片，凭借其卓越的性能、灵活的适配性以及高可靠性，成为扫地机器人产品实现语音交互功能升级的理想解决方案。一、WT2

广州唯创电子·2025-03-11 09:04

基于STM32单片机的仓库管理系统设计-RFID-电磁锁-震动-ISD1820-TFT1.44-WiFi APP-DIY25-112

本设计由STM32F103C8T6单片机核心板电路+3个RFID模块电路+电磁锁电路+震动传感器电路+ISD1820语音模块电路+TFT1.44寸液晶显示电路+WiFi模块电路+电源电路组成。

通旺科技·2025-03-11 03:10

华为昇腾适配阶跃星辰多模态开源模型，上线魔乐社区

今日，魔乐社区（Modelers）宣布已上架由阶跃星辰自研的Step-Video视频生成和Step-Audio语音模型两款开源多模态大模型，并基于华为昇腾CANN异构计算架构和昇腾服务器，完成了对模型的适配

·2025-03-10 22:05

微信小程序语音输入插件安装及AI开发详解

1.登录微信公众平台进入小程序后台主页，点击账号设置-第三方设置-添加插件。在搜索页面输入微信同声传译获取插件，见下图。2.添加插件后会有审核（很快），通过后点击详情可以进入下图所示的界面。需要记住同声传译插件的AppID，在后续小程序开发中会用到。3.打开traecomposer，选择claude-3.7-sonnet模型，输入以下prompt：你需要在index页面中，使用微信小程序'同声传译

un_fired·2025-03-10 21:29

基于讯飞星火的语音问答

一.简介项目基于讯飞星火api作为核心能力并在其中搭载了WebSpeechAPI中的webkitSpeechRecognition对象来实现语音转文字的功能和TTS(Text-to-Speech)：通过调用百度

哎呦☞ᨐ·2025-03-10 15:45

大模型交互-超拟人合成

1、超拟人合成：将文字转化为自然流畅的人声，在实时语音合成的基础上，精准模拟人类的副语言现象，如呼吸、叹气、语速变化等，使得语音不仅流畅自然，更富有情感和生命力。

定制开发才有价值·2025-03-10 14:12

Spark-TTS：基于大模型的文本语音合成工具

GitHub：https://github.com/SparkAudio/Spark-TTSSpark-TTS是一个先进的文本到语音系统，它利用大型语言模型（LLM）的强大功能进行高度准确和自然的语音合成

CITY_OF_MO_GY·2025-03-10 13:35

解析：婚恋交友系统APP源码开发攻略,语音视频聊天功能实现步骤核心功能

系统功能特点1.自定义小程序管理：本系统提供完整的后台管理功能，开发者可以根据自己的需求进行定制和修改，包括但不限于论坛版块管理、帖子管理、用户管理等功能。后台管理界面简洁明了，操作方便，大大降低了开发门槛。2.完整的安装代码包：本系统提供完整的安装代码包，包括小程序前端代码、后端服务代码以及数据库结构等。开发者只需按照说明进行安装和配置，即可快速搭建起一个功能完备的社区论坛小程序。3.丰富的功能

·2025-03-10 13:42

CosyVoice-Web版文字转语音服务

CosyVoice-Web版文字转语音服务概述本系统是基于阿里云DashscopeAPI实现的文字转语音服务，采用Flask框架构建Web应用。

Bruce_xiaowei·2025-03-10 09:04

提高客户体验：人类计算在营销中的应用

人类计算与营销：开启个性化时代的未来人类计算与营销：开启个性化时代的未来关键词：人工智能、个性化营销、客户体验、数据驱动、客户关系管理摘要：本文探讨了人类计算在营销中的应用，包括语音识别、人脸识别、自然语言处理等技术

AI天才研究院·2025-03-09 21:26

ChatGPT-4o引领医学革命：临床科研创新与效率的新纪元

2024年5月12日，更强版本的ChatGPT-4o上线，文本、语音、图像等多模态交互方式使其在各行各业的应用呈现了更多的可能性。

小艳加油·2025-03-09 17:52

基于Pytorch的语音情感识别系统

基于Pytorch的语音情感识别系统介绍语音情感识别（SpeechEmotionRecognition,SER）是指通过分析和处理人的语音信号来识别其情感状态。

鱼弦·2025-03-09 15:34

基于STM32单片机智能储物柜快递柜无线摄像头视频监控GSM短信设计DIY24-294

本系统由STM32F103C8T6单片机核心板、无线模块、TFT1.44寸彩屏液晶显示电路、智能语音电路、四路舵机驱动电路、矩阵按键电路、GSM模块和继电器模块及电源电路。

通旺科技·2025-03-09 13:20

kokoro 82M参数的声音模型kokoro-onnx，支持中文

kokoro大约是官网：github.comonnx推理官网：GitHub-thewh1teagle/kokoro-onnx:TTSwithkokoroandonnxruntime可以参考这个文档使用：

skywalk8163·2025-03-09 10:58

2025年2月25日每日一闻

马斯克宣布Grok重大更新特斯拉CEO马斯克正式推出Grok语音模式V2.0版本，该更新深度整合多模态AI能力，支持自然语义理解与跨场景对话，三变科技等产

Kanjx·2025-03-09 06:23

北斗短报文+5G：遨游通信终端开启全域智能物联新时代

从2G时代的语音通信到5G时代的万物互联，从北斗一代的区域定位到北斗三号的全球组网，技术的融合创新始终是推动社会进步的核心动力。

AORO_BEIDOU·2025-03-09 05:18

Agent 框架与应用

其核心能力可拆解为以下四部分：1.1.1感知能力（Perception）Agent通过多模态输入接口获取环境信息：•数据采集：集成传感器（如自动驾驶的激光雷达）、API（如天气数据接口）、文本/语音交互系统等

power-辰南·2025-03-09 02:49

Meta 计划在 Llama 4 中引入改进的语音功能，接近双向自然对话

据英国《金融时报》3月7日报道，Meta首席产品官ChrisCox透露，Llama4将是一个“全能模型”，语音功能将是原生的1。

timer_017·2025-03-08 23:28

AI大模型报告 | 《中国数字人发展报告(2024)》（完整版PDF免费附下载）

在技术层面，数字人通过数字建模手段实现，涵盖计算机图形学、动作捕捉、图形渲染、语音合成、深度学习等多项技术。

AI大模型_学习君·2025-03-08 21:10

推荐频道