E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
语音视频技术
声音克隆一键本地化部署 GPT-SoVITS
文章目录GPT-SoVITS介绍1:GPT-SoVITS安装2:GPT-SoVITS使用2.1人声伴奏分离,去混响去延时工具2.2
语音
切分工具2.3
语音
降噪工具2.4中文批量离线ASR工具2.5
语音
文本校对标注工具
博客胡
·
2025-03-12 18:48
gpt
AI视频生成工具清单(附网址与免费说明)
AI视频生成工具清单(附网址与免费说明)1.Synthesia网址:https://www.synthesia.io是否免费:免费试用(生成视频带水印)核心功能:✅120+AI虚拟主播✅支持70种语言
语音
合成
远方2.0
·
2025-03-12 18:46
人工智能
音视频
Phi-4-multimodal:图、文、音频统一的多模态大模型架构、训练方法、数据细节
Phi-4-Multimodal是一种参数高效的多模态模型,通过LoRA适配器和模式特定路由器实现文本、视觉和
语音
/音频的无缝集成。
余俊晖
·
2025-03-12 12:40
大语言模型
多模态
LLM
多模态
情感识别(Emotion Recognition)
情感识别(EmotionRecognition)是通过分析人类的多模态数据(如面部表情、
语音
、文本等)来识别和理解其情感状态的技术。它在人机交互、心理健康、市场分析等领域有广泛应用。
路野yue
·
2025-03-12 08:10
人工智能
自然语言处理
工程化与框架系列(27)--前端音视频处理
音
视频技术
概述前端音视频处理主要包括以下技术方向:音频处理:音频播放、录制、分析视频处理:视频播放、录制、编辑流媒体:实时音视频、直播推流WebRTC:点对点通信媒体格式:编解码、转换音频处理实现音频播放
一进制ᅟᅠ
·
2025-03-12 06:24
前端工程化与框架
前端
音视频
状态模式
【AI深度学习网络】Transformer时代,RNN(循环神经网络)为何仍是时序建模的“秘密武器”?
循环神经网络(RecurrentNeuralNetwork,RNN)是一种专门处理序列数据(如文本、
语音
、时间序列)的深度学习模型。
arbboter
·
2025-03-12 02:18
人工智能
rnn
人工智能
深度学习
循环神经网络
记忆
序列数据
循环连接
深度解析短视频开源项目 MoneyPrinterTurbo 使用教程
它提供了一整套完整的工作流,结合了图像处理、文本转
语音
(TTS)、视频编辑等功能,帮助用户快速制作符合社交媒体平台(如TikTok、InstagramReels、YouTubeShorts)要求的短视频
非著名架构师
·
2025-03-12 02:47
音视频
MoneyPrinter
多模态大模型:技术原理与实战 模型压缩实战
ZenandtheArtofComputerProgramming关键词:多模态大模型,技术原理,模型压缩,实战,TensorFlow,PyTorch,模型压缩方法,应用场景1.背景介绍1.1问题的由来随着人工智能技术的飞速发展,多模态大模型在图像识别、
语音
识别
AGI大模型与大数据研究院
·
2025-03-12 01:16
DeepSeek
R1
&
大数据AI人工智能
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
2025年工业智能对讲机有多智能?数据采集+AI不在话下!
但传统设备仅能实现基础
语音
传输的局限性,已难以满足现代工业对效率与智能化的需求。
AORO_BEIDOU
·
2025-03-11 22:18
人工智能
信息与通信
智能手机
安全
网络
esp32手把手DIY AI小智
语音
助手教程 (三) 配置ESP32设备 Wi-Fi连接网络
esp32手把手DIYAI小智
语音
助手教程(三)配置ESP32设备Wi-Fi连接网络1.WI-FI网络配置1)启动设备在bin固件下载/烧录后,将设备保持接通电源,按下开发板上的RST按钮复位重启设备(
代码简单说
·
2025-03-11 22:44
智能硬件/物联网开发实战
ai小智
语音助手
ai小智配网
ai小智教程
智能硬件
esp32语音助手
diy语音助手
【花雕动手做】基于ESP32S3和通义千问大模型AI
语音
聊天机器人
开源项目1、核心功能:该项目利用ESP32S3开发板,结合通义千问大模型,实现了一个AI
语音
聊天机器人。用户可以通过
语音
与机器人进行交互,机器人能够理解用户的
语音
指令并给出相应的
语音
回答。
驴友花雕
·
2025-03-11 22:44
人工智能
机器人
嵌入式硬件
单片机
c++
基于ESP32S3
通义千问AI语音聊天机器人
ESP32 小智 AI 机器人入门教程从原理到实现(自己云端部署)
简介:本教程将指导初学者使用ESP32微控制器开发一个简单的
语音
对话机器人“小智”。我们将介绍所需的基础原理、硬件准备、软件环境搭建,以及如何编写代码实现
语音
唤醒和与云端大模型的对接。
与光同尘 大道至简
·
2025-03-11 18:11
人工智能
机器人
python
人机交互
github
visual
studio
单片机
计算机网络:电路交换,报文交换,分组交换
特点1.建立连接(尝试占用通信资源)2.通信(一直占用通信资源)3.释放连接(归还通信资源)优点:•实时性强(如
语音
通话、视频会议)。•数据传输顺序和完整性有保障。
LG.YDX
·
2025-03-11 10:42
计算机网络
计算机网络
网络
智能
语音
交互新标杆:WT2003HX
语音
芯片赋能扫地机器人产品升级
在这一背景下,广州唯创电子推出的WT2003HX系列
语音
芯片,凭借其卓越的性能、灵活的适配性以及高可靠性,成为扫地机器人产品实现
语音
交互功能升级的理想解决方案。一、WT2
广州唯创电子
·
2025-03-11 09:04
人工智能
音频
基于STM32单片机的仓库管理系统设计-RFID-电磁锁-震动-ISD1820-TFT1.44-WiFi APP-DIY25-112
本设计由STM32F103C8T6单片机核心板电路+3个RFID模块电路+电磁锁电路+震动传感器电路+ISD1820
语音
模块电路+TFT1.44寸液晶显示电路+WiFi模块电路+电源电路组成。
通旺科技
·
2025-03-11 03:10
单片机
stm32
嵌入式硬件
华为昇腾适配阶跃星辰多模态开源模型,上线魔乐社区
今日,魔乐社区(Modelers)宣布已上架由阶跃星辰自研的Step-Video视频生成和Step-Audio
语音
模型两款开源多模态大模型,并基于华为昇腾CANN异构计算架构和昇腾服务器,完成了对模型的适配
·
2025-03-10 22:05
量子位
微信小程序
语音
输入插件安装及AI开发详解
1.登录微信公众平台进入小程序后台主页,点击账号设置-第三方设置-添加插件。在搜索页面输入微信同声传译获取插件,见下图。2.添加插件后会有审核(很快),通过后点击详情可以进入下图所示的界面。需要记住同声传译插件的AppID,在后续小程序开发中会用到。3.打开traecomposer,选择claude-3.7-sonnet模型,输入以下prompt:你需要在index页面中,使用微信小程序'同声传译
un_fired
·
2025-03-10 21:29
微信小程序
基于讯飞星火的
语音
问答
一.简介项目基于讯飞星火api作为核心能力并在其中搭载了WebSpeechAPI中的webkitSpeechRecognition对象来实现
语音
转文字的功能和TTS(Text-to-Speech):通过调用百度
哎呦☞ᨐ
·
2025-03-10 15:45
语音识别
人工智能
语言模型
文心一言
opencv
大模型交互-超拟人合成
1、超拟人合成:将文字转化为自然流畅的人声,在实时
语音
合成的基础上,精准模拟人类的副语言现象,如呼吸、叹气、语速变化等,使得
语音
不仅流畅自然,更富有情感和生命力。
定制开发才有价值
·
2025-03-10 14:12
交互
开发语言
java
Spark-TTS:基于大模型的文本
语音
合成工具
GitHub:https://github.com/SparkAudio/Spark-TTSSpark-TTS是一个先进的文本到
语音
系统,它利用大型语言模型(LLM)的强大功能进行高度准确和自然的
语音
合成
CITY_OF_MO_GY
·
2025-03-10 13:35
魅力语音
语音识别
深度学习
人工智能
解析:婚恋交友系统APP源码开发攻略,
语音
视频聊天功能实现步骤核心功能
系统功能特点1.自定义小程序管理:本系统提供完整的后台管理功能,开发者可以根据自己的需求进行定制和修改,包括但不限于论坛版块管理、帖子管理、用户管理等功能。后台管理界面简洁明了,操作方便,大大降低了开发门槛。2.完整的安装代码包:本系统提供完整的安装代码包,包括小程序前端代码、后端服务代码以及数据库结构等。开发者只需按照说明进行安装和配置,即可快速搭建起一个功能完备的社区论坛小程序。3.丰富的功能
·
2025-03-10 13:42
前端后端小程序数据库程序员
CosyVoice-Web版文字转
语音
服务
CosyVoice-Web版文字转
语音
服务概述本系统是基于阿里云DashscopeAPI实现的文字转
语音
服务,采用Flask框架构建Web应用。
Bruce_xiaowei
·
2025-03-10 09:04
总结经验
笔记
编程
前端
语音识别
人工智能
提高客户体验:人类计算在营销中的应用
人类计算与营销:开启个性化时代的未来人类计算与营销:开启个性化时代的未来关键词:人工智能、个性化营销、客户体验、数据驱动、客户关系管理摘要:本文探讨了人类计算在营销中的应用,包括
语音
识别、人脸识别、自然语言处理等技术
AI天才研究院
·
2025-03-09 21:26
ChatGPT
AI大模型企业级应用开发实战
DeepSeek
R1
&
大数据AI人工智能大模型
大厂Offer收割机
面试题
简历
程序员读书
硅基计算
碳基计算
认知计算
生物计算
深度学习
神经网络
大数据
AIGC
AGI
LLM
Java
Python
架构设计
Agent
程序员实现财富自由
ChatGPT-4o引领医学革命:临床科研创新与效率的新纪元
2024年5月12日,更强版本的ChatGPT-4o上线,文本、
语音
、图像等多模态交互方式使其在各行各业的应用呈现了更多的可能性。
小艳加油
·
2025-03-09 17:52
教程
语言类
人工智能
数据分析
ChatGPT-4o
临床医学
基于Pytorch的
语音
情感识别系统
基于Pytorch的
语音
情感识别系统介绍
语音
情感识别(SpeechEmotionRecognition,SER)是指通过分析和处理人的
语音
信号来识别其情感状态。
鱼弦
·
2025-03-09 15:34
人工智能时代
pytorch
人工智能
python
基于STM32单片机智能储物柜快递柜无线摄像头视频监控GSM短信设计DIY24-294
本系统由STM32F103C8T6单片机核心板、无线模块、TFT1.44寸彩屏液晶显示电路、智能
语音
电路、四路舵机驱动电路、矩阵按键电路、GSM模块和继电器模块及电源电路。
通旺科技
·
2025-03-09 13:20
单片机
stm32
语音识别
2025年2月25日 每日一闻
马斯克宣布Grok重大更新特斯拉CEO马斯克正式推出Grok
语音
模式V2.0版本,该更新深度整合多模态AI能力,支持自然语义理解与跨场景对话,三变科技等产
Kanjx
·
2025-03-09 06:23
新浪微博
北斗短报文+5G:遨游通信终端开启全域智能物联新时代
从2G时代的
语音
通信到5G时代的万物互联,从北斗一代的区域定位到北斗三号的全球组网,技术的融合创新始终是推动社会进步的核心动力。
AORO_BEIDOU
·
2025-03-09 05:18
5G
信息与通信
智能手机
科技
网络
Agent 框架与应用
其核心能力可拆解为以下四部分:1.1.1感知能力(Perception)Agent通过多模态输入接口获取环境信息:•数据采集:集成传感器(如自动驾驶的激光雷达)、API(如天气数据接口)、文本/
语音
交互系统等
power-辰南
·
2025-03-09 02:49
企业级AI项目实战
人工智能
大模型
ai
agent
Meta 计划在 Llama 4 中引入改进的
语音
功能,接近双向自然对话
据英国《金融时报》3月7日报道,Meta首席产品官ChrisCox透露,Llama4将是一个“全能模型”,
语音
功能将是原生的1。
timer_017
·
2025-03-08 23:28
llama
AI大模型报告 | 《中国数字人发展报告(2024)》(完整版PDF免费附下载)
在技术层面,数字人通过数字建模手段实现,涵盖计算机图形学、动作捕捉、图形渲染、
语音
合成、深度学习等多项技术。
AI大模型_学习君
·
2025-03-08 21:10
人工智能
pdf
AI大模型
RAG
大模型技术
中国数字人发展报告2024
数字人
魔百盒M401A、UNT403A、UNT413A_S905L3A/B_开启ROOT_红外蓝牙
语音
_通刷线刷固件包
魔百盒M401A、UNT403A、UNT413A_S905L3A/B_开启ROOT_红外蓝牙
语音
_通刷线刷固件包,2+8G或2+16G配置-安卓9.0,支持最新出UWE5621DS/MT7661/MT7663
fatiaozhang9527
·
2025-03-08 21:36
机顶盒刷机固件
魔百盒刷机
魔百盒固件
移动魔百盒
机顶盒ROM
盒子ROM
永久免费,不限次数,安卓神器
很多时候我们在手机上录了音频,需要把它转成文字,临时又不知道用什么软件,那今天我给大家找来一个完全免费
语音
转文字工具:小白转文字,其核心定位为“全能免费
语音
文字转换神器”,集成视频、
语音
、图片、文档文字识别等功能
zhslhm
·
2025-03-08 19:28
人工智能
安卓神器
工具分享
嵌入式行业全景透视:前景、挑战与从业者发展路径
例如,智能家居通过
语音
识别与传感器联动实现设备协同,工业4.0中嵌入式系统支撑自动化产线的实时控制与数据采集。据预测,2028年
九溪弥烟、
·
2025-03-08 16:49
技术杂谈
嵌入式硬件
【Hugging Face】datasets 库:加载、处理和分享大规模数据集
HuggingFaceDatasets库HuggingFace的datasets库是一个轻量级、高性能的库,用于加载、处理和分享大规模数据集,特别适用于自然语言处理(NLP)、计算机视觉(CV)和
语音
任务
彬彬侠
·
2025-03-08 15:28
大模型
datasets
Hugging
Face
颜永红:大模型时代的智能音频处理 | 演讲嘉宾公布
大会由中国电子音响行业协会、上海市浦东新区先进音
视频技术
协会共同主办,上海国展展览中心有限公司承办。
声光界
·
2025-03-08 09:24
人工智能
音视频
B站自研的第二代视频连麦系统(上)
背景在文章《B站在实时音
视频技术
领域的探索与实践》中,提到了直播行业从传统娱乐直播发展到教育、电商等新形式,用户对实时互动直播的需求增加。
哔哩哔哩技术
·
2025-03-08 05:25
webrtc
直播
【实战项目】Python 手撕一个基于最新端到端大模型的
语音
聊天系统
写在前面:为什么需要端到端
语音
交互近年来,随着深度学习技术的飞速发展,
语音
交互技术取得了显著的进步。从智能音箱到虚拟助手,
语音
交互已经渗透到我们生活的方方面面。
kakaZhui
·
2025-03-08 02:53
解码前沿多模态大模型:认知
分析和工业级实战
python
开发语言
AIGC
人工智能
chatgpt
【有啥问啥】深入浅出:大模型应用工具 Ollama 技术详解
深入浅出:大模型应用工具Ollama技术详解引言近年来,大型模型(LargeModels,LLMs)技术突飞猛进,在自然语言处理、计算机视觉、
语音
识别等领域展现出强大的能力。
有啥问啥
·
2025-03-08 00:21
大模型
科普
人工智能
深度学习
TORGO 数据库:构音障碍
语音
研究的宝贵资源
TORGO数据库:构音障碍
语音
研究的宝贵资源在
语音
识别和
语音
病理学领域,构音障碍(Dysarthria)是一个重要的研究方向。
帅小柏
·
2025-03-07 20:10
语音识别与Wenet实战
语音识别与ESPnet实战
语音识别
人工智能基础知识
二:自然语言处理nlp(
语音
识别)处理(文本)方面解决(说和听的问题),RNN,LSTM,attention,transformer(基于规则的翻译,超越普通
yzx991013
·
2025-03-07 16:24
人工智能
QT作业day5
实现闹钟头文件:#defineALARM_CLOCK_H#include#include#include#include#include//文本转
语音
类#includeQT_BEGIN_NAMESPACEnamespaceUi
冷灵雨月
·
2025-03-07 11:15
qt
开发语言
服务器、群晖,飞牛NAS等部署Whisper ASR教程来啦!让我们的Nas轻松实现音频转文字服务!
文章目录介绍演示环境服务器/群晖/飞牛NAS部署WhisperASR,
语音
识别soeasy!
xiaoqiangclub
·
2025-03-07 10:20
群晖助手
服务器
whisper
音视频
ASR
语音转文字
实用教程
神经网络VS决策树
适用性广泛:神经网络适用于分类、回归、图像处理、
语音
识别、自然语言处理等多种任务。多层结构:通过增加隐藏层,神经网络可以逐层提
Persistence is gold
·
2025-03-07 01:16
神经网络
决策树
人工智能
小爱音箱结合xiaomusic实现尘封的NAS音乐不自由
xiaomusic地址前年下载了一批老歌,为了买U盘,从淘宝带来的资源.上传在NAS吃灰.今天拿出来,辅助小爱音箱,实现一下
语音
控制听歌不自由.打开群晖openwrt等家庭里常开的一个设备作为docker
wjcroom
·
2025-03-07 00:03
日常小操作
智能音箱
智能音箱
深度 | 车载
语音
群雄并起共争智能座舱新高地
不论是苹果公司iOS系统中的智能语言助手“Siri”,还是微软Windows系统中的“Cortana”,智能
语音
交互早已融入我们生活之中。
数据堂官方账号
·
2025-03-06 21:38
分享
人工智能
语音识别
C#实现
语音
合成播报器——基于System.Speech的
语音
交互方案,在windows上实现
语音
播报指定文本
——基于System.Speech的
语音
交互方案,在windows上实现
语音
播报指定文本一、
语音
合成播报应用场景
语音
合成播报器广泛应用于以下领域:工业控制:生产线异常报警、设备状态实时播报(如网页4中的
WangMing_X
·
2025-03-06 17:00
C#实现各种功能工具集
语音识别
c#
语音播报
windows实现麦克风持续实时实现科大讯飞
语音
识别,判断声音是否停止并生成pcm文件
importpyaudio,waveimportnumpyasnpdeflisten():temp=20CHUNK=1024FORMAT=pyaudio.paInt16CHANNELS=1RATE=16000RECORD_SECONDS=2SAMPLE_WIDTH=2#2bytespersampleWAVE_OUTPUT_FILENAME='test.wav'mindb=2000#最小声音,大于则
青年夏日科技工作者
·
2025-03-06 11:41
语音识别
人工智能
呼叫智能体:AI时代下的智能交互革命
它不仅是传统呼叫中心的智能化延伸,更是融合
语音
克隆、多语种交互、智能体编排等前沿技术的综合解决方案。本文将从技术原理、行业挑战、应用场景三个维度,解析这一突破性技术。
MARS_AI_
·
2025-03-06 05:48
人工智能
自然语言处理
信息与通信
nlp
AI 外呼产品架构解读:让智能外呼更精准高效
这一层主要包括以下三个核心组成部分:1.AI基础能力AI基础能力涵盖了
语音
识别(ASR)、自然语言处理(NLP)和
语音
合成(TTS)等技术。这些技术使
MARS_AI_
·
2025-03-06 05:16
人工智能
架构
自然语言处理
信息与通信
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他