lync语音第4页

AR眼镜与3D建模社区建设

手势与语音交互：利用眼动追踪、手势识别和语音命令实现沉浸式操作，例如旋转模型、调整参数无需触控设备。6DoF定位精度：支持六自由度定位，确保虚拟对象在三维空间中的精准放置与移动，适用于复杂建模场景。

大霸王龙·2025-06-26 11:00

RNN、LSTM、GRU详解

RNN、LSTM、GRU详解在深度学习领域，序列数据（如语音识别、机器翻译、文本生成等）广泛应用于自然语言处理（NLP）、时间序列预测、语音和视频处理等任务中。

昔颜1121·2025-06-26 03:36

利用FunASR搭建自己的语音转文本服务器（有手就行）

提示：利用阿里巴巴开源的FunASR工具包，搭建语音转文本服务，通过网页实现免费的语音转文本服务。目录前言一、FunASR是什么？

·2025-06-25 07:44

WebRTC 语音激活检测(VAD)算法

语音激活检测最早应用于电话传输和检测系统当中，用于通信信道的时间分配，提高传输线路的利用效率。激活检测属于语音处理系统的前端操作，在语音检测领域意义重大。

u013250861·2025-06-25 07:13

【使用Unimrcp和Funasr构建呼叫中心语音识别服务端】

使用Unimrcp和Funasr构建呼叫中心语音识别服务端1.编译及运行unimrcp2.新增funasr-recog，支持funasr识别3.启动unimrcp4.启动funasr5.freeswitch

cc_ai_cn·2025-06-25 07:11

第9章：听声辨味的玄机——语音识别如何破解厨房噪音难题

第9章：听声辨味的玄机——语音识别如何破解厨房噪音难题声学特征解析、深度降噪与工业部署全链路解密工业级挑战场景：在上海四季酒店中央厨房的热浪区域（平均声压92dB），行政主厨需同时管理六口燃气灶、两台对流烤箱和三台洗碗机

·2025-06-25 07:37

AI免费工具：promptpilot、今天学点啥、中英文翻译

promptpilot激发模型潜能，轻松优化Prompthttps://promptpilot.volcengine.com/startup今天学点啥https://metaso.cn/study能生成网页和语音播报中英文翻译沉浸式翻译

loong_XL·2025-06-25 04:50

世界因你不同：李开复自传

CMU读博期间开发了基于统计方法的语音识别技术，拿到了CMU终身教职后，放弃这一职位加入了苹果。

浦东新村轱天乐·2025-06-25 03:44

开发者注意：鸿蒙APP语音识别常见问题全解析（含可跑Demo）

摘要在鸿蒙（HarmonyOS）应用开发中，语音识别是很多智能功能的核心入口，比如语音助手、语音输入、语音搜索等。

·2025-06-25 01:04

开源(离线)中文语音识别ASR(语音转文本)工具整理

开源(离线)中文语音识别ASR(语音转文本)工具整理目录文章目录目录@[toc]openai的开源工具：whisperwhisper介绍引用ASRT语音识别项目ASRT介绍引用微软语音服务(付费)微软语音服务介绍实时语音转文本批量转录自定义语音引用

切糕师学AI·2025-06-24 23:47

微软ASR与开源模型分析

一、微软ASR核心能力1.支持场景场景功能实时语音转文本低延迟流式识别（会议字幕/直播转录）音频文件转文本支持多种格式（WAV/MP3等），批量处理长音频定制化模型针对特定行业术语（医疗/金融）训练专属模型多语言混合识别中英文混合

老兵发新帖·2025-06-24 23:45

世界顶尖大语言模型（按公司分类）

世界顶尖大语言模型（按公司分类）OpenAI（美国）模型名称发布时间特点GPT-4o2024-05多模态旗舰模型，支持文本、语音、图像输入，响应速度极快，免费用户可用GPT-4-turbo2023-11

nbspzs·2025-06-24 21:30

[AI风堇]基于ChatGPT3.5+科大讯飞录音转文字API+GPT-SOVITS的模拟情感实时语音对话项目

[AI风堇]趁着有空做出来的一个小项目,灵感来源于B站,但博主未提供代码,依据简介和标题进行了一个复刻,以下是视频展示效果(已同步更新至B站),要是大家觉得好玩后期我出个教程

nightunderblackcat·2025-06-23 19:34

HarmonyOS SDK:Image Classification 能力进行图片识别

在鸿蒙应用开发中，HarmonyOSSDK提供了丰富的AI能力接口，开发者可以快速集成语音识别、图像识别、自然语言处理等智能功能到自己的应用中。

·2025-06-23 18:13

《Whisper模型版本及下载链接》

Whisper模型版本及下载链接Whisper是OpenAI开发的语音识别模型，以下按模型规模从小到大排列，包含不同语言版本及通用版本：1.Tiny系列（轻量级）tiny.en.pt（英文专用）：https

空云风语·2025-06-23 16:13

0_序章导论

课程整体框架时长：4周终极目标：学完后比大公司CEO更懂AI，能领导团队解决实际问题每周核心内容分解第一周：重新认识AI的本质弱AI（ANI）vs.强AI（AGI）ANI（弱人工智能）：特点：只精通单一任务（如语音助手

39036953·2025-06-23 16:41

《Whisper：开启语音识别新时代的钥匙》

Whisper模型：技术革新的基石在当今科技飞速发展的时代，自动语音识别（ASR）技术作为人工智能领域的关键分支，正深刻地改变着人们的生活与工作方式。

空云风语·2025-06-23 16:10

用Google Cloud Speech-to-Text API进行音频转录

###技术背景介绍随着人工智能技术的不断发展，语音识别已成为我们生活中不可或缺的一部分。

huluwaqimotuo·2025-06-23 14:32

微服务及时通讯系统-服务端-开发阶段与功能介绍

忠实粉丝原创微服务及时通讯系统-服务端-开发阶段与功能介绍收录于专栏[微服务及时通讯系统-后台服务器实现]目录开发阶段与功能介绍聊天室后台服务器实现：功能需求确定阶段：框架设计：聊天室子服务拆分：消息转发子服务：消息存储子服务：语音识别子服务

C++忠实粉丝·2025-06-23 13:52

基于matlab的语音信号去噪

文章目录前言1.获取音频1.1读取原始音频1.2读取代码展示1.3截取音频1.4可视化处理1.4.1原始信号时域图1.4.2原始信号频谱图2.加噪处理2.1高斯白噪声2.2高通滤波器2.2.1filterDesigner2.2.2信号分析器2.3噪音叠加处理2.4可视化处理2.4.1加噪时域图2.4.2加噪频域图3.滤波降噪3.1技术指标3.2设计巴特沃斯低通滤波器滤波3.3滤波结果可视化3.3.

·2025-06-23 06:08

Linux系统基本操作指令

Linux命令及工具介绍3.1目录管理命令(功能，格式，参数，系统参数)3.2文件操作命令四、网络命令4.1ifconfig:4.2ping:测试网络是否联通(DNS)4.3linux与window连接:五、语音录制和播放命令

雷电法王·2025-06-23 00:51

程序代码篇---ESP32-S3小智固件

Q1：ESP32-S3小智语音对话系统的整体架构是怎样的？

Atticus-Orion·2025-06-22 23:21

[特殊字符] 一键搭建AI语音助理：基于DashScope+GRadio的智能聊天机器人技术全解

一、项目核心技术架构（图1）交互层核心模块pyaudio实时采集流式响应PCM编码GRadio界面状态控制实时对话展示语音输出历史记录管理ASR回调类ASR语音识别聊天处理引擎GPT大模型处理语音合成回调

来自于狂人·2025-06-22 22:10

华小妹 AI 数字人又来添新功能，突破语言边界

作为一款极具创新性的AI数字人，华小妹AI数字人擅长跳舞，能精准介绍产品，可通过虚拟场景带客户参观各类场所，还能用丰富肢体语言交流，具备空间定位能力，语音识别技术先进，能精准识别各种语音指令。

广州华锐视点·2025-06-22 22:09

ESP 8266+ TTS 实现对讲机语音播报时间和信息

#include#include#include#include#include"UTF8ToGB2312.h"//需要改造对讲机耳机连接至TTS音响接口#defineSERIAL2_TX12//接TTSRX#defineSERIAL2_RX13//接TTSTX#defineTTS_MAX_DATA_LENGTH1024//最大支持4K字节#defineCONTROL_PIN14//定义控制引脚为

·2025-06-22 15:27

心理健康语音分析AI模型：推动心理学科研的新突破

心理健康语音分析AI模型：推动心理学科研的新突破关键词：心理健康、语音分析、AI模型、心理学科研、新突破摘要：本文聚焦于心理健康语音分析AI模型这一新兴技术，详细介绍了其相关概念、原理、实现步骤等内容。

AIGC应用创新大全·2025-06-22 13:43

InfiniSynapse报错解决Error get_table_detail: Failed to execute script: getaddrinfo EAI_AGAIN infini-sql

提供专门为大模型优化的InfiniSQL语言，从而可以更加准确的生成查询语句，通过InfiniSQL引擎让人类第一次对存储在各种数据源的全模态（数据库结构化，文档，语音，视频）进行联合智能分析，并且支持海量规模

skywalk8163·2025-06-22 13:10

AI芯片设计与神经网络加速

随着人工智能技术的飞速发展，神经网络在图像识别、语音处理、自然语言理解等众多领域取得了显著成就。然而，神经网络的大规模计算需求对传统计算芯片提出了严峻挑战。

华清远见成都中心·2025-06-22 11:02

【深度学习解惑】RNN为什么适合处理序列数据？

1.引言：序列建模的挑战时序数据（时间序列、文本、语音）具有关键的时间依赖性——元素xtx_txt依赖于前序

云博士的AI课堂·2025-06-22 10:57

ArcGIS Maps ：在Vue3中加载ArcGIS地图

ArcGISAPIProject文件夹，并用vscode打开2、打开终端，在终端中输入npmcreatevite@latest+项目名称vite-vue3-arcgis,选择vue框架，并选中JavaScript语音创建项目

·2025-06-22 09:19

AI 大模型原理与应用：大模型训练突破万张卡和万亿参数 MOE 这两个临界点

大模型是指参数量达到数十亿甚至万亿级别的人工智能模型，它们在自然语言处理、计算机视觉、语音识别等领域展现出强大的能力。然而，大模型的训练也面临着巨大

AI大模型应用之禅·2025-06-22 09:15

请编写一个sip Android音视频客户端

编写一个SIP客户端需要以下步骤：了解SIP协议:SIP(SessionInitiationProtocol)是一种通信协议，用于建立、维护和终止多媒体会话(如语音和视频通话)。

又可乐·2025-06-22 02:34

【音视频】SIP基础、搭建服务器和客户端

1、概念SIP（SessionInitiationProtocol，会话初始协议）是一种用于创建、修改和终止实时通信会话（如语音、视频通话）的应用层协议。

郭老二·2025-06-22 02:32

C#上位机实现报警语音播报

我们在开发C#上位机时，有时候会需要将报警信息通过语音进行播报，今天跟大家分享一下具体的实现过程。一、组件安装首先我们创建好一个Windows窗体项目，然后添加System.Speech库引用。

上位机付工·2025-06-21 21:01

python程序控制homeassistant_构建智能家居的神器HomeAssistant

智能家居开源系统是一款基于Python的智能家居开源系统，支持众多品牌的智能家居设备，可以轻松实现设备的语音控制、自动化等。

竹谭·2025-06-21 16:57

【AIGC半月报】AIGC大模型启元：2024.06（上）

AIGC大模型启元：2024.06（上）(1)ChatTTS（语音合成项目）(2)Mamba-2（大模型新架构Mamba升级）(3)GLM-49B（智谱开源LLM）(4)Seed-TTS（字节语音合成）

LeeZhao@·2025-06-21 11:27

基于Transformer的语音识别模型：从理论到实现

基于Transformer的语音识别模型：从理论到实现关键词：Transformer、语音识别、注意力机制、序列建模、端到端学习、自注意力、语音特征提取摘要：本文将深入探讨基于Transformer架构的语音识别系统

AI智能探索者·2025-06-21 10:22

自然语言处理之文本分类：Transformer：文本分类数据集分析

NLP技术广泛应用于文本分类、情感分析、机器翻译、问答系统、语音识别等场景。其核心挑战在于理解语言的复杂性和多义性，以及处理大

zhubeibei168·2025-06-21 09:46

c# 实现文本读取，语音报警功能

c#实现文本读取，语音报警功能在测试软件功能过程中，由于需要操作硬件进行变位，但是操作完成后在去看监控软件有时间延迟，除非2个人配合，就想实现告警进行语音播报功能实现方法1[DllImport(“winmm.dll

·2025-06-21 08:08

西门子PLC ModbusTcp通信访问网关后从站(SCL语言轮询状态机)

西门子PLC的ModbusTcp通信在专栏已有系列文章介绍，所不同的是每个项目的通信需求都略有不同，今天我们以访问网关后的三个从站数据来举例，给出轮询的推荐写法，这里我们利用SCL语音进行编程，方便大家导入导出到自己的项目里使用

RXXW_Dor·2025-06-21 07:31

学习笔记丨AR≠VR：透视沉浸式技术的“虚实象限”法则

（增强现实）VR（虚拟现实）技术本质现实世界+虚拟叠加（虚实共存）纯虚拟环境（取代现实）硬件形态手机/平板/AR眼镜（轻便、依赖现实视野）VR头显+手柄（封闭式、完全隔绝现实）交互方式自然交互（手势/语音

棱镜研途·2025-06-21 02:03

2025年开源AI模型综合对比与推荐

·2025-06-20 20:20

循环神经网络RNN

3.应用场景自然语言处理（NLP）、时间序列预测、语音识别、音乐生成......4.自然语言处理概述主要是通过计算机算法来理解自然语言。

Xyz_Overlord·2025-06-20 16:55

使用Xinference与LangChain实现强大的模型推理

Xinference是一款强大的推理库，它能够无缝地为LLMs、语音识别模型以及多模态模型提供服务。

yunwu12777·2025-06-20 16:53

XMOS将在CES 2025上展出多款由边缘AI驱动的创新音效、音频、识别和处理解决方案

全球智能物联网技术领导者暨匠心独到的半导体科技企业XMOS宣布：该公司将再次参加2025年国际消费电子展（CES2025），并将在本届CES上展出一系列由人工智能（AI）驱动的全新空间音效、语音捕获与降噪

电子科技圈·2025-06-20 15:47

基于Python的LSTM循环神经网络模型实战

而循环神经网络（RecurrentNeuralNetwork，RNN）及其变体——长短期记忆网络（LongShort-TermMemory，LSTM），凭借独特的记忆机制，能够有效处理序列数据，在语音识别

缑宇澄·2025-06-20 15:45

安卓入门二十一常用功能模块一无障碍模式

无障碍开发的作用是为残障人士提供更好的移动设备使用体验;借助无障碍开发可以降低访问设备应用程序的难度;Android为无障碍开发提供了多种辅助技术,如:TalkBack:该技术帮助盲人和视力障碍者更容易地使用Android设备;语音提示

起个随便的昵称·2025-06-20 12:55

鸿蒙AI语音翻译便签应用设计与实现

鸿蒙AI语音翻译便签应用设计与实现一、系统架构设计基于HarmonyOS的AI能力和分布式技术，我们设计了一个语音翻译便签应用，能够实时将语音输入转换为文字并进行翻译，最终生成多语言便签，支持跨设备同步

鸿蒙大白·2025-06-20 10:11

唯创知音旗下有哪些语音芯片型号

唯创知音(Waytronic)作为国内语音芯片领域的核心厂商，其产品线覆盖从基础语音播放到智能交互的全场景需求。

唯创知音·2025-06-20 08:54

阿里云大模型AI：开启智能新时代的钥匙

从智能语音助手到自动驾驶汽车，从医疗影像诊断到金融风险预测，AI技术正以惊人的速度渗透到各个领域，为我们带来前所未有的便利与机遇。

云资源服务商·2025-06-20 02:11

推荐频道

lync语音