语音SDK 第10页

思极地图使用

思极地图api文档：思极地图开放平台|思极地图APISDK思极地图SDK:使用：//先登录思极地图参数一：你申请的appKey参数二：你申请的appSecretSGMap.tokenTask.login

逆风优雅·2025-06-18 16:42

19｜Whisper+ChatGPT：请AI代你听播客

今天，我们的课程开始进入一个新的主题了，那就是语音识别。过去几周我们介绍的ChatGPT虽然很强大，但是只能接受文本的输入。而在现实生活中，很多时候我们并不方便停下来打字。

企鹅侠客·2025-06-18 15:08

TikHub-API-Python-SDK 使用教程

TikHub-API-Python-SDK使用教程TikHub-API-Python-SDKHigh-performanceasynchronousDouyinTikTokInstagramXiaohongshuKuaishouWeibounofficialAPI

瞿千斯Freda·2025-06-18 13:19

Bluetooth® 测试原理概览（基于 R&S®CMW 测试平台）

Bluetooth®测试原理概览（基于R&S®CMW测试平台）一、Bluetooth®技术基础Bluetooth®Classic：适用于语音、音频、数据传输，采用GFSK、π/4-DQPSK、8DPSK

cccsjjsccc·2025-06-18 11:09

四通道高速数据采集卡+带DAQ采集程序，精准测量，稳定可靠的解决方案

上海锟联科技·2025-06-18 10:59

10分钟学会使用.Net技术开发一个Ai智能体应用-小智esp32

在当今数字化的时代，语音交互技术正以前所未有的速度发展，为人们的生活和工作带来了极大的便利。

朱利戈·2025-06-18 07:13

DeepSeek 15天指导手册--从入门到精通

DeepSeek生态定位大模型技术演进：从GPT到DeepSeek的技术突破DeepSeek核心优势解读：算力效率、中文理解、知识密度应用场景全景图：企业服务/教育/科研/开发者工具环境准备：API密钥获取/官方SDK

翻晒时光·2025-06-18 07:42

AI大模型的概念验证与落地

计算机视觉,概念验证,落地应用,模型训练,模型部署1.背景介绍近年来，人工智能（AI）技术取得了飞速发展，其中，大模型作为AI领域的重要组成部分，展现出强大的学习和推理能力，在自然语言处理、计算机视觉、语音识别等领域取得了突破性进展

AI智能应用·2025-06-18 04:19

此应用专为旧版Android系统打造

2.2升级sdk版本在gradle文件中，升级compileSd

·2025-06-18 03:15

AI人工智能语音识别的多模态融合应用

AI人工智能语音识别的多模态融合应用关键词：语音识别、多模态融合、深度学习、神经网络、特征提取、端到端学习、注意力机制摘要：本文深入探讨了AI语音识别中的多模态融合技术，从基础原理到实际应用进行了全面剖析

AI天才研究院·2025-06-18 02:07

基于深度学习的智能语音合成系统：技术与实践

前言随着人工智能技术的飞速发展，智能语音合成（Text-to-Speech,TTS）技术已经成为人机交互领域的重要组成部分。从智能助手到有声读物，语音合成技术正在改变我们与数字内容的交互方式。

Blossom.118·2025-06-18 02:05

Google Gen AI Python SDK 使用教程

GoogleGenAIPythonSDK使用教程python-genaiGoogleGenAIPythonSDKprovidesaninterfacefordeveloperstointegrateGoogle'sgenerativemodelsintotheirPythonapplications

滕娴殉·2025-06-18 01:30

多模态大模型：技术原理与实战语音多模态技术

多模态大模型：技术原理与实战语音多模态技术关键词：多模态大模型，语音识别，自然语言处理，深度学习，神经网络，融合技术1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，多模态大模型逐渐成为研究热点。

AI智能应用·2025-06-18 00:58

深度学习进阶：卷积神经网络(CNN)原理与实战

1.卷积神经网络概述卷积神经网络（ConvolutionalNeuralNetworks,CNN）是深度学习中专门用于处理网格状数据（如图像、语音、视频）的神经网络架构。

软考和人工智能学堂·2025-06-17 23:51

「Happy LLM」机器与人类沟通的桥梁——NLP

它的核心是通过算法处理文本或语音数据，实现翻译、问答、情感分析等功能。其本质上是将人类语言转化为机器可处理的结构化数据（如语义解析），同时将机器

OvO_ll·2025-06-17 23:18

深度学习入门指南：从基础概念到代码实践

深度学习已经在计算机视觉、自然语言处理、语音识别等领域取得了突破性进展。例如，ImageNet竞赛中深度学习模型的识别准确率已经超过人类水平，而GP

软考和人工智能学堂·2025-06-17 23:18

Python实现语音识别功能，简单三步搞定！

语音识别是一种将语音信号转换为文本的技术，它在许多应用领域中具有重要的作用，例如语音助手、语音搜索和语音指令。在本文中，我将向您展示如何使用Python实现基本的语音识别功能，只需三个简单的步骤。

BinzTcl·2025-06-17 23:45

MCP 模型上下文协议 modelcontextprotocol/python-sdk

核心摘要(TL;DR)这个modelcontextprotocol/python-sdk是一个Python软件包（SDK）。

·2025-06-17 19:51

✨Whisper 官方版本离线安装及断点续传下载 + screen 后台管理全流程指南

Whisper官方版本离线安装及断点续传下载+screen后台管理全流程指南Whisper是OpenAI开源的强大语音识别模型，支持多语言转写。

杨靳言先·2025-06-17 18:16

C# WebAssembly革命：用C#打造《赛博朋克2077》级Web3D游戏引擎

1.环境搭建：C#与WebAssembly的“基础设施”核心场景：工具链整合：.NETSDK+Emscripten+VSCode的完美配合编译参数的“黑科技”：-sWASM=1与-sSIDE_MODULE

墨夶·2025-06-17 15:53

uniapp+vue3+高德地图API实现线路轨迹

实现基于高德地图API实现线路轨迹上一篇路径：点击链接用到的方法是getDrivingRoute，直接上代码，如下importaMapfrom"@/utils/amap-wx"//这个是你要引入的高德地图SDK

小杜小杜dxp·2025-06-17 12:36

C#语音识别的深度探索与实践：从入门到精通

在当今数字化时代，语音识别技术已经成为连接人与计算机之间沟通桥梁的关键组成部分。对于开发者而言，掌握如何利用C#实现高效的语音识别应用不仅能够提升用户体验，还能为各种行业带来前所未有的便利。

墨夶·2025-06-17 09:14

大模型人工智能+实时语音通话，实现智能呼叫中心

大模型人工智能+实时语音通话，实现智能呼叫中心作者：开源智能呼叫中心FreeAICC(CC:Call-Center）大模型人工智能与实时语音通话技术的结合，为智能呼叫中心带来了前所未有的变革。

FreeTools·2025-06-17 04:39

Android微信对话列表实现指南

本文将指导你如何创建一个自定义适配器来填充ListView，展示不同类型的消息如文本、图片和语音消息。

青妍·2025-06-16 23:05

20250615解决在ubuntu22.04.5下编译OK3576-C_Linux6.1.84_用户资料_R1出现问题sdb.c2410 fatal error sqlite3.h No such f

想办法讲飞凌的、荣品的SDK合成一个近似Rockchip瑞芯微原厂的SDK。

南棱笑笑生·2025-06-16 23:05

20250615解决在ubuntu22.04.5下编译OK3576-C_Linux6.1.84_用户资料_R1出现问题special-case.h:12:10: fatal error: unicod

想办法讲飞凌的、荣品的SDK合成一个

南棱笑笑生·2025-06-16 23:05

Rockchip RK3588 Android SDK编译方法

RockchipRK3588AndroidSDK编译方法编译RockchipRK3588AndroidSDK的步骤如下：1.环境准备确保系统满足以下要求：操作系统：Ubuntu18.04或20.04（推荐

飘飘燃雪·2025-06-16 23:34

阿里智能语音交互 SDK：赋能智能人机交互新时代

阿里智能语音交互SDK：赋能智能人机交互新时代alibabacloud-nls-java-sdkTheJavaSDKforAlibabanaturelanguageandspeechAPIs.项目地址:

田轲浩·2025-06-16 21:22

使用 espeak-ng 实现文本转语音

初识命令行语音工具espeak-ng，用它给你的终端加点“声音”！为什么选择espeak-ng？

Mr_Chenph·2025-06-16 19:36

Window下VS2019编译WebRTC通关版

这段时间需要实现这样一个功能，使用WebRTC实现语音通话功能，第一步要做的事情就是编译WebRTC源码，也是很多码友会遇到的问题。

糯诺诺米团·2025-06-16 16:22

Whisper（语音识别，语音转文本）本地部署

一、安装好ffmpeg1、安装ffmpeg，这个好像是用于对音频文件解析和处理的，具体不态清楚ffmpeg安装教程2、后面可能出现的问题如果后面运行时，出现系统找不到指定文件的bug时，尝试在上一步添加环境变量中，也添加一个系统变量，并重启一下电脑二、使用Anaconda创建所需的环境1、创建一个新的环境condacreate-nwhisperpython=3.92、判断自己的设备使用什么版本的C

龚子亦·2025-06-16 16:50

打破系统限制：强制固定Windows麦克风音量方法

有没有遇到过这种情况：当你使用语音类工具时，它们会“自以为是”地对你的麦克风进行噪音检测，并自动降低音量？

sinat_33351887·2025-06-16 16:19

多模态..

大白话：让AI像人一样，同时理解「文字+语音+图像+视频」等多种信息。类比相亲场景：单模态AI：只看照片（图像模态）：评价「颜值6分」。只听语音（音频模态）：评价「声音好听」。

MYH516·2025-06-16 15:14

Android 14 功能和变更列表

无障碍功能摄像头和媒体核心功能开发者工作效率和工具图形国际化隐私权安全性用户体验限制非SDK接口Category变更（所有应用）变更（以Android14及更高版本为目标平台的应用）新功能和API类型类别类型名称安全变更

华南烹鱼宴·2025-06-16 15:40

Android 16 开发者预览版2行为变更：所有应用

以下行为变更将影响在Android16上运行的所有应用，无论采用哪种targetSdkVersion都不例外。您应该测试您的应用，然后根据需要进行修改，以支持这些变更（如果适用）。

ChinaDragonDreamer·2025-06-16 14:38

Android16变更

hl=zh-cn摘要1：讨论Android16的新特性，如ProjectButter、可扩展通知、语音搜索改进、相机

雨声不在·2025-06-16 14:37

智能引擎驱动产业跃迁：人工智能产业化浪潮中的机遇与挑战

个人主页：慌ZHANG-CSDN博客期待您的关注一、前言：从“智能技术”到“智能产业”过去十年，人工智能从实验室技术走向产业应用，经历了三个关键阶段：感知智能（PerceptionAI）：如图像识别、语音识别

·2025-06-16 12:51

TensorFlow与Pytorch的区别

它能够进行深度神经网络的训练和推理，具有高效、灵活、跨平台等优点，被广泛应用于图像识别、语音识别、自然语言处理、推荐系统等领域。

m0_49517971·2025-06-16 11:44

鸿蒙开发实战之Audio Kit打造美颜相机沉浸式音效

一、核心音频场景通过AudioKit实现三大声音增强：视频录制音质优化智能降噪（环境噪音降低30dB）声场增强（采样率48kHz/24bit）语音交互升级美颜参数语音控制（支持中英文混合指令）声纹识别解锁高级功能沉浸式播放体验

·2025-06-16 10:17

ReactNative 适配XCode打包ios18+

yarnrelease--appstore...2025-05-1514:39:34.293xcodebuild[xxx]Progress0%:Uploadfailed.ValidationfailedSDKversionissue.Thisa

Kevin·Tseng·2025-06-16 08:25

深度学习小项目合集之音频语音识别-视频介绍下自取

内容包括：基于python深度学习对动物的异常声音识别179基于python深度学习对动物的异常声音识别_哔哩哔哩_bilibili简介:本代码python代码，pytorch框架下运行，是将data文件夹下动物的异常声音的wav格式的音频文件读取，转化成了梅尔卡图，再通过cnn卷积神经网络对转化后的声音特征进行训练，最后得到ckpt格式的模型，然后运行pyqt界面后，即可通过点击按钮来加载数据音

no_work·2025-06-16 07:20

ASR-PRO语音模块资料

ASR-PRO语音模块资料ASR-PRO语音模块资料.zip项目地址:https://gitcode.com/open-source-toolkit/2a967欢迎来到ASR-PRO语音模块资源库！

龙唯荷Britney·2025-06-16 07:19

1G（第一代移动通信系统）详解

语音信号：核心频率范围：主要能量集中区：30Hz-3400Hz，涵盖基频、共振峰及大部分语音特征成分。电话通信标准：传统窄带电话仅传输300Hz-3400Hz范围，以保证语音可懂度。

zdd56789·2025-06-16 01:39

【GITHub开源项目实战】Labelbox Python SDK 实战指南：高效管理数据标注任务的工程集成与自动化优化策略解析

LabelboxPythonSDK实战指南：高效管理数据标注任务的工程集成与自动化优化策略解析关键词Labelbox、数据标注平台、PythonSDK、标注任务自动化、数据管道集成、异步上传、Webhooks

·2025-06-16 01:08

HarmonyOS 5鸿蒙多端编译实战：从Android/iOS到HarmonyOS 5 的跨端迁移指南详

HarmonyOS5的跨端迁移实战详解，涵盖Android/iOS迁移核心技术方案及关键实现步骤：一、迁移核心流程1.‌环境配置‌‌开发工具‌：安装DevEcoStudio5.0+，勾选HarmonyOSSDK

程序员小刘·2025-06-16 00:01

Step-Audio-AQAA 解读：迈向「纯语音」交互的端到端 LALM 新里程

我们不再满足于简单的文本问答，而是期望AI能够像人类一样，通过自然的语音进行交流，理解我们的意图，并以富有表现力的声音回应。

kakaZhui·2025-06-15 23:26

鸿蒙开发实战之Input Kit实现美颜相机智能交互

一、功能场景与价值在美颜相机App中，InputKit提供了超越传统触控的交互方式，实现：手势控制：隔空手势切换滤镜/拍照（支持5种标准手势）语音指令：语音控制美颜强度、拍照倒计时手写输入：在照片上直接手写批注

·2025-06-15 23:08

当卷积作用于信号处理

当卷积作用于信号处理场景一：语音信号的信噪比提升智能耳机一般都有一个选项环境音量自适应，当在地铁上使用时，是否好奇它是如何在嘈杂环境中准确捕捉人声的？背后是一套实时卷积处理系统。

思绪漂移·2025-06-15 22:22

基于React Native的HarmonyOS 5.0房产与装修应用开发

程序员小张丶·2025-06-15 21:14

视频自动生成字幕原理和自动生成字幕的应用实例

视频自动生成字幕功能利用AI语音识别技术，将视频语音转为文字字幕。该功能通过提取音频、语音识别和字幕格式化三个步骤实现，支持SRT/VTT等格式。

视频砖家·2025-06-15 20:36

推荐频道

语音SDK