纯属转文

2023-11-08

神话，由文字叙述鬼话，由数字叙述纯属巧合？野兽易躲魔鬼难避爱护人太累了还是伤人容易！恋爱注定破灭婚姻注定破产除非能互相解决彼此的需求问题

yM_aad9·2025-07-20 19:39

Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）

然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni

知识大胖·2025-07-12 11:50

Python|扫描版词书转文字(PyPDF、OCR）

心血来潮想把词书pdf(只有扫描版）转化成电子版，然后插到某生词APP去复习然后有两个想法：1.按照A-Z等来分词单2.PDF转文字1.那首先需要把PDF分开，这个用PyPDF2可以达成PDF参考文章：

NuageL·2025-07-12 03:52

稀缺工具，效率拉满！

日常工作中经常需要对多个文件进行批量处理，如图片转文档、PDF文件空白页删除、PDF转双层、图片校正等操作。这些重复性操作如果逐个处理不但效率极低下，还可能出现错误，而利用批量操作工具。

·2025-07-10 15:49

手机FunASR识别SIM卡通话占用内存和运行性能分析

识别SIM卡语音通话内容下一篇：手机通话语音离线ASR识别商用和优化方向一、前言书接上一文《阿里FunASR本地断网离线识别模型简析》，我们其实在2023年底的时候输出过一版基于离线FunASR的ASR转文字方案

·2025-07-10 14:45

BigQuery对象引用（ObjectRef）全面指南：一站式整合结构化与非结构化多模态数据分析

非结构化媒体通常需要导出到专门的服务进行处理（如图片分析需计算机视觉服务，音频需语音转文本引擎），这会造成数据孤岛，阻碍全局分析视角的建立。

·2025-07-08 14:59

剖析AI人工智能领域Whisper的性能指标

剖析AI人工智能领域Whisper的性能指标关键词：Whisper、语音识别、性能指标、ASR、AI模型评估、基准测试、语音转文本摘要：本文深入剖析OpenAI开发的Whisper语音识别系统的性能指标

AI大模型应用实战·2025-07-06 12:54

HarmonyOS开发：使用语音识别的步骤演示

引言在当下的生活与工作场景中，语音识别技术早已渗透到方方面面——从手机上的语音助手快速拨打电话、发送消息，到智能音箱根据语音指令播放音乐、查询天气，再到办公场景里通过语音转文字功能高效记录会议纪要，其应用的广泛性不言而喻

·2025-07-05 00:04

长链接-WebSocket

在IM的服务中，有多种业务场景需要客户端和服务端建立长链接，比如说语音转文字，客户端一直在输入语音，客户端和服务端保持通信，一直进行语音转化为文字，

ZhiguoXue_IT·2025-07-02 03:02

从零开始：Python实现语音识别的完整教程_副本

从零开始：Python实现语音识别的完整教程关键词：Python、语音识别、语音转文本、音频处理、机器学习、深度学习、自然语言处理摘要：本文将带你从零开始学习如何使用Python实现语音识别功能。

AIGC应用创新大全·2025-06-30 23:55

从零开始：用Python构建AI语音识别应用的完整指南

从零开始：用Python构建AI语音识别应用的完整指南关键词：Python语音识别、AI语音处理、语音转文本、SpeechRecognition库、端到端模型摘要：本文从0到1带您掌握用Python构建

AI大模型应用之禅·2025-06-30 23:24

2025年最值得关注的十大OCR模型，技术进化与应用突破全面解析！

今天，OCR不再是简单的图像转文本工具，而是支撑智能办公、文档自动化、跨语言内容处理以及视觉理解的核心技术。

蜗牛沐雨·2025-06-30 20:02

本地文字识别系统

功能简介支持图片转文字和截图转文字的高效本地识别工具，无需联网即可快速提取图片中的文本内容，适用于文档处理、资料整理等多种场景。

yanyvkun1·2025-06-29 10:42

音频转文字-在线工具包及使用记录

资料来源：https://zhuanlan.zhihu.com/p/269603431（多种方案）视频教程：https://www.youtube.com/watch?v=L1H5ov4WTBghttps://github.com/openai/whisper//创建虚拟环境python-mvenvmyvnev//激活虚拟环境sourcemyvnev/bin/activatepipinstall-

一笑code·2025-06-28 03:02

【造工具-2】用SenceVoice，实现本地的语音转文本小工具

说到语音转文本，有两种说法，自动语音识别（ASR，AutomaticSpeechRecognition）和语音转文本（STT，Speech-to-Text），本质上都是通过算法将语音信号转化为可处理的文本形式的技术

zhulangfly·2025-06-26 22:46

利用FunASR搭建自己的语音转文本服务器（有手就行）

提示：利用阿里巴巴开源的FunASR工具包，搭建语音转文本服务，通过网页实现免费的语音转文本服务。目录前言一、FunASR是什么？

·2025-06-25 07:44

WebRTC 语音激活检测(VAD)算法

通常搭建机器人聊天系统主要包括以下三个方面:语音转文字(ASR/STT)语义内容(NLU/NLP)文字转语音(TTS)

u013250861·2025-06-25 07:13

开源(离线)中文语音识别ASR(语音转文本)工具整理

开源(离线)中文语音识别ASR(语音转文本)工具整理目录文章目录目录@[toc]openai的开源工具：whisperwhisper介绍引用ASRT语音识别项目ASRT介绍引用微软语音服务(付费)微软语音服务介绍实时语音转文本批量转录自定义语音引用

切糕师学AI·2025-06-24 23:47

微软ASR与开源模型分析

一、微软ASR核心能力1.支持场景场景功能实时语音转文本低延迟流式识别（会议字幕/直播转录）音频文件转文本支持多种格式（WAV/MP3等），批量处理长音频定制化模型针对特定行业术语（医疗/金融）训练专属模型多语言混合识别中英文混合

老兵发新帖·2025-06-24 23:45

[AI风堇]基于ChatGPT3.5+科大讯飞录音转文字API+GPT-SOVITS的模拟情感实时语音对话项目

[AI风堇]趁着有空做出来的一个小项目,灵感来源于B站,但博主未提供代码,依据简介和标题进行了一个复刻,以下是视频展示效果(已同步更新至B站),要是大家觉得好玩后期我出个教程

nightunderblackcat·2025-06-23 19:34

下载链接记录

下载歌曲：https://www.gequbao.com/music/79500pdf转word：下载文件|iLovePDF识别文字：CatOCR:易飞文字识别,免费在线图片转文字

chde2Wang·2025-06-21 17:07

华为OD机试_2025 B卷_按单词下标区间翻转文章内容（Python，100分）（附详细解题思路）

题目描述给定一段英文文章片段，由若干单词组成，单词间以空格间隔，单词下标从0开始。请翻转片段中指定区间的单词顺序并返回翻转后的内容。例如给定的英文文章片段为"Iamadeveloper"，翻转区间为[0,3]，则输出“developeraamI”。StringreverseWords(Strings,intstart,intend)输入描述使用换行隔开三个参数第一个参数为英文文章内容即英文字符串第

蜗牛的旷野·2025-06-20 19:09

人工智能顶级会议与期刊总结

说明:纯属个人看法,仅供参考.tier-1的列得较全,tier-2的不太全,tier-3的很不全.同分的按字母序排列.不很严谨地说,tier-1是可以令人羡慕的,tier-2是可以令人尊敬的,由于AI的相关会议非常多

leo0308·2025-06-19 04:38

Whisper（语音识别，语音转文本）本地部署

一、安装好ffmpeg1、安装ffmpeg，这个好像是用于对音频文件解析和处理的，具体不态清楚ffmpeg安装教程2、后面可能出现的问题如果后面运行时，出现系统找不到指定文件的bug时，尝试在上一步添加环境变量中，也添加一个系统变量，并重启一下电脑二、使用Anaconda创建所需的环境1、创建一个新的环境condacreate-nwhisperpython=3.92、判断自己的设备使用什么版本的C

龚子亦·2025-06-16 16:50

WPF开发一个语音转文字输入软件（一）

本文探索的Demo地址:https://gitee.com/lishuangquan1987/try_win32https://github.com/lishuangquan1987/try_win32后续会把他当做一个开源项目来维护需求开发一个软件，能够让用户说话来进行文字输入。具体如下：像腾讯电脑管家那样的悬浮球悬浮在其他程序之上，支持拖动，点击开始录音，再点击结束录音。有录音提示、忙碌提示。

lishuangquan1987·2025-06-14 17:02

PaddleSpeech 实战：开发与打包离线语音识别（ASR）命令行应用

教程：使用PaddleSpeech和PyInstaller构建离线的批量语音转文本工具本指南将详细介绍如何利用百度的PaddleSpeech语音技术库，一步步构建一个强大的命令行工具。

Gyro_Zeppeliiii·2025-06-13 17:52

AI颠覆市场调研：生成式智能体如何重构商业决策？

而AI驱动的变革正在重塑这一领域——从语音转文本到生成式智能体，企业开始用虚拟社会替代真人样本，将调研成本降低90%，响应速度提升10倍。

花生糖@·2025-06-10 01:04

弦图小结

CDQ的论文ClickHere以下纯属复制论文，避免以后再看一次一些概念子图点集和边集都是原图的子集的图诱导子图是子图，不含其它边团子图，并且是完全图极大团不是任何一个团的子图最大团点数最多的团最小染色用最少的颜色染给每个点

weixin_33811961·2025-06-07 22:07

【GitHub项目推荐--OCR 图片转文字识别软件】【转载】

Umi-OCR基于PaddleOCR的OCR图片转文字软件，已经获得3.6K的Star。

旅之灵夫·2025-06-02 21:17

华为OD机试 - 按单词下标区间翻转文章内容（Python/JS/C/C++ 2025 A卷 100分）

华为OD机试2025A卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述给定一段英文文章片段，由若干单词组成，单词间以空格间隔，单词下标

哪吒·2025-06-01 07:37

语音识别API对比：Google、Azure、AWS哪家强？

关键词：语音识别API、GoogleCloudSpeech-to-Text、AzureSpeechServices、AmazonTranscribe、ASR技术对比、语音转文本服务、企业级语音解决方案摘要

AI智能探索者·2025-05-31 15:22

微信同声传译(语音转文字) Taro +vue3

前言微信同声传译插件是微信自研的语音输入，文本翻译等功能的插件封装，用于提供给第三方小程序调用。在使用过程中遇见某些问题，不知道是不是底层问题，希望有大佬能解惑。1.准备工作代码配置：//app.json或者app.config（taro){...plugins:{WechatSI:{version:'0.3.6',//插件版本号provider:'wx069ba97219f66d99'//插件提

з小丸子ε·2025-05-29 04:37

【MATLAB】基于EMD-PCA-LSTM的回归预测模型

有意向获取代码，请转文末观看代码获取方式~1基本定义基于EMD-PCA-LSTM的回归预测模型是一种结合了经验模态分解（EmpiricalModeDecomposition,EMD）、主成分分析（PrincipalComponentAnalysis

Lwcah（全网各平台账号同名）·2025-05-24 02:18

openai-whisper-asr-webservice接入dify

openai-whisper-asr-webservice提供的asr的api其实并不兼容openai的api，所以在dify中是不能直接添加到语音转文字的模型中，对比了下两个api的传参情况，其实只要改动一处

dgiij·2025-05-23 08:10

开源音视频转文字工具：基于 Vosk 和 Whisper 的多语言语音识别项目

无论是内容创作者需要的字幕，还是企业需要的会议记录，都需要一个可靠的语音转文字解决方案。

phper8·2025-05-21 05:09

采用hovernet统计整张病理切片（png）细胞数量并进行RGB可视化

因此，尝试将整图WSI转为png进行细胞识别（纯属个人试试）并进行RGB可视化。

今天也不想动·2025-05-20 23:30

音视频转文字神器：替代语音识别

这是一款小巧却功能强大的音视频处理工具，来自吾爱pj，支持提取视频/音频中的语音，并能将识别结果导出为TXT、str、lrc等多种字幕格式。特别适合自媒体、视频剪辑爱好者，在JIANYINHG语音识别收费后，它成为了一个免费替代方案——可提取音频并生成字幕文件（STR格式），再导入使用，轻松实现字幕添加，省时省力又省钱！**核心功能****1.音频提取&语音识别**✅支持从视频或音频文件中提取纯净

软件菜园子·2025-05-17 16:41

语音识别——语音转文字

SenseVoiceSmall阿里开源大模型，SenseVoice是具有音频理解能力的音频基础模型，包括语音识别（ASR）、语种识别（LID）、语音情感识别（SER）和声学事件分类（AEC）或声学事件检测（AED）。经过超过40万小时的数据训练，支持50多种语言SenseVoice专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别：采用超过40万小时数据训练，支持超过50种语言，识别效果

张飞飞飞飞飞·2025-05-17 09:20

【目录】学习如何使用dify建设专业知识库

【评测】1.1.测试dify的父子分段知识库效果(20250509发布)1.2.免费体验dify工作流模式下腾讯语音转文字speech2text服务(20250514发布)2.

小声读源码·2025-05-15 02:23

鸿蒙语音识别实战：实现实时语音转文字功能HarmonyOS 5.0.0或以上

本篇带你从0实现一个「实时语音转文字」功能，涵盖：✅原生语音识别模块初始化✅实时识别中文语音→展示为文字✅错误处理与状态监听✅可拓展成语音笔记、搜索助手、语音控制器等✅所需模块能力模块名语音识别（ASR

前端付豪3号·2025-05-14 17:50

2025年阿里云ACP大数据分析师认证模拟试题（附答案解析）

所有模拟试题由AI自动生成，主要为了练习和巩固知识，并非所谓的“题库”，考试中如果出现同样试题那真是纯属巧合。1、ABC公司现有大量的图片和视频信息，以下哪种产品最适合存储该类别数据?

偷吃月亮的萌芽熊·2025-05-14 01:03

AI玩具方案

AI玩具及配套App的集成方案与成本优化建议结合海外市场特性、技术需求及成本控制，以下为分模块的部署策略及厂商推荐方案：一、技术架构拆分与部署策略1.语音转文字（STT）模块•推荐方案：购买云厂商API

sky丶Mamba·2025-05-13 13:42

2025年阿里云ACP人工智能高级工程师认证模拟试题（附答案解析）

所有模拟试题由AI自动生成，主要为了练习和巩固知识，并非所谓的“题库”，考试中如果出现同样试题那真是纯属巧合。

偷吃月亮的萌芽熊·2025-05-13 12:04

在 React Native 中使用 Whisper 进行语音识别

在本文中，我们将使用Whisper创建语音转文本应用程序。Whisper需要Python后端，因此我们将使用Flask为应用程序创建服务器。ReactNative作为构建移动客户端的框架。

pxr007·2025-05-12 20:58

Vim 命令速查表

Vim官网|Vim|Vim中文文档重复的威力光标移动插入模式插入模式的命令自动补全文本编辑复制粘贴移动文本文本对象撤销与恢复查找替换可视模式注释命令位置跳转文件操作列操作打开文件已打开文件操作多窗口操作标签页

NickDeCodes·2025-05-12 17:06

网络安全护网行动之个人见解

本篇文章纯属个人见解-不要反驳我-你要相信你就是对的-本文纯文字-纯原创护网是什么？

请再坚持一下·2025-05-09 22:44

HDFS常用shell命令+MapReduce java编程+HBase常用shell命令+Spark python编程(RDD+df)

本文包含详细的HDFS常用shell命令+MapReducejava编程+HBase常用shell命令+Sparkpython编程(RDD+df)，本文档纯属个人整理，为了应对大数据期末考试的20分程序填空和

菜菜why·2025-05-09 01:25

WPF之值转换器

ConverterParameter）常用转换器实现布尔值转可见性（BoolToVisibilityConverter）数值转换（NumberConverter）字符串格式化（StringFormatConverter）枚举转文本

冰茶_·2025-05-08 20:25

实时语音转文字(基于NAudio+Whisper+VOSP+Websocket)

今天花了大半天时间研究一个实时语音转文字的程序，目的还包括能够唤醒服务，并把命令提供给第三方。由于这方面的材料已经很多，我就只把过程中遇到的和解决方案简单说下。

htsitr·2025-05-08 16:22

VBA神兵谱 | 用FileSystemObject玩转文件系统的「瑞士军刀」（一）

文章目录**第一步：请出神兵****FSO核心属性和方法大全****1️⃣属性：掌控全局的「地图」****2️⃣方法：文件操作的「十八般武艺」****实战案例：批量重命名工具****⚠️避坑指南****进阶玩法****总结**在VBA的江湖中，若想操控文件和文件夹，Scripting.FileSystemObject（简称FSO）堪称一把「瑞士军刀」。它不仅能轻松实现文件创建、删除、复制，还能深入

Hhhhhxr0601·2025-05-03 00:55

推荐频道