E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
语音识别论文笔记
【花雕动手做】基于ESP32S3和通义千问大模型AI语音聊天机器人
2、技术架构:(1)
语音识别
:使用语音转文字大模型,将用户的语音输入转换为文本信息。(2)文本理解:将转换后的文本发送到通义千问大模型进行处理,模型会根据文本内容生成相应的回答。
驴友花雕
·
2025-03-11 22:44
人工智能
机器人
嵌入式硬件
单片机
c++
基于ESP32S3
通义千问AI语音聊天机器人
AIGC视频生成模型:ByteDance的PixelDance模型
热门专栏机器学习机器学习笔记合集深度学习深度学习笔记合集优质专栏回顾:机器学习笔记深度学习笔记多模态
论文笔记
AIGC—图像文章目录热门专栏机器学习深度学习
好评笔记
·
2025-03-11 21:09
AIGC
音视频
机器学习
人工智能
深度学习
计算机视觉
transformer
LLM
论文笔记
20: How to think step-by-step: A mechanistic understanding of chain-of-thought reasoning
Arxiv日期:2024.5.16机构:IIT关键词CoT本质LLM推理本质核心结论1.CoT推理的功能组件尽管不同阶段的推理任务具有不同的推理需求,模型内部的功能组件几乎是相同的(共享而非独享)不同的神经算法实际上是由类似归纳头(inductionheads)等机制组合而成2.注意力机制中的信息流动attentionheads在不同的模型层之间传递信息,特别是当它们涉及到本体论相关(ontolo
Zhouqi_Hua
·
2025-03-11 03:10
大模型论文阅读
人工智能
chatgpt
论文阅读
机器学习
深度学习
语言模型
[
论文笔记
] LLaMA3.1与Qwen2与Apple 技术报告中预训练方案对比
https://arxiv.org/pdf/2407.21075https://arxiv.org/pdf/2407.10671https://arxiv.org/pdf/2407.21783LLaMA3.1LLaMA3.1技术报告:https://ai.meta.com/blog/meta-llama-3-1/
心心喵
·
2025-03-10 01:02
论文笔记
论文阅读
深度学习
人工智能
提高客户体验:人类计算在营销中的应用
人类计算与营销:开启个性化时代的未来人类计算与营销:开启个性化时代的未来关键词:人工智能、个性化营销、客户体验、数据驱动、客户关系管理摘要:本文探讨了人类计算在营销中的应用,包括
语音识别
、人脸识别、自然语言处理等技术
AI天才研究院
·
2025-03-09 21:26
ChatGPT
AI大模型企业级应用开发实战
DeepSeek
R1
&
大数据AI人工智能大模型
大厂Offer收割机
面试题
简历
程序员读书
硅基计算
碳基计算
认知计算
生物计算
深度学习
神经网络
大数据
AIGC
AGI
LLM
Java
Python
架构设计
Agent
程序员实现财富自由
LLM时代的小模型思考:《What is the Role of Small Models in the LLM Era: A Survey》
论文笔记
论文:WhatistheRoleofSmallModelsintheLLMEra:ASurvey作者:LihuChenetal.单位:ImperialCollegeLondonAbstract问题:扩大模型大小会导致计算成本和能耗呈指数级增长,这使得这些模型对于学术研究人员和资源有限的企业来说不切实际小型模型(SMs)经常用于实际环境中,引发了关于小模型在LLM时代的作用的重要问题,且关注有限方法
FrancisQiu
·
2025-03-09 14:02
learning
nlp
paper
reading
论文阅读
嵌入式行业全景透视:前景、挑战与从业者发展路径
例如,智能家居通过
语音识别
与传感器联动实现设备协同,工业4.0中嵌入式系统支撑自动化产线的实时控制与数据采集。据预测,2028年
九溪弥烟、
·
2025-03-08 16:49
技术杂谈
嵌入式硬件
【实战项目】Python 手撕一个基于最新端到端大模型的语音聊天系统
然而,传统的语音交互系统往往采用“
语音识别
(ASR)-自然语言理解(NLU)-对话管理(DM)-自然语言生成(NLG)-语音合成(TTS)”的级联式架构,这种架构存在着诸多弊端,如:错误累积:每个模块的错误都会传递到下一个模块
kakaZhui
·
2025-03-08 02:53
解码前沿多模态大模型:认知
分析和工业级实战
python
开发语言
AIGC
人工智能
chatgpt
【有啥问啥】深入浅出:大模型应用工具 Ollama 技术详解
深入浅出:大模型应用工具Ollama技术详解引言近年来,大型模型(LargeModels,LLMs)技术突飞猛进,在自然语言处理、计算机视觉、
语音识别
等领域展现出强大的能力。
有啥问啥
·
2025-03-08 00:21
大模型
科普
人工智能
深度学习
TORGO 数据库:构音障碍语音研究的宝贵资源
TORGO数据库:构音障碍语音研究的宝贵资源在
语音识别
和语音病理学领域,构音障碍(Dysarthria)是一个重要的研究方向。
帅小柏
·
2025-03-07 20:10
语音识别与Wenet实战
语音识别与ESPnet实战
语音识别
人工智能基础知识
二:自然语言处理nlp(
语音识别
)处理(文本)方面解决(说和听的问题),RNN,LSTM,attention,transformer(基于规则的翻译,超越普通
yzx991013
·
2025-03-07 16:24
人工智能
服务器、群晖,飞牛NAS等部署Whisper ASR教程来啦!让我们的Nas轻松实现音频转文字服务!
文章目录介绍演示环境服务器/群晖/飞牛NAS部署WhisperASR,
语音识别
soeasy!
xiaoqiangclub
·
2025-03-07 10:20
群晖助手
服务器
whisper
音视频
ASR
语音转文字
实用教程
神经网络VS决策树
适用性广泛:神经网络适用于分类、回归、图像处理、
语音识别
、自然语言处理等多种任务。多层结构:通过增加隐藏层,神经网络可以逐层提
Persistence is gold
·
2025-03-07 01:16
神经网络
决策树
人工智能
windows实现麦克风持续实时实现科大讯飞
语音识别
,判断声音是否停止并生成pcm文件
importpyaudio,waveimportnumpyasnpdeflisten():temp=20CHUNK=1024FORMAT=pyaudio.paInt16CHANNELS=1RATE=16000RECORD_SECONDS=2SAMPLE_WIDTH=2#2bytespersampleWAVE_OUTPUT_FILENAME='test.wav'mindb=2000#最小声音,大于则
青年夏日科技工作者
·
2025-03-06 11:41
语音识别
人工智能
AI 外呼产品架构解读:让智能外呼更精准高效
这一层主要包括以下三个核心组成部分:1.AI基础能力AI基础能力涵盖了
语音识别
(ASR)、自然语言处理(NLP)和语音合成(TTS)等技术。这些技术使
MARS_AI_
·
2025-03-06 05:16
人工智能
架构
自然语言处理
信息与通信
国内外优秀AI外呼产品推荐
一、云蝠智能:大模型驱动的“性价比之王”作为国内AI外呼领域的领军者,云蝠智能以神鹤AI对话大模型为核心技术,深度融合自然语言处理(NLP)、
语音识别
(ASR)与语音
MARS_AI_
·
2025-03-05 18:23
人工智能
自然语言处理
sass
nlp
信息与通信
【
论文笔记
】3DGS压缩相关工作2篇
1.背景介绍:NVS神经辐射场(NeRFs)引入了一种基于多层感知机(MLP)的新型隐式场景表示方法,它将体密度编码作为几何形状和方向辐射的代理量。渲染通过光线行进的方式来执行。这一解决方案为新视图合成(NVS)带来了前所未有的视觉质量,但代价是训练多层感知机的优化过程极为耗时,且渲染速度很慢。有几种方法加速了训练和渲染过程,通常是利用空间数据结构或者像哈希这样的编码方式,不过牺牲了视觉质量。近期
AndrewHZ
·
2025-03-05 06:11
深度学习新浪潮
论文阅读
3DGS
计算机图形学
算法
三维高斯飞溅
压缩方法
AI大模型教程入门到精通,非常详细收藏我这一篇就够了!AI大模型零基础入门教程(适合小白)
这些模型通常具有高度的准确性和泛化能力,可以应用于各种领域,如自然语言处理、图像识别、
语音识别
等。为什么要学AI大模型?
AGI大模型学习
·
2025-03-04 01:21
人工智能
大模型应用
大模型
AI产品经理
学习
AI大模型
大模型教程
神经进化算法(Neuroevolution) 原理与代码实例讲解
神经进化算法,Neuroevolution,进化算法,深度学习,机器学习,遗传算法,神经网络,代码实例1.背景介绍在机器学习领域,神经网络凭借其强大的学习能力和泛化能力,在图像识别、自然语言处理、
语音识别
等领域取得了显著的成就
AI大模型应用之禅
·
2025-03-03 13:25
DeepSeek
R1
&
AI大模型与大数据
java
python
javascript
kotlin
golang
架构
人工智能
微信小程序毕业设计大全
微信小程序程序列表:微信小程序健身房课程预约系统6638微信小程序投票系统6640微信小程序小说阅读推荐系统6641微信小程序垃圾分类识别系统(
语音识别
,拍照识别)qt-93982微信小程序网上书店qt
QQ1305637939
·
2025-03-03 00:39
小程序毕业设计
小程序答辩
java
idea
自然语言处理之语法解析:BERT:自然语言处理基础理论
NLP建立于20世纪50年代,随着计算机技术的飞速发展,NLP技术在信息检索、文本挖掘、
语音识别
、机器翻译、情
zhubeibei168
·
2025-03-02 14:15
自然语言处理
1024程序员节
自然语言处理
bert
语音识别
人工智能
API开发:Flask VS FastAPI
文章目录一、简介二、性能表现三、开发效率(中文
语音识别
为例)四、代码可读性和维护性五、生态系统和社区支持六、总结一、简介Flask:Flask是一个轻量级的PythonWeb框架,它基于Werkze
Sherry Wangs
·
2025-03-02 13:07
Python开发实践
python
fastapi
后端
使用 Vosk 实现
语音识别
在近两年里,如果说想要在本地部署离线
语音识别
模型,那么Whisper和FunASR肯定是首选项。所以为什么要使用Vosk呢?
分发吧
·
2025-03-01 15:26
语音识别
xcode
人工智能
python编译安装vosk
语音识别
包
不知道为什么,谁把vosk从pip源上删了。没办法只能自己编译安装了。下载源代码gitclonehttps://github.com/alphacep/vosk-api.git进入python文件夹cdvosk-api/python编译安装python3setup.pyinstall
hzjxinyue
·
2025-03-01 15:51
python
VOSK
语音识别
工具包使用教程
VOSK
语音识别
工具包使用教程voskVOSKSpeechRecognitionToolkit项目地址:https://gitcode.com/gh_mirrors/vo/vosk1.项目介绍VOSK是一个开源的
语音识别
工具包
邴联微
·
2025-03-01 15:50
[
论文笔记
] LLM大模型剪枝篇——2、剪枝总体方案
https://github.com/sramshetty/ShortGPT/tree/mainMy剪枝方案(暂定):剪枝目标:1.5B—>100~600M剪枝方法:层粒度剪枝1、基于BI分数选择P%的冗余层,P=60~802、对前N%冗余层,直接删除fulllayer。N=20(N:剪枝崩溃临界点,LLaMA2在45%,Mistral-7B在35%,Qwen在20%,Phi-2在25%)对后(P
心心喵
·
2025-03-01 04:25
论文笔记
剪枝
算法
机器学习
Farm3D- Learning Articulated 3D Animals by Distilling 2D Diffusion
论文笔记
Farm3D:LearningArticulated3DAnimalsbyDistilling2DDiffusion1.Introduction最近的研究DreamFusion表明,可以通过text-imagegenerator提取高质量的三维模型,尽管该生成模型并未经过三维训练,但它仍然包含足够的信息以恢复三维形状。在本文中,展示了通过文本-图像生成模型可以获取更多信息,并获得关节模型化的三维对
Im Bug
·
2025-02-28 07:24
3d
论文阅读
DeepSeek全栈接入指南:从零到生产环境的深度实践
其核心能力体现在:1.1.1多模态智能引擎自然语言处理:支持文本生成(NLG)、语义理解(NLU)、情感分析等计算机视觉:提供图像分类、目标检测、OCR识别等CV能力语音交互:包含
语音识别
(ASR)、语音合成
量子纠缠BUG
·
2025-02-27 21:30
DeepSeek部署
AI
DeepSeek
人工智能
深度学习
机器学习
说话人识别系统原理
与
语音识别
不同,
语音识别
关注的是语音内容的转写,比
醉心编码
·
2025-02-27 16:14
人工智能基础
编程基础
技术类
人工智能
说话人识别
语音识别
深度学习的前沿与挑战:从基础到最新进展
.卷积神经网络(CNN)2.循环神经网络(RNN)3.生成对抗网络(GAN)4.变分自编码器(VAE)5.自注意力机制与Transformer深度学习的应用1.计算机视觉2.自然语言处理(NLP)3.
语音识别
与合成
Jason_Orton
·
2025-02-27 03:09
深度学习
人工智能
数据挖掘
机器学习
python系列&deep_study系列:使用python操作麦克风录制讲话,实时
语音识别
转换为文字
使用python操作麦克风录制讲话,实时
语音识别
转换为文字使用python操作麦克风录制讲话,实时
语音识别
转换为文字项目步骤VoskPyaudio完整代码使用python操作麦克风录制讲话,实时
语音识别
转换为文字在这个项目中
坦笑&&life
·
2025-02-27 02:57
AI系列
python
语音识别
xcode
大模型之二十七-
语音识别
Whisper实例浅析
Whisper简介Whisper是OpenAI于2022年9月开源的一个多语种识别模型,目前支持99种语言,是目前性能最好的开源多语种识别ASR大模型,第一版版使用了68万小时标注好的语料预训练模型,而large-v3的标注数据超过了500万小时,其paper中并没透露使用语料的详细来源,估计是爬了一些版权数据,在Huggingface上提到模型有很强的泛化能力,能够在未经特定训练的情况下处理新的
shichaog
·
2025-02-27 01:55
神经网络&人工智能
语音识别
whisper
人工智能
使用Python和Vosk库实现
语音识别
使用Python和Vosk库实现
语音识别
在人工智能和机器学习领域,
语音识别
技术正变得越来越重要。Python作为一种强大的编程语言,拥有丰富的库和框架,可以方便地实现
语音识别
功能。
车载testing
·
2025-02-27 01:22
python
语音识别
开发语言
Python+whisper/vosk实现
语音识别
Whisper-large-v3-turbo模型二、vosk1、Vosk介绍2、vosk安装3、使用vosk三、总结一、Whisper1、Whisper介绍Whisper是一个由OpenAI开发的人工智能
语音识别
模型
唯余木叶下弦声
·
2025-02-27 01:50
python
whisper
语音识别
人工智能
深度学习:从神经网络到智能应用
无论是
语音识别
、图像识别,还是自动驾驶、自然语言处理,深度学习都在推动着技术的发展和行业的变革。那
Jason_Orton
·
2025-02-27 00:43
深度学习
神经网络
人工智能
机器学习
论文笔记
(七十二)Reward Centering(一)
RewardCentering(一)文章概括摘要1奖励中心化理论文章概括引用:@article{naik2024reward,title={RewardCentering},author={Naik,AbhishekandWan,YiandTomar,MananandSutton,RichardS},journal={arXivpreprintarXiv:2405.09999},year={202
墨绿色的摆渡人
·
2025-02-26 21:20
文章
论文阅读
论文笔记
:Enhancing Sentence Embeddings in Generative Language Models
2024ICIC1INTRO对于文本嵌入,过去几年的相关研究主要集中在像BERT和RoBERTa这样的判别模型上。这些模型固有的语义空间各向异性,往往需要通过大量数据集进行微调,才能生成高质量的句子嵌入。——>需要较大的训练批次,这会消耗大量的计算资源一些前沿的工作将焦点转向了最近开发的生成模型,期望利用其先进的文本理解能力,直接对输入句子进行编码,而无需额外的反向传播由于句子表示和自回归语言建模
UQI-LIUWJ
·
2025-02-26 20:17
论文阅读
语言模型
人工智能
全市场大模型分类及对比分析报告
大模型凭借其强大的计算能力和海量数据处理能力,在自然语言处理(NLP)、计算机视觉(CV)、
语音识别
等领域取得了显著成果。
早退的程序员
·
2025-02-26 13:53
分类
数据挖掘
人工智能
【物联网项目】基于ESP8266设计的家庭灯光与火情智能监测系统(完整工程资料源码等)
主要模块如HC-SR501人体红外传感器模块、光敏电阻传感器模块、火焰传感器模块、LD3320
语音识别
模块、DHT11温湿度传感器模块等。使用Arduino开发软件进行烧录程序
阿齐Archie
·
2025-02-26 13:20
单片机项目合集
单片机
嵌入式硬件
stm32
毕业设计
毕设
物联网
脑洞打开话题:deepseek这么火,什么时候能完全代替人类?
以下是关于AI何时可能完全代替人类的一些分析和思考:1.技术层面的限制尽管AI在某些特定任务上已经超越了人类(如图像识别、
语音识别
、围棋等),但要完全代替人类,AI需要在以下几个方面取得突破:通用人工智能
噔噔噔噔@
·
2025-02-26 10:29
网络
python 语音转文本中文——DeepSpeech
DeepSpeech简介与音频转文本实践DeepSpeech是由Mozilla开发的一种开源
语音识别
引擎,基于深度学习技术,采用端到端架构,可以高效地将语音转换为文本。
drebander
·
2025-02-26 00:51
python
开发语言
DeepSpeech
HarmonyOS Next智能相册应用中的AI识图与
语音识别
实战
本文旨在深入探讨基于华为鸿蒙HarmonyOSNext系统(截止目前API12)构建智能相册应用中AI识图与
语音识别
技术的实战应用,基于实际开发经验进行总结。
·
2025-02-24 23:19
harmonyos
适用于呼叫中心质检的离线ASR模型
以下是适用于中文呼叫中心质检的离线语音转文字(STT)模型及工具,根据性能、中文支持、部署灵活性等维度整理:1.开源模型与框架1.1WeNet(出门问问&西北大学)特点:端到端
语音识别
框架,专为中文优化
狂爱代码的码农
·
2025-02-24 08:07
VOIP那些事
容器
funasr 麦克风实时流
语音识别
;模拟vad检测单独输出完整每句话
参考:https://github.com/alibaba-damo-academy/FunASRchunk_size是用于流式传输延迟的配置。[0,10,5]表示实时显示的粒度为1060=600毫秒,并且预测的向前信息为560=300毫秒。每个推理输入为600毫秒(采样点为16000*0.6=960),输出为相应的文本。对于最后一个语音片段的输入,需要将is_final=True设置为强制输出最
loong_XL
·
2025-02-24 08:06
深度学习
语音AI
语音识别
人工智能
探索未来之声:趣玩
语音识别
新篇章——FunASR
探索未来之声:趣玩
语音识别
新篇章——FunASR去发现同类优质开源项目:https://gitcode.com/在这个数字时代,
语音识别
技术如同开启智能交互的金钥匙,而【FunASR】正是这把钥匙中的璀璨明珠
乌芬维Maisie
·
2025-02-24 07:32
AI 机器人外呼 —— 开启智能外呼新纪元
精准
语音识别
:融合前沿语音技术,无论是字正腔圆的普通话,还是极具地域特色的各地方言,亦或
yoloGina
·
2025-02-24 07:28
客户管理
电销系统
电话外呼系统
人工智能
机器人
GPU与FPGA加速:硬件赋能AI应用
从
语音识别
和计算机视觉,到自然语言处理和推荐系统,AI已广泛应用于各个领域。然而,训练和部署AI模型需要大量计算资源,这对传统的CPU架构提出了巨大挑战。
AI天才研究院
·
2025-02-24 01:20
DeepSeek
R1
&
大数据AI人工智能大模型
AI大模型企业级应用开发实战
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
LLM
论文笔记
15: Transformers Can Achieve Length Generalization But Not Robustly
Arxiv日期:2024.2.14机构:GoogleDeepMind/UniversityofToronto关键词长度泛化位置编码数据格式核心结论1.实验结论:十进制加法任务上的长度泛化最佳组合:FIRE位置编码随机化位置编码反向数据格式索引提示(indexhints,辅助定位)2.在适当的配置下,Transformer模型可以泛化到训练序列长度的2.5倍(例如从40位加法训练成功泛化到100位加
Zhouqi_Hua
·
2025-02-23 14:30
大模型论文阅读
论文阅读
语言模型
自然语言处理
深度学习
笔记
数字人源头厂商-源码出售源码交付-OEM系统贴牌
技术体系架构感知层
语音识别
:技术选型:采用Kaldi
语音识别
框架,它是一个开源且灵活的工具包,支持多种语言和声学模型
余~~18538162800
·
2025-02-23 08:16
音视频
线性代数
网络
人工智能
多模态
论文笔记
——DiT(Diffusion Transformer)
大家好,这里是好评笔记,公主号:Goodnote,专栏文章私信限时Free。本文详细介绍Transformer架构图像生成方面的应用,将Diffusion和Transformer结合起来的模型:DiT。目前DiT已经成为了AIGC时代的新宠儿,视频和图像生成不可缺少的一部分。文章目录论文定义架构与传统(U-Net)扩散模型区别架构噪声调度策略与传统扩散的相同输入图像/条件信息的Patch化(Pat
好评笔记
·
2025-02-23 04:19
多模态论文笔记
深度学习
transformer
DiT
人工智能
机器学习
aigc
stable
diffusion
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他