E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
语音识别论文笔记
CRNN
论文笔记
CRNN最近在看天池大赛的学习赛零基础入门CV-街景字符编码识别,其中官方给出的demo中baseline就有CRNN版本,因此在这里看一看CRNN的论文。前期知识储备:概率论:了解基本的概率论知识,掌握条件概率的概念和公式CNN:了解卷积神经网络CNN的结构,掌握CNN的基本工作原理LSTM:了解长短时记忆网络LSTM的结构,掌握LSTM的基本工作原理CTC:了解CTC算法的思想,掌握基于DP实
在学习的王哈哈
·
2023-11-11 12:15
论文阅读
人工智能
深度学习
机器学习
vue+java实现语音转文字思路
思路:前端录音生成wav文件后端去解析技术:后端:Vosk是一个离线开源
语音识别
工具。它可以识别16种语言,包括中文。API接口,让您可以只用几行代码,即可迅速免费调用、体验功能。
张毫洁
·
2023-11-11 12:41
vue.js
vosk
java
jsaudiorecorder
醒醒吧,深度学习不是AI的未来(Deep Learning is not the AI future)
在这短短几年时间里,深度学习颠覆了
语音识别
、图像分类、文本理解等众多领域的算法设计思路,渐渐形成了一种从训练数据出发,经过一个端到端(end-to-end)的模型,然后直接输出得到最终结果的一种新模式。
拉姆哥的小屋
·
2023-11-11 06:15
其他
学习
科技
经验分享
娱乐
介绍 TensorFlow 的基本概念和使用场景。
TensorFlow是由Google开发的开源机器学习框架,它是一种基于数据流图的编程模型,可以用于许多不同的机器学习任务,例如图像识别、自然语言处理、
语音识别
等。
乱蜂朝王
·
2023-11-11 05:58
AI
tensorflow
AI由许多不同的技术组成,其中一些最核心的技术如下
深度学习可以用于图像识别、
语音识别
、自然语言处理等多个领域。自然语言处理:这是一种让计算机理解和处理人类语言的技术,它
软件开发小胡
·
2023-11-11 04:28
社交新零售
电商
拼团
人工智能
Exploration by random network distillation
论文笔记
ExplorationbyRandomNetworkDistillation(2018)随机网络蒸馏探索0、问题这篇文章提出的随机网络蒸馏方法与Curiosity-drivenExplorationbySelf-supervisedPrediction中提出的好奇心机制的区别?猜想:本文是基于随机网络蒸馏提出的intrinsicreward设计方式,好奇心是基于前向动力学模型的误差设计的intri
Gabriel17
·
2023-11-11 02:30
论文阅读
Count-based exploration with neural density models
论文笔记
Count-basedexplorationwithneuraldensitymodels[J].InternationalConferenceonMachineLearning,InternationalConferenceonMachineLearning,2017.基于计数的神经密度模型探索0、问题这篇文章的关键在于弄懂pseudo-count的概念,以及是如何运用pseudo-count去
Gabriel17
·
2023-11-11 02:57
论文阅读
论文笔记
:DALL-E2:Hierarchical Text-ConditionalImage Generation with CLIP Latents(未完成)
本文鉴于作为参考感谢作者
论文笔记
:DALL-E2:HierarchicalText-ConditionalImageGenerationwithCLIPLatents详解_hierarchicaltext-conditionalimagegenerationwit_nocol
VimpireSC
·
2023-11-10 22:06
论文阅读
计算机视觉
语音识别
关于麦克风MIC的选型及技术要求
最早接触专业MIC的途径是头颅录音麦克风,漂亮的MM在耳边轻声细语,掏耳朵.....音效的沉浸感非常震撼!声音的传感器件——麦克风,主流品牌有楼氏、歌尔和瑞声等麦克风厂商。以下转载:-------------------------------------------------------------------------------------------------------------
偶像musk
·
2023-11-10 14:12
智能硬件开发
语音识别
MEMS
麦克风
【深度学习】深度学习下的
语音识别
语音识别
正在侵入我们的生活。它内置于我们的手机、游戏机和智能手表中。它甚至使我们的房屋自动化。
人工智能大讲堂
·
2023-11-10 14:20
深度学习
机器学习
深度学习
语音识别
人工智能
Learning an Animatable Detailed 3D Face Model from In-The-Wild Images
论文笔记
LearninganAnimatableDetailed3DFaceModelfromIn-The-WildImages
论文笔记
论文目标:提出一个端到端的框架,可以从非受控的图片中学习高质量、可动画的3D
binlin1209
·
2023-11-10 10:28
深度学习
机器学习
人工智能
算法
基于深度学习的
语音识别
系统构建
加我微信hezkz17进数字音频系统研究开发交流答疑(课题组)项目内容:1.
语音识别
系统构建:负责基于kaldi的混合
语音识别
模型系统的构建,包括训练数据的搜集与处理,模型训练测试、rescore解码流程和上线部署等
周南音频科技教育学院(AI湖湘学派)
·
2023-11-10 10:04
音频算法设计研究开发
语音识别
人工智能
信号处理
深度神经网络压缩与加速综述 Deep Neural Network Compression and Acceleration: A Review
13.深度神经网络压缩与加速综述DeepNeuralNetworkCompressionandAcceleration:AReview摘要:深度神经网络在人工智能的应用中,包括计算机视觉、
语音识别
、自然语言处理方面
daisyxyr
·
2023-11-10 01:18
计算机英语
学习
人工智能
论文笔记
系列-Neural Network Search :A Survey
论文笔记
系列-NeuralNetworkSearch:ASurvey
论文笔记
NASautomlsurveyreviewreinforcementlearningBayesianOptimizationevolutionaryalgorithm
aiwanghuan5017
·
2023-11-10 01:17
人工智能
数据结构与算法
CTC loss 理解
定义CTC(ConnectionistTemporalClassification)是一种lossfunction对比传统方法 在传统的
语音识别
的模型中,我们对语音模型进行训练之前,往往都要将文本与语音进行严格的对齐操作
代码款款
·
2023-11-10 01:13
#
语音识别(speech
recognition)
ctc
loss
ctc
论文笔记
:CVPR2021 Bottom-Up Shift and Reasoning for Referring Image Segmentation
任务名字:ReferringImageSegmentation(RIS)keywords:one-stageRIS、graph、relationreasoning背景:方法比较vision-and-languageapproachesbasedontheirdesigningprinciples,(1)multimodalfusionandrepresentationlearning(2)lang
_击空明兮溯流光_
·
2023-11-09 23:44
graph
relattion
深度学习
python自然语言处理库_Python自然语言处理工具库(含中文处理)
随着深度学习在图像识别、
语音识别
领域的大放异彩,人们对深度学习在NLP的价值也寄予厚望。再加上AlphaGo的成功,人工智能的研究和应用变得炙手可热。
weixin_39876739
·
2023-11-09 20:18
python自然语言处理库
PyTorch
语音识别
的理论基础——MFCC
在
语音识别
研究领域,音频特征的选择至关重要。本书大部分内容中都在使用一种非常成功的音频特征—梅尔频率倒谱系数(Mel-FrequencyCepstrumCoefficient,MFCC)。
新知图书
·
2023-11-09 14:00
pytorch
语音识别
人工智能
论文笔记
:CROSSFORMER: TRANSFORMER UTILIZING CROSSDIMENSION DEPENDENCY FOR MULTIVARIATE TIME SERIES FOREC
ICLR20231intro1.1motivation之前用Transformer预测时间序列的工作,大多集中在建模时间维度的关系上。利用时间维度的自注意力机制,建立不同时间步之间的关系而在多元时间序列预测中,各个变量之间的关系也很重要。之前的模型,主要是将每个时间步的多元变量压缩成一个embedding,再进行时间维度的attention。这种方法的问题是缺少对不同变量之间关系的建模,直接每个时
UQI-LIUWJ
·
2023-11-09 14:26
论文笔记
论文阅读
transformer
深度学习
OpenAI开源全新解码器,极大提升Stable Diffusion性能
在11月7日OpenAI的首届开发者大会上,除了推出一系列重磅产品之外,还开源了两款产品,全新解码器ConsistencyDecoder(一致性解码器)和最新
语音识别
模型Whisperv3。
RPA中国
·
2023-11-09 13:50
stable
diffusion
OpenAI开源全新解码器和
语音识别
模型Whisper-v3
在11月7日OpenAI的首届开发者大会上,除了推出一系列重磅产品之外,还开源了两款产品,全新解码器ConsistencyDecoder(一致性解码器)和最新
语音识别
模型Whisperv3。
richerg85
·
2023-11-09 13:57
chatgpt
人工智能
Markov Chain Fingerprinting to Classify Encrypted Traffic
论文笔记
0.Abstract在本文中,提出了用于SSL/TLS会话中传输的应用程序流量的随机指纹。这个指纹基于一阶齐次马尔可夫链,模型识别应用程序的准确率,并提供了检测异常对话的可能性。1.Introduction通过SSL/TLS会话时的头部信息创建统计指纹,用于分类应用流量。研究了12个使用SSL/TLS的代表性应用程序的马尔可夫链指纹,建立的模型展现出特定的结构,这种结构能够通过比较应用程序流量和和
想出成果的acmer
·
2023-11-09 05:55
论文阅读
Banana Pi BPI-P2 Pro Rockchip RK3308开发板启动及设置
这些被设计为物联网设备、智能
语音识别
设备
Banana Pi开源硬件
·
2023-11-09 04:10
Banana
pi
开源硬件
开源
信息与通信
嵌入式硬件
物联网
论文笔记
:SSD: Single Shot MultiBox Detector
一、基本信息标题:SSD:SingleShotMultiBoxDetector时间:2016引用格式:Liu,Wei,etal.“Ssd:Singleshotmultiboxdetector.”Europeanconferenceoncomputervision.Springer,Cham,2016.二、研究背景相比FasterRCNN有明显的速度优势,相比YOLO又有明显的mAP优势(不过已经被
snoopy_21
·
2023-11-09 02:45
笔记
深度学习
论文笔记
:AAAI 2019 Hypergraph Neural Networks
1.前言论文链接:http://gaoyue.org/paper/HGNN.pdfgithub:https://github.com/iMoonLab/HGNN在本文中提出了一个用于数据表示学习的超图神经网络(HGNN)框架,它可以在超图结构中编码高阶数据相关性。面对在实践中学习复杂数据表示的挑战,特别是在处理复杂数据时,超图在数据建模方面更加灵活。该方法设计了超边卷积运算来处理表示学习过程中的数
饮冰l
·
2023-11-08 19:46
超图
图
数据挖掘
深度学习
神经网络
机器学习
【
论文笔记
】Point Cloud Forecasting as a Proxy for 4D Occupancy Forecasting
原文链接:https://arxiv.org/abs/2302.131301.引言运动规划需要预测其余物体的运动,但相应的感知模块如建图、目标检测、跟踪和轨迹预测通常都需要大量人力标注HD地图、语义标签、边界框或物体的轨迹,难以扩展到大型无标签数据集上。3D点云预测是一种自监督方法,但其算法隐式地捕捉传感器的外参(自车运动)、内参(激光雷达的采样模式)和其余物体的形状与运动。但自动驾驶系统需要预测
byzy
·
2023-11-08 18:50
自动驾驶中的3D占用预测
论文阅读
自动驾驶
深度学习
【
论文笔记
】RTNH+: Enhanced 4D Radar Object Detection Network using Combined CFAR-based Two-level Preproce
【
论文笔记
】RTNH+:Enhanced4DRadarObjectDetectionNetworkusingCombinedCFAR-basedTwo-levelPreprocessingandVerticalEncoding
byzy
·
2023-11-08 18:49
雷达信号处理相关
雷达3D目标检测
论文阅读
目标检测
自动驾驶
深度学习
【
论文笔记
】OpenOccupancy: A Large Scale Benchmark for Surrounding Semantic Occupancy Perception
原文链接:https://arxiv.org/abs/2303.039911.引言目前缺少自动驾驶场景中的大型环视占用感知数据集。本文提出OpenOccupancy基准,并通过添加密集语义占用标注将nuScenes扩展为nuScenes-Occupancy。使用增强和净化(AAP)流程,以标注并密集化占用标签。首先通过多帧激光雷达点叠加来初始化标签,并使用预训练基准方案建立的伪占用标签增强稀疏标注
byzy
·
2023-11-08 18:19
自动驾驶中的3D占用预测
论文阅读
自动驾驶
深度学习
计算机视觉
【
论文笔记
】UniPAD: A Universal Pre-training Paradigm for Autonomous Driving
原文链接:https://arxiv.org/pdf/2310.08370.pdf1.引言过去的3D场景理解预训练方法多采用2D图像领域中的想法,可大致分为基于对比的方法和基于MAE的方法。基于对比的方法通过对比损失,在特征空间中将相似的3D点拉进而将不相似的点分开;但正负样本选择的敏感性和增加的延迟使其应用受限。掩膜自编码(MAE)则因为点云数据的稀疏性和不规则性而遇到挑战。本文提出一种新的3D
byzy
·
2023-11-08 18:32
论文阅读
自动驾驶
计算机视觉
目标检测
深度学习
论文笔记
——基于新型多传感器融合策略的移动端双目视觉惯性SLAM闭环算法研究
创新点:新型的多传感器融合策略及移动端优化闭环检测两个部分。1、新型的多传感器融合策略:不同的传感器观测都以优化窗口中的通用帧来表示。每一个通用帧都对应一个定位状态量,而不是多个观测共同约束一个状态量。该系统中,双目相机帧之间构成视觉约束,通用帧之间利用高频IMU预积分进行约束。该设计模式避免了多个传感器之间时间戳对齐及数据近似等问题。2、移动端优化:本文中SLAM算法前端采用了角点检测和光流的方
kkmd66
·
2023-11-08 14:17
Multi-sensor
Fusion
SLAM
论文阅读
算法
自动驾驶
【STM32-DSP库的使用】基于Keil5 + STM32CubeMX 手动添加、库添加方式
1.2支持的函数类别1.3宏定义二、操作2.1STM32CubeMX配置基本工程2.2Lib库的方式实现(推荐)2.3手动添加DSP文件(可以下载官方最新库,功能齐全)三、MFCC测试DSP加速效果为验证
语音识别
dy6667188
·
2023-11-08 08:59
STM32项目
stm32
嵌入式硬件
单片机
AI技术说:人工智能相关概念与发展简史
随着智能硬件的迭代,智能家居产品逐步走进千家万户,
语音识别
、图像识别等AI相关技术也经历了阶梯式发展。如何看待人工智能的本质?人工智能的飞速发展又经历了哪些历程?
weixin_33713350
·
2023-11-08 03:09
人工智能
嵌入式
大数据
合肥中科深谷嵌入式项目实战——基于ARM
语音识别
的智能家居系统(一)
基于ARM
语音识别
的智能家居系统我们接下来带大家完成基于
语音识别
的智能家居系统嵌入式项目实战,使用到stm32开发板,讯飞的离线
语音识别
,我们在此之前,我们先学习一些Linux系统的基本操作。。
爱吃饼干的小白鼠
·
2023-11-08 01:34
合肥中科深谷嵌入式项目实战
语音识别
智能家居
人工智能
嵌入式硬件
arm开发
stm32F103系列控制板用户手册
系列控制板用户手册1.外观和接口标注2.功能3.参数4.应用场景1.外观和接口标注2.功能智能配网远程控制多路舵机接口多路电机接口姿态实时采集ps接口oled屏OTA固件一键升级语音控制-需借助app
语音识别
功能预留
hbwsmile
·
2023-11-08 01:31
stm32
智能车
智能机器人
stm32F103
智能车驱动板
物联学习板
stm32F407系列控制板用户手册
系列控制板用户手册1.外观和接口标注2.功能3.参数4.应用场景1.外观和接口标注2.功能智能配网远程控制多路舵机接口多路电机接口姿态实时采集ps接口oled屏OTA固件一键升级语音控制-需借助app
语音识别
功能预留
hbwsmile
·
2023-11-08 01:31
stm32
智能机器人
智能车
Stm32F407
智能车驱动板
物联学习板
智能语音和自然语言处理技术
智能语音和自然语言处理技术主要包括
语音识别
、语音合成、自然语言理解、自然语言生成、文本分类、信息检索等技术。
Kali与编程~
·
2023-11-07 21:21
未来科技
自然语言处理
人工智能
springboot整合vosk实现简单的
语音识别
功能
vosk开源
语音识别
Vosk是开源的
语音识别
工具包。
qq_250056868
·
2023-11-07 18:44
spring
boot
语音识别
后端
论文笔记
:Spatial-temporal Graphs for Cross-modal Text2Video Retrieval
用于跨模态Text2Video检索的时空图摘要介绍方法A.文本编码B.视频编码C.**联合嵌入空间学习**摘要跨模态文本到视频检索旨在通过文本查询找到相关视频,这对于各种现实世界的应用是至关重要的。解决这个问题的关键是建立视频和文本之间的对应关系,这样来自不同模式的相关样本就可以对齐。由于文本(句子)包含表示对象及其交互的名词和动词,因此检索相关视频需要对视频内容进行细致的理解——不仅是语义概念(
帅帅梁
·
2023-11-07 15:39
策略模式
计算机视觉
深度学习
matting系列
论文笔记
(一):Deep Image Matting
matting系列
论文笔记
(一):DeepImageMatting刚刚入了ImageMatting的坑,后续会更新系列相关的文章。
烤粽子
·
2023-11-07 09:28
论文笔记
#
image
matting
matting
图像分割
深度学习
windows
语音识别
进入“中文
语音识别
”目录,然后运行下面的命令pocketsphinxbinreleasex64pocketsphinx_continuous.exe-hmmzh_broadcastnews_ptm256
编程大乐趣
·
2023-11-07 03:51
用科大讯飞API实现本地语音文件识别
今天看了下科大讯飞
语音识别
api,使用python对接口进行了调用。
cjps
·
2023-11-07 03:21
NLP
语音识别
Python
语音识别
nlp
日语
语音识别
在线
录音文件识别支持人及以上多说话人分离新功能发布
语音识别
产品支持日语新功能发布
语音识别
产品支持上海话方言新功能发布客户端接入实时
语音识别
技术指引上线新功能发布
语音识别
电话场景支持英语模型功能优化支持访问控制功能优化接入层支持协议客户案例微信即时通讯在语音消息转写和语音输入产品功
编程大乐趣
·
2023-11-07 03:21
语音识别
接口试用
语音识别
结果对比1.jonatasgrosman/wav2vec2-large-xlsr-53-chinese-zh-cn啊五包你没有什么问题嗓局问的这老受刚来指伯间我想就了解其二联地完觉全没问题犹该奖姐家女标要等到老师主动据奖定练择因位我主要奖的是耶号联接最长加展们如果说宁士比到六点级到一到另年级的家长啊我借引局看价耶号联税突件占吧有多二森来的档调伊号联究税突点五质会活动的打年级来达的年究牙开五
旺旺棒棒冰
·
2023-11-07 03:50
语音识别
人工智能
vue
语音识别
跳转页面
//recorder.js文件exportdefaultclassRecorder{constructor(stream,config){//兼容window.URL=window.URL||window.webkitURL;navigator.getUserMedia=navigator.getUserMedia||navigator.webkitGetUserMedia||navigator.
南京前端菜鸡
·
2023-11-06 22:05
vue
vue
语音识别
ChatGPT升级版本GPT-4V(ision)支持多模态语音和图像
其
语音识别
功能使ChatGPT具备了与Siri、小
海天瑞声AI
·
2023-11-06 14:54
chatgpt
机器学习
语言模型
人工智能
双向可视对讲终端机居家养老家用视频对讲
语音识别
报警、一键报警、双向视频对讲、录音、电子地图显示、广播喊话等具有多功能产品。是守护平安城市、智慧社区、保障人民生命财产安全的一把利器!
DWAQSZ
·
2023-11-06 12:32
安全
win10自带
语音识别
语音识别
技术,也被称为自动
语音识别
,目标是以电脑自动将人类的语音内容转换为相应的文字。应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。
编程大乐趣
·
2023-11-06 11:33
Instant-NGP
论文笔记
文章目录
论文笔记
论文笔记
instant-ngp的nerf模型与vanillanerf的模型架构相同。
Iron_lyk
·
2023-11-06 00:56
论文阅读笔记
论文阅读
论文笔记
:Mastering the game of Go with deep neural networks and tree search
MasteringthegameofGowithdeepneuralnetworksandtreesearchNature2015这是本人
论文笔记
系列第二篇Nature的文章了,第一篇是DQN。
a1424262219
·
2023-11-05 20:57
人工智能
数据结构与算法
python批量删缩进_鬼畜小姐姐+野狼disco,十分钟教你如何用Python剪辑一个牛逼的抖音小视频?...
前言半个月前,后台有个小伙伴问我,如何将视频中的音频提取出来,并且将声音转成文字写入到word中,正好接下来的文章要用到百度的
语音识别
接口。
weixin_39645165
·
2023-11-05 12:56
python批量删缩进
上一页
16
17
18
19
20
21
22
23
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他