【会议学习】2022年模式识别高峰论坛

文章目录

  • 智能自主作业机器人感知与控制技术及发展趋势
    • 研究背景与意义
    • 研究现状与面临挑战
    • 自主作业机器人技术
    • 未来发展和展望
  • When Machine Learning Meets DynamicVision: SL AM Research for Mobile Sensors
  • 智能教育的自适应学习技术:现状与展望
    • 智能教育背景
    • 教学资源数据挖掘
    • 学习者数据挖掘
    • 个性化学习策略
    • 展望
  • 胎儿超声图像Al处理及云平台
    • 研究背景
    • 胎儿图像处理深度学习及优化
    • 异构并行算法设计与性能优化
  • 动作行为识别及意图理解
    • 背景
    • 人体3D骨架特征提取
    • 动作识别
    • 意图理解
  • 笔迹鉴别与书写者识别
    • 笔迹鉴别
    • 书写者识别
    • 展望
  • 复杂海况无人艇虚实迁移学习方法(上海大学)
    • 研究背景与解决思路
    • 面向复杂任务自学习难的智能体策略学习方法
    • 面向感知数据差异大的共享语义空间融合方法
    • 面向任务多样性建模难的元任务自适应学习方法
  • 端云协同下分布式模型学习与进化
    • 端云协同模型进化背景
    • 端云协同模型进化研究工作
  • 视觉感知:从2D图像到3D点云
    • 二维图像处理方法
    • 深度估计
  • 多媒体取证与深度学习
  • 高峰论坛:预训练大模型与模式识别
  • 高峰论坛:不同模态的大模型有什么区别?能用一个架构统一吗?

智能自主作业机器人感知与控制技术及发展趋势

研究背景与意义

广泛应用:工业机器人、海洋机器人、空间机器人、陆地机器人、国防制造
最大的挑战:自主作业机器人->基本要素:自主环境感知(重点)、自我维护、独立执行任务
自主作业机器人=自主机器人+主动作业机器人
研究意义重大

研究现状与面临挑战

发展得益于两方面:机器人学发展和人工智能技术发展
主要挑战:泛自主性理论缺失、环境非结构动态、任务复杂多样

自主作业机器人技术

关键技术:机构的仿生式灵巧设计、环境的自主感知与理解、任务的自主学习与控制
机构的仿生式灵巧设计:灵巧手机构设计、仿生式行走机构设计技术、模块化可重构作业机构设计
环境的自主感知与理解:关键就是感知与理解,多传感融合自主感知技术、高精度联合外参标定、复杂目标三维重建、高精度三维目标检测识别,接着通过目标位姿估计,实现场景目标识别理解技术
任务的自主学习与控制:任务驱动的自主技能学习技术、自主作业学习控制、复杂场景精准灵巧作业、自主作业交互控制技术、多机器人自主作业协同控制
应用:系列电力自主作业机器人、自主作业机器人替代人工除冰与检修应用、桥梁智能检测维护作业机器人、危险恶劣环境自主特种作业机器人、地空异构无人系统

未来发展和展望

发展规划:从控制器控制电机->具有视觉感知、轨迹规划、示例引导的机器人->能够认知学习、人机交互、语义分析、自然语言处理、情感交互、人机协作的机器人->协同学习、5G网络、知识迁移、边缘协同计算、知识图谱、数据安全的机器人
展望:智能自主学习、协同自主、5G赋能、自主无人集群作战

When Machine Learning Meets DynamicVision: SL AM Research for Mobile Sensors

动态视觉问题:场景中对象的变化、传感器本身的变化
使用深度学习方法处理动态视觉问题的困难:数据集难以建立、泛化性能较差、速度较慢
传感器需要的基本功能:定位和理解,而这两个功能又是相辅相成的,对于他们的研究叫做SLAM
SLAM进展很不错,原因在于:dots掩几何计算、传感器技术进步
但是仍存在问题,原因在于:随着场景的扩大,误差不断积累、计算成本高->本质问题:系统性比较弱、不注意时间的连续性
一些研究:1、用好数据内部的时间连续性;2、一个比价好的记忆功能,记录之前预测结果,并基于这些结果进行改进;3、在线自适应能力;4、对于地图的描述和表示

1、用好数据内部的时间连续性:方法:conv-LSTM、GAN的方法、流式线条描述
2、一个比价好的记忆功能:方法:存储长期的记忆依赖、使用记忆信息修正以前的结果、利用时间和空间上的注意力机制;
3、在线自适应能力:就是构造数据集上训练的,怎么去适应现实场景;在场景A下训练的,怎么去适合场景B;方法:原学习和自监督方法、conv-LSTM方法、特征对其方法
4、对于地图的描述和表示:使用增量机制

智能教育的自适应学习技术:现状与展望

智能教育背景

通过AI使得经验传递更加有效。目标:使用人工智能和大数据技术为学习者提供个性化学习服务,提高学习效率。要求:因材施教

教学资源数据挖掘

相关研究
异构教学资源表征与建模:试卷表征与理解、资源属性预测、知识图谱构建
无监督异构试题表征
面向信息解耦的试题表征
相似试题判定
跨模态教学资源相似性评估
教育知识图谱构建

学习者数据挖掘

学生认知诊断建模
静态认知诊断一深度认知诊断框架
静态认知诊断一学习情境感知的诊断
动态认知诊断一EKT模型

个性化学习策略

个性化学习路径推荐一-CSEAL模型框架
自适应测试一-MAAT模型框架
智慧教育智能编程一CoDia
智慧教育知识图谱LUNA

展望

更高效的信息采集设备
更复杂的能力诊断模型
基于诊断模型的个性化的训练方案

胎儿超声图像Al处理及云平台

研究背景

缺陷儿多等等
挑战:实时性检测问题、胎儿超声非标准结构化数据、多源异构数据源的影响

胎儿图像处理深度学习及优化

标准切面识别:提出一-个多任务学习模型,分类任务判断标准切面类型,目标检
测任务检测解剖结构;融合了临床解剖结构的图结构位置信息,使检测结构更为准确;
设计了一种基于物联网标准切面的自动识别平台;构建了一个基于光流信息和超声视频流的多任务标准切面识别模型,并且提出了两种特征融合策略;提出的算法可在产前检查的视频流中自动定位四种标准切面;
深度学习技术及其优化-标准切面质量控制系统及云平台:
深度学习技术及其优化-胎儿心脏分割:提出一种新的实例分割算法用于分割胎儿四腔心多种解剖结构;设计新的多级非最大抑制(NMS) 机制,进一步提高分割性能;
深度学习技术及其优化-胎儿头围检测与估计:提出一种三维注意回归神经网络来进行端到端的胎儿头围检测和估计;
设计了一种基于像素的椭圆回归损失函数来拟合边界,提高胎儿头围测量精度
深度学习技术及其优化-胎儿心脏异常辅助诊断:
深度学习技术及其优化-成人甲状腺器官检测与分割:提出一种新的实例分割算法用于实例分割甲状腺组织;设计-种基于空间金字塔的RolAlign分割头, 可捕获局部和全局的语义特征;

异构并行算法设计与性能优化

超声视频流检测过程的流水线并行模型
超声图像分割的并行算法
图像候选块的多模型检测并行算法
异构并行任务调度和通信机制
卷积计算并行算法
U-Net神经网络并行算法

动作行为识别及意图理解

背景

人机交互随着人工智能的发展,智能交互很困难

人体3D骨架特征提取

基于时序颜色一致性自监督学习的人体骨架提取√
面向推测阶段的优化学习机制探索
基于人体三维重建的骨架提取
基于OpenPose的二维骨架提取
基于动态视觉系统事件补全的骨架提取√
基于关键中心点的人体骨架跟踪
基于颜色一致性自监督学习的人体骨架提取
基于多视角弱监督学习的人体3 E维姿态估计√
基于Transformer的人体姿态与网格估计方法
基于时空上下文特征感知的三维人体姿态估计√

动作识别

双流权重自适应人体动作识别方法

针对双流模型引入共同特征驱动的融合机制,形成-套双流权重自适应人体动作识
别方法,并添加了三维度并联注意力模块加强特征信息的提取,以获得更具代表性
的特征序列,提高区分相似动作的性能。

基于人体骨架和图卷积网络的自注意力动作识别
长时手/体势连续自然交互探索
基于几何特征的人体动作识别
基于长序列依赖的人体动作识别
注意力自扩散双流融合人体动作识别方法
基于自注意力机制的人体动作识别
多层注意力自适应机制
基于时空上下文特征感知的三维人体姿态估计

意图理解

全卷积孪生神经网络目标跟踪方法SiamCAR,
增强图注意力与时间卷积网络融合的人体运动预测方法

笔迹鉴别与书写者识别

笔迹鉴别

应用很多但是纯深度学习方法没有那么好的效果的原因:大规模训练数据不容易获取、存在很多高仿冒签名
SynSig2Vec : 一种新的深度学习笔迹鉴别新方法:基于对数高斯模型的签名合成、使用排序学习的方法
基于路径积分变换、元学习循环神经网络的联机笔迹鉴别
DSDTW :深度软动态时间规整签名鉴别新方法

书写者识别

基于路径积分变换及Drop-Stroke/Segment的书写者识别:Drop-Stroke/Segment是一种数据增广新方法
古籍文档书写者笔迹识别:基于Path Signature的古籍文档笔迹识别、Pathlet特征描述子、Bagged VLAD编码

展望

少样本下的书写者识别
真实场景、复杂背景、多模态签名认证
面向笔迹认证及书写者识别的大规模无监督预训练模型
大规模中文签名/笔迹数据集构建

复杂海况无人艇虚实迁移学习方法(上海大学)

研究背景与解决思路

研究背景:复杂多变的海洋环境中导致难以在真实环境中训练,所以提出虚实迁移的无人艇集群决策学习,学习之后再迁移到真实场景中去
难点:复杂任务自学习难、虚实感知数据差异大、任务多样性建模难

面向复杂任务自学习难的智能体策略学习方法

解决问题:复杂任务自学习难
关键技术:
融合知识的初级智能体生成方法:基于模仿学习的初级智能体构建、基于离线学习的初级智能体构建
基于渐进式网络的多任务学习方法:利用渐进式网络,新任务的输入同时输入到旧模型,将旧模型每- -层的输出都输入到新模型,实现迁移每一层的特征信息,避免策略灾难性遗忘问题,以完成复杂多任务。

稀疏奖励场景下的高效探索方法:复杂任务场景中奖励稀疏性问题较为突出,深度强化学习智能体在场景中可能在较长的时间序列内,都难以获得环境的反馈,通过基于随机网络蒸馏的方法生成状态新颖度指标,通过多重采样机制,并以该指标来驱动智能体在稀疏奖励下对环境的有效探索,为策略学习提供有效样本。

面向感知数据差异大的共享语义空间融合方法

解决问题:虚实感知数据差异大
关键技术:
虚实感知数据映射方法:针对实体模拟误差大的问题,在CycleGan的基础上,增加决策信息,训练可以在保留决策信息的同时使用真实感知数据生成虚拟风格感知数据的仿真感知数据生成器,实现虚实感知数据的转换

特征共享语义空间技术:根据虚拟和现实场景中无人艇携带的不同类型的传感器收集感知数据,在进行处理后,将不同来源的感知数据映射到共享语义空间,利用共享语义空间训练智能体的决策能力,从而进一步提升智能体的决策效果。

面向任务多样性建模难的元任务自适应学习方法

解决问题:任务多样性建模难
关键技术
基于领域随机化的自适应学习方法:在Unity虚拟引擎中构建无人系统目标搜索场景。加入各种噪声到无人系统虚拟训练场景中,如光照、纹理、障碍物的颜色、光源的位置、光源的朝向、背景的颜色等因素。确保智能体/无人系统能够尽可能学习到目
标/障碍物的本质特征,从而智能体/无人系统能够快速的自适应到真实场景中,准确高效的完成搜索任务。

基于元强化学习的自适应学习方法:面向任务多样性建模难问题,利用同质和异质传感器器数据融合的方法构建完备感知环境。将完备感知数据输入到自适应智能决策算法模块中,该模块主要由优先经验回放机制、好奇心机制、状态网络和策略网络组成。将虚拟环境训练好的模型迁移到真实场景中进行目标搜索和自主避障。

端云协同下分布式模型学习与进化

端云协同模型进化背景

背景:通过深度学习和迁移学习等技术,以“涌现"和“同质化”为特点的大模型或基石模型(big model或FoundationModels)在文本理解、在线推荐、跨媒体计算等取得快速发展。
基础模型或预训练大模型的基本架构:Transformer、BERT、GPT
已有的是一种联邦学习的思想,而这里提出一种端云协同模型进化思想
端云协同模型进化指的是:从大模型参数竞赛走向大小模型的协同进化,分享普遍智能:大模型向边、端的小模型输出模型能力,小模型负责实际的推理与执行,同时小模型再向大模型反馈算法与执行成效,让大模型的能力持续强化,形成机循环智能泛化能力增强体系。

端云协同模型进化研究工作

云上预训练模型:引入因果推理去除虚假关联,提升云上模型泛化能力
由云向端蒸馏压缩:针对端云数据分布不一致的蒸馏机制,提升个性化能力
端云协同参数学习:在元学习指导下的元联邦参数聚合,逼近最优性能
洛犀开源平台:大小模型协同进化工程落地,下游任务分享普遍智能

云上预训练模型(提升泛化能力) –因果机制引入,减弱、消除虚假关联
云上预训练模型(提升泛化能力) -数据与知识双轮驱动,基于法律知识的可解释性判决
端云协同汇聚学习一元联邦参数优化,基于元学习思想, 在云上训练参数聚合器(meta-learner)自适应进行模型汇聚

视觉感知:从2D图像到3D点云

二维图像处理方法

SKNet(选择性核网络) for Objection Classification
针对现有卷积网络存在的缺陷,受到生 物视觉机理启发,提出选择性核网络SKNet
通过对多分支不同感受野特征进行聚合引导,实现根据刺激信号(如目标的大小)来动态调节(自适应选择)感受野大小

Large- Margin Contrastive Learning
对比学习是面向无监督场景,被视为自监督学习的一种基本范式。
把数据集中任意一一个样本与自身的增广样本视作“正样本对”,把数据集中任意两个样本视作"负样本对”,通过学习表征来使得正样本对的特征间距离尽量小,并使得负样本对的特征间距离尽量大(类似于LDA方法)
(1) 改进正样本对,获得更强有力的自监督信息
(2)改进负样本对,主要针对负样本构造的不合理性
理论分析:对比学习使得样本间距离连续地分布在归-化距离空间中
构建距离极化正则项能够使得类内与类间产生大间隔距离差异,从而提升算法性能

Generalized Focus Loss for Objection Detection
泛化聚焦损失函数
基于GFocal的应用

深度估计

有监督的单目深度估计下 做的研究:语义分割与深度估计的联合学习
核心:利用交替递归学习机制,构建了一个多任务卷积神经网络设计了具有注意力机制的单元,在处理每–个任务时削弱任务之间差异造成
的干扰,将注意力集中在相关联的信息上

无监督的单目深度估计
基本思想:将深度估计任务转化成一个图像重建问题,利用图像重建损失来训练网络
分类:基于双目立体对的无监督单目深度估计(Monodepth);基于单目视频流的无监督单目深度估计(SfM-I earner)
研究
针对夜晚环境:正则化的自监督单目深度估计方法
思想方法:基于先验深度分布的正则化(PBR)
详细:通过对抗学习的方式,约束模型在夜间的预测结果Dt与白天的参考深度图Dr在分布上保持一致, .从而降低重建损失的歧义性,产生更加合理的深度估计结果

面向开放环境:防止遗忘的单目视频在线深度估计方法
思想:不同于通常采用的更新模型参数的方法,我们设计了-系列的适应器以有效的调整特征分布与表达,避免模型经验的丢失将在线适应过程与学习目标相结合,提出了一种新的元学习算法来训练适应器。
方法
利用源域视频帧进行预训练,使模型获得深度估计能力
采用基于元学习的预训练方法,在源域视频流上学习适应器
在目标域视频流上进行在线适应,不断更新适应器

多媒体取证与深度学习

多媒体取证需要进行的工作:媒体源辨识、篡改检测与定位、媒体处理历史分析
多媒体取证的难点:元数据分析、机器学习、统计模型问题、对抗环境下的机器学习、伪造多媒体取证和深度学习
直接使用cv方法是不适合的

解决方法
方法1:混合结构学习层+非学习层(领域知识)
已有的特征提取:通常从高频分量中提取特征
设计利用已有的特征提取方法的网络层
设计专用滤波器层

方法2:全学习结构
设计具有高通滤波( HPF )特性的学习层

难题+1:数据量不够大,尤其是负样本;深度网络安全性问题;迁移学习受限

高峰论坛:预训练大模型与模式识别

大模型是与人脑的行为一致的,大模型能够解决数据缺乏的问题,很重要,但是大模型是大公司、大科研团队玩的。
能够解决泛化性能的问题,增加鲁棒性。
大模型与小模型共存,分别用于处理不同的问题
是从专业人工智能向通用人工智能,从受限模式识别向开放模式识别迈进的关键
大模型不是通用AI必由之路

高峰论坛:不同模态的大模型有什么区别?能用一个架构统一吗?

需要使用一个统一架构,因为人脑也是使用统一的架构的,可能类似于通感,就是听到声音想到图片类似的感觉。
自然语言处理有大模型,但是视觉没有,可能是因为虽然视觉数据量没那么大,但是计算量大一点,因为是对像素做的。

你可能感兴趣的:(论文学习,其他)