ShowMeAI日报系列全新升级!覆盖AI人工智能 工具&框架 | 项目&代码 | 博文&分享 | 数据&资源 | 研究&论文 等方向。点击查看 历史文章列表,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。点击 专题合辑&电子月刊 快速浏览各专题全集。
Wysa 是一款流行的心理健康应用程序,由人工智能聊天机器人 AI Cahtbot 团队于2015年创立,总部位于波士顿。公司将智能聊天机器人扩展到更广泛的心理健康服务领域,推出认知行为疗法、冥想、正念和辅导练习等一系列AI驱动的轻量心理疗程,每日仅需5-10分钟。
疫情 COVID-19 的大流行及随之的生活压力,使得人们对心理健康的需求呈现爆炸式增长。然而,专业的心理健康从业者数量有限,不能满足用户大量且紧迫的需求时,人工智能技术提供了另一种可能性。
https://github.com/bubbliiiing/yolov7-pytorch
这是一个 YOLOv7 的Repo,提供了数据集等的下载路径,并详细介绍了训练、预测和评估的每个细节。跟随这个项目训练自己的数据集,是很不错的选择~
https://github.com/chaos-genius/chaos_genius
Chaos Genius 是一个开源的商业数据监测平台,可以自动诊断和分析不同业务 KPI 产生规模偏差的根本原因,帮助团队快速诊断和响应。Repo 的站点和项目文档都非常完备~
https://github.com/SeanNaren/min-LLM
受到了 Megatron 的启发,项目作者制作了一个轻量的『浓缩版』,提升了可读性和简易度。项目可以用最少的代码训练一个相对较大的语言模型(1-10B参数),简明扼要地展示训练技巧,并允许探索在较小的规模下根据现实的缩放规律计算出最佳模型。当然,训练 100B 以上的参数模型,依旧指路 Megatron 。
https://github.com/nitnelave/lldap
lldap 是一个轻量级的认证服务器,为认证提供简化的 LDAP 接口。相比于 OpenLDAP、FreeIPA,lldap 设置简单、管理友好、有默认值。下图是 lldap 用户列表页面的屏幕截图。当然,如果需所有的 LDAP 及其扩展,那么推荐 OpenLDAP;如果需要一站式的身份管理服务,那么推荐 FreeIPA。
https://github.com/chenkui164/FastASR
PaddleSpeech 中的 conformer_wenetspeech-zh-16k 预训练模型,采用了当下最先进的 conformer 模型,使用 10000+ 小时的 wenetspeech 数据集训练得到,识别效果可以媲美许多商用 ASR 软件。本 Repo 使用纯 C++ 编写,高效地实现了模型推理过程,解决了 PaddleSpeech 部署到 ARM 平台时地安装与执行效率问题。这样,模型在树莓派4B等 ARM 平台运行也可流畅运行啦!
http://www.tup.tsinghua.edu.cn/upload/books/yz/093532-01.pdf
李航老师新书,全面系统地介绍了机器学习的主要方法。全书分为 3 篇(监督学习 + 无监督学习 + 深度学习)共 29 章,每章介绍一两种机器学习方法的模型、策略和算法,用具体例子帮助读者直观地理解基本思路,并给出了严格的数学推导。注意!试读版本只有前5章,获取电子版可以在公众号『ShowMeAI研究中心』回复关键字『日报』。完整版可以前往微信阅读哦~
https://iaml-it.github.io/posts/2021-04-28-transformers-in-vision/
这篇博文总结了 Transformer 和 self-attention 在视觉领域的研究和应用,包括但不限于图像分类等博文首先介绍了 Vision Transformer 这一简单却强大的结构;随后介绍在数据不丰富的情况下,如何使用 Transformer 和 self-attention 实现类似的高性能;最后讨论了模型对鲁棒性扰动的研究论文,以及它们在自我监督、医疗和视频任务中的表现。
https://github.com/dotnet-rs-py/awesome-yolo-object-detection
https://github.com/amorehead/awesome-molecular-generation
可以点击 这里 回复关键字 日报,免费获取整理好的论文合辑。
科研进展
- 2022.07.07『计算机视觉』More ConvNets in the 2020s: Scaling up Kernels Beyond 51x51 using Sparsity
- 2022.03.23『计算机视觉』Visual Prompt Tuning
- 2022.07.11『计算机视觉』Fast-Vid2Vid: Spatial-Temporal Compression for Video-to-Video Synthesis
- 2021.12.27『计算机视觉』SmoothNet: A Plug-and-Play Network for Refining Human Poses in Videos
论文标题:More ConvNets in the 2020s: Scaling up Kernels Beyond 51x51 using Sparsity
论文时间:7 Jul 2022
所属领域:计算机视觉
对应任务:图像识别
论文地址:https://arxiv.org/abs/2207.03620
代码实现:https://github.com/vita-group/slak
论文作者:Shiwei Liu, Tianlong Chen, Xiaohan Chen, Xuxi Chen, Qiao Xiao, Boqian Wu, Mykola Pechenizkiy, Decebal Mocanu, Zhangyang Wang
论文简介:Built on this recipe, we propose Sparse Large Kernel Network (SLaK), a pure CNN architecture equipped with 51x51 kernels that can perform on par with or better than state-of-the-art hierarchical Transformers and modern ConvNet architectures like ConvNeXt and RepLKNet, on ImageNet classification as well as typical downstream tasks./在此基础上,我们提出了稀疏大核网络(SpaK),这是一个配备了51x51核的纯CNN架构,在ImageNet分类以及典型的下游任务上的表现与最先进的分层变形器和现代ConvNet架构如ConvNeXt和RepLKNet相当,甚至更好。
论文摘要:自从视觉变形器(ViTs)出现后,变形器迅速在计算机视觉领域大放异彩。卷积神经网络(CNN)的主导作用似乎受到了越来越有效的基于变换器的模型的挑战。最近,一些先进的卷积模型在局部大注意力机制的激励下,用大内核进行了反击,显示了吸引人的性能和效率。虽然其中一个,即RepLKNet,令人印象深刻地设法将内核大小扩展到31x31,并提高了性能,但与Swin Transformer等高级ViTs的扩展趋势相比,随着内核大小的继续增长,性能开始饱和。在本文中,我们探索了训练大于31x31的极端卷积的可能性,并测试了是否可以通过战略性地扩大卷积来消除性能差距。这项研究最后从稀疏性的角度提出了一个应用极端大核的配方,它可以顺利地将核扩大到61x61,并且性能更好。在这个配方的基础上,我们提出了稀疏大核网络(SLaK),这是一个配备了51x51内核的纯CNN架构,在ImageNet分类以及典型的下游任务上的表现与最先进的分层变形器和现代ConvNet架构如ConvNeXt和RepLKNet相当或更好。我们的代码可在这里获得https://github.com/VITA-Group/SLaK。
论文标题:Visual Prompt Tuning
论文时间:23 Mar 2022
所属领域:计算机视觉
对应任务:Image Classification,图像识别
论文地址:https://arxiv.org/abs/2203.12119
代码实现:https://github.com/KMnP/vpt
论文作者:Menglin Jia, Luming Tang, Bor-Chun Chen, Claire Cardie, Serge Belongie, Bharath Hariharan, Ser-Nam Lim
论文简介:The current modus operandi in adapting pre-trained models involves updating all the backbone parameters, ie, full fine-tuning./目前适应预训练模型的操作方式包括更新所有骨干参数,即完全微调。
论文摘要:目前适应预训练模型的操作方式包括更新所有骨干参数,即完全微调。本文介绍了视觉提示调谐(VPT),作为视觉中大规模Transformer模型全面微调的有效替代方法。从最近有效调整大型语言模型的进展中得到启发,VPT在保持模型主干冻结的同时,只在输入空间中引入少量(少于1%的模型参数)的可训练参数。通过对各种下游识别任务的广泛实验,我们表明VPT与其他参数高效调谐协议相比,取得了显著的性能提升。最重要的是,在许多情况下,VPT甚至在模型容量和训练数据规模上优于完全微调,同时降低了每个任务的存储成本。
论文标题:Fast-Vid2Vid: Spatial-Temporal Compression for Video-to-Video Synthesis
论文时间:11 Jul 2022
所属领域:计算机视觉
对应任务:Knowledge Distillation,Motion Compensation,Video-to-Video Synthesis,知识蒸馏,运动补偿,视频到视频合成
论文地址:https://arxiv.org/abs/2207.05049
代码实现:https://github.com/fast-vid2vid/fast-vid2vid
论文作者:Long Zhuo, Guangcong Wang, Shikai Li, Wayne Wu, Ziwei Liu
论文简介:In this paper, we present a spatial-temporal compression framework, \textbf{Fast-Vid2Vid}, which focuses on data aspects of generative models./在本文中,我们提出了一个空间-时间压缩框架,即Fast-Vid2Vid,它侧重于生成模型的数据方面。
论文摘要:视频到视频合成(Vid2Vid)在从语义图序列中生成照片般真实的视频方面取得了显著的成果。然而,这个管道存在着高计算成本和长推理延迟的问题,这主要取决于两个基本因素。1)网络结构参数,2)顺序数据流。最近,基于图像的生成模型的参数已经通过更有效的网络架构被大大压缩。然而,现有的方法主要集中在瘦身网络架构上,而忽略了顺序数据流的大小。此外,由于缺乏时间上的连贯性,基于图像的压缩对视频任务的压缩是不够的。在本文中,我们提出了一个空间-时间压缩框架,即Fast-Vid2Vid,它侧重于生成模型的数据方面。它首次尝试在时间维度上减少计算资源并加速推理。具体来说,我们在空间上压缩输入数据流,减少时间上的冗余。经过提议的空间-时间知识提炼,我们的模型可以利用低分辨率的数据流合成关键帧。最后,Fast-Vid2Vid通过运动补偿对中间帧进行插值,延迟较小。在标准基准上,Fast-Vid2Vid实现了大约20FPS的实时性能,并在单个V100 GPU上节省了大约8倍的计算成本。
论文标题:SmoothNet: A Plug-and-Play Network for Refining Human Poses in Videos
论文时间:27 Dec 2021
所属领域:计算机视觉
对应任务:2D Human Pose Estimation,3D Human Pose Estimation,3D Human Reconstruction,3D Pose Estimation,Pose Estimation,二维人体姿势估计,三维人体姿势估计,三维人体重建,三维姿势估计,姿态估计
论文地址:https://arxiv.org/abs/2112.13715
代码实现:https://github.com/cure-lab/SmoothNet , https://github.com/open-mmlab/mmpose
论文作者:Ailing Zeng, Lei Yang, Xuan Ju, Jiefeng Li, Jianyi Wang, Qiang Xu
论文简介:When analyzing human motion videos, the output jitters from existing pose estimators are highly-unbalanced./在分析人类运动视频时,现有姿势估计器的输出抖动是高度不平衡的。
论文摘要:在分析人类运动视频时,现有姿势估计器的输出抖动是高度不平衡的。大多数帧只存在轻微的抖动,而在那些有遮挡或图像质量较差的帧中会出现明显的抖动。这种复杂的姿势经常在视频中持续存在,导致连续帧的估计结果不佳和大的抖动。现有的基于时间卷积网络、递归神经网络或低通滤波器的姿势平滑解决方案不能处理这样的长期抖动问题,而不考虑抖动视频段内的重大和持续的错误。在上述观察的激励下,我们提出了一个新颖的即插即用的细化网络,即SMOOTHNET,它可以附加到任何现有的姿势估计器上,以改善其时间平滑性,并同时提高其每帧精度。特别是,SMOOTHNET是一个简单而有效的数据驱动的全连接网络,具有大的感受野,有效地缓解了长期抖动与不可靠的估计结果的影响。我们用七个数据集对十二个骨干网络进行了广泛的实验,涉及二维和三维姿势估计、身体恢复和下游任务。我们的结果表明,所提出的SMOOTHNET始终优于现有的解决方案,特别是在那些具有高误差和长期抖动的片段上。
我们是 ShowMeAI,致力于传播AI优质内容,分享行业解决方案,用知识加速每一次技术成长!点击查看 历史文章列表,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。点击 专题合辑&电子月刊 快速浏览各专题全集。