作者 | Austin Kodra
编译 | 夕颜
出品 | AI科技大本营(ID:rgznai100)
【导读】随着神经网络架构、深度学习和机器学习研究的快速发展,同时硬件和软件资源的不断增加,让人眼花缭乱的机器学习项目数量正以惊人的速度增长。
从 AI 生成的艺术作品到实时跟踪人类运动等,我们精选了一些最喜欢的深度学习项目,并附带视觉演示效果。
虽然一定还有更多其他优秀的机器学习项目,但我们希望这份清单可以让你对研究人员、从业人员,甚至艺术家在 2019 年利用机器学习和深度学习的创造力有更深层次的了解。
有趣的一点是(也许并不奇怪),其中许多项目都使用生成性对抗网络来创建具有视觉吸引力的演示:它们天然地具有出色的视觉效果,很高兴可以应用到生产环境中。
演示还附有可用的链接资源(论文、代码、项目页面、完整视频等),如果你有更好的项目,欢迎补充。
WikiArt:风格迁移+ StyleGAN
—Gene Kogan
这个项目让我们基本上了解了将风格迁移与 StyleGAN 结合使用的可能。我们将参考图像中的风格直接应用到潜在空间图像上。
至少对于该项目的 GAN 部分来说,Gene 分叉并使用了英伟达的 repo 来逐步开发 GAN:
https://github.com/genekogan/progressive_growing_of_gans?source=post_page-----e74d7d347c2----------------------
Unity 3D姿势估计
—Yukihiko Aoyagi
将 3D 姿态估计与 3D 开发平台和诸如 Unity 之类的渲染引擎相结合,产生了这个如此让人着迷的 AR。通过结合这两种强大的技术,AR 对象可以更准确地跟随 3D 空间中的人体运动。
请注意,该项目目前仅支持单人姿势
代码:https://github.com/yukihiko/ThreeDPoseUnitySample?source=post_page-----e74d7d347c2----------------------
建筑机器翻译
—Erik Swahn
该项目将对象的视频帧作为输入,并输出现代主义建筑效果图。这是机器翻译的一个有趣的应用。
这是一部分代码,找不到直接的源代码,如果有人知道在哪里可以找到源代码,请在注释中给我留言:
https://github.com/memo/webcam-pix2pix-tensorflow?source=post_page-----e74d7d347c2----------------------
从图像和视频中删除汽车
— Chris Harris
Vanilla Sky-esque 项目通过车辆检测网络掩盖了在城市街道上行驶和停放的车辆,并为那些检测到的车辆添加了 AR 模糊效果。
这是一份详细的概述:http://harrischris.com/article/biophillic-vision-experiment-1,讨论了该项目的内容、发起原因和方式。
用GAN将图像转换为看不见的域
—刘明宇(英伟达)
摘要:
从人类在少量示例中获取新颖对象的本质并从中进行概括的能力中汲取灵感,我们探索一种适用于之前从未见过的目标类少量无监督学习图像到图像转换算法,这些目标在测试时仅指定了几个示例图片。我们的模型通过结合对抗训练方案和新颖的网络设计来实现这种快速生成能力。
项目页面:
https://nvlabs.github.io/FUNIT/?source=post_page-----e74d7d347c2----------------------
论文:
https://arxiv.org/abs/1905.01723?source=post_page-----e74d7d347c2----------------------
Infinite Patterns
— Alex Mordintsev
Alex 在 Google 工作,是 DeepDream(计算机视觉程序)的创建者,该程序使用神经网络在图像中查找和创建图案。这些过度处理的无限循环通常像梦境一样,甚至让人产生幻觉。我几乎以为这些是动态壁纸。他在 Twitter 中发布了一些关于这项研究的内容。
Google 实验的这篇文章探讨了该项目,最后的成果是 Pinar&Viola:
https://experiments.withgoogle.com/infinitepatterns?source=post_page-----e74d7d347c2----------------------
用单个图像进行全3D试穿
—Angjoo Kanazawa
最近,我们看到了人们对试穿体验的兴趣激增,Gucci 等零售商正在探索使用户能够在家中舒适地(地铁上或工作场所)使用其产品的方法。
但是,这些体验仅限于3D 展示效果。该项目则引入了“像素对齐隐式函数(PIFu),这是一种高效的隐式表示,可以将 2D 图像的像素与相应 3D 对象的全局上下文进行局部对齐。”
项目页面:https://shunsukesaito.github.io/PIFu/?source=post_page-----e74d7d347c2----------------------
论文:https://arxiv.org/abs/1905.05172?source=post_page-----e74d7d347c2----------------------
GANs+像素艺术
—Max Braun
一个有趣的 AI 艺术项目,限循环结合 GAN 的特性,并在 eBoy 数据集上训练。对于那些不熟悉的人,eBoy 会创建可重复使用的像素对象,并使用这些对象来创作艺术品,制作玩具等。
代码:https://github.com/maxbbraun/eboygan?source=post_page-----e74d7d347c2----------------------
Colab notebook:https://heartbeat.fritz.ai/2019s-awesome-machine-learning-projects-with-visual-demos-e74d7d347c2
eBoy:http://hello.eboy.com/eboy/?source=post_page-----e74d7d347c2----------------------
轨迹预测
由卡内基·梅隆大学、谷歌 AI 和斯坦福大学共同研究,Deeplearning.ai 发布
在人类活动跟踪领域中,预测人们将要移动的位置非常有趣。从理解零售中的客户行为到分析人群等,用例比比皆是。更进一步,此演示包括对给定人的活动(例如交通、工作等)的性质和背景进行预测。
论文:https://arxiv.org/abs/1902.03748?source=post_page-----e74d7d347c2----------------------
橙汁作为进入 AR 世界的镜头
—キヨ
一个让人惊叹的项目,使用增强现实将想象中的数字世界与现实世界中的对象融合在一起。我找不到任何底层代码或项目页面,但此演示展示了 AR + ML 在这种富有想象力的艺术体验方面的潜力。
学习忘记一张脸的模型
—Joseph Reisinger
以下推文很好地总结了这个项目。对于神经网络可以生成新的逼真人物和图像的项目我们已司空见惯。但是这个项目中,我们看到了相反的过程,随着网络神经元被一个接一个地关闭,肖像被逐步解构。
用TensorFlow.js进行身体部位分割
-Google Developers
TensorFlow 团队的这个演示来自 Google I / O 2019,通过图像分割展示了实时运动跟踪。为了使这种体验实时发挥作用,他们运行了两个身体部位分割模型,之后进行匹配,动态时间扭曲,然后播放和编码视频。TensorFlow Lite 具有 GPU 加速功能。
用姿势估计将自己变成3D人物
—青絵
该项目结合了姿势估计和 AR,可将用户转变为怪物(或任何 3D 角色)。最令人印象深刻的是动作跟踪的准确性和精确性,生成的 3D 人物非常契合用户的动作,以及一些很酷的 UX 元素,包括基于手势的转换机制,以及在人物生成时的干净音效。
用对象检测跟踪垃圾和其他人行道障碍物
—Paula Piccard
对我而言,这个项目最令人印象深刻的是检测垃圾的方式——相机移动的速度,即时检测。 这种应用程序可能会改变我们对所谓“智慧城市”的看法。
用GAN绘制逼真的风景
—Kevin Lim
左侧生成的图像看起来就像旧版应用程序(例如 MS Paint)的产物。把那些粗糙的风景画生成并渲染为逼真的景观是值得一看的。这种应用会让我觉得自己是个艺术家!
Neural network time lapse (GAN)
—Spiros Margaris
还不知道这个项目是谁做的,但是它背后的超现实和迭代的想法令人难以置信。
YouTube 视频描述:
左边是原始图片,Theresa May。下一栏是程序学习她的脸并使用其学习的模型来重建照片。接下来是目标人脸及其正在建立的模型。最右边,第五列(lol)是Theresa May 的面部重现,其与目标面部的位置和表情匹配。
用单个图像进行逆场景渲染
-Will Smith
摘自论文摘要(下附链接):
我们展示了如何训练全卷积神经网络,从单个不受控制的图像执行逆向渲染。该网络将 RGB 图像作为输入,对反照率和标准图进行回归,从中可以计算出照明系数。
代码+实现:https://github.com/YeeU/InverseRenderNet?source=post_page-----e74d7d347c2----------------------
论文:https://arxiv.org/abs/1811.12328?source=post_page-----e74d7d347c2----------------------
ARKit 3身体分割与粒子效果
— Laan Labs
融合 AR 效果和深度学习的另一个非常吸引人的项目。在这里,Laan Labs(专门从事边缘技术的ML / CV商店)在人体分割模型上应用了溶解粒子效果。
YOLO实时手指检测
—Andrew Mendez
该项目在 iOS 上取得了令人印象深刻的实时结果。正如 Andrew 所说,可以增加许多基本体验,包括增强现实、跟踪等。或许还可以用于手指木偶?钢琴课?我很看好这个项目潜力。
用GPT-2在移动应用中生成文本
—Hugging Face
Hugging Face 的研究人员在使用 transformers 和其他 NLP 架构方面取得了令人难以置信的进步。不仅在服务器端,他们还一直在进行模型提炼,将这些功能强大的语言模型嵌入到移动设备中。该项目专为文本生成/自动完成而设计。
尝试下吧:https://transformer.huggingface.co/?source=post_page-----e74d7d347c2----------------------
重量不可知的神经网络
— hardmaru
重量不可知的神经网络(Weight Agnostic Neural Networks)这个想法令人信服,它使我们质疑重量参数与基础架构相比的重要性。摘要很好地解决了这个动态问题:
并非所有的神经网络架构都是平等创建的,对于某些任务,某些架构的性能要优于其他架构。但是,与神经网络架构相比,神经网络的权重参数有多重要?在这项工作中,我们探索了在不学习任何权重参数的情况下,仅神经网络架构本身在解决方案编码上发挥多大的作用。
项目页面:https://weightagnostic.github.io/?source=post_page-----e74d7d347c2----------------------
论文:https://arxiv.org/abs/1906.04358?source=post_page-----e74d7d347c2----------------------
MediaPipe:结合了深度学习和传统CV流程的框架
— Dimitri Diakopoulos,Google AI
MediaPipe 是 Google 一个相对较新的流程,将传统的 CV 任务与深度学习模型相结合。这个新框架的确为更加身临其境的、响应式的 AR 体验打开了大门。
Repo:https://github.com/google/mediapipe?source=post_page-----e74d7d347c2----------------------
相关博客:https://ai.googleblog.com/2019/08/on-device-real-time-hand-tracking-with.html?source=post_page-----e74d7d347c2----------------------
全3D姿势估计:身体、手和人脸
—CMU,HCI Research 发布
该项目首次使用单眼视图输入捕获全部 3D 运动。该技术生成 3D 变形网格模型,然后将其用于重建全身姿势。从视觉的角度来看,这里的“全部”对我来说是最让我印象深刻的。以这种方式重建脸部、身体和手部姿势的能力让人惊叹。
项目页面:http://domedb.perception.cs.cmu.edu/monototalcapture.html?source=post_page-----e74d7d347c2----------------------
代码:https://github.com/CMU-Perceptual-Computing-Lab/MonocularTotalCapture?source=post_page-----e74d7d347c2----------------------
内衣检测器
—Nick Bourdakos
实际上,这种依靠机器学习技术,不适合上班时间浏览的过滤器对于审核用户生成内容是非常有用的应用程序。
代码:https://github.com/cloud-annotations/training?source=post_page-----e74d7d347c2----------------------
BERT,完全在设备上运行
—Hugging Face
上面我们讨论了 Hugging Face 为将最强大的语言模型引入智能手机等边缘设备所做的持续努力。这个项目则着眼于在 iOS 上使用 BERT 进行问答的实现。
代码:https://github.com/huggingface/swift-coreml-transformers?source=post_page-----e74d7d347c2----------------------
“尘封的历史”:集体的记忆
-Refik Anadol
令人惊叹的项目,唤起了人们对现代历史的深刻理解和欣赏。VentureBeat 在此项目资料(下附链接)中很好地说明了这一点:
该作品从 300,000 张照片的数据集中生成图像,包括 150 年前的斯德哥尔摩市档案馆和过去15 年从同一位置拍摄的彩色照片。
效果是将大家的集体回忆与现实世界艺术性地融为一体。
相关文章:https://venturebeat.com/2019/07/05/latent-historys-machine-hallucination-ai-art-will-melt-your-mind/?source=post_page-----e74d7d347c2----------------------
项目页面:http://www.k-blogg.se/2019/09/12/latent-history-a-machine-dreams-of-a-stockholm-that-never-was/?source=post_page-----e74d7d347c2----------------------
蒙版和图像修补把自拍照中的手机抹掉
—Abhishek Singh
在镜子里的自拍没有手机实际上是镜像自拍,还是其他东西?不论是什么,Abhishek Singh 可以分 3 步把招聘中的手机抹掉:
-
分割模型对属于对象手机类的每个像素进行分类。
-
对分割的手机进行像素级蒙版。
-
对分割手机进行图像修补以创建模糊效果。
代码:https://github.com/shekit/mirror-selfie?source=post_page-----e74d7d347c2----------------------
用DVD-GAN生成整个视频
—Aidan Clark,Jeff Donahue,Karen Simonyan
本项目的生成模型能够生成具有高复杂度和保真度的视频。这种视频样本生成可能会改变合成数据集的可行性。有很多工作都在研究使用 GAN 生成图像,但是生成高质量的视频为数据生成、视频合成和视频预测任务等开辟了广泛的可能性。
论文:https://arxiv.org/abs/1907.06571?source=post_page-----e74d7d347c2----------------------
在BigGAN的潜在空间中搜索先前生成的图像
—Mario Klingemann
这条推文说明了一切。此外,推文还包通过更多演示视频展示了项目的进度。看到机器学习工程师使用 GAN 潜在空间的不同方式,我们感到很惊喜。
用神经修补从运动中抹掉目标对象
—Abhishek Singh
这某种程度上类似于他的镜子自拍照项目(如上所示)。这个项目让我笑出来了,看到世界一流的运动员追着一个看不见的球跑真的很有趣。
Abhishek 还对项目结构进行概述:
“在 coco 数据集上训练过的 MasskRCNN 可以识别和分割对象->遮蔽对象并删除像素->在place2 数据集上得到的边缘连接模型可以填充缺失的像素。
HoloGAN:学习对象的几何表示
—Thu Nguyen-Phuoc
看到完全来自单视图 2D 图像的 3D 表示真的超级令人印象深刻。
摘要:
我们的实验表明,使用显式 3D 功能可使 HoloGAN 分解 3D 姿势和 identity,从而进一步分解为形状和外观,同时仍能够生成与其他生成模型相比具有相似或更高视觉质量的图像。
HoloGAN 只能从未标记的 2D 图像进行端到端训练。值得注意的是,我们不需要姿势标签,3D形状或同一对象的多个视图。这表明 HoloGAN 是首个以完全无监督的方式从自然图像中学习3D 表示的生成模型。
项目页面:https://www.monkeyoverflow.com/?source=post_page-----e74d7d347c2----------------------#/hologan-unsupervised-learning-of-3d-representations-from-natural-images/
使用姿势估计自动更改浏览器中的文本大小
— Olesya Chenyavskaya
我是机器学习项目的忠实支持者,他们致力于使我们每天使用的工具更加易于访问。这是一种实时更改浏览器窗口中文本大小的方法,使用户可以实时更近或更远地看屏幕。
项目页面和 demo:https://glitch.com/~make-me-big?source=post_page-----e74d7d347c2----------------------
“城市健身房”:具有神经网络的模拟城市
—Sam Earle
该项目的 GitHub repo 介绍:
一个强化学习界面,适用于各种规模的城市规划型体育馆环境,包括 Micropolis(开源SimCity 1)和Conway的《人生游戏》的交互式版本。
代码:https://github.com/smearle/gym-city?source=post_page-----e74d7d347c2----------------------
用GAN和单个参考图像进行运动方式迁移
— SVIP实验室
运动模仿+方式迁移是一个很酷的想法,该项目中提供的统一框架具有广泛的适用性。
摘要描述了该方法与其他方法的不同之处:
现有的任务特定方法主要使用 2D 关键点(姿势)来估计人体结构。但是,它们仅能表达位置信息,而无法表征个人的个性化形状并模拟肢体旋转。在本文中,我们建议使用 3D 身体网格恢复模块来分解姿势和形状,该模块不仅可以建模关节的位置和旋转,而且可以表征个性化的身体形状。为了保留源信息,例如纹理、方式、颜色和脸部信息,我们提出了一种带有液体翘曲块(LWB)的液体翘曲 GAN,它可以在图像和特征空间中迁移源信息,并根据相关资料合成图像。
论文:https://arxiv.org/abs/1909.12224?source=post_page-----e74d7d347c2----------------------
项目页面:https://svip-lab.github.io/project/impersonator.html?source=post_page-----e74d7d347c2----------------------
代码:https://github.com/svip-lab/impersonator?source=post_page-----e74d7d347c2----------------------
19笔完成一副肖像画
— Yaroslav Ganin,DeepMindAI
本质上,该项目让用户用 19 笔就可从 CelebA-HQ 数据集生成图像。我个人也非常喜欢它的油画颜料美学。
模型 Hub:https://tfhub.dev/deepmind/spiral/default-fluid-gansn-celebahq64-gen-19steps/1?source=post_page-----e74d7d347c2----------------------
代码:https://github.com/deepmind/spiral?source=post_page-----e74d7d347c2----------------------
拍摄人像后重新打光
—Hao Zhou, Sunil Hadap, Kaylan Sunkavili, David Jacobs
我当然不是什么才华横溢的摄影师,拍摄时找到合适的光源对我来说很困难。因此,能够为一张光线很差的照片自动定位特定的照明是一个非常吸引人的想法。
项目页面:https://zhhoper.github.io/dpr.html?source=post_page-----e74d7d347c2----------------------
代码:https://github.com/zhhoper/DPR?source=post_page-----e74d7d347c2----------------------
最后,万圣节就要来了……Jack-o-GANterns?
—Michael Friesen
GAN 的一个有趣而有时令性的用途,其中一些设计我多年来一直想尝试(但失败了......)。恐怖表演开始……
原文链接:
https://heartbeat.fritz.ai/2019s-awesome-machine-learning-projects-with-visual-demos-e74d7d347c2
(*本文为 AI科技大本营编译文章,转载请微信联系 1092722531)
世界AI看中国,中国AI看北京!
百位顶级专家,60+前沿报告,10+圆桌论坛与尖峰对话,为你带来内行的AI盛会。
荟萃全球顶级学者:John Hopcroft(图灵奖),Michael Jordan(机器学习权威学者),Chris Manning(NLP权威学者),朱松纯(计算机视觉权威学者),张钹、高文、戴琼海和张平文院士等100多位专家。
扫码查看大会详细日程,注册参会时输入优惠码「BAAICSDN」专享
7折
优惠,学生票仅69元(数量有限,先到先得)。
推荐阅读