2019年-目前AI进展读后感

文章目录

  • 一、图像处理
    • 1.1 对象补全
    • 1.2 背景处理
    • 1.3 样式转换
    • 1.4 图像着色
  • 二、GAN 方法
    • 2.1 StyleGAN
    • 2.2 图像翻译
    • 2.3 人像翻译
    • 2.4 文本到图像生成
  • 三、视频生成
    • 3.1 运动传递
    • 3.2 脸部生成
    • 3.3 中国的实践
    • 3.4 视频渲染
  • 四、文本和声音处理
    • 4.1 语音合成
    • 4.2 音乐合成
    • 4.3 自动评论
    • 4.4 智能邮件
  • 五、个人总结

今天阅读了阮一峰 的 《你所不知道的 AI 进展》 文章 , 做一个读后总结

记录当前AI 发展进度

一、图像处理

人工智能最先是从图像处理开始的 , 技能难度较高

1.1 对象补全

2017年,日本科学家提出了一种图像的对象补全模型。经过训练,模型可以补全图片上缺失的部分。

实例 : 去除人像脸上的斑点

1.2 背景处理

背景处理指的是,将前景物体从图片分离出来,再对背景进行加工。目前,已经有很好的智能算法可以去除图片背景,以及更改背景。

1.3 样式转换

人工智能还能够识别图片的风格样式(即像素的变化规律),将其套用在另一张图片。

1.4 图像着色

一旦识别出图片中的物体,模型就可以统计不同物体的像素颜色规律,然后就能推断黑白照片可能的颜色,从而实现照片着色。

可以体验一下,着色服务


二、GAN 方法

GAN 是"生成对抗网络"(Generative Adversarial Networks)

原理 : 两个神经网络互相对抗 , 一个神经网络负责生成虚拟图像,另一个神经网络负责鉴定假图像

2014年GAN方法被提出,是一种革命性的提升人工智能模型效果、生成虚拟图像的方法。目前效果已经可以以假乱真。

GAN不仅可以生产虚拟图像,还可以生产音频、文本,甚至化合物分子 , AI创造的东西都可以通过GAN提升效果。

有一个GitHub 仓库,专门收集不同用途的 GAN,目前已经有500多种模型

2.1 StyleGAN

目前,生成虚拟人像效果最好的模型是 Nvidia 公司的 StyleGAN。

2.2 图像翻译

一种图像通过 GAN 转变为另一种图像,称为图像翻译。

实例 : 空拍照片变成地图、黑白照片变成彩色照片

pix2pix 是图像翻译的开源工具,它可以让黑夜变成白天,示意图变成实物图等操作。

CycleGAN 模型还支持跨域翻译,将照片翻译成油画,斑马翻译成马。

难点 : 需要有成对的示例(源图像和相应的目标图像)

2.3 人像翻译

基于图像翻译 , StarGAN 模型可以翻译面部属性,比如头发的颜色、性别、肤色等,以及移植他人的表情

SC-FEGAN 是人像翻译的开源软件,可以让你编辑人像

2.4 文本到图像生成

GAN 最惊人的成果之一,就是根据文本生成图像

如 : 用户提供一个句子,软件生成对应的图像

未来推测,可以根据剧本直接生成一部电影


三、视频生成

从一个视频生成另一个视频,这就叫视频翻译。目前比较成熟的两个方向是运动传递和面部交换。

3.1 运动传递

将一个人的动作(包括身体、眼睛或嘴唇的动作)翻译到另一个人身上,使得另一个人出现一模一样的动作。

2018的论文《Everybody Dance Now》,给出了一个模型,可以将舞者的动作移植到任何人身上

3.2 脸部生成

根据一张脸的表情和动作,重建另一张脸

实例 : 虚拟的奥巴马演讲 , 这种伪造的视频被称为 Deepfake(深度伪造)

2018年出现的《深度视频肖像》更进了一步,生成的视频不局限于虚拟的面部表情,还会头部旋转、眼睛凝视和眨眼,是 3D 的肖像重构。

3.3 中国的实践

国内的人工智能视频生成,并不落后于国外。换脸应用 ZAO 只需用户上传一张照片,就能把影视剧主人公的脸换掉,好像你本人在表演电影一样。

3.4 视频渲染

Nvidia 公司2018年展示了实时光线追踪 RTX 技术。这项技术用人工智能预测光线的变化,从而不用耗费大量计算去追踪光线,因此可以实时渲染出高画质的 3D 动画。这对于视频游戏有重大意义。

RTX技术可以用于自动驾驶 , 通过对周围环境的识别 , 对驾驶做出调整


四、文本和声音处理

人工智能在文本和声音处理领域的进展

4.1 语音合成

谷歌在2018年推出了智能助手Google Duplex,它会根据你的日程,自动打电话去餐厅订座位。

4.2 音乐合成

OpenAI 基金会推出的MuseNet,通过学习数十万段 MIDI 音乐,能做到使用10种乐器,生成一段4分钟的音乐。

4.3 自动评论

使用 Yelp 网站的数据进行训练的模型,可以自动生成餐厅评论

4.4 智能邮件

Gmail 会根据电子邮件的来信内容,自动生成三种不同的回复,让用户选择。如果只是简单回应,用户不用自己动手写。

Gmail 的另一个功能是,根据用户已经写的内容,预测接下来会写的句子,供用户选择。

五、个人总结

目前AI的技术还不够成熟 , 有些缺陷。但总的来说,我还是很震惊的,这些技术觉得都是科幻片中才会出现的,现在慢慢的以及走进了生活。如P图软件,自动驾驶技术,阿里的无人酒店和超市 , 这可能都是划时代的突破 。生活中的许多机械重复的事情,慢慢的会被机器代替。

我觉得凡事都是双面性,有好有坏。人工智能带给了我们生活的便利,但也让这个世界变得真真假假分不清。很害怕哪一天人工智能的机器会取代人类,但是我更相信,人工智能的出现,是为了服务于人类。所以自身应该多去了解这方面的知识,在未来自己也希望是个开发者,而不是被使用者。这样可以能会让我更有安全感以及骄傲一面。

你可能感兴趣的:(阅读)