斯坦福AI指数报告总结(视觉部分)

报告链接:The AI Index Report – Artificial Intelligence Index (stanford.edu)

斯坦福AI指数报告总结(视觉部分)_第1张图片

 

8个重点(全文围绕的)

  1. 2021年私人投资在AI上增加很多,将近1000亿美金投资,比2020年多1倍,投资更加集中
  2. 中美跨国研究合作最多
  3. 语言模型更强也更有偏见,2018年bert1亿参数,2021年2800亿参数模型生成出来的那些带有偏见的有毒的结果增加了29%,因为大模型使用更大的数据,这些数据不像小数据那么能够给你精心准备,而且大模型更容易把大数据里带有偏见的一些东西显现出来
  4. AI伦理文章越来越多
  5. AI变得越来越便宜,性能越来越高,训练一个图片分类器的开销从2018年到现在相比的话下降了3.6%,训练的时间缩短了94.4%,这是因为gpu做的越来越大了,如果不计算挖矿导致的GPU价格升高的话,其实他的成本是往下降的,而且我们现在能够用更大的集群,用更好的算法能做分布式的训练,所以它的整体计算时间是下降的
  6. 在报告的10个数据集上面,9个数据集最好的方法用了额外的数据
  7. 在全球范围内关于AI的立法也越来越多了
  8. 机械臂变得越来越便宜了,在2017年平均一个机械臂的价格是4万美金,现在基本只要一半的价格

技术进展

1、图片分类:参考数据集imagenet,识别精度越来越高,越来越卷

2图片生成:衡量指标FIDFrechet Inception Distance score)是计算真实图像和生成图像的特征向量之间距离的一种度量。FID 越低,图像质量越好;反之,得分越高,质量越差,两者关系应该是线性的。

3、人姿态估计

应用:找关键点,做体育分析,人监控,交通手语识别

传统解决方式:传感器采集,有场地限制,但视觉可以摆脱这种限制

主要数据集:PCK

在Flickr上采集的2000张运动员图片判断14个关节的不同位置

4、语义分割:工业里应用在无人车,看到地方什么是可以开的路面什么是人行道,什么地方是建筑,什么地方是天空,或者做一些图片的分析,哪个是前景哪个是后景,比如相机照片背景模糊(今年百度智能车竞速组赛题语义分割)

医疗诊断里:肿瘤,皮肤病这种

评测标准IoU(交并比Intersection over Union)计算的是预测的边框真实的边框的交集和并集的比值。

5识别检测:从人脸检测到戴口罩的人脸检测,视频中的物体识别(yolo

斯坦福AI指数报告总结(视觉部分)_第2张图片

6、基于视觉的问答系统:给系统输入一张图片(一段文字),让其输出图片文字里讲了什么内容。目前在简单的图片中效果做的不错,但到了高阶问题,更深一层(需要拐弯思考)的效果就很差。

斯坦福AI指数报告总结(视觉部分)_第3张图片

斯坦福AI指数报告总结(视觉部分)_第4张图片

7、视频中的行为检测

斯坦福AI指数报告总结(视觉部分)_第5张图片

重要数据集:Kineticsyoutube上找了几十万个视频把它分类到不同的种类里面

8、目标检测:主要数据集COCO

主要评估方法:mAP (mean Average Precision,平均精度均值,即 AP ( Average Precision)的平均值,它是目标检测算法的主要评估指标。 目标检测模型通常会用速度和精度 (mAP)指标描述优劣,mAP值越高,表明该目标检测模型在给定的数据集上的检测效果越好

主要方法:SSD, RetinaNet, YOLO, 优先考虑准确性的两阶段方法,如Mask R-CNN、Faster R-CNN和Cascade R-CNN。(百度智能车创意组别题目,目前正在努力调参,目前用的是ppyoloe魔改参数版,不过感觉到头了,得换网络)

斯坦福AI指数报告总结(视觉部分)_第6张图片

9、视觉常识推理

目前还是有很大提升空间,研究的方向比较小众

斯坦福AI指数报告总结(视觉部分)_第7张图片

评价方法:Q->AR score,选定的答案与给出答案之间的平分,目前人的baseline是85%,而机器只能到72%

斯坦福AI指数报告总结(视觉部分)_第8张图片

 

你可能感兴趣的:(人工智能,人工智能,深度学习)