2020年,如何学习和掌握计算机视觉

  • 目录

    1. 前言

    2. 框架

    3. 硬件

    4. 理论&实践

    4.1 网课

    4.2 文章与代码

    4.3 书

    4.4 竞赛

     5. 更艰难的方法

    5.1 前言

    5.2 架构

    5.3 语义分割

    5.4 目标检测

    5.5 实例分割

    5.6 姿态估计

    6. 参考


    1. 前言

    • 在学习计算机视觉之前,了解基础的机器学习算法和Python会更好
  • 2. 框架

    • 2.1 没必要在一开始就选定框架,但是应用最新获得的知识是必要的
    • 2.2 可选的框架并不多:
      • 2.2.1 Pytorch / Keras(TensorFlow):PyTorch有更大的代码量,但也更为灵活。除此之外,大多数深度学习的研究者也开始使用PyTorch
      • 2.2.2 Albumentation(一个快速、灵活的图像增强Python库)和Catalyst(着重于可再现性,快速实验和代码库重用的PyTorch框架)
  • 3. 硬件

    • 3.1 Nvidia GPU 10XX+ 的型号已足够($300+)
    • 3.2 Kaggle Kernels:每周可免费试用30小时
    • 3.3 Google Colab:每个会话可以免费使用12小时,每周时限未知
  • 4. 理论&实践

    • 4.1 网课

      • 4.1.1 CS231n:网课首选。它包含了计算机视觉所有必要的基础。Youtube资源,B站有搬运资源。它有课后作业,但并不推荐
      • 4.1.2 Fast.ai:第二可选。Fast.ai是封装了PyTorch的高级框架,但由于它频繁的更换API(Application Programming Interface,应用程序接口)以及缺少说明文档,并不推荐使用。不过从理论和技巧方面来说,这个网课值得看
      • 在学习这些课程时,推荐把它们应用到框架上,完成理论与实践的结合
    • 4.2 文章与代码

      • 4.2.1 ArXiv.org:这里有所有的最新文章(免费)
      • 4.2.2 https://paperswithcode.com/sota:大多数常见深度学习任务的最前沿研究,不只是计算机视觉(免费)
      • 4.2.3 Github:在这里可以找到一些实现代码(免费)
    • 4.3 书

      • 不需要阅读太多。但无论你使用的是PyTorch还是Keras,如下两本书都很有用
      • 4.3.1 Deep Learning with Python:由Keras作者和谷歌AI研究员François Chollet所著。易于阅读,并且你会获得一些你之前不知道的见解(付费)
      • 4.3.2 Deep learning with Pytorch:由PtTorch团队的Eli Stevens & Luca Antiga所著(免费)
    • 4.4 竞赛

      • 4.4.1 Kaggle:这是一个著名的用于各种机器学习竞赛的在线平台,其中的许多竞赛与计算机视觉有关。在完成课程学习之前就可以开始参加,因为当竞赛开始时,会有很多开源的kernals(端到端的代码),你可以直接在浏览器中运行它们(免费)
  •  5. 更艰难的方法

    • 5.1 前言

      • 另一个可选的学习方法可能会有点困难,但是你不仅可以完成从训练模型到实现预测的流程,还完成自己的研究。参考自Sergei Belousov aka bes
      • 你只需要阅读和实现如下文章(免费)。如果只是阅读它们,也大有裨益
    • 5.2 架构

      • AlexNet: https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks
      • ZFNet: https://arxiv.org/abs/1311.2901
      • VGG16: https://arxiv.org/abs/1505.06798
      • ResNet: https://arxiv.org/abs/1704.06904
      • GoogLeNet: https://arxiv.org/abs/1409.4842
      • Inception: https://arxiv.org/abs/1512.00567
      • Xception: https://arxiv.org/abs/1610.02357
      • MobileNet: https://arxiv.org/abs/1704.04861
    • 5.3 语义分割

      • FCN: https://arxiv.org/abs/1411.4038
      • SegNet: https://arxiv.org/abs/1511.00561
      • UNet: https://arxiv.org/abs/1505.04597
      • PSPNet: https://arxiv.org/abs/1612.01105
      • DeepLab: https://arxiv.org/abs/1606.00915
      • ICNet: https://arxiv.org/abs/1704.08545
      • ENet: https://arxiv.org/abs/1606.02147
    • 5.4 目标检测

      • RCNN: https://arxiv.org/abs/1311.2524
      • Fast-RCNN: https://arxiv.org/abs/1504.08083
      • Faster-RCNN: https://arxiv.org/abs/1506.01497
      • SSD: https://arxiv.org/abs/1512.02325
      • YOLO: https://arxiv.org/abs/1506.02640
      • YOLO9000: https://arxiv.org/abs/1612.08242
    • 5.5 实例分割

      • Mask-RCNN: https://arxiv.org/abs/1703.06870
      • YOLACT: https://arxiv.org/abs/1904.02689
    • 5.6 姿态估计

      • PoseNet: https://arxiv.org/abs/1505.07427
      • DensePose: https://arxiv.org/abs/1802.00434
  • 6. 参考

    • https://towardsdatascience.com/guide-to-learn-computer-vision-in-2020-36f19d92c934?gi=f07d48c9cd8b

你可能感兴趣的:(学习笔记,深度学习,计算机视觉)