导读:本期为 AI 简报 20210122 期,将为您带来 9 条相关新闻,新增论文推送,在文章底部,祝各位牛年大吉~
本文一共 3700 字,通篇阅读结束需要 7~10 分钟
该文章是市面上比较详细的一篇环境配置文章了
文章来源于Datawhale ,作者Datawhale
俗话说,环境配不对,学习两行泪。本文为保姆级别的教程,详细介绍了Windows、Mac和Ubuntu的深度学习环境配置方法及问题,帮助卡在环境配置的小伙伴们,解决入门难关。
入门深度学习,很多人经历了从入门到放弃的心酸历程,且千军万马倒在了入门第一道关卡:环境配置问题。俗话说,环境配不对,学习两行泪。
如果你正在面临配置环境的痛苦,不管你是Windows用户、Ubuntu用户还是苹果死忠粉,这篇文章都是为你量身定制的。接下来就依次讲下Windows、Mac和Ubuntu的深度学习环境配置问题。
Windows
Mac
Ubuntu
Github:
https://github.com/ProGamerGov/neural-style-pt
20分钟生成复杂的艺术作品,而且还是用英伟达上上代的1080显卡?
现在神经网络上手门槛这么亲民了吗?
没错,这是一个叫做neural-style-pt的风格迁移模型,基于Pytorch实现,而且刚刚开源!
有关这个算法模型的话题在Reddit上才发布一天,热度接近2000。
neural-style-pt
是论文A Neural Algorithm of Artistic Style的Pytorch实现,该论文走的是“风格迁移”路线。
安装neural-style-pt,首先要准备好Pytorch。
然后,使用下方一句话指令就能安装已经训练好的模型:
1python models/download_models.py
安装完以后,上手试玩也很简单,一行代码就能实现:
1python neural_style.py -style_image-content_image
如果要载入多种风格,需要分隔不同的图片文件名:
1-style_image starry_night.jpg,the_scream.jpg
注意,图片名称要包含完整的地址路径。
基本操作就是这些。
Github:
https://github.com/hpc203/yolov5-dnn-cpp-python
最近看到多篇讲解YOLOv5在OpenVINO部署做目标检测文章,但是没看到过用OpenCV的DNN模块做YOLOv5目标检测的。于是,我就想编写一套用OpenCV的DNN模块做YOLOv5目标检测的程序。
在编写这套程序时,遇到的bug和解决办法,在这篇文章里讲述一下。
在YOLOv5之前的YOLOv3和YOLOv4的官方代码都是基于darknet框架的实现的,因此OpenCV的DNN模块做目标检测时,读取的是.cfg和.weight文件,那时候编写程序很顺畅,没有遇到bug。
但是YOLOv5的官方代码(https://github.com/ultralytics/yolov5)是基于Pytorch框架实现的,而OpenCV的DNN模块不支持读取Pytorch的训练模型文件。如果想要把Pytorch的训练模型.pth文件加载到OpenCV的DNN模块里,需要先把Pytorch的训练模型.pth文件转换到.onnx文件,然后才能载入到Opencv的DNN模块里。
因此,用OpenCV的DNN模块做YOLOv5目标检测的程序,包含两个步骤:
把Pytorch的训练模型.pth文件转换到.onnx文件。
OpenCV的DNN模块读取.onnx文件做前向计算。
工业缺陷检测是当前深度学习落地的热门项目,近年来许多的比赛平台都举办了关于缺陷检测的比赛,如kaggle前不久举办的钢铁缺陷检测,以及天池刚刚开始的智能算法赛:瓷砖表面瑕疵质检。
瓷砖表面瑕疵质检比赛链接:
https://tianchi.aliyun.com/competition/entrance/531846/introduction
比赛刚刚开始有兴趣的小伙伴可以报名参加。
我调研了2018年天池的铝型材表面瑕疵识别比赛的获奖方案。从别的人方案学习到该领域相关的知识和有效的技巧。
这里分享一下一般参加比赛的思路:
找开源检测框架→数据增强→调参→小改网络→调参→小改网络→调参->测试增强
当你学习一门新的编程语言时,这个“猜数字”游戏是一个很好的入门程序。下面是如何用 C 语言来编写它。
我在小学时就开始 自学编程。我的第一个程序是在 Apple II 上编写的,但最终,我还是通过看书和编程练习学会了 C 语言。练习编程的最佳方法是编写示例程序,它能帮助你练习新知识。
在我学习一种新的编程语言时,我喜欢编写一个简单的“猜数字”游戏来练习。电脑从 1 到 100 中随机挑选一个数字,你必须通过猜测来算出来。在另一篇文章中,我展示了如何用 Bash 语言编写这个“猜数字”游戏,我的同事也写了一些文章,介绍如何用 Java、Julia 和其他计算机语言编写它。
“猜数字”游戏的伟大之处在于它践行了几个编程概念:如何使用变量、如何比较值、如何打印输出以及如何读取输入。
整个夏天,我录制了一个系列视频,教人们如何用 C 语言编写程序。从那以后,我听到了很多人都在跟着它学习 C 语言编程的消息。所以,我想接着用 C 语言写一个“猜数字”的游戏。
1#include
2#include
3int
4randnum(int maxval)
5{
6 /* pick a random number from 1 to maxval */
7 int randval;
8 getrandom(&randval, sizeof(int), GRND_NONBLOCK);
9 /* could be negative, so ensure it's positive */
10 if (randval < 0) {
11 return (-1 * randval % maxval + 1);
12 }
13 else {
14 return (randval % maxval + 1);
15 }
16}
17
18int
19main(void)
20{
21 int number;
22 int guess;
23 number = randnum(100);
24 puts("Guess a number between 1 and 100");
25 do {
26 scanf("%d", &guess);
27 if (guess < number) {
28 puts("Too low");
29 }
30 else if (guess > number) {
31 puts("Too high");
32 }
33 } while (guess != number);
34 puts("That's right!");
35 return 0;
36}
在学习一门新的编程语言时,这个“猜数字”游戏是一个很好的入门程序,因为它以一种非常直接的方式练习了几个常见的编程概念。通过用不同的编程语言实现这个简单的游戏,你可以演示一些核心概念,并比较每种语言的细节。
英文原文:
https://towardsdatascience.com/transformer-in-cv-bbdb58bf335e
DETR 应该是去年 2020 目标检测引用量排名前 Top3 的论文
Transformer结构已经在许多自然语言处理任务中取得了最先进的成果。Transformer 模型的一个主要的突破可能是今年年中发布的GPT-3,被授予NeurIPS2020“最佳论文“。
在计算机视觉领域,CNN自2012年以来已经成为视觉任务的主导模型。随着出现了越来越高效的结构,计算机视觉和自然语言处理越来越收敛到一起,使用Transformer来完成视觉任务成为了一个新的研究方向,以降低结构的复杂性,探索可扩展性和训练效率。
以下是几个在相关工作中比较知名的项目:
DETR(End-to-End Object Detection with Transformers),使用Transformers进行物体检测和分割。
Vision Transformer (AN IMAGE IS WORTH 16X16 WORDS: Transformer FOR IMAGE RECOGNITION AT SCALE),使用Transformer 进行图像分类。
Image GPT(Generative Pretraining from Pixels),使用Transformer进行像素级图像补全,就像其他GPT文本补全一样。
End-to-end Lane Shape Prediction with Transformers,在自动驾驶中使用Transformer进行车道标记检测
本文作者:叶茫
https://zhuanlan.zhihu.com/p/342249413
Paper: https://arxiv.org/abs/2001.04193v2
GIthub:
https://github.com/mangye16/ReID-Survey
行人重识别(Person Re-Identification,简称Re-ID),是一种利用计算机视觉技术来检索图像或者视频序列中是否存在特定行人的AI技术,在智慧城市等监控场景中具有重要的应用意义和前景。本文介绍我们最新的IEEE TPAMI综述论文 《Deep Learning for Person Re-identification: A Survey and Outlook》,该文作者来自武汉大学、起源人工智能研究院(IIAI)、北理工、英国萨里大学、Salesforce亚洲研究院。
这里先总结该综述的几个主要贡献点:
综述:全面调研了近年来深度学习在Re-ID领域的进展,囊括了近几年三大视觉顶会上的大部分文章(如有遗漏,请谅解)。主要包括Closed-world Re-ID与Open-world Re-ID的研究进展,常用数据集和评价指标的概述,并分析了现有方法的不足和改进点。
展望:1) 一个新的评价指标mINP,用来评价找到最困难匹配行人所需要的代价;2) 一个强有力的AGW方法,在四种不同类型的Re-ID任务,包括12个数据集中取得了较好的效果;3) 从五个不同的方面讨论了未来Re-ID研究的重点和难点,仅供大家参考。
2020年的世界,是人类社会对抗病毒生物的世界,计算生物学研究成为疫苗研制、新药研发的新突破口。近期,百度飞桨上线了10万奖池生物计算大赛:螺旋桨RNA结构预测竞赛:Unpaired Probability Prediction。比赛不仅聚焦AI战疫的真实技术难点,更得到了世界知名计算生物学专家David H. Mathews和北京大学生命科学学院教授刘君的大力支持与指导。
【赛题任务】该赛题旨在解决RNA结构预测问题,要求参赛选手基于百度发布的2个世界上最快的算法:RNA二级结构预测算法LinearFold和 RNA配分方程算法LinearPartition,预测给定RNA序列在每个位点上保持不成对的概率。
英雄请留步!
百度飞桨开发者技术专家、百度大脑智能对话训练师为大家总结了超详细的参赛知识点,理解赛题so easy!
百度飞桨为大家奉送10万现金奖池,更有100小时Tesla V100算力卡免费提供,报名即可在数据下载页获得算力码申请地址。除此之外,每天登录AI Studio运行Notebook项目,当天还可再领10小时GPU算力!
思元 290 智能芯片是寒武纪的首颗训练芯片,采用台积电 7nm 先进制程工艺,集成 460 亿个晶体管,支持 MLUv02 扩展架构,全面支持 AI 训练、推理或混合型人工智能计算加速任务。
寒武纪 MLU290-M5 智能加速卡搭载思元 290 智能芯片,采用开放加速模块 OAM 设计,具备 64 个 MLU Core,1.23TB/s 内存带宽以及全新 MLU-Link™多芯互联技术,在 350W 的最大散热功耗下提供 AI 算力高达 1024 TOPS(INT4)。
寒武纪玄思 1000 智能加速器,在 2U 机箱内集成 4 颗思元 290 智能芯片,高速本地闪存、Mellanox InfiniBand 网络,对外提供高速 MLU-Link™接口,打破智能芯片、服务器、POD 与集群的传统数据中心横向扩展架构,实现 AI 算力在计算中心级纵向扩展,是 AI 算力的高集成度平台。
寒武纪训练产品线采用自适应精度训练方案,面向互联网、金融、交通、能源、电力和制造等领域的复杂 AI 应用场景提供充裕算力,推动人工智能赋能产业升级。
《Focal and Efficient IOU Loss for Accurate Bounding Box Regression》
优于EIOU、Focal Loss、CIOU等,直接替换大多数检测网络中的原损失函数,均涨点明显!如PAA、ATSS和RetinaNet等,作者单位:华南理工大学, 地平线, 中科院(谭铁牛等)
《CFC-Net: A Critical Feature Capturing Network for Arbitrary-Oriented Object Detection in Remote Sensing Images》
从三个方面来提高检测精度:构建强大的特征表示,优化预设anchor和优化标签分配,表现SOTA!性能优于SCRDet、O2-DNet等网络,代码刚刚开源!作者单位:北京理工大学
你可以添加微信17775982065为好友,注明:公司+姓名,拉进RT-Thread 官方微信交流群!
点击阅读原进入官网