Colab Notebooks使用记录

简介

Google Colaboratory是谷歌开放的一款研究工具,主要用于机器学习的开发和研究。这款工具现在可以免费使用,但是不是永久免费暂时还不确定。Google Colab最大的好处是给广大的AI开发者提供了免费的GPU使用!GPU型号是Tesla K80!你可以在上面轻松地跑例如:Keras、Tensorflow、Pytorch等框架。
实际上就是跟jupyter notebook 差不多,只是有的实验如果自己的电脑没有 GPU ,放到实验室的服务器,小黑窗口使用调试代码很不方便,于是可以试试这个款,下面是一些个人的使用填坑记录。

基本操作

首先 colab 是以来于 google drive ,需要从 google drive 进入,首先 谷歌云盘 :google drive 是长这个样子的:



然后,我们在默认的"Colab Notebooks"文件夹中新建一个Colab项目,在空白处点击右键,如图所示:



创建成功之后就进入 colab ,每个代码框可以输入代码,默认是python ,左上角可以直接修改命名文件名:
  1. 执行系统命令需要再命令前面加一个"!",查看当前目录文件夹的命令跟 lunix 一样,可以看到左边的文件目录 sample_data 是默认 colab 执行目录,在空白处点击右键可以上传文件等;
  2. 只是在这个位置上传的文件,当该运行被回收之后,文件会被删除,也就是说,你下一次再想运行上次写好的代码时候,需要重新上传数据文件,这个很不方便
  3. 使用colab训练深度学习模型的时候,需要读入本地采集好的数据集。这时候可以将数据集先上传到google drive云端硬盘,再在colab的notebook读取google drive的数据集(文本、图片、数据表等)。colab类似一台linux服务器,要使用google drive就需要把drive挂在到主机上。这样就可以解决运行结束数据文件被删除的问题
    也就是将谷歌云盘看作是虚拟机中的一个硬盘挂载,这样我们就可以使用虚拟机轻松访问谷歌云盘。
  4. colab 读取google drive 的文件首先:让colab获得google drive的授权,在google colab里执行如下代码:
!apt-get install -y -qq software-properties-common python-software-properties module-init-tools
!add-apt-repository -y ppa:alessandro-strada/ppa 2>&1 > /dev/null
!apt-get update -qq 2>&1 > /dev/null
!apt-get -y install -qq google-drive-ocamlfuse fuse
from google.colab import auth
auth.authenticate_user()
from oauth2client.client import GoogleCredentials
creds = GoogleCredentials.get_application_default()
import getpass
!google-drive-ocamlfuse -headless -id={creds.client_id} -secret={creds.client_secret} < /dev/null 2>&1 | grep URL
vcode = getpass.getpass()
!echo {vcode} | google-drive-ocamlfuse -headless -id={creds.client_id} -secret={creds.client_secret}

运行代码会跳出链接,点击登录自己的 google 账号授权,复制验证 id 粘贴到代码输出下面,验证页面如下:



允许之后会出现验证id 复制粘贴就好,接着输入下面的代码,指定Google Drive云端硬盘的根目录,名为drive:

!mkdir -p drive
!google-drive-ocamlfuse drive # 此时colab中出现drive的文件夹,里面就是你的google drive的根目录文件

然后更换执行的工作文件夹即可,数据集在这个文件夹中,就可以在notebook里直接使用了:

import os
os.chdir("drive/Colab Notebooks") 

可以看到这个时候,左侧的文件目录栏出现了 drive 文件夹,将文件上传到 google drive 之后可以在 colab 中访问:


另外Colab最多连续使用12小时,超过时间系统会强制掐断正在运行的程序并收回占用的虚拟机。(好像再次连接到虚拟机后,虚拟机是被清空的状态,需要重新配置和安装库等等)
事实上每次断开网络再次连接 google colab 的时候所有的配置都会消失,挂载的 google drive 也不存在,需要重新操作,下载安装的配置,如 huggingface transformer 也需要重新下载 !pip install transformers

参考

google colab 使用简介
google colab 如何挂载 google drive

你可能感兴趣的:(Colab Notebooks使用记录)