https://blog.csdn.net/sherpahu/article/details/82931761
google colab的数据导入主要有两种方法, 临时上传, 从Google Drive导入
点击上图红色圈出的部分, 在弹出的框里面选择文件, 点击上传, 可以将本地的文件传到服务器中
这种方法比较方便, 但是由于google colab的云端服务器是临时分配的, 所以在一段时间不用或者连续运行12个小时导致服务器连接断开之后, 会丢失文件
google drive导入有多种方法, 但是之前我在博客上面找到的方法已经失效, 而且颇为麻烦
我再重新介绍一个更方便的方法
1. 还是点击第1张图红色圈出的部分
2. 再点击代码段, 找到Downloading files importing data from Google Drive
点击会新建一个cell里面有传入data的代码
3. 找到需要的文件, 从网址中复制id, 填入下面的红框部分
一般而言, 浏览器地址栏中的地址如"https://drive.google.com/drive/folders/1dsQuYtUDpXcm6YLeP4oy9O_DcpnCD_aD", folders后面的部分就是id
有时候需要注意, google drive的文档可能被设置为了私密状态, 直接复制到colab里面也不能够使用
需要右键点击文件然后创建分享链接, 在分享链接里面有可以导入的id
一个个查在需要导入的文件少的时候还算方便, 但是文件多了就很麻烦了
此时可以使用命令直接解析出来, 所有的文件id
-
# 列出根目录的所有文件
-
# "q" 查询条件教程详见:https://developers.google.com/drive/v2/web/search-parameters
-
file_list = drive.ListFile({
'q':
"'root' in parents and trashed=false"}).GetList()
-
for file1
in file_list:
-
print(
'title: %s, id: %s, mimeType: %s' % (file1[
'title'], file1[
'id'], file1[
"mimeType"]))
以上代码可以看到根目录下的文件夹和文件的id
在从google drive中导入文件之后, 我们需要使用相对路径对于文件进行调用, 但是我们使用这个代码导入的是id, 没有添加上我们的文件名, 所以我们还得再加一行
-
#输入你的文件名字
-
downloaded.GetContentFile(
'telecom_churn.csv')
文件名按照你自己的文件名进行更改.
以下是一个完整的导入实例:
-
# Install the PyDrive wrapper & import libraries.
-
# This only needs to be done once per notebook.
-
!pip install -U -q PyDrive
-
from pydrive.auth
import GoogleAuth
-
from pydrive.drive
import GoogleDrive
-
from google.colab
import auth
-
from oauth2client.client
import GoogleCredentials
-
-
# Authenticate and create the PyDrive client.
-
# This only needs to be done once per notebook.
-
auth.authenticate_user()
-
gauth = GoogleAuth()
-
gauth.credentials = GoogleCredentials.get_application_default()
-
drive = GoogleDrive(gauth)
-
-
# Download a file based on its file ID.
-
#
-
# A file ID looks like: laggVyWshwcyP6kEI-y_W3P8D26sz
-
file_id =
'1zo_19GCSahf4WmlTH7468OW3oill8Ffi'
-
downloaded = drive.CreateFile({
'id': file_id})
-
#输入你的文件名字, 这行注释以及下一行的代码是需要自行添加的, 不加这两行无法使用相对路径的文件名调用, 会报出文件找不到的错误
-
downloaded.GetContentFile(
'train.csv')
-
print(
'Downloaded content "{}"'.format(downloaded.GetContentString()))
需要在我们直接插入的google colab的代码段中进行两项更改:
1. 将csv文件设为可分享, 通过分享链接查询id, 输入上述代码中.
2. 添加上文件的名字, 便于后续相对路径调用.
既然谈到了从Google Drive导入, 就不得不提google drive文件的上传问题了. 由于众所周知的原因, 我们不能直接登录上传, 有的梯子对于上传做了限速, 在我们的数据集比较大的时候就得想别的方法了
我用的是Multcloud和MEGAsync网盘相结合的方法进行上传, multcloud也支持百度网盘, 只是很慢. 这种方法上传有时候有点用, 但速度也一般.
实在不行就还是得换梯子了.
我相信很多人跟我一样就是为了免费的GPU才翻出墙外使用google colab, 除了之前的GPU就在这几天google colab也提供了免费的TPU
工具栏->修改->笔记本设置->硬件加速器
google colab跟ipython长得差不多, 但是有的快捷键会跟浏览器快捷键冲突
快捷键名称 | 快捷键 | jupyter |
|
|
|
|
Ctrl/Cmd M A | A |
|
Ctrl/Cmd M B | B |
|
Ctrl/Cmd M D | DD |
|
Ctrl/Cmd M I | II |
|
Ctrl/Cmd M Y | Y |
|
Ctrl/Cmd M M | M |
|
Ctrl/Cmd M - | Ctrl Shift - |
以上是从Medium上面搬运的快捷键对比节选