人工智能实战2019第七次作业(OpenPAI) 16721088 焦宇恒

项目 内容
这个作业属于哪个课程 人工智能实战2019
这个作业的要求在哪里 OpenPAI与NNI的使用
我在本作业的目标 学习OpenPAI的使用

学习OpenPAI的使用

OpenPAI简介

​ OpenPAI用于管理计算资源,并对机器学习任务进行了优化。通过Docker技术,硬件计算资源与软件相分离。这样,用户能轻松的进行分布式计算,在不同的深度学习框架间切换,也能在完全一致的环境中重复运行作业。适用场景如下:

  • 在团队间共享强大的AI计算资源(例如,GPU,FPGA集群)。
  • 在组织内共享或重用AI资产(如模型,数据,运行环境等)。
  • 构建易于IT运维的AI计算平台。
  • 在同一个环境中完成模型训练过程。

OpenPAI使用体验

​ 在安装扩展OpenPAI VS Code后,可直接在VS Code中使用OpenPAI。

  1. Use shortcut key Ctrl+Shift+P to open command palette.

  2. input and look for PAI:Add PAI Cluster as below.

  3. press Enter,and it takes to input the host of OpenPAI.

  4. 之后,会弹出的集群配置文件,填写"username"和”password”并保存配置。

  5. 添加文件,文件夹需要包含以下项:

    • _init__.py: 用于调用filetrans.py
    • filetrans.py:实现hdfs和docker container之间的数据传输操作。主要实现数据download和upload
    • run_samples.py:实现整个训练过程,包括下载数据,训练模型,上传结果模型
    • train.sh: 训练模型的脚本命令
  6. 添加任务:

    • 双击Create Job Config…创建配置文件。本例中直接copy了实例中的JSON文件,修改了jobname(便于后面辨认出自己提交的任务)
     {
         "jobName": "jyh_test_couplet_001",
         "image": "tobeyqin/pai.build.cu80:my",
         "codeDir": "$PAI_DEFAULT_FS_URI/$PAI_USER_NAME/$PAI_JOB_NAME",
         "dataDir": "$PAI_DEFAULT_FS_URI/Data/$PAI_JOB_NAME",
         "outputDir": "$PAI_DEFAULT_FS_URI/Output/$PAI_JOB_NAME",
         "taskRoles": [
             {
                 "name": "test_001",
                 "taskNumber": 1,
                 "cpuNumber": 2,
                 "gpuNumber": 1,
                 "memoryMB": 8192,
                 "command": "pip3 --quiet install future && cd $PAI_JOB_NAME && chmod +x train.sh && python3 run_samples.py"
             }
         ]
     }
  7. 提交任务:

    在配置文件中,单机鼠标右键,选择Submit Job to PAI Cluster,提交任务。

  8. 查看状态:

    提交任务后,PAI Client会在右下角提示Open Web Portal,点击可打开OpenPAI的web
    portal,查看任务的运行状态。

人工智能实战2019第七次作业(OpenPAI) 16721088 焦宇恒_第1张图片
人工智能实战2019第七次作业(OpenPAI) 16721088 焦宇恒_第2张图片

  1. 完成训练:

    当任务状态变成successed时,即完成训练过程。并且将训练模型结果传回hdfs。在程序中,我们编写的默认传回路径为output/目录下,以JobName命名的文件夹中。

人工智能实战2019第七次作业(OpenPAI) 16721088 焦宇恒_第3张图片

  1. 下载模型:

    用户可以在PAI CLUSTER EXPLORER下的集群中,双击Open HDFS,打开HDFS explorer。在/Beihang_Couplet/output/目录下,右键单击JobName命名的文件夹,选择Download,下载模型文件。

OpenPAI使用心得

​ OpenPAI配合VScode客户端使用,操作非常简单便捷,Web UI界面也很简洁明了。在本例中用了两个半小时就完成了对联项目的数据训练,让我体验到了云部署的强大算力的便捷高效。

在使用中用到的问题

​ 在进入HDFS EXPlORER后想返回到PAI CLUSTER EXPLORER时要输入命令“EXPLORER: focus on PAI cluster explorer view",感觉比较麻烦(不知道是不是我操作有问题)
人工智能实战2019第七次作业(OpenPAI) 16721088 焦宇恒_第4张图片

人工智能实战2019第七次作业(OpenPAI) 16721088 焦宇恒_第5张图片

你可能感兴趣的:(人工智能实战2019第七次作业(OpenPAI) 16721088 焦宇恒)