阿里云大数据ACP认证学习笔记

阿里云大数据ACP认证学习笔记

  • 1.大数据基础
  • 2.大数据计算服务Maxcompute
    • 2.1基础知识
      • 2.1.1购买Maxcompute并创建项目增加子用户
      • 2.1.2创建ODPS
      • 2.1.3maxcompute的命令行客户端odpscmd的安装与基本命令
    • 2.2数据上传与下载
      • 2.2.1 tunnel批量离线处理
        • 2.2.1.1tunnel上传
        • 2.2.1.2tunnel下载
      • 2.2.2 datahub实时处理
    • 2.3SQL开发基础
    • 2.4UDF开发基础
    • 2.5MR开发基础
    • 2.6Graph开发基础
    • 2.7权限与安全
  • 3.大数据开发与治理平台Dataworks
  • 4.数据可视化分析平台
  • 5.机器学习平台PAI

1.大数据基础

2.大数据计算服务Maxcompute

2.1基础知识

2.1.1购买Maxcompute并创建项目增加子用户

1.首先购买自己服务区的maxcompute:
阿里云大数据ACP认证学习笔记_第1张图片
2.创建项目
阿里云大数据ACP认证学习笔记_第2张图片
3.增加子用户并保存其AccessKey
阿里云大数据ACP认证学习笔记_第3张图片
4.给项目增加用户权限
阿里云大数据ACP认证学习笔记_第4张图片

2.1.2创建ODPS

1.创建ODPS
阿里云大数据ACP认证学习笔记_第5张图片
2.创建一个table:create table A (id bigint,name string);
阿里云大数据ACP认证学习笔记_第6张图片
3.查看这个table:desc A;
阿里云大数据ACP认证学习笔记_第7张图片

2.1.3maxcompute的命令行客户端odpscmd的安装与基本命令

1.在阿里官网下载安装包并解压
阿里云大数据ACP认证学习笔记_第8张图片
2.加压后打开conf目录下的唯一文件,并根据项目填写相关信息:
阿里云大数据ACP认证学习笔记_第9张图片
3.配置完文件后在bin目录下打开cmd,输入odpscmd.bat即可打开运行
阿里云大数据ACP认证学习笔记_第10张图片
4.输入quit;即可退出odpscmd
阿里云大数据ACP认证学习笔记_第11张图片
5.-f参数可以执行文件内的命令:odpscmd -f create.txt
阿里云大数据ACP认证学习笔记_第12张图片
6.-e参数可以执行SQL语句:odpscmd -e "select * from test_table;" 阿里云大数据ACP认证学习笔记_第13张图片
7.使用 use 项目名;即可跳转到用户的另一个项目,前提是用户有多个项目。
阿里云大数据ACP认证学习笔记_第14张图片

2.2数据上传与下载

2.2.1 tunnel批量离线处理

2.2.1.1tunnel上传

1.追加上传tunnel upload C:\Users\dz\Downloads\up.csv A;

drop table if exists A;#如果表存在删除
create table A(id int,name string);#创造表A,键是id和name
desc A;#查看表A
tunnel help;#查看tunel命令
tunnel upload C:\Users\dz\Downloads\up.csv A;#本地表up.csv内容追加上传到A表;
select * from A;#查看表A
truncate table A;#清理表A里的内容

阿里云大数据ACP认证学习笔记_第15张图片
2.分区表上传
首先创造分区表

create table A(id int,name string) partitioned by (gender string);#按gender创造分区表

阿里云大数据ACP认证学习笔记_第16张图片
然后

tunnel upload C:\Users\dz\Downloads\up_p\up_1.csv A/gender='male' -acp=true;#上传本地表到此分区,没有此分区值则创建
select * from A where gender='male';查看分区值是此的分区表

阿里云大数据ACP认证学习笔记_第17张图片

read A;#查看分区表的所有分区

阿里云大数据ACP认证学习笔记_第18张图片

3.文件目录上传

tunnel upload C:\Users\dz\Downloads\DIR B;#将C:\Users\dz\Downloads\DIR下的所有文件上传到表B;

阿里云大数据ACP认证学习笔记_第19张图片
当文件夹内有格式不一样表格时:-dbr=true表示只把格式正确表格录入,错误的表格抛弃;

tunnel upload C:\Users\dz\Downloads\DIR B -dbr=true;#有格式错误的表格,抛弃此表格

4.参数scan扫描

scan=true时,先扫描数据,格式正确,再导入数据;
scan=false时,不扫描数据,直接导入数据;
scan=only时,仅扫描本地数据,扫描完不导入

5.分割符

行分隔符-rd(默认\r\n)和列分隔符-fd(,)

6.第一行表头

去掉csv文件的第一行表头:-h=true
阿里云大数据ACP认证学习笔记_第20张图片

2.2.1.2tunnel下载

2.2.2 datahub实时处理

2.3SQL开发基础

2.4UDF开发基础

2.5MR开发基础

2.6Graph开发基础

2.7权限与安全

3.大数据开发与治理平台Dataworks

4.数据可视化分析平台

5.机器学习平台PAI

你可能感兴趣的:(job,阿里云,big,data,学习)