ODPS之Tunnel上传下载

上传目录

Tunnel help upload查看上传命令参数设置
ODPS之Tunnel上传下载_第1张图片
本地目录结构
ODPS之Tunnel上传下载_第2张图片
ODPS之Tunnel上传下载_第3张图片
ODPS项目表结构
ODPS之Tunnel上传下载_第4张图片
尝试整个目录上传
ODPS之Tunnel上传下载_第5张图片
查看上传结果
ODPS之Tunnel上传下载_第6张图片
可以确定的是本地downloadSample文件夹中的文件并没有被追加进表中

多线程上传

清空t_people:truncate table t_people;
ODPS之Tunnel上传下载_第7张图片
设置两个文件对应两个线程上传
ODPS之Tunnel上传下载_第8张图片
ODPS之Tunnel上传下载_第9张图片
设置两个文件对应三个线程上传
ODPS之Tunnel上传下载_第10张图片
设置三个文件对应三个线程上传
ODPS之Tunnel上传下载_第11张图片
上传的线程与需要上传的文件进行了绑定。一个文件对应一个线程,多设置线程也没用。需要上传的文本并不会在本地被读入内存后拆分为3份分配给三个线程,而是直接从硬盘按文件读入后以文件为单位分配给线程进行上传。

容忍错误记录&容忍脏数据量

在man.csv文件中放置一个脏数据,然后尝试执行上传命令
ODPS之Tunnel上传下载_第12张图片
ODPS之Tunnel上传下载_第13张图片
ODPS之Tunnel上传下载_第14张图片
在man.csv文件中放置一个脏数据,然后尝试执行’容忍错误discard bad records‘的上传命令
ODPS之Tunnel上传下载_第15张图片
在man.csv文件中放置两个脏数据,然后尝试执行‘容忍错误‘的上传命令
ODPS之Tunnel上传下载_第16张图片
ODPS之Tunnel上传下载_第17张图片
在man.csv文件中放置两个脏数据,然后尝试执行‘限制错误记录上限max bad record’的上传命令; PS:在设置容忍错误数量时,容忍错误dbr必须设置为true才会生效。
ODPS之Tunnel上传下载_第18张图片
ODPS之Tunnel上传下载_第19张图片

扫描文件

设置上传前本地文件预检查(scan only)——不消耗上传流量(扫到一处错误就停止)

设置上传前本地文件预检查(scan only)——允许容错数:1(跳过一个错误后会继续后续扫描)
ODPS之Tunnel上传下载_第20张图片
设置上传前本地文件预检查(scan only)——允许容错数:2
ODPS之Tunnel上传下载_第21张图片

行、列分隔符

修改man.csv的列分隔符和行分隔符为中文的,和中文的两个||

配置Tunnel上传命令中的行分隔符(row delimiter)和域分隔符(field delimiter)尝试上传数据
ODPS之Tunnel上传下载_第22张图片

NULL值处理

1.逻辑运算中的NULL
NULL and TRUE=NULL  NULL and FALSE=FALSE
NULL or TRUE=TRUE  NULL or FALSE=NULL
2.文件中的缺省值默认用NULL表示,可以设置为不用NULL标识出缺省值
ODPS之Tunnel上传下载_第23张图片
ODPS之Tunnel上传下载_第24张图片
ODPS之Tunnel上传下载_第25张图片
为什么不是替换缺省标记而是删除缺省标记呢?

指定时区

默认文本内时间为本地时间时的上传
ODPS之Tunnel上传下载_第26张图片
ODPS之Tunnel上传下载_第27张图片
设置文本内时间为东京时间的上传
ODPS之Tunnel上传下载_第28张图片

你可能感兴趣的:(大数据)