hadoop学习笔记 Hadoop工作过程(待完善)

Hadoop工作过程(待完善)


MAP实现类
实现split (InputFormat类)
实现map (mapper类)
实现combiner (Combiner类)
实现shuffle (Partitioner类)
REDUCE实现类
实现reduce (Reducer类)
实现输出 OutputFormat类


HDFS终端命令


User Commands
Archive 归档文件
Distcp 集群间同步数据(重要)
Fs 就是dfs,文件操作
Fsck HDFS文件检查
Fetchdt从namenode获得代理令牌
Jar运行jor
Job处理job任务
Pipes运行Pipes job
Queue此命令可以跟hadoop job的队列交互
Version版本
CLASSNAME 运行java class
classpath 设置变量环境




Administration Commands
Balancer数据重分布
Deamonlog为每个守护进程设置或查看日志级别
Datanode运行HDFS的datanode命令,目前有回滚命令
Dfsadmin运行HDFS的管理命令,比较典型如:报告、安全模式的进入和离开
Mradmin运行MR管理客户端
Jobtracker运行Jobtracker节点,目前可以dump配置文件(out)
Namenode运行namenode命令,比如格式化namenode
Secondarynamenode ,如checkpoint(合并事务日志文件)
tasktracker运行tasktracker命令


文件操作命令
appendToFile 追加本地文件一个或者多个到目标系统上
Cat展示目标文件内容到屏幕
Chgrp修改文件权限
Chown修改文件拥有者
CopyFromLocal跟Put命令类似,目标文件不能是一个引用
CopyToLocal同Get命令,目标文件不能是一个引用
Count统计其子路径目录数,文件数,内容大小
Cp从源文件拷贝到目标文件支持多源文件操作不过目标需要是目录。
Du展示目录包括的文件和目录大小,如果是文件的话那么就是他的大小
Dus展示文件大小


Expunge清空HDFS垃圾箱
Put从本地源文件拷贝到目标文件系统上,允许多源文件,目标文件必须为目录同时也支持命令行输入然后写到文件系统上去。
Get拷贝文件到本地
Getmerge源文件和目标文件作为输入,将源文件中的所有文件合并成一个本地文件
Ls列出文件
Lsr递归列出文件
Mkdir创建目录
MoveFromLocal跟put类似,源文件在拷贝之后将会被删除
Mv源文件移动到目标文件
Rm删除文件或者目录
Rmr递归删除
Setrep修改文件的备份个数
Stat返回此路径的相关信息,成功返回0,失败-1
Tail展示文件的最后1kb到屏幕上
Test-e检测文件是否存储,如果存在那么退出返回0;-z检测文件长度是否为0;-d检测文件是否为目录。
Text输出文件为text格式

Touchz创建一个空文件

注:首字母大写是为编辑方便,学习时可不必理会。



Hadoop常用配置参数
Hadoop核心配置文件:
-core-site.xml
-hdfs-site.xml
-mapred-site.xml
-yarn-site.xml


-core-site.xml需要的配置项
-fs.defaultFS
-hadoop.tmp.dir
-io.file.buffer.size
-fs.trash.interval
-io.compression.codecs









你可能感兴趣的:(大数据)