官网: https://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-common/FileSystemShell.html
hadoop fs 下的命令都比较常用,去官网看一遍吧
查看.gz 的文件内容:
引用
无需解压整个文件: hadoop fs -cat /hdfs_location/part-00000.gz | zcat | head -n 20
或者 hadoop fs -cat /hdfs_location/part-00000.gz | zmore
需要解压整个文件:hadoop fs -text /myfolder/part-r-00024.gz | tail
参见: https://stackoverflow.com/questions/31968384/view-gzipped-file-content-in-hadoop
查看.bz2 的文件内容:
类似查看.gz的方法,只需将zcat换为bzcat, 或者将zmore换为bzmore即可
2、yarn
官网: https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/YarnCommands.html
- kill任务: yarn application -kill application_1491058351375_633399
- 查看日志: yarn logs -applicationId application_1491058351375_633399 | less
3、spark启动命令
参见: https://spark.apache.org/docs/1.6.1/running-on-yarn.html
注意一个参数 : JVM本身的内存:spark.yarn.executor.memoryOverhead
4、spark本地调试
1、maven工程的pom.xml中将所有的包设置为 compile 而非 provided, 从而将spark打包进jar中
2、IntelliJIDEA中的Run->Edit Configuration中新增如下配置,并设置JVM参数为:
-Dspark.master=local[2] -Dspark.driver.memory=2g -Dspark.app.name=SparkPi
spark配置请参见: https://spark.apache.org/docs/latest/configuration.html#application-properties
3、需要保证本地安装的scala版本与spark所需版本一致
对于spark1.6, 应安装scala2.10.x
对于spark2.x,应安装scala2.11.x
5、spark本地调试-方法2
1、到 https://spark.apache.org/downloads.html下载spark-2.2.1-bin-hadoop2.7.tgz (或其他Pre-build版本)
2、解压到任意文件夹, IDEA中新建scala工程
3、IDEA中File -> Project Structure -> Modules ->Dependencies 中添加刚才解压的路径中的 jars文件夹 (已经包含的hadoop、spark等程序)
完成以上3步后即可运行
4、(可选)解决找不到winutils.exe的问题
根据错误提示,下载和hadoop版本一致的winutils.exe
我是在 https://github.com/steveloughran/winutils/tree/master/hadoop-2.7.1/bin 下载的,
下载后放到了spark_home/jars/bin/文件夹中, 并设置HADOOP_HOME环境变量指向spark_home/jars文件夹
6、文件查看
gz文件,文本文件:hadoop fs -text file_name_or_dir_name | head
parquet文件: hadoop jar parquet-tools-1.9.0.jar head -n10 file_name_or_dir_name
parquet-tools-1.9.0.jar 下载:https://mvnrepository.com/artifact/org.apache.parquet/parquet-tools/1.9.0