使用nutch开源的搜索引擎抓取网页信息,通过计划任务crontab执行shell脚本,并将启动信息记录进日志文件,但是每次都会出现乱码,如图所示

crontab执行shell脚本日志中出现乱码_第1张图片

经过反复测试,排除了java程序问题,文件权限问题,系统字符集的环境变量问题(en_US.UTF-8),发现手动执行shell脚本不会出现乱码,写在计划任务里自动执行就会出现乱码,最后确定是计划任务crontab执行脚本问题。

问题原因:

因为Unix/Linux下使用crontab时的运行环境已经不是用户环境了,因此原本用户下的一些环境变量的设置就失效了。例如原来用户环境变量设置的是GB2312,但是使用crontab运行时的环境变量就可能是ISO8859-1、UTF-8。

 

解决方法:

首先执行命令echo $LANG,假设输出是en_US.UTF-8

然后在脚本中增加一行与系统字符集的环境变量一致

export LANG=en_US.UTF-8

计划任务里再次自动运行java程序发现问题解决!

crontab执行shell脚本日志中出现乱码_第2张图片