检测压缩包并处理的Linux脚本(解压、批量修改文件名、导入)分析

iamlaosong文

邮件结算数据压缩包由工作人员不定时从结算系统下载再FTP到指定的目录,所以我需要一个脚本,每天定时(用crontab)检测是否有上传的压缩包,如果有,则解压、截短文件名,导入数据库。之所以要截短文件名,是因为下载的压缩包中的文件名除了含有结算日期和类型外,还包括生成时间及序列号,而这一部分我是不需要的(没有规律和意义),所以要截去,以便于导入程序处理。压缩包分两种:使用费和补偿费,每个压缩包有6个文件,分别是出口分拣、进口分拣、航空、陆运、转运和投递。下面是脚本并解释几个关键点

#timing job:unzip & import costs datafile by iamlaosong 20170215  
#!/bin/sh

BAKDIR=/home/oracle/ems_suan
BINDIR=/home/oracle/bin/sdpt_js
#OPDATE=`date -d '-1 day' +%Y%m%d`

cd ${BAKDIR}
# OPDATE=today - seq
for i in $(seq 45 -1 7)
do
  OPDATE=`date -d "-$i day" +%Y%m%d` 
  echo ${OPDATE}
  # process SYF zipfile
  zipfile=${OPDATE}*SYF*.zip
  if [ -f ${zipfile} ]; then
    unzip ${zipfile}
    for tfile in ${OPDATE}*SYF*.txt
    do
      tshort=${tfile%SYF*.txt}SYF.txt
      if [ ${tfile} != ${tshort} ]; then
        mv ${tfile} ${tshort}
      fi
    done
    [ ! -d ${OPDATE} ] && mkdir -p ${OPDATE}
    rename _NBCL _ ${OPDATE}*SYF.txt
    mv ${OPDATE}*SYF.txt ${OPDATE}
    mv ${zipfile} all_zip
    cd ${BINDIR}
    ./jsimp.sh ${OPDATE} SYF >/dev/null
    cd ${BAKDIR}
  fi
  # process BCF zipfile
  zipfile=${OPDATE}*BCF*.zip
  if [ -f ${zipfile} ]; then
    unzip ${zipfile}
    for tfile in ${OPDATE}*BCF*.txt
    do
      tshort=${tfile%BCF*.txt}BCF.txt
      if [ ${tfile} != ${tshort} ]; then
        mv ${tfile} ${tshort}
      fi
    done
    [ ! -d ${OPDATE} ] && mkdir -p ${OPDATE}
    rename _NBCL _ ${OPDATE}*BCF.txt
    mv ${OPDATE}*BCF.txt ${OPDATE}
    mv ${zipfile} all_zip
    cd ${BINDIR}
    ./jsimp.sh ${OPDATE} BCF >/dev/null
    cd ${BAKDIR}
  fi
done
1、for i in $(seq 45 -1 7)

产生一个45到7的序列,用于产生距当天多少天的日期,以便检测那个日期的压缩包是否存在。

2、tshort=${tfile%SYF*.txt}SYF.txt

产生一个短文件名,将多余的不确定部分截掉,详细见Linux中如何批量截短文件名
3、rename _NBCL _ ${OPDATE}*SYF.txt

批量修改文件名,将文件名中的部分字符改成其它字符,见linux下批量修改文件名,本例是为了去掉一些字符。

4、zipfile=${OPDATE}*SYF*.zip

这个赋值有点意思,如果文件存在,其中的通配符“*”会转换成相应的字符,如果不存在,则将“*”直接赋给变量。

5、导入程序执行较慢,如果上传的压缩包过多,就会发生头天脚本还没结束,第二天又会定时启动一个新的脚本,为避免此事的发生,脚本前面应该加一段检测代码,如果有导入进程,则退出处理,代码如下:

sdpt=$(ps -ef|grep sdpt_js)
sdpt=${sdpt#*./}
if [ ${sdpt:0:7}="sdpt_js" ]; then
  echo The import program is running.
  exit
fi

其中${sdpt#*./}是截取“./”后面的字符串,而${sdpt:0:7}则是取前7个字符,如果是“sdpt_js”就退出处理。

6、 [ ! -d ${OPDATE} ] && mkdir -p ${OPDATE} 

这是两个连续的命令,前一个是检测目录是否存在,后一个是创建目录。“&&”的意思是前一个命令如果执行成功,就执行后一个命令,本例中就是如果目录不存在(注意其中的感叹号表示“非”)就创建目录。类似的还有“||”,表示前一个命令如果执行不成功,就执行后一个命令,所以,这个代码也可以写成:

 cd ${OPDATE} || mkdir -p ${OPDATE} 


==============================================


实际应用过程中发现根据序列生成日期的方式检测压缩文件并处理存在一个缺陷,就是有时压缩包上传的时间太迟了,导致文件不在序列生成的日期范围,压缩文件处理不到,还需要人工处理,所以需要改进处理办法。考虑到文件名中含有日期,现在改为直接检测压缩文件,提取文件名称中的日期,然后进行处理,这样就和上传日期无关了。

脚本如下:

#timing job:unzip & import costs datafile by iamlaosong 20170623  
#!/bin/sh

sdpt=$(ps -ef|grep sdpt_js)
sdpt=${sdpt#*./}
if [ "${sdpt:0:7}" = "sdpt_js" ]; then
  echo The import program is running.
  exit
fi

. /home/oracle/.bash_profile
BAKDIR=/home/oracle/ems_suan
BINDIR=/home/oracle/bin/sdpt_js
#OPDATE=`date -d '-1 day' +%Y%m%d`

cd ${BAKDIR}
for zipfile in *.zip
do
  OPDATE="${zipfile:0:8}" 
  echo ${OPDATE}
  # process SYF zipfile
  if [[ ${zipfile} =~ "SYF" ]]; then
    echo  ${zipfile}
#    read -p "SYF file: press enter to continue..." var
    unzip ${zipfile}
    for tfile in ${OPDATE}*SYF*.txt
    do
      tshort=${tfile%SYF*.txt}SYF.txt
      if [ ${tfile} != ${tshort} ]; then
        mv ${tfile} ${tshort}
      fi
    done
    [ ! -d ${OPDATE} ] && mkdir -p ${OPDATE}
    rename _NBCL _ ${OPDATE}*SYF.txt
#    read -p "SYF file: press enter to continue..." var
    mv ${OPDATE}*SYF.txt ${OPDATE}
    mv ${zipfile} all_zip
    cd ${BINDIR}
    ./jsimp.sh ${OPDATE} SYF >/dev/null
    cd ${BAKDIR}
  fi
  # process BCF zipfile
  if [[ ${zipfile} =~ "BCF" ]]; then
    echo  ${zipfile}
#    read -p "BCF file: press enter to continue..." var
    unzip ${zipfile}
    for tfile in ${OPDATE}*BCF*.txt
    do
      tshort=${tfile%BCF*.txt}BCF.txt
      if [ ${tfile} != ${tshort} ]; then
        mv ${tfile} ${tshort}
      fi
    done
    [ ! -d ${OPDATE} ] && mkdir -p ${OPDATE}
    rename _NBCL _ ${OPDATE}*BCF.txt
#    read -p "BCF file: press enter to continue..." var
    mv ${OPDATE}*BCF.txt ${OPDATE}
    mv ${zipfile} all_zip
    cd ${BINDIR}
    ./jsimp.sh ${OPDATE} BCF >/dev/null
   cd ${BAKDIR}
  fi
done

"[[ ]]" 判断命令,比单个中括号更通用,支持字符串的模式匹配,使用=~操作符时甚至支持shell的正则表达式。
"=~"正则式匹配符号,利用它可以判断左边的字符串是否包含右边的字符串。



你可能感兴趣的:(Linux应用)