0 linux三个文本处理工具:
grep, sed(流编辑器), awk
1 sed基本工作流程:
是行编辑器,
每一次把一行读取到内存中,后在内存中根据匹配模式,如果匹配则进行编辑(比如截取),
并把编辑后的结果输出到屏幕中.
sed仅仅是将匹配到的文本放在模式空间中进行处理,因此不会破坏原文本的内容。
2 sed写法格式:
sed [options] 'AddressCommand' file ... 表示针对file,根据操作位置address来执行command命令,动态编辑文件内容,格式中,操作内容和命令之间不需要有空格 options如下: -n: 静默模式,不再默认显示模式空间中的内容 -i: 直接修改原文件 -e SCRIPT -e SCRIPT:可以同时执行多个脚本 -f /PATH/TO/SED_SCRIPT sed -f /path/to/scripts file -r: 表示使用扩展正则表达式
sed操作Address介绍:
Address:指定地址/操作范围, 如下是定位操作范围的定义方法
方式1、StartLine,EndLine 指定起始结束行 比如1,100 表示指定1-100行的范围address $:最后一行 $-1: 倒数第二行 方式2、/RegExp/ 根据正则指定操作位置 /^root/ 表示以root开头的行 方式3、/pattern1/,/pattern2/ 第一次被pattern1匹配到的行开始,至第一次被pattern2匹配到的行结束,这中间的所有行 方式4、LineNumber 指定精确的行 方式5、StartLine, +N 从startLine开始,向后的N行;
sed COMMAND介绍:
d: 删除符合条件的行; eg: # sed '1,2d' sedfile 将1,2行的内容删除,并输出在控制台 此时 sedfile的内容不会变更 # sed '/oot/d' /etc/fstab p: 显示符合条件的行; a \string: 在指定的行后面追加新行,内容为string \n:可以用于换行 i \string: 在指定的行前面添加新行,内容为string r FILE: 将指定的文件的内容添加至符合条件的行处 # sed '1,2r /etc/issue' /etc/fstab 将文件/etc/fstab第1行,第二行后面分别增加/etc/issue文件内容 w FILE: 将地址指定的范围内的行另存至指定的文件中; s/pattern/string/修饰符: 查找并替换,默认只替换每行中第一次被模式匹配到的字符串,将查找模式pattern查找匹配到的字符串替换成string指定的字符 加修饰符 g: 全局替换 i: 忽略字符大小写 eg: ----> 商标表中修改配置文件: sed -i "s/%current_date%/$current_date/g" $target_dir/$ql 全局直接在目标文件$q内将字符%current_date%替换为$current_date这个变量的值 s/// ---> 这种分隔符不仅仅限制于/,也可以是 s###, s@@@ \(\), \1, \2
sed简单用法:
d: 删除符合条件的行; [root@chinadaas109 ~]# cat t 1,2099-12-30 2,2099-12-31 3,2099-02-31 HELLO WORLD [root@chinadaas109 ~]# sed '1,2d' t 3,2099-02-31 HELLO WORLD
sed替换字符串案例:
[root@chinadaas109 zhoumingtest]# sed 's/hello/HELLO/' zm1 HELLO ---> 源文件为hello world say good
sed练习:
1、删除/etc/grub.conf文件中行首的空白符; sed -r 's@^[[:spapce:]]+@@g' /etc/grub.conf 2、替换/etc/inittab文件中"id:3:initdefault:"一行中的数字为5; 这里 sed/// 使用 sed@@@来间隔 sed 's@\(id:\)[0-9]\(:initdefault:\)@\15\2@g' /etc/inittab 3、删除/etc/inittab文件中的空白行; sed '/^$/d' /etc/inittab 4、删除/etc/inittab文件中开头的#号; sed 's@^#@@g' /etc/inittab 5、删除某文件中开头的#号及后面的空白字符,但要求#号后面必须有空白字符; sed -r 's@^#[[:space:]]+@@g' /etc/inittab 6、删除某文件中以空白字符后面跟#类的行中的开头的空白字符及# sed -r 's@^[[:space:]]+#@@g' /etc/inittab 7、取出一个文件路径的目录名称; echo "/etc/rc.d/" | sed -r 's@^(/.*/)[^/]+/?@\1@g' 基名: echo "/etc/rc.d/" | sed -r 's@^/.*/([^/]+)/?@\1@g'
工作中遇到的 sed 源文件下替换字符串写法:
source ../../conf.properties target_dir=data_process_$DATE current_date=$(date +%Y-%m-%d) echo $current_date rm -rf $target_dir > /dev/null 2>&1 mkdir $target_dir # Generate the ql from the merge_table directory for ql in `ls merge_table | grep ql` do sed "s/%CHINADAASREDUCETASKS%/$MAPRED_REDUCE_TASKS/g" merge_table/$ql > $target_dir/$ql sed -i "s/%CHINDAASDATE%/$DATE/g" $target_dir/$ql sed -i "s/%current_date%/$current_date/g" $target_dir/$ql done
3 awk:
awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大.
awk也是行文本处理方式,将符合PATTERN的行放在内存中处理ACTION 并在显示界面中展示。
简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。
awk 'PATTERN{ACTION}' file 其中,PATTERN是匹配格式 ACTION是要执行的动作 eg: [root@chinadaas12 zmtest]# df -lh | awk '{print $1}' Filesystem /dev/sda3 tmpfs /dev/sda1 [root@chinadaas12 zmtest]# df -lh | awk '{print $1,$3}' Filesystem Used /dev/sda3 2.5G tmpfs 0 /dev/sda1 26M [root@chinadaas12 zmtest]# awk -F: '{print $1,$3}' /etc/passwd 显示指定分隔符为 : root 0 bin 1 daemon 2 adm 3 lp 4