sed、tr、sort、uniq、join、cut、split命令

sed、tr、sort、uniq、join、cut、split命令
1、sed使用手册(转载) 

sed使用手册(转载) 
发信站: BBS 水木清华站 (Wed Sep 25 21:06:36 2002), 站内信件 
 
 
 
  Sed 命令列可分成编辑指令与文件档部份。其中 , 编辑指令负责控制所有的编 
辑工作 ; 文件档表示所处理的档案。  
  sed 的编辑指令均由位址(address)与函数(function)两部份组成 , 其中 , 在 
执行时 , sed 利用它的位址参数来  
  决定编辑的对象;而用它的函数参数(解[3])编辑。   
  此外 , sed 编辑指令 , 除了可在命令列上执行 , 也可在档案内执行。其中差 
别只是在命令列上执行时 , 其前必  
  须加上选项 -e ; 而在档案(解[4])内时 , 则只需在其档名前加上选项 -f。另 
外 , sed 执行编辑指令是依照它  
  们在命令列上或档内的次序。   
 
  下面各节 , 将介绍执行命令列上的编辑指令 、sed 编辑指令、执行档案内的编 
辑指令、执行多个档案的编辑、及  
  执行 sed 输出控制。   
 
2.1 执行命令列上的编辑指令   
2.2 sed 编辑指令   
2.3 执行档案内的编辑指令   
2.4 执行多个档案的编辑   
2.5 执行 sed 输出控制   
2.1.执行命令列上的编辑指令   
  当编辑指令(参照[section 2.2])在命令列上执行时 , 其前必须加上选项 -e 。 
其命令格式如下 :   
 
    sed -e '编辑指令1' -e '编辑指令2' ... 文件档    
 
其中 , 所有编辑指令都紧接在选项 -e 之後 , 并置於两个 " ' " 特殊字元间。 
另外 , 命令上编辑指令的执行是由  
左而右。  
 
  一般编辑指令不多时 , 使用者通常直接在命令上执行它们。例如 , 删除 yel. 
dat 内 1 至 10 行资料 , 并将其  
  馀文字中的 "yellow" 字串改成 "black" 字串。此时 , 可将编辑指令直接在命 
令上执行 , 其命令如下 :   
 
    sed -e '1,10d' -e 's/yellow/black/g' yel.dat    
 
在命令中 , 编辑指令 '1,10d'(解[5])执行删除 1 至 10 行资料 ; 编辑指令  
's/yellow/black/g'(解[6]) ,   
"yellow" 字串替换(substuite)成 "black" 字串。   
2.2 sed 的编辑指令   
  sed 编辑指令的格式如下 :   
             [address1[,address2]]function[argument]  
 
其中 , 位址参数 address1 、address2 为行数或 regular expression 字串 ,  
表示所执行编辑的资料行 ; 函数参  
数 function[argument] 为 sed 的内定函数 , 表示执行的编辑动作。   
下面两小节 , 将仔细介绍位址参数的表示法与有哪些函数参数供选择。   
 
2.2.1 位址(address)参数的表示法  
  实际上 , 位址参数表示法只是将要编辑的资料行 , 用它们的行数或其中的字串 
来代替表示它们。下面举几个例子  
  说明(指令都以函数参数 d(参照[section4.2]) 为例) :   
删除档内第 10 行资料 , 则指令为 10d。   
删除含有 "man" 字串的资料行时 , 则指令为 /man/d。   
删除档内第 10 行到第 200 行资料, 则指令为 10,200d。   
 
删除档内第 10 行到含 "man" 字串的资料行 , 则指令为 10,/man/d。   
  接下来 , 以位址参数的内容与其个数两点 , 完整说明指令中位址参数的表示法 
(同样也以函数参数 d 为例)。   
位址参数的内容:   
位址为十进位数字 : 此数字表示行数。当指令执行时 , 将对符合此行数的资料执 
行函数参数指示的编辑动作。例如 ,   
删除资料档中的第 15 行资料 , 则指令为 15d(参照[section4.2])。其馀类推 , 
如删除资料档中的第 m 行资料 , 则  
指令为 md 。   
 
位址为 regular expression(参照[附录 A]):  
当资料行中有符合 regular expression 所表示的字串时 , 则执行函数参数指示 
的编辑动作。另外 , 在   
regular expression 前後必须加上 "/"。例如指令为 /t.*t/d , 表示删除所有含 
两 "t" 字母的资料行。其中 , "."   
表示任意字元; "*" 表示其前字元可重任意次 , 它们结合 ".*" 表示两 "t" 字母 
间的任意字串。   
 
位址参数的个数 : 在指令中 , 当没有位址参数时 , 表示全部资料行执行函数参 
数所指示的编辑动作; 当只有一位址  
参数时 , 表示只有符合位址的资料行才编辑 ; 当有两个位址参数 , 如  
address1,address2 时 , 表示对资料区执行  
编辑 , address1 代表起始资料行 , address2 代表结束资料行。对於上述内容 , 
 以下面例子做具说明。   
 
例如指令为   
  
d   
 
其表示删除档内所有资料行。   
例如指令为   
  
5d   
 
其表示删除档内第五行资料。   
例如指令为   
  
1,/apple/d  
 
其表示删除资料区 , 由档内第一行至内有 "apple" 字串的资料行。   
例如指令为   
  
/apple/,/orange/d   
 
其表示删除资料区 , 由档内含有 "apple" 字串至含有 "orange" 字串的资料行  
  
2.2.2 有那些函数(function)参数   
  下页表中介绍所有 sed 的函数参数(参照[chapter 4])的功能。  
函数参数 功能   
∶ label  建立 script file 内指令互相参考的位置。    
#  建立解    
{ }  集合有相同位址参数的指令。    
!  不执行函数参数。    
=  印出资料行数( line number )。    
a  添加使用者输入的资料。    
b label  将执行的指令跳至由 : 建立的参考位置。    
c  以使用者输入的资料取代资料。   
 
d  删除资料。    
D  删除 pattern space 内第一个 newline 字母 前的资料。    
g  拷贝资料从 hold space。    
G  添加资料从 hold space 至 pattern space 。    
h  拷贝资料从 pattern space 至 hold space 。    
H  添加资料从 pattern space 至 hold space 。    
l  印出 l 资料中的 nonprinting character 用 ASCII 码。    
i  插入添加使用者输入的资料行。    
n  读入下一笔资料。    
N  添加下一笔资料到 pattern space。    
p  印出资料。    
P  印出 pattern space 内第一个 newline 字母 前的资料。    
q  跳出 sed 编辑。    
r  读入它档内容。    
s  替换字串。    
t label  先执行一替换的编辑指令 , 如果替换成牛p>则将编辑指令跳至 : label 
 处执行。    
w  写资料到它档内。    
x  交换 hold space 与 pattern space 内容。    
y  转换(transform)字元。    
虽然 , sed 只有上表所述几个拥有基本编辑功能的函数 , 但由指令中位址参数和 
指令与指令间的配合 , 也能使   
sed 完成大部份的编辑任务。   
2.3 执行档案内的编辑指令   
  当执行的指令太多 , 在命令列上撰写起来十分混乱 , 此时 , 可将这些指令整 
理储存在档案  
  (譬如档名为 script_file )内 , 用选项 -f script_file , 则让 sed 执行  
script_file 内的编辑指令。其命  
  令的格示如下 :   
     sed -f script_file 文件档    
 
其中 , 执行 script_file 内编辑指令的顺序是由上而下。例如上一节的例子 ,  
其可改成如下命令:   
     sed -f ysb.scr yel.dat    
 
其中 , ysb.scr 档的内容如下 :   
1,10d  
s/yellow/black/g  
 
  另外 , 在命令列上可混合使用选项 -e 与 -f , sed 执行指令顺序依然是由命 
令列的左到右, 如执行至 -f 後  
  档案内的指令 , 则由上而下执行。   
 
 
2.4 执行多个文件档的编辑   
  在 sed 命令列上 , 一次可执行编辑多个文件档 , 它们跟在编辑指令之後。例 
如 , 替换  
   white.dat、red.dat、black.dat 档内的 "yellow" 字串成 "blue" , 其命令 
如下:   
      sed -e 's/yellow/blue/g' white.dat red.dat black.dat   
 
上述命令执行时 , sed 依 white.dat、red.dat、black.dat 顺序 , 执行编辑指 
令 s/yellow/blue/(请参照[section 4.1] ,   
进行字串的替换。  
 
2.5.执行输出的控制   
  在命令列上的选项 -n (解[7]) 表示输出由编辑指令控制。由前章内容得知 ,  
sed 会 "自动的" 将资料由  
   pattern space 输送到标准输出档。但藉着选项 -n , 可将 sed 这 "自动的 
" 的动作改成 "被动的" 由它所执行的  
   编辑指令(解[8])来决定结果是否输出。   
  由上述可知 , 选项 -n 必须与编辑指令一起配合 , 否则无法获得结果。例如 , 
 印出 white.dat 档内含有 "white"   
  字串的资料行 , 其命令如下:   
 
      sed -n -e '/white/p' white.dat     
 
上面命令中 , 选项 -n 与编辑指令 /white/p (参照[section4.6]) 一起配合控制 
输出。其中 , 选项 -n 将输出控制权  
移给编辑指令;/white/p 将资料行中含有 "white" 字串印出萤幕。    
 

=====================================================

1.sed -n '2'p filename 
打印文件的第二行。

2.sed -n '1,3'p filename 
打印文件的1到3行

3. sed -n '/Neave/'p filename 
打印匹配Neave的行(模糊匹配)

4. sed -n '4,/The/'p filename 
在第4行查询模式The

5. sed -n '1,$'p filename 
打印整个文件,$表示最后一行。

6. sed -n '/.*ing/'p filename 
匹配任意字母,并以ing结尾的单词(点号不能少)

7 sed -n / -e '/music/'= filename 
打印匹配行的行号,-e 会打印文件的内容,同时在匹配行的前面标志行号。-n只打印出实际的行号。

8.sed -n -e '/music/'p -e '/music/'= filename 
打印匹配的行和行号,行号在内容的下面

9.sed '/company/' a "Then suddenly it happend" filename 
选择含有company的行,将后面的内容"Then suddenly it happend"加入下一行。注意:它并不改变文件,所有

操作在缓冲区,如果要保存输出,重定向到一个文件。

10. sed '/company/' i "Then suddenly it happend" filename 
同9,只是在匹配的行前插入

11.sed '/company/' c "Then suddenly it happend" filename 
用"Then suddenly it happend"替换匹配company的行的内容。

12.sed '1'd ( '1,3'd '$'d '/Neave/'d) filename 
删除第一行(1到3行,最后一行,匹配Neave的行)

13.[ address [,address]] s/ pattern-to-find /replacement-pattern/[g p w n] 
s选项通知s e d这是一个替换操作,并查询pattern-to-find,成功后用replacement-pattern替换它。 
替换选项如下: 
g 缺省情况下只替换第一次出现模式,使用g选项替换全局所有出现模式。 
p 缺省s e d将所有被替换行写入标准输出,加p选项将使- n选项无效。- n选项不打印输出结果。 
w 文件名使用此选项将输出定向到一个文件。(注意只将匹配替换的行写入文件,而不是整个内容)

14.sed s'/nurse/"hello "&/' filename 
将'hello '增加到'nurse' 的前面。

15. sed '/company/r append.txt' filename 
在匹配company的行的下一行开始加入文件append.txt的内容。

16. sed '/company/'q filename 
首次匹配company后就退出sed程序

==============================


sed 's/abc/123/g' myfile

sed -n 's/^west/north/p' myfile
打印替换了west开头用north替换的行

sed -n '/aa/,/bb/p' myfile
打印在包含以aa开头到以bb结束的行

sed '1,4s/aa/bb/g' myfile

sed '4,/aa/s/11/22/g' myfile
在第4行后到包含aa结束的行中,替换11为22

sed 'aa/,/bb/s/11/22/g' myfile
在包含以aa开头到以bb结束的行中,替换11为22

sed '1,5s/$/cc/' myfile
每行的末尾以cc来替换

--e-----------------------
sed -e '1,3d' -e 's/aa/bb/' myfile
对myfile同时执行d 与s 操作

--w-----------------------
sed -n '/north/w newfile' myfile
把myfile中包含north的行写入newfile中

--a-----------------------
sed '/^north /a \
----->add string------------------' myfile
往myfiel追加行

--i-----------------------
sed '/aa/i\
new line1--------------
------------new line2--------------' myfile

在包含/aa的行下插入行

--n--------------------
sed /aa/{n;s/11/22/;} myfile
找到包含aa的行后,对下一行执行s操作

--y--------------------

sed 1,3y/abcdefg/ABCDEFG' myfile
在1,3行中把abcdefg变形为ABCDEFG

--q---------------------
sed '5q' myfile
推出命令。执行到5行后退出

--h 与 g,x--------------
sed -e '/aa/h' -e '$g' myfile
把包含aa的行放如缓冲区,在最后一行中增加(也就是把包含有aa的行追加到最后一行中)


sed -e '/aa/{h;d; }' -e '/bb/{g;}' myfile
把包含aa的行放入缓冲区,删除包含aa的行;找到bb的行后,把aa的行在后面追加

sed -e '/aa/h' -e '$g' myfile

sed -e '/aa/h' -e '/bb/x' myfile
把包含aa的行放入缓冲区,当出现/bb的行时,则把bb的内容换为缓冲区的内容

为了使用上述输出信息做进一步自动处理,需要知道所存数据库名称,为此需执行以下操作:
  1) 使用s / - * / / g删除横线- - - - - -。
  2) 使用/ ^ $ / d删除空行。
  3) 使用$ d删除最后一行
  4) 使用1 d删除第一行。
  5) 使用awk {print $1}打印第一列。
  命令如下,这里使用了c a t,并管道传送结果到s e d命令  
  最后的命令如下:
   cat sql.txt| sed 's/-*//g'|sed '/^$//g'|sed '$d'|sed '1d'|awk '{print $1}'
   
  去除行首数字:
   sed 's/^[0-9]//g' data.txt
   
10、一些常用的处理
  ‘s / \ . $ / / g’ 删除以句点结尾行
  ‘-e /abcd/d’ 删除包含a b c d的行
  ‘s / [ ] [ ] [ ] * / [ ] / g’ 删除一个以上空格,用一个空格代替
  ‘s / ^ [ ] [ ] * / / g’ 删除行首空格
  ‘s / \ . [ ] [ ] * / [ ] / g’ 删除句点后跟两个或更多空格,代之以一个空格
  ‘/ ^ $ / d’ 删除空行
  ‘s / ^ . / / g’ 删除第一个字符
  ‘s /CO L \ ( . . . \ ) / / g’ 删除紧跟C O L的后三个字母
  ‘s / ^ \ / / / g’ 从路径中删除第一个\
  ‘s / [ ] / [ ] / / g’ 删除所有空格并用t a b键替代
  ‘S / ^ [ ] / / g’ 删除行首所有t a b键
  ‘s / [ ] * / / g’ 删除所有t a b键

2、关于tr
   通过使用 tr,您可以非常容易地实现 sed 的许多最基本功能。您可以将 tr 看作为 sed 的(极其)简化的变体:它可以用一个字符来替换另一个字符,或者可以完全除去一些字符。您也可以用它来除去重复字符。这就是所有 tr 所能够做的。  
       tr用来从标准输入中通过替换或删除操作进行字符转换。tr主要用于删除文件中控制字符或进行字符转换。使用tr时要转换两个字符串:字符串1用于查询,字符串2用于处理各种转换。tr刚执行时,字符串1中的字符被映射到字符串2中的字符,然后转换操作开始。
带有最常用选项的tr命令格式为:
tr -c -d -s ["string1_to_translate_from"] ["string2_to_translate_to"] < input-file
这里:
-c 用字符串1中字符集的补集替换此字符集,要求字符集为ASCII。
-d 删除字符串1中所有输入字符。
-s 删除所有重复出现字符序列,只保留第一个;即将重复出现字符串压缩为一个字符串。
input-file是转换文件名。虽然可以使用其他格式输入,但这种格式最常用。
2、字符范围
指定字符串1或字符串2的内容时,只能使用单字符或字符串范围或列表。
[a-z] a-z内的字符组成的字符串。
[A-Z] A-Z内的字符组成的字符串。
[0-9] 数字串。
\octal 一个三位的八进制数,对应有效的ASCII字符。
[O*n] 表示字符O重复出现指定次数n。因此[O*2]匹配OO的字符串。
tr中特定控制字符的不同表达方式
速记符含义八进制方式
\a Ctrl-G  铃声\007
\b Ctrl-H  退格符\010
\f Ctrl-L  走行换页\014
\n Ctrl-J  新行\012
\r Ctrl-M  回车\015
\t Ctrl-I  tab键\011
\v Ctrl-X  \030
3、应用例子
(1)去除oops.txt里面的重复的小写字符
tr -s "[a-z]"<oops.txt >result.txt
(2)删除空行
tr -s "[\012]" < plan.txt 或 tr -s ["\n"] < plan.txt
(3)有时需要删除文件中的^M,并代之以换行
tr -s "[\015]" "[\n]" < file 或 tr -s "[\r]" "[\n]" < file
(4)大写到小写
cat a.txt |tr "[a-z]" "[A-Z]" >b.txt
(5)删除指定字符
    一个星期的日程表。任务是从其中删除所有数字,只保留日期。日期有大写,也有小写格式。因此需指定两个字符范围[a-z]和[A-Z],命令tr -cs "[a-z][A-Z]" "[\012*]" 将文件每行所有不包含在[a-z]或[A-Z](所有希腊字母)的字符串放在字符串1中并转换为一新行。-s选项表明压缩所有新行, -c表明保留所有字母不动。原文件如下,后跟tr命令:
tr -cs "[a-z][A-Z]" "[\012*]" <diary.txt
(6)转换控制字符
    tr的第一个功能就是转换控制字符,特别是从dos向UNIX下载文件时,忘记设置ftp关于回车换行转换的选项时更是如此。cat -v filename 显示控制字符。
    cat -v stat.txt
    box aa^^^^^12^M
    apple bbas^^^^23^M
    ^Z
猜想‘^ ^ ^ ^ ^ ^’是tab键。每一行以Ctrl-M结尾,文件结尾Ctrl-Z,以下是改动方法。
使用-s选项,查看ASCII表。^的八进制代码是136,^M是015,tab键是011,^Z是032 ,下面将按步骤完成最终功能。
用tab键替换^ ^ ^ ^ ^ ^,命令为"\136" "[\011*]"。将结果重定向到临时工作文件stat.tmp
tr -s "[\136]" "[\011*]" <stat.txt >stat.tmp
用新行替换每行末尾的^M,并用\n去除^Z,输入要来自于临时工作文件stat.tmp。
tr -s "[\015][\032]" "\n" <stat.tmp
要删除所有的tab键,代之以空格,使用命令
tr -s "[\011]" "[\040*]" <input.file
(7)替换passwd文件中所有冒号,代之以tab键,可以增加可读性
tr -s "[:]" "[\011]" < /etc/passwd 或 tr -s "[:]" "[\t]" < /etc/passwd
(8)使路径具有可读性
    如果用 echo $PATH 或者 echo $LD_LIBRARY_PATH 等类似的命令来显示路径信息的话,我们看到的将会是一大堆用冒号连接在一起的路径, tr命令可以把这些冒号转换为回车,这样,这些路径就具有很好的可读性了
echo $PATH | tr ":" "\n"  
(9)可以在vi内使用所有这些命令!只要记住:在tr命令前要加上您希望处理的行范围和感叹号 (!),如 1,$!tr -d '\t'(美元符号表示最后一行)。
(10)另外,当有人给您发送了一个在 Mac OS 或 DOS/Windows 机器上创建的文本文件时,您会发现tr非常有用。
    如果没有将文件保存为使用  UNIX 换行符来表示行结束这种格式,则需要将这样的文件转换成本机 UNIX 格式,否则一些命令实用程序不会正确地处理这些文件。Mac OS  的行尾以回车字符(\r)结束,许多文本处理工具将这样的文件作为一行来处理。为了纠正这个问题,可以用下列技巧:  
Mac -> UNIX:tr "\r" "\n"<macfile > unixfile
UNIX -> Mac:tr "\n" "\r"<unixfile > macfile
Microsoft DOS/Windows 约定,文本的每行以回车字符(\r)并后跟换行符(\n)结束。为了纠正这个问题,可以使用下列命令:  
DOS -> UNIX:tr -d "\r"<dosfile > unixfile
UNIX -> DOS:在这种情况下,需要用awk,因为tr不能插入两个字符来替换一个字符。要使用的 awk 命令为 awk '{ print $0"\r" }'<unixfile > dosfile
注:都可以用sed 来完成。
3、sort uniq join cut paste split
  ================sort用法=====================
 sort命令将许多不同的域按不同的列顺序分类。
1、sort选项
 sort命令的一般格式为:
  sort -cmu -o output_file [other options] +pos1 +pos2 input_files
  下面简要介绍一下s o r t的参数:
  -c 测试文件是否已经分类。
  -m 合并两个分类文件。
  -u 删除所有复制行。
  -o 存储s o r t结果的输出文件名。
  其他选项有:
  -b 使用域进行分类时,忽略第一个空格。
  -n 指定分类是域上的数字分类。
  -t 域分隔符;用非空格或t a b键分隔域。
  -r 对分类次序或比较求逆。
  +n n为域号。使用此域号开始分类。
  n n为域号。在分类比较时忽略此域,一般与+ n一起使用。
  post1 传递到m,n。m为域号,n为开始分类字符数;例如4,6意即以第5域分类,从第7个字符开始。
2、sort启动方式
  缺省情况下, s o r t认为一个空格或一系列空格为分隔符。要加入其他方式分隔,使用- t选项。
  sort执行时,先查看是否为域分隔设置了- t选项,如果设置了,则使用它来将记录分隔成域0、域1等等;
 如果未设置,用空格代替。缺省时s o r t将整个行排序,指定域号的情况例外。
  关于s o r t的一个重要事实是它参照第一个域作为域0,域1是第二个域,等等。
3、文件是否已分类
  sort -c data.txt
4、sort分类求逆
 如果要逆向s o r t结果,使用-r选项。
   sort -t: -r video.txt
5、按指定域分类
 有时需要只按第2域(分类键1)分类。
  sort -t: +1 video.txt
6、数值域分类
 用-n选项。必须用,不然得不到想要的结果。
  sort -t: +3n video.txt
7、唯一性分类
 使用- u选项进行唯一性(不重复)分类以去除重复行。
8、使用k的其他sort方法
 sort还有另外一些方法指定分类键。可以指定k选项。
  sort -t: -k4 video.txt
   
 使用k做分类键排序:   
 可以指定分类键次序。先以第4域,再以第1域分类,命令为-k4 -k1
  sort -t: -k4 -k1 video.txt
9、指定sort序列
 可以指定分类键顺序,也可以使用- n选项指定不使用哪个分类键进行查询。看下面的sort命令:
  sort +0 -2 +3
 该命令意即开始以域0分类,忽略域2,然后再使用域3分类。
10、pos用法
 指定开始分类的域位置的另一种方法是使用如下格式:
  sort  +filed.characterin
 意即从filed开始分类,但是要在此域的第characterin个字符开始。  
11、使用head和tail将输出分类
  可以使用h e a d或t a i l查阅任何大的文本文件  
  head -200 filename
12、awk使用sort输出结果
13、将两个分类文件合并
  将文件合并前,它们必须已被分类.
  使用-m +0。将这个文件并入已存在的分类文件v i d e o . s o r t,要以名称域进行分类,实际上没有必要加入+ o,但为了保险起见,还是加上的好。
   sort -t: -m +0 video2.txt video.sort
    
   ===================uniq用法====================
  uniq用来从一个文本文件中去除或禁止重复行。一般u n i q假定文件已分类,并且结果正确。
  sort的唯一性选项去除所有重复行,而uniq命令并不这样做。重复行是什么?在uniq里意即持续不断重复出现的行,中间不夹杂任何其他文本.
  命令一般格式:
   uniq -u d c -f inputfile outputfile
  其选项含义:
   -u 只显示不重复行。
   -d 只显示有重复数据行,每种重复行只显示其中一行
   -c 打印每一重复行出现次数。
   -f n为数字,前n个域被忽略。
   一些系统不识别- f选项,这时替代使用- n。
  对特定域进行测试:
  使用- n只测试一行一部分的唯一性。例如- 5意即测试第5域后各域唯一性。域从1开始记数。
 如果忽略第1域,只测试第2域唯一性,使用- n 2,下述文件包含一组数据,其中第2域代表组代码。
   uniq -f2 parts.txt或
   uniq -n2 parts.txt
  ==================join用法(强大呀,像sql里面的join 呢)========================
 join用来将来自两个分类文本文件的行连在一起。
 下面讲述join工作方式。这里有两个文件f i l e 1和f i l e 2,当然已经分类。每个文件里都有一
些元素与另一个文件相关。由于这种关系, join将两个文件连在一起,这有点像修改一个主文
件,使之包含两个文件里的共同元素。
 为有效使用join,需分别将输入文件分类:
 join的格式:  
  join [option] file1,file2
  an n 为一数字,用于连接时从文件n中显示不匹配行。例如, -a1显示第一个文件的不匹
 配行,- a2为从第二个文件中显示不匹配行。
  o n.m n为文件号,m为域号。1.3表示只显示文件1第三域,每个n,m必须用逗号分隔,
 如1.3,2.1。
  j n m   n为文件号,m为域号。使用其他域做连接域
  t  域分隔符。用来设置非空格或t a b键的域分隔符。例如,指定冒号做域分隔符- t:
   
 连接域为域0,缺省join删除或去除连接键的第二次重复出现:
   join names.txt town.txt
 1、不匹配连接,下面的例子显示匹配及不匹配域
   join -a1 -a2 names.txt town.txt
  只显示第一个文件中不匹配行:
   join -a1 names.txt town.txt
 2、选择性连接
 使用- o选项选择连接域。例如要创建一个文件仅包含人名及城镇, j o i n执行时需要指定显示域。方式如下:
 使用1 . 1显示第一个文件第一个域,2 . 2显示第二个文件第二个域,其间用逗号分隔。命令为:
   join -o 1.1,2.2 names.txt town.txt
 使用-jn m进行其他域连接,例如用文件1域3和文件2域2做连接键,命令为:
   join -j1 3 -j2 2 names.txt town.txt
 
 ===========================cut用法=========================================
 cut用来从标准输入或文本文件中剪切列或域。剪切文本可以将之粘贴到一个文本文件。
 cut一般格式为:
 cut [options] file1 file2
 下面介绍其可用选项:
 -c list 指定剪切字符数。
 -f field 指定剪切域数。
 -d 指定与空格和t a b键不同的域分隔符。
 -c 用来指定剪切范围,如下所示:
 -c 1,5-7 剪切第1个字符,然后是第5到第7个字符。
 -c1-50 剪切前5 0个字符。
 -f 格式与- c相同。
 -f 1,5 剪切第1域,第5域。
 - f 1,10-12 剪切第1域,第1 0域到第1 2域。
 
 剪切指定域:
 cut命令中剪切各域需用逗号分隔,如剪切域1和3,可以使用:
  cut -d: -f1,3 pers
 
 =========================paste用法==========================================
  cut用来从文本文件或标准输出中抽取数据列或者域,然后再用paste可以将这些数据粘贴
 起来形成相关文件。粘贴两个不同来源的数据时,首先需将其分类,并确保两个文件行数相同。
  paste将按行将不同文件行信息放在一行。缺省情况下,paste连接时,用空格或t a b键分隔
 新行中不同文本,除非指定- d选项,它将成为域分隔符。
  paste格式为;
   paste -d -s -file1 file2
 选项含义如下:
  -d 指定不同于空格或t a b键的域分隔符。例如用@分隔域,使用- d @。
  -s 将每个文件合并成行而不是按行粘
   
 paste命令管道输入:
 paste命令还有一个很有用的选项( -)。意即对每一个( -),从标准输入中读一次数据。
 使用空格作域分隔符,以一个4列格式显示目录列表。方法如下:
   ls |paste -d":" - - - -
 =========================split用法==========================================
  split用来将大文件分割成小文件。
   
 split -output_file-size input-filename output-filename
 每个文件格式为x [ a a ]到x [ z z ],x为文件名首字母, [ a a ]、[ z z ]为文件名剩余部分顺序字符组合.
   split -5000 url_access_user.txt splitfile
 
 
UNIX下用awk对话单统计日消费额
 
=============================================================
1、用awk实现按照电话号码进行统计
=============================================================
一般情况下,电话公司从交换机采集后将生成定长的话单文件,文件名也有一定的格式,如笔者正要处理的话单格式如下:
[zengzc@ZCBILL bill_data]$ cat Ticket_20041210_11
87881141,10,10,120,  0,20041210092920
87881142,10,30,230,-10,20041210092920
87881143,10,30,100,-20,20041210092920
87881143,10,30,110, 10,20041210093825
87881143,10,40, 90,  0,20041210095005
87881146,10,15, 45,  0,20041210092525
87881130,10,15, 80,  0,20041210092525
87881131,10,45, 60,  0,20041210090306
87881132,10,45,300, 20,20041210100101
87881133,10,60, 45, 20,20041210100101
87881134,10,10, 55,-10,20041210101010
87881134,10,20, 55,-10,20041210102020
87881143,10,20, 60,  0,20041210110201
87881143,10,10, 20,  0,20041210111515
第1~8为电话号码
第10~11为基本费
第13~14为长途费
第16~18为附加费
第20~22为优惠费
第24~27为YYYYMMDDHH24MISS格式的日期。
如果我想要把每一个客户的基本费+长途费+附加费+优惠费进行汇总,然后得出日消费总额。当然如果采用Oracle是非常容易的,先把数据用SQL LOADER导入到Oracle数据库中,然后将几个费用的字段按照电话号码进行sum就OK了。当然我要讲的是采用AIX下的awk或者gawk(Linux下,GNU)进行统计,然后导入到Oracle数据库中。我试验过,一般情况下某一个本地网每日的话单都在千万级或者亿级的记录数,在处理速度上采用awk是有优势的。以下就简单的进行介绍。
1)、先写出如下的awk程序:
[zengzc@ZCBILL bill_data]$ cat StatFee.sh
#!/bin/gawk -f
BEGIN \
{
FS=","
}
{
PhoneList[$1]=$1
AllFeesPerPhone=$2+$3+$4+$5
Fee[$1]+=AllFeesPerPhone
};
END \
{
for (Row in PhoneList)
{
 print "Phone Number : "PhoneList[Row]"  All Fees :"Fee[Row]
}
}
2)、chmod +x StatFee.sh
3)、执行:./StatFee.sh Ticket_20041210_11
4)、搞定,得出如下数据:
Phone Number : 87881130  All Fees :105
Phone Number : 87881131  All Fees :115
Phone Number : 87881132  All Fees :375
Phone Number : 87881141  All Fees :140
Phone Number : 87881133  All Fees :135
Phone Number : 87881142  All Fees :260
Phone Number : 87881134  All Fees :140
Phone Number : 87881143  All Fees :550
Phone Number : 87881146  All Fees :70
 
=============================================================
2、用awk实现按照时段进行统计
      炮制电话号码的统计方法。
=============================================================
1)有如下数据(和第一部分是一样的,只是我用awk先把数据进行切分,具体切分方法见后面的附):
[zengzc@ZCBILL bill_data]$ cat Ticket_20041210_11_1
87881141,10,10,120,  0,20041210,09,2920
87881142,10,30,230,-10,20041210,09,2920
87881143,10,30,100,-20,20041210,09,2920
87881143,10,30,110, 10,20041210,09,3825
87881143,10,40, 90,  0,20041210,09,5005
87881146,10,15, 45,  0,20041210,09,2525
87881130,10,15, 80,  0,20041210,09,2525
87881131,10,45, 60,  0,20041210,09,0306
87881132,10,45,300, 20,20041210,10,0101
87881133,10,60, 45, 20,20041210,10,0101
87881134,10,10, 55,-10,20041210,10,1010
87881134,10,20, 55,-10,20041210,10,2020
87881143,10,20, 60,  0,20041210,11,0201
87881143,10,10, 20,  0,20041210,11,1515
2)编写awk脚本,并且存储为:StatFee_Time.sh
[zengzc@ZCBILL bill_data]$ cat StatFee_Time.sh
#!/bin/awk -f  
BEGIN \
{
 FS=","
}
{
 TimeList[$7]=$7
 AllFeesPerPhone=$2+$3+$4+$5
 Fee[$7]+=AllFeesPerPhone
};
END \
{
 for (Row in TimeList)
  print "Time Section : "TimeList[Row]"  All Fees :"Fee[Row]
}
3)、使得脚本StatFee_Time.sh可执行
chmod +x StatFee_Time.sh
4)执行 ./StatFee_Time.sh Ticket_20041210_11_1,OK,得到结果:
[zengzc@ZCBILL bill_data]$ ./StatFee_Time.sh Ticket_20041210_11_1
Time Section : 09  All Fees :1110
Time Section : 10  All Fees :650
Time Section : 11  All Fees :130
附:切分话单中的日期的脚本:
awk -F, '{print $1","$2","$3","$4","$5","substr($6,1,8)","substr($6,9,2)","substr($6,11,4)}' Ticket_20041210_11 >Ticket_20041210_11_1

你可能感兴趣的:(sed、tr、sort、uniq、join、cut、split命令)