用linux命令分析文件(排序,统计)

最近有个项目,需要对在liunx服务器上生成的日志文件进行分析,文件格式如下:

id               time

1001,2011-08-19 00:00:00

1002,2011-08-19 01:00:00

1001,2011-08-19 02:00:00

1003,2011-08-19 03:00:00

 需要排重算出id的个数,固然使用php也可以分析结果,不过使用linux命令更方便,一行搞定。

linux命令如下:

排重后id个数

        cat ****.txt  | awk '{print $1}'  |  sort | uniq -c | wc -l

按id出现次数排序

        cat ****.txt  | awk '{print $1}'  |  sort | uniq -c | sort -k 1 -n -r | wc -l

将结果导入文件

         cat ****.txt  | awk '{print $1}'  |  sort | uniq -c | sort -k 1 -n -r | wc -l > result.txt

 命令解析

 sort:表示前面输入的结果文件中的内容进行排序。sort命令是对于每一行的内容根据字典序(ASCII码)进行排序,这样可以保证重复的记录时相邻的。

awk ‘{print $1}’ :日志记录中的第一个字段。

uniq –c:表示合并相邻的重复记录,并统计重复数。因为uniq -c 只会合并相邻的记录,所以在使用该命令之前需要先排序。

sort –k 1 -n -r|wc –l:经过uniq -c 处理之后的数据格式形如"2 data",第一个字段是数字,表示重复的记录数;第二个字段为记录的内容。我们将对此内容进行排序。sort -k 1表示对于每行的第一个字段进行排序,这里即指代表重复记录数的那个字段。因为sort命令的默认排序是按照ASCII,这就会导致按从大到小进行排序时,数值2会排在数值11的前面,所以需要使用-n 参数指定sort命令按照数值大小进行排序。-r 表示逆序,即按照从大到小的顺序进行排序。

wc命令

wc命令的功能为统计指定文件中的字节数、字数、行数, 并将统计结果显示输出。

语法:wc [选项] 文件…

说明:该命令统计给定文件中的字节数、字数、行数。如果没有给出文件名,则从标准输入读取。wc同时也给出所有指定文件的总统计数。字是由空格字符区分开的最大字符串。

该命令各选项含义如下:

  - c 统计字节数。

  - l 统计行数。

  - w 统计字数

参考文章:

http://www.gnbase.com/thread-907-1.html

你可能感兴趣的:(Linux)