Label 的分布统计

1、

文本形式:

Label \t  XXXXXXX

            a. 通过 awk 进行分隔,获得Label

awk -F '\t' '{print $1;}' corpus.txt >> awk_log.txt

            b. 编写    ak.awk

#!/bin/awk -f
# 开始
BEGIN{
}
# 运行中
{
    for(i=1;i<=NF;i++){
        wordName[$i]=$i;
        wordCount[$i]++;
    }

}
# 结束
END{

    for(j in wordName) {
        print j"\t"wordCount[j];
    }
}

            c.编写 akBash.sh

#!/bin/bash
file=$1
awk -f ak.awk $file

         d.执行  sh akBash.sh awk_log.txt

10      11219
11      11253
12      7454
20      3739
13      2056
21      2540
14      5152
22      8607
15      3740
23      6661
16      9245
30      1261
31      6683
17      6654
24      907
18      11159
32      3816
25      7453
26      2656
33      7488
19      1595
40      3720
27      7486
34      10416
41      6963
35      11174
42      7492
28      7492
36      7386
43      11116
29      5084
37      7493
44      7492
38      7501
39      3749
0       9394
1       11251
2       11234
3       11246
4       5782
5       6432
6       13645
7       11118
8       321
9       9026





你可能感兴趣的:(个人日记)