AWK二维数组的用法总结

摘自:http://blog.csdn.net/beyondlpf/article/details/7024730

awk的多维数组在本质上是一维数组,更确切一点,awk在存储上并不支持多维数组。awk提供了逻辑上模拟二维数组的访问方式。例如,array[2,4] = 1这样的访问是允许的。awk使用一个特殊的字符串SUBSEP (\034)作为分割字段,在上面的例子中,关联数组array存储的键值实际上是2\0344。

1 类似一维数组的成员测试,多维数组可以使用 if ( (i,j) in array)这样的语法,但是下标必须放置在圆括号中。
2 类似一维数组的循环访问,多维数组使用 for ( item in array )这样的语法遍历数组。与一维数组不同的是,多维数组必须使用split()函数来访问单独的下标分量。split ( item, subscr, SUBSEP)。
如:
awk '
BEGIN{ 
ay[1,10]=5;
ay[10,2]=12;

END{
for (k in ay) {
   split(k,idx,SUBSEP); 
   print idx[1],idx[2],ay[idx[1],idx[2]];
   }
}' /dev/null
或者
awk '
BEGIN{ 
ay[1,10]=5;
ay[10,2]=12;
}
END{ 
for (k in ay) {
   print k,ay[k];
   }
}' /dev/null


AWK二维数组用法的例子

摘自http://www.blogread.cn/it/article/1937?f=sa

#将字段按{SPR}分隔 
BEGIN{FS="{SPR}";OFS="\t";} 

    #arrgame数组的KEY是游戏 
    arrgame[$2]++; 
    #gameqid数组的KEY是游戏,用户ID 
    gameqid[$2,$4]++; 

END{ 
    #循环每个游戏 
    for(name in arrgame)  
    { 
        filename = name".log"; 
        for(qid in gameqid) 
        { 
            #将游戏名与用户ID分隔开,存放在qidarr数组中 
            split(qid,qidarr,SUBSEP);  
            if(name == qidarr[1]){ 
                print qidarr[2] > filename; 
            } 
        } 
    } 

}


心得:结合这个例子,如果用二维数组处理较大的数据的话,速度实在太慢。e,g,200万条数据,二维数组取其中两项,按其中一项为key1,相同key1的key2连续输出,则估算200w *100w =2ww复杂度太高了,用AWK的话等死人

这样的用python就简单多了,估计AWK二维处理1h,python只需10s就搞定了

你可能感兴趣的:(python,shell)