ICT实习第二周第一天




这周开始分配具体的任务了,主要是对hive支持的数据类型的编码方式进行调研,
我分到的是string类型数据,申跟我过了一下mapred工作流程,讲了一些关于mapred中getsplits和getrecordreader的东东,让我去看hive源码,找出outformat和recordwriter中关于string编码的部分,此是基于orcfile的,另外去github调研parquet,比较不同编码方式对列存储下string类型的的影响,找tradeoff压缩率和速度的中间点。另外还讲了关于列存储下不同行数据放在同一个block的过程。以及64Mblock下的行到列簇再到列的关系。
这周任务只要是调研,开始从百度or百度or google 往paper、github、google、hive wiki、wikipedia转变。
总之,这周开始工作内容又下潜了一个层次,开干!




你可能感兴趣的:(ICT实习)