【MapReduce】表自然连接笔记 Windows环境(HadoopStreaming、mrjob、java api三个版本)
表自然连接student_course表:(SID,CID,SCORE,TID)student表:(SID,NAME,SEX,AGE,BIRTHDAY,DNAME,CLASS)均有表头思路根据文件名添加标记,两个表通过mapper分别转换为和的形式,然后通过shuffle排好序,很容易可以得到多串相同SID的行,在reducer中,对于相同的SID,判断是“S”还是“SC”,然后笛卡尔积即可。查询