• 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏吧

MapReduce的设计

hadoop 来源:DilTeam 8次浏览

数据中的每个线有以下格式:MapReduce的设计

用户ID,性别,年龄

我们需要回答以下两个问题:

1)有多少男性&多少女性。

2)50多年多少年& 50岁以下的人数。

有没有办法在单个Map Reduce作业中回答这两个问题?我知道我可以在两个单独的MR作业中轻松完成此操作,但是希望避免两次读取同一个文件。我只能在一个MR工作中如何做到这一点?

===========解决方案如下:

在地图阶段您可以对每条记录输出2个键:

  • 年轻/老
  • 男/女

与数1作为减少相位值和总和这将给你你正在寻找的4个值,或者输出1个组合信息的关键:

  • youn gmale/oldmale/youngfemale/oldfemale

计数1在缩小阶段加起来,给你4个组合值,你可以通过添加计数对来得到你想要的答案。


版权声明:本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系管理员进行删除。
喜欢 (0)