• 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏吧

标签:binning

aggregation

如何在映射器中合并值?

如何在映射器中合并值?
我是Hadoop MapReduce的新手,最近在如何在映射器中对输出值进行装箱时遇到了一个问题。我的映射器创建了一个Text,IntWritable输出,其中数据集ID为键,元数据描述的长度为值。我的目标是将元数据长度的频率分成3组:1-200个字符,201-400个字符和401+个字符。输出文件如下所示(第一列是键,第二列是值-元数据的长度): 1 ……继续阅读 »

apache-pig

pig :按范围/装箱数据分组

pig :按范围/装箱数据分组
我有一组整数值,我想将它们组合成一堆垃圾箱。 示例:假设我在1到1000之间有一个千分,我想做20个垃圾箱。 无论如何,将它们分组到一个bin / array中? 另外,我不会提前知道范围的范围,因此我无法对任何特定值进行硬编码。 解决方案如下: 如果您有最小值和最大值,则可以将范围除以箱数。例如, -- foo.pig ids = load '$I……继续阅读 »

binning

Binning Pattern-Hadoop Mapreduce

Binning Pattern-Hadoop Mapreduce
我是Hadoop-Mapreduce概念的新手,我尝试使用MapReduce实现分箱模式,但无法获得所需的输出。 这是我的Binning映射器代码:- public class BinningMapper extends Mapper<Object, Text, Text, NullWritable> { private Mult……继续阅读 »