- 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏吧
我是Hadoop MapReduce的新手,最近在如何在映射器中对输出值进行装箱时遇到了一个问题。我的映射器创建了一个Text,IntWritable输出,其中数据集ID为键,元数据描述的长度为值。我的目标是将元数据长度的频率分成3组:1-200个字符,201-400个字符和401+个字符。输出文件如下所示(第一列是键,第二列是值-元数据的长度):
1 ……继续阅读 »
我有一组整数值,我想将它们组合成一堆垃圾箱。
示例:假设我在1到1000之间有一个千分,我想做20个垃圾箱。
无论如何,将它们分组到一个bin / array中?
另外,我不会提前知道范围的范围,因此我无法对任何特定值进行硬编码。
解决方案如下:
如果您有最小值和最大值,则可以将范围除以箱数。例如,
-- foo.pig
ids = load '$I……继续阅读 »
我是Hadoop-Mapreduce概念的新手,我尝试使用MapReduce实现分箱模式,但无法获得所需的输出。
这是我的Binning映射器代码:-
public class BinningMapper extends
Mapper<Object, Text, Text, NullWritable> {
private Mult……继续阅读 »