MapReduce

最新推荐文章于 2024-06-02 01:39:09 发布

转载最新推荐文章于 2024-06-02 01:39:09 发布 · 240 阅读

·

0

·

大数据专栏收录该内容

19 篇文章

订阅专栏

MapReduce是一种分布式计算模型，简化了大规模数据集的并行处理过程。用户只需定义Map和Reduce两个核心函数，系统自动处理任务调度、数据分布及结果整合等工作。Map函数负责将输入数据转换成键值对形式，Reduce函数则汇总这些键值对来得出最终结果。

MapReduce本质上就是方法三，但是如何拆分文件集，如何copy程序，如何整合结果这些都是框架定义好的。我们只要定义好这个任务（用户程序），其它都交给MapReduce。

MapReduce伪代码

实现Map和Reduce两个函数

Map函数和Reduce函数是交给用户实现的，这两个函数定义了任务本身。

Map函数

接受一个键值对（key-value pair），产生一组中间键值对。MapReduce框架会将map函数产生的中间键值对里键相同的值传递给一个reduce函数。

ClassMapper

methodmap(String input_key, String input_value):

// input_key: text document name

// input_value: document contents

for eachword w ininput_value:

EmitIntermediate(w, "1");

Reduce函数

接受一个键，以及相关的一组值，将这组值进行合并产生一组规模更小的值（通常只有一个或零个值）。

ClassReducer

method reduce(String output_key,Iterator intermediate_values):

// output_key: a word

// output_values: a list of counts

intresult = 0;

for each v in intermediate_values:

result += ParseInt(v);

Emit(AsString(result));

在统计词频的例子里，map函数接受的键是文件名，值是文件的内容，map逐个遍历单词，每遇到一个单词w，就产生一个中间键值对<w, "1">，这表示单词w咱又找到了一个；MapReduce将键相同（都是单词w）的键值对传给reduce函数，这样reduce函数接受的键就是单词w，值是一串"1"（最基本的实现是这样，但可以优化），个数等于键为w的键值对的个数，然后将这些“1”累加就得到单词w的出现次数。最后这些单词的出现次数会被写到用户定义的位置，存储在底层的分布式存储系统（GFS或HDFS）。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。