Hadoop reduce 慢 – 程序员二十年

又一次从博客流量来源上看到一组有意思的词：hadoop reduce 慢。
我试着搜了一下，结果没找到自己的文章排在哪。

言归正传，慢真是个大问题！

首先是技术问题，也是最容易解决的问题，调参数。
我看到有人在网上问，说WordCount都慢，那就是环境问题了。调HeapSize，调GC参数，调TaskSlot，再不行加加机器。总是能解决的。

其实我更想说非技术问题，很多人误把hadoop妖魔化了，什么都往上套，一定会慢。
所谓快慢是要对比的，要么是跟旧系统比，要么是跟心理预期比。
如果你有旧系统，也是分布式，也是大数据量，写的并不太差，那hadoop是一定慢的。Hadoop能够带来的更多是开发效率的提高。
如果没有旧系统，比心理预期慢，那就必须先拷问一下自己凭什么预期它快。
还有就是，reduce天生就比map慢，这个不能比。

我们遇到过很多挫折：
在reduce的时候做矩阵运算，肯定快不起来。
在reduce输入和map一样的数据量，因为reduce个数少，肯定快不起来。
在map输出某个特殊的key，数据量不平衡，那某个reducer肯定快不起来。
在繁忙的机器上运行，也一定快不起来。

在遇到问题时，我会去调查：
Reduce要从网络读取多少数据。
排序能不能在内存完成。
Reduce有没有占很多内存。

Hadoop现在的名气大，能力相对没有那么多。盲目选择有风险，须谨慎。

Leave a comment