Hadoop技术内幕——深入解析MapReduce架构设计与实现原理

24-05-24 slbcun 1101℃ 0

突然之间，大数据一下子就“火”了，开源软件Hadoop也因此水涨船高。得益于一些国际领先厂商，尤其是FaceBook、Yahoo！以及阿里巴巴等互联网巨头的现身说法，Hadoop被看成大数据分析的“神器”。IDC在对中国未来几年的预测中就专门提到了大数据，其认为未来几年，会有越来越多的企业级用户试水大数据平台和应用，而这之中，Hadoop将成为最耀眼的“明星”。

尽管Hadoop整个生态系统是开源的，但是，由于它包含的软件种类过多，且版本升级过快，大部分公司，尤其是一些中小型公司，难以在有限的时间内快速掌握Hadoop蕴含的价值。此外，Hadoop自身版本的多样化也给很多研发人员带来了很大的学习负担。尽管当前市面上已有很多参考书籍，比如《Hadoop：The Definitive Guide》、《Hadoop in Action》、《Pro Hadoop》、《Hadoop Operations》等，但是，至今还没有一本书能够深入地剖析Hadoop内部的实现细节，比如JobTracker实现、作业调度器实现等。也正因如此，很多Hadoop初学者和研发人员只能参考网络上一些零星的源代码分析的文章，自己一点一点地阅读源代码，缓慢地学习Hadoop。而本书正是为了解决以上各种问题而编写的，它是国内第一本深入剖析Hadoop内部实现细节的书籍。

本书以Hadoop 1.0为基础，深入剖析了Hadoop MapReduce中各个组件的实现细节，包括RPC框架、JobTracker实现、TaskTracker实现、Task实现和作业调度器实现等。书中不仅详细介绍了MapReduce各个组件的内部实现原理，而且结合源代码进行了深入的剖析，使读者可以快速全面地掌握Hadoop MapReduce设计原理和实现细节。