可以看到,如果我们不用hadoop,提供的MapReduce的话,我们自己去处理一个文件,我们就需要考虑很多问题,比如我3台服务器,同时去处理一个文件,哪个服务器读取文件的哪一块怎么来做,以及如果我有3台服务器,我们这个文件处理的顺序是什么样的,比如处理完第一步以后,才能去处理第二个任务,那么任务1是服务器1在处理,任务2是服务器2去处理的话,服务器2怎么知道服务器1有没有处理完呢?这个时候,又需要考虑,服务器之间的通信,这些都需要我们自己写代码去实现,很麻烦.
但是用了hadoop提供的MapReduce以后,我们就可以只关心自己的业务逻辑了,我们写完我们的,业务逻辑,然后再去引入MapReduce的代码,这个时候,hadoop就会帮我们进行分布式的,并发计算 .
所以可以看到优点就是:
1.用户只关心业务逻辑就可以了,实现起来只需要去实现MapReduce框架的接口就可以了.
2.如果,需要处理的任务巨大,这个时候,只需要动态增加服务器就可以了.