mapreducce 任务过程 发生几次排序?/数据几次落盘?/数据几次merge?/数据几次读入内存?

发生几次排序?即发生3次排序:

1 map spill到磁盘的小文件是有序的(达到阈值时,先对环形缓冲区的数据排序,然后spill到磁盘)

2 map spill到磁盘的多个小文件会合并成一个有序的大文件

3 reduce copy后,把溢出的多个小文件合并成一个有序的大文件

1快速排序,2/3是归并排序。

 

数据几次落盘?

1  map spill到磁盘的小文件

2 reduce copy后,达到一定阈值时,会溢出多个小文件到磁盘

 

数据几次merge?

1 map端把溢出的多个小文件merge成一个大文件

2 reduce端把溢出的多个小文件merge成一个大文件

 

数据几次读入内存?

1 map任务启动后,会把数据从磁盘读入内存,执行partition、sort操作

2 在reduce任务的reduce阶段执行时,也会把数据读入内存,然后计算

相关推荐
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页