为什么mc跑没shuffle的数据,分段跑的时间比一次性跑大量数据的时间要短?如果shuffle了我理解,但是没shuffle的情况下,不都是批量跑吗?跑完一批跑下一批,我感觉时间上应该没什么区别才对,但是实测是分批跑的时间之和会比一次性跑完快,这个任务我跑了14个小时还没跑完,然后他们和我说分段一个月一个月跑会更快,实测过。但是这个任务我只调用了一个简单的处理string的udf,所以我不太理解原理上为什么会分段更快我一次性跑了五个月的,他们说分一个月一次,跑五次会更快,我不理解的地方是跑1T跑5次为什么会比跑5T跑一次要快
MaxCompute里为什么mc跑没shuffle的数据,分段跑的时间比一次性跑大量数据的时间要短?[阿里云MaxCompute]
「点点赞赏,手留余香」
还没有人赞赏,快来当第一个赞赏的人吧!