flink批模式查一张几千万的hive到另一个hive表,一下子起了1000的并行度,怎么降下来?[阿里云实时计算 Flink版]

flink批模式查一张几千万的hive到另一个hive表,一下子起了1000的并行度,怎么降下来?

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
=====这是一个广告位,招租中,联系qq 78315851====
1 条回复 A 作者 M 管理员
  1. 如果任务的并行度过高,可以考虑通过以下几个方向来调整并行度:

    1. 调整输入数据源的并行度:如果输入数据源并行度过高,可以根据数据量、查询复杂度等因素适当调整数据源的并行度。

    2. 调整算子(operator)的并行度:可以根据任务的数据量、计算复杂度、硬件配置等因素,适当调整每个算子的并行度。通常来说,并行度设置在100左右是一个比较合适的范围。

    3. 避免数据倾斜:如果任务的并行度集中在少数几个算子上,可能会导致数据倾斜问题,可以通过keyBy()和rebalance()等操作来平衡算子间的负载,避免数据倾斜。

    你可以通过flink的Web UI来查看任务的运行情况,包括每个算子的并行度、任务的运行状态、数据倾斜等情况,进而根据实际情况来进行调整并行度。另外,如果任务的并行度过高对应用的性能无任何帮助,也会增加集群的压力,因此还需要根据数据量、硬件配置等因素来实际判断并行度的合适范围。

  2. 可以设置下参数,类似这样 SET table.exec.hive.infer-source-parallelism.max=20;,此回答整理自钉群“【③群】Apache Flink China社区”