机器学习PAI中怎么使用这些参数？[阿里云机器学习PAI]

机器学习PAI中能否给一个简单的例子？我看文档中没有说明怎么使用这些参数（machine_list ，machine rank，export CUDA_VISIBLE_DEVICES）

「点点赞赏，手留余香」

还没有人赞赏，快来当第一个赞赏的人吧！

=====这是一个广告位，招租中，联系qq 78315851====

2 条回复 A 作者 M 管理员

HaydenGuoAM 2023-11-28 2:53:37 1
machine_list参数是用于指定PAI任务在哪些机器上运行的，可以通过该参数来分配并行计算的资源。例如，可以将PAI任务分配到一个机器集群中，以便在所有主机上同时运行代码。可以指定IP地址、标准网口名称或云服务器的ID编号作为参数。举例来说，在PAI中指定--machine_list=192.168.0.100,192.168.0.101表示将任务分配给两台IP地址为192.168.0.100和192.168.0.101的机器。

machine_rank参数用于指定任务在节点中第几个运行，可以实现进程内的并行计算。例如，在PAI中使用--machine_rank=0表示该任务在节点中排名第0位（即最先开始运行）。

export CUDA_VISIBLE_DEVICES参数用于指定CUDA工具包可见的GPU设备编号。在PAI应用程序中，这个参数可用于让某些应用程序在训练过程中只使用特定的GPU设备。举例来说，在PAI中指定export CUDA_VISIBLE_DEVICES=0,2表示在训练或优化算法中只使用GPU设备0和2。
已喜欢已反对
凌云CloudAM 2023-11-28 2:53:37 2
好的，我简单提供一个示例，你可以参考下

场景：训练集群由两个worker节点组成，每个节点有两个GPU设备（编号为0和1），脚本如下：

#!/bin/bash# 设置machine_list参数export machine_list="worker1_ip:port,worker2_ip:port"# 设置machine_rank参数export machine_rank=$((${PAI_TASK_INDEX} + 1))# 设置CUDA_VISIBLE_DEVICES参数export CUDA_VISIBLE_DEVICES=$((${machine_rank} % 2))# 运行训练脚本python train.py --batch_size 128 --epochs 10 --learning_rate 0.001 --model_name my_model

machine_list参数设置为”worker1_ip:port,worker2_ip:port”，其中worker1_ip和worker2_ip分别表示两个worker节点的IP地址，port表示端口号。

machine_rank参数表示当前节点在分布式训练集群中的排名。

CUDA_VISIBLE_DEVICES参数指定了当前节点要使用的GPU设备的编号。
已喜欢已反对

2025 年 9 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

机器学习PAI中怎么使用这些参数？[阿里云机器学习PAI] 暂停朗读为您朗读

机器学习PAI中怎么使用这些参数？[阿里云机器学习PAI]