机器学习PAI 目前卡在数据和dlc任务执行上,该怎么解决这个问题呢?[阿里云机器学习PAI]

机器学习PAI需求是跑通上面的deepfm示例的训练任务部署 目前卡在数据和dlc任务执行上,该怎么解决这个问题呢?

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
=====这是一个广告位,招租中,联系qq 78315851====
1 条回复 A 作者 M 管理员
  1. 如果您在进行 DeepFM 示例的训练任务部署过程中遇到了数据和 DLC 任务执行方面的问题,请按照以下步骤进行排查和解决:

    1. 确认数据存储位置是否正确,如果您选择将数据存储在 OSS 上,则需要提前创建 OSS Bucket,并将文件上传至对应的 Bucket 上。如果您选择将数据存储在 E-MapReduce 集群中,则需要确保 EMR 集群已经正确创建,并且数据已经正确上传至集群中;
    2. 确认 DLC 任务执行参数是否正确,特别是镜像名称、训练脚本路径以及其他训练参数等是否正确配置;
    3. 确认 DLC 任务执行过程中是否出现了错误信息,建议查看 DLC 任务的日志信息和其他相关错误信息,以便找到问题所在;
    4. 如果以上步骤无法确定问题所在,建议参考阿里云的官方文档和示例代码进行进一步调试和排查。
  2. 前面那个文档不是执行在DLC上的,PAI命令需要在Designer或者DataWorks上运行,实际的执行环境在MaxCompute,文档里的数据也是MaxCompute表名,是个公共表。PAI-TF命令执行参考:https://help.aliyun.com/document_detail/154185.html?spm=a2c4g.154184.0.0.e13238cbdO8MIM 如果要用容器方式执行,可以在DSW Gallery里搜索一下DeepFM,有对应的案例代码。参考:https://pai.console.aliyun.com/?regionId=cn-shanghai#/dsw-gallery/preview/deepLearning/rec/easyRecDeepFM,此回答整理自钉群“机器学习PAI交流群(答疑@值班)”