tongchenkeji 发表于:2023-4-18 15:50:580次点击 已关注取消关注 关注 私信 机器学习PAI 目前卡在数据和dlc任务执行上,该怎么解决这个问题呢?[阿里云机器学习PAI] 暂停朗读为您朗读 机器学习PAI需求是跑通上面的deepfm示例的训练任务部署 目前卡在数据和dlc任务执行上,该怎么解决这个问题呢? 「点点赞赏,手留余香」 赞赏 还没有人赞赏,快来当第一个赞赏的人吧! 海报 机器学习PAI# 人工智能平台 PAI1410# 机器学习深度学习1219
wljslmzAM 2023-11-28 2:53:45 1 如果您在进行 DeepFM 示例的训练任务部署过程中遇到了数据和 DLC 任务执行方面的问题,请按照以下步骤进行排查和解决: 确认数据存储位置是否正确,如果您选择将数据存储在 OSS 上,则需要提前创建 OSS Bucket,并将文件上传至对应的 Bucket 上。如果您选择将数据存储在 E-MapReduce 集群中,则需要确保 EMR 集群已经正确创建,并且数据已经正确上传至集群中; 确认 DLC 任务执行参数是否正确,特别是镜像名称、训练脚本路径以及其他训练参数等是否正确配置; 确认 DLC 任务执行过程中是否出现了错误信息,建议查看 DLC 任务的日志信息和其他相关错误信息,以便找到问题所在; 如果以上步骤无法确定问题所在,建议参考阿里云的官方文档和示例代码进行进一步调试和排查。
微笑向日葵AM 2023-11-28 2:53:45 2 前面那个文档不是执行在DLC上的,PAI命令需要在Designer或者DataWorks上运行,实际的执行环境在MaxCompute,文档里的数据也是MaxCompute表名,是个公共表。PAI-TF命令执行参考:https://help.aliyun.com/document_detail/154185.html?spm=a2c4g.154184.0.0.e13238cbdO8MIM 如果要用容器方式执行,可以在DSW Gallery里搜索一下DeepFM,有对应的案例代码。参考:https://pai.console.aliyun.com/?regionId=cn-shanghai#/dsw-gallery/preview/deepLearning/rec/easyRecDeepFM,此回答整理自钉群“机器学习PAI交流群(答疑@值班)”
如果您在进行 DeepFM 示例的训练任务部署过程中遇到了数据和 DLC 任务执行方面的问题,请按照以下步骤进行排查和解决:
前面那个文档不是执行在DLC上的,PAI命令需要在Designer或者DataWorks上运行,实际的执行环境在MaxCompute,文档里的数据也是MaxCompute表名,是个公共表。PAI-TF命令执行参考:https://help.aliyun.com/document_detail/154185.html?spm=a2c4g.154184.0.0.e13238cbdO8MIM 如果要用容器方式执行,可以在DSW Gallery里搜索一下DeepFM,有对应的案例代码。参考:https://pai.console.aliyun.com/?regionId=cn-shanghai#/dsw-gallery/preview/deepLearning/rec/easyRecDeepFM,此回答整理自钉群“机器学习PAI交流群(答疑@值班)”