问题1:机器学习PAI easy_rec -> python -> compat -> exporter -> def _get_best_eval_result(self, event_files, curr_eval_result): 中的 for event in summary_iterator.summary_iterator(event_file): 在配置文件改成PLE模型,会100%触发这一行报DataLossError。 使用的tensorflow版本是2.3.0,使用其他模型ESMM,是偶尔触发这一行报DataLossError。这个是什么版本问题吗?
问题2:所以OdpsInputV3 还是要指定train_input_path 和 eval_input_path啊,前面说OdpsInputV3不用指定感觉很奇怪啊?要想答疑机器人回答准确,你们的文档要很详细了,因为文档上,对OdpsInputV3没写需要train_input_path 和 eval_input_path,前面CSVInput,和OdpsInputV2写了,到了OdpsInputV3就简略了。
机器学习PAI 在配置文件改成PLE模型,会100%触发这一行报DataLossError。 ?[阿里云机器学习PAI]
「点点赞赏,手留余香」
还没有人赞赏,快来当第一个赞赏的人吧!
问题1:关于在机器学习 PAI 的 easy_rec 中使用 PLE 模型时触发 DataLossError 错误的问题,可能与 TensorFlow 版本兼容性或其他因素有关。根据你提供的信息,这个问题在 TensorFlow 2.3.0 版本下使用 PLE 模型会 100% 触发,而在使用其他模型(如 ESMM)时是偶尔触发。
这种错误通常表示数据损坏或丢失。可以尝试以下方法来解决或排查问题:
确保输入数据没有损坏:检查输入数据是否完整、正确,并且没有损坏。如果可能,可以尝试重新生成或重新下载输入数据。
尝试使用不同版本的 TensorFlow:由于 TensorFlow 版本之间可能存在差异,尝试使用其他版本的 TensorFlow 进行测试,看看是否仍然触发相同的 DataLossError 错误。你可以尝试降低 TensorFlow 版本或升级到较新的版本。
联系技术支持团队:如果以上方法无法解决问题,建议联系机器学习 PAI 平台的技术支持团队,向他们提供详细的错误信息和配置参数,以便他们能够更好地帮助你解决问题。
问题2:对于 OdpsInputV3,在机器学习 PAI 的文档中确实应该明确指出是否需要指定 train_input_path 和 eval_input_path。如果文档上没有明确说明,请参考示例代码、API 参考或其他相关的文档资源,以了解如何正确配置 OdpsInputV3 的 train_input_path 和 eval_input_path 参数。确保你根据实际情况正确设置这些参数,以便正确读取训练和评估的输入数据。
回答1:可以参考一下这个地方:https://github.com/alibaba/EasyRec/blob/master/pai_jobs/run.py#L314
本地运行的话,看一下这个地方:https://github.com/alibaba/EasyRec/blob/master/easy_rec/python/train_eval.py#L131
回答2:https://easyrec.readthedocs.io/en/latest/intro.html 文档可以参考这里,此回答整理自钉群“【EasyRec】推荐算法交流群”