发表于：2023-7-30 17:58:190次点击

机器学习PAI 在配置文件改成PLE模型，会100%触发这一行报DataLossError。？[阿里云机器学习PAI]

问题1：机器学习PAI easy_rec -> python -> compat -> exporter -> def _get_best_eval_result(self, event_files, curr_eval_result): 中的 for event in summary_iterator.summary_iterator(event_file): 在配置文件改成PLE模型，会100%触发这一行报DataLossError。使用的tensorflow版本是2.3.0，使用其他模型ESMM，是偶尔触发这一行报DataLossError。这个是什么版本问题吗？
问题2：所以OdpsInputV3 还是要指定train_input_path 和 eval_input_path啊，前面说OdpsInputV3不用指定感觉很奇怪啊？要想答疑机器人回答准确，你们的文档要很详细了，因为文档上，对OdpsInputV3没写需要train_input_path 和 eval_input_path，前面CSVInput，和OdpsInputV2写了，到了OdpsInputV3就简略了。

「点点赞赏，手留余香」

还没有人赞赏，快来当第一个赞赏的人吧！

=====这是一个广告位，招租中，联系qq 78315851====

1 条回复 A 作者 M 管理员

Star时光AM 2023-11-28 2:52:29 1
问题1：关于在机器学习 PAI 的 easy_rec 中使用 PLE 模型时触发 DataLossError 错误的问题，可能与 TensorFlow 版本兼容性或其他因素有关。根据你提供的信息，这个问题在 TensorFlow 2.3.0 版本下使用 PLE 模型会 100% 触发，而在使用其他模型（如 ESMM）时是偶尔触发。

这种错误通常表示数据损坏或丢失。可以尝试以下方法来解决或排查问题：

确保输入数据没有损坏：检查输入数据是否完整、正确，并且没有损坏。如果可能，可以尝试重新生成或重新下载输入数据。

尝试使用不同版本的 TensorFlow：由于 TensorFlow 版本之间可能存在差异，尝试使用其他版本的 TensorFlow 进行测试，看看是否仍然触发相同的 DataLossError 错误。你可以尝试降低 TensorFlow 版本或升级到较新的版本。

联系技术支持团队：如果以上方法无法解决问题，建议联系机器学习 PAI 平台的技术支持团队，向他们提供详细的错误信息和配置参数，以便他们能够更好地帮助你解决问题。

问题2：对于 OdpsInputV3，在机器学习 PAI 的文档中确实应该明确指出是否需要指定 train_input_path 和 eval_input_path。如果文档上没有明确说明，请参考示例代码、API 参考或其他相关的文档资源，以了解如何正确配置 OdpsInputV3 的 train_input_path 和 eval_input_path 参数。确保你根据实际情况正确设置这些参数，以便正确读取训练和评估的输入数据。
已喜欢已反对
xin在这AM 2023-11-28 2:52:29 2

回答1：可以参考一下这个地方：https://github.com/alibaba/EasyRec/blob/master/pai_jobs/run.py#L314
本地运行的话，看一下这个地方：https://github.com/alibaba/EasyRec/blob/master/easy_rec/python/train_eval.py#L131
回答2：https://easyrec.readthedocs.io/en/latest/intro.html 文档可以参考这里，此回答整理自钉群“【EasyRec】推荐算法交流群”

已喜欢已反对

2025 年 11 月
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

机器学习PAI 在配置文件改成PLE模型，会100%触发这一行报DataLossError。 ？[阿里云机器学习PAI]

机器学习PAI 在配置文件改成PLE模型，会100%触发这一行报DataLossError。？[阿里云机器学习PAI]