在文字识别OCR哪种识别率/准确率会更高？[阿里云OCR]

想问一下….”表格抽取”20+个模板….
1.直接混着训练出结果
2.分开20个模板单独训练+分类器

在文字识别OCR哪种识别率/准确率会更高？20个模板算是同一类型的数据….板式差别巨大…而且同一版式都有可能位置有偏差(歪了,移位了,表格同一列宽度不一样等)

「点点赞赏，手留余香」

还没有人赞赏，快来当第一个赞赏的人吧！

=====这是一个广告位，招租中，联系qq 78315851====

2 条回复 A 作者 M 管理员

小周sirAM 2023-11-28 3:36:30 1

通常来说，对于相同类型的表格，分开20个模板单独训练+分类器的方式可以获得更高的识别率和准确率。因为这种方式允许模型针对每种模板的特点进行专门的学习，从而更好地捕获各种不同表格之间的差异。
但是，由于您的表格样式差别较大，同一版式的表格也可能存在位置偏移等情况，因此可能需要额外的努力来克服这些问题。例如，可以考虑增加更多的样本，以覆盖更多的变化情况；或者采用更加复杂的模型架构，以便更好地应对表格的多样性和变化性。
此外，建议您在模型训练完成后，通过交叉验证和评估等方式来确认模型的实际表现，并据此调整模型的参数和超参数，以进一步提升识别率和准确率。

已喜欢已反对
sun20AM 2023-11-28 3:36:30 2
在文字识别OCR中，识别率和准确率主要取决于训练数据和模型的选择。对于你的问题，我有以下几点建议：

混合训练：如果你的20个模板之间有足够的差异，那么混合训练可能会得到更好的结果。因为这样可以利用更多的数据来训练模型，提高模型的泛化能力。但是，如果模板之间的差异很小，那么混合训练可能会导致模型过拟合，降低识别率和准确率。

分开训练：如果你的20个模板之间的差异很大，那么分开训练可能会有更好的效果。因为这样可以避免模型学习到错误的模式，提高模型的鲁棒性。但是，如果模板之间的差异很小，那么分开训练可能会导致模型欠拟合，降低识别率和准确率。

分类器：对于你的情况，我建议你可以使用一种叫做多任务学习的技术。在这种技术中，你可以同时训练多个模型（每个模型对应一个模板），然后使用一个分类器来决定使用哪个模型。这种方法可以在保持模型鲁棒性的同时，充分利用所有的数据。

总的来说，选择哪种方法取决于你的具体需求和数据。我建议你尝试不同的方法，然后比较它们的效果，选择最好的方法。
已喜欢已反对
圆不溜秋的小猫猫AM 2023-11-28 3:36:30 3

可以放一起训练，每个板式都覆盖到，训练数据越多效果越好。此回答整理自钉群“【官方】阿里云OCR文档自学习用户答疑群”

已喜欢已反对

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

在文字识别OCR哪种识别率/准确率会更高？[阿里云OCR] 暂停朗读为您朗读

在文字识别OCR哪种识别率/准确率会更高？[阿里云OCR]