CRNN 模型的大佬们请进。。。

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1790 天前的主题，其中的信息可能已经有所发展或是发生改变。

最近在做基于 CRNN 模型的 OCR 识别引擎，做的是日语的识别，语料来自要处理的汽车行业数据。过程比较顺利，用自动生成的 100w 数据集进行训练，验证集也有 98%以上的正确率。但是在实际材料中表现不佳，错误比较多。模型的泛化用了 8 种字体，10 种背景以及模糊，倾斜和一些随机噪声。实际选取测试的材料清晰度也很高，不存在没有对应字体，清晰度低这类问题。想请教一下还有其他的什么原因导致实际场景印刷体识别效果差呢？

crnn

模型

识别

字体

2 条回复 • 2020-06-19 09:54:14 +08:00

csuyzt

2020-06-13 16:28:46 +08:00

生成的数据与实际数据像么？自动生成的大概逻辑是怎样的？

heyhumor

2020-06-19 09:54:14 +08:00

@csuyzt 谢谢回复，确实是泛化没做好。