资源
- paper 网址:https://arxiv.org/abs/1609.03605
- tf code网址:https://github.com/eragonruan/text-detection-ctpn
亮点
之前很多做检测的论文都是先画很多anchor,然后再对这些anchor做回归。这些anchor 的尺寸都是相对比较大的,在文本检测上可能效果不是很好。CTPN是将这些anchor分成了很多宽度固定的小区域,预测完小区域之后,再对区域进行合并,得到最后的box位置。
输入
预处理
一般情况下,我们手里的数据是标准的VOC格式,即一张图片上框了很多的框,而这些框是用(Xmin,Ymin,Xmax,Ymax)来表示的。翻看以下的源代码,你会发现恰好是这四个值,如果已经VOC格式的,直接跳到这里来,如果不是,则需要先生成一个text,每一行记录四个坐标(用逗号分隔开),其中这四个坐标的位置是任意的。
#from the split_label in the prepare training data dir
if xmin < 0:

这篇博客深入探讨了CTPN(Connected Text Proposal Network)的工作原理,指出其在文本检测中的优势,避免了传统方法对大尺寸anchor的依赖。内容包括资源链接、CTPN的预处理步骤、对VOC格式数据的处理以及CTPN检测框的可视化过程,展示了从原始检测框到经过NMS算法优化后的结果。
1185

被折叠的 条评论
为什么被折叠?



