OCR算法识别性能评估

评估OCR算法识别率的指标通常有这几种:

one

  • 全对准确率: 每张图片版面上有多个文本时候,每个文本都对的张数占总的张数的比例;
  • 标签全对准确率:每张图片版面上有多个文本时候,文本对的个数占总的文本个数的比例;
  • 平均编辑距离:平均编辑距离越小说明识别率越高。平均编辑距离主要衡量整行或整篇文章的指标,可以同时反应识别错,漏识别和多识别的情况;
  • 字符识别准确率,即识别对的字符数占总识别出来字符数的比例,可以反应识别错和多识别的情况,但无法反应漏识别的情况;
  • 字符识别召回率,即识别对的字符数占实际字符数的比例,可以反应识别错和漏识别的情况,但是没办法反应多识别的情况,可以配套字符识别准确率一起使用;
  • 文本行定位为的准确率和召回率,同字符识别的准确率和召回率。主要反应文本行定位的指标,是ocr算法的重要指标;

two

  • 第一种是字符准确率,单字识别率,就是按单字算,一百个字里错5个字,识别率95%。
  • 第二种是字段准确率,整行识别率,一个字段算一个整体,假如100个字分为20个字段,里面错了5个字,分布在4个字段里,那么识别率是16/20=80%。
  • 第三种是整张准确率。通常在票据证件里面有这种计算方式,假设一张票据上有20字,4个字段,5张票上100个字,20字段,错了5个字,分布在4个字段里,分布在3张票据上。那么识别率只有2/5=40%。而且票据字段越多,容易出错的概率越高,整张识别率这个要求就越严苛。实测过程中也会有一些特别约定,说整张识别里错一两个字可以忽略的,这种再另说。

同样是100字错5个,用字符、字段、整张准确率来测算的结果是完全不同的,所以对比不同OCR算法时候一定要看清描述的是单字识别率、整行识别率还是整张识别率。一样的识别率99%,整张识别率可比单字识别率的含金量要大得多。

参考

  • OCR算法识别率怎么评估?

你可能感兴趣的:(OCR,ocr,识别,性能评价)