Emergent Mind

Advances and Limitations in Open Source Arabic-Script OCR: A Case Study

Published Feb 8, 2024 in cs.CL and cs.CV


This work presents an accuracy study of the open source OCR engine, Kraken, on the leading Arabic scholarly journal, al-Abhath. In contrast with other commercially available OCR engines, Kraken is shown to be capable of producing highly accurate Arabic-script OCR. The study also assesses the relative accuracy of typeface-specific and generalized models on the al-Abhath data and provides a microanalysis of the `error instances'' and the contextual features that may have contributed to OCR misrecognition. Building on this analysis, the paper argues that Arabic-script OCR can be significantly improved through (1) a more systematic approach to training data production, and (2) the development of key technological components, especially multi-language models and improved line segmentation and layout analysis. Cet article pr{\'e}sente une {\'e}tude d'exactitude du moteur ROC open source, Krakan, sur la revue acad{\'e}mique arabe de premier rang, al-Abhath. Contrairement {\a} d'autres moteurs ROC disponibles sur le march{\'e}, Kraken se r{\'e}v{`e}le {^e}tre capable de produire de la ROC extr{^e}mement exacte de l'{\'e}criture arabe. L'{\'e}tude {\'e}value aussi l'exactitude relative des mod{`e}les sp{\'e}cifiquement configur{\'e}s {`a} des polices et celle des mod{`e}les g{\'e}n{\'e}ralis{\'e}s sur les donn{\'e}es d'al-Abhath et fournit une microanalyse des "occurrences d'erreurs", ainsi qu'une microanalyse des {\'e}l{\'e}ments contextuels qui pourraient avoir contribu{\'e} {`a} la m{\'e}reconnaissance ROC. S'appuyant sur cette analyse, cet article fait valoir que la ROC de l'{\'e}criture arabe peut {^e}tre consid{\'e}rablement am{\'e}lior{\'e}e gr{^a}ce {`a} (1) une approche plus syst{\'e}matique d'entra{^i}nement de la production de donn{\'e}es et (2) gr{^a}ce au d{\'e}veloppement de composants technologiques fondamentaux, notammentl'am{\'e}lioration des mod{`e}les multilingues, de la segmentation de ligne et de l'analyse de la mise en page.

