A pauta de hoje do #TerSoftware é sobre "gestão de papel". Recentemente, testei OCR para digitalização de tabelas e... não fiquei muito feliz com o resultado.
Acredito que #OCR funcione melhor quando fica bem amarrado com o documento digitalizado (por exemplo, tornando um arquivo PDF buscável), mas para extração de texto, ainda é um grande "depende".
Na minha curta jornada, testei #Tesseract e #Docling. Talvez funcione com código bem escrito, mas acabei me rendendo e indo "no muque" mesmo.
O Tesseract parece bem fácil de instalar no Linux (mesmo no #openSUSE Leap, que tem suas limitações por sair do SUSE empresarial, achei fácil), mas o Docling exigiu alguns malabarismos com ambientes em Python (usando conda e pip).
Para texto corrido, o Tesseract parece bem suficiente, já. Pode ser rodado via linha de comando e, pelo menos no openSUSE Leap, vários dicionários se encontram empacotados para facilitar.