Caio<p>A pauta de hoje do <a href="https://bolha.us/tags/TerSoftware" class="mention hashtag" rel="nofollow noopener noreferrer" target="_blank">#<span>TerSoftware</span></a> é sobre "gestão de papel". Recentemente, testei OCR para digitalização de tabelas e... não fiquei muito feliz com o resultado.</p><p>Acredito que <a href="https://bolha.us/tags/OCR" class="mention hashtag" rel="nofollow noopener noreferrer" target="_blank">#<span>OCR</span></a> funcione melhor quando fica bem amarrado com o documento digitalizado (por exemplo, tornando um arquivo PDF buscável), mas para extração de texto, ainda é um grande "depende".</p><p>Na minha curta jornada, testei <a href="https://bolha.us/tags/Tesseract" class="mention hashtag" rel="nofollow noopener noreferrer" target="_blank">#<span>Tesseract</span></a> e <a href="https://bolha.us/tags/Docling" class="mention hashtag" rel="nofollow noopener noreferrer" target="_blank">#<span>Docling</span></a>. Talvez funcione com código bem escrito, mas acabei me rendendo e indo "no muque" mesmo.</p><p>O Tesseract parece bem fácil de instalar no Linux (mesmo no <a href="https://bolha.us/tags/openSUSE" class="mention hashtag" rel="nofollow noopener noreferrer" target="_blank">#<span>openSUSE</span></a> Leap, que tem suas limitações por sair do SUSE empresarial, achei fácil), mas o Docling exigiu alguns malabarismos com ambientes em Python (usando conda e pip).</p><p>Para texto corrido, o Tesseract parece bem suficiente, já. Pode ser rodado via linha de comando e, pelo menos no openSUSE Leap, vários dicionários se encontram empacotados para facilitar.</p>