Reconocimiento óptico de caracteres de una captura de pantalla con Shutter OCR

Es posible utilizar el programa shutter con un complemento (plug-in) llamado shutter OCR para reconocer el texto de una captura de pantalla o de un fragmento de una captura de pantalla.

En anteriores posts hemos nombrado shutter como un buen software para realizar capturas de pantalla y gestionarlas ( https://mierda.tv/2018/05/22/capturar-pantalla-en-gnu-linux-screenshot-y-screencast/ ). Lo interesante es la potencia que ofrecen los complementos más allá de realizar una simple captura.

El proceso para instalarlo es el siguiente (en Debian 9):

# apt-get update
# apt-get install shutter
# apt-get install tesseract-ocr
$ git clone https://github.com/hyucek/shutter-ocr
$ cd shutter-ocr
# bash setup.sh

Funciona gracias a tesseract-ocr.

Para ejecutar shutter y que directamente nos permita seleccionar un fragmento de lo que tengamos en pantalla se puede hacer con el parámetro -s así:

$ shutter -s

Una vez realizada la pantalla podemos seleccionar el plug-in OCR pulsando Control+Shift+p

Veamos un ejemplo bajando sentencia_gurtel.pdf y aplicando algunos comandos sobre la página 3. Una página en la que de haber convertido eso a imagen y luego empotrarlo en pdf hubiera dado lo mismo:

$ wget http://estaticos.elmundo.es/documentos/2018/05/24/sentencia_gurtel.pdf
$ pdftk sentencia_gurtel.pdf cat 03-03 output primera_pagina.pdf
$ convert tercera_pag.png -fuzz 0% -fill 'rgb(255,255,255)' -opaque 'rgb(0,0,0)' tercera_pag-limpia.png


Un poco de imagemagick (convert en este caso) y lo tachado se verá claramente.

Esto realmente es de utilidad para extraer textos de imágenes por ejemplo. No es perfecto pero ayuda.

#

Deja un comentario