gscan2pdf me dejó de funcionar con tesseract en castellano desde 12.04 [Solucionado]

No sé si este el subforo correcto, probé en más de una instalación y por eso lo publico en bugs, porque creo que es un error.

Con la llegada e instalación de Kubuntu 12.04 me encontré con un problema; gscan2pdf dejó de funcionar como es debido con tesseract.
Explico a qué me refiero con “como es debido”; me sigue dando la opción de hacer OCR con Tesseract, pero tesseract la única opción que da es ingles. Tengo instalado tesseract-ocr y tesseract-ocr-eng; lo que me permite que funcione; pero no me reconoce los que tambien tengo instalados tesseract-ocr-spa, tesseract-ocr-spa-old, tesseract-ocr-eus, tesseract-ocr-ita, tesseract-ocr-fra. Sé que funcionan porque algunos de estos los probé por linea de comandos; pero que solo permita hacerlo desde tiff y que no pueda incrustar los textos lo hace muy engorroso.

Agradecería si saben cómo arreglar el gscan2pdf o si saben cómo comprobar si es un bug encontrar cómo hacer para informarlo a dónde. (intenté instalar la última versión como dice acá, pero empieza a dar problemas con las dependencias, mi intención es quedarme en 12.04 hasta, por lo menos 14.04, y quién te dice, 16.04 también)

Bonus Track
Mi solución momentanea, por si alguien está en una situación similar y sabe tan poco como yo.
Escaneo con gscan2pdf a 600 y paso el clean-up.
Los archivos los paso a tiff

gs -dNOPAUSE -q -r300 -sDEVICE=tiffg4 -dBATCH -sOutputFile=[archivodesalida.TIFF] [archivodeentrada.PDF]

Paso tesseract (y me da un archivo de salida en formato texto)

tesseract entrada.tif salida.txt -l spa

-l ese se refiere a la entrada de la lengua, spa en castellano (con tesseract-ocr-spa instalado)

Después de buscar mucho e infructuosamente, además de hacer experimentos tipo, bajar de Debian los paquetes de Perl, perlsane y gscan2pdf y pelar un rato más por ahí (al actualizar el sistema intenta desistalar medio sistema); encontré la solución. Preparados para la evidencia: hay un repositorio ppa
Cuento:

sudo add-apt-repository ppa:jeffreyratcliffe

Aceptar

Si usás LinuxMint, como yo en alguna:

cd /etc/apt/sources.list.d/
sudo nano jeffreyratcliffe-ppa-maya.list

y cambiá la identificación, originalmente se me identificaba como "maya".

La de siempre:

sudo apt-get update
sudo aptitude install gscan2pdf

Otro motivo por el que interesa tener la última (por lo menos la 1.06 de ahora) es que, además de poder elejir los idiomas, ahora deja la información del ocr detrás de la imágen de la que lo toma y no en el cuadrantesuperior izquierdo como hasta hace poco.

Para los que les pueda interesar (mirando a los de letras), en repositorios está además del que para la mayoría será el obvio
tesseract-ocr-spa (castellano a uso) y euskera(eus), catalan (cat) y gallego (glg).
Castellano e italiano antiguos (old) frances (frm) e inglés (enm) medievales, franco (frk) y ecuaciones (los que las necesiten lo sabrán), entre otros.

Espero que a alguien más que a mí también le sirva.

Quan escribió:

Otro motivo por el que interesa tener la última (por lo menos la 1.06 de ahora) es que, además de poder elejir los idiomas, ahora deja la información del ocr detrás de la imágen de la que lo toma y no en el cuadrantesuperior izquierdo como hasta hace poco.

Muy bueno! Voy a probar como andamos con el reconocimiento OCR actualmente con gscan2pdf, que es un proyecto que creo debería tener mas patrocinio y desarrolladores. Como comentaba en esta entrada:
https://opendesktop.org/content/show.php/TextRipper+%28aka+T-Rip%29?cont...
Hasta por lo menos ese momento estábamos muy lejos de las capacidades de softwares comerciales en lo que es reconocimiento OCR (según lo que yo había experimentado)
Saludos.

Edito:
Bien, ya lo he probado con un documento que tenía escaneado y en no muy buena calidad, y el OCR con tesseract está muuuuy bien. Sumado a que gscan2pdf guarda el texto a la altura del texto en la imagen, es una excelente noticia.
Gracias Quan por avisar!

clap Estupendo.

Yafu escribió:

Muy bueno! Voy a probar como andamos con el reconocimiento OCR actualmente con gscan2pdf, que es un proyecto que creo debería tener mas patrocinio y desarrolladores

Estoy de acuerdo, más patrocinio y más desarrolladores no estaría nada mal.
Igualmente, aviso que funciona muy bien (antes de la que venía por defecto en 12.04 también).

Ralsa escribió:

Estupendo.

Aprobecho la valoración y me envalentono a contar cómo lo uso yo por si a alguien le viene bien.


Flujo de trabajo con gscan2pdf

Objetivo: escanear X páginas de texto de un documento (sin imágenes) (con el OCR en automático).

Abrimos gscan2pdf
Escanear
Llamamos al escaner con el iconito correspondiente.

  • Se nos abre una ventana con tres pestañas (a mí ahora en inglés, no sé por qué)
  • Vamos a la tercer pestaña, Geometry, ahí elejimos el tamaño del original o lo introducimos con manual(la mayoría de los libros necesitan ser introducidos, por defecto viene con tamaños yankies y A4)
  • En la pestaña mode elejimos cómo tiene que escanear; yo para texto le digo Black&White, le pido una resolución de más de 300 (por defecto viene 200), más resolución a menor tamaño de la tipografía del original (y más tiempo tarda en escanear, claro). En la opción scan source se le dice en dónde va a poner el original (a la derecha, centrado...)

Ahora sí, en la primer pestaña:

  • # Pages es cuántas vas a escanear; en función de la X de arriba, si van a ser muchas dejale "All" (todas) y cuando uno termina darle a "cancelar", si son pocas, el numero correspondiente.
  • Source document. Ni lo toco.

Post-processing

  • Rotate es para ponerlo mirando para donde corresponde, si necesitás que para que se escanee no esté bien orientado.
  • Ahora lo bueno (que también se puede dejar para después desde el menú herramientas o tools)
  • Clean up images. Esta opción limpia de todo lo que no es texto (bordes del escaneado, sellos de la biblioteca....) en el botón "options" se puede elejir si lo va a hacer con todos los bordes o con cuáles sí y cuales no. Ahora viene con la opción para sacar el orijinal en dos páginas, pero no tengo un libro más chico que A5 para probarlo). Está opción es la que te va a dejar el escaneado limpio y centrado, aunque no lo hayás puesto tan bien sobre el escaner y los bordes estén medio suciongos.
  • OCR Por defecto viene GOCR, pero más merece usar el tesseract, que es realmente bueno; si usás este último, te va a preguntar con qué idioma de los que tengás instalados; yo con todos los que lo probé funciona muy bien.

Aclaraciones:

  • No pasar el OCR sin haber pasado el "Clean up", si no empieza intentar darle sentido a las suciedades y sombras, lo que llena de simbolitos el OCR.
  • Si usás textos con más de un idioma, con imágenes intercaladas o cosas así, más vale dejár para el final del procesado los últimos dos pasos.
  • Como las hojas se pueden intercalar, si hace falta también escanear a color o en escala de grises, yo o dejo para el final y después las pongo donde corresponde.
  • Todo esto se puede hacer también con imagenes escaneadas que ya tengamos.

Terminar el PDF:

  • Save; ahí tenemos la opción de salvar las hojas seleccionadas o todo el documento, según nos convenga; además de poder poner la resolución que más nos convenga. Para que OCR funcione mejor la ponía sobre 300, para guardarlo, no suele hacer falta que sea tan alta; yo suelo guardar una copia alta, por lo que sea; pero para enviar entre 200ppp y 150ppp van muy bien y los alumnos no se quejan.

Gracias Quan!
Si te animas podrías poner esto mismo en Tutoriales y Trucos o en la Wiki. La verdad que no se en cual de esas dos secciones quedaría mejor. Yo aún no me decido cuándo un contenido debería ir en uno u otro question
Saludos.