gscan2pdf me dejó de funcionar con tesseract en castellano desde 12.04 [Solucionado]
No sé si este el subforo correcto, probé en más de una instalación y por eso lo publico en bugs, porque creo que es un error.
Con la llegada e instalación de Kubuntu 12.04 me encontré con un problema; gscan2pdf dejó de funcionar como es debido con tesseract.
Explico a qué me refiero con “como es debido”; me sigue dando la opción de hacer OCR con Tesseract, pero tesseract la única opción que da es ingles. Tengo instalado tesseract-ocr y tesseract-ocr-eng; lo que me permite que funcione; pero no me reconoce los que tambien tengo instalados tesseract-ocr-spa, tesseract-ocr-spa-old, tesseract-ocr-eus, tesseract-ocr-ita, tesseract-ocr-fra. Sé que funcionan porque algunos de estos los probé por linea de comandos; pero que solo permita hacerlo desde tiff y que no pueda incrustar los textos lo hace muy engorroso.
Agradecería si saben cómo arreglar el gscan2pdf o si saben cómo comprobar si es un bug encontrar cómo hacer para informarlo a dónde. (intenté instalar la última versión como dice acá, pero empieza a dar problemas con las dependencias, mi intención es quedarme en 12.04 hasta, por lo menos 14.04, y quién te dice, 16.04 también)
Bonus Track
Mi solución momentanea, por si alguien está en una situación similar y sabe tan poco como yo.
Escaneo con gscan2pdf a 600 y paso el clean-up.
Los archivos los paso a tiff
gs -dNOPAUSE -q -r300 -sDEVICE=tiffg4 -dBATCH -sOutputFile=[archivodesalida.TIFF] [archivodeentrada.PDF]Paso tesseract (y me da un archivo de salida en formato texto)
tesseract entrada.tif salida.txt -l spa-l ese se refiere a la entrada de la lengua, spa en castellano (con tesseract-ocr-spa instalado)
- Inicie sesión o regístrese para enviar comentarios
- 615 lecturas


Después de buscar mucho e infructuosamente, además de hacer experimentos tipo, bajar de Debian los paquetes de Perl, perlsane y gscan2pdf y pelar un rato más por ahí (al actualizar el sistema intenta desistalar medio sistema); encontré la solución. Preparados para la evidencia: hay un repositorio ppa
Cuento:
sudo add-apt-repository ppa:jeffreyratcliffeAceptar
Si usás LinuxMint, como yo en alguna:
cd /etc/apt/sources.list.d/sudo nano jeffreyratcliffe-ppa-maya.list
y cambiá la identificación, originalmente se me identificaba como "maya".
deb http://ppa.launchpad.net/jeffreyratcliffe/ppa/ubuntu/ precise maindeb-src http://ppa.launchpad.net/jeffreyratcliffe/ppa/ubuntu/ precise main
La de siempre:
sudo apt-get updatesudo aptitude install gscan2pdf
Otro motivo por el que interesa tener la última (por lo menos la 1.06 de ahora) es que, además de poder elejir los idiomas, ahora deja la información del ocr detrás de la imágen de la que lo toma y no en el cuadrantesuperior izquierdo como hasta hace poco.
Para los que les pueda interesar (mirando a los de letras), en repositorios está además del que para la mayoría será el obvio
tesseract-ocr-spa (castellano a uso) y euskera(eus), catalan (cat) y gallego (glg).
Castellano e italiano antiguos (old) frances (frm) e inglés (enm) medievales, franco (frk) y ecuaciones (los que las necesiten lo sabrán), entre otros.
Espero que a alguien más que a mí también le sirva.
Otro motivo por el que interesa tener la última (por lo menos la 1.06 de ahora) es que, además de poder elejir los idiomas, ahora deja la información del ocr detrás de la imágen de la que lo toma y no en el cuadrantesuperior izquierdo como hasta hace poco.
Muy bueno! Voy a probar como andamos con el reconocimiento OCR actualmente con gscan2pdf, que es un proyecto que creo debería tener mas patrocinio y desarrolladores. Como comentaba en esta entrada:
https://opendesktop.org/content/show.php/TextRipper+%28aka+T-Rip%29?cont...
Hasta por lo menos ese momento estábamos muy lejos de las capacidades de softwares comerciales en lo que es reconocimiento OCR (según lo que yo había experimentado)
Saludos.
Edito:
Bien, ya lo he probado con un documento que tenía escaneado y en no muy buena calidad, y el OCR con tesseract está muuuuy bien. Sumado a que gscan2pdf guarda el texto a la altura del texto en la imagen, es una excelente noticia.
Gracias Quan por avisar!
Muy bueno! Voy a probar como andamos con el reconocimiento OCR actualmente con gscan2pdf, que es un proyecto que creo debería tener mas patrocinio y desarrolladores
Estoy de acuerdo, más patrocinio y más desarrolladores no estaría nada mal.
Igualmente, aviso que funciona muy bien (antes de la que venía por defecto en 12.04 también).
Estupendo.
Aprobecho la valoración y me envalentono a contar cómo lo uso yo por si a alguien le viene bien.
Flujo de trabajo con gscan2pdf
Objetivo: escanear X páginas de texto de un documento (sin imágenes) (con el OCR en automático).
Abrimos gscan2pdf
Escanear
Llamamos al escaner con el iconito correspondiente.
Ahora sí, en la primer pestaña:
Post-processing
Aclaraciones:
Terminar el PDF:
Gracias Quan!
Si te animas podrías poner esto mismo en Tutoriales y Trucos o en la Wiki. La verdad que no se en cual de esas dos secciones quedaría mejor. Yo aún no me decido cuándo un contenido debería ir en uno u otro
Saludos.