23 votos

OCR con la interfaz de Tesseract

¿Cómo OCR un archivo tiff utilizando interfaz de Tesseract en c#? Actualmente sólo sé cómo hacerlo usando el ejecutable.

37voto

Mauricio Scheffer Puntos 70470

Echa un vistazo a tessnet

8voto

chakrit Puntos 29562

El código fuente parecía estar preparado para un ejecutable, usted puede ser que necesite para rewire mete un poco de forma a crear una DLL en su lugar. Yo no tengo mucha experiencia con Visual C++, pero creo que no debería ser demasiado duro con un poco de investigación. Mi conjetura es que alguien podría tener, había hecho una versión de la biblioteca ya, usted debe tratar de Google.

Una vez que haya tesseract-ocr de código en un archivo DLL, a continuación, puede importar el archivo en el proyecto de C# a través de Visual Studio y tener que crear clases contenedoras y hacer todo el cálculo de referencias de telas para usted. Si usted no puede importar, a continuación, DllImport te permitirá llamar a las funciones de la DLL de código de C#.

A continuación, puedes echar un vistazo en el ejecutable original para encontrar pistas sobre qué funciones para llamar correctamente OCR de una imagen tiff.

3voto

linquize Puntos 5418

C# programa tesseract.exe de lanza y luego lee el archivo de salida de tesseract.exe.

Process process = Process.Start("tesseract.exe", "out");
process.WaitForExit();
if (process.ExitCode == 0)
{
    string content = File.ReadAllText("out.txt");
}

2voto

b_levitt Puntos 1218

He descubierto hoy que EMGU ahora incluye un Tesseract contenedor. Mientras que el número de archivos dll no administrados de la opencv lib puede parecer un poco intimidante, no es nada que una copia rápida a su directorio de salida no se cura. Desde allí, el actual proceso de OCR es tan simple como tres líneas:

Tesseract ocr = new Tesseract(Path.Combine(Environment.CurrentDirectory, "tessdata"), "eng", Tesseract.OcrEngineMode.OEM_TESSERACT_ONLY);
this.ocr.Recognize(clip);
optOCR.Text = this.ocr.GetText();

"robomatics" armar un muy buen vídeo de youtube que muestra una solución simple pero efectiva.

1voto

Lou Franco Puntos 48823

Descargo de responsabilidad: trabajar para Atalasoft

Nuestro módulo de OCR Tesseract es compatible y si resulta para no ser lo suficientemente bueno, se puede actualizar a un motor mejor y solo tienes que cambiar una línea de código (proporcionar una interfaz común a múltiples motores de OCR).

Iteramos.com

Iteramos es una comunidad de desarrolladores que busca expandir el conocimiento de la programación mas allá del inglés.
Tenemos una gran cantidad de contenido, y también puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X