Texterkennung

Ein PDF-Dokument wird per Texterkennung geparst und die Inhalte werden strukturiert extrahiert.
Proof of Concept Tech-Demo, Stein Entwicklung.

Schnittstelle zur analogen Welt

Texterkennung vereinfacht den Alltag

Texterkennung ist eine Brücke zwischen der digitalen Welt der Software und unserer analogen Realität. Ob die Erkennung von Kreditkarten-Daten über die Laptop-Kamera, Kennzeichen-Erkennung in Parkhäusern oder Scanner, die durchsuchbare PDFs erstellen - Texterkennung findet überall in unserem Alltag Einzug. Einfacher als je zuvor lässt sich Texterkennung dank Open-Source-Projekten wie Tesseract OCR auch in Software von Morgen integrieren.

Open Source Texterkennung

Tesseract OCR

Ursprünglich wurde Tesseract von Hewlett-Packard für Scanner entwickelt, wurde jedoch 2005 an Google übergeben, das die Software unter Open-Source-Lizenz öffentlich machte und weiterentwickelte. Tesseract gilt als die leistungsfähigste Open Source Texterkennungssoftware und wird auch von uns präferiert. Die neuste Version setzt neben klassischen OCR-Techniken auch auf moderne, neuronale Netze und verbessert so die Erkennungsqualität zusätzlich.

Vielseitige Use Cases

Texterkennung lässt sich in vielen Bereichen einsetzen, um die Brücke zwischen analoger und digitaler Welt zu schlagen.

Dokumente

Kennzeichen

Seriennummern

Scheckkarten

Kennzeichen-Erkennung

Viele Parkhäuser verwenden bereits automatische Kennzeichen-Erkennung, auch bei Zugangskontrollen auf Betriebsgelände ist diese Technik verbreitet. Dabei wird zuerst das Kennzeichen mittels Objekt-Erkennung erkannt und anschließend per Texterkennung identifiziert. Mittels moderner Schnittstellen lässt sich Kennzeichen-Erkennung elegant in Applikationen integrieren und ermöglicht so viele spannende Use Cases.

Document-Parsing

Ganze Dokumente digitalisieren

Das Erkennen von Inhalten eines ganzen Dokuments geht über die reine Texterkennung hinaus. Dieses Verfahren wird z.B. bei der digitalen Erkennung von Belegen in der Buchhaltung eingesetzt. Dabei wird nicht der Text, sondern auch das Layout eines Dokuments berücksichtigt und ausgewertet. Dies ermöglicht, z.B. wenn passende Schnittstellen oder Standardformate fehlen, eine automatisierte Verarbeitung von Dokumenten.

Texterkennung in individuellen Applikationen

Das Potenzial nutzen

Texterkennung ist eine spannende Technologie, die viele Use Cases ermöglicht. Wir beraten Sie hinsichtlich der Potenziale, aber auch Grenzen der Technologie. Wir haben Erfahrung bei der Integration der Texterkennungssoftware und programmieren beispielsweise die wichtige Vorverarbeitung der Bilddaten.

Tim Stein (M.Sc. Wirt.-Ing.)
Gründer & geschäftsführender Gesellschafter