Blue Prism OCR Texterkennung Sprachpaket mit Tesseract funktioniert nicht

RobertRoginer · ‎05-04-22

Hallo zusammen,

wir benutzen zum ersten Mal die OCR Erkennung auf eingescannte PDF-Formualre und kommen auf komische Ergebnisse.

Wir benutzen die read Action mit Read Text with OCR:

Hier sieht man ein Beispiel aus dem Auszug aus der PDF-Datei:

Hier wird das Wort Straße, das ß -Zeichen mit einem B gefunden und München als Miunchen gefunden.

Scale usw. bringt keinen Erfolg.

Weiter unten bei der Reader Properties ist uns aufgefallen das man hier ein Language Pack hinterlegen kann., aber es gibt leider keine Beschreibung die ich gefunden habe wie dies gehen soll.

Auf jedenfall wenn man hier DEU oder GER einträgt, bekommt man eine Fehlermeldung:

Optical character recognition (OCR) (blueprism.com)

Die Tesseract ist nicht mehr verfügbar in dem oben genannten Link

und in deiesem Link auch nicht mehr:

Read Text with OCR - Learn Robotic Process Automation (dotnetbasic.com)

hat jemand eventuell eine Lösung oder eine Idee mit der ich das Ganze verbessern kann. Eventuell eine andere OCR Erkennungssoftware benutzen?
Oder wie macht ihr das bei euch? Benutzt ihr den Standard von Blue Prism oder benutzt ihr eine spezielle Software bezüglich OCR Erkennung auf die dann Blue Prism zugreift?

------------------------------
Robert Roginer
RPA Modeller
Mainova
Europe/Berlin
------------------------------

TamaraSiekmann · ‎05-04-22

Hallo Robert,

Dieser Link Data Files · tesseract-ocr/tesseract Wiki sagt wo der Inhalt jetzt verfügbar ist.
Traineddata Files for Version 4.00 +
Tesseract documentation

Viele Grüße,
Tamara

------------------------------
Tamara Siekmann
Technical Author & Localisation Specialist
Blue Prism
------------------------------

View answer in original post

TamaraSiekmann · ‎05-04-22

Hallo Robert,

Dieser Link Data Files · tesseract-ocr/tesseract Wiki sagt wo der Inhalt jetzt verfügbar ist.
Traineddata Files for Version 4.00 +
Tesseract documentation

Viele Grüße,
Tamara

------------------------------
Tamara Siekmann
Technical Author & Localisation Specialist
Blue Prism
------------------------------

RobertRoginer · ‎06-04-22

Hallo Tamara,

es hat bestens funktioniert.
Für die anderen die eventuell auch die Probleme haben ein kleine Anleitung:

Habe aus der Seite Traineddata Files for Version 4.00 + | tessdoc (tesseract-ocr.github.io) das deutsche Sprachpaket heruntergeladen.
In der Blue Prism Anleitung steht das es unter folgendes Verzeichnis abgelegt werden:
C:\Program Files\Blue Prism Limited\Blue Prism Automate\Tesseract\tessdata

Leider reicht es nicht aus das Ganze nur auf dem Server abzulegen. Das muss auf jeder installierten Maschine von Blue Prism in dem oben genannten verzeichnis abgeelgt werden.

Sicherheitshalber haben wir Blue Prism geschlossen und neu gestartet.
Das Ergebnis ist Top, nun erkennt er das Wort Straße nicht mehr mit StraBe, sondern richtig als Straße. Un den Ort München erkennt er nun auch richtig, vorher hat er Miunchen gefunden.

------------------------------
Robert Roginer
RPA Modeller
Mainova
Europe/Berlin
------------------------------

ChristianLerch · ‎06-04-22

Hallo Robert,

wir nutzen für unsere PDFs überhaupt keine OCR (Kundennummern zu verwechseln wäre nicht so gut), die PDFs sind hier mit markierbarem und somit maschinenlesbarem Text hinterlegt sind. Die Frage ist, ob dies bei Euch auch der Fall ist.

Zum Auslesen der PDFs nutzen wir dann PDFBox (https://pdfbox.apache.org/index.html), mit der wir uns direkt den Text aus dem PDF holen (wahlweise auch als HTML, was eine bessere Zuordnung der Bereiche erlaubt).

Hoffe geholfen zu haben.

Viele Grüße
Christian

------------------------------
Christian Lerch
Prozesskoordinator, Dipl.-Inform.
EWE TEL GmbH, Auftrags- und Technisches Servicemanagement, RPA Development
Oldenburg
------------------------------

RobertRoginer · ‎07-04-22

Hallo Christian,

so wie ich mich kurz in PDFBox eingelesen habe, muss man hier den Output erstmal programmieren, damit ich erstmal auf diese Felder zugreifen kann, sehe ich das richtig?
Für uns war erstmal eine Quick and dirty Lösung die nicht viel Zeit in Anspruch nimmt erstmal relevant.
Bei Daten wie Kundennummerwechseln, oder ich nenne es mal kritische Daten macht es durchaus Sinn und dann müsste ich mal nachfragen ob wir bei uns im Hause schon sowas ähnliches besitzen womit man arbeiten kann.

Aber ich behalte es mir im Hinterkopf und habe mir dazu Notizen gemacht.
Danke für die nützliche Info.

Viele Grüße
Robert

------------------------------
Robert Roginer
RPA Modeller
Mainova
Europe/Berlin
------------------------------

SS&C Blue Prism Community

Blue Prism OCR Texterkennung Sprachpaket mit Tesseract funktioniert nicht