Deutschsprachige Community

 View Only
last person joined: 2 days ago 

Diese Community ist für Gespräche rund um Blue Prism auf Deutsch gedacht.

  • 1.  Blue Prism OCR Texterkennung Sprachpaket mit Tesseract funktioniert nicht

    Posted 04-05-2022 15:09
    Hallo zusammen,

    wir benutzen zum ersten Mal die OCR Erkennung auf eingescannte PDF-Formualre und kommen auf komische Ergebnisse. 

    Wir benutzen die read Action mit Read Text with OCR:

    Hier sieht man ein Beispiel aus dem Auszug aus der PDF-Datei:

    Hier wird das Wort Straße, das ß -Zeichen mit einem B gefunden und München als Miunchen gefunden.

    Scale usw. bringt keinen Erfolg.

    Weiter unten bei der Reader Properties ist uns aufgefallen das man hier ein Language Pack hinterlegen kann., aber es gibt leider keine Beschreibung die ich gefunden habe wie dies gehen soll.

    Auf jedenfall wenn man hier DEU oder GER einträgt, bekommt man eine Fehlermeldung:



    Optical character recognition (OCR) (blueprism.com)

    Die Tesseract ist nicht mehr verfügbar in dem oben genannten Link

    und in deiesem Link auch nicht mehr:

    Read Text with OCR - Learn Robotic Process Automation (dotnetbasic.com)

    hat jemand eventuell eine Lösung oder eine Idee mit der ich das Ganze verbessern kann. Eventuell eine andere OCR Erkennungssoftware benutzen?
    Oder wie macht ihr das bei euch? Benutzt ihr den Standard von Blue Prism oder benutzt ihr eine spezielle Software bezüglich OCR Erkennung auf die dann Blue Prism zugreift?




    ------------------------------
    Robert Roginer
    RPA Modeller
    Mainova
    Europe/Berlin
    ------------------------------


  • 2.  RE: Blue Prism OCR Texterkennung Sprachpaket mit Tesseract funktioniert nicht
    Best Answer

    Posted 04-05-2022 16:26
    Hallo Robert,

    Dieser Link Data Files · tesseract-ocr/tesseract Wiki sagt wo der Inhalt jetzt verfügbar ist. 
    Traineddata Files for Version 4.00 +
    Tesseract documentation

    Viele Grüße,
    Tamara


    ------------------------------
    Tamara Siekmann
    Technical Author & Localisation Specialist
    Blue Prism
    ------------------------------



  • 3.  RE: Blue Prism OCR Texterkennung Sprachpaket mit Tesseract funktioniert nicht

    Posted 04-06-2022 08:39
    Hallo Tamara, 

    es hat bestens funktioniert.
    Für die anderen die eventuell auch die Probleme haben ein kleine Anleitung:

    Habe aus der Seite Traineddata Files for Version 4.00 + | tessdoc (tesseract-ocr.github.io) das deutsche Sprachpaket heruntergeladen.
    In der Blue Prism Anleitung steht das es unter folgendes Verzeichnis abgelegt werden:
    C:\Program Files\Blue Prism Limited\Blue Prism Automate\Tesseract\tessdata

    Leider reicht es nicht aus das Ganze nur auf dem Server abzulegen. Das muss auf jeder installierten Maschine von Blue Prism in dem oben genannten verzeichnis abgeelgt werden.

    Sicherheitshalber haben wir Blue Prism geschlossen und neu gestartet.
    Das Ergebnis ist Top, nun erkennt er das Wort Straße nicht mehr mit StraBe, sondern richtig als Straße. Un den Ort München erkennt er nun auch richtig, vorher hat er Miunchen gefunden.

    ------------------------------
    Robert Roginer
    RPA Modeller
    Mainova
    Europe/Berlin
    ------------------------------



  • 4.  RE: Blue Prism OCR Texterkennung Sprachpaket mit Tesseract funktioniert nicht

    Posted 04-06-2022 15:47
    Hallo Robert,

    wir nutzen für unsere PDFs überhaupt keine OCR (Kundennummern zu verwechseln wäre nicht so gut), die PDFs sind hier mit markierbarem und somit maschinenlesbarem Text hinterlegt sind. Die Frage ist, ob dies bei Euch auch der Fall ist.

    Zum Auslesen der PDFs nutzen wir dann PDFBox (https://pdfbox.apache.org/index.html), mit der wir uns direkt den Text aus dem PDF holen (wahlweise auch als HTML, was eine bessere Zuordnung der Bereiche erlaubt).

    Hoffe geholfen zu haben.

    Viele Grüße
    Christian


    ------------------------------
    Christian Lerch
    Prozesskoordinator, Dipl.-Inform.
    EWE TEL GmbH, Auftrags- und Technisches Servicemanagement, RPA Development
    Oldenburg
    ------------------------------



  • 5.  RE: Blue Prism OCR Texterkennung Sprachpaket mit Tesseract funktioniert nicht

    Posted 04-07-2022 12:07
    Hallo Christian,

    so wie ich mich kurz in PDFBox eingelesen habe, muss man hier den Output erstmal programmieren, damit ich erstmal auf diese Felder zugreifen kann, sehe ich das richtig?
    Für uns war erstmal eine Quick and dirty Lösung die nicht viel Zeit in Anspruch nimmt erstmal relevant.
    Bei Daten wie Kundennummerwechseln, oder ich nenne es mal kritische Daten macht es durchaus Sinn und dann müsste ich mal nachfragen ob wir bei uns im Hause schon sowas ähnliches besitzen womit man arbeiten kann.

    Aber ich behalte es mir im Hinterkopf und habe mir dazu Notizen gemacht. 
    Danke für die nützliche Info.

    Viele Grüße
    Robert

    ------------------------------
    Robert Roginer
    RPA Modeller
    Mainova
    Europe/Berlin
    ------------------------------



Willkomen in der deutschsprachigen Community

Diese Community ist für Gespräche rund um Blue Prism auf Deutsch gedacht.

VorstellungProcess Assessment ToolTipp der Woche