hab

Teilnehmer
Hallo,
ich übersetze für einen Freund englische Zeitschriftenartikel der 70er Jahre die als jpg vorliegen. Der mühsame Prozess ist:
1. jpg aus dem Netz runterladen
2. jpg ausrucken
3. Ausdruck mit OCR scannen
4. Scan liegt als .rtf Datei vor + korrekturlesen
5. mit onlinetool übersetzen

Die Schritte 3. + 4. sind sehr zeitintensiv. Hat jemand eine Idee wie das vereinfacht werden kann?
Die Zeitschriften habe ich nicht im Original.

Vielen Dank vorab + Gruß
Werner
 
Irfanview kann mit einem recht brauchbaren OCR-Modul (KADMOS) ergänzt werden. Je nach Qualität des Scans waren bislang kaum Nachbearbeitungen notwendig. (Achtung: Nur in der 32bit-Version verfügbar!)

Und welches Übersetzertool nutzt du? Deepl ist bekannt?
 
Hi Olaf,
super vielen Dank. Kannte ich noch nicht und werde ich ausprobieren.
Beim meinem ORC san werden oft Wörter nicht richtig erkannt deshalb die manuelle Korrektur vor dem Übersetzen.
Gruß
Werner
 
Hi Stefan,
ja Deepl ist mir bekannt und verwende ich auch. Ist von der Überstzungsqualität sehr gut finde ich.

Ich werwende oft:
https://www.onlinedoctranslator.com/de/

mit dem man aus verschiedenen Dateiformaten direkt übersetzen kann. Klappt bei vorliegenden pdf Zeitschriften gut. Aber meine jpg Dateien aus dem web sind halt keine echten Textdateien und da geht das nicht.

Ich habe Irfanview 64 bit, da wird das wohl nichts mit dem ORC.
Trortzdem vielen Dank + Gruß
Werner
 
Du kannst doch auch die 32bit-Version installieren. Entweder parallel oder anstelle. Oder hast du so große Bilder, dass du mehr als 3 GB Arbeitsspeicher für den Prozess brauchst?
 
Könnte ich probieren die 32 bit Version parallel oder sonst einzeln zu installieren.
Eine Seite für den OCR scan hat als jpg ca. 300 K, also sehr klein.
 
Hallo,

also ich würde für sowas, wenn sich das Volumen in Grenzen hält, keine lokale Software installieren. Es gibt es doch einige Online-Dienste, teilweise kostenfrei, die OCR-Erkennung haben und gleichzeitig übersetzen oder an einen Translate-Dienst weiterleiten. So dass man nicht mal mehr den über OCR aus dem Bild ermittelten Text manuell in einen Translate-Dienst kopieren muss.

Da würde ich erstmal schauen, ob es dort nicht eine für den Anwendungsfall passende Lösung gibt.

Nachbearbeiten bleibt aber natürlich (Layout und Übersetzung).

Beispiel:


Grüße
Marcus
 
Hallo zusammen,
danke für eure Infos. Ich habe die Tips ausprobiert.

Also Testversion habe ich mir abby fineReader (Tip von Olaf) installiert und die OCR Erkennung ist wirklich sher gut, auch bei einer schlechten jpg Vorlage. Dann mit Deepl übersetzten birngt das beste Übersetzungsergebnis.

Mit img2.txt.com war die OCR Erkennung auch sehr gut, ergibt nur unformatierten Text, aber das zählt erst mal für die weitere Übersetzung.

Werner
 
Moin,
2. jpg ausrucken
3. Ausdruck mit OCR scannen
4. Scan liegt als .rtf Datei vor + korrekturlesen
OCR verwendet natürlich "immer"eine Bilddatei, von daher ist es sinnfrei, das jpg erst nochmal auszudrucken. Tesseract kann PNG direkt einlesen und liefert z.B. ein PDF mit eingebautem Text, oder meinetwegen auch eine .txt-Datei:

convert seite01.jpg seite01.png
tesseract -l eng seite01.png seite01 pdf


Ich benutze das seit ca. 2017 im produktiven Einsatz und scanne damit alles, was mir ins Haus bzw. in die Firma kommt und irgendwie archivierungswert sein könnte.
 
Hallo Joerg,

besten Dank für den Hinweis, werde ich mir in Ruhe ansehen + ausprobieren

Grüße in Schweiz
Werner
 
Ganz grundsätzlich ist JPG kein gutes Transportformat für Text. Wenn die Auflösung (Qualitätseinstellung) nicht sehr hoch ist, kann es Farbkanten, typischerweise Schrift, schlecht wiedergeben, dann tauchen graue und schwarze Punkte in den Zwischenräumen auf.
Aber wichtig ist erstmal nur, dass die OCR effektiv ist.