Texterkennung in PDF oder TIF/JPG

Wohnort: Burgdorf

Mittwoch, 12. August 2020, 11:45

Fremdbefunde werden gescannt und als PDF oder TIF/JPG im Archiv gespeichert. Wie kann ich den Text in diesen Dateien in Text umwandeln und dann in der Karteikarte speichern ? :huh:

Zum Seitenanfang

Josmed

Beiträge: 6 683

Wohnort: Remscheid

2

Mittwoch, 12. August 2020, 12:05

Hallo
Intern ist dies noch nicht gelöst. Sie können ggfls mit einem Screenreader (z.B. Abby Screenshotreader) Bereiche der gescannten Texte ausschneiden und per Screenreader-OCR umwandelt uind in ein Freitext-Eintrag kopieren.
LG, Josmed

Freundliche Grüße, Jörg Sprenger

Zum Seitenanfang

Hus Brogarden

Beiträge: 3 864

Wohnort: was ich noch sagen wollte, das Mediupdate geht wieder automatisch

3

Mittwoch, 12. August 2020, 12:23

Führt das nicht zu eine Aufblähung der Daten. Mit Adobe könnte man das ja machen, ist aber eben speicherfressend.
Bro

Dieser Beitrag wurde bereits 2 mal editiert, zuletzt von »Hus Brogarden« (12. August 2020, 12:38)

Zum Seitenanfang

pquick

Beiträge: 4 011

Wohnort: Plauen

4

Mittwoch, 12. August 2020, 12:43

Eigentlich nicht, natürlich je nach Auflösung. Ich scanne seit ca. 4 Jahren alles für meinen Steuerberater ein und speichere als durchsuchbares PDF. Die Dateigrößen sind sehr überschaubar, da ich meist mit 600dpi sw scanne. Wäre auch für MO eine Möglichkeit...

Ich hatte mal angeregt, ob man nicht bei laufendem System eine Texterkennung durch die schon vorhandenen Daten bei bestimmten Kategorien laufen lassen könnte. Dann könnte man global in der Datenbank suchen (wie in Windows auch)...

es gibt momentan aber anscheinend noch zu viele andere (Pflicht-)Projekte

Zum Seitenanfang

Josmed

Beiträge: 6 683

Wohnort: Remscheid

5

Mittwoch, 12. August 2020, 20:19

Da wären ja auch Wege über Schnittstellen möglich, ohne das INDAMED dies selber programmieren müsste. Das sind inzwischen Funktionen, die jedes Smartphone hat.

Vielleicht kann INDAMED hier und an anderen Stellen mit Kooperationspartnern doch noch Wege öffnen.

LG, josmed

Freundliche Grüße, Jörg Sprenger

Zum Seitenanfang

crispinus

Beiträge: 2 765

Wohnort: Nachrodt-Wiblingwerde

6

Donnerstag, 13. August 2020, 08:58

Hallo,
für die Texterkennung in Bildern gibt es ein sehr mächtiges Open Source-Tool, welches auch für Windows verfügbar ist (Tesseract). Das könnte ich z.B. auch in meinen Archiv Viewer einbinden, und dann wären die dort generierten PDFs durchsuchbar. Das Problem ist aber, dass im Moment die temporär generierten PDF-Dateien einen Neustart von Archiv Viewer nicht überleben, und ich bin mir nicht ganz sicher, ob es ratsam ist, den Blob in der MO-Datenbank mit dem neu generierten File zu überschreiben, auch wenn das natürlich theoretisch möglich wäre.
Ein weiteres Problem entsteht, wenn die Quelle für die Bilddaten nicht ein Externes Dokument war, sondern etwas aus dem MO-eigenen Archivierungsprogramm (z.B. ein Scan über MO oder so), denn dann kann man nicht stattdessen einfach eine PDF-Datei dahinspeichern sondern müsste einen komplett neuen Karteikarteneintrag erzeugen.
Ich würde mich freuen, wenn es Indamed möglich wäre, eine Art API für MO zur Verfügung zu stellen, über die man auf sicherem Wege (d.h. ohne Datenbankkorruption) Karteikarteneinträge modifizieren, anlegen oder löschen kann. Gut wäre, einen Notification-Mechanismus zu haben, der sich z.B. meldet, wenn von irgendwo eine neue Bilddatei als Karteikarteneintrag abgelegt wird. Darauf könnte man dann reagieren, auf dem Server Tesseract über die Datei laufen lassen und sie als geOCRte PDF-Datei zurückspeichern lassen. Sehr elegant ist, dass dabei das ursprüngliche Bild nicht verändert wird, sondern es werden lediglich die Suchinformationen versteckt im Hintergrund abgelegt. Dort werden sie dann von PDF-Readern verwendet, um bei Suchvorgängen an die passenden Stellen im Dokument zu scrollen und diese zu markieren.
Unser PACS-Server bietet genau so eine Art von Schnittstelle an, und das ist ein sehr mächtiges Werkzeug, mit dem man viele praktische Dinge machen kann (so habe ich z.B. die GDT-Schnittstelle für den PACS-Server implementiert).

VG Julian Hartig

Zum Seitenanfang

pquick

Beiträge: 4 011

Wohnort: Plauen

7

Donnerstag, 13. August 2020, 09:02

Ja, so etwas wie Tesseract (gibt ja auch kommerzielle Programme) war auch meine Idee gewesen. Dann würde ein Service-Dienst im Hintergrund die Datenbank einstellbar scannen und neue Dokumente per OCR einlesen. Die gewonnenen Daten könnte man ja separat ablegen.

Meine Idee war damals, alle Bilder in durchsuchbare PDFs umzuwandeln, denn das ist ja der neue Standard für Dokumenten-Ablage. Das müßte man sich nur rechtlich überlegen, da ja das Dokument verändert wird...

Zum Seitenanfang

crispinus

Beiträge: 2 765

Wohnort: Nachrodt-Wiblingwerde

8

Donnerstag, 13. August 2020, 09:40

Hallo Herr Quick,
das wird es ja nicht wirklich. In der PDF-Datei sind in aller Regel ja die Originaldaten des Bildes enthalten und können bei Bedarf extrahiert werden. Ich sehe da also keine Probleme. Die OCR-Daten überschreiben ja auch nicht die Bilddaten sondern werden nur "dazugelegt".

VG Julian Hartig

Zum Seitenanfang

crispinus

Beiträge: 2 765

Wohnort: Nachrodt-Wiblingwerde

9

Donnerstag, 13. August 2020, 09:46

...idealerweise hätte man natürlich wie gesagt einen "Hook", der dann aufgerufen wird, wenn ein neuer Bildeintrag angelegt wird und der dann das Wandeln und OCRisieren übernimmt. Ich wäre auch schon in eigenem Interesse durchaus bereit, diesen Hook zu implementieren, wenn man mir die notwendige Schnittstelle dafür gibt

.

VG Julian Hartig

Zum Seitenanfang

pquick

Beiträge: 4 011

Wohnort: Plauen

10

Donnerstag, 13. August 2020, 09:50

Zitat von »crispinus«

Hallo Herr Quick,
das wird es ja nicht wirklich. In der PDF-Datei sind in aller Regel ja die Originaldaten des Bildes enthalten und können bei Bedarf extrahiert werden. Ich sehe da also keine Probleme. Die OCR-Daten überschreiben ja auch nicht die Bilddaten sondern werden nur "dazugelegt".

VG Julian Hartig

Ja prinzipiell und technisch haben Sie recht. Die Frage ist eher, wie Gerichte das dann sehen werden. Ich erinnere nur daran, das bisher "ersatzweises Einscannen" im Steuerrecht immer noch nicht 100% rechtlich sicher ist...

Dann bräuchte man Gesetze, die die Digitalisierung auch wirklich beschleunigen... nicht der Quatsch wie TI oder eAU, die dann doch wieder ausgedruckt werden muß...

Zum Seitenanfang

Hus Brogarden

Beiträge: 3 864

Wohnort: was ich noch sagen wollte, das Mediupdate geht wieder automatisch

11

Donnerstag, 13. August 2020, 17:56

Wir sind komplett papierlos, egal was, auch die meisten Rechnungen kommen kaum noch in hardkopie. Auch verändern wir Dateien, so dass es für die Arbeit passt und nicht für die Bürokratenhengste oder Stuten mwd. Wenn der Staat oder wer auch immer mich dranbekommen will und Originalpapier sehen möchte, wäre ich geliefert. Je nach drohender Gefängniszeit würden wir abhauen oder, wenn nicht möglich, prophylaktisch in den Freitot gehen, abhängig vom Strafmaß, denn ins Gefängnis gehe ich nicht und bankrottklagen lass ich mich auch nicht. :cursing:

In England wird das medizinsiche Personal beklatscht, wochenlang, für Ihr Engagement und die Rentner Ärzte kommen vom Sofa an die Coronafront, da wird man uns doch wohl in Ruhe lassen mit dem Quatsch des Originalzwanges.
bro

Dieser Beitrag wurde bereits 1 mal editiert, zuletzt von »Hus Brogarden« (13. August 2020, 18:02)

Zum Seitenanfang

MEDICAL OFFICE - Anwenderforum

Texterkennung in PDF oder TIF/JPG

Texterkennung in PDF oder TIF/JPG

Zitat von »crispinus«

Ähnliche Themen