Hallo,
für die Texterkennung in Bildern gibt es ein sehr mächtiges Open Source-Tool, welches auch für Windows verfügbar ist (Tesseract). Das könnte ich z.B. auch in meinen Archiv Viewer einbinden, und dann wären die dort generierten PDFs durchsuchbar. Das Problem ist aber, dass im Moment die temporär generierten PDF-Dateien einen Neustart von Archiv Viewer nicht überleben, und ich bin mir nicht ganz sicher, ob es ratsam ist, den Blob in der MO-Datenbank mit dem neu generierten File zu überschreiben, auch wenn das natürlich theoretisch möglich wäre.
Ein weiteres Problem entsteht, wenn die Quelle für die Bilddaten nicht ein Externes Dokument war, sondern etwas aus dem MO-eigenen Archivierungsprogramm (z.B. ein Scan über MO oder so), denn dann kann man nicht stattdessen einfach eine PDF-Datei dahinspeichern sondern müsste einen komplett neuen Karteikarteneintrag erzeugen.
Ich würde mich freuen, wenn es Indamed möglich wäre, eine Art API für MO zur Verfügung zu stellen, über die man auf sicherem Wege (d.h. ohne Datenbankkorruption) Karteikarteneinträge modifizieren, anlegen oder löschen kann. Gut wäre, einen Notification-Mechanismus zu haben, der sich z.B. meldet, wenn von irgendwo eine neue Bilddatei als Karteikarteneintrag abgelegt wird. Darauf könnte man dann reagieren, auf dem Server Tesseract über die Datei laufen lassen und sie als geOCRte PDF-Datei zurückspeichern lassen. Sehr elegant ist, dass dabei das ursprüngliche Bild nicht verändert wird, sondern es werden lediglich die Suchinformationen versteckt im Hintergrund abgelegt. Dort werden sie dann von PDF-Readern verwendet, um bei Suchvorgängen an die passenden Stellen im Dokument zu scrollen und diese zu markieren.
Unser PACS-Server bietet genau so eine Art von Schnittstelle an, und das ist ein sehr mächtiges Werkzeug, mit dem man viele praktische Dinge machen kann (so habe ich z.B. die GDT-Schnittstelle für den PACS-Server implementiert).
VG Julian Hartig