Über i-Punkte und Fliegendreck

Im Jahr 2000 habe ich ja versucht, die Kultur des Abendlandes zu retten. Hat nicht geklappt, wie man jeden Tag in den Nachrichten feststellen kann, aber ich hab’s immerhin versucht. Und dafür habe ich a) Olympus-Kameras, die C3030Z verwendet und b) eine selber geschriebene Software. (Und noch ein paar andere Dinge.) Um was ging’s? In den Bibliotheken sind die Bücher von den Regalen gebröselt. Säurehaltiges Papier. Das Problem ist nach wie vor existent und bedroht grob die Hälfte der Bestände in allen deutschen Bibliotheken. Das sind Millionen von Büchern, die eigentlich alle „entsäuert“ werden müssten. Die werden dazu z.B. in Druckkessel gepackt, wo sie bei der Trockenentsäuerung (z.B. Magnesiumoxid) durch einen sanften Luftstrom aufgefächert werden und man ein basisches Medium einpustet. (Die Aussage in der Wikipedia, dass dabei nur die Oberfläche entsäuert wird, ist falsch, Ich habe die Messergebnisse gesehen.) Kostet Geld. Viel Geld. Noch mehr Geld. Und viele Bücher sind gar nicht mehr so zu retten, weil sie die Entsäuerung gar nicht überleben würde – da könnte man hinterher nur noch Brösel zusammenfegen. Die müssen einzeln zerlegt und dann „gespalten“ werden. Sprich, man pappt vorne und hinten auf jede Seite ne Folie und reißt dann die beiden Folien auseinander. Dann klebt man zwischen die beiden Hälften ein Papier mit Säurepuffer, zieht die Folien vorne und hinten wieder ab und bindet alles wieder. Kostet noch viel mehr Geld.

Ich habe damals, als diese Techniken entwickelt wurden, mit den ganzen Leuten zusammengesteckt und eine der Maschinen wurde sogar bei mir in der Firma gebaut.

Mein Ansatz war ein anderer: Man digitalisiere die Bücher und drucke sie alterungsbeständig nach. Dann ist vielleicht die Erstauflage flöten, aber der Inhalt ist gerettet. Und man kann 30 Stück drucken, die Bibliotheken kriegen ein Ersatzexemplar für ein paar Euro, können die Bücher tatsächlich auch wieder Nutzern zur Verfügung stellen und alle sind happy. Und interessierte Leser können sich das Buch tatsächlich kaufen. Für so 40 Euro für ein 300 Seiten leinengebundenes Hardcover.

Damit das funktioniert, brauchte man eine Möglichkeit, Bücher blitzartig zu digitalisieren, ohne sie dabei kaputt zu machen. Also den ersten 90°-Bookscanner erfunden. Und dann brauchte man eine Software, die einen i-Punkt von einem Fliegenschiss unterscheiden konnte. Die damals vorhandene „Despeckle“-Software konnte das nicht. Bei den teilweise wirklich schlechten Papieren waren die Erkennungsraten unbrauchbar, da war Handarbeit schneller. Also bin ich zusammen mit Daniel Schuler, einem Genie, selber dran. Wir haben zuerst versucht, einen Fliegenschiss über die Größe zu definieren – das scheiterte daran, dass es Fliegenschisse gab, die größer als I-Punkte waren. Dann haben wir es versucht, mit einer Objekterkennung. I-Punkte waren ja im Allgemeinen über einem „i“. Oha. Über einem Ü gab’s auch welche. Und es gab welche, die waren nicht rund, sondern rautenförmig. Und dann gab es noch Punkte am Ende von Sätzen. Und Punkte, die in Inhaltsverzeichnissen als Leitpunkte standen.

Damit war der klassische OCR-Ansatz gescheitert. Warum wir damals nicht einfach OCR eingesetzt haben, den Computer das Buch haben „lesen“ lassen und alles neu gesetzt haben? Die OCR war damals so schlecht, vor allem bei Frakturschriften, dass man oft mit dem Abtippen schneller war. Und – sobald man so ein Buch neu setzt, ist es eine Neuauflage. Dann will die deutsche Bibliothek Belegexemplare haben. Gratis. Und es braucht eine ISBN. Bei einer 30er Auflage gar nicht kalkulierbar. Also ein gesäubertes Faksimile.

Wir sind dann irgendwann dazu gekommen, eine Umkreisanalyse zu machen. Fliegen scheißen nicht gerne mitten in den Text, warum auch immer. Außerdem sind Druckpunkte meistens gleichmäßig gefärbt, Fliegenschisse haben dagegen einen „Farbverlauf“. Wir haben also der Software beigebracht, bei jedem Punkt eines Bildes zu untersuchen, was da in der Umgebung los ist. Denn – Überraschung – versäuertes Papier hat auch noch einen eigenen Farbverlauf. Es ist an den Rändern deutlich dunkler, der Kontrast zum Fliegenschiss ist am Rand geringer.

Die Software war irgendwann so gut, dass wir mit dem Output drucken konnten. Die Software warf den Dreck raus, aber handschriftliche Randbemerkungen und Bibliotheksstempel blieben einwandfrei erhalten.

Als ich dann zehn Jahre später das Verhalten des „Dramatic Tone“ analysierte hatte ich dann ein Deja-Vu. Da hatte sich jemand mit Umkreisanalyse auseinandergesetzt.

Warum ich jetzt die alten Kamellen wieder ausgrabe?

Als Olympus die E-M1X auf den Markt brachte, haben sie mit unglaublichem Aufwand eine Objekterkennung trainiert. Sie haben sozusagen „Buchstaben erkannt“. Die Kamera analysierte das Bild und beschloss „Das ist ein Vogel, denn das Viech hat am einen Ende so ein spitzes Dreieck und ab und zu gehen da so zwei Trapezflächen raus, die wackeln. Ganz klar. Vogel.“ Das dauerte. Fraß so viel Rechenleistung, dass man einen eigenen Proz dafür brauchte. Und was hat der Wagner gemacht? Sich über False positive und False negative mokiert. Die Kunden draußen wurden von den Leuten mit Sonys und Canons deklassiert, die viiiel schneller waren.

Sie haben es dann versucht, die Prozessorleistung zu steigern, das hat aber am Ergebnis nicht viel geändert. Der objektorientierte Ansatz hätte noch weit mehr Training und Rechenleistung erfordert. Die Mustererkennung des menschlichen Gehirns ist halt weit, weit leistungsfähiger, schlicht weil das Überleben früher davon abhing. Menschen, die einen Tiger im Gebüsch nicht erkannten, haben auf Dauer ihre Gene nicht weitergegeben.

Wieso konnten aber die anderen Firmen das mit der Mustererkennung so viel besser? Waren die von Olympus nur zu doof? Nö. Die anderen Firmen haben den Ansatz gewählt, den auch Excire verwendet. Man füttert einer Engine Millionen von verschlagworteten Fotos und zum Schluss „kennt“ die Software Möwen aus jedem beliebigen Blickwinkel. Da die Software das Bild nicht mehr auf Objekte scannen muss, sondern nur auf visuelle Übereinstimmung mit gespeicherten Bildern, geht das ratzfatz. (Natürlich liegen da in der Kamera nicht Millionen von Fotos, sondern da wird aus dem Bild ein Koordinatenwert gebildet, der dann verglichen wird,)

Was ist das Problem daran? Der „Objektansatz“ kann Autos erkennen, die die Kamera noch nie „gesehen“ hat. Der Musteransatz hat da ein Problem.

Zum Beispiel erkennt ein Objektansatz: „Zwei helle Flecke links und rechts. Spiegelnde Oberfläche, Schild mit großer Nummer drauf: vermutlich Auto von vorne.“ Musteransatz dagegen:“Nie gesehen. Kein Plan was das ist.“ Ein Objektansatz sieht gelben Smiley: „Mund. Augen. Ganz klar ein Gesicht. Stelle ich scharf drauf.“ Musteransatz: „Willst Du mich verarschen? So sieht doch kein Gesicht aus!“.

Das ist ähnlich wie bei Schrifterkennung. OCR musste auf jede einzelne Schrift trainiert werden. Arial ging, mit einer Fraktur ging es nicht und mit einer Gutenberg-Type schon gleich gar nicht. Der Ansatz, dass man ein Objekt als „A“ erkennt, egal in welcher Schriftart das „A“ geschrieben ist, ist weit aufwendiger, weil wir genau die „Mustererkennung“ unseres Gehirns simulieren müssen. Wir erkennen sogar Buchstaben, die wir nie gesehen haben, weil wir das Wort um den Buchstaben erkennen und daraus schließen können, dass dieser bestimmte Buchstabe in der Mitte wohl eine „sz-Ligatur“ sein müsste. (Die Begriffe Mustererkennung und Objekterkennung werden manchmal synonym verwendet und in gewissen Sinne ist eine Mustererkennung die Vorstufe einer Objekterkennung. Ich hoffe trotzdem, dass klar wurde, was ich meine.)

Was ist nun besser? Wenn man Dinge knipsen will, die schon Millionen vorher geknipst haben: Mustererkennung. Will man Dinge fotografieren, die ungewöhnlicher sind: Objekterkennung. Oder halt ganz ohne. Selbsterkenntnis.

6 Replies to “Über i-Punkte und Fliegendreck”

  1. Ich konnte in den frühen 80ern einen der HP Scanner kaufen. Natürlich war OCR auch ein Wunsch. Aber da gab es an sich nur Paragon ..ist mir zumindest im Kopf (bezw. Vorläufer) oder Recognita. Eine Software die aus Ungarn stammte, damals Ostblock…… und da war der wirkliche riesige Vorteil: Im Gegensatz zur Software aus dem Westen meist USA, mussten mit allerlei Sonderzeichen umgehen können. Daher war sie über sehr lange Zeit auch deutlich überlegen. Schon alleine wegen der Probleme, wenn ein früher Laserdrucker oder gar Nadeldrucker in einem Buchstaben Unterbrechungen erzeugte…

    Aber es stimmt. Selbst bei >95% Erkennungsrate wird es aufwändig. Texte sind ja mit anschließen Überführen in Textverarbeitung mit Fehlerprüfung und Nacharbeiten noch handhabbar. Aber Bei Zahlen sind halt Fehler fatal.

    Man erinnere sich an den Skandal bei den falschen Zahlen die Xerox Dokumentenscanner bei zu kleiner Schriftgröße erzeugt, weil ihre Software wegen Datenreduktion den abgespeicherten Scan selbst manipulierte. Super, wenn die Original dann nicht mehr zur Verfügung standen…
    Der Der das rausgefunden hatte berichtete selbst bei einer der Veranstaltungen sehr Kurzweilig in der CCC Konferenz 2015. Wer suchen will: „David Kriesel: Traue keinem Scan, den du nicht selbst gefälscht hast“

    Als sehr großes UniInstitut kamen wir in den Genuß regelmäßig überprüft zu werden. Die Prüfer staunten nicht schlecht als ich sie über diesen Fehler informierte….. Das war zu diesem Zeitpukt lange nicht allgemein bekannt denn der Hersteller der professionellen Dokumentensystem tat zunächst mal alles um es klein zu halten……

    Das kommt einem irgendwie bekannt vor 🙂

    Spezifisch trainierte AI kann da sicher in naher Zukunft viel positives in weiten Bereichen der Musterekennung beitragen. War da mal bei einer Führung durch ein Landesarchiv. U.a. alte Schriften aus 1600-1800. Jeder der Schreiber hatte seinen eigenen Stiel. Und ohne die Mithilfe von zumeist alten Leuten, die noch die Kurrentschrift kannten wird es schwierig, alten Schriften der einzelnen Schreiber überhaupt mal in eine Form zu bringen, dass man damit eine spezifische AI trainieren könnte. Auch Deine Fotos von Büchern könnten nachträglich noch erschlossen werden.

    Mittlerweile bieten Bibliotheken/Archive auch Kurrentkurse an, damit das Wissen nicht verloren geht. Denn ohne das sind dann alte Bücher und Dokumente auch nur mehr das was heute ein Foto ist, eine Anzahl von Dot’s ohne tieferen Inhalt. Kunst halt .. die muß man nicht verstehn….

    Siegfried

    1. 2000 hatten wir schon OCR-Software mit 98% Erkennungsleistung. (Und ja, natürlich auch Recognita.) Aber das bedeutete auf einer A4-Seite 40 Fehler. Absolut unbrauchbar. Ab Erkennungsleistungen von 99,999% reden wir über Dinge, die für den Reprint in Kleinauflage brauchbar sind. Du kannst ein Buch von 500 Seiten, das einen Gesamtumsatz von knapp 3000 Euro generiert, nicht Korrektur lesen lassen. Also Faksimile.

    2. Siegfried, Danke, Du hast mich auf eine Idee gebracht. Ich lese auch hin und wieder in alten Kirchenbüchern, Recherche für Stammbäume, usw. Je weiter die Dokumente zurück liegen, desto schwieriger wird das Lesen (Entziffern). Habe nun dies gefunden – noch nicht wirklich intensiv ausprobiert – ist aber sicher von Interesse. Entwickelt u.a. von der Uni Innsbruck:
      https://www.transkribus.org/
      Gruss Georg

      1. Das ist doch mal ein Tipp. Ich habe das Ding auf die Handschrift meines Vaters losgelassen. Die Erkennungsrate ist grob 90% – es kommt also hanebüchener Unsinn raus, aber es ist immerhin was. Man kann zumindest grob verstehen, um was es in dem Text geht, den Rest kriege ich dann noch raus.

    3. Unter Windows 98 nutzte ich damals FineReaderm das damals noch trainiert werden konnte und für mich in meiner Erinnerung im Handling besser nutzbar war als heutige Versionen – die dafür Fraktur riecht ordentlich erkennen.
      Aber so eine hohe Erkennungsrate wie von Reinhard angegeben hatte ich bei meinen alten Büchern und oft ungewöhnlichen modernen Schriftschnitten wohl nie, zumal da oft fremdsprachliches zitiert wird. Der geringere Erkennungsgrad hängt dabei sicher auch mit meinen schlechteren (im Vergleich zu Reinhard) Scans zusammen, da ich nur Flachbettscanner und selten Auflichtscanner (bei „Überformaten“) nutzte.
      Wesentlich für mich ist hauptsächlich die Suchfunktion in den OCR-Texten. Das erleichtert die Textarbeit erheblich.

      Viele Grüße

      Eckhard

Schreibe einen Kommentar zu Lutz L Antwort abbrechen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert