Lightning lernt Lesen

Lightning wird um ein neues Feature reicher:
Künftig soll es möglich sein, Termininformationen in E-Mail-Texten automatisch zu erkennen, um das Erstellen von Kalendereinträgen erheblich zu vereinfachen. Wenn in einer Nachricht also von einem dreistündigen Treffen ab 16 Uhr die Rede ist und man das im Kalender eintragen möchte, soll der Termindialog entsprechend vor-ausgefüllt sein.

Wer Lightning ab Version 2.6 benutzt, kann das sofort ausprobieren. Ergänzend wird lediglich die Erweiterung Event-extract benötigt, um die entsprechenden Schaltflächen sichtbar zu machen (Rechtsklick > ‚Anpassen‘):

eventextract__toolbar

Dann funktioniert z.B. Folgendes:

eventextract__01eventextract__02eventextract__03eventextract__04eventextract__05eventextract__06eventextract__07eventextract__08eventextract__09eventextract__10

Die Bilder zeigen ausgewählte (aber längst nicht alle) Formulierungsbeispiele, deren Termininformationen erfolgreich ausgelesen werden („Wir treffen uns morgen gegen 17:30 Uhr bis 20 Uhr.“ | „Wir treffen uns am 13. November um 17 Uhr.“ | „Wir treffen uns von Montag bis Mittwoch.“ | „Wir treffen uns morgen ab 18 Uhr. Der Termin dauert drei Tage.“ | „Der Termin beginnt am 20.12.2013 um 12 Uhr. Er endet gegen 14:30 Uhr.“). Zur Unterstützung kann man auch Text in einer Mail markieren, sodass dann nur dieser Text beim Verarbeiten berücksichtigt wird – das kann die Trefferquote in längeren Mails erhöhen.

Lightning macht also Fortschritte beim Lesenlernen – die ‚Gymnasialempfehlung‘ steht allerdings noch aus:

Recht kompliziert wird es nämlich bei der Frage, wie das automatische Lesen bzw. Extrahieren von Termininformationen zuverlässig umgesetzt werden soll:

  • Welche Formulierungen sollen für diese Funktion berücksichtigt werden?
  • Welche kennzeichnen den Beginn, welche die Dauer, welche das Ende eines Ereignisses?
  • Handelt es sich überhaupt um Angaben zu Zeitpunkt oder Dauer und nicht etwa um eine Entfernungsangabe, einen Preis, eine Telefonnummer usw.?

Die Qualität der automatischen Erkennung von Kalenderinformationen steht und fällt daher neben den Skripten zum Parsen auch mit der Qualität des ‚Wörterbuchs‘, auf das Lightning zur Beantwortung von Fragen wie diesen zurückgreifen kann. Nach dem ersten de-Checkin, das hierfür in aktuellen Lightning-Releases und Lightning-Betas zur Anwendung kommt, kamen kürzlich noch zwei Überarbeitungen hinterher.
Dennoch: So richtig überzeugend funktioniert der Mechanismus noch nicht immer. Ein Beispiel:

eventextract-fail__03eventextract-fail__04

Ich verstehe nicht wirklich, warum die Formulierung „13. November“ als Enddatum erkannt wird, die Formulierung „dreizehnter November“ aber offensichtlich nicht – obwohl die Übersetzung das eigentlich hergeben sollte. Vielleicht müsste das Zusammenspiel der diversen Prefixes, Suffixes und sonstigen Entitäten in der calendar-extract.properties doch noch etwas anschaulicher dokumentiert werden, damit auch ich sie voll durchschaue… 😉

Sicherlich gibt es weitere Formulierungen, die noch nicht erkannt werden, aber erkannt werden sollten. Wer in seiner Arbeit über solche Formulierungen stolpert, die in die automatische Erkennung von Kalenderinformationen integriert werden sollten, kann gerne mithelfen und Hinweise hier in die Kommentare oder in ein noch zu erstellendes Thema im Forum „Thunderbirds & Lightnings Übersetzung“ auf thunderbird-mail.de packen. Was machbar ist, wird dann eingebaut.

Ein Gedanke zu „Lightning lernt Lesen“

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert