AktuellesNews
Forscher des Instituts für Verteilte Systeme erhalten "Best Paper"-Auszeichnung auf internationaler Konferenz

Forscher des Instituts für Verteilte Systeme erhalten "Best Paper"-Auszeichnung auf internationaler Konferenz

ICMR 2019 in Ottawa: Christian Otto von der TIB (2. von rechts) erhält den Best Paper Award von den ICMR-Organisatoren Mark Zhang (State University of New York Binghamton, USA), Selcuk Candan (Arizona State University, USA) und Abdulmotaleb El Saddik (University of Ottawa, Canada) (von links). // Foto: ICMR

Zwei Mitglieder der Fakultät, Prof. Avishek Anand und Prof. Ralph Ewerth (beide Institut für Verteilte Systeme, Fachgebiet Wissensbasierte Systeme bzw. Fachgebiet Visual Analytics) wurden für ihren Beitrag „Understanding, Categorizing and Predicting Semantic Image-Text Relations“ auf der diesjährigen ACM International Conference on Multimedia Retrieval (ACM ICMR) mit dem „Best Paper Award“ ausgezeichnet. Der Beitrag wurde gemeinsam mit zwei Mitarbeitern der Forschungsgruppe Visual Analytics der Technischen Informationsbibliothek (TIB), Christian Otto und Matthias Springstein, verfasst. Die Konferenz fand vom 10. bis 13. Juni 2019 in Ottawa (Kanada) statt. Insgesamt wurden 84 Beiträge in der Rubrik „Full Paper“ zur Begutachtung eingereicht, von denen 26 zur Präsentation eines Vortrags auf der Konferenz eingeladen wurden.

Die Wissenschaftler zeigen in ihrem Beitrag, wie sich die Beziehungen zwischen visuellen und dazugehörigen textuellen Informationen formal beschreiben lassen, und ergänzen den aktuellen Forschungsstand zu Bild-Text-Bezügen um eine weitere Dimension. Bislang erfolgte die Charakterisierung von Text-Bild-Bezügen mithilfe der beiden Metriken „Cross-modal Mutual Information“ (CMI) („Wie viele Objekte/Personen haben Bild und Text gemein?“) und Semantic Correlation (SC) („Wie viel Interpretation und Kontext haben Bild und Text gemein?). In dem ausgezeichneten Paper kommt nun eine weitere Dimension hinzu: die Status-Relation von Bild und Text. Diese Relation beschreibt, ob beide Modalitäten – also Text und Bild – bei der Vermittlung von Informationen gleich wichtig sind oder ob eine von beiden eine übergeordnete Rolle spielt.

Anschließend wird gezeigt, wie sich aus diesen drei Metriken eine Kategorisierung semantischer Bild-Text-Klassen ableiten lässt, die eine (automatische) Klassifikation von Bild-Text-Paaren entsprechend ihres Typs gestattet. Hierbei haben die Autoren interdisziplinär gearbeitet und Forschungsergebnisse aus den Kommunikationswissenschaften aufgegriffen und in die Informatik übertragen.

Die Autoren stellen auch ein auf tiefen neuronalen Netzen („Deep Learning“) basierendes System vor, das automatisch diese Bild-Text-Metriken und -Klassen bestimmen kann. Zum Trainieren solcher Netze und zur Unterstützung künftiger Forschung wird ein (fast vollständig) automatisch generierter Datensatz öffentlich zur Verfügung gestellt.

Anwendungen für diese Arbeit finden sich zum Beispiel im Bereich des Lernens im Web oder in der Schule: Hier können benutzer- oder themenspezifische Inhalte gefiltert beziehungsweise nach Relevanz sortiert werden. Potenziell lassen sich die Ergebnisse aber auf viele verschiedene Aufgaben im Zusammenhang von multimodalen Informationen (Generierung von Bildbeschreibungen, automatische Beantwortung von Fragen, Suchmaschinen etc.) anwenden, da sie einen tieferen Einblick in das Zusammenspiel von Bild und Text aus Informatiksicht geben.

Referenz: Christian Otto, Matthias Springstein, Avishek Anand, and Ralph Ewerth: „Understanding, Categorizing and Predicting Semantic Image-Text Relations“. In: Proceedings of ACM International Conference on Multimedia Retrieval, Ottawa, Canada, pp. 168-176, 2019. DOI: doi.org/10.1145/3323873.3325049