Ableitung von strukturierten Daten aus manuellen Annotationen

Bereits 1945, Vannevar Bush hatte die Vision von einem System Memex, in welchem Nutzer assoziativ ihre Interessen hinterlegen können, indem sie einzelne Sequenzen von Mikrofilmen verknüpfen, aber auch persönliche Kommentare einfügen können (Bush, 1945). Allgemein wird heutzutage unter einer Annotation das Hinzufügen von zusätzlichen Informationen zu digitalen Objekten (Text, Bild, Video) verstanden. Die Annotation kann auch als Sinnbildungs- oder Erkenntnisprozess verstanden werden, denn nur durch die Beschreibung solcher digitalen Objekte, ist auch deren (Weiter-)nutzung (z.B. deren Wiederauffindbarkeit) vereinfacht. In Webapplikationen, wie beispielsweise Flickr, Youtube und Delicious werden solche Annotationen in Form von Keywords oder Tags von einer Vielzahl von Nutzern (manuell) erstellt. Eine solche manuelle Erstellung kann aber auch durch Experten erfolgen, zum Beispiel für Museen. Darüber hinaus können Annotationen auch semi-automatisch (Kombination aus manuell und automatisch) oder voll automatisch (unter Einsatz von Techniken aus dem Bereich Machine Learning) erstellt werden. Des Weiteren können Annotationen frei wählbar oder formal vorgeben sein. Formal definierte Annotationen sind zumeist basierend auf einem Schema (z.B. Taxonomie, Ontologie) vordefiniert. Ontologie-basierte Annotationen haben zu freien Begriffssystemen den Mehrwert, dass sie zusätzlich zur Validierung und Qualitätssicherung der Annotationen auch Schlussfolgerungen über die annotierte Objekte erlauben (Hunter, 2009).

Grundsätzlich sollte zwischen dem Prozess der Annotation – als Interaktionskonzept – und der resultierenden Annotation (beigefügte Information) – als Datenobjekt – unterschieden werden. In dieser Masterarbeit liegt der Schwerpunkt auf einem Annotationskorpus, der aus frei wählbaren Annotationen besteht. Dieser Korpus soll nun zur semiautomatischen Erstellung oder Ergänzung einer Ontologie genutzt werden. Das Problem was dabei adressiert wird ist, dass bei der Nutzung eines fest definierten Vokabulars, der Nutzer nur vordefinierte Annotationen verwenden darf. Das widerspricht aber häufig der erkenntnistheoretischen Dimension eines solchen Annotationsprozesses. Beispielsweise werden solche Annotationen im Bereich der Geschichtswissenschaften durchgeführt, um bestimmte Eigenschaften des digitalen Objekt zu beschreiben, aber auch um den wissenschaftlichen Erkenntnisprozess zu dokumentieren.

Anknüpfend an diesen Anwendungsbereich, soll eine Methode spezifiziert und umgesetzt werden, um eine bestehende Ontologie um neue Konzepte erweitern zu können (Benz et al., 2010). Diese „neuen“ Konzepte sollen aus den frei assoziativen Annotationen der Nutzer gewonnen werden. Einerseits soll dabei Methoden untersucht werden, um abstrakte Konzepte aus Annotationen zu gewinnen (Körner et al., 2010) und andererseits deren Sinn zu identifizieren (Niebler et al., 2013).

Referenzen:

Hunter, J. (2009), Collaborative semantic tagging and annotation systems. Annual Rev. Info. Sci & Technol. 43, 1 (January 2009), 1-84.
Körner, C.; Benz, D.; Strohmaier, M.; Hotho, A. & Stumme, G. (2010), Stop Thinking, start Tagging – Tag Semantics emerge from Collaborative Verbosity, in ‘Proceedings of the 19th International World Wide Web Conference (WWW 2010)’ , ACM, Raleigh, NC, USA .
Niebler, T.; Singer, P.; Benz, D.; Körner, C.; Strohmaier, M. & Hotho, A. (2013), How Tagging Pragmatics Influence Tag Sense Discovery in Social Annotation Systems, in Pavel Serdyukov; Pavel Braslavski; SergeiO. Kuznetsov; Jaap Kamps; Stefan Rüger; Eugene Agichtein; Ilya Segalovich & Emine Yilmaz, ed., ‘Advances in Information Retrieval’, Springer Berlin Heidelberg, pp. 86-97 .
Benz, D.; Hotho, A. & Stumme, G. (2010), Semantics made by you and me: Self-emerging ontologies can capture the diversity of shared knowledge, in ‘Proceedings of the 2nd Web Science Conference (WebSci10)’.

Art der Arbeit:

Diplom- oder Masterarbeit

Voraussetzungen:

Sehr gute Kenntnisse im Bereich Webtechnologien sind Bedingung sowie im Bereich Semantic Web wünschenswert
Sehr gute Englischkenntnisse für die Literaturanalyse

Betreuer: Prof. Müller-Birn

Weitere Informationen:

Bei Interesse, weiteren Fragen oder zwecks Vereinbarung eines Sprechstundentermins bitte senden Sie eine E-Mail an Prof. Müller-Birn.
Bitte beachten Sie, dass es sich bei dem Titel der Arbeit nur um einen Arbeitstitel handelt. Ebenfalls die finale Ausrichtung der Arbeit entscheidet sich erst nach Fertigstellung des Exposés.

Department of Mathematics and Computer Science

Human-Centered Computing

Ableitung von strukturierten Daten aus manuellen Annotationen