Springe direkt zu Inhalt

Vergleich der maschinellen und menschlichen Informationsextraktion

Betreuer Peter Siniakov, Heinz Schweppe

Mensch gegen Computer? Während in manchen Bereichen wie Schachspiel diese Frage schon lange nicht eindeutig beantwortet werden kann, war natürliche Sprache bis heute eine Domäne des Menschen, in der der Computer klar unterlegen war. Der Fokus der Verarbeitung natürlicher Sprache hat sich in letzter Zeit jedoch von den visionären Vorstellungen des maschinellen Sprachverstehens Richtung einfacherer und pragmatischer Aufgaben verlagert. Ein viel versprechender und aktueller Forschungsbereich ist die Informationsextraktion, in dem es darum geht, im Voraus spezifizierte Inhalte aus den natürlichsprachlichen Texten zu extrahieren und in eine strukturierte Form zu bringen (bspw. in eine Datenbank speichern), um formale Abfragen und maschinelle Weiterverarbeitung zu ermöglichen.

Das Ziel der Studienarbeit ist die Bewertung des Potentials der heutigen Informationsextraktionssysteme. Dazu soll ein  öffentlich verfügbares, trainierbares IE-System AmilCare (bzw. TRex) mit Hilfe eines verfügbaren annotierten Textcorpus (Agenturmeldungen über terroristische Aktivitäten in Lateinamerika) trainiert und evaluiert werden. Dazu wird der annotierte Textcorpus zur Hälfte in Trainings- und Testcorpus aufgeteilt. Während der erste vom System ausschließlich für das Training benutzt wird, dient der zweite zur Evaluation. Die Ergebnisse werden mit den menschlichen Leistungen auf demselben Korpus verglichen. Dazu wird der Mensch (der Bearbeiter der Studienarbeit) in gleichwertige Bedingungen wie das IE-System versetzt und erhält die Hälfte der annotierten Texte (den Trainingscorpus) zur Ansicht, um zu lernen, was die relevanten Inhalte sind, wo sie zu finden sind und wie sie extrahiert werden. Aus der anderen nicht annotierten Hälfte (dem Testcorpus) muss er die seiner Ansicht nach  und anhand des auf dem Trainingscorpus erworbenen Wissens relevanten Textfragmente extrahieren und in eine Datenbank bringen. Dazu steht Xtract - ein Toolkit für manuelle IE, das viele Vorgänge automatisiert, zur Verfügung, mit dem das Extrahieren und Abspeichern in eine Datenbank spielerisch einfach per Drag&Drop funktioniert.

Im „theoretischen“ Teil der Arbeit müssen der Anwendungsbereich, die Experimente und die Ergebnisse analysiert und diskutiert werden. Ein detaillierter Vergleich der menschlichen und maschinellen Leistungen soll erfolgen und ein Fazit gezogen werden.