9 Fallstudie 4 Mehrebenenannotation multimodaler Daten

9.1 Einleitung

Der vorliegende Beitrag präsentiert einen komplexen theoretisch-methodischen Ansatz für die semi-automatische Annotation und Analyse von Spontansprache in Transkripten als Teil multimodaler Daten. 

Die Annotation erfolgt mit einer definierten Zielstellung, basierend auf einem Annotationsschema und zugehörigen Annotationsrichtlinien. Analyseleitend sind immer Forschungsfragen. 

Im Mehrebenenannotationsansatz erfolgt die Annotation schichtweise, die Daten werden auf verschiedenen Ebnen mit Informationen angereichert. Mit der Komplexität der Zielstellung wächst auch der Umfang des Annotationsschemas. Das trifft insbesondere auf die Annotation multimodaler Transkripte zu. Sie erfordern die Definition und Einführung einer Vielzahl von Annotationsebenen, die neben sprachlichen auch kommunikative und praktische Handlungen erfassen. 

9.2 Forschungskontext: Das Projekt Modiko

Ziel des Projekts: Modelle, Methode und Tools zu entwickeln, die es erlauben, Modalitätsinterdependenz systematisch zu analysieren. 

Der Annotationsansatz unterstützt dies, indem er ermöglicht, Muster über verschiedene Datensätze hinweg zu betrachten und identifizieren. 

9.3 Ansätze zur Annotation von Spontansprache und Multimodalität

---TreeTagger: der Standardtool erlaubt die automatische Auszeichnung von Text mit morphosyntaktischen Kategorien (Pos-Tags) nach dem STTS-Tagset.

--- WebTagger: eine Weiterentwicklung von TreeTagger für Webtexte. 

--- EXMARaLDA: kann eine Mehrebenenannotation ermöglichen. 

--- Das Dortmunder Chat-Korpus: untersucht internetbasierte Kommunikation. 

--- Tagset für gesprochene Sprache: STTS-Tagset wird um neun Kategorien erweitert. Der TreeTagger wurde mit diesem Tagset auf das FOLK-Korpus trainiert und ein Goldstandard erstellt. 

---Tools für die Annotation von Audio- und Videodaten: ANVIL und ELAN unterstützt die Verknüpfung von Videos und Audiodateien in einem Screen. 

Fazit: die genanten Ansätze erfassen Teilaspekte der MID, können MID nicht in ihrer Vielfalt abbilden. 

9.4 Mehrebenenannotation

Dieser Ansatz dient der systematischen Beschreibung von MID-Formen für  Analyse der Musterhaftigkeit von MID und der Betrachtung von MID-Funktionen. 

Die Entwicklung erfolgt daten- wie modellgeleitet. 

-- Datenbasis: Für die Entwicklung des Annotationsansatzes wurde aus dem Gesamtdatenbestand ein Pilotkorpus sowie ein Goldstandard gebildet. 

--- Datenaufbereitung und automatische Annotation: Die Umsetzung des Mehrebenenannotationsansatzes erfolgt in EXMARaLDA.  Die Daten wurden tokenisiert und morphosyntaktisch annotiert. Dafür wird der Tool TreeTagger adaptiert. Dann wurden die Daten in EXMARaLDA überführt. Die transktibierten Äußerungen werden fortlaufend in einer Zeile dargestellt und durch Annotationsebenen ergänzt. Die Benennung der Ebenen ergibt sich aus dem Sprecherkürzel und dem Kürzel für den in der Ebene notierten Inhalt. 

--- Das Mehrebenenannotationsschema: Es orientiert sich an dem Ansatz von Trevisan und adaptiert ihn gegenstandsspezifisch. Das Schema umfasst 7 Ebenen und 25 Tags. Das vollständige Schema findet sich im Anhang dieses Beitrags. Das Schema umfasst 7 Spalten: 


9 Fallstudie 4 Mehrebenenannotation multimodaler Daten_第1张图片

Das Schema hat sich in der Handhabung als zielführend erwiesen, erste quantitative Auswertung des Goldstandards zeigen eine hohe Übereinstimmung der händischen Annotationen. 


Quelle: Mehrebenenannotation multimodaler Daten

你可能感兴趣的:(9 Fallstudie 4 Mehrebenenannotation multimodaler Daten)