Modeling the Contribution of Visual Attention to Spatial Language Verification
Universität Bielefeld
Thomas Terstiege geb. Kluth hat in Münster und Bremen Informatik mit dem Schwerpunkt künstliche Intelligenz, Kognition, Robotik studiert. Seine Masterarbeit hat ihn dazu motiviert, auf dem Gebiet der kognitiven Modellierung zu promovieren. Im Mai 2019 hat er seine Promotion in Linguistik am "Cognitive Interaction Technology Excellence Cluster" (CITEC) der Universität Bielefeld erfolgreich abgeschlossen. Seitdem widmet er seine Arbeitskraft dem Aufbau einer nachhaltigen Gesellschaft, um die Klimakrise möglichst effektiv zu bekämpfen.
Expertise
- kognitive Modellierung
- visuelle Aufmerksamkeit
- data science
Interessant für
- Kognitionswissenschaftler*innen
- Philosoph*innen, die sich mit der Beziehung von Sprache und Welt
auseinandersetzen - Roboterentwickler*innen, die ein Modul für "räumliche Sprache"
entwickeln wollen
Schlagworte
Sprache und visuelle Wahrnehmung, räumliche Sprache, räumliche Relationen, visuelle Aufmerksamkeit, kognitive Modellierung
Zusammenfassung
Diese Dissertation beschäftigt sich mit der Frage, wie Menschen räumliche Sprache mit der äußeren Welt in Beziehung setzen. Um diese Frage zu beantworten, habe ich untersucht, wie Menschen Sätze mit lokativen räumlichen Präpositionen (z. B. über) angesichts einer abgebildeten räumlichen Relation (z. B. ein Punkt über einem Rechteck) verifizieren. Die lokative räumliche Präposition ordnet den beiden Objekten der räumlichen Relation verschiedene Rollen zu: „Das [zu-lokalisierende- Objekt (LO)] ist über dem [Referenzobjekt (RO)]“. Die räumliche Präposition beschreibt also den Ort des LOs in Relation zum RO. Obwohl die Syntax es zulässt, schränkt die Semantik normalerweise das Vertauschen von RO und LO ein: Während der Satz „Das Fahrrad (LO) befindet sich vor dem Haus (RO)“ nicht unüblich ist, wirkt der Satz „Das Haus (LO) befindet sich hinter dem Fahrrad (RO)“ ungewöhnlich (vgl. Talmy, 2000, S. 183).
Wissenschaftler haben Verschiebungen von visueller Aufmerksamkeit als einen wichtigen Mechanismus zur Verarbeitung von räumlichen Relationen identifiziert (Franconeri, Scimeca, Roth, Helseth, & Kahn, 2012; Logan & Sadler, 1996; s. Kapitel 1 und 2). Die Richtung der Aufmerksamkeitsverschiebung ist allerdings umstritten. Während in älteren Arbeiten eine Aufmerksamkeitsverschiebung vom RO zum LO angenommen wurde (Logan, 1995; Logan & Sadler, 1996) haben jüngere empirische Befunde gezeigt, dass sich Aufmerksamkeit möglicherweise eher in der Reihenfolge des Satzes verschiebt – d. h. vom LO zum RO (Burigo & Knoeferle, 2015; Roth & Franconeri, 2012)
Das ‚Attentional Vector Sum‘-Modell (AVS, Aufmerksamkeitsvektorensumme, Regier & Carlson, 2001) ist ein komputationales, kognitives Modell der Verifizierung räumlicher Sprache. Dieses Modell nimmt (implizit) an, dass sich Aufmerksamkeit vom RO zum LO verschiebt (s. Kapitel 1). Das Modell kann die empirischen Daten einer Reihe von verschiedenen räumlichen RO-LO Konfigurationen gut abbilden (Regier & Carlson, 2001). Inwieweit hängt dieser Modellerfolg von der implementierten Richtung (vom RO zum LO) der Aufmerksamkeitsverschiebung ab? Wenn man die jüngsten empirischen Befunde in Betracht zieht, die stattdessen eine Aufmerksamkeitsverschiebung vom LO zum RO nahelegen: Würde ein Modell, welches eine Aufmerksamkeitsverschiebung vom LO zum RO implementiert, die empirischen Daten besser oder schlechter abbilden? Dies sind die Hauptforschungsfragen, die dieser Dissertation zu Grunde liegen.
Um diese Fragen zu beantworten, habe ich mehrere Variationen des AVS Modells entwickelt. In allen Variationen ist eine Aufmerksamkeitsverschiebung vom LO zum RO implementiert – unter Berücksichtigung der geometrischen Faktoren ‚proximal orientation‘ und ‚center-of-mass orientation‘, von denen bekannt ist, dass sie die Akzeptanz von räumlichen Präpositionen beeinflussen (Regier, 1996; Regier & Carlson, 2001). Das Umkehren der Richtung der Aufmerksamkeitsverschiebung spiegelt sich im Namen der neuen Modellvariationen wider: Ich habe sie ‚reversed AVS‘-Modelle (rAVS, umgekehrte AVS-Modelle) genannt. In Kapitel 3 habe ich alle rAVS-Variationen daraufhin untersucht, ob sie bereits existierende empirische Daten nachbilden können (Daten von Hayward & Tarr, 1995; Logan & Sadler, 1996; Regier & Carlson, 2001). Diese Daten sind Akzeptanzbewertungen von räumlichen Präpositionen angesichts abgebildeter räumlicher Relationen.
Ich habe alle Modelle simuliert, um zu analysieren, wie gut die Modelle ihre künstlichen Daten an die empirischen Daten anpassen können (Daten von jedem Experiment einzeln sowie den gesamten Datensatz von Regier & Carlson, 2001). Das heißt, dass ich die Abweichung zwischen den empirischen und den modellgenerierten Daten minimiert habe (genauer: den ‚normalized Root Mean Square Error‘, nRMSE, also die normalisierte Wurzel aus der mittleren quadratischen Abweichung). Dies liefert eine Güte der Modellanpassung (‚goodness-of-fit‘, GOF). Darüber hinaus habe ich untersucht, wie gut die Modelle angesichts ungesehener Daten in der Lage sind, zu generalisieren (vgl. Pitt & Myung, 2002). Dazu habe ich die ‚simple hold-out‘-Methode genutzt (SHO, einfaches Weglassen; Schultheis, Singhaniya, & Chaplot, 2013). Die SHO-Methode ist eine Kreuzvalidierungsmethode, die eine mögliche Überanpassung (‚over-fitting‘) berücksichtigt. Die Modellevaluation mithilfe dieser Methoden hat gezeigt, dass eine rAVS-Variation – das rAVSw-comb-Modell – die getesteten Daten genauso gut abbilden kann wie das AVS-Modell. Das rAVSw-comb-Modell benutzt dazu ‚relative Distanz‘ (grob: absolute Distanz zwischen LO und RO dividiert durch die Abmessungen des ROs), um den Einfluss der beiden geometrischen Faktoren ‚center-of-mass orientation‘ und ‚proximal orientation‘ zu gewichten. Diese Ergebnisse bedeuten, dass keine der beiden Richtungen der Aufmerksamkeitsverschiebung die empirischen Daten besser erklären kann als die andere.
Deshalb habe ich die AVS- und rAVSw-comb-Modelle daraufhin untersucht, ob sie eventuell unterschiedliche Datenmuster für noch nicht getestete RO-LO Konfigurationen vorhersagen (Kapitel 4). Wenn das der Fall wäre, könnten empirische Daten für diese Stimuli dabei helfen, zwischen den beiden Modellen – Implementierungen gegensätzlicher Richtungen der Aufmerksamkeitsverschiebung – zu unterscheiden (z. B. indem die Vorhersage des einen Modells aber nicht die des anderen Modells erfüllt wird). Ich habe zwei Testfälle entwickelt, für die die beiden Modelle den Anschein machten, unterschiedliche Datenmuster vorherzusagen. Der eine Testfall betrifft die relative Distanz, der zweite Testfall untersucht die Rolle von asymmetrischen RO.
Im Testfall zur relativen Distanz ist die kritische Manipulation, dass ich Rechtecke mit verschiedenen Höhen als RO genutzt habe. Die absolute Platzierung der LO bleibt konstant für alle Rechtecke. Die in dieser Arbeit präsentierte Studie ist die erste, die einen möglichen Einfluss von relativer Distanz auf Akzeptanzbewertungen von räumlichen Präpositionen untersucht. Das rAVSw-comb-Modell sagt klar voraus, dass sich die Akzeptanzbewertungen zwischen den verschieden hohen Rechtecken unterscheiden sollten (trotz gleicher absoluter Platzierung der LO). Die Vorhersage des AVS-Modells bleibt unklar. Ein Hauptgrund für diese Unklarheit ist die Vektorensumme, die über die Geometrie des ROs mittelt.
Der zweite Testfall untersucht den Einfluss von asymmetrischen RO. Hier steht insbesondere die Vektorensumme des AVS-Modells im Fokus, die dafür verantwortlich ist, die Geometrie des ROs abzubilden. Ich habe die asymmetrischen ROso entwickelt, dass LO, die über den asymmetrischen ROplatziertwerden, entweder über dem Hohlraum des ROs oder über Masse des ROs liegen. (Die Seite des ROs, die zum LO zeigt, ist flach.) Der Schwerpunkt des ROs (‚center-of-mass‘) stimmt nicht mit dem Mittelpunkt des ROs (‚center-of-object‘) überein. Der Mittelpunkt ist die Mitte des kleinsten Rechtecks, das alle Punkte des ROs beinhaltet (der sogenannten ‚bounding box‘). Intuitiv sagt das AVS-Modell voraus, dass zwei LOs, die mit gleicher Distanz zum Schwerpunkt aber entweder über dem Hohlraum oder über der Masse des asymmetrischen ROs platziert werden, unterschiedlich bewertet werden sollten. Konkreter sagt das AVS-Modell voraus, dass das LO, welches sich über der Masse befindet, höher bewertet werden sollte als das LO, welches sich über dem Hohlraum befindet. Das rAVSw-comb-Modell sagt keinen Unterschied in Bewertungen für diesen Testfall voraus.
Mithilfe der ‚Parameter Space Partitioning‘-Methode (PSP, Parameter- Raum-Aufteilung, Pitt, Kim, Navarro, & Myung, 2006) habe ich die Modelle systematisch untersucht. Diese Methode identifiziert alle vorhergesagten Datenmuster eines Modells, die sich qualitativ unterscheiden. Dazu durchsucht die PSP-Methode den gesamten Parameterraum des Modells. Überraschenderweise stellte sich durch diese Methode heraus, dass beide Modelle (AVS und rAVSw-comb) überlappende Vorhersagen treffen. (Das heißt nicht, dass beide Modelle mit allen Parametersätzen und für alle Stimuli genau die gleichen Vorhersagen treffen.) Trotz der teilweise überlappenden Vorhersagen könnten empirische Daten für diese Stimuli dabei helfen, die beiden Modelle voneinander zu unterscheiden (z. B. durch quantitativ unterschiedliche Modellanpassungen an die Daten).
Deshalb habe ich eine empirische Studie mit diesen Stimuli durchgeführt, um die Vorhersagen der Modelle hinsichtlich der beiden vorgestellten Testfälle (relative Distanz und asymmetrische RO) zu überprüfen. Die Studie wurde so gestaltet, dass sie möglichst gut vergleichbar mit früheren Studien ist (insbesondere mit den Experimenten von Regier & Carlson, 2001). 34 Studienteilnehmer sollten den Satz „Der Punkt ist über dem Objekt“ lesen und danach die Akzeptanz dieses Satzes hinsichtlich einer abgebildeten räumlichen Relation (also eines Bildes mit einem Punkt und einem Objekt) auf einer Skala von 1 bis 9 bewerten. Zusätzlich zur Präposition über habe ich die Präposition unter getestet. Die Studie beinhaltete insgesamt 448 verschiedene räumliche RO-LO Konfigurationen. Darüber hinaus habe ich die Augenbewegungen der Teilnehmer während der Präsentation der Raumrelationen aufgenommen. Diese stellen eine interessante Messgröße von offener visueller Aufmerksamkeit dar.
Die Studie generalisiert Effekte vom Englischen ins Deutsche (‚grazingline‘- Effekt und niedrigere Bewertungen für unter im Vergleich zu über). Für den Testfall der relativen Distanz zeigen die Ergebnisse der empirischen Studie, dass relative Distanz Akzeptanzbewertungen räumlicher Sprache beeinflusst. Dieses Ergebnis bestätigt die generelle Vorhersage des rAVSw-comb-Modells. Allerdings unterscheidet sich die empirisch gefundene Art und Weise des Effekts der relativen Distanz von dem konkreten Mechanismus des rAVSw-comb-Modells. Analysen der Daten legen nahe, dass niedrige relative Distanz (i) den Effekt der ‚proximal orientation‘ schwächt und dass niedrige relative Distanz (ii) – bei hohenWerten der ‚proximal orientation‘ – einen umgekehrten Effekt der ‚center-of-mass orientation‘ schwächt. Da weder das AVS-Modell noch das rAVSw-comb-Modell diesen Mechanismus erklären kann, sollte zukünftige Forschung diesen Effekt genauer untersuchen.
Für den Testfall der asymmetrischen RO legen die Daten nahe, dass Menschen statt des Schwerpunkts des ROs (‚center-of-mass‘) eher den Mittelpunkt des ROs (‚center-of-object‘) als Basis für ihre linguistischen Akzeptanzbewertungen nehmen. Dieses Ergebnis stellt die Bedeutung der ‚center-of-mass orientation‘ in Frage und lässt es wahrscheinlicher erscheinen, dass Menschen sich auf die ‚center-of-object orientation‘ stützen. Da allerdings in den meisten vorherigen Studien Schwer- und Mittelpunkt zusammenfielen, geben die hier vorgestellten Daten interessante neue Einblicke in die Art und Weise, wie Menschen asymmetrische Objekte zur Verifizierung von räumlichen Ausdrücken verarbeiten.
Die gesammelten Augenbewegungsdaten bestätigen die horizontale Komponente des im AVS-Modell definierten Aufmerksamkeitsfokus’ (dieser Punkt spielt auch im rAVSw-comb-Modell eine wichtige Rolle). Obwohl die Daten nicht der vertikalenKomponente dieses Fokus’ widersprechen, lässt sich durch das Studiendesign nicht zweifelsfrei klären, ob die Präposition oder die Platzierung der LO die vertikalen Fixationen beeinflusst hat. Darüber hinaus haben die Augenbewegungsdaten gezeigt, dass die Studienteilnehmer die beiden unterschiedlichen Typen der asymmetrischen RO unterschiedlich inspiziert haben.Während die Augenbewegungen durch die asymmetrische Massenverteilung der offeneren asymmetrischen RO (L-förmig) beeinflusst wurden, haben die Studienteilnehmer die geschlosseneren asymmetrischen RO (C-förmig) so fixiert, als wenn diese RO rechteckig wären. Trotz dieser unterschiedlichen Fixationsmuster kann die ‚center-of-object orientation‘ die empirischen Akzeptanzbewertungen besser erklären als die ‚center-of-mass orientation‘.
Um die Hypothese, dass Menschen sich zur Verifizierung von räumlichen Präpositionen eher auf den Mittel- statt auf den Schwerpunkt des ROs beziehen, näher zu untersuchen, habe ich die beiden Modelle AVS und rAVSw-comb leicht modifiziert. Daraus sind die neuen Modelle ‘AVS bounding box’ (AVS-BB) und ‘rAVS center-of-object’ (rAVS-CoO) entstanden. Anstatt den Schwerpunkt des ROs in ihren Berechnungen zu berücksichtigen (wie AVS und rAVSw-comb), nutzen die neuen Modelle AVS-BB und rAVS-CoO den Mittelpunkt des ROs. Die übrigen Bestandteile der Modelle sind unverändert geblieben. Um alle vier Modelle gründlich zu analysieren, habe ich eine Reihe weiterer Modellsimulationen durchgeführt (Kapitel 5). Mithilfe der Daten und Stimuli der Studie aus Kapitel 4 habe ich versucht, die Modelle, die eine Aufmerksamkeitsverschiebung vom RO zum LO implementieren (AVS, AVS-BB), von den Modellen, die eine umgekehrte Aufmerksamkeitsverschiebung (vom LO zum RO, rAVSw-comb, rAVS-CoO) implementieren, zu unterscheiden. Dazu habe ich alle Modelle an die gesammelten empirischen Daten angepasst (GOF, SHO). Darüber hinaus habe ich zwei weitere Modellanalysen durchgeführt: Die ‚Model Flexibility Analysis‘ (MFA, Modelflexibilitätsanalyse, Veksler, Myers, & Gluck, 2015) und die ‚landscaping‘-Methode (Navarro, Pitt, & Myung, 2004). Beide Methoden liefern Messgrößen, die die Flexibilität der Modelle beschreiben.
Wenn man herausfinden möchte, welches Modell einen modellierten Prozess besser beschreibt, sollte man sich nicht nur auf eine möglichst gute Anpassung der Modelle an die empirischen Daten verlassen (z. B. per GOF; Roberts & Pashler, 2000). Vielmehr ist es auch wichtig zu untersuchen, wie flexibel die Modelle sind. Ein sehr flexibles Modell kann neben den empirischen Daten auch viele weitere Datenmuster generieren, die möglicherweise empirisch nicht plausibel sind. Ein wenig flexibles Modell generiert nur eine geringe Menge an Datenmustern (im Idealfall die empirischen). Diese Überlegungen führen dazu, dass eine gute Modellanpassung an empirische Daten zwar ein notwendiges, aber kein hinreichendes Maß von Modellgüte ist. Zusätzlich zur Messung der Modellflexibilität, misst die ‚landscaping‘ Methode noch, inwieweit sich zwei Modelle nachahmen (in welchem Fall eine Unterscheidung der Modelle erschwert ist).
Über alle Modellsimulationen hinweg lässt sich feststellen, dass die Modelle, die den Mittelpunkt in ihren Berechnungen nutzen (AVS-BB und rAVS-CoO), deutlich besser abschneiden als die Ursprungsmodelle, die auf den Schwerpunkt setzen (AVS, rAVSw-comb). Im Vergleich mit den Schwerpunktsmodellen passen sich die Mittelpunktsmodelle besser an die empirischen Daten an (GOF, SHO), sind weniger flexibel (MFA, landscaping) und generieren Datenmuster, die näher an den empirischen Mustern liegen (PSP). Dies unterstützt die Hypothese, dass für die Verifizierung von räumlichen Präpositionen die Mittelpunktsorientierung (‚center-of-object orientation‘) wichtiger ist als die Schwerpunktsorientierung (‚center-of-mass orientation‘). Die Hauptforschungsfrage – welche Richtung der Aufmerksamkeitsverschiebung (vom RO zum LO oder vom LO zum RO) den Prozess der Verifizierung von räumlichen Präpositionen besser erklärt – lässt sich jedoch durch die Modellsimulationen nicht abschließend beantworten. Unabhängig von der implementierten Aufmerksamkeitsverschiebung lassen sich die vorliegenden Modelle anhand der existierenden Daten nicht verlässlich voneinander unterscheiden (im Sinne einer besseren Modellierung des kognitiven Prozesses). Beide Richtungen der Aufmerksamkeitsverschiebung sind gleich wahrscheinlich. Um die Modelle präziser mit empirischen Daten vergleichen zu können, stelle ich zum Schluss eine Modellerweiterung vor, die es erlaubt, dass die Modelle statt einem einzelnen Akzeptanz-Mittelwert eine komplette Verteilung von Akzeptanzbewertungen generieren können. Zukünftige Modellevaluationen können somit alle verfügbaren Informationen aus den empirischen Daten nutzen.
Die Dissertation schließt mit einer zusammenfassenden Diskussion der erreichten Ergebnisse. Basierend auf dem einflussreichen Drei- Ebenen-Konzept von Marr (1982) ordne ich die Befunde in weitere relevante Forschung ein. Außerdem skizziere ich einige vielversprechende Modellerweiterungen, die sich zur Entwicklung eines umfassenderen Modells von räumlicher Sprache als nützlich erweisen könnten. Solch ein Modell würde es ermöglichen, die Art undWeise, wie Menschen räumliche Sprache in der externen Welt verankern, noch präziser zu untersuchen.
Zitiervorschlag
Repository
pub.uni-bielefeld.deIdentifikatoren
■urn:nbn:de:0070-pub-29356864
■doi: 10.4119/unibi/2935686