Proseminar Intelligente Benutzerschnittstellen
Prof. Wahlster
Universität des Saarlandes
Wintersemester 1998 / 99
Wizard of Oz Studies - Why and How
Vortrag von Ronald Bieber — schriftliche Ausarbeitung und Handout
Einführung in das Thema
"Wizard of Oz"- Experimente beschreiben einen Versuchsaufbau, bei dem die Versuchsperson glaubt, mit einem Computer zu interagieren, während die Funktionalität des Systems tatsächlich von einem menschlichen Experten, dem "Wizard", simuliert wird.
Die Autoren:
Nils Dahlbäck, | Arne Jönsson, | Lars Ahrenberg |
Natural Language Processing Laboratory
Department of Computer and Information Science Linköping, Schweden |
Übergeordnetes Forschungsgebiet der Arbeit
Das bearbeitete Paper entspringt dem weiten Forschungsgebiet der Dialoge. Verschiedene andere Arbeiten zu diesem Thema beschäftigten sich u.A. mit den folgenden Dialogarten:
- Aufgabenorientierte Dialoge
- Komplexe Objektbeschreibungen
- Erzählungen
- Informelle und formelle Argumente
- Verhandlungen
- Erklärungen
Bestehendes Ergebnis
- Menschliche Dialoge sind sehr komplex
- Die beschreibenden Theorien sind ebenfalls sehr komplex
- Oft ist Hintergrundwissen und logisches Schließen zum Verständnis von Dialogen notwendig
Forschungsziel hier und Möglichkeit der Verwendung bestehender Ergebnisse
Es geht um die Erstellung von benutzerfreundlichen Systemen mit natürlichsprachlicher Steuerung. Dabei stellt sich zunächst die Frage, ob hierzu Ergebnisse aus der zwischenmenschlichen Kommunikation benutzt werden können.
Dabei treten jedoch verschiedene Probleme auf:
- Problematischer Stil und Komplexität.
- Menschlicher Dialog wird beeinflusst durch zwischenmenschliche Einflüsse, wie z.B. Höflichkeit, schwankende Stimmungen und gesellschaftliche Hierarchien.
- Gerne werden Argumentationsschritte aufgrund von vermutetem Hintergrundwissen ausgelassen.
- Durch Vermutungen über Intentionen werden komplette Dialogschritte ausgelassen um gleich auf später erwartete Situationen einzugehen. Klassisches Beispiel der Pragmatik: „Wissen Sie, wie spät es ist?“ „Ja.“
- Zusätzliches Problem: Tastatureingaben
- Langsam
- Kompakter formuliert
- Tippfehler
- Anpassung an den Zuhörer findet immer statt (bereits ab vier Jahren), daher kann Anpassung an Computer angenommen werden.
Daraus folgt, dass das Ziel, einen Computer „wie Du und Ich“ sprechen zu lassen, nicht nur schwer zu erreichen, sondern konzeptionell falsch ist.
Schlussfolgerung
Daten zur Erstellung von natürlich-sprachlichen Schnittstellen (NLI) sollten nur anhand anderer NLIs gewonnen werden.
Problem: Wie soll man Daten über etwas gewinnen, was es noch nicht gibt?
Lösung: "Wizard of Oz"-Studien
Beschränkungen des Ansatzes
Wizard-of-Oz-Studien sind nicht ausreichend, um alle Aspekte eines neuen NLI-Systems zu beschreiben, so können Sie z.B. kein vollständiges Benutzerlexikon und auch keine vollständige Grammatik liefern. Auf der anderen Seite liefern diese Studien wichtige Daten zur Theoriebildung.
Wizard of Oz - How?
Um unnötig verallgemeinerte Ergebnisse zu verhindern werden Daten aus verschiedenen Versuchen verwendet. Insgesamt wurden dabei 150 Dialoge aus 9 verschiedenen Szenarien untersucht, wobei in zwei Fällen auch beschränkter Einsatz von Grafik zum Zuge kam und in einem Fall das Szenario durch Interaktion mit Tabellen ergänzt wurde.
Annahmen über den Benutzer
Lediglich gelegentliche oder einmalige Benutzung des Systems, da er sich sonst zu stark dem System anpassen würde.
Hat einen gewissen Einblick in die Thematik, die in dem System behandelt wird.
Aufgabenstellung des Benutzers
- Nicht zu leicht, um ausreichende Datenmengen zu erhalten
- Nicht zu detaillierte Instruktionen geben, um den Benutzer nicht einzuschränken
- Es sollte mehrere Lösungswege geben
- Es sollte mehrere korrekte Ergebnisse geben
Schwierigkeit: Glaubwürdigkeit
Die Antworten des Systems dürfen nicht den Eindruck erwecken, von Menschen generiert worden zu sein. Dies beinhaltet:
- Flüssige Ausgabe
- Keine Tippfehler
- Konsistentes Verhalten
Simulationsumgebung ARNE
- Läuft auf SUN Sparc mit Medley Lisp.
- Einbindung verschiedener Hintergrundsysteme.
- Antworteditor mit Hilfsfunktionen für vorgefertigte Antworten.
- SQL-Anfrageeditor mit vorgefertigten Masken.
- Logbuch Mechanismus mit zeitlichen Markierungen.
Hilfen für den Wizard
- Verwendung geschachtelter Menüs mit vielen vorgefertigten Antworten, die dann noch nachbearbeitet werden können.
- Standardantworten schnell zugreifbar („Bitte warten …“).
- Ähnliche Menüs auch für den SQL-Editor, zu erwartende Teilbausteine und komplette Anfragen.
Erfahrungswerte
Die Anpassung an ein neues Szenario ist sehr aufwendig, oft sind 20 - 40 Testläufe notwendig um das System so glaubwürdig zu machen, dass brauchbare Ergbnisse erzielt werden können. Besonders das Erstellen der benötigten vorgefertigten Bausteine für die Menüs braucht viel Zeit.
Verwendete Szenarien
- PUB: Ein Bibliothekssystem mit Kurzbeschreibungen und Angabe des Aufbewahrungsortes.
- C-Line: Datenbank mit Informationen über den Studiengang "Computer Science" an der Universität. Der Benutzer sollte einen Studienberater spielen.
- HiFi: Zusammenstellung und Bestellung von HiFi-Komponenten, System gibt Ratschläge zur Kombination.
- Version 1 eines Reiseberatungssystems, rein textuelle Darstellung von Daten.
- Weinratgeber, der Weine präsentiert, zu bestimmten Gerichten vorschlägt und Kombinationen mit anderen Weinen empfiehlt.
- Cars: Vorstellung verschiedener Automodelle mit Austattungsvarianten.
- Version 2 des Reiseratgebers mit Bilddarstellungen und, in der Hälfte der Experimente, die Möglichkeit, eine Reise zu buchen.
- Bei den letzten beiden Szenarien wurde die eine Hälfte der Probanden über das Experiment informiert, die andere Hälfte nicht.
Ergebnisse (Grob)
- Mensch-Maschine Interaktion (HCI) ist sprachlich einfacher als Mensch-Mensch Interaktion (HHI)
- Benutzer setzt viel Hintergrundwissen vorraus
- Flexible Benutzeranpassung nicht so wichtig, dafür aber dynamischer Focuswechsel
Nicht verwendete Szenarien
- Steuerberatungssystem Emycin: war unvollständig und fehlerhaft
- Groupware Programm mit Möglichkeit multimodaler Eingabe: ARNE war nur schwierig an mm. Eingabe anzupassen, notwendige Theorien über mm. Eingaben fehlten
- Weiteres Steuerberatungssystem: Probanden wollten keine persönlichen Daten verwenden
Erfahrung aus nicht verwendeten Systemen
Trotz langer Wartezeiten waren die Dialoge immer noch kohärent und verwendeten viele Rückbezüge auf vorherige Dialogteile.
Ansprüche an ein Szenario
- Hintergrundsystem muss entweder gut simulierbar sein oder es muss ein fertig entwickeltes Produkt benutzt werden. Dialoge, die zu stark vom System vorbestimmt werden, sind nicht erwünscht.
- Aufgabe muss verschiedene Wege und Ziele bieten, ohne den Benutzer durch Komplexität zu frustrieren. Persönliche Daten sollten zur Erfüllung der Aufgabe nicht notwendig sein.
- Testläufe sind notwendig, einerseits um den Wizard zu trainieren, andererseits um den Bedarf an vorgefertigten Antworten zu ermitteln.
Gespräche im Anschluss an das Experiment
- Zur Ermittlung, ob die Täuschung gelungen ist
- Angebot an den Benutzer, die Daten des Experiments sofort zu löschen
- Weiterer Dialog über Eindrücke und Erfahrungen des Benutzers
Moralisches Problem
Der Benutzer wird über die wahre Natur des Experimentes getäuscht. Diese Täuschung ist aber notwendig, um das Ziel des Experiments zu erreichen.
Erfahrungswert: Bei offener Erklärung des Experiments und seiner Ziele gab es keine Kritik an der Verfahrensweise durch die Probanden; dies mag daran liegen, dass das Experiment keine peinlichen Situationen enthielt.
Kritik an dieser Forschung
Experimente befassen sich nicht mit existierenden Systemen:
Aber: Dadurch ist man frei von den Einschränkungen existierender Systeme. Dies ist wichtig, da wir noch nicht absehen, welche Einschränkungen in der Zukunft überhaupt noch bestehen werden. Beschränkungen sind auch schwierig zu simulieren.
Künstlichkeit; die Probanden suchen nicht aus eigener Motivation heraus nach Informationen.
Ernst zu nehmender Einwand. Beispiel: Bei der Buchung eines Urlaubes zieht der Proband nicht alle Alternativen in Betracht, weil er mit der Buchung, anders als im realen Leben, keine finanzielle Verpflichtung eingeht.
Zusammenfassung
- NLI-Theorien müssen auf Mensch-Maschi-ne Dialogen basieren, nicht auf Mensch-Mensch Dialogen.
- Viele Aspekte müssen beachtet werden um qualitativ hochwertige Daten zu erhalten.
Nachtrag — Reflections
- Das „Warum“ ist mittlerweile allgemein akzeptiert
- Es gab Fortschritte bei der Analyse
- Mehr Forschung ist notwendig, um diese Experimente miteinander vergleichen zu können
>> Auswertung standardisieren - Ergebnisse können auf Intelligente Benutzerschnittstellen (IUIs) übertragen werden
Weitere Resourcen:
- Die Vortragsfolien als PowerPoint-Präsentation sind auf Anfrage erhältlich