Ronald Bieber's Home on the Web

Proseminar Intelligente Benutzerschnittstellen
Prof. Wahlster
Universität des Saarlandes
Wintersemester 1998 / 99

Wizard of Oz Studies - Why and How

Vortrag von Ronald Bieber — schriftliche Ausarbeitung und Handout

Einführung in das Thema

"Wizard of Oz"- Experimente beschreiben einen Versuchsaufbau, bei dem die Versuchsperson glaubt, mit einem Computer zu interagieren, während die Funktionalität des Systems tatsächlich von einem menschlichen Experten, dem "Wizard", simuliert wird.

Die Autoren:

Nils Dahlbäck, Arne Jönsson, Lars Ahrenberg
Natural Language Processing Laboratory

Department of Computer and Information Science

Linköping, Schweden

Übergeordnetes Forschungsgebiet der Arbeit

Das bearbeitete Paper entspringt dem weiten Forschungsgebiet der Dialoge. Verschiedene andere Arbeiten zu diesem Thema beschäftigten sich u.A. mit den folgenden Dialogarten:

Bestehendes Ergebnis

Forschungsziel hier und Möglichkeit der Verwendung bestehender Ergebnisse

Es geht um die Erstellung von benutzerfreundlichen Systemen mit natürlichsprachlicher Steuerung. Dabei stellt sich zunächst die Frage, ob hierzu Ergebnisse aus der zwischenmenschlichen Kommunikation benutzt werden können.

Dabei treten jedoch verschiedene Probleme auf:

Daraus folgt, dass das Ziel, einen Computer „wie Du und Ich“ sprechen zu lassen, nicht nur schwer zu erreichen, sondern konzeptionell falsch ist.

Schlussfolgerung

Daten zur Erstellung von natürlich-sprachlichen Schnittstellen (NLI) sollten nur anhand anderer NLIs gewonnen werden.

Problem: Wie soll man Daten über etwas gewinnen, was es noch nicht gibt?

Lösung: "Wizard of Oz"-Studien

Beschränkungen des Ansatzes

Wizard-of-Oz-Studien sind nicht ausreichend, um alle Aspekte eines neuen NLI-Systems zu beschreiben, so können Sie z.B. kein vollständiges Benutzerlexikon und auch keine vollständige Grammatik liefern. Auf der anderen Seite liefern diese Studien wichtige Daten zur Theoriebildung.

Wizard of Oz - How?

Um unnötig verallgemeinerte Ergebnisse zu verhindern werden Daten aus verschiedenen Versuchen verwendet. Insgesamt wurden dabei 150 Dialoge aus 9 verschiedenen Szenarien untersucht, wobei in zwei Fällen auch beschränkter Einsatz von Grafik zum Zuge kam und in einem Fall das Szenario durch Interaktion mit Tabellen ergänzt wurde.

Annahmen über den Benutzer

Lediglich gelegentliche oder einmalige Benutzung des Systems, da er sich sonst zu stark dem System anpassen würde.

Hat einen gewissen Einblick in die Thematik, die in dem System behandelt wird.

Aufgabenstellung des Benutzers

Schwierigkeit: Glaubwürdigkeit

Die Antworten des Systems dürfen nicht den Eindruck erwecken, von Menschen generiert worden zu sein. Dies beinhaltet:

Simulationsumgebung ARNE

Hilfen für den Wizard

Erfahrungswerte

Die Anpassung an ein neues Szenario ist sehr aufwendig, oft sind 20 - 40 Testläufe notwendig um das System so glaubwürdig zu machen, dass brauchbare Ergbnisse erzielt werden können. Besonders das Erstellen der benötigten vorgefertigten Bausteine für die Menüs braucht viel Zeit.

Verwendete Szenarien

Ergebnisse (Grob)

Nicht verwendete Szenarien

Erfahrung aus nicht verwendeten Systemen

Trotz langer Wartezeiten waren die Dialoge immer noch kohärent und verwendeten viele Rückbezüge auf vorherige Dialogteile.

Ansprüche an ein Szenario

  1. Hintergrundsystem muss entweder gut simulierbar sein oder es muss ein fertig entwickeltes Produkt benutzt werden. Dialoge, die zu stark vom System vorbestimmt werden, sind nicht erwünscht.
  2. Aufgabe muss verschiedene Wege und Ziele bieten, ohne den Benutzer durch Komplexität zu frustrieren. Persönliche Daten sollten zur Erfüllung der Aufgabe nicht notwendig sein.
  3. Testläufe sind notwendig, einerseits um den Wizard zu trainieren, andererseits um den Bedarf an vorgefertigten Antworten zu ermitteln.

Gespräche im Anschluss an das Experiment

Moralisches Problem

Der Benutzer wird über die wahre Natur des Experimentes getäuscht. Diese Täuschung ist aber notwendig, um das Ziel des Experiments zu erreichen.

Erfahrungswert: Bei offener Erklärung des Experiments und seiner Ziele gab es keine Kritik an der Verfahrensweise durch die Probanden; dies mag daran liegen, dass das Experiment keine peinlichen Situationen enthielt.

Kritik an dieser Forschung

Experimente befassen sich nicht mit existierenden Systemen:

Aber: Dadurch ist man frei von den Einschränkungen existierender Systeme. Dies ist wichtig, da wir noch nicht absehen, welche Einschränkungen in der Zukunft überhaupt noch bestehen werden. Beschränkungen sind auch schwierig zu simulieren.

Künstlichkeit; die Probanden suchen nicht aus eigener Motivation heraus nach Informationen.

Ernst zu nehmender Einwand. Beispiel: Bei der Buchung eines Urlaubes zieht der Proband nicht alle Alternativen in Betracht, weil er mit der Buchung, anders als im realen Leben, keine finanzielle Verpflichtung eingeht.

Zusammenfassung

Nachtrag — Reflections

Weitere Resourcen: