Wizard of Oz- Experimente beschreiben einen Versuchsaufbau, bei dem die Versuchsperson glaubt, mit einem Computer zu interagieren, während die Funktionalität des Systems tatsächlich von einem menschlichen Experten, dem Wizard, simuliert wird.
Nils Dahlbäck, Arne Jönsson, Lars Ahrenberg Natural Language Processing Laboratory Department of Computer and Information Science
Linköping, Schweden
Das bearbeitete Paper entpspringt dem weiten Forschungsgebiet der Dialoge. Verschiedene andere Arbeiten zu diesem Thema beschäftigten sich u.A. mit den folgenden Dialogarten:
- Aufgabenorientierte Dialoge
- Komplexe Objektbeschreibungen
- Erzählungen
- Informelle und formelle Argumente
- Verhandlungen
- Erklärungen
Es geht um die Erstellung von benutzerfreundlichen Systemen mit natürlichsprachlicher Steuerung. Dabei stellt sich zunächst die Frage, ob hierzu Ergebnisse aus der zwischenmenschlichen Kommunikation benutzt werden können.
Dabei treten jedoch verschiedene Probleme auf:
- Problematischer Stil und Komplexität.
- Menschlicher Dialog wird beeinflusst durch zwischenmenschliche Einflüsse, wie z.B. Höflichkeit, schwankende Stimmungen und gesellschaftliche Hierarchien.
- Gerne werden Argumentationsschritte aufgrund von vermutetem Hintergrundwissen ausgelassen.
- Durch Vermutungen über Intentionen werden komplette Dialogschritte ausgelassen um gleich auf später erwartete Situationen einzugehen. Klassisches Beispiel der Pragmatik: "Wissen Sie, wie spät es ist?" "Ja."
- Zusätzliches Problem: Tastatureingaben
- Langsam
- Kompakter formuliert
- Tippfehler
- Anpassung an den Zuhörer findet immer statt (bereits ab vier Jahren), daher kann Anpassung an Computer angenommen werden.
Daraus folgt, dass das Ziel, einen Computer wie Du und Ich sprechen zu lassen, nicht nur schwer zu erreichen, sondern konzeptionell falsch ist.
Daten zur Erstellung von natürlich-sprachlichen Schnittstellen (NLI) sollten nur anhand anderer NLIs gewonnen werden.
Problem: Wie soll man Daten über etwas gewinnen, was es noch nicht gibt?
Lösung: Wizard of Oz Studien
Wizard-of-Oz-Studien sind nicht ausreichend, um alle Aspekte eines neuen NLI-Systems zu beschreiben, so können Sie z.B. kein vollständiges Benutzerlexikon und auch keine vollständige Grammatik liefern. Auf der anderen Seite liefern diese Studien wichtige Daten zur Theoriebildung.
Um unnötig verallgemeinerte Ergebnisse zu verhindern werden Daten aus verschiedenen Versuchen verwendet. Insgesamt wurden dabei 150 Dialoge aus 9 verschiedenen Szenarien untersucht, wobei in zwei Fällen auch beschränkter Einsatz von Grafik zum Zuge kam und in einem Fall das Szenario durch Interaktion mit Tabellen ergänzt wurde.
Lediglich gelegentliche oder einmalige Benutzung des Systems, da er sich sonst zu stark dem System anpassen würde.
Hat einen gewissen Einblick in die Thematik, die in dem System behandelt wird.
Die Antworten des Systems dürfen nicht den Eindruck erwecken, von Menschen generiert worden zu sein. Dies beinhaltet:
- Flüssige Ausgabe
- Keine Tippfehler
- Konsistentes Verhalten
Die Anpassung an ein neues Szenario ist sehr aufwendig, oft sind 20 - 40 Testläufe notwendig um das System so glaubwürdig zu machen, dass brauchbare Ergbnisse erzielt werden können. Besonders das Erstellen der benötigten vorgefertigten Bausteine für die Menüs braucht viel Zeit.
Trotz langer Wartezeiten waren die Dialoge immer noch kohärent und verwendeten viele Rückbezüge auf vorherige Dialogteile.
Der Benutzer wird über die wahre Natur des Experimentes getäuscht. Diese Täuschung ist aber notwendig, um das Ziel des Experiments zu erreichen.
Erfahrungswert: Bei offener Erklärung des Experiments und seiner Ziele gab es keine Kritik an der Verfahrensweise durch die Probanden; dies mag daran liegen, dass das Experiment keine peinlichen Situationen enthielt.
Experimente befassen sich nicht mit existierenden Systemen:
Aber: Dadurch ist man frei von den Einschränkungen existierender Systeme. Dies ist wichtig, da wir noch nicht absehen, welche Einschränkungen in der Zukunft überhaupt noch bestehen werden. Beschränkungen sind auch schwierig zu simulieren.
Künstlichkeit; die Probanden suchen nicht aus eigener Motivation heraus nach Informationen.
Ernst zu nehmender Einwand. Beispiel: Bei der Buchung eines Urlaubes zieht der Proband nicht alle Alternativen in Betracht, weil er mit der Buchung, anders als im realen Leben, keine finanzielle Verpflichtung eingeht.