Die Sprachsynthese-Methode

m Tonbandstimmen einzuspielen, scheint es erforderlich zu sein, irgendein "Rohmaterial" anzubieten, aus dem sich diese Stimmen "bilden" sollen. In schalldichten Räumen ohne jede Geräuschquelle scheinen sich dagegen keine Stimmen zu bilden. Das Frequenzspektrum dieses Rohmaterials - egal ob als direktes Schallereignis oder moduliert auf die verschiedensten Träger (Radiowellen, Licht, etc.) - muß sich dabei offenbar im hörbaren Bereich befinden. Eine der gängigsten Ansichten ist, daß es sich bei den Stimmen um paranormale Umformungen des Rohmaterials handelt. Diese Annahme konnte bisher in Experimenten jedoch noch nicht eindeutig bestätigt werden. In der Regel sind die Stimmen bereits im Rohmaterial enthalten. Einige persönliche Überlegungen dazu habe ich in dem Bericht Seite Hypothesen zur Entstehung des Tonbandstimmen-Phänomens vorgestellt.

Zur Erzeugung, Abstrahlung und Aufnahme des Rohmaterials existieren die unterschiedlichsten Methoden. Die meisten Experimentatoren benutzen ein Radio als Rohmaterial-Quelle, das auf einen fremdsprachigen Sender oder auf ein Gemisch von mehreren Sendern eingestellt wurde. Wichtig ist, daß man die Sprache selbst nicht versteht, denn dies wäre sehr irritierend. Mir persönlich war diese Methode immer zu fehleranfällig, da man dabei sehr leicht Täuschungen unterliegen kann, wenn man etwas als deutsch interpretiert, das in Wirklichkeit ein deutsch klingendes Wort in der betreffenden Fremdsprache ist. Ein "unverdächtiges", aber möglichst sprachähnliches Rohmaterial mußte her.

Fidelio Köberle, VTF e.V.
Fidelio Köberle, VTF e.V.
 

Bereits im Jahr 1988, als Viele den Computer nur aus Science-Fiction-Filmen kannten, hatte der damalige 1. Vorsitzende des Vereins für Tonbandstimmenforschung (VTF) e.V. [Link], Fidelio Köberle, die Idee, "[...] ein künstlich hergestelltes Rohmaterial zur Verfügung zu stellen, etwa analog dem bereits vielfach benutzten Wasserplätschern oder dem Geräusch bei der Reibemethode (Struck). Ideal könnte sein ein synthetisch laufend hergestelltes Rohmaterial, das der Sprache so nah wie möglich kommt. So nah wie möglich deshalb, um den Gesprächspartnern auf der anderen Seite zu erlauben, mit möglichst geringem Energieaufwand daraus echte Sprache zu machen. Geringer Energieaufwand deshalb, weil wir wissen, daß es dann am besten funktioniert (siehe Umformungen). Das Material dürfte natürlich noch keine Sprache sein, sich aber leicht in sinnvolle Sprache verwandeln lassen. Es müßte ohne Periodizität sprudeln. Es sollte Pausen enthalten, wie normales Sprechen auch. Ohne Einsatz von Zufallsgeneratoren für die Variation von Ton und Pausen wird man nicht auskommen. [...]". (Quelle: VTF-Post P 51, Heft 2/88 - 1.4.1988, Seite 42)


Zufallsgesteuerte Sprachsynthese

Helmut Schmidt an einem Psi-Testgerät
Helmut Schmidt an einem Psi-Testgerät
 

Angeregt von diesem Vorschlag wurden verschiedene Methoden entwickelt, solch ein synthetisches Rohmaterial herzustellen. Der Elektronik-Ingenieur Peter Stein (Dänemark) [Link] beispielsweise benutzte zwei Stereo-Cassetten-Abspielgeräte (Walkmen), zwischen deren vier Tonspuren mittels eines elektronischen Umschalters fortlaufend gewechselt wurde. Die Geschwindigkeit dieses Umschaltens konnte dabei eingestellt werden. Mir persönlich war diese Methode jedoch zu wenig flexibel und das damit erzeugte Rohmaterial nicht "dynamisch" genug. Angeregt durch die Psychokinese-Experimente des Parapsychologen Helmut Schmidt [Link 1, Link 2] wollte ich einen echten Zufallsgenerator [Link] verwenden, der paranormal beeinflußt werden sollte. Jede Zufallszahl sollte dabei einem Phonem der deutschen Sprache zugeordnet sein. Während dann der Zufallsgerenator lief, sollten die jeweiligen Phoneme über einen Lautsprecher ausgegeben werden. Mit etwas "Übung" sollte es den Verursachern der Stimmen dann möglich sein, durch Beeinflussung des Zufallsgenerators die gewünschten Stimmen zu synthetisieren. Da es wahrscheinlich ziemlich aufwendig und teuer gewesen wäre, dies mit elektronischen Mitteln zu realisieren, entschied ich mich für eine Lösung unter Verwendung eines Computers.


Audio-Ed

Der »Brotkasten« C64 (Bild: Boris Klug)
Der »Brotkasten« C64 (Bild: Boris Klug)
 

PCs waren damals (1989) noch teuer, und Soundkarten dafür gab es sowieso noch nicht. Zwar besaß der Amiga schon tolle Soundfähigkeiten, aber da ich gerade den Homecomputer "C64" hatte, versuchte ich es erst einmal damit. Der C64 verfügte zwar über einen Soundchip, mit dem man Töne künstlich erzeugen konnte, nicht jedoch Sprache bzw. Phoneme digitalisieren. Zufällig fand ich dann im Elektronik-Fachhandel einen Bausatz für ein sogenanntes Audio-Interface, eine Art "Soundkarten-Ersatz", den man an den User-Port des C64 anschließen konnte, um Audiosignale zu digitalisieren, im Computer-Speicher abzulegen und später wieder auszugeben. Das Audio-Interface funktionierte nach dem sogenannten "Delta-Modulationsverfahren", eine 1-Bit-A/D- und D/A-Wandlung, die sehr ungenau ist und total verrauscht klingt, aber mit sehr wenig Speicherplatz auskommt. Trotzdem war der gerade mal 48 Kilobyte große nutzbare Speicher des C64 schon nach 13 Sekunden Aufnahmezeit voll. Aber das reichte für meine Zwecke, denn immerhin konnte man darin ca. 100 unterschiedliche Phoneme unterbringen (wenn man eine durchschnittliche Phonem-Länge von 0,1 bis 0,2 Sekunden zugrundelegt), und das reichte zum Synthetisieren künstlicher Sprache völlig aus.

Bildschirmfoto: Audio-Ed (PC-Version)
Bildschirmfoto: Audio-Ed (PC-Version)
 

Zur Ansteuerung des Audio-Interface lag ein kleines BASIC-Programm bei (natürlich als Listing zum Abtippen), das aus mehreren DATA-Zeilen irgendwelche Zahlenwerte in den Hauptspeicher POKEte. Es handelte sich dabei um die Assembler-Routinen zum Ansteuern des Interfaces. Diese disassemblierte ich mit einem Maschinensprache-Monitor (so etwas Ähnliches wie DEBUG unter MS-DOS, einen "richtigen" Assembler benutzte ich erst später) und schrieb dazu - ebenfalls direkt in Maschinensprache - weitere Funktionen zum Editieren, Laden, Speichern usw. Das daraus entstandene Programm erhielt den Namen Audio-Ed. Das "Ed" deutet schon darauf hin, daß es mit diesem Programm möglich war, ein Audio-Signal zu editieren: Man konnte kurze Tonsequenzen (z.B. Phoneme) nach Gehör herausschneiden und als einzelne Segmente auf "Floppy-Disk" abspeichern. Wenn man genügend Phoneme zusammen hatte, konnte man daraus eine Phonemdatei erzeugen und die einzelnen Phoneme zufallsgesteuert wiedergeben lassen. Außerdem gab es eine Funktion, mit der man die Auswahl der Phoneme über das Gameport steuern konnte, um so einen "echten" Zufallsgenerator anschließen zu können.

In der Praxis hatte es sich aber herausgestellt, daß es für die Anzahl und die Qualität der erhaltenen Tonbandstimmen unerheblich ist, ob zur Erzeugung eines "Zufalls-Rohmaterials" richtige Phoneme oder einfach nur willkürlich aus dem Signal herausgeschnittene Segmente verwendet wurden. Auch ob es sich um "echte" Zufallszahlen oder nur Pseudo-Zufallszahlen handelt, war dafür unerheblich. Letzteres fand ich eher durch einen Zufall heraus. Hierzu eine kleine Anekdote:

Einmal erhielt ich bei einer Einspielung mit weiblicher Sprache als Rohmaterial die ziemlich deutliche und markante Stimme: Sound "Computer ist kaputt!". Ich wußte damit nichts anzufangen, denn offensichtlich funktionierte das Gerät ja bestens. Am nächsten Tag benutzte ich dasselbe Rohmaterial wieder für eine Einspielung (ich hatte mir das Sample auf Diskette abgespeichert). Als ich plötzlich dieselbe Stimme "Computer ist kaputt" wieder hörte, war ich doch anfangs ziemlich überrascht. Was war geschehen?

Da der C64 keine eingebaute Echtzeituhr hatte, wurde der Zufallsgenerator bei jedem Einschalten des Rechners immer mit denselben Startwerten initialisiert, was ich damals aber noch nicht wußte. Aber konnte das sein? Eine so deutliche Stimme aus Pseudo-Zufallszahlen? Außerdem erhielt ja die Stimme durch diesen Vorfall auch noch eine gewisse Sinnbezogenheit, indem sie mir in verschlüsselter Form (was bei TBS oft der Fall ist) zu verstehen gab, daß der "Zufallsgenerator" nicht in der von mir gedachten Form funktioniert. Ursprünglich ging ich davon aus, es würde sich um "echte" Zufallszahlen handeln, weil ja in der Literatur immer von "Zufallsgenerator" die Rede war. Meine Hypothese war folglich, daß dieser "Zufallsgenerator" (paranormal) beeinflußt werden könnte. Aber das war ja nun offensichtlich nicht der Fall, denn sonst wäre die Stimme kein weiteres Mal entstanden.

Die Schlußfolgerungen aus diesem Vorfall waren weitreichend: Offenbar war es für die Entstehung deutlicher, sinnvoller und bezugnehmender Tonbandstimmen nicht erforderlich, die Geräte paranormal zu beeinflussen!

Das Programm Audio-Ed wurde 1990 für einen PC (286er) unter MS-DOS umgeschrieben und um eine "Protokollfunktion" erweitert. Damit konnte man die erzeugte Zufalls-Sequenz während der (pseudo-)zufallsgesteuerten Wiedergabe der Segmente in einer Protokolldatei mitschreiben lassen, um zu einem späteren Zeitpunkt dasselbe "Rohmaterial" noch einmal wiedergeben zu lassen. So konnte man eine Einspielung sozusagen "wiederholen", um zu untersuchen, ob dabei dieselben Stimmen entstehen wie bei der ersten Einspielung (was bei mir bisher immer der Fall war - also keine "Umformungen").


Audigit

So sah der Sound-Digitizer (Soundkarten-Ersatz) aus
So sah der Sound-Digitizer (Soundkarten-Ersatz) aus
 

Da das Editieren der einzelnen Phoneme und das Zusammenstellen eines kompletten Phonemsatzes immer eine sehr aufwendige Angelegenheit war, erhielt die nächste Version des Programms gar keine Editierfunktion mehr und bekam daher nur den Namen "Audigit" [Link 1, Link 2]. Diese Version - nun in C geschrieben - arbeitete mit "echter" 8-Bit-D/A- und A/D-Wandlung. Soundkarten waren zu der Zeit immer noch beinahe unerschwinglich; deshalb verwendete ich einen selbstgebauten "Sound-Digitizer", zu dem es in der Ausgabe 10/90 der Zeitschrift "DOS International" (heute "PC Magazin") eine Bauanleitung gab [Link].

Bildschirmfoto: Audigit
Bildschirmfoto: Audigit
 

Auch hier lag wieder ein in Pascal und Assembler geschriebenes Beispielprogramm bei. Soundkarten-Unterstützung kam erst später dazu. Da Audigit ebenfalls ein DOS-Programm war, unterlag es natürlich immer noch den Beschränkungen des nutzbaren Speichers, der unter MS-DOS auf 640 KB begrenzt war und nur eine geringe Aufnahmezeit (ca. 25 Sekunden bei einer Sample-Frequenz von 20 kHz und einer Auflösung von 8 Bit) zuließ. Außerdem funktionierte das Programm nur mit 100% Soundblaster-kompatiblen Soundkarten. Deshalb schrieb ich im Mai/Juni 2000 einen "Nachfolger", das Programm EVPmaker, das unter Micro$oft Windows läuft und mit jeder Soundkarte funktioniert.


EVPmaker

Gegenüber "Audigit" sind bei EVPmaker einige neue Funktionen hinzugekommen. So können nun zur Bildung des Zufalls-Rohmaterials statt willkürlich herausgeschnittener Sprachsegmente auch "richtige" Phoneme verwendet werden, wenn diese zuvor mit Hilfe eines Soundbearbeitungsprogramms wie z.B. Seite Adobe Audition (ehemals CoolEdit) innerhalb des Ausgangsmaterials markiert wurden. Wenn die einzelnen Phoneme mit entsprechenden Lautschrift-Symbolen versehen werden, besteht sogar die Möglichkeit einer schriftlichen Kontrolle des Gehörten. Dadurch wird es möglich, die gehörten Stimmen zu "objektivieren" bzw. mehr über das subjektive "Verstehen" von Lautsequenzen, wie sie Tonbandstimmen darstellen, zu erfahren.

EVPmaker
Bildschirmfoto: EVPmaker
 

Eine weitere Neuerung von EVPmaker ist die Möglichkeit, ganze "Tonbandstimmen-Sitzungen" (engl. "EVP Sessions") aufzuzeichnen und dabei jede einzelne Stimme, die man aus dem erzeugten Rohmaterial heraushört, zusammen mit der gestellten Frage und der gehörten Antwort zu erfassen und abzuspeichern. Die zu jeder TBS (Tonbandstimme) gehörige Rohmaterial-Sequenz kann beliebig oft wiederholt werden, sie kann als WAV-Datei abgespeichert oder direkt in einen Sound-Editor geladen werden, um dort weiterbearbeitet oder genauer untersucht zu werden. Dabei wird jedes einzelne Rohmaterial-Segment, aus dem sich die zufällig erzeugte Sequenz zusammensetzt, in einer "Cue List" abgespeichert. Wenn der Sound-Editor über die Möglichkeit verfügt, eine solche Cue-List anzuzeigen, dann können darüber die Segmente direkt angesprungen oder diese auch einzeln wiedergegeben werden. Auf diese Weise kann man z.B. genau bestimmen, aus welchen Bruchstücken sich die TBS zusammensetzt.

Weiterhin gibt es verschiedene Arten der Generierung der Zufallszahlen, mit denen die wiederzugebenden Segmente/Phoneme vom Programm herausgepickt werden: Neben Pseudo-Zufall (wie bisher) kann nun u.a. auch "echter" Zufall verwendet werden, indem z.B. ein auf "Rauschen" eingestelltes Radio an den Eingang der Soundkarte angeschlossen wird. Diese Möglichkeiten sind allerdings noch so neu, daß ich noch nicht sagen kann, inwiefern sie die Stimmenbildung beeinflussen; hierzu müßten noch einige Versuche unternommen werden. Obwohl ich - wie oben geschrieben - bei der Sprachsynthese-Methode direkte Umformungen des Rohmaterials bisher nicht beobachten konnte, erhoffe ich mir durch die Verwendung "echten" Zufalls eine vermehrte Bildung bezugnehmender Stimmen, da ich davon ausgehe, daß sich ein analoges Gerät wie ein Radio eher in paranormale Vorgänge "einschwingen" kann als ein Computer, der intern rein logisch arbeitet und praktisch nicht "beeinflußt" werden kann.

Wer jetzt neugierig geworden ist und nun selbst gerne einmal ein wenig mit dieser Methode herumexperimentieren möchte, kann sich EVPmaker und die dazugehörige ausführliche Beschreibung sowie ein Einsteiger-Tutorial kostenlos herunterladen [Link]. Einige Stimmenbeispiele, die mit Hilfe der Sprachsynthese-Methode eingespielt wurden, sind auf der Seite Beispiele-Seite zu finden.



English