Die Sprachqualität eines Anrufbeantworterspruches am anderen Ende der Leitung hängt tatsächlich sehr von der Qualität der Quelle ab; aber erst einmal anders, als man denkt.
Wichtig ist die Samplingrate - Grob ausgedrückt bedeutet eine hohe Samplingrate, dass eine Vielzahl interpretierbare Töne (Frequenzen) oder anders gesagt, ein Frequenzbereich von möglichst tiefen bis hin zu möglichst hohen Tönen benutzt wird. Von "möglichst tief" bis "möglichst hoch" bedeutet, dass die größtmöglichste Vielfalt der vom menschlichen Ohr interpretierbaren Toninformationen in einer hohen Samplingrate (CD-Qualität, Radio-Qualität) verwendet wird, um den wahrnehmbaren Verlust von Klanginformationen zu verhindern.
Eine Samplingrate in einem Frequenzbereich von 48 Khz klingt - so Du es wahrscheinlich gemeint hast - bereits brilliant. Und das deshalb, weil man alle wahrnehmbaren Klanginformationen erkennt, und es als eine perfekte Wiedergabe einstuft.
Menschliche Sprache verfügt jedoch nicht über einen so ausgedehnten Samplingbereich wie beispielsweise die orchestrale Wiedergabe von Musik. Bereits im Unterschied zwischen CD- (44,1 kHz) und Radio-Qualität (22 kHz) bemerkt man den Verlust von Klang-Informationen; es wird also bei der Radio-Qualität eine niedrigere (verlustreichere) Samplingrate verwendet.
Jedoch kommt menschliche Sprache mit ihrer - vergleichbaren - niedrigen Klangvielfalt noch nicht einmal an die "Radio-Qualität" heran; das bedeutet, um menschliche Sprache vermeindlich verlustfrei wiederzugeben, reicht eine noch niedrigere Sampling-Rate als bei der Radio-Qualität aus (etwa 11 Khz).
Bei der Übertragung von Sprachdaten über Datenleitungen (digitale Übertragung) ist zudem zu berücksichtigen, dass jedes Byte an Daten diese Leitung belastet - früher war die Sprachqualität bei der analogen Übertragung von Sprachdaten abhängig vom verwendeten Material der Übertragungsleitungen.
Da es bei der Telefonie "eigentlich" darauf ankommt, das Sprache - und vielleicht noch etwas Sprach-Charakteristka - verständlich beim Ziel ankommt, wurde für die digitale Übertragung ein Frequenzbereich gewählt, der in etwa einer Sampling-Rate von 11 - 8Khz entspricht.
Jetzt zur Vorgehensweise: Phoner spielt also Deine, in brillianter Qualität aufgenommen, Anrufbeantwortersprüche ab - die aufgrund ihrer hohen Samplingrate sehr viele Klang-Informationen beinhalten, die für die Übertragung über die Telefonleitung sowieso nicht genutzt werden.
Also werden die Daten "heruntergesampelt", d. h. tiefe Frequenz-Bereiche (tiefe Töne) werden etwas höher gesetzt, und hohe Frequenz-Bereiche (hohe Töne) werden etwas tiefer gesetzt, bis die erforderliche Kompressions-Rate erreicht ist. Das Ergebnis ist:
Vorher in ihrem Arrangement und Zusammenhang brilliant klingende, wahrnehmbare Töne verwandeln sich im oberen und unteren Frequenzbereich in Rauschen! Das Rauschen sind ganz einfach die Töne, die von der genutzten Telefonie-Bandbreite bzw. dem genutzten Frequenzbereich nicht mehr interpretiert werden können, weil diese Samplingrate zwischen 8 und 11 Khz die Klang-Information an sich nicht mehr "verständlich" wiedergibt.
Wie kann man das vermeiden?
a) Dem Anrufbeantworterspruch möglichst keine "Zusatzinformationen" wie etwa Hintergrund-Musik oder Nebengeräusche beifügen.
Je klarer nur und ausschliesslich die Sprache aufgenommen wird, desto weniger wird die eigentliche Sprachinformation bei der Wiedergabe beim Zielteilnehmer "verrauscht".
b) Nach der Aufnahme die Nachrichten selber einmal auf "8 Khz" heruntersampeln. Wenn die Wiedergabe verständlich ist, wird sie auch so beim Zielteilnehmer ankommen.
c) Atemgeräusche unbedingt vermeiden! Diese Zusatzinformation "Atem", die den Sprachdaten hinzugefügt wird, hört sich am anderen Ende nach dem heruntersampeln geradezu "atomar" an.
Okay, für alle Spezialisten auf diesem Gebiet: Das war eine lediglich laienhafte Erklärung der komplizierten Welt der Frequenzen und wahrnehmbaren Töne .
Grüße vom Kai