Mikrofon, das vor eine Gruppe von Sträuchern bzw. Bäumen im Hintergrund gehalten wird

Audio-Deskription für Videos: Vorschriften der Barrierefreiheit und praktische Tipps

In meinem Beitrag zu Video-Untertiteln geht es um die barrierefreie Gestaltung von Videos für gehörlose bzw. -geschädigte Menschen. Nun geht es darum, dass blinde oder stark sehbehinderte Menschen Video-Inhalte besser verstehen.

Gerade in Spielfilmen, aber auch in Reportagen oder Image-Videos passieren auf visueller Ebene relevante Dinge. Hält man sich beim Schauen die Hand vor die Augen, merkt man sehr schnell, dass wichtige Informationen und Stimmungen fehlen:

  • Gesichtsausdrücke, Grimassen
  • Erscheinungsbild von Personen: Kleidung, Alter
  • Charakteristik einer Landschaft
  • Innenaufnahmen eines Zimmers: Einrichtung, Farben, Licht
  • Besondere Einstellungen der Kamera: Zoom, Kamera-Fahrt ...
  • etc.

Um auditiv zu transportieren, was visuell für das Verständnis der Handlung wichtig ist, sind Audio-Beschreibungen notwendig (Fachbegriff: Audio-Deskriptionen). Dabei erklärt eine Off-Stimme das, was sich nicht aus dem Original-Dialog oder -kommentar erschließt. So erhalten blinde Menschen genau den Kontext, den sie brauchen, um die Geschichte zu verstehen:

  • Wo befinden wir uns?
  • Wer ist da? Wer spricht?
  • Wie sieht jemand aus?
  • Was passiert? Wann passiert es?

Erweiterte Audio-Deskription

Man kann Audio-Beschreibungen nur dort einfügen, wo Dialog und andere wichtige Töne Pause haben. Aus diesem Grund wird beispielsweise in Spielfilmen das äußere Erscheinungsbild einer Person „häppchenweise“ oder unzureichend beschrieben. Im Lehrbuch der Audio-Deskription müsste man in solchen Fällen das Bild für „erweiterte Audio-Deskriptionen“ einfrieren.

Daraus ergibt sich ein weiteres Problem: Ein Video mit erweiterter Audio-Deskription ist länger als die ursprüngliche Version. Das macht eine zweite Untertitel-Datei mit angepassten zeitlichen Informationen notwendig.
 

Video-Player der ARD-Mediathek mit eingeblendetem Layer für Optionen der Barrierefreiheit: Audio-Deskription steht auf „on“.
In den Playern der Mediatheken des öffentlich-rechtlichen Fernsehens lässt sich die Audio-Deskription im Untermenü „Sprache“ (ARD) bzw. „Optionen“ (ZDF) auswählen. Zusätzlich werden manche Filme und Beiträge als Version mit Audio-Beschreibung separat gelistet.

Audio-Deskriptionen sind gemäß WCAG Level AA sowie BITV 2.0 für aufgezeichnete Videos mit Ton vorgeschrieben, sofern darin visuelle Informationen enthalten sind, die nicht via Dialog oder Geräusch vermittelt werden.

Videos ohne Ton verlangen eine Audio-Deskription oder ein Transkript. Die alleinige Niederschrift von Untertiteln reicht nicht aus, stattdessen ist die vollständige Beschreibung aller visuellen Informationen notwendig, also quasi eine Kombination aus Untertiteln und Audio-Deskription.

Für Live-Video und Live-Audio ist die Audio-Deskription lediglich eine Option im Sinne der Barrierefreiheit. Es gibt im Übrigen Technologien, die Audio-Deskriptionen im Rahmen von Live-Events auf das Handy streamen. Wer darauf angewiesen ist, erhält so wichtige Informationen, ohne dass die anderen von der Audio-Deskription genervt sind. Eine solche App gibt es zum Beispiel von Live Voice.

4 Symbole für Audio-Deskription: AD und zwei Wellen, AD und drei Ton-Wellen, durchgestrichenes Auge und D mit 3 Wellen
Gängige Symbole für die Audio-Deskription, die z. B. in Media-Playern verwendet werden. Am häufigsten findet man den Schriftzug AD, ergänzt um 3 Klammern oder Wellen, man spielt ja auf die Schallwellen an. Der Able Player, von dem noch die Rede sein wird, verwendet nur ein großes D zusammen mit den Wellen.

Es gibt drei Möglichkeiten, Videos mit Audio-Beschreibungen bereitzustellen:

  • Eine zweite Version des Videos mit einer Audio-Spur, die die Audio-Deskription beinhaltet
  • Eine Text-Datei mit Zeitstempel, in der die Audio-Deskription niedergeschrieben ist (und die der Player automatisch als „Text-to-Speech“ umsetzt)
  • Eine Sound-Datei (.mp3, .ogg, .wav), die nur die Audio-Spur der Deskription enthält (und die der Player entsprechend zuordnet)

Die Möglichkeit, im Player zwischen der Fassung mit und ohne Audio-Deskription zu switchen, ist unabhängig von den oben genannten Möglichkeiten, das klappt mittlerweile auch mit zwei separaten Dateien.

Text-basierte Audio-Beschreibungen und Text-to-Speech-Ausgabe

Mit dieser Methode lässt sich die Produktion eines zweiten Videos umgehen. Die HTML5-Spezifikation unterstützt die Audio-Deskription in einer „Web-Video-Text-Track-Datei“ (Endung .vtt). Das ist eine mit einem Zeitstempel versehene Text-Datei, die auch für Untertitel verwendet wird. 

Man kann also eine bestehende Untertitel-Datei als Basis nehmen und in einem Editor wie dem von Happy Scribe Passagen für Audio-Beschreibungen mit zugehörigem Zeitstempel einfügen – und die Untertitel löschen. Übrig bleibt eine Text-Datei mit der reinen Audio-Deskription, die dem Video anschließend hinzugefügt wird.

Problem: Leider unterstützt kein gängiger Browser bzw. Player diese Funktion. Eine löbliche Ausnahme ist der Able Player, der für die Sprachausgabe den Web-Browser nutzt.

Beispiel-Video Able Player: Audio-Deskription über .vtt-Datei, vorgelesen vom Browser

Es gibt auch die Möglichkeit, den Text via Screen-Reader vorlesen zu lassen, was meiner Meinung nach nicht praktikabel ist, weil das zugrunde liegende Aria-Live-Attribut mit der Player-Steuerung (z. B. Lautstärke, Fortschrittsbalken) kollidiert.

Auch erweiterte Audio-Beschreibungen sind beim Able Player möglich: Er hält das Video automatisch an, bis die Beschreibung fertig vorgelesen ist.

Technisch Interessierte finden Informationen auf Englisch, wie man konkret Audio-Beschreibungen im Able Player hinzufügt

Eine sehr professionelle und umfassende Plattform, um Audio-Deskriptionen zu managen, ist Frazier– vom deutschen Unternehmen VIDEO TO VOICE GmbH:

  • Import und Export-Möglichkeiten verschiedenster Formate
  • Generierung von Audio-Dateien via Text-to-Speech-Funktion und Auswahl verschiedener Sprecher*innen
  • Komfortables Editing: Suchen/Ersetzen, Massenverarbeitung, Textbausteine, Kollaboration
  • Anbindung von Experten für Audio-Deskription
  • Mixing und Mastering für höchste Ansprüche

Der monatliche Beitrag beginnt bei 30 Euro, zwar nicht mit allen genannten Funktionen, aber trotzdem fair, wie ich finde.

Screenshot video-to-voice.com: Player mit Editier-Ansicht für Audio-Deskription, darunter die Referenzen MDR, ZDF, MDR, WDR, No Limits Media, ZDF DIGITAL
Frazier ist die umfassendste Plattform zum Management von Audio-Beschreibungen. Schön, dass es sich um ein deutsches Unternehmen handelt (obwohl die Website nur in Englisch verfügbar ist). Die Referenzen, primär aus dem öffentlich-rechtlichen Rundfunk mit entsprechend hohen Anforderungen, sprechen für sich.

Der BITV-Prüfschritt 9.1.2.3 schreibt vor, dass Audio-Deskriptionen oder eine Transkription verfügbar sind, wenn Informationen über das Bildgeschehen relevant fürs Verständnis sind. Das gilt auch für „stumme“ Videos, bei denen zusätzlich Prüfschritt 9.1.2.1 greift: Man denke an Life-Hack-Videos, die meist ohne Tonspur publiziert werden.  

Liegt kein Transkript vor, muss gemäß Prüfschritt 9.1.2.5 eine Audio-Deskription vorhanden sein – entweder zuschaltbar über den Player oder als separate Video-Datei.

Dass in der Ursprungsversion (ohne Audio-Deskription) auf die Alternative mit Audio-Beschreibungen hingewiesen werden muss, steht da nicht explizit – gehört aber meiner Meinung nach dazu. Das lässt sich entweder in der Video-Beschreibung (auf Youtube o. Ä.) oder auf der Webseite bewerkstelligen, die die Videos enthält. In Youtube sollten Sie zusätzlich eine „Video-Karte“ mit Link auf die alternative Version einbetten.

Wann darf eine Audio-Deskription fehlen?

Das ist ein interessanter Punkt, der in den Vorgaben zur Barrierefreiheit oft untergeht: Wenn ein Video nur als „Medien-Alternative“ zu einem Text-Inhalt dient, braucht man keine Audio-Beschreibung im Video – und logischerweise auch kein Transkript. Dieser Sachverhalt muss auf der Seite aber klar kommuniziert werden, und der Inhalt des Videos darf nicht über die Information in Text und Bild (via Alt-Tag) hinausgehen. Eine Frage sei gestattet: Ist der Aufwand für Bewegtbild dann überhaupt gerechtfertigt?

Videos in Gebärdensprache brauchen übrigens keine Audio-Deskription.

Synchronität der Audio-Deskription

BITV-Prüfschritt 7.2.2 bezieht sich auf den Player, nicht auf die Video- oder zugrunde liegende Text-Datei. Dieser Prüfschritt ist also für diejenigen, die auf Youtube, Vimeo oder vollständig barrierefreie Player wie Able Player oder OzPlayer zurückgreifen, nicht groß relevant.

Erhaltung der Audio-Deskription

BITV-Prüfschritt 7.2.3 schreibt vor, dass die Audio-Deskription beim Download des Videos erhalten bleibt. Das ist bei separaten Video-Dateien mit Audio-Beschreibung stets der Fall – die Datei ist ja nicht zu manipulieren.

Probleme kann es geben, wenn die Video-Datei im Player via Switch gewechselt wird und beim Download nicht klar ist, welche Datei man herunterlädt. Handelt es sich um einen Player, der die Audio-Deskription über eine .vtt-Datei automatisch generiert oder eine Tonspur für die Audio-Beschreibung hinzu mischt, sollte diese Anforderung explizit überprüft werden.

Die Verordnungen zur Barrierefreiheit schreiben vor, dass eine Audio-Deskription aussagekräftig und synchron erfolgen muss. Nicht mehr, aber auch nicht weniger. Aber wann erfüllt eine Audio-Deskription diese Eigenschaft?

Hierzu eine Checkliste – ohne Anspruch auf Vollständigkeit:

  • Beantwortung der zentralen Fragen „Wer? Was? Wo? Wann?“ in Dialog-Pausen: aber nicht mit überbordenden Details, sondern aufs Wesentliche reduziert – ggf. beantworten sich einige der Fragen automatisch über den Dialog: „Was machst du denn morgens um halb fünf im Dachboden?“
    (Regional) bekannteOrtsnamen oder Plätze können benannt werden: In einem James-Bond-Film ist es von Relevanz, dass sich 007 plötzlich in Paris befindet (den Sehenden reicht der eingeblendete Eiffelturm für diese Information).
  • Beschreibung von Personen: Haarfarbe, Alter, Kleidung, Gestik, Gesichtsausdrücke (was ziemlich schwierig ist in Anbetracht der wenigen Zeit); insbesondere ist wichtig, eine Person mit Namen einzuführen, bevor sie zu sprechen beginnt. Ob das bei den Hauptdarstellern den ganzen Film über beibehalten werden muss – stelle ich mal infrage. Relevant ist auch, ob es sich um eine Zeichentrick-Figur oder ein animiertes Knet-Männchen handelt. Echte Menschen wären der Normalfall, das muss nicht kommentiert werden.
  • Neutrale Beschreibung ohne Wertungen oder Erklärungen: „Sie schaut in die Ferne und denkt an bessere Zeiten zurück.“ – den zweiten Teil sollte man sich sparen. 
  • Berücksichtigung von Farben: Das klingt für sehende Menschen vielleicht komisch, aber Farben spielen für blinde und sehbehinderte Menschen eine wichtige Rolle. Deshalb ist der „knallrote Minirock“ ein erwähnenswertes Detail.
  • Vorlesen von Text-Einblendungen: Wird oft „übersehen“, wobei man sich streiten kann, ob die Einblendung der Namen der Schauspieler vorgelesen werden müssen, diese stehen ja meist in der Beschreibung des Videos, die via Screenreader vorgelesen wird. In der Praxis wird deshalb meist darauf verzichtet.
  • Verständliche Sprache: wenn möglich keine Fachbegriffe, keine Schachtelsätze, keine zu langen Sätze. Dafür ganze Sätze für die Beschreibung von Aktionen. Dagegen reichen für Landschaften oder Objekte unvollständige Sätze aus: „der geschmückte Eingang der Firma“. 
  • Vermeidung von „Man sieht“, „Zoom“, „Nahaufnahme“: Aber was ist mit der künstlerisch herausstechenden Kamerafahrt zu Beginn von Forest Gump? Die könnte man aus meiner Sicht durchaus beschreiben, da sie zum „Kopf-Kino“ beiträgt. Auch eine Zeitlupen-Aufnahme würde ich erwähnen. Kurz gesagt: Banalitäten vermeiden!
  • Berücksichtigung von Musik und Geräusch-Kulissen: Für die Handlung relevante Geräusche oder Musik sollten nicht mit wichtigen Text-Passagen übersprochen werden.
  • Identifizierung von Geräuschen, die nicht klar zuzuordnen oder irritierend sind: Das gilt nur, solange sehende Menschen über das Bild mitkriegen, woher ein Geräusch kommt bzw. was das für ein Geräusch ist. Furz? Furzkissen? Wegfliegender Luftballon? Das sieht man zwar, aber hört man es auch? Das ist hier die Frage. Gleichzeitig ist es nicht nötig, ein klingelndes Telefon (ein vibrierendes Handy auch?) zu kommentieren, genauso wenig wie ein hupendes Auto.

Das Erstellen einer (hochwertigen) Audio-Deskription ist mit Aufwand verbunden. Für Spielfilme, Naturfilme oder Reportagen sind Audio-Beschreibungen unbedingt notwendig, aber wie sieht es bei gängigen Marketing-Filmchen aus? 

Hier einige Tipps, wie sich typische Videos ohne die Notwendigkeit einer Audio-Deskription gestalten lassen:

Tutorials

  • Die moderierende Person stellt sich zu Beginn selbst vor und sagt, wo sie sich befindet, wenn relevant.
  • Jedes Element, das in einer Software geklickt wird, jedes Werkzeug das für eine Reparatur verwendet wird und jede Handbewegung, die für das Bastel-Resultat wichtig ist, wird explizit benannt. Jedes Zwischenergebnis wird beschrieben.

Beispiele:

„Ich rufe das Kontext-Menü rechts neben dem Video-Fenster auf und wähle ‚Untertitel als Text anzeigen‘ – und schon erscheint darunter der Plain Text, den ich nun bearbeiten kann.“

„Diesen mitglieferten 3er Inbus-Schlüssel führe ich nun von oben in die Tonarmbasis ein und lockere mit 2 bis 3 Umdrehungen die Feststellschrauben.“

Image-Video mit Interviews/Statements

  • Alle relevanten Informationen zum Arbeitgeber werden in einem Intro via Kommentar gegeben, die Mood-Bilder im Hintergrund sind nur visuelles Beiwerk. 
  • Die interviewende Person stellt sich zu Beginn selbst vor und beschreibt die Umgebung, in der sie nun aktiv wird.
  • Jede befragte Person, ob Mitarbeiter, Personalverantwortliche oder Vorgesetzte stellt sich selbst zu Beginn des Statements vor und nimmt ggf. Bezug auf die Umgebung.

Beispiele:

„Meinen Arbeitsplatz in diesem schön hell durchleuchteten Raum konnte ich nach meinen Wünschen gestalten. So bekam ich schon am zweiten Tag einen großen Zweit-Monitor, mit dem ich meine Design-Arbeiten in Photoshop umso komfortabler erledigen kann.“

„Ich befinde mich hier vor der 500 Quadratmeter großen Werkhalle von Merovinger Audio – dort, wo die größten Subwoofer Deutschlands produziert werden. Schauen wir mal rein!“

Produkt-Präsentation

  • Die moderierende Person stellt sich zu Beginn selbst vor und sagt, wo sie sich befindet (wenn von Relevanz).
  • Es wird ausgesprochen, um welches Produkt es geht (inkl. Aufgreifen des ggf. redundant eingeblendeten Textes), und wie dieses Produkt aussieht (ggf. in Häppchen).
  • Etwaige Mess-Diagramme, Darstellungen von technischen Illustrationen oder praktische Versuche sind Teil der Moderation.

Beispiele:

„Heute stelle ich euch unsere neue Webcam Ultrashot Z4 vor. Die ist nur 3 cm groß, aber zaubert ein 4K-Bild von euch, das ihr allenfalls von großen Fotokameras kennt.“

„Ich halte mal ein Thermometer an die Cam, hier mal in der weißen Version. Und wie ihr seht, wird sie nicht wärmer als 29 Grad Celsius.“

„Wir haben die Farbechtheit mit einem Spektrometer gemessen, und das Ergebnis zeigt, dass nur der Grünbereich vom Ideal des Farbraums um 5 % abweicht.“

Das sind nur einige Inspirationen, die aufzeigen sollen, wie man in Sachen Barrierefreiheit und Audio-Deskription vorausschauend agiert und nicht zwangsweise Mehraufwand generiert.

Die Möglichkeiten der künstlichen Intelligenz in Bezug auf Audio-Deskription sind noch lange nicht ausgeschöpft. Ich bin gespannt, wann der gängigste Player – Youtube – eine Upload-Möglichkeit für Audio-Beschreibungen via Text-Datei ermöglicht. Das würde vieles vereinfachen, zumal man bestehende Videos einfach damit ergänzen könnte – abgesehen von „erweiterten Beschreibungen“.

Dass die Ausgabe der Audio-Deskription in den Standard-Browsern funktioniert, darauf kann man zählen – was die Zugänglichkeit weiter vereinfacht.

Bis eine KI auf Basis der Filmsequenz automatisch eine passende Audio-Deskription generiert, wird es noch lange dauern. Zu anspruchsvoll ist diese Aufgabe, und nicht umsonst gibt es speziell ausgebildete Audio-Deskriptoren und Deskriptorinnen, die einen hohen Qualitätsstandard gewährleisten.

Screenshot audioscript.de: Seite mit Angebot für Live Audio-Description und Visualisierung mit Bild aus Theater-Aufführung „Der Rosenkavalier“
Einige der aufgeführten Unternehmen bieten auch Live-Audio-Deskription für Veranstaltungen, Konzert- und Theateraufführungen an: Speziell geschulte sehende und blinde Autoren und Autorinnen entwickeln die Hörfassungen. Erfahrene Sprecherinnen und Sprecher vermitteln die Audio-Deskription in Sprech- oder Gesangpausen.

Ausgewählte Unternehmen für Audio-Deskription für diejenigen, die das Thema mit maximaler Qualität angehen möchten:

Markus Wierl Porträtfoto
Markus Wierl
Fehler beim Mailversand.
Bitte probieren Sie es in 2 Minuten wieder.
Vielen Dank für Ihre Anfrage, ich melde mich binnen 24h zurück.
Anrede
Bitte korrigieren bzw. ergänzen Sie Ihre Angabe.
Bitte korrigieren bzw. ergänzen Sie Ihre Angabe: Ziffern sind nicht erlaubt.
Bitte korrigieren bzw. ergänzen Sie Ihre Angabe.
Bitte korrigieren bzw. ergänzen Sie Ihre Angabe: Gültige E-Mail-Adresse eingeben.
Bitte überprüfen Sie Ihre Angabe!