Blog Engagement 22. Juni 2026 9 min Lesezeit

Siebenundvierzig Sekunden.
Vier-Minuten-Hörsessions.
Fünf Hebel.

Die durchschnittliche Aufmerksamkeit auf jedem Bildschirm liegt bei 47 Sekunden. Die Hälfte der News-Besucher geht innerhalb von fünfzehn. Audio-Artikel messen 75 % Abschlussrate über dreißig europäische Verlage. Hier sind die fünf operativen Hebel, die diese Lücke zu längeren Sessions verdichten.

Von Dr. Andrey Esaulov — CEO, BotTalk

Jede Redaktion hat einen Namen für den Leser, der auf einem Artikel landet, scannt und vor dem zweiten Absatz verschwindet: ein Wegklick-Leser. Das Muster ist älter als das Web. Neu ist, wie brutal die Zahlen geworden sind.

Zwanzig Jahre Bildschirm-Aufmerksamkeits-Messung an der UC Irvine, zusammengefasst in Gloria Marks Attention Span, legen das Aufmerksamkeitsfenster des durchschnittlichen Lesers auf jedem Bildschirm auf siebenundvierzig Sekunden^[1] fest — gegenüber zweieinhalb Minuten im Jahr 2004. Die Recherche ist gut, die Lede ist scharf, die Fotografie ist poliert, und der größte Teil des Publikums erreicht nie das Ende des zweiten Absatzes.

Audio-Artikel öffnen eine gänzlich andere Achse. Dieselbe Recherche, vorgelesen statt gesetzt, hält 75 % der Hörer bis zum Ende über das BotTalk-Netzwerk von mehr als dreißig europäischen Verlagen, die Text-to-Speech in Produktion betreiben. Dieselben Worte. Anderes Aufmerksamkeitsbudget.

Dieser Beitrag handelt von den fünf operativen Hebeln, die diese Abschlussraten-Zahl von einem Per-Artikel-Sieg in eine Session-verlängernde Schicht der Redaktion verwandeln — und warum die Verlage, die sie betreiben, sich von denen absetzen, die es nicht tun. Geschrieben aus dem Inneren von BotTalk, der Orchestrierungsschicht, die heute Audio-Artikel über dreißig europäische Redaktionen betreibt.

Warum Text verliert und Audio sich verdichtet

Der Wegklick ist keine verlagsspezifische Anomalie — er ist die Textur des Aufmerksamkeitsmarkts 2026. Discovery ist plattform-getrieben: Leser kommen über Google Discover, Apple News oder eine Push-Benachrichtigung mit einem einzigen Intent-Gate, der Überschrift. Scroll-Geschwindigkeit ist Muskelgedächtnis: Ein Leser aus dem Social-Traffic hat in der letzten halben Stunde bereits an vierzig Inhaltsstücken vorbeigescrollt. Die Hürde, auf Ihrem aufzuhören zu scrollen, ist höher als die Hürde, Ihres zu lesen.

Chartbeat hat die Klippe vor über einem Jahrzehnt quantifiziert, mit einer Analyse von zwei Milliarden Seitenbesuchen, die ergab, dass 55 % der Besucher weniger als fünfzehn Sekunden aktiv auf einer Seite verbringen^[6]. Der Cross-Publisher-Benchmark von Pew Research, gezogen aus einem Datensatz mit 117 Millionen Interaktionen, hat das Bild von der Seite der engagierten Leser her verfeinert: durchschnittliche engagierte Zeit bei Langform liegt bei rund zwei Minuten; bei Kurzform näher an einer^[2]. Der Artikel, den der Redakteur für zehntausend Worte konzipiert hat, wird selten über zweitausend hinaus gelesen.

Audio schlägt Text auf dieser Achse nicht. Es öffnet eine neue. Der Leser, der bei 47 Sekunden absprang, bleibt vier Minuten, wenn der Artikel ihm vorgelesen wird. Der Leser, der gar nie auf die Seite gekommen wäre, abonniert den Podcast-Feed und hört im Fitnessstudio.

Unter dieser Verschiebung sitzt ein tieferer Wandel darin, wie das Publikum überhaupt jedes Medium konsumiert. Bis zu 85 % der Mobile-Feed-Videos auf Facebook und Instagram werden heute ohne Ton angeschaut^[5]. Die Bildschirmzeit ist ohnehin verloren. Was an ihre Stelle tritt, ist Hintergrund-Audio — über den Lautsprecher, während der Wasserkessel kocht, auf AirPods beim Schulweg, im Auto zwischen Terminen. Verlage, die nur Text ausliefern, konkurrieren um die sichtbare Bildschirm-Minute. Verlage, die Audio-Artikel ausliefern, konkurrieren auch um jede andere Minute des Tages.

Abbildung 1 · Derselbe Artikel, zwei Aufmerksamkeitsspuren. Oben: Text bricht bei 47 Sekunden ab. Unten: Audio hält drei Viertel der Hörer durch die volle Vier-Minuten-Session.

Fünf Wege, lange Hörsessions mit Audio-Artikeln zu befeuern

1. Den Play-Button nach vorne ziehen — Audio ist die erste Fläche, kein Feature

Die meisten Verlags-CMS liefern den Audio-Player als kleines Affordance unter der Überschrift aus, leicht zu überscrollen. Der Wegklick-Leser erreicht ihn nie.

Der erste Zug ist, den Player auf das gleiche visuelle Gewicht wie die Lede zu heben. Eine breite, gebrandete One-Tap-Audio-Leiste — über dem ersten Absatz, sticky beim Scrollen, mit der Wiedergabedauer neben dem Play-Button, damit der Besucher das Commitment im Voraus kennt. Zeigen Sie „4:32“ so, wie YouTube die Laufzeit zeigt. Hörer entscheiden nach Dauer, nicht nach Prosa.

Zwei Folge-Züge. Erstens, Autoplay-bei-Tap statt Autoplay-bei-Ankunft — Plattform-Regeln und Leser respektieren, aber das Starten von Audio einen Tap statt drei kosten lassen. Zweitens, den Player erhalten, wenn der Leser scrollt, damit der Artikel-Body sichtbar bleibt, während Audio weiter läuft. Ein Miniatur-Dock am unteren Rand des Viewports ist das Muster, das konvertiert; ein Player, der in dem Moment, in dem der Leser scrollt, vom Bildschirm verschwindet, ist das Muster, das es nicht tut.

2. Die Stimmen klonen, denen Ihre Leser bereits vertrauen

Synthetische neutrale Stimmen sind in Ordnung für Utility-Inhalte. Sie sind nicht in Ordnung für Long-Session-Retention. Hörer bleiben bei Stimmen, die sie wiedererkennen — und auf einer News-Site sind die Stimmen, denen das Publikum bereits vertraut, Ihre eigenen Redakteure und Reporter.

Der taz-Zug ist die sauberste Case Study im europäischen Markt: die Stimmen namentlich genannter Redakteure klonen, jedem Klon eine dokumentierte, widerrufbare Einwilligung anhängen und die tatsächliche Stimme des Redakteurs ausliefern, die seine eigene Kolumne liest. Siebzig Prozent der taz-Leser hören heute statt zu lesen. Die Stimme ist nicht der Gimmick — die Stimme ist der Grund, warum der Leser bei der Byline bleibt, wegen der er gekommen ist.

Für eine Redaktion, die keine Redakteure klonen will, ist der zweitbeste Zug, eine namentlich genannte, persistente Stimme pro Ressort zu wählen. Dieselbe Stimme liest jeden Tag das Politik-Ressort. Dieselbe Stimme liest das Sport-Ressort. Wiederholung verdichtet Vertrautheit; Vertrautheit verdichtet Session-Länge. Zufällig durch generische Anbieter-Stimmen zu rotieren, zerschlägt diesen Verdichtungseffekt.

3. Die Stimme zum Moment passen — pro Story-Typ orchestrieren

Selbst mit geklonten Redakteurs-Stimmen gewinnt keine einzelne Stimme jede Zelle der Matrix. Eine Eilmeldung, eine Long-Form-Recherche, ein Abend-Briefing und eine Sport-Zusammenfassung haben jeweils eine andere Kadenz — und die Stimme, die zur Kadenz passt, hält die Aufmerksamkeit länger als die Stimme, die gegen sie kämpft.

Hier wird KI-Stimm-Orchestrierung operativ wichtig. Die Kontrollschicht über jedem Stimm-Anbieter routet jeden Artikel an die Stimme, die diese spezifische Zelle gewinnt:

Recherchen → der tiefe, bedächtige Redakteurs-Klon.
Eilmeldungen → die zügige, hochklare neuronale Stimme.
Abend-Briefings → die wärmere, dialogische Stimme.
Sport-Zusammenfassungen → die pointierte, schnellere Kadenz.

Das Ergebnis liest sich für den Hörer als redaktionelles Urteil, nicht als Anbieter-Wahl. Der Wegklick-Leser, der an einem tonalen Mismatch abgesprungen wäre, beendet den Artikel, weil die Stimme zum Genre passt. Für die Architektur hinter diesem Zug siehe auch unseren Beitrag zu Text-to-Speech für Verlage und die Orchestrierungsschicht.

4. Einen Podcast-Feed neben dem On-Site-Player ausliefern

Der On-Site-Player gewinnt die On-Site-Session. Der Podcast-Feed gewinnt die Session-fernab-vom-Tab — und die Session-fernab-vom-Tab ist dort, wo Hintergrund-Audio tatsächlich lebt.

Konkret sollte jede Redaktion, die Audio-Artikel ausliefert, auch einen automatisch generierten, verlagsspezifischen Podcast-Feed an Apple Podcasts, Spotify und das offene Podcast-Ökosystem ausliefern. Dieselben Artikel, dieselben Stimmen, dieselbe Marke. Der Leser, der zwei Stücke auf Ihrer Site gehört hat, abonniert den Feed; am nächsten Morgen ist die Stimme Ihres Redakteurs das Erste in seinem Auto-Pendelweg.

Das ist der Hebel, der Audio-Artikel von einem Website-Feature in einen Distributionskanal verwandelt. Er verdichtet sich, weil Podcast-Hörer eine Größenordnung längere durchschnittliche Session haben als Scroll-Bounce-Leser. Sie klicken nicht weg. Sie hören bis zum Ende der Episode durch, weil das die Grammatik des Mediums ist.

Der Infinite Dial 2025 von Edison Research setzt diese Fläche in den Kontext: 73 % der Amerikaner ab zwölf Jahren haben inzwischen einen Podcast konsumiert, 55 % hören monatlich, 40 % wöchentlich — geschätzte 210 Millionen Menschen, wobei die Wochenzahl gegenüber 15 % im Jahr 2017 gestiegen ist^[4]. Die Kurve ist nicht subtil.

Die Verlage in BotTalks Netzwerk, die den Podcast-Feed einschalten, sehen, wie sich neben dem On-Site-Hören eine zweite Kurve öffnet — anderes Hörer-Profil, längere Sessions und eine Markenfläche im Auto des Hörers, die die Verlags-Startseite nie erreicht.

5. Aussprache-Fehler abfangen, bevor die Synthese ausgeliefert wird

Ein falsch ausgesprochener Name tötet eine Session schneller als ein tonaler Mismatch. Der Wegklick-Leser, der „B-M-W i-X-eins“ hört, bleibt; der Wegklick-Leser, der „biX-1“ hört, lacht und schließt den Tab. Long-Session-Retention ist eine Funktion davon, wie oft der Hörer dem Audio verzeihen muss.

Der operative Zug ist, eine Qualitäts-Engine vor der Synthese zu betreiben — der Artikel wird inspiziert und normalisiert, bevor ein einziges Stimm-Modell ihn sieht. Bei BotTalk sind das fünf Prüfungen pro Artikel:

Zahlen — Währungen, Daten, Prozentwerte, Dezimalzahlen normalisiert.
Tonwechsel — abrupte Register-Wechsel vor der Synthese markiert.
Phonetik — ungewöhnliche Schreibweisen auf phonetische Transkriptionen abgebildet.
Dialekt — Entscheidungen zu österreichischem, schweizerischem, Berliner, bayerischem Register pro Artikel.
Wörterbuch — 50.000-Einträge-Aussprache-Wörterbuch mit verlagsspezifischen Einträgen für lokale Namen, Stadtteile, Sportvereine.

Das ist der unglamouröse Hebel. Er liefert kein neues Feature aus, er verhindert einen alten Ausfall. Aber der Unterschied in der durchschnittlichen Abschlussrate zwischen einer Pipeline mit Qualitäts-Engine und einer ohne ist der Unterschied zwischen Wegklick-Content und Full-Listen-Content. Der Leser hört den Artikel, den er erwartet hat. Die Session verdichtet sich.

Die Session verlängert sich, weil das Medium zum Moment passt.

Was sich ändert, wenn Audio-Artikel auf diesen fünf Hebeln laufen

Zahlen aus dem BotTalk-Netzwerk, Juni 2026:

47s

Durchschnittliche Bildschirm-Aufmerksamkeitsspanne (UC Irvine)

75%

Durchschnittliche Abschlussrate bei Audio-Artikeln

~4m

Engagierte Hörzeit pro veröffentlichtem Artikel

Europäische Verlage im BotTalk-Netzwerk

24.000 Stunden Aufmerksamkeit pro Tag eingefangen über das Netzwerk — der kumulierte Effekt davon, dass Audio-Artikel Hörer über den Text-Wegklick-Punkt hinaus halten.
6.000 Artikel pro Tag vertont über 30 Verlage (200 pro Verlag und Tag im Durchschnitt).
5 KI-Stimm-Anbieter über eine Orchestrierungs-Policy geroutet, damit die richtige Stimme zu jeder Story passt.
Null kundenseitige Ausfälle bei drei dokumentierten Anbieter-Vorfällen in den letzten zwölf Monaten — Hörer haben nichts gemerkt.

Die Zahl, an der man sich verankert, ist die 75 % Abschlussrate. So sieht es aus, wenn man „Audio-Artikel befeuern längere Sessions“ über einen Publikations-Tag multipliziert. Kein Per-Artikel-Sieg — eine Per-Redaktion-Aufmerksamkeits-Verdichtungskurve.

Der Digital News Report 2025 des Reuters Institute liefert die redaktionelle Hälfte desselben Bildes von der Hörerseite her: 73 % der News-Podcast-Hörer sagen, das Format helfe ihnen, Themen tiefer zu verstehen als der entsprechende Text^[3]. Die längere engagierte Zeit ist kein Hintergrundrauschen. Sie ist echte Aufmerksamkeit.

Zwei Verlage darüber, was sich geändert hat

Pascal Vanz, Product Manager Web/App bei Tamedia — Pascal Vanz Product Manager · Web/App · Tamedia

Felix Herkenrath, COO bei Hamburger Morgenpost — Felix Herkenrath Chief Operating Officer · Hamburger Morgenpost

Zwei Redaktionen. Zwei verschiedene Gründe, warum sich Audio verdichtet hat. Beide haben den Leser über die Text-Wegklick-Klippe hinaus gehalten.

Wie Sie wissen, ob Ihr Audio Sessions wirklich verdichtet

Ein Vier-Fragen-Audit für jede Redaktion, die bereits Audio-Artikel ausgeliefert hat, aber noch nicht den Session-Lift sieht, den das BotTalk-Netzwerk sieht.

Wo auf der Seite sitzt der Play-Button? Unter der Lede ist zu spät. Über der Lede, mit sichtbarer Dauer, sticky beim Scrollen, ist die Latte.
Wessen Stimme liest den Artikel? Wenn es die gleiche Default-Anbieter-Stimme ist, die jede Redaktion benutzt, differenzieren Sie nicht. Namentlich genannte Redakteure oder namentlich genannte Ressort-Stimmen verdichten sich; rotierende generische Stimmen tun das nicht.
Gibt es einen Podcast-Feed? Wenn Audio nur auf der Artikel-Seite lebt, fangen Sie On-Site-Sessions ein und ignorieren die viel größere Hintergrund-Hör-Session. Liefern Sie den Feed aus.
Was läuft vor dem Stimm-Modell? Wenn rohe Redaktions-Copy direkt zu ElevenLabs oder Polly geht, verzeihen Hörer im Schnitt zwei Aussprache-Fehler pro Artikel. Eine Qualitäts-Engine entfernt diese Steuer.

Vier Fragen. Zehn Minuten. Die meisten „Wir haben Audio-Artikel“-Pitches scheitern an zweien oder mehr.

Häufig gefragt

Sechs Fragen, die Redakteure stellen, bevor sie dem Audio vertrauen.

Warum haben Audio-Artikel höhere Abschlussraten als Text-Artikel?

Audio-Artikel verdichten sich auf drei Kräfte, die Text verliert: Scroll-Geschwindigkeit wird durch passives Hören ersetzt, Hintergrund-Kontexte (Autofahren, Spazieren, Kochen) werden zu gültigen Konsumflächen, und das Commitment des Hörers ist ein einzelner Tap statt anhaltender visueller Aufmerksamkeit. Im BotTalk-Netzwerk von 30 europäischen Verlagen übersetzt sich das in eine durchschnittliche Abschlussrate von 75 % bei Audio-Artikeln gegenüber einer durchschnittlichen Aufmerksamkeitsspanne von 47 Sekunden beim entsprechenden Text.

Wie lange ist die durchschnittliche Audio-Artikel-Hörsession?

Ein 3,5-minütiger Text-Artikel vertont sich auf rund fünf bis sechs Minuten Audio, weil Sprechen langsamer ist als Lesen. Bei einer Abschlussrate von 75 % bleibt der durchschnittliche Hörer rund vier Minuten pro Artikel dran — weit jenseits der Wegklick-Klippe, an der Text-Artikel abbrechen.

Was ist ein Wegklick-Leser im Verlagsgeschäft?

Ein Wegklick-Leser ist ein Besucher, der auf einer Artikel-Seite landet, weniger als eine Minute scannt und ohne über den ersten oder zweiten Absatz hinaus zu scrollen wieder geht. Wegklicks sind 2026 das dominante Muster auf traffic-getriebenen Verlags-Sites und der mit Abstand größte Grund, warum die Engagement-Kennzahlen von Text-Artikeln hinter ihrer inhaltlichen Qualität zurückbleiben.

Funktionieren Audio-Artikel, ohne dass der Verlag eine Podcast-App hat?

Ja. Die meisten Verlage liefern Audio-Artikel nur als In-Page-Player aus. Aber ein automatisch generierter Podcast-Feed neben dem Player erschließt eine zweite, größere Session-Fläche (Hintergrund-Hören) ohne zusätzliche redaktionelle Arbeit. Beides sollte laufen; eins allein lässt das halbe Publikum liegen.

Braucht das Voice-Cloning von Redakteuren eine besondere rechtliche Einwilligung?

Ja. In der EU ist das Voice-Cloning einer namentlich genannten Person rechtmäßig, wenn der Sprecher informierte, dokumentierte, widerrufbare Einwilligung gegeben hat und der Klon im Rahmen dieser Einwilligung genutzt wird. taz betreibt geklonte Redakteurs-Stimmen auf dieser Grundlage — jeder Redakteur hat einen unterzeichneten Einwilligungs-Eintrag, der am Synthese-Log hängt.

Welche Steigerung der Abschlussrate kann ein Verlag, der neu mit Audio startet, erwarten?

Produktiv-Redaktionen im BotTalk-Netzwerk erreichen typischerweise innerhalb von drei Monaten nach Start die 70-%-Abschlussraten-Klasse — vorausgesetzt, die fünf Hebel laufen: prominent platzierter Player, namentlich genannte Stimmen, Voice-zu-Story-Orchestrierung, Podcast-Feed und Qualitäts-Engine vor der Synthese. Verlage, die unter 60 % abflachen, vermissen fast immer die Qualitäts-Engine, die namentlich genannte Stimme oder den prominent platzierten Player.

Quellen

Die Forschung hinter den Zahlen.

[1] · UC Irvine · 2023
Gloria Mark, Attention Span: A Groundbreaking Way to Restore Balance, Happiness and Productivity (Hanover Square Press). Zwanzig Jahre Längsschnitt-Messung der Bildschirm-Aufmerksamkeit an der UC Irvine: durchschnittliche Aufmerksamkeit auf jedem Bildschirm fiel von 2,5 Minuten im Jahr 2004 auf 75 Sekunden im Jahr 2012 auf 47 Sekunden (2017–2023).
universityofcalifornia.edu ↗
[2] · Pew Research Center · 2016
Pew Research Center mit Parse.ly, Long-Form Reading Shows Signs of Life in Our Mobile News World. Über 117 Millionen Interaktionen auf 30 Verlags-Sites: durchschnittliche engagierte Zeit bei Langform-Artikeln liegt bei ~123 Sekunden, bei Kurzform bei ~57 Sekunden. Der kanonische Cross-Publisher-Benchmark für engagierte Artikel-Lesezeit.
pewresearch.org ↗
[3] · Reuters Institute · 2025
Reuters Institute for the Study of Journalism, Oxford, Digital News Report 2025 — The Changing Landscape of News Podcasts. Über die untersuchten Märkte hinweg: 73 % der News-Podcast-Hörer sagen, das Format helfe ihnen, Themen tiefer zu verstehen; die wöchentliche News-Podcast-Reichweite übersteigt in mehreren großen Volkswirtschaften inzwischen die wöchentliche Print-Reichweite.
reutersinstitute.politics.ox.ac.uk ↗
[4] · Edison Research · 2025
Edison Research, The Infinite Dial 2025. 73 % der Amerikaner ab 12 Jahren haben einen Podcast konsumiert, in Audio- oder Video-Form — geschätzte 210 Millionen Menschen. 55 % sind monatliche Hörer; 40 % wöchentliche, gegenüber 15 % im Jahr 2017 — Rekordwerte über die längste laufende Konsumenten-Audio-Studie der Branche.
edisonresearch.com ↗
[5] · Digiday · 2016
Digiday, A Silent World: 85% of Facebook Video is Watched Without Sound. Cross-Publisher-Berichterstattung zu Facebooks eigener interner Messung: bis zu 85 % der Mobile-Feed-Video-Wiedergaben werden stummgeschaltet konsumiert. Die kanonische Quelle für das Stumm-Video-Muster, das heute auch den Instagram- und TikTok-Konsum prägt.
digiday.com ↗
[6] · Chartbeat · 2014
Tony Haile (Chartbeat-CEO), What You Think You Know About the Web Is Wrong, TIME. Analyse von zwei Milliarden Seitenbesuchen: 55 % der Besucher verbringen weniger als 15 Sekunden aktiv auf einer Seite. Die ursprüngliche Quantifizierung des Wegklick-Musters, gegen das Verlage ein Jahrzehnt später noch optimieren.
time.com ↗

Über den Autor

Dr. Andrey Esaulov

Mitgründer & CEO · BotTalk

Andrey hat einen Doktortitel in Linguistik, und vor der Gründung von BotTalk hat er mehr als sechs Jahre lang eine Abteilung bei Axel Springer geleitet — einem der größten Verlagshäuser Europas. BotTalk betreibt heute die Audioproduktion für mehr als 30 europäische Redaktionen, darunter taz, heute.at, Tamedia und Mediengruppe Pressedruck. Andrey schreibt über Sprach-Infrastruktur, die Ökonomie von Hörer-Sessions und die Orchestrierungsschicht über kommerzieller KI.

Andrey direkt erreichen: [email protected] · LinkedIn.

Artikel zuletzt vom Autor geprüft am: 22. Juni 2026. Die Quellen zur Aufmerksamkeitsökonomie und Podcast-Nutzung im Abschnitt Quellen werden bei jeder inhaltlichen Aktualisierung erneut verifiziert.