Der Anruf kam vom Chef. Stimme, Sprachrhythmus, leicht genervter Tonfall – alles wie immer. Nur die Bitte war ungewöhnlich: 50.000 € sofort auf ein neues Konto überweisen, dringender Lieferanten-Engpass. Der CFO überwies. Drei Stunden später kam der echte Chef ins Büro. Willkommen in der Vishing-Welle 2026 – Voice Phishing, bei dem die Stimme am Telefon nicht mehr zuverlässig zur Person gehört, die sie verspricht.
Vishing gibt es seit Jahren, aber 2026 hat sich das Spielfeld verschoben. KI-Stimmklon-Tools brauchen nur drei Sekunden sauberes Audio-Sample, um eine Stimme akustisch zu kopieren. Drei Sekunden sind ein TikTok-Clip, eine Voicemail-Begrüßung, ein LinkedIn-Video. Open-Source-Implementierungen wie OpenVoice und kommerzielle Dienste wie ElevenLabs liefern die geklonten Stimmen in unter einer Minute – in Studio-Qualität.
Wie der Angriff funktioniert

Die Angriffskette folgt fast immer dem gleichen Muster:
- Audio-Sample sammeln: Über soziale Netzwerke, YouTube-Kommentare, Voicemail-Greetings oder Konferenz-Aufnahmen. Bei Führungskräften reicht oft eine öffentliche Keynote.
- Stimme klonen: 30 Sekunden in einem Voice-Cloning-Tool, fertig ist das Modell. Spezielle Hardware ist 2026 nicht mehr nötig – das läuft auf einem Mid-Range-Laptop.
- Skript schreiben: LLMs liefern auf Knopfdruck eine plausible Krisengeschichte, abgestimmt auf den Empfänger – Lieferanten-Problem, Notfall in der Familie, Compliance-Anfrage.
- Anruf abwickeln: Per Caller-ID-Spoofing erscheint die echte Rufnummer des Chefs im Display. Der Angreifer spielt vorgeneriertes Audio direkt ein oder nutzt ein Realtime-Modell für freies Sprechen.
Reale Fälle: Wer schon Millionen verloren hat
Die Liste der dokumentierten Vorfälle ist 2026 lang und prominent:
- Arup (Februar 2024): Ein Hongkonger Mitarbeiter überwies 25 Millionen US-Dollar nach einem gefälschten Video-Call mit dem vermeintlichen CFO – die gesamte Vorstandsetage war ein Deepfake.
- Ferrari (Juli 2024): Ein Angreifer imitierte CEO Benedetto Vigna in einem WhatsApp-Anruf. Nur durch eine konkrete Rückfrage zu einem Buchtitel flog der Angriff auf.
- LastPass (April 2024): Ein Engineer erhielt mehrere Voicemails von einem geklonten „CEO Karim Toubba“. Erkannt, weil Kommunikationskanal und Stil untypisch waren.
- Banken-Sektor 2025: Mehrere deutsche und österreichische Häuser meldeten Vishing-Wellen, in denen Privatkunden im Namen „ihres Beraters“ zur Überweisung an „neue Sicherheitskonten“ angerufen wurden.
So erkennst du den Fake-Anruf

Die Stimme allein ist 2026 kein Authentifizierungsmerkmal mehr. Achte stattdessen auf das Drumherum:
- Künstliche Dringlichkeit: „Jetzt sofort“, „vor Ende des Tages“, „nicht mit anderen besprechen“ – das sind Social-Engineering-Klassiker, die unabhängig von der Stimme funktionieren.
- Untypischer Kanal: Wenn dein Chef sonst per Slack schreibt, aber plötzlich anruft – nachhaken. Wenn der Anruf aus einer ungewöhnlichen Region kommt – Alarm.
- Vermeidung von Rückfragen: Echte Personen lassen sich befragen. Eine geklonte Stimme im Realtime-Modus kommt bei spezifischen, persönlichen Fragen schnell ins Schwimmen oder weicht aus.
- Audio-Artefakte: Leichtes Echo, fehlende Atempausen, ungewöhnliche Latenz nach Fragen – 2026 nicht mehr verlässlich, aber gelegentlich noch hörbar.
Wirksame Verteidigung: Code-Wort, Callback, MFA
Drei Maßnahmen tragen 2026 das meiste:
- Code-Wort in Familie und Team: Ein vorher vereinbartes Wort, das bei jedem Geld- oder Daten-relevanten Telefonat abgefragt wird. KI kann eine Stimme klonen, aber kein Familien-internes Geheimnis raten.
- Callback-Regel: Niemals auf der Nummer reagieren, auf der du angerufen wurdest. Auflegen, in deinem eigenen Adressbuch die bekannte Nummer raussuchen, dort zurückrufen. Spoofing endet hier.
- Mehrkanal-Verifikation: Größere Transaktionen oder Datenfreigaben nur, wenn die Anfrage über einen zweiten Kanal bestätigt wird – zum Beispiel eine Slack-Nachricht über das Firmenkonto plus den Anruf. Für Unternehmen: technisch erzwungen per Workflow.
- Phishing-resistente MFA: Genau wie bei E-Mail-Phishing (siehe Phishing-Welle 2026) schützen Passkeys und Hardware-Keys gegen alle Token-Abgriffe – auch wenn ein Vishing-Anruf das Opfer dazu bringen will, einen Code vorzulesen.
Fazit
Vishing 2026 ist keine Spielerei mehr – die Tools sind frei verfügbar, die Trefferquote bei ungeübten Zielen ist hoch, und die Schäden gehen bis in den achtstelligen Bereich. Die gute Nachricht: Die Verteidigung ist trivial einfach, wenn sie etabliert ist. Ein Code-Wort kostet zehn Sekunden bei der nächsten Familien-Mahlzeit. Eine Callback-Regel kostet das Team einen kurzen Workshop. Und Hardware-Keys liegen bei 30 €. Wer die Stimme im Telefon noch immer für ein Authentifizierungsmerkmal hält, gehört statistisch zu den ersten Opfern der nächsten Welle.
Bildquelle: Wikimedia Commons (CC BY-SA 4.0 / CC0).


