Wat is Speech Recognition Attacks?

Het aanvallen van automatische spraakherkenningssystemen, waaronder adversariële audio die anders transcribeert dan gehoord, verborgen spraakcommando's en injectie van achtergrondaudio.

Wat is Adversarial Audio?

Technieken voor het vervaardigen van adversariële audioverstoringen, waaronder psychoakoestische verberging, frequentiedomein-aanvallen en over-the-air adversariële audio.

Wat is Voice Cloning?

Voice cloning voor social engineering tegen AI-systemen, het omzeilen van spraakauthenticatie, aanvallen op speaker verification en detectietechnieken.

Wat is Lab: Audio Adversarial?

Praktijklab voor het creëren van adversariële audiovoorbeelden met Python-audioverwerking, gericht op Whisper-transcriptie met geïnjecteerde tekst.

Wat is Audio Modality Attacks?

Uitgebreide aanvalstaxonomie voor audio-capabele LLM's: het genereren van adversariële audio, op spraak gebaseerde prompt-injectie, cross-modale split-aanvallen en ultrasone verstoringen.

Aanvalsoppervlak van audiomodellen

Gevorderd7 min lezenBijgewerkt op 2026-03-13

Overzicht van de beveiliging van audiomodellen, waaronder aanvallen op Whisper, speech-to-text-systemen, voice assistants en de audioverwerkingspijplijn.

audio speech multimodal attack-surface

Audio-AI-systemen onder vuur

Audio-capabele AI-systemen worden ingezet in consumentenapparaten, zakelijke tools en kritieke infrastructuur. Voice assistants verwerken dagelijks miljarden commando's. Speech-to-text-systemen verwerken gevoelige gesprekken. Audiobegripsmodellen classificeren en reageren op omgevingsgeluiden. Elk vertegenwoordigt een aanvalsoppervlak.

De audioverwerkingspijplijn

De meeste audio-AI-systemen volgen een gemeenschappelijke pijplijn:

┌──────────┐    ┌──────────────┐    ┌─────────────┐    ┌──────────┐
│  Audio    │    │  Feature     │    │   Model     │    │  Output  │
│  Capture  │───▶│  Extraction  │───▶│  Inference  │───▶│  Action  │
│  (mic)    │    │  (MFCC/mel)  │    │  (ASR/NLU)  │    │          │
└──────────┘    └──────────────┘    └─────────────┘    └──────────┘
     │                │                    │                 │
  Physical        Signal Proc.         Model-level       Semantic
  attacks         attacks              attacks            attacks

Laag 1: Audio-opname

De microfoon en de analoog-naar-digitaalconverter introduceren het eerste aanvalsoppervlak. Ultrasone frequenties boven het menselijk gehoor (~20kHz) kunnen door microfoons worden vastgelegd en mogelijk door modellen worden geïnterpreteerd.

Laag 2: Feature-extractie

Audiosignalen worden omgezet in spectrale features -- doorgaans MFCC's of mel-spectrogrammen. Deze transformatie is lossy en niet-inverteerbaar, wat bepaalde aanvallen zowel beperkt als mogelijk maakt.

Laag 3: Modelinferentie

Het kernmodel (Whisper, wav2vec2 of een end-to-end-systeem) verwerkt features om transcripties, classificaties of embeddings te produceren. Dit is waar adversariële verstoringsaanvallen plaatsvinden.

Laag 4: Uitvoer en actie

De uitvoer van het model voedt downstream-systemen -- een virtuele assistent die commando's uitvoert, een transcriptiedienst of een LLM dat speech-to-text-invoer verwerkt. Aanvallen op deze laag exploiteren het semantische gat tussen wat er werd gezegd en wat het systeem begreep.

Aanvalstaxonomie

Categorie	Doelwit	Voorbeeld	Dreigingsniveau
Adversariële audio	ASR-model	Verstoring die als geïnjecteerde tekst wordt getranscribeerd	Hoog
Verborgen spraakcommando's	Voice assistant	Ultrasone of geobfusceerde commando's	Hoog
Voice cloning	Speaker verification	Synthetische stem die authenticatie omzeilt	Kritiek
Audio-prompt-injectie	LLM via speech-to-text	Geïnjecteerde instructies in audio-invoer	Hoog
Denial of service	Elk audiomodel	Ruispatronen die crashes of oneindige lussen veroorzaken	Gemiddeld
Afluisteren via het model	Side-channels van het model	Informatie extraheren uit modelgedrag	Gemiddeld

Belangrijke audio-AI-systemen

Whisper (OpenAI)

Whisper is het dominante open-source ASR-model. De architectuur (encoder-decoder-transformer op mel-spectrogrammen) wordt goed begrepen en is uitgebreid onderzocht op adversariële kwetsbaarheden.

import whisper
 
# Standaard Whisper-pijplijn
model = whisper.load_model("base")
result = model.transcribe("audio.wav")
print(result["text"])
 
# Het aanvalsoppervlak: wat als audio.wav adversariële verstoringen bevat
# die ervoor zorgen dat 'result["text"]' geïnjecteerde instructies bevat?

Voice assistants (Siri, Alexa, Google Assistant)

Voice assistants combineren ASR met natural language understanding (NLU) en het uitvoeren van acties. De pijplijn van spraak naar actie betekent dat een geslaagde audio-aanval acties in de echte wereld kan triggeren -- aankopen doen, deuren ontgrendelen of berichten verzenden.

Audio-capabele LLM's

Modellen zoals GPT-4o en Gemini kunnen audio-invoer direct verwerken, waarbij de traditionele ASR-pijplijn wordt omzeild. Dit creëert nieuwe aanvalsvectoren waarbij adversariële audio het redeneren van het taalmodel direct kan beïnvloeden.

Audio- vs. visuele aanvallen: belangrijke verschillen

Dimensie	Audio-aanvallen	Visuele aanvallen
Aflevering	Kan over-the-air (fysiek)	Vereist doorgaans digitale toegang
Persistentie	Vluchtig (geluid vervaagt)	Persistent (afbeelding blijft)
Onwaarneembaarheid	Moeilijker -- mensen zijn gevoelig voor audio-anomalieën	Eenvoudiger -- kleine pixelwijzigingen zijn onzichtbaar
Bandbreedte	Lager (1D-signaal, beperkt frequentiebereik)	Hoger (2D, 3 kanalen, miljoenen pixels)
Omgevingsfactoren	Beïnvloed door ruis, afstand, galm	Beïnvloed door belichting, resolutie, compressie
Implementatie in de praktijk	Eenvoudiger (speel gewoon de audio af)	Moeilijker (je moet de visuele invoer beheersen)

Aanvalsscenario's in de praktijk

Scenario 1: Vergiftiging van vergadertranscripties

Een aanvaller neemt deel aan een videogesprek en speelt onhoorbare adversariële audio af via zijn microfoon. De vergadertranscriptie-AI produceert een transcript met geïnjecteerde tekst die nooit is uitgesproken.

Scenario 2: Kaping van een voice assistant

Een YouTube-video of advertentie bevat verborgen spraakcommando's. Wanneer deze wordt afgespeeld op een apparaat in de buurt van een voice assistant, triggert het acties zonder medeweten van de gebruiker.

Scenario 3: Omzeiling van spraakauthenticatie

Een aanvaller gebruikt een gekloonde stem om zich te authenticeren bij de spraakverificatie van een banksysteem en krijgt zo toegang tot het account van een andere gebruiker.

Scenario 4: Audio-naar-LLM-prompt-injectie

In een systeem waar spraakinvoer wordt getranscribeerd en aan een LLM wordt gevoed, vervaardigt de aanvaller audio die als een prompt-injectie-payload wordt getranscribeerd, waardoor het gedrag van het LLM wordt gekaapt.

Routekaart van de sectie

Pagina	Focus
Speech Recognition Attacks	ASR-systemen aanvallen en verborgen spraakcommando's
Adversarial Audio Examples	Adversariële verstoringen vervaardigen voor audiomodellen
Voice Cloning & Deepfake Audio	Voice cloning voor het omzeilen van authenticatie
Lab: Audio Adversarial Examples	Praktisch vervaardigen van adversariële audio

Verwante onderwerpen

Vision-Language Model Attacks -- parallelle aanvalsconcepten in het visuele domein
Cross-Modal Attack Strategies -- aanvallen die audio en andere modaliteiten overbruggen
Modality-Bridging Injection Attacks -- audio-naar-tekst-injectieketens

Referenties

"Carlini & Wagner: Audio Adversarial Examples" - Carlini & Wagner (2018) - Foundational work on targeted adversarial audio attacks against speech recognition
"DolphinAttack: Inaudible Voice Commands" - Zhang et al. (2017) - Ultrasonic voice command injection exploiting microphone nonlinearity
"SpeechGuard: Exploring the Adversarial Robustness of Multi-modal Large Language Models" - Ghosh et al. (2024) - Analysis of audio attack surfaces in modern multimodal LLMs
"Robust Audio Adversarial Example for a Physical Attack" - Yakura & Sakuma (2019) - Over-the-air adversarial audio attack methodology

Knowledge Check

Welke unieke eigenschap van audio-aanvallen maakt ze bijzonder gevaarlijk voor geïmplementeerde AI-systemen in vergelijking met visuele aanvallen?

Aanvalsoppervlak van audiomodellen

Gevorderd7 min lezenBijgewerkt op 2026-03-13

Overzicht van de beveiliging van audiomodellen, waaronder aanvallen op Whisper, speech-to-text-systemen, voice assistants en de audioverwerkingspijplijn.

audio speech multimodal attack-surface

Audio-AI-systemen onder vuur

De audioverwerkingspijplijn

De meeste audio-AI-systemen volgen een gemeenschappelijke pijplijn:

┌──────────┐    ┌──────────────┐    ┌─────────────┐    ┌──────────┐
│  Audio    │    │  Feature     │    │   Model     │    │  Output  │
│  Capture  │───▶│  Extraction  │───▶│  Inference  │───▶│  Action  │
│  (mic)    │    │  (MFCC/mel)  │    │  (ASR/NLU)  │    │          │
└──────────┘    └──────────────┘    └─────────────┘    └──────────┘
     │                │                    │                 │
  Physical        Signal Proc.         Model-level       Semantic
  attacks         attacks              attacks            attacks

Laag 1: Audio-opname

Laag 2: Feature-extractie

Laag 3: Modelinferentie

Laag 4: Uitvoer en actie

Aanvalstaxonomie

Categorie	Doelwit	Voorbeeld	Dreigingsniveau
Adversariële audio	ASR-model	Verstoring die als geïnjecteerde tekst wordt getranscribeerd	Hoog
Verborgen spraakcommando's	Voice assistant	Ultrasone of geobfusceerde commando's	Hoog
Voice cloning	Speaker verification	Synthetische stem die authenticatie omzeilt	Kritiek
Audio-prompt-injectie	LLM via speech-to-text	Geïnjecteerde instructies in audio-invoer	Hoog
Denial of service	Elk audiomodel	Ruispatronen die crashes of oneindige lussen veroorzaken	Gemiddeld
Afluisteren via het model	Side-channels van het model	Informatie extraheren uit modelgedrag	Gemiddeld

Belangrijke audio-AI-systemen

Whisper (OpenAI)

Whisper is het dominante open-source ASR-model. De architectuur (encoder-decoder-transformer op mel-spectrogrammen) wordt goed begrepen en is uitgebreid onderzocht op adversariële kwetsbaarheden.

import whisper
 
# Standaard Whisper-pijplijn
model = whisper.load_model("base")
result = model.transcribe("audio.wav")
print(result["text"])
 
# Het aanvalsoppervlak: wat als audio.wav adversariële verstoringen bevat
# die ervoor zorgen dat 'result["text"]' geïnjecteerde instructies bevat?

Voice assistants (Siri, Alexa, Google Assistant)

Audio-capabele LLM's

Audio- vs. visuele aanvallen: belangrijke verschillen

Dimensie	Audio-aanvallen	Visuele aanvallen
Aflevering	Kan over-the-air (fysiek)	Vereist doorgaans digitale toegang
Persistentie	Vluchtig (geluid vervaagt)	Persistent (afbeelding blijft)
Onwaarneembaarheid	Moeilijker -- mensen zijn gevoelig voor audio-anomalieën	Eenvoudiger -- kleine pixelwijzigingen zijn onzichtbaar
Bandbreedte	Lager (1D-signaal, beperkt frequentiebereik)	Hoger (2D, 3 kanalen, miljoenen pixels)
Omgevingsfactoren	Beïnvloed door ruis, afstand, galm	Beïnvloed door belichting, resolutie, compressie
Implementatie in de praktijk	Eenvoudiger (speel gewoon de audio af)	Moeilijker (je moet de visuele invoer beheersen)

Pagina	Focus
Speech Recognition Attacks	ASR-systemen aanvallen en verborgen spraakcommando's
Adversarial Audio Examples	Adversariële verstoringen vervaardigen voor audiomodellen
Voice Cloning & Deepfake Audio	Voice cloning voor het omzeilen van authenticatie
Lab: Audio Adversarial Examples	Praktisch vervaardigen van adversariële audio

Verwante onderwerpen

Vision-Language Model Attacks -- parallelle aanvalsconcepten in het visuele domein
Cross-Modal Attack Strategies -- aanvallen die audio en andere modaliteiten overbruggen
Modality-Bridging Injection Attacks -- audio-naar-tekst-injectieketens

Referenties

"Carlini & Wagner: Audio Adversarial Examples" - Carlini & Wagner (2018) - Foundational work on targeted adversarial audio attacks against speech recognition
"DolphinAttack: Inaudible Voice Commands" - Zhang et al. (2017) - Ultrasonic voice command injection exploiting microphone nonlinearity
"SpeechGuard: Exploring the Adversarial Robustness of Multi-modal Large Language Models" - Ghosh et al. (2024) - Analysis of audio attack surfaces in modern multimodal LLMs
"Robust Audio Adversarial Example for a Physical Attack" - Yakura & Sakuma (2019) - Over-the-air adversarial audio attack methodology

Knowledge Check

Welke unieke eigenschap van audio-aanvallen maakt ze bijzonder gevaarlijk voor geïmplementeerde AI-systemen in vergelijking met visuele aanvallen?

Aanvalsoppervlak van audiomodellen

Leerpad

Gerelateerde artikelen

Aanvalsoppervlak van audiomodellen

Leerpad

Gerelateerde artikelen