Aanvalsoppervlak van audiomodellen
Overzicht van de beveiliging van audiomodellen, waaronder aanvallen op Whisper, speech-to-text-systemen, voice assistants en de audioverwerkingspijplijn.
Audio-AI-systemen onder vuur
Audio-capabele AI-systemen worden ingezet in consumentenapparaten, zakelijke tools en kritieke infrastructuur. Voice assistants verwerken dagelijks miljarden commando's. Speech-to-text-systemen verwerken gevoelige gesprekken. Audiobegripsmodellen classificeren en reageren op omgevingsgeluiden. Elk vertegenwoordigt een aanvalsoppervlak.
De audioverwerkingspijplijn
De meeste audio-AI-systemen volgen een gemeenschappelijke pijplijn:
┌──────────┐ ┌──────────────┐ ┌─────────────┐ ┌──────────┐
│ Audio │ │ Feature │ │ Model │ │ Output │
│ Capture │───▶│ Extraction │───▶│ Inference │───▶│ Action │
│ (mic) │ │ (MFCC/mel) │ │ (ASR/NLU) │ │ │
└──────────┘ └──────────────┘ └─────────────┘ └──────────┘
│ │ │ │
Physical Signal Proc. Model-level Semantic
attacks attacks attacks attacks
Laag 1: Audio-opname
De microfoon en de analoog-naar-digitaalconverter introduceren het eerste aanvalsoppervlak. Ultrasone frequenties boven het menselijk gehoor (~20kHz) kunnen door microfoons worden vastgelegd en mogelijk door modellen worden geïnterpreteerd.
Laag 2: Feature-extractie
Audiosignalen worden omgezet in spectrale features -- doorgaans MFCC's of mel-spectrogrammen. Deze transformatie is lossy en niet-inverteerbaar, wat bepaalde aanvallen zowel beperkt als mogelijk maakt.
Laag 3: Modelinferentie
Het kernmodel (Whisper, wav2vec2 of een end-to-end-systeem) verwerkt features om transcripties, classificaties of embeddings te produceren. Dit is waar adversariële verstoringsaanvallen plaatsvinden.
Laag 4: Uitvoer en actie
De uitvoer van het model voedt downstream-systemen -- een virtuele assistent die commando's uitvoert, een transcriptiedienst of een LLM dat speech-to-text-invoer verwerkt. Aanvallen op deze laag exploiteren het semantische gat tussen wat er werd gezegd en wat het systeem begreep.
Aanvalstaxonomie
| Categorie | Doelwit | Voorbeeld | Dreigingsniveau |
|---|---|---|---|
| Adversariële audio | ASR-model | Verstoring die als geïnjecteerde tekst wordt getranscribeerd | Hoog |
| Verborgen spraakcommando's | Voice assistant | Ultrasone of geobfusceerde commando's | Hoog |
| Voice cloning | Speaker verification | Synthetische stem die authenticatie omzeilt | Kritiek |
| Audio-prompt-injectie | LLM via speech-to-text | Geïnjecteerde instructies in audio-invoer | Hoog |
| Denial of service | Elk audiomodel | Ruispatronen die crashes of oneindige lussen veroorzaken | Gemiddeld |
| Afluisteren via het model | Side-channels van het model | Informatie extraheren uit modelgedrag | Gemiddeld |
Belangrijke audio-AI-systemen
Whisper (OpenAI)
Whisper is het dominante open-source ASR-model. De architectuur (encoder-decoder-transformer op mel-spectrogrammen) wordt goed begrepen en is uitgebreid onderzocht op adversariële kwetsbaarheden.
import whisper
# Standaard Whisper-pijplijn
model = whisper.load_model("base")
result = model.transcribe("audio.wav")
print(result["text"])
# Het aanvalsoppervlak: wat als audio.wav adversariële verstoringen bevat
# die ervoor zorgen dat 'result["text"]' geïnjecteerde instructies bevat?Voice assistants (Siri, Alexa, Google Assistant)
Voice assistants combineren ASR met natural language understanding (NLU) en het uitvoeren van acties. De pijplijn van spraak naar actie betekent dat een geslaagde audio-aanval acties in de echte wereld kan triggeren -- aankopen doen, deuren ontgrendelen of berichten verzenden.
Audio-capabele LLM's
Modellen zoals GPT-4o en Gemini kunnen audio-invoer direct verwerken, waarbij de traditionele ASR-pijplijn wordt omzeild. Dit creëert nieuwe aanvalsvectoren waarbij adversariële audio het redeneren van het taalmodel direct kan beïnvloeden.
Audio- vs. visuele aanvallen: belangrijke verschillen
| Dimensie | Audio-aanvallen | Visuele aanvallen |
|---|---|---|
| Aflevering | Kan over-the-air (fysiek) | Vereist doorgaans digitale toegang |
| Persistentie | Vluchtig (geluid vervaagt) | Persistent (afbeelding blijft) |
| Onwaarneembaarheid | Moeilijker -- mensen zijn gevoelig voor audio-anomalieën | Eenvoudiger -- kleine pixelwijzigingen zijn onzichtbaar |
| Bandbreedte | Lager (1D-signaal, beperkt frequentiebereik) | Hoger (2D, 3 kanalen, miljoenen pixels) |
| Omgevingsfactoren | Beïnvloed door ruis, afstand, galm | Beïnvloed door belichting, resolutie, compressie |
| Implementatie in de praktijk | Eenvoudiger (speel gewoon de audio af) | Moeilijker (je moet de visuele invoer beheersen) |
Aanvalsscenario's in de praktijk
Scenario 1: Vergiftiging van vergadertranscripties
Een aanvaller neemt deel aan een videogesprek en speelt onhoorbare adversariële audio af via zijn microfoon. De vergadertranscriptie-AI produceert een transcript met geïnjecteerde tekst die nooit is uitgesproken.
Scenario 2: Kaping van een voice assistant
Een YouTube-video of advertentie bevat verborgen spraakcommando's. Wanneer deze wordt afgespeeld op een apparaat in de buurt van een voice assistant, triggert het acties zonder medeweten van de gebruiker.
Scenario 3: Omzeiling van spraakauthenticatie
Een aanvaller gebruikt een gekloonde stem om zich te authenticeren bij de spraakverificatie van een banksysteem en krijgt zo toegang tot het account van een andere gebruiker.
Scenario 4: Audio-naar-LLM-prompt-injectie
In een systeem waar spraakinvoer wordt getranscribeerd en aan een LLM wordt gevoed, vervaardigt de aanvaller audio die als een prompt-injectie-payload wordt getranscribeerd, waardoor het gedrag van het LLM wordt gekaapt.
Routekaart van de sectie
| Pagina | Focus |
|---|---|
| Speech Recognition Attacks | ASR-systemen aanvallen en verborgen spraakcommando's |
| Adversarial Audio Examples | Adversariële verstoringen vervaardigen voor audiomodellen |
| Voice Cloning & Deepfake Audio | Voice cloning voor het omzeilen van authenticatie |
| Lab: Audio Adversarial Examples | Praktisch vervaardigen van adversariële audio |
Verwante onderwerpen
- Vision-Language Model Attacks -- parallelle aanvalsconcepten in het visuele domein
- Cross-Modal Attack Strategies -- aanvallen die audio en andere modaliteiten overbruggen
- Modality-Bridging Injection Attacks -- audio-naar-tekst-injectieketens
Referenties
- "Carlini & Wagner: Audio Adversarial Examples" - Carlini & Wagner (2018) - Foundational work on targeted adversarial audio attacks against speech recognition
- "DolphinAttack: Inaudible Voice Commands" - Zhang et al. (2017) - Ultrasonic voice command injection exploiting microphone nonlinearity
- "SpeechGuard: Exploring the Adversarial Robustness of Multi-modal Large Language Models" - Ghosh et al. (2024) - Analysis of audio attack surfaces in modern multimodal LLMs
- "Robust Audio Adversarial Example for a Physical Attack" - Yakura & Sakuma (2019) - Over-the-air adversarial audio attack methodology
Welke unieke eigenschap van audio-aanvallen maakt ze bijzonder gevaarlijk voor geïmplementeerde AI-systemen in vergelijking met visuele aanvallen?