Aanvallen op embeddingniveau
Overzicht van aanvallen die zich rechtstreeks op embeddings richten: het genereren van adversariële embeddings, inversie-aanvallen voor tekstreconstructie en membership inference via embedding-analyse.
Aanvallen op embeddingniveau richten zich op de vectoren zelf, in plaats van op de databases die ze opslaan of de retrieval-pipelines die ze bevragen. Deze aanvallen maken misbruik van de fundamentele eigenschappen van embeddingruimtes: dat embeddings semantische informatie over hun brondata coderen, dat embeddingruimtes een geometrische structuur hebben die kan worden gemanipuleerd, en dat de mapping van tekst naar embeddings gedeeltelijk kan worden omgekeerd.
Het aanvalsoppervlak van embeddings
Embeddings worden vaak behandeld als ondoorzichtige numerieke representaties die zelf geen gevoelige informatie bevatten. Deze aanname creëert een beveiligingsgat: organisaties beschermen mogelijk de originele documenten, maar behandelen hun embeddings als niet-gevoelige data die met minder beperkingen kan worden opgeslagen, verzonden en gedeeld.
De realiteit is dat embeddings een verliesgevende maar informatierijke codering van hun brondata zijn. De mate waarin ze informatie lekken, hangt af van het embeddingmodel, de dimensionaliteit van de vectoren en de aard van de brondata.
Wat embeddings coderen
Een typische tekst-embedding codeert:
- Semantische inhoud — De betekenis en het onderwerp van de tekst
- Structurele informatie — De ordening en opmaak van de tekst
- Lexicale kenmerken — Specifieke woorden en zinsdelen, vooral ongebruikelijke of onderscheidende
- Domeinsignalen — Indicatoren van het domein van de tekst (medisch, juridisch, technisch)
Deze informatie is voldoende voor verschillende aanvalscategorieën.
Aanvalscategorie 1: Adversariële embeddings
Adversarial embeddings zijn vectoren die zijn samengesteld om de resultaten van similarity search te manipuleren. De aanvaller genereert tekst die een embedding produceert die in de vectorruimte dicht bij een doel ligt, ook al verschilt de daadwerkelijke inhoud van de tekst van wat de overeenkomstscore suggereert.
Deze aanval maakt het volgende mogelijk:
- Retrieval-poisoning — Content injecteren die wordt opgehaald als reactie op specifieke queries
- Payload-aflevering — Prompt injection-payloads koppelen aan embeddings die overeenkomen met legitieme queries
- Verdringing van content — Legitieme content uit de top-k-resultaten duwen door adversariële alternatieven in te voegen
De grootste uitdaging is het genereren van tekst die tegelijkertijd dicht bij het doel in de embeddingruimte ligt én de door de aanvaller bedoelde payload draagt. Dit vereist begrip van of toegang tot het embeddingmodel om de adversariële tekst te optimaliseren.
Aanvalscategorie 2: Inversie-aanvallen
Embedding inversion is het proces waarbij de originele invoertekst wordt teruggehaald uit een embeddingvector. Hoewel embeddings zijn ontworpen als een eenrichtingstransformatie, heeft onderzoek aangetoond dat inversiemodellen aanzienlijke delen van de originele tekst kunnen herstellen.
Inversie-aanvallen hebben aanzienlijke privacy-implicaties:
- Documentreconstructie — De inhoud terughalen van documenten die alleen als embeddings zijn opgeslagen
- Extractie van geheimen — Credentials, PII of bedrijfseigen informatie uit embeddings extraheren
- Naleving van dataregelgeving — Aantonen dat embeddings persoonsgegevens vormen onder de AVG en vergelijkbare regelgeving
De haalbaarheid van inversie hangt af van toegang tot het embeddingmodel (of een vergelijkbaar model) en voldoende rekenkracht om het inversiemodel te trainen.
Aanvalscategorie 3: Membership inference
Membership inference via embeddings bepaalt of specifieke data deel uitmaakte van de trainingsset van het embeddingmodel. Dit kan onthullen of de bedrijfseigen data van een organisatie zonder toestemming is gebruikt om een model te trainen, of bevestigen dat de data van een specifiek individu in een systeem aanwezig is.
Membership inference werkt door te vergelijken hoe het model "geziene" data embedt (data die in de trainingsset zat) versus "ongeziene" data. Modellen produceren doorgaans zelfverzekerdere (lagere perplexity) en meer gestructureerde embeddings voor data die ze tijdens de training hebben gezien.
Wanneer elke aanval van toepassing is
| Aanval | Vereist modeltoegang | Vereist DB-toegang | Belangrijkste impact |
|---|---|---|---|
| Adversariële embeddings | Handig maar niet vereist | Schrijftoegang | Manipulatie van retrieval |
| Inversie | Hetzelfde of vergelijkbaar model | Leestoegang | Data-extractie |
| Membership inference | Hetzelfde model | Query-toegang | Privacyschending |
Risicobeoordeling
Bij het beoordelen van risico's op embeddingniveau:
- Welke data wordt geëmbed? — De gevoeligheid van de brondata bepaalt de impact van inversie- en inference-aanvallen
- Is het embeddingmodel bekend? — Als de aanvaller het embeddingmodel kan identificeren of bemachtigen, worden alle aanvalscategorieën haalbaarder
- Zijn embeddings toegankelijk? — Directe toegang tot vectorwaarden (via API-queries of databasetoegang) maakt inversie mogelijk; ook zonder directe toegang lekken overeenkomstscores informatie
- Worden embeddings los van toegangscontroles opgeslagen? — Embeddings die zonder de toegangscontrolelabels van hun brondocumenten zijn opgeslagen, vormen een pad voor privilege-escalatie
Verwante onderwerpen
- Adversarial Embeddings — Embeddings samenstellen om retrieval te manipuleren
- Inversion Attacks — Tekst reconstrueren uit embeddings
- Membership Inference — De aanwezigheid van data detecteren via embeddings
- Foundations: Embeddings & Vector Systems — Technische grondslagen