Embedding-privacy
Wat embeddings onthullen over de brondata — over embedding-inversieaanvallen, membership inference, attribuutinferentie, privacybehoudende embeddingtechnieken en de implicaties voor regelgeving.
Organisaties embedden regelmatig gevoelige tekst — klantcommunicatie, medische dossiers, juridische documenten, financiële rapporten — in vectordatabases voor semantisch zoeken en retrieval. Een veelvoorkomende aanname is dat embeddings eenrichtingstransformaties zijn: net als cryptografische hashes kunnen ze niet worden teruggedraaid om de brontekst te reconstrueren. Die aanname klopt niet.
Onderzoek heeft aangetoond dat embeddings gedeeltelijk of volledig kunnen worden geïnverteerd om brontekst te reconstrueren, dat de aanwezigheid van specifieke documenten in een embeddingdatabase kan worden vastgesteld via membership inference, en dat gevoelige attributen van de brondata uit embeddings kunnen worden afgeleid zonder de volledige tekst te reconstrueren.
Deze pagina behandelt de privacyrisico's van embeddings en technieken om ze te mitigeren.
Wat embeddings onthullen
Informatie-inhoud
Een embeddingvector is een gecomprimeerde representatie van de semantische inhoud van de brontekst. Een typische embedding (768 of 1536 dimensies, 32-bits drijvende komma) bevat 24.576 tot 49.152 bits aan informatie. De brontekst voor een kort document bevat misschien enkele honderden tot enkele duizenden bits aan semantische informatie. Dit betekent dat de embedding voldoende capaciteit heeft om het grootste deel van de semantische inhoud van de brontekst te coderen.
De kernvraag is niet of de informatie in de embedding zit — dat is meestal wel zo — maar of een aanvaller ze kan onttrekken. Het antwoord hangt af van de toegang van de aanvaller tot het embeddingmodel, de grootte en structuur van de embedding, en het domein en vocabulaire van de brontekst.
Soorten informatielekken
Semantische inhoud: Het beoogde doel van embeddings — ze coderen waar de tekst over gaat. Een embedding van een medisch dossier codeert dat het specifieke aandoeningen, behandelingen en symptomen bespreekt. Een embedding van een financieel rapport codeert omzetcijfers, risicobeoordelingen en strategische plannen.
Structurele informatie: Embeddings coderen niet alleen wat er wordt gezegd, maar ook hoe het wordt gezegd. Schrijfstijl, mate van formaliteit, documenttype en structurele patronen worden in de embedding weerspiegeld. Dit kan onthullen of een document een persoonlijke e-mail, een juridisch stuk of een technische specificatie is.
Named entities: Embeddings van tekst met namen, organisaties, locaties en andere named entities coderen deze entiteiten in de embeddingruimte. Gedeeltelijke inversie kan entiteitsnamen reconstrueren zonder de volledige tekst te reconstrueren.
Demografische indicatoren: Tekst geschreven door of over specifieke demografische groepen kan embeddings opleveren met statistisch identificeerbare kenmerken. Dit maakt attribuutinferentie-aanvallen mogelijk, waarbij een aanvaller demografische attributen van de auteur of het onderwerp van de tekst bepaalt op basis van de embedding alleen.
Inversieaanvallen
White-box inversie
Wanneer de aanvaller toegang heeft tot het embeddingmodel (open-source modellen of gelekte modelgewichten), kan hij een inversiemodel trainen — een decoder die een embeddingvector neemt en tekst produceert die diezelfde embedding zou genereren.
Het inversiemodel wordt getraind door embeddings te genereren voor een groot tekstcorpus met het doel-embeddingmodel, en vervolgens een tekstgeneratiemodel te trainen om het proces om te keren. De generator leert de mapping van de embeddingruimte terug naar de tekstruimte.
White-box inversie kan aanzienlijke delen van de brontekst reconstrueren, vooral voor kortere documenten. Onderzoek heeft aangetoond dat 50-90% van de woorden uit korte tekstpassages kan worden gereconstrueerd met moderne inversietechnieken tegen sentence-transformers-modellen. Langere documenten zijn moeilijker te inverteren omdat de embedding meer informatie comprimeert, maar belangrijke zinsdelen, named entities en thematische inhoud kunnen nog steeds worden gereconstrueerd.
Black-box inversie
Wanneer de aanvaller alleen API-toegang tot het embeddingmodel heeft, is inversie moeilijker maar niet onmogelijk. De aanvaller kan de API bevragen om een mapping op te bouwen tussen bekende teksten en hun embeddings. Vervolgens zoekt de aanvaller, gegeven een doel-embedding, naar teksten waarvan de embeddings het dichtst bij het doel liggen.
Deze aanpak wordt beperkt door API-rate limits en -kosten, maar kan effectief zijn voor afgebakende domeinen. Als de aanvaller weet dat de brontekst uit een specifiek domein komt (medische dossiers, juridische documenten, klant-e-mails), kan hij een domeinspecifieke inversiedatabase opbouwen die het meest waarschijnlijke vocabulaire en de meest waarschijnlijke patronen dekt.
Nearest-neighbor-inversie
De eenvoudigste inversietechniek vindt de dichtstbijzijnde bekende embedding bij de doel-embedding in een referentiedatabase. Als de aanvaller een grote database van tekst-embeddingparen uit hetzelfde domein als het doel kan opbouwen, is de nearest neighbor vaak semantisch vergelijkbaar met de brontekst.
Deze techniek reconstrueert niet de exacte brontekst, maar onthult het onderwerp, het sentiment en de kernconcepten. Voor veel privacy-dreigingsmodellen is dit niveau van informatiereconstructie al voldoende om een inbreuk te vormen.
Membership inference
Membership inference bepaalt of een specifiek document in de embeddingdatabase zit, zonder enige documentinhoud te reconstrueren. Dit is een afzonderlijk privacyprobleem: weten dat een specifiek document (een medisch dossier, een juridisch stuk, een financieel rapport) in een database zit, onthult informatie, zelfs zonder te weten wat de database bevat.
Directe membership inference
Als de aanvaller querytoegang tot de embeddingdatabase heeft, kan hij het doeldocument embedden en zoeken naar exacte of bijna-exacte matches. Een match duidt op lidmaatschap. Dit is rechttoe rechtaan, maar vereist dat de aanvaller het kandidaatdocument kent.
Statistische membership inference
Geavanceerdere membership inference maakt gebruik van statistische verschillen tussen embeddings van documenten die wel in de database zitten en documenten die er niet in zitten. Het embeddingmodel kent licht afwijkende representaties toe aan documenten die het eerder heeft verwerkt (door mogelijke effecten van de modelstatus) of aan documenten die semantisch typisch zijn voor de inhoud van de database.
Door een classificator te trainen op embeddings van documenten waarvan bekend is dat ze wel en niet lid zijn, kan de aanvaller het lidmaatschap voor onbekende documenten voorspellen. Deze techniek werkt zelfs wanneer de aanvaller de exacte inhoud van het doeldocument niet kent — hij heeft alleen een goede benadering nodig.
Attribuutinferentie
Attribuutinferentie onttrekt specifieke eigenschappen van de brondata uit embeddings zonder de volledige tekst te reconstrueren. Dit is relevant voor naleving van privacyregelgeving die specifieke categorieën informatie beschermt.
Reconstructie van gevoelige attributen
Embeddings van tekst met gevoelige attributen — leeftijd, geslacht, etniciteit, gezondheidstoestand, financiële status — coderen deze attributen op statistisch detecteerbare manieren. Een classificator die getraind is op embeddings met bekende attributen kan attributen voorspellen uit embeddings met onbekende attributen.
Onderzoek heeft aangetoond dat de volgende attributen met aanzienlijke nauwkeurigheid uit tekstembeddings kunnen worden afgeleid: demografische kenmerken van de auteur, het vertrouwelijkheidsniveau van het document, de aanwezigheid van specifieke medische aandoeningen, indicatoren van financiële status en geografische locatie.
Onderwerpinferentie
Zelfs zonder volledige inversie kan het onderwerp van een document betrouwbaar uit zijn embedding worden afgeleid. Een aanvaller die een database van embeddings clustert, kan groepen documenten over hetzelfde onderwerp identificeren. Gecombineerd met metadata (tijdstempel, documentgrootte, bronidentificatie) kunnen onderwerpclusters gevoelige informatie over de organisatie onthullen.
Privacybehoudende embeddingtechnieken
Differential privacy
Differential privacy voegt gekalibreerde ruis toe aan embeddings om de informatie die elk afzonderlijk document bijdraagt te begrenzen. De ruis maakt inversie moeilijker, omdat de embedding de brontekst niet langer exact representeert. De ruis maakt membership inference moeilijker, omdat afzonderlijke documenten minder invloed hebben op de embeddingdistributie.
De afweging is dat ruizige embeddings een lagere retrievalnauwkeurigheid hebben. Hoe meer ruis je toevoegt (een hogere privacybudget-epsilon), hoe beter de privacybescherming maar hoe slechter de retrievalprestaties. De juiste epsilon voor je applicatie vinden vereist een afweging tussen privacy-eisen en retrievalkwaliteit.
Dimensionaliteitsreductie
De dimensionaliteit van embeddings verlagen (bijvoorbeeld van 1536 naar 256 dimensies) gooit informatie weg die privacyrelevante details kan bevatten. Dimensionaliteitsreductie verslechtert echter ook de retrievalprestaties en biedt geen formele privacygaranties.
Dimensionaliteitsreductie wordt vaak naast differential privacy gebruikt, waarbij de verlaagde dimensionaliteit de privacyruis efficiënter maakt (er is minder ruis nodig om dezelfde privacygarantie te bereiken).
Embeddingkwantisatie
Embeddingwaarden omzetten van 32-bits drijvende komma naar lagere precisie (8-bits integers, binair) verlaagt de informatie-inhoud van elke dimensie. Dit is in de eerste plaats een prestatieoptimalisatie, maar heeft als neveneffect dat het de beschikbare precisie voor inversieaanvallen vermindert.
Net als dimensionaliteitsreductie biedt kwantisatie geen formele privacygaranties. Het maakt aanvallen in de praktijk moeilijker, maar voorkomt ze theoretisch niet.
Veilige berekening
Voor de hoogste privacy-eisen kunnen embeddings worden berekend en vergeleken met technieken voor veilige berekening. Homomorfe encryptie maakt het berekenen van gelijkenis op versleutelde embeddings mogelijk zonder ze te ontsleutelen. Secure multi-party computation verdeelt de berekening over meerdere partijen, zodat geen enkele partij de volledige embedding ziet.
Deze technieken zijn rekenkundig kostbaar en voegen aanzienlijke latentie toe, maar bieden sterke privacygaranties. Ze zijn momenteel alleen praktisch voor kleinschalige of zeer waardevolle toepassingen.
Implicaties voor regelgeving
AVG (GDPR)
Onder de AVG zijn embeddings van persoonsgegevens zelf ook persoonsgegevens, omdat ze via inversie of membership inference kunnen worden teruggekoppeld aan identificeerbare personen. Organisaties die embeddings van data van EU-inwoners opslaan, moeten voldoen aan de AVG-vereisten, waaronder dataminimalisatie, doelbinding, opslagbeperking, het recht op verwijdering en een gegevensbeschermingseffectbeoordeling.
Het recht op verwijdering is bijzonder uitdagend voor embeddingdatabases. De embedding van een specifiek individu uit een vectordatabase verwijderen, verwijdert hun data mogelijk niet volledig als de informatie van het individu andere embeddings heeft beïnvloed (in een fijngetuned model) of als snapshots van de embeddingdatabase de verwijderde data behouden.
HIPAA
Embeddings van beschermde gezondheidsinformatie (PHI) zijn onder HIPAA zelf ook PHI. Organisaties die embeddings van medische tekst opslaan, moeten HIPAA-conforme toegangscontroles, encryptie, auditlogging en meldingen bij inbreuken implementeren.
CCPA en privacywetten van afzonderlijke staten
De CCPA van Californië en vergelijkbare privacywetten van afzonderlijke staten zijn van toepassing op data die aan personen kan worden gekoppeld. Embeddings die identificeerbare informatie coderen, vallen onder deze wetten en vereisen openbaarmaking, opt-out-mechanismen en verwijdermogelijkheden.
Beoordelingsmethodologie
Begin bij het beoordelen van de privacy-eigenschappen van een embeddingimplementatie met het identificeren van welke data wordt geëmbed en de gevoeligheidsclassificatie ervan. Bepaal vervolgens welk embeddingmodel wordt gebruikt en of het model toegankelijk is voor white-box-aanvallen. Test inversieaanvallen met de hierboven beschreven technieken. Test membership inference tegen documenten waarvan bekend is dat ze wel en niet lid zijn. Test attribuutinferentie voor gevoelige attributen die relevant zijn voor het datadomein. Evalueer of privacybehoudende technieken worden toegepast en hoe effectief ze zijn. Beoordeel ten slotte de naleving van de relevante privacyregelgeving.
De privacyrisico's van embeddings zijn niet theoretisch. Organisaties die embeddings van gevoelige data opslaan, zouden die embeddings moeten behandelen als afgeleide gevoelige data en navenante bescherming moeten toepassen. De aanname dat embeddings privacyveilig zijn, is gevaarlijk en onjuist.