# manipulation
60 artikelengetagd met “manipulation”
Redeneerketens manipuleren
Technieken om de chain-of-thought-redenering van een AI-agent te beïnvloeden, zodat je zijn planning, besluitvorming en toolkeuze stuurt richting uitkomsten die de aanvaller wil.
Manipulatie van geheugensamenvatting
Misbruik van automatische geheugensamenvatting om persistente instructies in gecomprimeerde context in te bedden.
Manipulatie van toolselectie
Manipuleer de beslissingen van het model over toolselectie via geprepareerde prompts die het model naar door de aanvaller geprefereerde functies sturen.
MCP resourcemanipulatie-aanvallen
MCP-resourceblootstelling exploiteren om data te benaderen, te wijzigen of te exfiltreren via resource-URI's.
A2A-artefactmanipulatie
Artefacten die tussen agents worden uitgewisseld in het A2A-protocol manipuleren voor datavergiftiging en injectie.
A2A-consensusmanipulatie
Stem- en consensusmechanismen in multi-agentsystemen aanvallen om de uitkomsten van collectieve besluitvorming te beïnvloeden.
A2A Task State-manipulatie
Het manipuleren van taakstatussen in A2A om validatie over te slaan, goedkeuring te omzeilen of taakvoltooiing om te leiden.
Manipulatie van multi-agentconsensus
Manipuleer stem- en consensusmechanismen in multi-agentsystemen voor besluitvorming.
Manipulatie van planning-agents
Het manipuleren van LLM-gebaseerde planning-agents om kwaadaardige actiereeksen uit te voeren.
Tool Selection Manipulation in Workflows
Het tool-selectieproces in agent-workflows beïnvloeden om de uitvoering om te leiden via tools die door de aanvaller worden beheerd.
Workflow Checkpoint Manipulation
Workflow-checkpoints en savepoints manipuleren voor state-rollback-aanvallen.
Workflow-statemanipulatie
Workflow-statemachines manipuleren om validatiestappen over te slaan en geprivilegieerde uitvoeringspaden te bereiken.
Beveiligingsassessment van het context window
Assessment of context window overflow, attention manipulation, and long-context exploitation techniques.
Manipulatie van AI voor codereview
Manipulating AI code review systems to approve vulnerable code or miss security issues.
Aanvallen via context over meerdere bestanden
Exploiting how AI coding assistants process multi-file context to create distributed injection payloads across repository files.
AI-manipulatie bij PR-review
Techniques for manipulating AI-powered code review tools to approve malicious changes or miss security vulnerabilities.
Geavanceerde manipulatie van testgeneratie
Advanced techniques for manipulating AI-generated tests to create false assurance by generating tests that pass but don't verify security properties.
Aanvallen via manipulatie van annotaties
Compromising model training by manipulating annotations and labels during the data labeling process, including insider and crowdsourcing attacks.
Kwetsbaarheden bij continual learning
Exploiting continual learning update mechanisms to introduce vulnerabilities through incremental model updates without triggering safety evaluations.
Misbruik van curriculum learning
Exploiting curriculum learning strategies by manipulating the order and pacing of training data presentation to amplify poisoning effectiveness.
Aanvallen via data-augmentatie
Exploiting automated data augmentation pipelines to amplify poisoned samples or introduce adversarial patterns through augmentation transformations.
Vergiftiging van reinforcement-feedback
Compromising reinforcement learning from human feedback by poisoning preference data, manipulating reward models, or exploiting annotator disagreement.
Backdoor-aanvallen op embeddings
Het inbouwen van backdoors in embeddingmodellen waardoor specifieke triggerinvoer vooraf bepaalde embeddingvectoren produceert voor adversarial retrieval.
Manipulatie van hybride zoekopdrachten
Hybride zoeksystemen aanvallen die dense en sparse retrieval combineren, door kwetsbaarheden in score fusion en re-ranking te misbruiken.
Gaming van similarity search
Technieken om adversarial inhoud te maken die similarity search manipuleert, zodat documenten onder controle van de aanvaller bovenaan eindigen in de retrievalresultaten.
Manipulatie van similarity search
Het manipuleren van de resultaten van similarity search door het vervaardigen van adversarial embeddings.
Manipulatie van sparse embeddings
Het manipuleren van sparse embeddings (BM25, SPLADE) om retrievalresultaten te vergiftigen.
Aanvallen via manipulatie van checkpoints
Intercepting and modifying model checkpoints during the fine-tuning process to inject persistent backdoors or remove safety properties.
Manipulatie van instruction tuning
Techniques for manipulating instruction-tuned models by crafting adversarial training examples that alter the model's instruction-following behavior.
Manipulatie van RLHF-preferenties
Strategies for manipulating RLHF preference rankings to shift model behavior, including Sybil attacks on crowdsourced preferences.
Chain-of-Thought-exploitatie
Technieken voor het manipuleren van reasoning chains in CoT-geschikte modellen: injectie van valse premissen, logic bombs, reasoning hijacking en chain-corruptieaanvallen.
Onderzoek naar attention-manipulatie
Onderzoek naar het direct manipuleren van attention-patronen om injection-doelen te bereiken, geïnformeerd door inzichten uit mechanistische interpretability.
Logit-manipulatie
Technieken om de outputdistributies van een LLM te beïnvloeden via geprepareerde inputs die logit-waarden in de richting van door de aanvaller gewenste tokens duwen, waarbij de werking van softmax en de dynamiek van tokencompetitie worden misbruikt.
Lab: geavanceerde RAG-manipulatie
Perform sophisticated RAG manipulation including embedding space attacks, metadata poisoning, and retrieval algorithm gaming.
Lab: manipulatie van reasoning traces
Manipulate chain-of-thought reasoning traces to inject false premises and redirect model conclusions.
Manipulatie van attention-patronen
Craft inputs that manipulate transformer attention patterns to prioritize adversarial content over safety instructions.
Lab: manipulatie van de conversatiegeschiedenis
Test how LLM applications handle conversation history including truncation, injection, and context window management.
Lab: manipulatie van het uitvoerformaat
Hands-on lab on forcing LLMs to output in specific formats including JSON injection, markdown manipulation, and structured output exploitation for data exfiltration.
Lab: grondbeginselen van tokenmanipulatie
Understand how tokenization affects LLM behavior and practice basic token-level manipulation techniques.
Manipulatie-aanvallen op de KV-cache
Manipulate key-value caches in inference servers to inject or alter cached context across requests.
Praktische manipulatie van embeddings
Manipulate text to achieve target embedding similarities for poisoning retrieval augmented generation systems.
Lab: manipulatie van de embeddingruimte
Hands-on lab for crafting documents optimized to be retrieved for specific queries through embedding collision attacks using sentence-transformers.
Manipulatie van een LLM-judge
Craft responses that exploit LLM-as-judge evaluation patterns to achieve high safety scores while embedding harmful content.
Lab: re-ranking-aanvallen
Hands-on lab for manipulating the re-ranking stage of RAG pipelines to promote or suppress specific documents in retrieval results.
Lab: manipulatie van semantisch zoeken
Manipulate semantic search results by crafting documents that achieve target similarity scores against specific queries.
Aanvallen via manipulatie van chatgeschiedenis
Inject false messages into conversation history to alter model behavior in subsequent turns.
Manipulatie van function schema's
Exploit function calling schemas to inject instructions through parameter descriptions and enums.
Geavanceerd misbruik van A/B-testen
Manipulating A/B testing frameworks to bias model selection toward less secure variants or introduce adversarial model candidates.
Manipulatie van feature flags in AI-systemen
Attacking feature flag systems to alter AI system behavior, enable hidden capabilities, or disable safety controls in production.
Temporele manipulatie & frame-injectie
Technieken voor het injecteren van adversariële frames in videostreams, temporele consistentieaanvallen en single-frame-injectie voor gedragsverandering in video-AI-modellen.
Conversation steering
Technieken om de context van een gesprek geleidelijk richting aanvalsdoelen te sturen zonder veiligheidsmechanismen te activeren.
Prefix injection-aanvallen
Het zorgvuldig vooraan toevoegen van geprepareerde inhoud vóór gebruikersvragen om het modelgedrag te sturen en een gunstige context te creëren voor latere injectiepogingen.
Social engineering van AI
Het manipuleren van AI-systemen via emotionele beroepen, autoriteitsclaims, urgentieframing en social-pressuretactieken die de neiging om instructies op te volgen misbruiken.
Manipulatie van retrieval (RAG-data-aanvallen)
Technieken om RAG-retrieval te manipuleren en zo te bepalen welke documenten de LLM-context bereiken, waaronder adversariële herformulering van queries, het misbruiken van retriever-bias en het gamen van semantische similariteit.
Social engineering voor AI-systemen
Het manipuleren van menselijke operators en beheerders van AI-systemen om toegang te krijgen, informatie te onttrekken of beveiligingscontroles te omzeilen via social-engineeringtechnieken.
Checkpoint-manipulatieaanvallen (training pipeline)
Directe manipulatie van modelcheckpoints en opgeslagen gewichten om backdoors te injecteren of gedrag te wijzigen.
Manipulatie van instruction-tuning-data
Het manipuleren van instruction-tuning-datasets om specifiek gedrag in het resulterende model in te bedden.
Technieken voor manipulatie van modelgewichten
Directe manipulatie van modelgewichten om backdoors te injecteren, gedrag te wijzigen en safety-training te omzeilen.
Walkthrough: geavanceerde contextmanipulatie
Manipulate conversation context through history injection, context overflow, and attention weight exploitation.
Contextmanipulatie deep dive
Advanced walkthrough of context window manipulation techniques including attention dilution and instruction priority shifting.