# foundations
19 artikelengetagd met “foundations”
Uitgebreide beoordeling grondslagen
Comprehensive assessment covering LLM architecture, tokenization, attention, and basic security concepts.
Beoordeling grondslagen
Test your understanding of LLM fundamentals, core terminology, and the AI threat landscape with 15 intermediate-level questions.
Voorbereidingsgids voor het grondslagen-examen
Study guide for the foundations assessment covering key concepts, study strategies, and review materials.
Overzicht: taxonomie van AI-aanvallen
Uitgebreid overzicht van de taxonomie van AI-aanvallen, met alle belangrijke aanvalscategorieën en hun onderlinge verbanden.
Overzicht: taxonomie van aanvallen
Uitgebreid overzicht van de taxonomie van AI-aanvallen, van prompt injection tot modeldiefstal, geordend naar de doelen van de aanvaller en de vereiste toegang.
Attention-mechanismen en beveiliging
Hoe attention-mechanismen werken en welke rol ze spelen bij het mogelijk maken van prompt injection-aanvallen.
Deploymentpatronen en beveiliging
Veelvoorkomende deploymentpatronen voor LLM's (API, self-hosted, edge) en hun verschillende beveiligingseigenschappen en aanvalsoppervlakken.
Grondbeginselen van evaluatie en benchmarking
Inleiding tot beveiligingsevaluatie van LLM's, inclusief belangrijke metrieken, benchmarksuites en de uitdagingen bij het meten van veiligheidseigenschappen.
Grondslagen
Essentiële bouwstenen voor AI-redteaming: red team-methodologie, het AI-landschap, hoe LLM's werken, embeddings en vectorsystemen, AI-systeemarchitectuur en concepten uit adversarial machine learning.
Het volgen van instructies als aanvalsoppervlak
Waarom het instructievolgende vermogen van LLM's inherent een aanvalsoppervlak is.
Uitrolpatronen en beveiliging van LLM's
Veelvoorkomende uitrolpatronen voor LLM's en hun beveiligingsimplicaties, waaronder directe API-, RAG-, agent- en pijplijnarchitecturen.
Dreigingsmodel voor LLM-beveiliging
Een compleet dreigingsmodel voor LLM-gestuurde applicaties dat alle aanvalsoppervlakken en dreigingsactoren in kaart brengt.
Vertrouwensgrenzen van LLM's
Inzicht in vertrouwensgrenzen in LLM-applicaties: waar data privilege-niveaus overschrijdt en hoe het ontbreken van native vertrouwenshandhaving aanvalsoppervlakken creëert.
Grondbeginselen van redteaming voor AI
Fundamentele concepten en methodologie voor AI-redteaming, inclusief doelbepaling, scopedefinitie, techniekkeuze en rapportage.
RLHF en veiligheidsalignment
Inzicht in RLHF-veiligheidstraining en waarom dit eerder een omzeilbare dan een fundamentele veiligheidslaag oplevert.
Methoden voor veiligheidstraining
Overzicht van methoden voor veiligheidstraining, waaronder RLHF, Constitutional AI en DPO, en hun beperkingen vanuit een red team-perspectief.
Tokenisatie en de beveiligingsimplicaties ervan
Hoe tokenisatie werkt en waarom het beveiligingsrelevant gedrag in taalmodellen veroorzaakt.
Basis van de transformer-architectuur voor beveiliging
Inzicht in de grondbeginselen van de transformer-architectuur door een beveiligingsbril: hoe attention, embeddings en generatie misbruikbare eigenschappen opleveren.
Inzicht in LLM-veiligheidstraining
Hoe veiligheidstraining werkt, waaronder RLHF, DPO en Constitutional AI, en waarom ze omzeild kan worden.