Richtlijnen

Beveiligingsregels

Overzicht

De Guardrails-node valideert inhoud met AI-gestuurde controles om veiligheid, nauwkeurigheid en naleving te waarborgen. Elke beveiligingsregel gebruikt een LLM als beoordelaar om uw invoer te evalueren aan de hand van specifieke criteria en laat de workflow mislukken als betrouwbaarheidsdrempels worden overschreden.

Het meest geschikt voor: Inhoudsmoderatie, PII-detectie, hallucinatiecontroles, jailbreak-voorkoming en aangepaste validatieregels.

Hoe het werkt

1

Geef invoerinhoud om te valideren

Invoer komt van vorige knooppunten in de workflow.

2

Schakel specifieke beveiligingscontroles in

Selecteer welke beveiligingsregels moeten worden uitgevoerd (PII, Moderatie, Jailbreak, Hallucinatie, Aangepast, enz.).

3

Stel betrouwbaarheidsdrempel in voor elke controle

Drempels variëren van 0–1 en bepalen hoe streng elke controle is.

4

Kies een AI-model voor evaluatie

Krachtigere modellen bieden nauwkeurigere detectie maar kosten meer.

5

Evalueer resultaten

Als een controle zijn drempel overschrijdt → faalt de Guardrails-node en markeert het probleem.

Configuratie

Invoer

De inhoud die u wilt valideren. Ondersteunt Handmatig, Automatisch en Prompt-AI-modi.

Voorbeeldgebruik:

Modelselectie

Kies het AI-model dat wordt gebruikt om alle ingeschakelde beveiligingsregels te evalueren. Krachtigere modellen bieden nauwkeurigere detectie maar kunnen meer kosten.

Beschikbare beveiligingsregels

Persoonlijk identificeerbare informatie (PII)

Detecteert persoonlijke gegevens zoals namen, e-mails, telefoonnummers, adressen, BSN's, creditcards, enz.

Wanneer te gebruiken:

  • Voordat gebruikersgegenereerde inhoud wordt opgeslagen

  • Bij het delen van gegevens extern

  • Nalevingsvereisten (AVG, HIPAA)

  • Klantenservice-workflows

Configuratie:

  • Betrouwbaarheidsdrempel: 0,7 (aanbevolen)

  • Hogere drempel = strengere detectie

Voorbeeld:


Moderatie

Controleert op ongepaste, schadelijke of aanstootgevende inhoud, waaronder haatspraak, geweld, volwassen inhoud, intimidatie, enz.

Wanneer te gebruiken:

  • Platforms met door gebruikers gegenereerde inhoud

  • Publiek gerichte communicatie

  • Community-moderatie

  • Klantengerichte output

Configuratie:

  • Betrouwbaarheidsdrempel: 0,6 (aanbevolen)

  • Pas aan op basis van uw inhoudsbeleid


Jailbreak-detectie

Identificeert pogingen om AI-veiligheidscontroles te omzeilen of de AI te manipuleren tot ongewenst gedrag.

Wanneer te gebruiken:

  • Verwerken van gebruikersprompts voordat deze naar AI worden gestuurd

  • Publieke AI-interfaces

  • Workflows met door gebruikers gegeven instructies

  • Beveiligingsgevoelige applicaties

Configuratie:

  • Betrouwbaarheidsdrempel: 0,7 (aanbevolen)

  • Hogere drempel voor minder vals positieven

Voorbeeld:


Hallucinatie-detectie

Detecteert wanneer door AI gegenereerde inhoud onjuiste of niet-verifieerbare informatie bevat.

Wanneer te gebruiken:

  • Feitgebaseerde inhoudsgeneratie

  • Antwoorden van klantenservice

  • Financiële of medische informatie

  • Elke workflow waarbij nauwkeurigheid cruciaal is

Configuratie:

  • Betrouwbaarheidsdrempel: 0,6 (aanbevolen)

  • Vereist referentiegegevens voor vergelijking

Voorbeeld:


Aangepaste evaluatie

Definieer uw eigen validatiecriteria met natuurlijke taal-instructies.

Wanneer te gebruiken:

  • Domeinspecifieke validatie

  • Naleving van merktoon

  • Aangepaste bedrijfsregels

  • Gespecialiseerde inhoudsvereisten

Configuratie:

  • Evaluatiecriteria: Beschrijf wat gecontroleerd moet worden

  • Betrouwbaarheidsdrempel: Stel in op basis van benodigde strengheid

Voorbeeld:

Instellen van betrouwbaarheidsdrempels

De betrouwbaarheidsdrempel bepaalt hoe streng elke controle is:

Drempel
Gedrag
Gebruik wanneer

0,3–0,5

Ruimdenkend

Vermijd vals positieven, alleen informatief

0,6–0,7

Gebalanceerd

Meeste gebruikssituaties, goede nauwkeurigheid

0,8–0,9

Streng

Risicoscenario's met hoog risico, kritieke validatie

0,9–1,0

Zeer streng

Markeer alleen zeer duidelijke overtredingen

Begin met 0,7 als een gebalanceerde standaard en pas vervolgens aan op basis van vals positieven of gemiste detecties.

Voorbeeldworkflows

Inhoudsmoderatie-pijplijn

AI-responsvalidatie

Meerdere-controle validatie

Omgaan met fouten

Wanneer een beveiligingscontrole faalt, stopt de workflow bij de Guardrails-node. Configureer foutafhandeling om naar alternatieve paden te routeren, meldingen te verzenden of fallback-acties te activeren (handmatige beoordelingswachtrijen, logging, waarschuwingen, opnieuw proberen, enz.).

Wanneer elke beveiligingsregel te gebruiken

PII-detectie — Gebruik voor:

  • Publieke inhoud die geen persoonlijke informatie mag bevatten

  • Gegevens die naar derden of externe systemen worden verzonden

  • Workflows die gevoelig zijn voor naleving (AVG, HIPAA, enz.)

  • Voorkomen van per ongeluk blootstelling van gevoelige gebruikersgegevens

Moderatie — Gebruik voor:

  • Door gebruikers gegenereerde inhoud die beoordeeld moet worden

  • Publieksgerichte output en communicatie

  • Communityplatforms en forums

  • Filteren van ongepaste of schadelijke inhoud

Jailbreak-detectie — Gebruik voor:

  • Door gebruikers gegeven prompts of instructies aan AI

  • Publieke AI-interfaces toegankelijk voor externe gebruikers

  • Beveiligingskritieke applicaties waar promptmanipulatie een risico is

  • Beschermen tegen pogingen om systeembeperkingen te omzeilen

Hallucinatie-detectie — Gebruik voor:

  • Feitgebaseerde inhoudsgeneratie die nauwkeurigheid vereist

  • Klantenservice-antwoorden met specifieke informatie

  • Financiële of medische informatie waarbij nauwkeurigheid cruciaal is

  • Elke inhoud waarbij valse informatie schade kan veroorzaken

Aangepaste evaluatie — Gebruik voor:

  • Merkconformiteit en richtlijnen voor toon van stem

  • Domeinspecifieke regels en industrienormen

  • Kwaliteitsnormen die uniek zijn voor uw organisatie

  • Bedrijfsspecifieke vereisten die niet door andere beveiligingsregels worden gedekt

Beste praktijken

  • Schakel meerdere controles in: Combineer beveiligingsregels (bijv. PII + Moderatie) voor uitgebreide validatie.

  • Begin met gebalanceerde drempels: Begin met 0,7 en pas aan op basis van resultaten.

  • Behandel altijd fouten: Voeg foutpaden toe om teams te informeren, overtredingen te loggen of alternatieve acties te activeren.

  • Test met randgevallen: Kalibreer drempels met behulp van grensgevallen.

  • Gebruik geschikte modellen: Krachtigere modellen (bijv. GPT-4) bieden betere detectie maar kosten meer.

  • Documenteer aangepaste evaluaties: Schrijf duidelijke, specifieke criteria voor aangepaste evaluaties.

Volgende stappen