Beperkingen

Beveiligingsregels

Overzicht

De Guardrails-node valideert inhoud met AI-gestuurde controles om veiligheid, nauwkeurigheid en naleving te waarborgen. Elke beveiligingsregel gebruikt een LLM als beoordelaar om uw invoer te evalueren aan de hand van specifieke criteria en laat de workflow mislukken als betrouwbaarheidsdrempels worden overschreden.

Het meest geschikt voor: Inhoudsmoderatie, PII-detectie, hallucinatiecontroles, jailbreak-voorkoming en aangepaste validatieregels.

Hoe het werkt

1

Geef invoerinhoud om te valideren

Invoer komt van vorige knooppunten in de workflow.

2

Schakel specifieke beveiligingscontroles in

Selecteer welke beveiligingsregels moeten worden uitgevoerd (PII, Moderatie, Jailbreak, Hallucinatie, Aangepast, enz.).

3

Stel betrouwbaarheidsdrempel in voor elke controle

Drempels variëren van 0–1 en bepalen hoe streng elke controle is.

4

Kies een AI-model voor evaluatie

Krachtigere modellen bieden nauwkeurigere detectie maar kosten meer.

5

Evalueer resultaten

Als een controle zijn drempel overschrijdt → faalt de Guardrails-node en markeert het probleem.

Configuratie

Invoer

De inhoud die u wilt valideren. Ondersteunt Handmatig, Automatisch en Prompt-AI-modi.

Voorbeeldgebruik:

Voorbeeldinvoer
{{agent.output.response}}
{{trigger.output.user_message}}
{{http_request.output.content}}

Modelselectie

Kies het AI-model dat wordt gebruikt om alle ingeschakelde beveiligingsregels te evalueren. Krachtigere modellen bieden nauwkeurigere detectie maar kunnen meer kosten.

Beschikbare beveiligingsregels

Persoonlijk identificeerbare informatie (PII)

Detecteert persoonlijke gegevens zoals namen, e-mails, telefoonnummers, adressen, BSN's, creditcards, enz.

Wanneer te gebruiken:

  • Voordat gebruikersgegenereerde inhoud wordt opgeslagen

  • Bij het delen van gegevens extern

  • Nalevingsvereisten (AVG, HIPAA)

  • Klantenservice-workflows

Configuratie:

  • Betrouwbaarheidsdrempel: 0,7 (aanbevolen)

  • Hogere drempel = strengere detectie

Voorbeeld:

PII-voorbeeld
Invoer: {{agent.output.customer_response}}
Drempel: 0,8
Resultaat: Faal als PII wordt gedetecteerd met >80% vertrouwen

Moderatie

Controleert op ongepaste, schadelijke of aanstootgevende inhoud, waaronder haatspraak, geweld, volwassen inhoud, intimidatie, enz.

Wanneer te gebruiken:

  • Platforms met door gebruikers gegenereerde inhoud

  • Publiek gerichte communicatie

  • Community-moderatie

  • Klantengerichte output

Configuratie:

  • Betrouwbaarheidsdrempel: 0,6 (aanbevolen)

  • Pas aan op basis van uw inhoudsbeleid


Jailbreak-detectie

Identificeert pogingen om AI-veiligheidscontroles te omzeilen of de AI te manipuleren tot ongewenst gedrag.

Wanneer te gebruiken:

  • Verwerken van gebruikersprompts voordat deze naar AI worden gestuurd

  • Publieke AI-interfaces

  • Workflows met door gebruikers gegeven instructies

  • Beveiligingsgevoelige applicaties

Configuratie:

  • Betrouwbaarheidsdrempel: 0,7 (aanbevolen)

  • Hogere drempel voor minder vals positieven

Voorbeeld:

Jailbreak-voorbeeld
Invoer: {{trigger.user_prompt}}
Drempel: 0,75
Markeringen: Pogingen om "vorige instructies te negeren" of soortgelijk

Hallucinatie-detectie

Detecteert wanneer door AI gegenereerde inhoud onjuiste of niet-verifieerbare informatie bevat.

Wanneer te gebruiken:

  • Feitgebaseerde inhoudsgeneratie

  • Antwoorden van klantenservice

  • Financiële of medische informatie

  • Elke workflow waarbij nauwkeurigheid cruciaal is

Configuratie:

  • Betrouwbaarheidsdrempel: 0,6 (aanbevolen)

  • Vereist referentiegegevens voor vergelijking

Voorbeeld:

Hallucinatie-voorbeeld
Invoer: {{agent.generated_summary}}
Referentie: {{http_request.original_data}}
Drempel: 0,7
Controles: Geeft de samenvatting de brongegevens nauwkeurig weer?

Aangepaste evaluatie

Definieer uw eigen validatiecriteria met natuurlijke taal-instructies.

Wanneer te gebruiken:

  • Domeinspecifieke validatie

  • Naleving van merktoon

  • Aangepaste bedrijfsregels

  • Gespecialiseerde inhoudsvereisten

Configuratie:

  • Evaluatiecriteria: Beschrijf wat gecontroleerd moet worden

  • Betrouwbaarheidsdrempel: Stel in op basis van benodigde strengheid

Voorbeeld:

Voorbeeld aangepaste evaluatie
Criteria: "Controleer of dit antwoord onze merkstem behoudt:
- Professionele maar vriendelijke toon
- Geen jargon of technische termen
- Spreekt de klant bij naam aan
- Biedt duidelijke vervolgstappen"

Invoer: {{agent.email_response}}
Drempel: 0,8

Instellen van betrouwbaarheidsdrempels

De betrouwbaarheidsdrempel bepaalt hoe streng elke controle is:

Drempel
Gedrag
Gebruik wanneer

0,3–0,5

Ruimdenkend

Vermijd vals positieven, alleen informatief

0,6–0,7

Gebalanceerd

Meeste gebruikssituaties, goede nauwkeurigheid

0,8–0,9

Streng

Risicoscenario's met hoog risico, kritieke validatie

0,9–1,0

Zeer streng

Markeer alleen zeer duidelijke overtredingen

Begin met 0,7 als een gebalanceerde standaard en pas vervolgens aan op basis van vals positieven of gemiste detecties.

Voorbeeldworkflows

Inhoudsmoderatie-pijplijn

Inhoudsmoderatie-pijplijn
Trigger: Formulierinzending (gebruikerscommentaar)
→ Guardrails:
  ✅ PII-detectie (drempel: 0,8)
  ✅ Moderatie (drempel: 0,6)
  Invoer: {{trigger.comment}}
→ [Bij succes] → Plaats commentaar openbaar
→ [Bij falen] → Stuur naar handmatige beoordelingswachtrij

AI-responsvalidatie

AI-responsvalidatie
Agent: Genereer klantantwoord
→ Guardrails:
  ✅ Hallucinatie (drempel: 0,7)
  ✅ Aangepast: "Professionele en behulpzame toon"
  Invoer: {{agent.response}}
→ [Bij succes] → Stuur e-mail naar klant
→ [Bij falen] → Genereer opnieuw met andere prompt

Meerdere-controle validatie

Meerdere-controle validatie
Agent: Genereer samenvatting van artikel
→ Guardrails:
  ✅ PII-detectie (drempel: 0,8)
  ✅ Hallucinatie (drempel: 0,7)
  ✅ Aangepast: "Geen promotionele taal" (drempel: 0,75)
  Invoer: {{agent.summary}}
→ [Bij succes] → Publiceer op website
→ [Bij falen] → Terug naar redacteur voor herziening

Omgaan met fouten

Wanneer een beveiligingscontrole faalt, stopt de workflow bij de Guardrails-node. Configureer foutafhandeling om naar alternatieve paden te routeren, meldingen te verzenden of fallback-acties te activeren (handmatige beoordelingswachtrijen, logging, waarschuwingen, opnieuw proberen, enz.).

Wanneer elke beveiligingsregel te gebruiken

PII-detectie — Gebruik voor:

  • Publieke inhoud die geen persoonlijke informatie mag bevatten

  • Gegevens die naar derden of externe systemen worden verzonden

  • Workflows die gevoelig zijn voor naleving (AVG, HIPAA, enz.)

  • Voorkomen van per ongeluk blootstelling van gevoelige gebruikersgegevens

Moderatie — Gebruik voor:

  • Door gebruikers gegenereerde inhoud die beoordeeld moet worden

  • Publieksgerichte output en communicatie

  • Communityplatforms en forums

  • Filteren van ongepaste of schadelijke inhoud

Jailbreak-detectie — Gebruik voor:

  • Door gebruikers gegeven prompts of instructies aan AI

  • Publieke AI-interfaces toegankelijk voor externe gebruikers

  • Beveiligingskritieke applicaties waar promptmanipulatie een risico is

  • Beschermen tegen pogingen om systeembeperkingen te omzeilen

Hallucinatie-detectie — Gebruik voor:

  • Feitgebaseerde inhoudsgeneratie die nauwkeurigheid vereist

  • Klantenservice-antwoorden met specifieke informatie

  • Financiële of medische informatie waarbij nauwkeurigheid cruciaal is

  • Elke inhoud waarbij valse informatie schade kan veroorzaken

Aangepaste evaluatie — Gebruik voor:

  • Merkconformiteit en richtlijnen voor toon van stem

  • Domeinspecifieke regels en industrienormen

  • Kwaliteitsnormen die uniek zijn voor uw organisatie

  • Bedrijfsspecifieke vereisten die niet door andere beveiligingsregels worden gedekt

Beste praktijken

  • Schakel meerdere controles in: Combineer beveiligingsregels (bijv. PII + Moderatie) voor uitgebreide validatie.

  • Begin met gebalanceerde drempels: Begin met 0,7 en pas aan op basis van resultaten.

  • Behandel altijd fouten: Voeg foutpaden toe om teams te informeren, overtredingen te loggen of alternatieve acties te activeren.

  • Test met randgevallen: Kalibreer drempels met behulp van grensgevallen.

  • Gebruik geschikte modellen: Krachtigere modellen (bijv. GPT-4) bieden betere detectie maar kosten meer.

  • Documenteer aangepaste evaluaties: Schrijf duidelijke, specifieke criteria voor aangepaste evaluaties.

Volgende stappen