Richtlijnen

Overzicht

De Guardrails-node valideert inhoud met AI-gestuurde controles om veiligheid, nauwkeurigheid en naleving te waarborgen. Elke beveiligingsregel gebruikt een LLM als beoordelaar om uw invoer te evalueren aan de hand van specifieke criteria en laat de workflow mislukken als betrouwbaarheidsdrempels worden overschreden.

Het meest geschikt voor: Inhoudsmoderatie, PII-detectie, hallucinatiecontroles, jailbreak-voorkoming en aangepaste validatieregels.

Hoe het werkt

Geef invoerinhoud om te valideren

Invoer komt van vorige knooppunten in de workflow.

Schakel specifieke beveiligingscontroles in

Selecteer welke beveiligingsregels moeten worden uitgevoerd (PII, Moderatie, Jailbreak, Hallucinatie, Aangepast, enz.).

Stel betrouwbaarheidsdrempel in voor elke controle

Drempels variëren van 0–1 en bepalen hoe streng elke controle is.

Kies een AI-model voor evaluatie

Krachtigere modellen bieden nauwkeurigere detectie maar kosten meer.

Evalueer resultaten

Als een controle zijn drempel overschrijdt → faalt de Guardrails-node en markeert het probleem.

Configuratie

Invoer

De inhoud die u wilt valideren. Ondersteunt Handmatig, Automatisch en Prompt-AI-modi.

Voorbeeldgebruik:

Voorbeeldinvoer

{{agent.output.response}}
{{trigger.output.user_message}}
{{http_request.output.content}}

Modelselectie

Kies het AI-model dat wordt gebruikt om alle ingeschakelde beveiligingsregels te evalueren. Krachtigere modellen bieden nauwkeurigere detectie maar kunnen meer kosten.

Beschikbare beveiligingsregels

Persoonlijk identificeerbare informatie (PII)

Detecteert persoonlijke gegevens zoals namen, e-mails, telefoonnummers, adressen, BSN's, creditcards, enz.

Wanneer te gebruiken:

Voordat gebruikersgegenereerde inhoud wordt opgeslagen
Bij het delen van gegevens extern
Nalevingsvereisten (AVG, HIPAA)
Klantenservice-workflows

Configuratie:

Betrouwbaarheidsdrempel: 0,7 (aanbevolen)
Hogere drempel = strengere detectie

Voorbeeld:

PII-voorbeeld

Invoer: {{agent.output.customer_response}}
Drempel: 0,8
Resultaat: Faal als PII wordt gedetecteerd met >80% vertrouwen

Moderatie

Controleert op ongepaste, schadelijke of aanstootgevende inhoud, waaronder haatspraak, geweld, volwassen inhoud, intimidatie, enz.

Wanneer te gebruiken:

Platforms met door gebruikers gegenereerde inhoud
Publiek gerichte communicatie
Community-moderatie
Klantengerichte output

Configuratie:

Betrouwbaarheidsdrempel: 0,6 (aanbevolen)
Pas aan op basis van uw inhoudsbeleid

Jailbreak-detectie

Identificeert pogingen om AI-veiligheidscontroles te omzeilen of de AI te manipuleren tot ongewenst gedrag.

Wanneer te gebruiken:

Verwerken van gebruikersprompts voordat deze naar AI worden gestuurd
Publieke AI-interfaces
Workflows met door gebruikers gegeven instructies
Beveiligingsgevoelige applicaties

Configuratie:

Betrouwbaarheidsdrempel: 0,7 (aanbevolen)
Hogere drempel voor minder vals positieven

Voorbeeld:

Jailbreak-voorbeeld

Invoer: {{trigger.user_prompt}}
Drempel: 0,75
Markeringen: Pogingen om "vorige instructies te negeren" of soortgelijk

Hallucinatie-detectie

Detecteert wanneer door AI gegenereerde inhoud onjuiste of niet-verifieerbare informatie bevat.

Wanneer te gebruiken:

Feitgebaseerde inhoudsgeneratie
Antwoorden van klantenservice
Financiële of medische informatie
Elke workflow waarbij nauwkeurigheid cruciaal is

Configuratie:

Betrouwbaarheidsdrempel: 0,6 (aanbevolen)
Vereist referentiegegevens voor vergelijking

Voorbeeld:

Hallucinatie-voorbeeld

Invoer: {{agent.generated_summary}}
Referentie: {{http_request.original_data}}
Drempel: 0,7
Controles: Geeft de samenvatting de brongegevens nauwkeurig weer?

Aangepaste evaluatie

Definieer uw eigen validatiecriteria met natuurlijke taal-instructies.

Wanneer te gebruiken:

Domeinspecifieke validatie
Naleving van merktoon
Aangepaste bedrijfsregels
Gespecialiseerde inhoudsvereisten

Configuratie:

Evaluatiecriteria: Beschrijf wat gecontroleerd moet worden
Betrouwbaarheidsdrempel: Stel in op basis van benodigde strengheid

Voorbeeld:

Voorbeeld aangepaste evaluatie

Criteria: "Controleer of dit antwoord onze merkstem behoudt:
- Professionele maar vriendelijke toon
- Geen jargon of technische termen
- Spreekt de klant bij naam aan
- Biedt duidelijke vervolgstappen"

Invoer: {{agent.email_response}}
Drempel: 0,8

Instellen van betrouwbaarheidsdrempels

De betrouwbaarheidsdrempel bepaalt hoe streng elke controle is:

Drempel

Gedrag

Gebruik wanneer

0,3–0,5

Ruimdenkend

Vermijd vals positieven, alleen informatief

0,6–0,7

Gebalanceerd

Meeste gebruikssituaties, goede nauwkeurigheid

0,8–0,9

Streng

Risicoscenario's met hoog risico, kritieke validatie

0,9–1,0

Zeer streng

Markeer alleen zeer duidelijke overtredingen

Begin met 0,7 als een gebalanceerde standaard en pas vervolgens aan op basis van vals positieven of gemiste detecties.

Voorbeeldworkflows

Inhoudsmoderatie-pijplijn

Trigger: Formulierinzending (gebruikerscommentaar)
→ Guardrails:
  ✅ PII-detectie (drempel: 0,8)
  ✅ Moderatie (drempel: 0,6)
  Invoer: {{trigger.comment}}
→ [Bij succes] → Plaats commentaar openbaar
→ [Bij falen] → Stuur naar handmatige beoordelingswachtrij

AI-responsvalidatie

Agent: Genereer klantantwoord
→ Guardrails:
  ✅ Hallucinatie (drempel: 0,7)
  ✅ Aangepast: "Professionele en behulpzame toon"
  Invoer: {{agent.response}}
→ [Bij succes] → Stuur e-mail naar klant
→ [Bij falen] → Genereer opnieuw met andere prompt

Meerdere-controle validatie

Agent: Genereer samenvatting van artikel
→ Guardrails:
  ✅ PII-detectie (drempel: 0,8)
  ✅ Hallucinatie (drempel: 0,7)
  ✅ Aangepast: "Geen promotionele taal" (drempel: 0,75)
  Invoer: {{agent.summary}}
→ [Bij succes] → Publiceer op website
→ [Bij falen] → Terug naar redacteur voor herziening

Omgaan met fouten

Wanneer een beveiligingscontrole faalt, stopt de workflow bij de Guardrails-node. Configureer foutafhandeling om naar alternatieve paden te routeren, meldingen te verzenden of fallback-acties te activeren (handmatige beoordelingswachtrijen, logging, waarschuwingen, opnieuw proberen, enz.).

Wanneer elke beveiligingsregel te gebruiken

PII-detectie — Gebruik voor:

Publieke inhoud die geen persoonlijke informatie mag bevatten
Gegevens die naar derden of externe systemen worden verzonden
Workflows die gevoelig zijn voor naleving (AVG, HIPAA, enz.)
Voorkomen van per ongeluk blootstelling van gevoelige gebruikersgegevens

Moderatie — Gebruik voor:

Door gebruikers gegenereerde inhoud die beoordeeld moet worden
Publieksgerichte output en communicatie
Communityplatforms en forums
Filteren van ongepaste of schadelijke inhoud

Jailbreak-detectie — Gebruik voor:

Door gebruikers gegeven prompts of instructies aan AI
Publieke AI-interfaces toegankelijk voor externe gebruikers
Beveiligingskritieke applicaties waar promptmanipulatie een risico is
Beschermen tegen pogingen om systeembeperkingen te omzeilen

Hallucinatie-detectie — Gebruik voor:

Feitgebaseerde inhoudsgeneratie die nauwkeurigheid vereist
Klantenservice-antwoorden met specifieke informatie
Financiële of medische informatie waarbij nauwkeurigheid cruciaal is
Elke inhoud waarbij valse informatie schade kan veroorzaken

Aangepaste evaluatie — Gebruik voor:

Merkconformiteit en richtlijnen voor toon van stem
Domeinspecifieke regels en industrienormen
Kwaliteitsnormen die uniek zijn voor uw organisatie
Bedrijfsspecifieke vereisten die niet door andere beveiligingsregels worden gedekt

Beste praktijken

Schakel meerdere controles in: Combineer beveiligingsregels (bijv. PII + Moderatie) voor uitgebreide validatie.
Begin met gebalanceerde drempels: Begin met 0,7 en pas aan op basis van resultaten.
Behandel altijd fouten: Voeg foutpaden toe om teams te informeren, overtredingen te loggen of alternatieve acties te activeren.
Test met randgevallen: Kalibreer drempels met behulp van grensgevallen.
Gebruik geschikte modellen: Krachtigere modellen (bijv. GPT-4) bieden betere detectie maar kosten meer.
Documenteer aangepaste evaluaties: Schrijf duidelijke, specifieke criteria voor aangepaste evaluaties.

Volgende stappen

VorigeCode VolgendeVertraging

hashtagOverzicht

hashtagHoe het werkt

hashtagGeef invoerinhoud om te valideren

hashtagSchakel specifieke beveiligingscontroles in

hashtagStel betrouwbaarheidsdrempel in voor elke controle

hashtagKies een AI-model voor evaluatie

hashtagEvalueer resultaten

hashtagConfiguratie

hashtagInvoer

hashtagModelselectie

hashtagBeschikbare beveiligingsregels

hashtagPersoonlijk identificeerbare informatie (PII)

hashtagModeratie

hashtagJailbreak-detectie

hashtagHallucinatie-detectie

hashtagAangepaste evaluatie

hashtagInstellen van betrouwbaarheidsdrempels

hashtagVoorbeeldworkflows

hashtagInhoudsmoderatie-pijplijn

hashtagAI-responsvalidatie

hashtagMeerdere-controle validatie

hashtagOmgaan met fouten

hashtagWanneer elke beveiligingsregel te gebruiken

hashtagBeste praktijken

hashtagVolgende stappen

Overzicht

Hoe het werkt

Geef invoerinhoud om te valideren

Schakel specifieke beveiligingscontroles in

Stel betrouwbaarheidsdrempel in voor elke controle

Kies een AI-model voor evaluatie

Evalueer resultaten

Configuratie

Invoer

Modelselectie

Beschikbare beveiligingsregels

Persoonlijk identificeerbare informatie (PII)

Moderatie

Jailbreak-detectie

Hallucinatie-detectie

Aangepaste evaluatie

Instellen van betrouwbaarheidsdrempels

Voorbeeldworkflows

Inhoudsmoderatie-pijplijn

AI-responsvalidatie

Meerdere-controle validatie

Omgaan met fouten

Wanneer elke beveiligingsregel te gebruiken

Beste praktijken

Volgende stappen