Beperkingen

Overzicht
De Guardrails-node valideert inhoud met AI-gestuurde controles om veiligheid, nauwkeurigheid en naleving te waarborgen. Elke beveiligingsregel gebruikt een LLM als beoordelaar om uw invoer te evalueren aan de hand van specifieke criteria en laat de workflow mislukken als betrouwbaarheidsdrempels worden overschreden.
Het meest geschikt voor: Inhoudsmoderatie, PII-detectie, hallucinatiecontroles, jailbreak-voorkoming en aangepaste validatieregels.
Hoe het werkt
Configuratie
Invoer
De inhoud die u wilt valideren. Ondersteunt Handmatig, Automatisch en Prompt-AI-modi.
Voorbeeldgebruik:
{{agent.output.response}}
{{trigger.output.user_message}}
{{http_request.output.content}}Modelselectie
Kies het AI-model dat wordt gebruikt om alle ingeschakelde beveiligingsregels te evalueren. Krachtigere modellen bieden nauwkeurigere detectie maar kunnen meer kosten.
Beschikbare beveiligingsregels
Persoonlijk identificeerbare informatie (PII)
Detecteert persoonlijke gegevens zoals namen, e-mails, telefoonnummers, adressen, BSN's, creditcards, enz.
Wanneer te gebruiken:
Voordat gebruikersgegenereerde inhoud wordt opgeslagen
Bij het delen van gegevens extern
Nalevingsvereisten (AVG, HIPAA)
Klantenservice-workflows
Configuratie:
Betrouwbaarheidsdrempel: 0,7 (aanbevolen)
Hogere drempel = strengere detectie
Voorbeeld:
Invoer: {{agent.output.customer_response}}
Drempel: 0,8
Resultaat: Faal als PII wordt gedetecteerd met >80% vertrouwenModeratie
Controleert op ongepaste, schadelijke of aanstootgevende inhoud, waaronder haatspraak, geweld, volwassen inhoud, intimidatie, enz.
Wanneer te gebruiken:
Platforms met door gebruikers gegenereerde inhoud
Publiek gerichte communicatie
Community-moderatie
Klantengerichte output
Configuratie:
Betrouwbaarheidsdrempel: 0,6 (aanbevolen)
Pas aan op basis van uw inhoudsbeleid
Jailbreak-detectie
Identificeert pogingen om AI-veiligheidscontroles te omzeilen of de AI te manipuleren tot ongewenst gedrag.
Wanneer te gebruiken:
Verwerken van gebruikersprompts voordat deze naar AI worden gestuurd
Publieke AI-interfaces
Workflows met door gebruikers gegeven instructies
Beveiligingsgevoelige applicaties
Configuratie:
Betrouwbaarheidsdrempel: 0,7 (aanbevolen)
Hogere drempel voor minder vals positieven
Voorbeeld:
Invoer: {{trigger.user_prompt}}
Drempel: 0,75
Markeringen: Pogingen om "vorige instructies te negeren" of soortgelijkHallucinatie-detectie
Detecteert wanneer door AI gegenereerde inhoud onjuiste of niet-verifieerbare informatie bevat.
Wanneer te gebruiken:
Feitgebaseerde inhoudsgeneratie
Antwoorden van klantenservice
Financiële of medische informatie
Elke workflow waarbij nauwkeurigheid cruciaal is
Configuratie:
Betrouwbaarheidsdrempel: 0,6 (aanbevolen)
Vereist referentiegegevens voor vergelijking
Voorbeeld:
Invoer: {{agent.generated_summary}}
Referentie: {{http_request.original_data}}
Drempel: 0,7
Controles: Geeft de samenvatting de brongegevens nauwkeurig weer?Aangepaste evaluatie
Definieer uw eigen validatiecriteria met natuurlijke taal-instructies.
Wanneer te gebruiken:
Domeinspecifieke validatie
Naleving van merktoon
Aangepaste bedrijfsregels
Gespecialiseerde inhoudsvereisten
Configuratie:
Evaluatiecriteria: Beschrijf wat gecontroleerd moet worden
Betrouwbaarheidsdrempel: Stel in op basis van benodigde strengheid
Voorbeeld:
Criteria: "Controleer of dit antwoord onze merkstem behoudt:
- Professionele maar vriendelijke toon
- Geen jargon of technische termen
- Spreekt de klant bij naam aan
- Biedt duidelijke vervolgstappen"
Invoer: {{agent.email_response}}
Drempel: 0,8Instellen van betrouwbaarheidsdrempels
De betrouwbaarheidsdrempel bepaalt hoe streng elke controle is:
0,3–0,5
Ruimdenkend
Vermijd vals positieven, alleen informatief
0,6–0,7
Gebalanceerd
Meeste gebruikssituaties, goede nauwkeurigheid
0,8–0,9
Streng
Risicoscenario's met hoog risico, kritieke validatie
0,9–1,0
Zeer streng
Markeer alleen zeer duidelijke overtredingen
Begin met 0,7 als een gebalanceerde standaard en pas vervolgens aan op basis van vals positieven of gemiste detecties.
Voorbeeldworkflows
Inhoudsmoderatie-pijplijn
Trigger: Formulierinzending (gebruikerscommentaar)
→ Guardrails:
✅ PII-detectie (drempel: 0,8)
✅ Moderatie (drempel: 0,6)
Invoer: {{trigger.comment}}
→ [Bij succes] → Plaats commentaar openbaar
→ [Bij falen] → Stuur naar handmatige beoordelingswachtrijAI-responsvalidatie
Agent: Genereer klantantwoord
→ Guardrails:
✅ Hallucinatie (drempel: 0,7)
✅ Aangepast: "Professionele en behulpzame toon"
Invoer: {{agent.response}}
→ [Bij succes] → Stuur e-mail naar klant
→ [Bij falen] → Genereer opnieuw met andere promptMeerdere-controle validatie
Agent: Genereer samenvatting van artikel
→ Guardrails:
✅ PII-detectie (drempel: 0,8)
✅ Hallucinatie (drempel: 0,7)
✅ Aangepast: "Geen promotionele taal" (drempel: 0,75)
Invoer: {{agent.summary}}
→ [Bij succes] → Publiceer op website
→ [Bij falen] → Terug naar redacteur voor herzieningOmgaan met fouten
Wanneer een beveiligingscontrole faalt, stopt de workflow bij de Guardrails-node. Configureer foutafhandeling om naar alternatieve paden te routeren, meldingen te verzenden of fallback-acties te activeren (handmatige beoordelingswachtrijen, logging, waarschuwingen, opnieuw proberen, enz.).
Wanneer elke beveiligingsregel te gebruiken
PII-detectie — Gebruik voor:
Publieke inhoud die geen persoonlijke informatie mag bevatten
Gegevens die naar derden of externe systemen worden verzonden
Workflows die gevoelig zijn voor naleving (AVG, HIPAA, enz.)
Voorkomen van per ongeluk blootstelling van gevoelige gebruikersgegevens
Moderatie — Gebruik voor:
Door gebruikers gegenereerde inhoud die beoordeeld moet worden
Publieksgerichte output en communicatie
Communityplatforms en forums
Filteren van ongepaste of schadelijke inhoud
Jailbreak-detectie — Gebruik voor:
Door gebruikers gegeven prompts of instructies aan AI
Publieke AI-interfaces toegankelijk voor externe gebruikers
Beveiligingskritieke applicaties waar promptmanipulatie een risico is
Beschermen tegen pogingen om systeembeperkingen te omzeilen
Hallucinatie-detectie — Gebruik voor:
Feitgebaseerde inhoudsgeneratie die nauwkeurigheid vereist
Klantenservice-antwoorden met specifieke informatie
Financiële of medische informatie waarbij nauwkeurigheid cruciaal is
Elke inhoud waarbij valse informatie schade kan veroorzaken
Aangepaste evaluatie — Gebruik voor:
Merkconformiteit en richtlijnen voor toon van stem
Domeinspecifieke regels en industrienormen
Kwaliteitsnormen die uniek zijn voor uw organisatie
Bedrijfsspecifieke vereisten die niet door andere beveiligingsregels worden gedekt
Beste praktijken
Schakel meerdere controles in: Combineer beveiligingsregels (bijv. PII + Moderatie) voor uitgebreide validatie.
Begin met gebalanceerde drempels: Begin met 0,7 en pas aan op basis van resultaten.
Behandel altijd fouten: Voeg foutpaden toe om teams te informeren, overtredingen te loggen of alternatieve acties te activeren.
Test met randgevallen: Kalibreer drempels met behulp van grensgevallen.
Gebruik geschikte modellen: Krachtigere modellen (bijv. GPT-4) bieden betere detectie maar kosten meer.
Documenteer aangepaste evaluaties: Schrijf duidelijke, specifieke criteria voor aangepaste evaluaties.

