Système de détection d'anomalies & d'auto-correction pour agents IA

Le contexte

GlassGQ est une plateforme sur laquelle les utilisateurs déploient leurs propres agents IA. Ces agents sont en production, traitent des cas réels, et leur comportement a un impact direct sur les workflows des utilisateurs finaux.

Le problème : la plupart des dysfonctionnements d'un agent LLM ne génèrent aucune erreur technique. Pas d'exception, pas de timeout, pas d'alerte. L'agent tourne, répond — mais mal. Il prend de mauvaises décisions, dévie de l'intention initiale, ou produit des outputs sous-optimaux de manière systématique. Ce sont les anomalies silencieuses.

Sans outillage dédié, ces comportements passent inaperçus indéfiniment, dégradant la qualité de manière invisible jusqu'à ce que l'impact soit trop visible pour être ignoré.

Ce qu'on a construit

Nous avons conçu et développé une couche d'intelligence qui se branche directement sur la plateforme GlassGQ. Les agents des utilisateurs s'y connectent sans friction, et toutes leurs traces d'exécution sont collectées et analysées en continu.

01

Collecte et analyse de toutes les traces

Chaque exécution d'agent — chaque appel LLM, chaque décision, chaque output — est tracée et stockée. L'analyse couvre l'ensemble des runs en production, pas seulement un échantillon.

02

Détection des anomalies silencieuses

Un système de détection identifie automatiquement les mauvais comportements qui ne se manifestent pas comme des erreurs techniques : déviations de l'intention, outputs hors domaine, patterns de décision sous-optimaux, incohérences systémiques entre runs similaires.

03

Conversion automatique en sets d'évaluations

Chaque anomalie détectée est transformée en cas de test concret. Ces eval sets documentent le comportement problématique observé en production et servent de référence pour mesurer les progrès après chaque modification de l'agent.

04

Boucle d'amélioration continue

Les eval sets alimentent directement le cycle de développement de l'agent. Les problèmes réels de production deviennent des critères d'acceptation concrets, ce qui crée une boucle : production → détection → évaluation → correction → production améliorée.

L'architecture en un coup d'œil

// Agents des utilisateurs GlassGQ

Agents IA (prod) ──→ Plateforme GlassGQ

↓ toutes les traces

Moteur d'analyse ── détection comportementale

↓ anomalies silencieuses

Générateur d'evals ── cas de test contextuels

↓ eval sets

Cycle d'amélioration ── fix → re-eval → deploy

Ce que ça change

100%

des traces analysées en production

0

anomalie silencieuse non-couverte par un eval

Auto

génération des eval sets depuis la prod

Le résultat fondamental : les agents s'améliorent sur la base de ce qui se passe réellement en production, pas sur des benchmarks théoriques. Les utilisateurs GlassGQ bénéficient d'agents qui apprennent de leurs propres erreurs de manière structurée et mesurable.