Le contexte
GlassGQ est une plateforme sur laquelle les utilisateurs déploient leurs propres agents IA. Ces agents sont en production, traitent des cas réels, et leur comportement a un impact direct sur les workflows des utilisateurs finaux.
Le problème : la plupart des dysfonctionnements d'un agent LLM ne génèrent aucune erreur technique. Pas d'exception, pas de timeout, pas d'alerte. L'agent tourne, répond — mais mal. Il prend de mauvaises décisions, dévie de l'intention initiale, ou produit des outputs sous-optimaux de manière systématique. Ce sont les anomalies silencieuses.
Sans outillage dédié, ces comportements passent inaperçus indéfiniment, dégradant la qualité de manière invisible jusqu'à ce que l'impact soit trop visible pour être ignoré.
Ce qu'on a construit
Nous avons conçu et développé une couche d'intelligence qui se branche directement sur la plateforme GlassGQ. Les agents des utilisateurs s'y connectent sans friction, et toutes leurs traces d'exécution sont collectées et analysées en continu.
Collecte et analyse de toutes les traces
Chaque exécution d'agent — chaque appel LLM, chaque décision, chaque output — est tracée et stockée. L'analyse couvre l'ensemble des runs en production, pas seulement un échantillon.
Détection des anomalies silencieuses
Un système de détection identifie automatiquement les mauvais comportements qui ne se manifestent pas comme des erreurs techniques : déviations de l'intention, outputs hors domaine, patterns de décision sous-optimaux, incohérences systémiques entre runs similaires.
Conversion automatique en sets d'évaluations
Chaque anomalie détectée est transformée en cas de test concret. Ces eval sets documentent le comportement problématique observé en production et servent de référence pour mesurer les progrès après chaque modification de l'agent.
Boucle d'amélioration continue
Les eval sets alimentent directement le cycle de développement de l'agent. Les problèmes réels de production deviennent des critères d'acceptation concrets, ce qui crée une boucle : production → détection → évaluation → correction → production améliorée.
L'architecture en un coup d'œil
// Agents des utilisateurs GlassGQ
Agents IA (prod) ──→ Plateforme GlassGQ
↓ toutes les traces
Moteur d'analyse ── détection comportementale
↓ anomalies silencieuses
Générateur d'evals ── cas de test contextuels
↓ eval sets
Cycle d'amélioration ── fix → re-eval → deploy
Ce que ça change
100%
des traces analysées en production
0
anomalie silencieuse non-couverte par un eval
Auto
génération des eval sets depuis la prod
Le résultat fondamental : les agents s'améliorent sur la base de ce qui se passe réellement en production, pas sur des benchmarks théoriques. Les utilisateurs GlassGQ bénéficient d'agents qui apprennent de leurs propres erreurs de manière structurée et mesurable.
Un projet similaire en tête ?
Parlons-en