Observabilité, évaluation,
boucle eval-driven

Détecter le silent success, mesurer la dérive, refermer la boucle. 89% observent, 52% évaluent, l'écart est où les défaillances vivent.

REF TI-ARCH-AGT-EVAL-2026.05

VERSION 1.0

SUITE DE PL.01 · PL.02 · PL.03

DOCTRINE EVAL-DRIVEN · OTEL-FIRST

VALIDITY DOMAIN Architecture de référence pour l'observabilité, l'évaluation continue, et la boucle d'amélioration des systèmes agentiques en production. Applicable à tout domaine signable décrit en PL.01/02/03. Ne couvre pas la qualification initiale d'un modèle ni les benchmarks académiques, qui relèvent de la phase pré-déploiement.

SCÉNARIO RÉFÉRENT ToxTwin V3.0 en production. Le système prédit la toxicité de molécules. Question opérationnelle : comment savoir si un drift de cohorte dégrade les prédictions avant qu'un cas critique ne le révèle ? Réponse : eval continue, et boucle de retraining déclenchée par signal, pas par calendrier.

Série de planches PL.01 référence · PL.02 fédération · PL.03 zoom hexagone · PL.05 eval-driven

PL.05 · EVAL LOOP Observer · Analyser · Détecter · Agir · Boucler CLIQUER UN COMPOSANT

Lecture de la planche

La boucle qui referme

Observer, analyser, détecter, agir, boucler. Aucune étape n'est facultative. Sans la boucle, l'observabilité est de la décoration.

La planche se lit en six couches verticales. I. L'agent en production, bordé de patterns de déploiement sûrs (canary, shadow, A/B, feature flags). II. L'instrumentation OTel-first (traces, métriques, logs, événements signés, collector). III. L'évaluation continue, articulant evaluators online (SLM judges), offline (golden sets), human-in-the-loop, et analyse d'écart Article VI. IV. La détection des failure modes spécifiques agents. V. Les décisions opérationnelles (alert, rollback, downgrade, retrain, incident). VI. La boucle eval-driven qui referme : insights, mise à jour golden set, itération prompt/policy, redéploiement.

Le rail FinOps en bas

Traverse toutes les couches. Prompt caching, model routing, tool distillation, batching, throttling, cost observability. Sans ce rail, un agent à 0,15 euro par exécution devient ingérable à 500 000 exécutions par jour.

La grande boucle rouge

Du redeploy en bas-droite remonte jusqu'à la production en haut. C'est elle qui constitue l'eval-driven development. Tout ce qui est à gauche d'elle alimente la décision, tout ce qui est à droite la matérialise.

Codage chromatique

OBSERVE · INSTRUMENTATION

ANALYZE · ÉVALUATEUR

DETECT · FAILURE MODE

ACT · DÉCISION

FINOPS · ÉCONOMIE

PRINCIPE I · OBSERVER

89% des équipes en production ont une forme d'observabilité, 52% ont des évaluations sérieuses. La plupart des défaillances vivent dans cet écart.

PRINCIPE II · DÉTECTER

Le silent success est le failure mode le plus dangereux : raisonnement défaillant, sortie plausible, métriques au vert. Seule une évaluation en ligne le détecte.

PRINCIPE III · BOUCLER

Une évaluation qui ne nourrit pas de boucle est un dashboard. Une boucle qui ne consomme pas d'évaluation est un acte de foi.