Twingital Institute · Architecture de référence · Planche 05

Observabilité, évaluation,
boucle eval-driven

Détecter le silent success, mesurer la dérive, refermer la boucle. 89% observent, 52% évaluent, l'écart est où les défaillances vivent.

REF TI-ARCH-AGT-EVAL-2026.05
VERSION 1.0
SUITE DE PL.01 · PL.02 · PL.03
DOCTRINE EVAL-DRIVEN · OTEL-FIRST
VALIDITY DOMAIN Architecture de référence pour l'observabilité, l'évaluation continue, et la boucle d'amélioration des systèmes agentiques en production. Applicable à tout domaine signable décrit en PL.01/02/03. Ne couvre pas la qualification initiale d'un modèle ni les benchmarks académiques, qui relèvent de la phase pré-déploiement.
SCÉNARIO RÉFÉRENT ToxTwin V3.0 en production. Le système prédit la toxicité de molécules. Question opérationnelle : comment savoir si un drift de cohorte dégrade les prédictions avant qu'un cas critique ne le révèle ? Réponse : eval continue, et boucle de retraining déclenchée par signal, pas par calendrier.
Série de planches PL.01 référence · PL.02 fédération · PL.03 zoom hexagone · PL.05 eval-driven
PL.05 · EVAL LOOP Observer · Analyser · Détecter · Agir · Boucler CLIQUER UN COMPOSANT
I · PRODUCTION · AGENT EN SERVICE SYSTÈME AGENTIQUE EN PRODUCTION PL.01/02/03 · workflow durable · agents en activity · ports de promotion CANARY · 5% progressive rollout SHADOW MODE no committed acts A/B TEST prompt · model FEATURE FLAGS runtime toggle II · OBSERVE · INSTRUMENTATION OTEL-FIRST TRACES HIÉRARCHIQUES workflow span · activity spans · tool spans MÉTRIQUES latency · tokens · cost refusal rates · écart LOGS STRUCTURÉS prompts · completions tool I/O · errors EVENTS SIGNÉS inference_proposed act_committed · refusals OTel COLLECTOR OTLP · pipeline processors · exporters III · ANALYZE · ÉVALUATION CONTINUE ONLINE EVALUATORS SLM judges · per interaction hallucination · relevance tool selection · coherence OFFLINE EVALS golden sets · regression benchmark cohorts pre-deploy · scheduled HUMAN-IN-THE-LOOP EVAL expert review · sampled domain validation disagreement labelling ANALYSE D'ÉCART · ART. VI distribution écart promo time series · drift refusal taxonomy stats IV · DETECT · FAILURE MODES SPÉCIFIQUES AGENTS SILENT SUCCESS raisonnement défaillant sortie plausible métriques au vert HANDOFF FAILURE multi-agent transfer contexte perdu décision inexpliquée TOOL HALLUCINATION tool inexistant invoqué arguments inventés confiance trompeuse RUNAWAY LOOP boucle non bornée coût exponentiel timeout : dernier rempart DRIFT cohorte qui change distribution input refusal pattern shift V · ACT · DÉCISIONS ALERT on-call SLO human ack required ROLLBACK previous version automatic if SLO DOWNGRADE smaller / safer model degraded but safe RETRAIN TRIGGER signal-driven not schedule-driven INCIDENT EU AI Act art. 18 post-mortem signé VI · LOOP · EVAL-DRIVEN DEVELOPMENT INSIGHTS patterns identifiés root-cause GOLDEN SET UPDATE add adversarial cases version controlled PROMPT / POLICY ITER A/B tested regression-gated REDEPLOY canary → shadow → full rollout RAIL TRANSVERSE · FINOPS · ÉCONOMIE D'EXÉCUTION PROMPT CACHING repeat prefixes MODEL ROUTING small first · escalate TOOL DISTILLATION compact context BATCHING aggregate · async THROTTLE / BUDGET per tenant · per case COST OBSERVABILITY FinOps · alerts EVAL-DRIVEN LOOP
Lecture de la planche
La boucle qui referme
Observer, analyser, détecter, agir, boucler. Aucune étape n'est facultative. Sans la boucle, l'observabilité est de la décoration.
La planche se lit en six couches verticales. I. L'agent en production, bordé de patterns de déploiement sûrs (canary, shadow, A/B, feature flags). II. L'instrumentation OTel-first (traces, métriques, logs, événements signés, collector). III. L'évaluation continue, articulant evaluators online (SLM judges), offline (golden sets), human-in-the-loop, et analyse d'écart Article VI. IV. La détection des failure modes spécifiques agents. V. Les décisions opérationnelles (alert, rollback, downgrade, retrain, incident). VI. La boucle eval-driven qui referme : insights, mise à jour golden set, itération prompt/policy, redéploiement.
Le rail FinOps en bas
Traverse toutes les couches. Prompt caching, model routing, tool distillation, batching, throttling, cost observability. Sans ce rail, un agent à 0,15 euro par exécution devient ingérable à 500 000 exécutions par jour.
La grande boucle rouge
Du redeploy en bas-droite remonte jusqu'à la production en haut. C'est elle qui constitue l'eval-driven development. Tout ce qui est à gauche d'elle alimente la décision, tout ce qui est à droite la matérialise.
Codage chromatique
OBSERVE · INSTRUMENTATION
ANALYZE · ÉVALUATEUR
DETECT · FAILURE MODE
ACT · DÉCISION
FINOPS · ÉCONOMIE
PRINCIPE I · OBSERVER
89% des équipes en production ont une forme d'observabilité, 52% ont des évaluations sérieuses. La plupart des défaillances vivent dans cet écart.
PRINCIPE II · DÉTECTER
Le silent success est le failure mode le plus dangereux : raisonnement défaillant, sortie plausible, métriques au vert. Seule une évaluation en ligne le détecte.
PRINCIPE III · BOUCLER
Une évaluation qui ne nourrit pas de boucle est un dashboard. Une boucle qui ne consomme pas d'évaluation est un acte de foi.