Lecture de la planche
La boucle qui referme
Observer, analyser, détecter, agir, boucler. Aucune étape n'est facultative. Sans la boucle, l'observabilité est de la décoration.
La planche se lit en six couches verticales. I. L'agent en production, bordé de patterns de déploiement sûrs (canary, shadow, A/B, feature flags). II. L'instrumentation OTel-first (traces, métriques, logs, événements signés, collector). III. L'évaluation continue, articulant evaluators online (SLM judges), offline (golden sets), human-in-the-loop, et analyse d'écart Article VI. IV. La détection des failure modes spécifiques agents. V. Les décisions opérationnelles (alert, rollback, downgrade, retrain, incident). VI. La boucle eval-driven qui referme : insights, mise à jour golden set, itération prompt/policy, redéploiement.
Le rail FinOps en bas
Traverse toutes les couches. Prompt caching, model routing, tool distillation, batching, throttling, cost observability. Sans ce rail, un agent à 0,15 euro par exécution devient ingérable à 500 000 exécutions par jour.
La grande boucle rouge
Du redeploy en bas-droite remonte jusqu'à la production en haut. C'est elle qui constitue l'eval-driven development. Tout ce qui est à gauche d'elle alimente la décision, tout ce qui est à droite la matérialise.