318 — Mesurer & optimiser sa consommation

Durée : ~45 min · Complexité : ⭐⭐⭐ · Pré-requis : 107 — Choix de modèles, 311 — Tokens & contexte

On n’optimise que ce qu’on mesure. Les Agent Debug Logs montrent votre consommation réelle de tokens, session par session ; le Cache Explorer révèle quelle part est servie par le cache — donc bien moins chère — et comment vos prompts sont structurés sous le capot.

Objectif

À la fin de ce module, tu sais :

Lire les Agent Debug Logs pour voir ta consommation réelle de tokens, session par session.
Interpréter le taux de hit de cache et identifier où le cache casse.
Lire la signature du prompt (système, outils, messages) pour comprendre ce qui reste en cache.
Garder un préfixe stable pour maximiser les hits de cache et réduire la facture.

Ce que tu vas apprendre

Les Agent Debug Logs : visualiser la consommation réelle
Le Cache Explorer : performance du cache et point de rupture
La signature du prompt : ce qui change vs ce qui reste en cache
La règle : maximiser les hits de cache = facture réduite

Contenu pédagogique

Les Agent Debug Logs — visualiser sa consommation réelle

Les Agent Debug Logs te donnent un snapshot par session. Voici un exemple réel (session locale, 0 erreur) :

Métrique	Valeur
Tours du modèle	26
Appels d’outils	21
Tokens d’entrée	1 159 021
Tokens de sortie	21 653
Tokens d’entrée en cache	1 016 681
Tokens au total	1 180 674
Erreurs	0
Usage Copilot (AIC)	115,93

La ligne qui compte :

1 016 681 / 1 159 021 tokens d’entrée servis par le cache — ≈ 88 % de l’entrée déjà payée une fois.

Autrement dit, sur 1,16 M de tokens d’entrée, ≈ 88 % sont réutilisés depuis le cache — donc bien moins chers. La consommation visible (AIC : 115,93) est tirée par les 12 % restants et par les tokens de sortie. C’est là que se joue l’optimisation.

Le Cache Explorer — où le cache casse

Le Cache Explorer montre la performance du cache requête par requête et révèle le point exact où il casse.

PERFORMANCE DU CACHE
Requête courante : 77,33 % de hit de cache   (requête précédente : 96,63 %)
33 746 / 43 638 tokens d'entrée réutilisés

Le taux a chuté de 96,63 % à 77,33 %. Pourquoi ? Le Cache Explorer le dit :

OÙ LE CACHE CASSE — Au premier message
Message utilisateur redimensionné à 22 767 caractères
→ tout ce qui suit ce point repart au plein tarif
Perdu : 9 892 tokens (22,66 %)
0 identique · 7 modifiés · 28 supprimés

Une modification au premier message (messages[0]) a invalidé tout ce qui suit. Résultat : 9 892 tokens (22,66 %) repassent au plein tarif. Plus la rupture est en amont, plus elle coûte cher.

La signature du prompt

La signature du prompt montre ce qui change d’une requête à l’autre — et ce qui reste en cache. Trois zones : système, outils, messages.

Légende : système 92 188 · outils 377 951 · messages (en cache) · messages (cassé)

PRÉCÉDENTE  (551 578 car.)  | système 92 188 | outils 377 951 | messages en cache 81 439
COURANTE    (498 592 car.)  | système 92 188 | outils 377 951 | messages cassé    28 453
→ 470 139 / 498 592 caractères réutilisés — rupture à messages[0]

Le préfixe stable (système + outils = 470 139 caractères) est réutilisé intégralement. La rupture est localisée dans les messages, au tout début (messages[0]). Tout ce qui précède la rupture est gratuit ; tout ce qui suit repasse au plein tarif.

Maximiser les hits de cache = facture réduite

Maximisez les hits de cache = facture réduite. Gardez le préfixe stable : système + catalogue d’outils + début de conversation. Toute modification en amont (éditer un ancien message, réinjecter un gros bloc) casse le cache — et tout ce qui suit le point de rupture repasse au plein tarif.

La règle pratique :

Ne touche pas au préfixe. Système et catalogue d’outils doivent rester identiques d’une requête à l’autre.
N’édite pas un ancien message. Modifier messages[0] invalide toute la suite.
Évite de réinjecter de gros blocs en amont. Ajoute le nouveau contexte à la fin, pas au début.

Exercice

Énoncé — En 20 minutes, tu vas auditer une session réelle et identifier ta plus grosse rupture de cache.

Étapes guidées :

Ouvre les Agent Debug Logs sur une session active. Note le ratio tokens d’entrée en cache / tokens d’entrée.
Ouvre le Cache Explorer et compare le hit de cache de la requête courante à la précédente.
Si le taux a chuté, repère où le cache casse (quel messages[N]).
Identifie l’action qui a causé la rupture (édition d’un ancien message, gros bloc réinjecté).
Refais la même tâche en gardant le préfixe stable et compare le hit de cache.

Critère de réussite : tu as identifié une rupture de cache concrète et réduit sa perte de tokens sur une seconde passe.

Validation

Tu peux passer au module suivant si :

Tu sais ouvrir les Agent Debug Logs et lire le ratio de tokens servis par le cache.
Tu sais interpréter un taux de hit de cache et repérer où il casse.
Tu sais lire la signature du prompt (système / outils / messages).
Tu sais nommer trois actions qui cassent le cache et comment les éviter.

Pour aller plus loin

Module 311 — Tokens & contexte — le coût d’un token au-delà de la facture.
Module 312 — Patterns de sobriété — structurer son code pour consommer moins.
Module 313 — Outils de réduction — filtrer la sortie shell avant le contexte.

Source

Contenu issu du retour d’expérience d’Ousmane BARRY, MVP Microsoft Foundry — guide pratique « Développement assisté par IA » (publication LinkedIn).