E-commerce Noël : le crash n’est pas le stock, c’est le TTFB

On a vu un site perdre 40 % de son taux de conversion un 15 décembre. Pas à cause d’une rupture de stock. Pas à cause d’un bug de paiement. Le TTFB était passé de 200 ms à 1,8 s en milieu de matinée, et le LCP a suivi mécaniquement au-delà des 4 secondes. Les pages n’étaient pas lentes : elles étaient en souffrance. Le serveur d’origine encaissait des pointes de trafic pour lesquelles il n’avait jamais été dimensionné, et le CDN, configuré en mode « cache everything » sur la home page seulement, laissait filer vers l’origine chaque requête de fiche produit.

Ce jour-là, le problème n’était pas le JavaScript. C’était la couche la plus ennuyeuse, la moins visible, celle que personne ne regarde avant qu’elle casse : la capacité à produire le premier octet, vite, pour des milliers de visiteurs simultanés.

Le pic de Noël expose votre temps de rendu serveur, pas votre lazy-loading

Les équipes passent l’automne à optimiser les images, à différer les scripts tiers, à découper les bundles. Travail utile. Mais quand le trafic triple sur une journée, le goulot n’est plus le poids de la page : c’est le temps que met le serveur à la construire. Si votre backend exécute 40 requêtes SQL et un rendu template complet pour chaque visiteur non-caché, chaque milliseconde supplémentaire sous charge se répercute sur le TTFB, puis sur le LCP, puis sur le taux de rebond.

J’ai reproduit le scénario sur un banc d’essai volontairement modeste : une boutique headless avec un front Next.js 14 et un backend PHP legacy, derrière un CDN configuré en mode « standard ». Avec 200 utilisateurs simultanés, le TTFB médian passait de 180 ms à 950 ms. Le LCP médian grimpait de 2,1 s à 5,6 s. Le pire, c’est que Lighthouse en local restait impeccable. Le problème n’apparaissait qu’en condition de charge réelle.

Google mesure les Core Web Vitals sur le terrain, via le rapport CrUX, et ces données-là sont pondérées par le volume de trafic réel. Un samedi de novembre où vous avez 800 visites, vos métriques sont bonnes. Un lundi de décembre à 8 000 visites, elles s’effondrent, et c’est cette photo-là qui entre dans les signaux de classement pour les semaines suivantes. La fenêtre de tir est courte, et elle ne pardonne pas.

⚠️ Attention : un cache full-page mal configuré sur les URLs à fort trafic (PLP, PDP) vous donne une fausse sécurité. Le jour où vous cassez le cache pour une raison légitime (changement de prix, mise à jour de stock), l’intégralité du trafic converge vers l’origine.

Pourquoi le cache CDN ne suffit plus dès que vous personnalisez

Le piège classique du e-commerce de décembre, c’est la personnalisation. Vous activez des recommandations « souvent achetés ensemble », des prix dynamiques selon le segment client, une bannière « livraison offerte jusqu’à dimanche ». Chacune de ces fonctionnalités est, architecturalement, un casseur de cache. Si la réponse HTTP varie selon un cookie, un header ou une géolocalisation, le CDN cesse de servir une version statique et renvoie la requête vers l’origine. Multipliez ça par le nombre de visiteurs uniques, et l’origine prend l’eau.

L’approche à tester avant octobre, c’est la segmentation du cache au niveau de l’edge. Plutôt que de désactiver le cache pour tout le monde parce que 10 % des visiteurs voient des prix segmentés, on sert une page générique cachée à 90 % de l’audience et on applique la personnalisation côté client, via une requête API séparée pour le segment tarifaire. Ce choix suppose que votre front soit capable d’hydrater partiellement sans décalage de layout, ce qui renvoie à un travail d’architecture rendu qu’on couvre dans nos cas sur l’optimisation des Core Web Vitals.

Le découpage a un coût : il vous oblige à repenser la façon dont les données arrivent au composant. Mais l’alternative, c’est de voir votre TTFB multiplié par six sur les trois jours les plus rentables de l’année.

L’erreur qu’on a faite deux fois : ne pas simuler de charge avant la saison

En 2024, on a audité une boutique après un Black Friday douloureux. Le TTFB sous charge n’avait jamais été testé. L’équipe mesurait les performances avec Lighthouse en throttling réseau, ce qui simule une connexion lente mais pas la saturation du serveur. Le jour J, le CPU de l’instance backend a plafonné à 100 % pendant 45 minutes, et le site répondait en 8 secondes.

L’année suivante, on a exigé un test de charge sur les scénarios à risque : page listing avec filtres, page produit avec avis, panier avec upsell, tunnel de conversion avec appel tiers. On a utilisé k6 avec des scripts qui reproduisaient le parcours réel d’un visiteur (arrivée sur une PLP, clic sur un produit, ajout au panier). Le résultat a montré que la page panier, même en JSON, appelait une route interne de validation de stock non-cachée et non-indexée qui générait 300 ms par requête. Sous charge, c’était la file d’attente.

💡 Conseil : ne testez pas votre site avec la config de cache activée sur tous les segments. Désactivez volontairement le cache sur les URLs critiques pour voir comment l’infrastructure se comporte quand le CDN transmet 100 % du trafic à l’origine.

Ce n’est pas une manœuvre paranoïaque. Dans la réalité d’un pic, il suffit d’une invalidation automatique mal calée ou d’une purge manuelle intempestive pour que le cache se vide au pire moment. Une origine qui tient 500 visiteurs simultanés sans CDN, c’est une origine qui tiendra bien mieux avec le CDN devant.

Votre Inventory Health Score impacte le crawl, et personne n’en parle

Un angle qu’on oublie systématiquement dans la préparation Noël, c’est le crawl. Un site e-commerce qui ajoute 3 000 nouvelles références en novembre modifie sa structure d’URL, ses facettes, potentiellement ses liens internes. Si le budget de crawl est consommé par des URLs produit en double (paramètres d’URL non canonisés, tri par prix, filtres de couleur), Googlebot perd du temps et de la bande passante sur des pages qui n’ont aucune chance d’être indexées.

Pendant qu’on se concentre sur le front, le sitemap XML gonfle, la chaîne de redirection interne s’allonge, et les signaux de fraîcheur que Google pourrait capter sur les nouvelles pages arrivent trop tard. Ce n’est pas un problème de performance de rendu, mais c’est un problème de visibilité qui coûte autant, voire plus, que 100 ms de TTFB. J’ai vu des Search Console où 40 % du crawl mensuel partait dans des URL à paramètres triées, parce que le robots.txt n’avait pas été mis à jour depuis la refonte d’avril.

L’audit de crawl pré-saison est une pratique qui prend une demi-journée et évite trois semaines de déréférencement partiel. Il consiste à croiser les logs serveur avec les URLs soumises, à repérer les chaînes de redirection internes et à vérifier que les balises canoniques pointent bien vers les URLs propres. Ce travail est orthogonal à la performance pure, mais il conditionne la capacité du site à être indexé avant le pic. Sans ça, vous avez un site rapide que Googlebot ne lit pas correctement.

Le dimensionnement de l’Edge est un choix d’architecture, pas une option hébergement

La plupart des plateformes cloud proposent de l’auto-scaling. Mais l’auto-scaling réagit à la charge : il ne l’anticipe pas. Sur un pic à +300 % en 20 minutes, le temps que les instances montent, le mal est fait. Les visiteurs ont rencontré des pages blanches ou des LCP à 6 secondes, et ils ne reviendront pas.

Préparer Noël, c’est aussi configurer un scaling proactif : surdimensionner temporairement l’infrastructure backend pour la période du 1er novembre au 5 janvier, avec une marge de 50 % au-dessus de la prévision de pointe. Le surcoût mensuel est marginal comparé à une demi-journée de vente perdue.

Ce raisonnement vaut aussi pour les edge functions. Si vous utilisez un middleware Next.js qui exécute une logique de geoloc ou de réécriture d’URL à chaque requête, assurez-vous que sa latence ne s’additionne pas au TTFB sous charge. J’ai mesuré un middleware qui, sous 500 requêtes par seconde, ajoutait 180 ms de latence médiane simplement parce qu’il faisait un appel à une API tierce non-cachée. Le TTFB total passait à 500 ms avant même que l’origine ne soit sollicitée.

Il est possible de contourner ce problème en déportant la logique non-critique dans un worker séparé ou en la résolvant côté client après le premier rendu. Cela rejoint les arbitrages qu’on discute dans notre article sur Claude Code vs Cursor IDE, où l’architecture des outils conditionne la productivité réelle bien au-delà des benchmarks de laboratoire.

Ce que le monitoring temps réel change à la veille du pic

On ne peut pas corriger un TTFB qui dérive si on ne le voit pas. La Search Console a un délai de 48 à 72 heures sur les données Core Web Vitals. C’est trop lent. Pour un rush de Noël, il faut un monitoring temps réel sur le serveur d’origine : TTFB au percentile 75, taux d’erreur HTTP 5xx, temps de réponse des bases de données.

Un cas concret : un samedi 14 décembre, le TTFB p75 d’une boutique passe de 300 ms à 700 ms en 15 minutes. L’alerte se déclenche. L’équipe découvre qu’une requête SQL de suggestion de produits, ajoutée la veille, effectue un scan complet d’une table de 2 millions de lignes à chaque chargement de page. Sans monitoring temps réel, l’information serait remontée trois jours plus tard sous forme de « baisse de trafic inexpliquée ».

Le sujet n’est pas l’outil mais le réflexe. Mettre en place des alertes sur les métriques serveur avant novembre, c’est s’offrir la capacité de réagir en minutes plutôt qu’en jours. Les équipes qui performent le mieux sur les pics saisonniers sont celles qui ont instrumenté le backend aussi sérieusement que le front. Un bundle JS mal optimisé se voit dans Lighthouse. Une requête SQL qui explose sous charge ne se voit nulle part, sauf dans les logs et les métriques.

L’impact du state management sur la résilience du front en période de rush

Un front e-commerce sous charge, c’est aussi un state management qui peut dégrader l’expérience utilisateur si les mises à jour de l’interface déclenchent des re-rendus en cascade. Sur les pages à forte interactivité (filtres, panier, tunnel), un store global mal structuré génère des latences perceptibles, même si le serveur répond vite.

Le choix de la bibliothèque de state management a un effet direct sur la capacité du front à absorber un trafic important sans dégrader l’INP. Sur un cas de migration que nous avons documenté, le passage de Redux à Zustand a réduit le temps de réponse des interactions de filtrage de 40 %. Nous avons détaillé cette analyse dans notre article sur le state management avec Zustand en React. Ce n’est pas un sujet d’hiver uniquement, mais il devient critique quand chaque milliseconde d’interaction bloque un visiteur sur le point de convertir.

Questions fréquentes

Faut-il geler les déploiements pendant le pic de Noël ?

Geler les déploiements est une pratique courante, mais elle est contre-productive si elle empêche de corriger un bug critique. Ce qui compte, c’est de déployer avec un circuit de validation accéléré et un rollback automatisé. À partir du 10 décembre, chaque déploiement doit pouvoir être annulé en moins de deux minutes.

Les pages AMP ont-elles encore un intérêt pour le e-commerce en période de rush ?

Le format AMP n’a plus le statut prioritaire qu’il avait il y a cinq ans, et Google ne lui accorde plus de badge dans les SERP. En revanche, les contraintes de performance qu’il imposait (pas de JS lourd, CSS inline limité) restent un excellent cahier des charges pour la version mobile de vos pages atterrissage. Le standard n’est pas mort mais il a perdu son avantage de visibilité.

Comment prioriser entre optimisation du front et du backend avant la saison ?

La règle qu’on applique : si le TTFB médian est inférieur à 400 ms hors charge, l’effort va au front et aux Core Web Vitals côté client. Si le TTFB dépasse 600 ms sous une charge simulée de 50 % du pic attendu, le backend est le facteur limitant et doit être traité en premier. Dans les deux cas, le CDN est la première couche à auditer.