Question 1

Quelle est la différence entre mise à l’échelle verticale et mise à l’échelle horizontale ?

Accepted Answer

La mise à l’échelle verticale signifie rendre une seule machine plus puissante (plus de CPU/RAM/disque plus rapide). La mise à l’échelle horizontale signifie ajouter davantage de machines et répartir le travail entre elles.

La verticale paraît souvent plus simple parce que votre application se comporte toujours comme « un seul système », tandis que l’horizontale vous oblige à faire coopérer plusieurs systèmes et à maintenir leur cohérence.

Question 2

Pourquoi la mise à l’échelle horizontale introduit-elle plus de complexité que la verticale ?

Accepted Answer

Parce qu’à partir du moment où vous avez plusieurs nœuds, il faut une coordination explicite :

décider qui gère quel travail
éviter le double traitement
gérer les délais réseau et les pannes partielles

Une seule machine évite beaucoup de ces problèmes distribués par défaut.

Question 3

Qu’est-ce que le « coût de coordination » dans un système distribué ?

Accepted Answer

C’est le temps et la logique nécessaires pour faire en sorte que plusieurs machines se comportent comme une seule :

élection de leader et règles de basculement
verrous/leases et problèmes de dérive d’horloge
éviter les situations de split-brain

Même si chaque nœud est simple, le comportement du système devient difficile à raisonner sous charge et en cas de défaillance.

Question 4

Pourquoi le sharding et le partitionnement des données sont-ils si difficiles à bien faire ?

Accepted Answer

Le sharding (partitionnement) répartit les données sur plusieurs nœuds pour qu’aucune machine n’ait à tout stocker/servir. C’est difficile car il faut :

router chaque lecture/écriture vers le bon shard
rééquilibrer les données quand on ajoute/retire des nœuds
gérer les partitions « hot » quand un shard devient le goulot d’étranglement

Cela augmente aussi le travail opérationnel (migrations, backfills, cartographie des shards).

Question 5

Que signifie « état » et pourquoi est-ce important pour la montée en charge horizontale ?

Accepted Answer

L’état est tout ce que votre application « se souvient » entre deux requêtes ou pendant un traitement (sessions, caches en mémoire, fichiers temporaires, progression d’un job).

Avec la mise à l’échelle horizontale, les requêtes peuvent arriver sur différents serveurs, donc il faut typiquement un stockage d’état partagé (Redis/bdd) ou accepter des compromis comme les sessions sticky.

Question 6

Comment éviter que les jobs d’arrière-plan ne s’exécutent deux fois lors d’une montée en charge horizontale ?

Accepted Answer

Si plusieurs workers peuvent prendre le même job (ou qu’un job est réessayé), vous risquez d’appliquer deux fois la même action (facturation, envoi d’email).

Mitigations courantes :

handlers idempotents pour les jobs
verrous/leases lors de la prise en charge d’un job
déduplication via des IDs uniques de job
politiques de retry prudentes avec backoff

Question 7

Quelle est la différence pratique entre cohérence forte et cohérence éventuelle ?

Accepted Answer

La cohérence forte signifie que, quand une écriture est confirmée, tous les lecteurs voient immédiatement la nouvelle valeur. La cohérence éventuelle signifie que les mises à jour se propagent avec un délai : certains lecteurs peuvent voir une ancienne valeur pendant un court instant.

Utilisez la cohérence forte pour les données critiques (paiements, soldes, inventaires). La cohérence éventuelle est souvent acceptable pour les données moins sensibles (analytics, recommandations).

Question 8

Pourquoi les timeouts et les retries deviennent-ils plus problématiques avec la mise à l’échelle horizontale ?

Accepted Answer

Dans un système distribué, les appels deviennent des appels réseau, ce qui ajoute latence, jitter et nouvelles causes de défaillance.

Principes usuels :

définir des timeouts pour éviter les threads bloqués
limiter les retries et utiliser backoff exponentiel + jitter
ne réessayer que les opérations sûres (idempotentes) pour éviter les effets en double

Question 9

Qu’est-ce que la « panne partielle » et pourquoi est-ce normal à l’échelle ?

Accepted Answer

La panne partielle signifie que certains composants sont lents ou cassés tandis que d’autres fonctionnent. Le système peut être « up » mais produire des erreurs, des timeouts ou un comportement incohérent.

On conçoit des réponses comme la réplication, les quorums, les déploiements multi-zone, les disjoncteurs (circuit breakers) et la dégradation gracieuse pour éviter que les pannes ne se propagent.

Question 10

Comment diagnostiquer les problèmes quand l’application tourne sur de nombreux serveurs ?

Accepted Answer

Sur plusieurs machines, les preuves sont fragmentées : logs, métriques et traces sont répartis.

Bonnes pratiques :

utiliser des IDs de corrélation de bout en bout
adopter le traçage distribué pour suivre le parcours d’une requête
alerter sur les signaux de saturation (CPU, profondeur des queues, pools de connexions), pas seulement sur les taux d’erreur

Pourquoi la mise à l’échelle horizontale est plus difficile que la verticale

Mise à l’échelle en langage clair

Vertical vs. Horizontal (définitions rapides)

Mise à l’échelle verticale (scale up)

Mise à l’échelle horizontale (scale out)

Qu’est-ce qui déclenche généralement la question ?

Une nuance importante : la plupart des systèmes réels utilisent les deux

FAQ