Opendatasoft devient Huwise !

On vous explique
Language

Box plot (boîte à moustaches)

Un diagramme en “boîte à moustaches” ou box plot est une représentation graphique standardisée qui permet de visualiser la distribution d'un ensemble de groupes de données afin d'en effectuer une analyse plus approfondie.

Qu’est-ce qu’un box plot ou diagramme en boîte à moustaches ?

Un box plot est une représentation graphique de données statistiques qui permet de visualiser aisément la répartition de plusieurs ensembles de données. Il permet d’afficher cinq valeurs différentes – le minimum, le premier quartile, la médiane, le troisième quartile et le maximum – dans une seule forme de boîte pour chaque groupe. Un diagramme en boîte facilite donc la visualisation et la compréhension de la dispersion des données collectées et de leur distribution, ainsi que la comparaison entre les groupes.

Il peut également être utilisé pour montrer la variabilité au-delà de la dispersion normale des quartiles supérieur et inférieur grâce à des lignes (appelées moustaches) qui s’étendent à partir de la boîte, d’où ses noms alternatifs de diagramme en boîte et moustaches. Des valeurs aberrantes supplémentaires peuvent être affichées sous forme de points sur le graphique.

La forme du diagramme en boîte montre comment les données sont distribuées et toute valeur aberrante. C’est un moyen utile de comparer différents ensembles de données, car on peut dessiner plusieurs diagrammes en boîte par graphique.

Les diagrammes en boîte peuvent être alignés avec les boîtes placées verticalement (avec les groupes sur l’axe horizontal) ou horizontalement (avec les groupes alignés verticalement). Orienter les boîtes horizontalement est utile lorsqu’il y a beaucoup de groupes à tracer, ou si les noms de ces groupes sont longs, car ils n’ont pas besoin d’être abrégés. Orienter les boîtes verticalement fonctionne bien pour d’autres types de données, comme par exemple lorsque la variable de regroupement est basée sur des unités de temps.

Pourquoi utilise-t-on un box plot ?

Les box plot sont utilisés pour avoir un aperçu des informations de haut niveau sur un groupe de données, montrant sa symétrie, son asymétrie, sa variance et toute valeur aberrante. Il est aisé de voir où se situe la majorité des données, et les diagrammes en boîte sont plus simples à comprendre qu’un graphique en ligne lorsqu’il y a une grande variabilité dans l’ensemble de données. Les diagrammes en boîte permettent également la comparaison de plusieurs groupes de données, sur le même graphique et en utilisant la même échelle.

Cependant, la simplicité d’un diagramme en boîte implique des limitations quant à la densité des données qu’il représente Il n’est pas possible de voir la forme détaillée d’une distribution ou de repérer des pics ou des creux spécifiques.

Comment créer des diagrammes en boîte à moustaches ?

La création d’un diagramme en boîte est un processus standardisé :

Analyser vos données

Disposez vos données dans l’ordre numérique, du plus bas au plus élevé. Puis analysez-les pour identifier 5 grand ensembles numériques :

  • Le minimum (Q0 ou 0e centile) : le point de données le plus bas dans l’ensemble de données, à l’exclusion de toute valeur aberrante.
  • Le maximum (Q4 ou 100e centile) : le point de données le plus élevé dans l’ensemble de données, à l’exclusion de toute valeur aberrante.
  • La médiane (Q2 ou 50e centile) : la valeur centrale de l’ensemble de données.
  • Le premier quartile (Q1 ou 25e centile) : également connu sous le nom de quartile inférieur. C’est la médiane de la moitié inférieure de l’ensemble de données.
  • Le troisième quartile (Q3 ou 75e centile) : également connu sous le nom de quartile supérieur. C’est la médiane de la moitié supérieure de l’ensemble de données.

Créer votre graphique

Commencez par dessiner le graphique en créant un axe pertinent, étiqueté et gradué (soit vertical, soit horizontal). En vous basant sur le résumé à cinq nombres, dessinez ensuite une boîte qui s’étend du premier quartile au troisième quartile. Cela indique la plage des 50 % centraux des données. Ajoutez une ligne centrale à la boîte qui montre la médiane au milieu de la boîte.

Après cela, dessinez des lignes (ou moustaches) de chaque côté de la boîte pour montrer les valeurs minimum et maximum, à l’exclusion de toute valeur aberrante. Enfin, tracez les valeurs aberrantes au-delà des plages normales avec des points.

 

Découvrez dans notre Ebook comment partager vos données à travers un portail de données.

Parlons [ data product marketplace ]

En 30 minutes, découvrez comment Huwise peut vous aider à créer de la valeur pour tous dans votre organisation. Réservez votre démo personnalisée avec un de nos experts et laissez-vous guider.

Demander une démo