jeudi 27 octobre 2016

Le sport en France métropolitaine et le leurre cartographique

Dans ce post, nous allons voir comment réaliser un leurre cartographique, soit la réalisation d'une carte représentant un territoire totalement façonné par des données. Plus précisément, nous verrons la conception d'un territoire de la pratique sportive par départements en France.&nbsp






Territoire physique et territoire vécu

Le territoire physique, tout le monde le connaît. Le paysage se déploie sous nos yeux de façon continue, façonné par des variables non discrètes dans l'espace, à savoir le climat, le relief, etc... Mais le territoire perceptible est-ce il le seul qui existe ?

Nous pourrions imaginer qu'en surcouche de ce dernier flottent une multitude de nappes géographiques :
celui du patrimoine mémoriel, des références culturelles, historiques, celui des bises, du pain au chocolat ou de la chocolatine...

Pain au chocolat ou chocolatine par Adrien Van Hamme

Il s'agit des territoires perçus, vécus, ressentis, voire même parfois imaginés. Ils sont révélés par les sondages, les enquêtes d'opinion, sous la forme la plus courante de choroplèthes.


Le sport comme nouveau territoire

Le basket en France
Un article de matamix sur slate montrait comment le territoire pouvait se métamorphoser selon la pratique sportive. Ici, des rugueux ? Là, des footeux ? La carte se boursoufle selon ce que l'on pratique.
Dans la continuité de ce travail, je me suis posé la question suivante : considérant la pratique sportive dans les départements,  peut-on remanier le territoire selon le sport pratiqué par les français et, ainsi, faire figurer, cote à cote, des départements où l'on pratique à peu près le même sport ?


Réalisation  d'un "leurre cartographique"

Intégration du fichier et remaniement du tableau

J'ai donc récupéré le fichier des licences sportives de 2013 depuis data.gouv.fr. C'est celui-ci qu'a également utilisé matamix.
Le fichier recense à la fois les sports olympiques et non olympiques. J'ai choisi de me concentrer seulement sur les sports olympiques.
Le fichier est au format long :
Le fichier des licences vu dans le logiciel RStudio
Nous n'extrayons que les sports olympiques (dont le code fédé commence par 1).
Il serait davantage intéressant de le convertir au format large. Nous aurions alors une colonne par pratique sportive. Hop, ça y est, on a notre fichier au format large :

Format large : une ligne par communes et les sports en colonnes

Il nous suffira juste d'agréger les valeurs pour avoir des stats départementales et non communales.

Des stats communales aux stats départementales


Remaniement spatial

Chaque département peut être positionné dans un espace de dimensions égales au type de sport. C'est comme si on était dans un graphique non pas avec deux axes abcisse et ordonnée, mais 31 axes correspondant aux 31 sports pratiqués.

exemple de 21 points dans un espace à 5 dimensions (♪ musique de X Files )
Ce qui signifie que dans cet espace à 31 dimensions, la distance entre chaque département donne une indication de leur similarité en terme de pratique sportive. Nous calculons la matrice de distance entre chaque département dans cet espace. Le résultat est un tableau de contingence avec la distance euclidienne entre tous les départements dans l'espace considéré.

matrice des distances (euclidiennes) entre départements selon les sports pratiqués

Et si nous essayions de ramener cet espace de 31 dimensions dans un espace de 2 dimensions X et Y, soit un espace représentable sous forme de carte ? Cela peut être accompli avec la technique de positionnement multidimensionnel qui affectera une position dans l'espace à chacun de nos départements en partant de la distance qui sépare chacun. Voici ce que cela donne :

Multi Dimensional Scaling

Si l'on colorie les points de ce graphique et la carte des départements en fonction de leur classe selon la méthode des k-moyennes, on obtient ça :

méthode des k-moyennes avec 5 classes selon la pratique sportive

Au positionnement géographique et aux caractéristiques topographiques des départements semblent répondre les classes des k-moyennes. On voit un groupe de départements violet, où prédominent les départements alpins. On voit un groupe vert au Nord comprenant au Sud la Gironde.

Pour investiguer plus largement la carte et quels sports sont majoritaires dans chaque classe, il aurait fallu faire une moyenne des licenciés par sport, par département et par classe. Nous n'avons pas réalisé ce calcul ici, mais on trouvera à la fin une heatmap qui pourra nous donner satisfaction..


Du nuage de points au faux relief

Pour faire une carte, cela peut amplement suffire..mais s'il s'agit de stimuler l'attention et l'imagination de celui qui lira la carte, il faudra sans doute un peu plus faire d'efforts. Pourquoi ne pas emprunter les codes usuels de la cartographie ?

Comme l'objectif est de partir d'un territoire pour arriver à un autre, complètement remanié selon des variables fournies en entrée, nous allons tenter de travestir ce modeste graphique X Y en carte, laissant penser que ce territoire existe vraiment.

Le premier "trick" consiste à transformer ce "nuage" de points en relief. Pour cela, on le convertit en carte de chaleur.
hitmap ! heu, une carte de densité ou de chaleur

Cette carte de chaleur fournit un ersatz de modèle numérique de terrain, auquel on affecte des codes couleur selon l'altitude, qui évoquent successivement la mer, le sable chaud, la montagne et ses forêts.

Des couleurs choisies avec soin métamorphosent une simple heatmap en archipel

De ce faux MNT, on dérive un ombrage :

De tout MNT et surface continue, on peut dériver un ombrage (hillshade)

On ajoute le relief, l'ombrage avec un peu de transparence, puis les noms de départements. Et voilà : on obtient une "fausse carte" :

(Cliquez pour voir en grand)


La heatmap de la pratique sportive

Si vous souhaitez confronter la carte avec les données sportives, voici une heatmap créée sous R et "designée" sous QGIS :
Une heatmap dont le rendu a été fait dans QGIS : si, si !
(cliquer pour voir en grand)

En fait, c'est un raster que j'ai polygonisé et dont j'ai fait le rendu sous QGIS. Comme quoi on peut tout à fait colorier des graphiques sous QGIS sur la base de données produites sous R. Cette heatmap utilise des données recentrées afin de pouvoir comparer des pratiques sportives minoritaires avec des plus généralisées. Ca pourrait valoir le coup que j'explique comment j'ai produit ça dans un prochain post.

On peut remarquer sur la carte des choses assez banales, et d'autres plus peu surprenantes :
  • Si les départements alpins, y compris ceux de Corse sont assez proches, Jura et Vosges, bien qu'étant aussi des départements montagneux, sont à part, de mêmes que  les Pyr. Orientales.
  • Val de Marne, Hauts de Seine, Seine Saint Denis sont aussi proches sur cette carte. Essonne, Yvelines et Val d'Oise sont pourtant tout à fait ailleurs. Paris est éloigné du reste.
  • La Seine-et-Marne partage le même îlot que l'Isère et la Gironde, et avec la heatmap, on voit que l'on y pratique l'aviron et la voile.
  • Le Nord et le Pas-de-Calais sont fans de hockey sur glace.

Je vous laisse le soin d'apporter vos propres observations...

Aucun commentaire:

Enregistrer un commentaire