Le 15 juin 2014, durant le festival Futur en Seine, l’Open Knowledge Foundation France a organisé une “expédition de données” sur la pollution de l’air en Île-de-France, dans le cadre de l’Infolab organisé par la Fondation Internet Nouvelle Génération (FING). Les expéditions de données sont un des formats d’événement organisés dans le cadre du projet École des données. Comme leur nom l’indique, il s’agit d’un travail d’exploration : à partir d’une problématique initiale, un groupe de participants accompagné d’un guide, choisit une ou plusieurs approches à analyser. Ils explorent ensuite la problématique en fonction de l’approche choisie avec pour objectif final de communiquer un résultat.
Le thème de la pollution de l’air en Île-de-France a été choisi pour son actualité et le fait que certaines sources de données évidentes semblaient exister : AirParif bien sûr, celles de l’association Citoyens Capteurs, mais aussi sur les transports comme la plateforme Open Data du service Vélib, ou encore des jeux de données de la RATP. L’expérience a été globalement positive avec une méthodologie appréciée des participants et la production de pistes pour aller plus loin. Et cela, malgré un sujet complexe et peu de données disponibles en open data. Retours en chiffres et graphiques sur l’expédition.
14 Le nombre de participants à l’expédition
Les participants ont eu à noter de 0 à 3 leurs compétences en tant que Narrateur, Explorateur, Technicien de données, Analyste et Designer. Il en est ressorti que certaines compétences étaient inégalement réparties (analyste, technicien de donnée, designer), voire divisaient le groupe en deux (exploration). La compétence narration était la seule à être également partagée.
3 Le nombre d’angles choisis
Après une phase de réflexion collective sur les questions intéressantes autour du thème de la pollution de l’air en île-de-France (phase “approche”), cinq grandes questions ont émergé. Trois de ces questions ont été explorées par les participants, répartis en autant de groupes :
-
Groupe 1 : Quel est l’impact des grèves sur la qualité de l’air ?
-
Groupe 2 : Est-ce que la pratique du vélo fait diminuer la pollution ?
-
Groupe 3 : Tous les territoires sont-ils égaux face à la pollution ? (comparaison internationale entre capitales)
Fait notable, la question sur les grèves venait de Twitter, posée par @fcharles.
10 Le nombre de sources de données qui ont été exploitées
Airparif, data.gouv.fr, l’Agence européenne pour l’environnement… des sources très variées ont été étudiées (phase “données”) afin de récupérer les données utiles à l’expédition. Parmi les 14 jeux de données récupérés, les plus utilisés ont été ceux de Airparif, qui décrivent l’évolution des quatre principaux polluants (SO2, NO2, O3, PM10*), depuis 1999. Le groupe travaillant sur l’impact du Vélib a fait appel à la twittosphère pour trouver des données d’usage du Vélib, avec succès : 2 jeux de données ont été rendus publics, par Matthieu Arnold (@Mat_A) et Etienne Côme (@comeetie).
@LiberTIC @okfnFr Ouaip, @Mat_A a stocké ça (visible sur http://t.co/rj655c9Lwf)
— Mathieu (@slasherfun) 15 Juin 2014
Test de diffusion (vite fait) de données historique VLS http://t.co/ZKn6F6dcB9 cc @okfnfr @LiberTIC @jvinzent @slasherfun @Velib_Paris
— etienne côme (@comeetie) 17 Juin 2014
0 Le nombre de corrélations significatives observées
Eh oui ! Mais pas de résultats concluants ne veut pas dire pas de résultats du tout. Le sujet était ambitieux, et les données souvent incomplètes, voire non disponibles (phase « analyse »).
Groupe 1 : ce groupe s’est intéressé à la grève de la SNCF datée du 11 juin 2014.
Hypothèse : en mesurant les niveaux de pollution pendant et après la grève, on peut faire apparaître l’impact sur la pollution de l’air.
Résultat : la comparaison des niveaux de pollution pendant et après la grève n’a pas donné de résultats significatifs.
Groupe 2 : ce groupe a voulu comparer l’évolution de l’usage du vélo et l’évolution des concentrations en polluants dans l’air.
Hypothèse : les vélos-taffeurs, en lâchant leur véhicule, contribuent à une baisse mesurable de la pollution de l’air.
Difficulté rencontrée : les données brutes d’Air Parif sont complexes à manipuler, ce qui n’a pas laissé le temps d’aller jusqu’au bout.
Groupe 3 : ce groupe a entrepris de créer un jeu de données sur différentes capitales mondiales pour comparer leurs données géographiques, démographiques, de transport et de pollution.
Hypothèse : En comparant assez de variables, on peut observer quels caractéristiques sont le plus liées à la pollution de l’air.
Résultat : Même visualisé dans un graphique en bulles, aucune tendance n’est ressortie du jeu de donnée.
3 Le nombre de jeux de données créés ou enrichis
L’expédition sert aussi à créer de la valeur ajoutée, à travers des jeux de données enrichis voir créés :
Groupe | Jeux de données | Sources |
2 | Évolution mensuelle du trafic de vélo à Paris depuis 2008 | Observatoire des déplacements à Paris |
2 | Données géolocalisées des capteurs de pollution de Airparif concernant les 4 principaux polluants (données non diffusables) | Airparif |
3 | Données de démographiques, géographiques, de transport et de pollution aux particules fines pour Paris, Londres, Berlin, Madrid, Bruxelles, Copenhague, Amsterdam | Earth Policy Institute Agence européenne de l’environnement Commission européenne Air Quality Index Eurostat |
A noter que les données modifiées d’Airparif ne peuvent pas être diffusées, pour respecter les termes de l’association. Ce qui est étonnant pour une association effectuant une mission d’intérêt général par délégation de l’Etat.
Quelques autres chiffres :
0 | Le nombre de données vraiment en Open Data utilisées. Les données récoltées étaient soit issues de rapports au format PDF, soient n’avaient une licence compatible open data. |
15 | Le nombre approximatif d’heures nécessaires de préparation du sujet de l’expédition. Et c’est sans compter l’organisation elle-même. |
5 | Le nombre d’outils différents utilisés : LibreOffice, Google Spreadsheets, R, Google Charts, Open Data Soft |
270 | Le nombre de minutes qu’a duré l’événement. De 11h30 à 16h00 |
[pdfjs-viewer url=https://fr.okfn.org/files/2014/06/OKF-EDpollution-Guide-ressources-.pdf viewer_width=600px viewer_height=400px fullscreen=true download=true print=true openfile=false]