Le groupe français de l'Open Knowledge Foundation : promouvoir le savoir libre

Open Data Census – Evaluer l’ouverture des données publiques en France

Le 01/01/2013 dans Open Data

L’Open Data Census est une initiative lancée par l’Open Knowledge Foundation en avril 2012 pour recenser les principaux jeux de données ouverts à travers le monde. Les résultats par pays sont disponibles sur le site http://dashboard.opengovernmentdata.org/. Nous vous livrons dans cet article le détail des résultats pour la France.

Fiche de recensement 1856 en France – Crédit: INSEE

L’objectif du recensement est d’évaluer une démarche open data en se focalisant sur les données plutôt que sur les dispositifs politiques du pays. Mettre l’accent sur les données permet d’avoir un indicateur clair et lisible, même si il n’est pas exempt de critiques, et de questionner en retour la démarche open data mise en place.

Les 10 jeux de données recensés

L’Open Data Census a défini une liste de 10 jeux de données clés au niveau national. Ces jeux de données ont été retenus car ils représentent un intérêt pour les citoyens et les acteurs économiques. Ils sont régulièrement cités dans les consultations comme des jeux de données emblématiques d’une démarche open data. Bien entendu, l’importance d’un jeu de données dépend aussi du contexte du pays, son niveau de développement, ses infrastructures, son régime politique, etc. Cette liste, non exhaustive, pourra être complétée par la suite.

Voici les jeux de données retenus pour l’Open Data Census:

  • Résultats des élections
  • Registre des entreprises
  • Fonds de cartes géographiques (résolution 1:250000 ou mieux)
  • Budget de l’état (projections de dépenses par secteurs)
  • Dépenses de l’état (dépenses réalisées – niveau transactionnel)
  • Textes de loi
  • Statistiques nationales (informations économiques et démographiques)
  • Codes postaux géolocalisés
  • Horaires des transports publics
  • Sources de pollutions (localisations, émissions)

D’autres organisations ont défini des critères pour évaluer une démarche open data : c’est le cas de la Banque Mondiale.

Critères d’évaluation

Le degré d’ouverture d’un jeu de données est mesuré en répondant à 7 questions.

Est-ce que les données …

  1. existent ?
  2. sont dans un format numérique ?
  3. sont dans un format lisible par un logiciel ? (ex: csv et non PDF)
  4. sont agrégées dans un seul jeu de données ?
  5. sont disponibles gratuitement ?
  6. sous licence ouverte ? (selon l’opendefinition)
  7. sont à jour ?

Résultats

Commentaire général

Au niveau mondial 34 pays disposent d’un catalogue national recensé sur Open Data Census.

33 jeux de données sur 171 recensés satisfont l’ensemble des critères d’ouverture.

Au niveau de la France, la première remarque est qu’il n’y a ni indicateurs ni suivi statistiques d’ouverture des données. Ceci rend la démarche open data française difficile à évaluer et démontre aussi l’intérêt d’un exercice tel que l’Open Data Census.

Concernant les résultats du recensement, un grand nombre de données clés sont disponibles au niveau national mais sont souvent dispersées dans de nombreux jeux de données (ventilés par sous-territoires, périodes, ou autres critères). Cette barrière à la réutilisation  peut être facilement levée en agrégeant les jeux de données uniques mais aussi en mettant en avant plus fortement les jeux de données couvrant l’ensemble du territoire.

Enfin, parmis les jeux de données recensés par l’Open Data Census, certains sont encore totalement inaccessibles en France. C’est de cas des dépenses publiques, des registres des entreprises, et des codes postaux.

 

Open Government Data Census – http://dashboard.opengovernmentdata.org

Résultats par jeu de données

Résultats des élections – Ouvert

Les jeux données concernant les suffrages de l’année 2012 satisfont les critères d’ouverture. On ne peut cependant pas accéder aux données par bureau de vote ; le niveau le plus bas étant la commune ou la circonscription.

Les données des précédentes élections sont disponibles de manière inégale suivant les suffrages.

Intérêt

  • Contrôle par les citoyens du processus démocratique.
  • Utiles à l’enseignement, à la recherche, aux partis politiques, etc.

Statistiques nationales – Ouvert

Les résultats du recensement national de l’INSEE sont disponibles mais dispersés dans 291 964 jeux de données. Les indicateurs économiques comme les indicateurs socio-professionnelles  sont dispersés par communes dans 141 363  jeux de données.

Intérêt

  • Les données économiques et démographiques d’un territoire sont indispensables à sa gestion.
  • Elles sont utiles pour un très grand nombre d’acteurs (économie, santé, transport, aménagement du territoire, etc.) et permettent d’enrichir applications et services utiles aux citoyens.

Budget de l’état (projections de dépenses par secteurs) – Semi-ouvert

On peut trouver sur data.gouv.fr des données à exploiter sur les finances publiques de l’Etat, notamment les données sur le Projet de Loi de Finance 2013 mais ces données sont dispersées.

Intérêt

  • Le trésor doit être réellement public.
  • Les fonds publics ont pour source les prélèvements obligatoires sur les citoyens et les entreprises. Ceux-ci doivent en retour être capable d’accéder, de comprendre, de suivre, et d’analyser le budget de l’Etat ainsi que les processus de décision qui conduisent à sa mise en place et à son éxecution. C’est un principe de transparence et de responsabilité de l’Etat.
  • Au delà de l’accès aux données, c’est la complexité du processus de programmation budgétaire et des finances publiques qui est le premier frein à la compréhension de la dépense publique. Ouvrir les données sur les finances publiques, c’est aussi réfléchir à la simplication de cette gestion.

Dépenses de l’état (dépenses réalisées – niveau transactionnel) – Fermé

La loi qui régule les dépenses publiques en France, la LOLF, n’exige pas de transparence envers le citoyen, seulement envers les parlementaires.  Le nouveau système d’information CHORUS qui gère les dépenses publiques de l’Etat n’intègre pas, à notre connaissance, d’exportation de ces données vers le public comme le fait le Royaume-Uni avec COINS.

Intérêt

  • C’est un principe de bonne gestion des dépenses publics.
  • Le controle des dépenses publiques par ceux qui les financent au niveau national et local.
  • Lutte contre la corruption et le traffic d’intérêt.

Textes de loi – Fermé

Données non disponibles en licence ouverte. Les données sur les textes législatifs et réglementaires sont détenues et gérées par la DILA.

Intérêt

  • Nul n’est censé ignorer la loi.
  • Réfléchir et participer ensemble à la réforme et à l’écriture des textes de loi.
  • Identifier de nouvelle manière de comprendre la loi, son évolution et son périmètre.

Horaires des transports publics – Ouvert pour SNCF Transilien, Intercités, TER

Au niveau national, la SNCF a libéré les horaires des trains Transilien, Intercités et TER. Les horaires des TGV ne sont pas encore disponibles.

Au niveau local, Keolis Rennes fournit des données et API donnant par exemple accès aux horaires théoriques et temps réel des passages des bus.

Intérêt

  • Le changement climatique nécessite un usage accru des transports publics ; l’intermodalité ne peut se faire qu’avec une information voyageur performante et efficace.  L’accès aux horaires, aux lignes et aux données temps réel deviennent  essentielles pour développer des services qui nous permettent d’organiser nos déplacements et gérer l’imprévu plus facilement. Le développement d’applications par la société civile et les entreprises ne peut qu’améliorer l’offre de services en matière d’information voyageur. 

Sources de pollution – Semi-ouvert

Les données sont disponibles mais dispersées dans plus de 300 jeux de données.

Intérêt

  • Connaitre la qualité de l’air que l’on respire.
  • Controler, identifier et responsabiliser les pollueurs.

Fonds de carte (résolution supérieure à 1:250000) – Semi-ouvert

L’IGN propose des données en licence ouverte dont les fonds de carte en résolution 1:5 400 000  ainsi que la description des unités administratives et  les relevés de niveau. Néanmoins, les fonds de carte sont publiés dans des formats (PDF, JPG) ne permettant pas leur réutilisation dans un système d’information géographique.

Intérêt

  • Pouvoir se situer sur un territoire, localiser un lieu, etc.
  • Un très grand nombre d’applications et de services en ligne utilisent des fonds de carte numériques.
  • Indispensable à l’éducation.

Registre des entreprises – Fermé

Le registre des entreprises (base SIRENE) est le seul jeu de données commercialisé par l’INSEE. II lui rapporte 9 M€/an.

Intérêt

  • Nous sommes dans une économie de marché. Les données concernant les acteurs économiques d’un secteur devrait être disponibles à tous, sans restrictions.
  • Les activités des acteurs économiques ont également un impact, hors du marché, sur les citoyens. Ceux-ci ont droit d’accéder au registre des entreprises sans passer par un service tiers.

Codes postaux (géolocalisés) – Fermé

Le fichier HEXAPOSTE détenu par La Poste contient la totalité des codes postaux des communes françaises. Il ne contient cependant aucune donnée de géolocalisation.

Intérêt

  • Très utile pour les applications et services : le code postal est un référentiel pour identifier les communes avec précision.

La suite ?

Ce résultat est le fruit d’un travail collaboratif mais peut encore comporter des erreurs. Pour tout ajout ou correction, vous pouvez laisser un message en commentaire sur cette page, lancer une discussion sur notre liste de diffusion (inscription sur page d’accueil du site) ou bien ajouter directement les informations sur un jeu de données sur le site http://dashboard.opengovernmentdata.org/.

Nous comptons enfin sur votre participation pour mettre à jour l’Open Data Census en fonction de l’évolution du statut des différents jeux de données.

 

5 réponses à Open Data Census – Evaluer l’ouverture des données publiques en France

  1. Merci pour l’analyse. C’est intéressant. On s’était livrés il y a qq mois à un exercice de benchmark quantitatif des catalogues opendata FR-UK-US. Disponible ici : http://www.slideshare.net/cvincey/opendata-benchmark-fr-vs-uk-vs-us

    Ca pourrait être intéressant de rafraîchir ce travail en l’enrichissant avec votre approche, beaucoup plus ‘quali’.

  2. Bonjour Cyrille, oui je me souviens bien de votre benchmark, n’hésitez pas à y inclure les résultats de ce rencensement pour la prochaine version,

    Il y a en tout cas une vrai réflexion à mener sur l’évaluation et la mise en place d’indicateurs pour une démarche open data.

    Je citerais à ce propos le travail de la Web Foundation qui a mis en place l’open data index (indicateur composite pour les pays) http://www.webfoundation.org/2012/09/introducing-the-open-data-index/ et data.gov.uk qui permet de noter directement sur le site la qualité d’un jeu de données http://data.gov.uk/dataset/staff-organograms-and-pay-defra

  3. Claire a écrit 02/01/2013

    Bonjour Pierre,

    Merci pour ce récapitulatif.
    A savoir cependant qu’il existe bien un outil de référencement et évaluation de l’ouverture des données en France (et ailleurs) http://odalisk.org/
    Pour l’ouverture des données transports, il y a également d’autres initiatives locales en plus de Kéolis, Semitan (Nantes), Tisseo (Toulouse), etc

  4. Leobet a écrit 03/01/2013

    Bonjour,
    Benchmark intéressant international : on se demande toujours où nous en sommes par rapport aux autres. Pour l’aspect national, toutefois, le biais de ne compter que les données disponibles sur un seul site central. Est-ce vraiment adapté au web? Par exemple, les données sur la qualité de l’air sont produites par les AASQA et centralisées par l’INERIS, disponibles dans un format normalisé ici.
    L’INERIS présentera son travail aux prochains Data Tuesday.

  5. Merci pour le lien vers la page de l’INERIS, je ne trouve cependant aucune mention de droit de réutilisation des données.

    Sur l’Open Data Census, ce type d’exercice comporte bien entendu un certain nombre de biais. S’agissant des données de pollution par exemple, l’OKFN à choisit d’évaluer à la fois les jeux de données sur la localisation des sources de polluants et les émissions (relevés) elles mêmes. Ce qui peut être discutable.

    Mais nous ne nous sommes pas restreints au seul portail data.gouv.fr.
    Cependant, toute la problématique de la recherche d’information sur le web tient au référencement. Pour l’Open Data cela passe notamment par des pointeurs et index vers les données publiques réutilisables techniquement et légalement et dont nous ne connaissons pas nécessairement le producteur ou le site de référence. Data.gouv.fr est l’un de ces index. Un citoyen doit-il d’abord connaitre INERIS et les AASQA pour trouver les données sur la qualité de l’air ?

    Ravi d’en discuter au prochain Data Tuesday.

Répondre

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <section align="" class="" dir="" lang="" style="" xml:lang=""> <style media="" type="" scoped="">

12 Rétroliens